Inzet van SEO voor betere zichtbaarheid in LLM’s: de mogelijkheden en onmogelijkheden

Mijn LinkedIn tijdlijn wordt momenteel overspoeld met berichten over ‘zichtbaarheid in AI-zoekmachines’. Elke dag zie ik goedbedoelde tips voorbij komen die prediken je zichtbaarheid in Large Language Models zoals ChatGPT, Perplexity en Gemini te kunnen beïnvloeden. Er zijn bureaus die een nieuwe dienst uit de grond stampen en dit vermarkten als hét nieuwe SEO. Er wordt zelfs een geheel nieuwe naam aangegeven: Generative Experience Optimization. Maar in hoeverre kunnen wij als SEO specialisten nu de output in deze LLM’s beïnvloeden en moeten we dit momenteel wel willen nastreven? Ik ging op onderzoek uit en deel in dit artikel mijn ervaringen.
TL;DR
De uitdagingen van zichtbaarheid en monitoring binnen Large Language Modellen
- Elk model kan een ander antwoord genereren. Het kan zijn dat je zichtbaar bent in het ene model, maar onzichtbaar in het andere model voor een bepaalde prompt. De modellen zijn constant in ontwikkeling. Het model wat nu als “standaard” wordt gebruikt in ChatGPT, is over een aantal maanden verouderd.
- De output van een LLM kan bij elke kleine aanpassing compleet veranderen. Kwalitatief je zichtbaarheid monitoren lijkt praktisch onmogelijk. Anders dan traditioneel zoeken, worden er geen keywords gebruikt. Het is ook niet inzichtelijk hoe mensen zoeken binnen een ChatGPT of Gemini. Je komt eerder tot een goed bedoelde benadering van de werkelijkheid.
- Elke prompt is zo goed als uniek. Daarnaast zijn de antwoorden die gegenereerd worden niet altijd consistent. Het ene moment kan je zichtbaar zijn, een dag later niet meer.
- Sommige modellen gebruiken locatie- en personalisatie gegevens om resultaten te verbeteren. Het kan dus zijn dat jij een ander antwoord (en dus andere bronnen) te zien krijgt dan ik.
- Modellen zoals Claude zijn op basis van trainingsdata tot een bepaalde periode. Je kan optimaliseren tot je een ons weegt, directe invloed kan je toch niet uitoefenen.
- De kwaliteit van de output is afhankelijk van je prompt en het model dat je gebruikt. Uit tientallen handmatige tests over de gehele customer journey blijkt dat de kwaliteit per LLM enorm kan verschillen.
- Onwaarheden: Uit de testen bleek ook de enorme hoeveelheid onwaarheden in de output schrikbarend. Verkeerde locatiegegevens, onjuiste verbanden en onwaarheden over merken.
SEO & LLMs
Zie LLM-zichtbaarheid als het logische gevolg van een ijzersterke online basis, niet als een aparte, wispelturige tactiek. LLM-zichtbaarheid (zoals in ChatGPT, Gemini, Claude en Perplexity) draait om een sterke online fundering. Besef dat LLM’s informatie uit diverse bronnen kunnen halen. Dat betekent dat het belangrijk is om op meerdere plekken online vertegenwoordigd te zijn. Kernpunten zijn o.a. autoriteit, reputatie, associatie en diverse en kwalitatieve content. De focus moet liggen op het helpen van de klant en waar de doelgroep aanwezig is op het web. Geef unieke diepgaande antwoorden op vragen en belicht verschillende kanten van je product of dienst. Dit betekent dat de principes van goede SEO, digitale PR en contentmarketing relevanter zijn dan ooit. Let er op dat je AI crawler bots niet uitsluit die gebruikt worden als training voor LLM’s.
Nuance
Bedrijven en marketeers maken vaak gebruik van hypes om hun producten of diensten te promoten. Door een gevoel van urgentie en exclusiviteit te creëren, kunnen ze consumenten ertoe aanzetten om te kopen of een gevoel geven van FOMO. Je ziet het vaker in SEO dat iets wordt aangekondigd als the next big thing. Denk aan voice search, mobile first of uitrol van core web vitals. Het is zeker essentieel om boven op de nieuwe ontwikkelingen en technologieën te zitten, zeker als het van waarde is voor organisaties.
Echter, voordat je een hype omarmt, is het essentieel om kritisch te kijken naar de data en de daadwerkelijke impact ervan. Stel vragen als:
- Wat zijn de bewijzen dat dit werkt en hebben we er echt daadwerkelijk invloed op?
- Wat zijn de potentiële risico’s/valkuilen?
- Hoe past dit in onze strategie en doelstellingen?
Huidig gebruik van Google vs ChatGPT
Google deelde in maart 2025 het gegeven dat er elk jaar 5 biljoen (5 trillion in Amerika) zoekopdrachten worden uitgevoerd. Ik moest het voor de zekerheid even opzoeken, maar dat is een 1 met 12 nullen. Dat zijn 417 miljard zoekopdrachten per maand. De laatste keer dat deze data gedeeld werd was in 2016. Toen waren er jaarlijks meer dan 2 biljoen zoekopdrachten. Een stijging van 150% tussen 2016 en 2025.
In januari 2025 melde ChatGPT 3.8 miljard bezoekers. Nu is het zo dat het aantal zoekopdrachten niet overeenkomt met het aantal gebruikers, maar wanneer je dit in perspectief plaatst is het aandeel dat ChatGPT t.o.v. Google search niet meer is dan een paar procent. Ook wordt ChatGPT niet enkel als zoekfunctie gebruikt.
Wat wij als SEO specialisten zien is niet representatief
Wij als SEO specialisten zien misschien grote veranderingen, maar de “gewone” gebruiker heeft niet eens door of er op een betaald of organisch resultaat wordt geklikt. Als Google een radicale verandering zou doorvoeren in de interface, zouden veel mensen daar waarschijnlijk weerstand tegen bieden, zelfs als de nieuwe interface objectief gezien beter zou zijn. Dit is waarom Google ook altijd aanpassingen in de search omgeving uitgebreid test.
Het marktaandeel van Google in februari 2025 is nog altijd boven de 90% in Nederland. Dit is al meer dan 10 jaar zo. Menselijk gedrag verandert niet zomaar. We zijn gewend aan de manier waarop traditionele zoekmachines werken: een zoekterm intypen en vliegensvlug een “lijst” met resultaten krijgen. Google is al jarenlang de dominante zoekmachine. Mensen zijn gewend aan de interface en de functionaliteit. Google heeft in de loop der jaren kleine aanpassingen gemaakt aan de interface, maar de basisstructuur is hetzelfde gebleven.
Hoe mensen kunnen zoeken naar informatie verandert
Dat het marktaandeel nog steeds zo hoog is, betekent trouwens absoluut niet dat er geen verschuiving plaatsvindt. Google en Bing geven met AI Overviews en CoPilot een nieuwe dimensie aan het zoeken van informatie. Daarnaast is de opkomst van ChatGPT zeer indrukwekkend te noemen. In oktober 2024 waren er nog 250 miljoen wekelijkse gebruikers. In februari 2025 zijn dit er al 400 miljoen. Ook is in analytische tools zoals Google Analytics 4 steeds vaker zichtbaar dat gebruikers op de website zijn gekomen via ChatGPT, Perplexity of Gemini. Het is dan ook niet meer dan logisch dat organisaties zich afvragen hoe LLM’s een rol kunnen spelen in de vindbaarheid van hun organisatie.
In het kort: Hoe werken LLM’s
Om te begrijpen of je invloed kan oefenen op de output van LLM’s is het belangrijk hoe de output van deze modellen tot stand komt. LLM’s zijn geavanceerde tekstgeneratiemodellen die patronen hebben geleerd uit enorme datasets waarop ze zijn getraind. Ze genereren tekst op basis van statistische waarschijnlijkheden, waarbij ze voorspellen welke woorden elkaar opvolgen. Stapsgewijs ziet dat er zo uit:
- Input: De gebruikers geeft input op basis van een prompt
- De LLM splitst de input op in individuele “tokens” (woorden of delen van woorden)
- Elk token wordt omgezet in een numerieke representatie (een vector) die de betekenis en context van het woord vastlegt.
- De LLM analyseert de reeks tokens om de relaties en afhankelijkheden tussen de woorden te begrijpen.
- Gebaseerd op de context en de getrainde kennis, voorspelt de LLM het meest waarschijnlijke volgende token.
- Dit proces herhaalt zich, waarbij de LLM steeds het volgende woord voorspelt totdat een volledig antwoord is gegenereerd.
- Decoding: De numerieke representaties worden terug omgezet in woorden (de output)
- Modellen worden verbeterd door de inzet van menselijke feedback
Een LLM is geen klassieke zoekmachine. Een traditionele zoekmachine haalt informatie op uit een enorme database (index) en toont links naar webpagina’s. Voor up-to-date informatie is een echte zoekmachine betrouwbaarder, tenzij het LLM directe webtoegang heeft.
Rol van LLM’s in traditionele zoekmachines
Er is een verschil tussen zichtbaarheid binnen ChatGPT, Claude, DeepSeek of Gemini en een traditionele zoekmachine met AI features zoals Google AI overviews en Bing Copilot. AI overviews en BingCopilot zijn integraties van LLMs binnen een zoekmachine en dienen als doel de gebruiker van een informatie te voorzien, terwijl een LLM zoals ChatGPT veel meer andere toepassingen heeft dan enkel search.
Google AI Overviews worden gegenereerd met behulp van een combinatie van LLM’s (Gemini) en Google’s enorme kennisbank en index. Bij het uitvoeren van een zoekopdracht wordt informatie uit de index en knowledge graph van Google gehaald. Voor het tot stand komen van het komt er middels de inzet van een LLM een natuurlijk antwoord uit dat geformuleerd is uit meerdere bronnen. Dit hoeft niet enkel tekst te zijn, maar dit kunnen ook andere type content zijn zoals video en afbeeldingen.
Retrieval Augmented Generation (RAG)
Steeds meer zoekmachines combineren de kracht van LLM’s met een zoekfunctionaliteit.
RAG, ofwel Retrieval-Augmented Generation, is een techniek die Large Language Models in staat stelt om te putten uit externe gegevensbronnen om nauwkeurigere en meer relevante antwoorden te genereren. Dit betekent dat wanneer een gebruiker een vraag stelt, het systeem niet alleen vertrouwt op de getrainde dataset van de LLM, maar ook op externe data, zoals directe toegang tot het web.
Een aantal voordelen zijn:
- RAG vermindert de kans op “hallucinaties” (onjuiste of verzonnen informatie) door LLM’s te voorzien van externe informatie.
- RAG maakt het mogelijk om LLM’s te voorzien van actuele informatie, wat essentieel is voor toepassingen die afhankelijk zijn van realtime gegevens.
- Het kan bronnen vermelden waar de informatie vandaan komt
RAG wordt gebruikt in verschillende AI toepassingen. Google’s AI Overviews, Bing’s CoPilot en Perplexity zijn hier voorbeelden van.
De uitdagingen (onmogelijkheden) van het optimaliseren voor LLM’s
De datasets waarop de LLM’s getraind zijn, bepalen de informatie in de output. Daar zet nu net de crux. Elk LLM’s is anders en hebben ook weer verschillende modellen. OpenAI heeft afgelopen twee jaar verschillende versies van ChatGPT uitgebracht met unieke kenmerken en verbeteringen. Elk van deze modellen is ontwikkeld met specifieke verbeteringen en toepassingen. Dit varieert van multimodale verwerking tot geavanceerde capaciteiten en kostenefficiëntie.
Door middel van onderstaand voorbeeld krijg je een idee hoe de output van verschillende modellen kan verschillen:
Stel je bent op zoek naar een nieuwe voetbalschoen. En je gebruikt de volgende prompt:
Ik ben op zoek naar een nieuwe voetbalschoen. Ik ben een middenvelder met veel loopvermogen en technisch inzicht. Het merendeel van de wedstrijden wordt gespeeld op normaal gras. Ik heb maat 44 en een redelijk brede voet. Prijs kan buiten beschouwing worden gelaten en ik heb een voorkeur voor een zwarte schoen. Welke vijf schoenen raad je aan en waarom.
De output van verschillende modellen is als volgt:
Gemini 2.0 Flash:
- Nike Phantom GX Elite
- Adidas Predator Accuracy+
- Puma Future Ultimate
- Mizuno Morelia Neo lll Beta
- Nike Tiempo Legend 10 Elite
Output ChatGPT 4o:
- Adidas Predator Elite FG
- Nike Tiempo Legend 10 Elite
- Puma Future Ultimate
- Mizuno Morelia Neo IV Beta
- New Balance 442 V2 Pro FG
Output Perplexity
- Nike Phantom GX
- Adidas Copa Sense
- Nike Tiempo Legend
- Puma Future Z
- Adidas Predator
Output Claude
- Nike Phantom GX
- Adidas Copa Sense
- Puma Future Ultimate
- Mizuno Morelia Neo lll
- New Balance Tekela v4
Tot zover niks geks. Ik zie zowel overeenkomsten als verschillen tussen de output van Gemini, Perplexity, Claude en ChatGPT. Logisch, want de modellen zijn getraind op een iets andere dataset. Gebruik je een ouder model van ChatGPT (de 4.0 versie), dan krijg je de volgende output:
- Nike Tiempo Legend 9 Elite
- Adidas Copa Mundial
- Puma Future Z 1.2 FG/AG
- Mizuno Morelia Neo III β Japan
- New Balance Tekela V3 Pro FG
Dit zijn 5 compleet andere schoenen dan in het voorbeeld van ChatGPT 4o.
Verschillende modellen betekent verschillende output
Het is interessant dat een LLM sommige voetbalschoenen wel toont en andere niet, zelfs als ze allemaal bekend en kwalitatief goed zijn. Dit kan verschillende oorzaken hebben, die te maken hebben met de manier waarop deze modellen getraind worden en hoe ze informatie verwerken:
- De data waarop een LLM getraind is, kan verouderd zijn. Nieuwe of opkomende merken die nog niet veel online aanwezigheid hebben, worden dan mogelijk niet meegenomen in de resultaten.
- De trainingsdata kan beïnvloed zijn door de regio waar de data vandaan komt. Als een LLM voornamelijk getraind is op data uit Amerika, kan het bijvoorbeeld Amerikaanse merken sterker vertegenwoordigen dan merken die populairder zijn in andere delen van de wereld.
- De datasets waarop LLM’s getraind worden, kunnen een oververtegenwoordiging van bepaalde merken bevatten. Dit kan komen doordat er online meer informatie beschikbaar is over die merken, bijvoorbeeld in de vorm van reviews, nieuwsartikelen en sociale media posts.
- Sommige modellen gebruiken web browsing en hebben een hybride model. Ze gebruiken de trainingsdata en data op het web.
Output van hetzelfde model is niet consistent
Daarnaast merk ik dat de output van de data niet consistent is. Een paar uur later is de uitkomst in Gemini weer veranderd waar wel precies dezelfde prompt wordt gebruikt
- Nike Phantom GX Elite
- Adidas Copa Pure
- Puma Future Ultimate
- Nike Tiempo Legend 10 Elite
- Adidas Copa Sense
In dit geval worden drie totaal andere voetbalschoenen getoond middels dezelfde prompt.
Wees je er van bewust dat elk model een ander antwoord kan genereren. Het kan zijn dat je zichtbaar bent in het ene model, maar onzichtbaar in het andere model voor een bepaalde prompt. De modellen zijn constant in ontwikkeling. Het model wat nu als “standaard” wordt gezien in ChatGPT, is over een aantal maanden niet meer de standaard.
Output verandert bij de kleine aanpassingen in je prompt
Stel je doet een kleine aanpassing in je prompt:
Ik ben op zoek naar een nieuwe voetbalschoen. Ik ben een middenvelder aanvaller met veel loopvermogen en technisch inzicht. Het merendeel van de wedstrijden wordt gespeeld op normaal gras. Ik heb maat 44 en een redelijk brede voet. Prijs kan buiten beschouwing worden gelaten en ik heb een voorkeur voor een zwarte schoen. Welke vijf schoenen raad je aan en waarom.
De output in Gemini 2.0 Flash:
- Nike Mercurial Vapor 15 Elite
- Adidas X Speedportal
- Nike Phantom GX Elite
- Adidas Predator Accuracy +
- Puma Ultra Ultimate
De output in ChatGPT4o
- Nike Premier lll
- Adidas Copa Pure
- Mizuno Morelia Neo III β
- Puma Future 7 Ultimate
- New Balance Furon v7 Pro
De output in Perplexity
- Nike Mercurial Superfly 9
- Adidas Predator
- Puma Future Z 1.4
- Nike Phantom
- Adidas X Speedflow 2
De output in Claude
- Nike Mercurial Vapor 15 Elite
- Adidas X Speedportal
- Puma Ultra Ultimate
- Mizuno Morelia Neo III Beta Japan
- New Balance Furon v7 Pro FG
Wat direct opvalt is dat er in veel gevallen andere schoenen worden aangeraden op basis van een enkele (wel essentiële) aanpassing in de prompt.
Als je de prompt nog wat tweaks geeft:
Ik ben op zoek naar een nieuwe voetbalschoen. Ik ben een middenvelder aanvaller met veel weinig loopvermogen en technisch inzicht. Het merendeel van de wedstrijden wordt gespeeld op normaal gras. Ik heb maat 44 en een redelijk brede voet. Prijs kan buiten beschouwing worden gelaten en ik heb een voorkeur voor een zwarte schoen. Welke vijf schoenen raad je aan en waarom.
- Adidas Predator Accuracy +
- Nike Tiempo Legend 10 Elite
- Adidas Predator Accuracy +
- Puma King Ultimate
- New Balance Tekela v4 Pro Low
Het is ook logisch dat de output verandert. Je verandert je prompt. De voorspelling die hierop volgt krijgt dan een heel andere wending.
Meer testen
Ik heb handmatig tientallen verschillende testen uitgevoerd van verschillende modellen in verschillende fases van de customer journey. Dit varieert van zoekintenties zoals conversie, vergelijking, informatie en lokaal. De belangrijkste bevindingen zijn:
- Verschillende LLM’s interpreteren de input anders, waardoor de output per LLM erg kan verschillen. Gemini en ChatGPT vragen veel door, terwijl GroK en DeepSeek het liefst een zo compleet mogelijk antwoord geven.
- LLM’s hebben niet altijd real-time data beschikbaar. Dit maakt modellen niet geschikt als zoekmachine wanneer real-time data gewenst is. Denk hierbij aan het opzoeken van lokale resultaten zoals adresgegevens, openingstijden etc, aanbevelen van oude producten, geen up to date reviews etc.
- De hoeveelheid hallucinaties die plaatsvinden is echt enorm. Dit maakt een LLM vaak geen betrouwbare bron voor het opzoeken van informatie. Als je gaat verifiëren of de informatie klopt in de output, kom je er achter dat onwaarheden op een dusdanige manier gepresenteerd worden dat het lijkt dat het antwoord klopt. Een aantal voorbeelden zijn winkels die bepaalde producten in hun assortiment hebben
De onmogelijkheden van het monitoren van je zichtbaar in LLM’s
Als de output bij elke kleine aanpassing compleet kan veranderen en de output elk moment kan veranderen, hoe monitor je dan in welke mate je zichtbaar bent in deze LLM’s? Dit is praktisch onmogelijk. Anders dan traditioneel zoeken, worden er geen keywords gebruikt. Het is ook niet inzichtelijk hoe mensen zoeken binnen ChatGPT of Gemini. Er bestaan geen keyword tools voor ChatGPT. Elke prompt is zo goed als uniek. Daarnaast zijn de antwoorden die gegenereerd worden niet altijd consistent. Het ene moment kan je zichtbaar zijn, een dag later niet meer.
Naast dat de antwoorden verschillen per LLM en model verschillen, is er ook een verschil tussen hoe zo’n antwoord tot stand komt. Google gebruikt locatie- en personalisatiegegevens om resultaten te verbeteren. Het kan dus zijn dat jij een ander antwoord (en dus andere bronnen) te zien krijgt dan ik.
SEO voor LLM’s: wat kan je doen?
Nu dan de hamvraag: Hoe kan ik beter vindbaar worden in LLM’s zoals ChatGPT, Gemini en Perplexity?
Zoals eerder aangegeven dien je te weten hoe deze modellen informatie tot stand brengen. Uit eigen onderzoek van honderden prompts blijkt dat de bronnen in Perplexity worden gebruikt, vaak overeenkomt met de top organische resultaten in Google search. Andere observaties die mij opvallen, bespreek ik hieronder
De juiste associatie
Om zichtbaar te zijn binnen LLM’s bij een specifieke prompt, moet de associatie met je organisatie worden gemaakt. Stel je bent op zoek naar een houten overkapping, dan geven de modellen aan dat bij de aankoop belangrijke punten en aanbieders te overwegen zijn:
- Houtsoort
- Constructie
- Dakbedekking
- Montage
- Onderhoud
De LLM moet voldoende trainingsdata hebben om de associatie met je organisatie te kunnen maken. Kijken we naar de redenen om bepaalde organisaties te noemen, dan kijkt een Gemini mede naar de bekendheid en goede reputatie. Positief sentiment (en reviews) is dus een factor om te worden genoemd. Verder moet er voldoende informatie beschikbaar is over het bedrijf uit verschillende bronnen. Deze informatie moet consistent zijn. Ook de variatie van aanbod en specialisatie is van belang. Omdat Gemini, ChatGPT en andere taalmodellen verschillende kanten van aanbod willen belichten is het belangrijk om ergens “bekend” om te staan. Een Lugarde levert voornamelijk maatwerk en een Gadero en Blokhutwinkel staan bekend om de goede reputatie en positieve beoordelingen.
ChatGPT levert bij een prompt als houten overkapping voornamelijk lokale resultaten. In mijn geval een locatie in Soest (terwijl ik in Haarlem zit?). ChatGPT maakt in dit geval een selectie middels een websearch. Hierbij worden de resultaten van Bing gebruikt en voornamelijk gekeken of een aanbieder lokaal relevant is, de producten heeft en bekend/betrouwbaar is middels klantbeoordelingen en duidelijke productinformatie.
Genoeg informatie over je organisatie
Het is dus belangrijk dat er voldoende (positieve) informatie over jouw organisatie & aanbod (dienst of product) op het web beschikbaar is. Dit is te beïnvloeden. Door positief en consistent genoemd te worden op relevante websites, vergroot je de kans dat je organisatie geassocieerd wordt met hetgeen wát je communiceert.
Met relevante websites wordt in geval bedoeld dat je als organisatie moet worden genoemd in artikelen die gaan over een “houten overkapping.” Denk hierbij aan toplijstjes, nieuws dat over dit onderwerp gaat. Dit kan bestaande content zijn, maar je kan dit ook pushen door juist zelf hier content over te produceren op het web.
De vraag achter de vraag
Binnen de interface van LLM’s, AI overviews of CoPilot wordt vaak gevraagd naar een vervolgstap. Een logische benadering om in een vervolgstap zichtbaar te zijn is om klantvragen zo goed mogelijk door te vertalen op de website. Dit betekent een duidelijk opbouw, structuur en antwoord op mogelijke vragen over het aanbod op je website. Niet keyword gedreven, maar uitgebreid ingaan op verschillende invalshoeken van de doelgroep. Voor de creatie van content betekent dit dat je echt de gedachten van zoekwoorden moet loslaten. Zorg voor zo veel mogelijk nuttige informatie tijdens het beslissingsproces van de zoeker. Een aantal concrete voorbeelden:
- Een video waarin op een eerlijke manier de voordelen en nadelen van een merk of product worden belicht.
- Directe salesvragen laten terugkomen in een gestructureerde FAQ op de website
- Een volledige geoptimaliseerde productfeed met unieke uitgebreide productomschrijvingen
- Een uitgedachte reviewstrategie om op een slimme manier zowel bedrijfsreviews als product/dienst reviews te verzamelen
Hoe meer je er in duikt, des te meer wordt het duidelijk dat het beïnvloeden van zichtbaarheid in LLM’s overeenkomt met zaken die toch al belangrijk zijn voor je online vindbaarheid. Een merk met een sterke autoriteit en naamsbekendheid wordt vaker getoond in LLM’s. Digital PR, diversificatie en kwalitatieve unieke zinvolle content creëren zijn vaak al onderdeel van een organische strategie. Het getoond worden in een LLM is vaak al het gevolg van een goede online zichtbaarheid. Focus op de fundamenten en laat de LLM-zichtbaarheid volgen – niet leiden.
Hulp met vindbaarheid?
Reacties (0)