28 mei 2024

Gelekte documentatie Google onderschrijft vermoedens SEO wereld, maar laat ook nieuwe inzichten zien

10 minuten lezen
Google Algoritme

Is Google aan het wankelen?

Op zondag 5 mei kreeg Rand Fishkin, eigenaar van Sparktoro en bekend (voormalig) SEO specialist, een bericht van een anonieme bron. Deze anonieme bron beweerde toegang te hebben tot interne documentatie over de API van Google. Er is in de afgelopen tijd wel meer informatie uitgelekt, maar deze documentatie legt opnieuw een deel van Google’s processen bloot. In deze blog gaan we dieper in op de inhoud en impact van deze documentatie.

Het is niet zo lang geleden dat de getuigenissen in de Antitrust rechtzaken van Google Navboost en Deeprank onthulde. Deze twee rankingsignalen integreren gebruikersinteractie in het bepalen van de uiteindelijks rankings in de zoekresultaten. Meer interactie op jouw site en daarmee minder bounce betekent een positief signaal richting Google algoritme. Met het uitlekken van de nieuwe, extensieve data van Google’s API documentatie, wordt er nog een sluier onthuld.

Het desbetreffende document, genaamd GoogleApi.ContentWarehouse.V1, is een handleiding voor het gebruik van diverse Google API’s. Google heeft diverse API’s die developers kunnen gebruiken om direct te kunnen praten met verschillende onderdelen van de zoekmachine. Om de API’s goed af te kunnen stemmen zijn attributen nodig. Op Google’s API Github worden diverse “handleidingen” gedeeld die developers helpen met het opzetten van dergelijkse API’s. Het gelekte document lijkt voor een korte tijd beschikbaar voor het publiek geweest te zijn en enkel bedoeld te zijn voor Google werknemers. Oeps, foutje bedankt namens de SEO wereld.

Allereerst, het lek vertelt niets over directe ranking signalen. Niet zoals het lek van Yandex waarin meer dan 17.000 ranking factoren werden gelekt. Na het doornemen van de documentatie weet je dus nog steeds niet wat het geheim van Google is, ook al claimen sommige bureaus dit wel te weten. Ten tweede, het is niet zeker dat alles in de documentatie ook daadwerkelijk nog gebruikt wordt door Google. Zoals alle documentatie waar aan gesleuteld wordt, zijn er altijd concepten en attributen die niet langer gebruikt worden.

SDIM heeft de volledige documentatie gescrapet en met behulp van AI geanalyseerd. Samen met bevindingen uit de SEO wereld is dit een greep uit de bevindingen uit het gelekte document.

Met het uitlekken van Navboost en Deeprank wisten we al dat gebruikersgedrag gebruikt wordt voor de rankings en eigenlijk vermoedde iedereen dit al. Dit wordt nogmaals bevestigd door de gelekte documentatie. Attributen als ‘badClicks’ en ‘goodClicks’ en ‘lastLongestClicks’. Ook buiten de websites analyseert Google je gebruik van de zoekresultaten. Als jij een zoekterm opvolgt met een ander zoekterm en dan doorklikt, dan krijgen die resultaten een verband binnen het algoritme.

Na het ranken van een pagina gebruikt Google data voor het re-ranken van zoekresultaten. Naast NavBoost zijn er attributen te vinden als:

    • QualityBoost
    • RealTimeBoost
    • WebImageBoost

    Het komt erop neer dat je na je eerste beoordeling en positie niet gegarandeerd bent van die positie (duh hoor ik je denken). Zodra er verkeer binnenkomt, betekent dit dat er andere mechanismes in werking worden gezet die bepalen of jouw beoordeling juist is.

    Onze take: SEO en CRO zijn verweven. Een SEO specialist die niet kijkt naar CRO en gebruikersinteractie, voert feitelijk maar de helft van het werk uit. Als een gebruiker weinig interactie toont na het doorklikken vanuit de zoekresultaten, schaad je je eigen werk. Voer dus altijd analyses uit nadat je een nieuwe pagina hebt gecreëerd en controleer hoe je thema in zijn geheel werkt.

    Google weet alles van je. Oké, het klinkt misschien wat overdreven, maar Google weet ongelofelijk veel van je en analyseert alles wat je doet. Met name van ingelogde gebruikers in Google Search en Chrome gebruikers. Zo meet Google veel touchpoints in jouw customer journey door als je Chrome gebruikt. Zo worden de organische sitelinks die je ziet (mogelijk) gehaald uit de toppagina’s (topURL attribuut) vanuit een customer journey.

    Onze take: We wisten al dat Google erg veel data gebruikt voor de verbetering van haar producten. Persoonlijk kunnen we het hen ook niet kwalijk nemen. Als jij de data had, waarom zou je het dan niet gebruiken ter verbetering van je product? En doen wij niet hetzelfde met analytische tracking software als Hotjar en Clarity en gebruiken wij ook geen A/B testen? Toch is het interessant informatie en schijnt het iets meer licht op hoe op het oog ongrijpbare dingen als organische sitelinks tot stand komen

    Opvallend zijn een aantal attributen binnen het GoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals document. Zo bestaan er attributen als exactMatchDomainDemotion wat zou suggereren dat je een negatief signaal kan uitsturen als je een exact match domeinnaam hebt.

    Onze take: Geen zorgen als je over een exact match domein beschikt. Dit geldt natuurlijk niet voor alle domeinen. Ons vermoeden dat dit meer is voor domeinen die echt heel niche zitten en geen autoriteit zijn. Denk aan een domein als ‘smartphone-hoesjes-kopen.nl’.

    Google’s algoritme kan handmatig gemanipuleerd worden. We wisten natuurlijk al van het bestaan van Google penalty’s, maar Google werknemers kunnen ook directe invloed hebben in de zoekresultaten. Zo suggereert het bestaan van attributen als isCovidLocalAuthority en isElectionAuthority dat websites die bestempeld zijn als betrouwbare bronnen een handmatige boost krijgen binnen de zoekresultaten op momenten dat deze nodig zijn.

    Onze take: Google is al veel langer de strijd aan het aangaan met fake news en onjuiste informatie. Er is niet voor niets een reden dat Google hamert op EEAT, of zoals wij het noemen EAT ME. Echter laten deze attributen zien dat het verder gaat. Google heeft dus directe invloed op de websites waar jij je ‘objectieve’ informatie haalt. Hoe fair is het nog? Heb je als nieuwe, onafhankelijke publisher nog wel een kans?

    De documentatie brengt attributen aan het licht als mentionSentiment, magnitude en polarity binnen de Youtube commentsectie die suggereren dat het sentiment in de comments invloed heeft op hoe een entiteit beoordeeld wordt. Dit sluit aan bij vermoedens dat Google informatie meeneemt over merken en entiteiten, ook al staat er geen backlink in.

    Onze take: Branding is gigantisch belangrijk geworden voor SEO. EAT ME draait al om het tonen van factoren als betrouwbaarheid en expertise, maar ook op externe websites heeft het algemene sentiment over jouw merk invloed. Het is van belang dat je overal goed voor de dag komt. Dat betekent een branding strategie dat over alle kanalen uitgedragen wordt, maar feitelijk begint bij het begin: een goed product leveren met een goede service waar mensen positief over praten.

    Content is king. Dat wordt al jaren geroepen. Niet alleen door SEO specialisten, maar ook door Google zelf. Het is immers de content die zorgt dat je op zoektermen gevonden kan worden. Vanuit de documentatie zijn een aantal bevindingen te halen:

    • Er wordt gekeken naar hoe origineel de content is.
    • Paginatitels zijn belangrijk (titleMatchScore)
    • De datum van publicatie is belangrijk.
    • Domeinregistratie wordt opgeslagen.
    • Als er op meer dan 50% van de pagina’s een video staat dan wordt de website anders beoordeeld (als video focused).
    • Er is een score voor YMYL.
    • Er is een site focus embedding, die geeft aan of een website bij een bepaald onderwerp blijft.

    Het algoritme bepaalt natuurlijk waar jouw pagina te vinden is in de zoekresultaten voor een zoekterm. Vanuit de documentatie komen ook verschillende attributen naar voren die wijzen of verschillende degradaties.

    • Anker mismatch: wanneer de anker van een externe link niet overeenkomt met de externe site
    • SERP degradatie: Op basis van klikken van gebruikers kan de pagina worden gedevalueerd
    • Nav demotion: op basis van slechte websitenavigatie en gebruikerservaring
    • Local demotion: Google kan zien of inhoud locatiegebonden is en kan algemene “globale” informatie devalueren

    Ondanks Google meerdere malen heeft aangegeven dat ze niet zoiets hebben als een score over hoe sterk een domein is, wordt er in de documenten gesproken over een siteAuthority score. Hoe dit werkt en hoe groot de invloed is op de rangschikking van zoekresultaten is niet bekend.

    In de documentatie wordt verschillende keren gerefereerd aan het belang van ankers om te begrijpen waar links, content en een onderwerp over gaan.
    Een aantal bevindingen:

    • Niet iedere link is evenveel waard. 
    • Links vanuit recentere bronnen meer waard en kijkt een zoekmachine naar de laatste 20 veranderingen van een pagina voor het analyseren van de links. Er wordt gekeken naar wanneer links zijn toegevoegd aan een bron.
    • Er wordt gekeken naar de nieuwswaardigheid van de bron en anker.
    • Voor rankingdoeleinden wordt de kwaliteit van een ankertekst gemeten aan de hand van de “locality” en de “bucket”. Het veld ‘locality’ geeft de plaats aan, wat lijkt te duiden op een maatstaf voor de kwaliteit of het belang ervan voor de ranking waar op de pagina de anker wordt getoond. De bron van de anker worden ingedeeld in verschillende mate van kwaliteit:
      • TYPE_HIGH_QUALITY, 
      • TYPE_MEDIUM_QUALITY, 
      • TYPE_LOW_QUALITY. 
    • Het veld ‘pagerankWeight’ slaat een gewicht op dat gebruikt wordt door het PageRank-algoritme voor die ankerlink. Er is ook een veld genaamd ‘setiPagerankWeight’, hoewel het doel hiervan niet duidelijk is gespecificeerd.
    • Staan er meerdere links vanuit één bron naar hetzelfde domein, dan worden deze samengevoegd
    • Wil je dat een uitgaande links nofollows bevatten, zorg er dan voor dat voor elke uitgaande link naar dezelfde bron allemaal een nofollow krijgen, anders wordt dit genegeerd. 

    Onze take: Er wordt dus bij links gekeken naar de kwaliteit, topic relevantie, belang van nieuwswaarde, de datum, de kwaliteit van de bron, wanneer pagina’s zijn geüpdatet etc. Er wordt duidelijk onderscheid gemaakt in de kwaliteit. Ga daarom voor kwaliteit boven kwantiteit. Links op externe websites die relevant zijn, regelmatig bezocht worden door Google en nieuwswaardig zijn, zijn factoren die worden meegenomen. Zorg ervoor dat je de juiste kwaliteitsvereisten hebt mocht je je focussen op externe publicaties.

    Niet enkel links, maar ook hoe vaak iets wordt genoemd op het web is van belang in het rankingproces. Dit mede om te bepalen hoe populair en betrouwbaar een bron is. Ook wordt er een timestamp toegevoegd aan de mention om te onthouden wanneer de bron genoemd is. Je organisatie/merk veelvuldig (positief) in het nieuws is dus een signaal van autoriteit. 

    Google probeert te begrijpen waar documenten over gaan. Hiervoor halen ze zoveel mogelijk informatie over de dataset op om dit te indexeren. Denk hierbij aan informatie op webpagina’s over:

    • De naam van de dataset
    • Wanneer dit is gecreëerd en aangepast en verschillende versies van het document
    • URL, afbeelding URL’s (voor thumbnails)
    • Alternatieve namen en datasets
    • Of de informatie achter een betaalmuur zit of niet (ze gebruiken daarvoor schema:  http://schema.org/isAccessibleForFree
    • De auteur en de organisatie
    • De belangrijkste termen die de dataset beschrijven (documentbody)
    • Of de informatie spam is of niet
    • De taal van de dataset
    • Variabelen en entiteiten in de dataset
    • Of de dataset niet voorkomt op andere locaties (searchreplica)
    • Een bron (hoogstwaarschijnlijk een andere dataset) waarvan deze dataset is afgeleid of waarvan het een wijziging of aanpassing is. 

    Onze take: Dit is niet perse nieuwe informatie, maar eerder een bevestiging van zaken waar Google naar kijkt. Het is noodzaak om te weten hoe Google omgaat met het beoordelen van webpagina’s om door het indexatieproces te komen. 

    Google zoekt naar “bewijs” om namen te koppelen aan een entiteit. Ze kijken hier naar veel verschillende bronnen waar de naam wordt genoemd en deze te koppelen. Dit zijn voornamelijk autoritaire bronnen (denk aan een IMDB, Wikipedia, Scholar) Bijvoorbeeld Bruce Willis (persoon, acteur, producent, Emma Heming, Demi Moore, Die Hard, Sixth Sense, dementie, en meer).

    • ugcDiscussionEffortScore: De kwaliteit van user-generated-content pagina’s. Belangrijk voor websites met veel pagina’s die focussen op reviews en meningen van gebruikers.
    • productReviewPPromotePage & ProductReviewPDemotePage: Sluit aan bij de product reviews update. Het bevorderen en ‘straffen’ van product review pagina’s op basis van de kwaliteit?
    • Scamness: Spreekt voor zich, een score in welke mate een website een scam kan zijn?
    • Personalized Query Understanding: Persoonlijke gegevens worden gebruikt om zoekresultaten te rangschikken op basis van interesses.

    Het aantal uitgelekte pagina’s is groot. Meer dan 2500 pagina’s groot. Het is technisch informatie en je moet tussen de attributen door kunnen lezen. Kortom, de SEO wereld gaat hier nog vele uren aan besteden om het document door te ploeteren en over tijd zullen er steeds meer bevindingen bekend gemaakt gaan worden binnen de SEO wereld.

    • EAT ME zonder een gedegen branding strategie brengt je niet waar je wilt komen. Het is een best practice om je te focussen op het uitstralen van autoriteit en betrouwbaarheid, naast het bieden van unieke informatie. Het is echter niet voldoende om een autoriteit te zijn. Je ziet niet voor niets veel grote spelers ranken voor zoektermen. Het hebben van een brandingstrategie is dan ook cruciaal.
    • SEO draait al lang niet meer om enkel keywords en backlinks. Het is een semantisch samenspel geworden waarbij gebruikersinteracties een steeds grotere en bepalendere factor wordt in het complete verhaal.
    • Als Google over data beschikt, is het waarschijnlijk dat het deze gebruikt. Nog een gevalletje van ‘we vermoedden het altijd al wel’, maar wordt steeds meer bevestigd. Als Google over data beschikt die hun producten kan verbeteren, is de kans dat ze deze daadwerkelijk gebruiken zeer hoog. En waarom niet toch?
    • Drempel voor SEO voor kleine / middelgrote bedrijven is veel groter (geworden). Gevestigde autoriteiten hebben natuurlijk een voorsprong. Dat is niet gek ten opzichte van de kleine spelers. We vermoeden echter, aan de hand van de gegevens, dat Google minder snel kleine bedrijfjes beloont die aan hun vindbaarheid werken. Puur vanwege het feit dat ze geen gevestigde autoriteit zijn. Dat betekent dat het erg lastig is voor startups om organisch te groeien en de drempel daarmee nóg hoger is dan het al was. In plaats daarvan is het effectiever om te blijven bouwen aan je merk en te werken meer naamsbekendheid online en offline.

    Lees ook zeker de artikelen van:

    Rand Fishkin: Artikel op Sparktoro

    Michael King: Artikel op iPullrank

    Cheers for sharing this with the SEO community guys!

    Zoekmachine

    Een SEO expert spreken?

    Contact

    Reacties (0)

    Geef een reactie

    Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *