
Waar ChatGPT zijn informatie vandaan haalt: de drie bronnen die bepalen of jij genoemd wordt
ChatGPT zoekt informatie niet op zoals je denkt. Het put uit drie verschillende bronnen, elk met een eigen logica. In welke je leeft bepaalt of het model jouw naam noemt.
5 min leestijd
Het verkeerde mentale model
ChatGPT stelt antwoorden samen uit drie verschillende bronnen, niet uit één webzoekopdracht. Elke bron heeft eigen regels voor wie genoemd wordt.
De meeste mensen zien ChatGPT als een slimme Google. Tik een vraag in, het zoekt op het web, het levert een samenvatting. Dat beeld klopt niet, en daarin zit de reden waarom de meeste experts niet kunnen plaatsen waarom ze afwezig zijn uit de antwoorden.
ChatGPT zoekt niet en vat daarna samen. Het stelt een antwoord samen uit drie verschillende bronnen, vaak in dezelfde reactie door elkaar gelaagd. Elke bron heeft een eigen logica, een eigen update-ritme, en een eigen manier om jouw naam door te laten. Zolang je de drie niet uit elkaar trekt, blijft het werk om geciteerd te worden gokwerk.
Dit zijn de drie. De rest van dit stuk is wat elke bron is, wat je erin krijgt, en waarom aanwezig zijn in één van de drie niet genoeg is.
Bron 1: Trainingsdata, de statische basis
Trainingsdata is de bevroren basis van het model. Wikipedia, gevestigde media, podcast-transcripten, boeken en hoog-vertrouwde forums halen het. Krijg je daar je naam in, dan word je overal stroomafwaarts geciteerd.
De grootste bron in volume zit bevroren in het model zelf. Voordat ChatGPT, Claude of Gemini ooit een vraag van een gebruiker beantwoordde, werden ze getraind op een enorme snapshot van publieke tekst. Boeken, websites, artikelen, forums, code, wetenschappelijke papers. Voor de huidige modellen wordt die snapshot gemeten in biljoenen tokens.
Die snapshot heeft een knowledge cutoff. Het model kent de wereld tot een datum en stopt. Cutoffs liggen typisch maanden tot meer dan een jaar achter vandaag. Na de cutoff komt nieuwe informatie er alleen in via de volgende trainingsronde.
Leeft jouw naam binnen het trainingscorpus, dan herkent het model je zonder iets te hoeven opzoeken. Het kan je beschrijven, claims aan je toeschrijven, en je aanbevelen voor prompts die op jouw onderwerp aansluiten, allemaal vanuit interne gewichten. Dit is de hoogst betrouwbare vorm van citatie. Het kost ook het meeste tijd om te verdienen.
Wat er werkelijk in trainingsdata terechtkomt zijn de soorten bronnen die crawling en curatie overleven: Wikipedia-artikelen, gevestigde media, podcast-transcripten op grote platforms, boeken die Google indexeert, GitHub-READMEs, Reddit-draadjes boven een bepaalde karma-drempel, technische documentatie. Losse LinkedIn-posts en kortlevende marketingpagina's halen het meestal niet.
De hefboom in deze bron is geduldig en structureel. Kom in de soorten plekken waar volgende trainingsrondes uit putten. Het werk stapelt op met elke modelupdate.
Bron 2: Retrieval, live maar alleen wanneer getriggerd
Retrieval is de live webtoegang van de motor. Hij gaat alleen af als de vraag een real-time ophaling rechtvaardigt. Word je opgehaald, dan kun je binnen uren na publicatie geciteerd worden.
Moderne AI-motoren stoppen niet bij trainingsdata. De meeste hebben web-toegangstools. ChatGPT kan browsen. Claude kan fetchen. Perplexity is retrieval-first ontworpen en geeft bijna nooit antwoord zonder eerst het live web te raadplegen. Gemini mengt retrieval automatisch in veel queries.
Wanneer de retrieval-tool afgaat, doet de motor iets dat dicht in de buurt komt van een real-time zoeken-en-lezen. Hij haalt een paar pagina's op, leest ze, en gebruikt de inhoud naast wat het model al "wist" uit training. Het resultaat is een gesynthetiseerd antwoord met citaties naar de pagina's die net bezocht zijn.
Dit is de bron waar je een vermelding kunt verdienen binnen uren na publicatie. Een nieuw artikel, een verse pagina, een podcast die net live ging. De motor ziet het op de eerstvolgende retrieval-pas en gebruikt het. Snelheid is hier echt op een manier waarop dat in training niet zo is.
Maar retrieval kent een trigger-voorwaarde. De motor moet beslissen dat de vraag een live ophaling rechtvaardigt. Sommige queries triggeren altijd retrieval (actuele gebeurtenissen, prijzen, schema's, alles tijdgevoelig). Sommige nooit (algemene uitleg die het model al kent). Veel zitten ertussen, waar retrieval alleen afgaat als de gebruiker om bronnen vraagt of als de motor twijfel voelt.
De hefboom is dezelfde SEO-basis die je al kent, toegepast op een iets ander doel. Snelle, crawlbare, goed gestructureerde pagina's. Schema-markup. Een llms.txt-bestand dat AI-crawlers vertelt wat er op je site staat. Auteursnamen die echte entiteiten zijn. De verschuiving zit in "rankt op trefwoord" naar "wordt opgehaald voor de vraag".
Bron 3: Gebruikerssessies, de onzichtbare laag
Gebruikerssessies voeden reinforcement learning die updatet welke antwoorden een model vertrouwt. Klanten die jouw naam in hun AI-gesprekken laten vallen, trainen toekomstige modellen om jou terug te noemen.
De derde bron komt bijna nooit ter sprake omdat het de moeilijkste is om te zien. Elk gesprek dat een gebruiker met ChatGPT voert, elke Claude-sessie, elke Perplexity-vraag wordt een signaal. Welke antwoorden positief feedback kregen. Welke werden tegengesproken. Welke werden gedeeld. Welke de gebruiker bedankte en welke ze terugkaatsten.
Deze signalen veranderen het huidige model niet in real time. Ze voeden reinforcement learning, fine-tuning en de volgende trainingsronde. Met de tijd updaten modellen welke antwoorden ze vertrouwen om te geven en welke ze nuanceren.
Voor een expert die geciteerd wil worden telt deze bron meer dan het lijkt. Blijven echte gebruikers vragen over jou stellen en blijven die antwoorden bevestigd worden, dan wordt het model met meer zekerheid jouw naam noemen in toekomstige versies. Andersom geldt ook. Roepen vermeldingen van jou veel weerstand op, dan wordt het model voorzichtig.
De hefboom is hier oprecht indirect. Je kunt je niet via prompt-injectie de reinforcement-signalen in werken. Wat je wél kunt: de soort expert zijn die klanten uit zichzelf in hun AI-gesprekken naar voren halen. Dezelfde dynamiek die in pre-AI-markten mond-tot-mondreclame liet groeien, versterkt nu machine-geheugen. Je klanten zijn je distributie, ook in hun privé-ChatGPT-sessies.
Dit is de bron die het makkelijkst verwaarloosd wordt en de traagste in opbrengst. Het is ook de enige die geen concurrent snel kan kopiëren. Echte menselijke reinforcement laat zich slecht faken.
Waarom aanwezig zijn in één bron niet genoeg is
Aanwezigheid in slechts één bron levert een gedeeltelijk antwoord. De Entity Gap dicht zich pas als je in minstens twee van de drie verschijnt: trainingsdata, retrieval, en gebruikerssessies.
Elk van de drie bronnen alleen levert een gedeeltelijk antwoord op. Tel ze bij elkaar op en het model heeft alle reden om jou te noemen. Trek er één van af en het gat ontstaat.
Trainingsdata zonder retrieval. Het model weet dat je bestaat, maar kan niet praten over je werk van dit kwartaal. Je wordt geciteerd voor je standpunten van vorig jaar en genegeerd voor je lanceringen van deze maand.
Retrieval zonder trainingsdata. De motor haalt je pagina op als iemand expliciet naar jou zoekt. Hij brengt jou niet uit zichzelf naar voren, omdat niets in zijn getrainde gewichten weet dat hij je moet aanbevelen.
Gebruikerssessies zonder de andere twee. Mensen hebben naar jou gevraagd, maar het model heeft niets degelijks te zeggen. De reinforcement-laag kan alleen bevestigen wat een van de andere twee bronnen eerst aanleverde.
De Entity Gap is de afstand tussen wie je echt bent als expert en wat het model over jou kan verifiëren over deze drie bronnen tezamen. Hem dichten is wat experts die geciteerd worden onderscheidt van experts die over het hoofd worden gezien.
Daarom voelt het werk gecoördineerd in plaats van tactisch. SEO alleen dekt retrieval. PR alleen dekt training. Customer success alleen dekt gebruikerssessies. Geen van die silo's dicht het gat op zichzelf. Rings of Entity is het framework dat ze als één beweging laat werken. Het volgende artikel in deze serie ontleedt het framework. Het artikel daarna mapt elke ring naar het technische werk op je eigen domein.
Veelgestelde vragen
Leert ChatGPT van mijn gesprekken ermee?
Niet binnen de huidige sessie. OpenAI heeft aangegeven dat gebruikersgesprekken in toekomstige trainingsrondes gebruikt kunnen worden, afhankelijk van privacy-instellingen. De reinforcement gebeurt bij de volgende trainingscyclus, niet meteen. Je gesprek vandaag verandert niet hoe ChatGPT morgen antwoordt, maar het kan wel kleuren hoe de volgende modelrelease over een jaar antwoordt.
Hoe vaak wordt de trainingsdata van een AI-motor bijgewerkt?
Grote foundation-modellen trainen opnieuw met een ritme van maanden tot meer dan een jaar. Kleinere fine-tunes verschijnen vaker. Elke modelrelease publiceert een "knowledge cutoff" die het versheidsvenster van de trainingsdata aangeeft. Na de cutoff kan alleen retrieval of gebruikerssessie-signaal nog nieuwe informatie het antwoord in brengen.
Is Wikipedia echt de zwaarstwegende bron voor AI-motoren?
Voor de grote LLMs draagt Wikipedia een onevenredig zwaar gewicht in citaties ten opzichte van zijn aandeel in publieke tekst. De structurele reden is dat het gecureerd, kruisverwezen en intern consistent is. Het model behandelt consistentie tussen bronnen als bewijs voor juistheid, en Wikipedia levert die consistentie als ontwerpkenmerk.
Wat is het verschil tussen trainingsdata en retrieval voor geciteerd worden?
Trainingsdata-citaties komen uit bronnen die bestonden en stabiel waren toen het model getraind werd. De vermelding zit in het model zelf ingebakken. Retrieval-citaties komen uit bronnen die de motor in real time ophaalt bij een specifieke vraag. Andere soort werk verdient elk. Trainingsaanwezigheid beloont langetermijn-plaatsing in autoritaire bronnen. Retrieval-aanwezigheid beloont een snelle, goed gestructureerde site die crawlers kunnen lezen op de dag dat een gebruiker vraagt.
Kan ik zien welke bron ChatGPT gebruikte om mij te noemen?
Soms. Citaties met een gelinkte URL zijn bijna altijd retrieval. Vermeldingen zonder URL, vooral van oudere of stabiele feiten, zijn meestal trainingsdata. Invloed uit gebruikerssessies is per ontwerp onzichtbaar en kan niet aan een specifiek antwoord toegeschreven worden. Wil je een schone nulmeting, draai dan dezelfde prompt met webtoegang aan en uit. De verschillen onthullen welke bron het werk deed.