In den beginne…
In de zomer van 1983 verdedigde ik aan de Rijksuniversiteit te Utrecht mijn proefschrift (Diesfeldt, 1983). Elke bladzijde, van concept tot en met de eindversie, had ik met pen en papier geschreven. De directiesecretaresse van mijn werkgever typte steeds alles zorgvuldig uit. We konden gebruikmaken van een elektrische IBM-schrijfmachine, toegerust met het zo geheten ‘slimme bolletje’, een bolvormige metalen kop die aan de buitenkant de letter- en leestekens droeg. Wilde je een tekst cursiveren, dan monteerde je een ander bolletje met het gewenste lettertype. Correcties gingen met Typex. Mijn proefschrift kwam voor de personal computer nog wat te vroeg, maar het duurde niet lang of ik zat te werken achter een Olivetti met een groen beeldscherm. Ik raakte vertrouwd met tekstverwerkers, aangeleverd op floppy disks. Tekstverwerkers verbeterden sommige typefouten automatisch, maar suggereerden voor correct gespelde woorden ‘verbeteringen’ die kant noch wal raakten, een vroege vorm van ‘hallucineren’. Daarmee kom ik op het onderwerp van dit redactioneel: artificiële intelligentie (AI) en wetenschappelijk publiceren.
Tekstproductie
Kunstmatige generatieve intelligentie produceert teksten die niet onderdoen voor wat menselijke schrijvers op papier zouden zetten. Sterker nog, de tekst die geavanceerde taalmodellen naar voren brengen, kan zelfs veel beter klinken. Kunstmatige generatieve intelligentie berust op software die in een gigantisch databestand van teksten de sterkte van relaties tussen woorddelen, woorden en zinsdelen berekent. Op basis daarvan doet het model ‘voorspellingen’ voor geloofwaardig klinkende, nieuwe combinaties van woorden en zinnen die niet te onderscheiden zijn van ‘originele’ ideeën en argumentaties.
Interactie met een vorm van AI, zoals ChatGPT, kan bruikbare informatie opleveren. Ik geef een praktijkvoorbeeld. Een collega bereidde een wetenschappelijke publicatie voor en vroeg mij om een tekstonderdeel over de uitkomst van een regressieanalyse te schrijven. Ik kwam met een tekst van 120 woorden. De redactie van het tijdschrift hanteerde echter strenge regels voor de lengte van het artikel. Elke inkorting zou welkom zijn. Mijn collega voerde de tekst aan ChatGPT. Het programma reduceerde mijn tekst in een paar rondes tot 60 woorden, zonder verlies van betekenis.
Een prettig gesprek
Een tweede voorbeeld ontleen ik aan een ‘gesprek’ tussen Eric-Jan Wagenmakers (hoogleraar Methoden van de Psychologie aan de Universiteit Amsterdam; EJ) en ChatGPT over de volgende vraag (Wagenmakers, 2023):
EJ: I just ran a statistical test and it gave p = 0.045. What can I conclude from this?
ChatGPT: A p-value of 0.045 indicates that there is a 4.5% probability of observing the results obtained in your test, assuming the null hypothesis is true.
EJ gaat vervolgens met ChatGPT in discussie over de beperkingen van de nulhypothese-significantietoetsing (NHST), een in de (sociale) wetenschappen dominante praktijk. Gewoonlijk leidt een p-waarde ≤ 0,05 tot verwerping van de nulhypothese. Het is echter een hardnekkig misverstand dat een lage p-waarde de nulhypothese ondersteunt. Na een uitgebreide en erudiete ‘discussie’ met ChatGPT over de betekenis van p-waarden voor ondersteuning van een nulhypothese of alternatieve hypothese kan EJ het niet nalaten om er aan het eind van het ‘gesprek’ fijntjes op te wijzen dat ChatGPT begon met een populaire, maar onjuiste interpretatie van de p-waarde (Field, Van Doorn, & Wagenmakers, 2025).
EJ: Oh, one more thing before I let you go. The definition you gave of the p-value wasn’t quite correct now, was it?
ChatGPT: I apologize, my previous definition of p-value was not entirely accurate. The p-value is the probability of observing a test statistic as extreme or more extreme than the one observed, under the assumption that the null hypothesis is true. I’m sorry for any confusion my previous statement may have caused. Thank you for pointing this out.
EJ: You rock!
ChatGPT: Thank you! I’m here to help! If you have any more questions, feel free to ask!
Je zou haast vergeten dat je hier naar een machine luistert.
Neurale netwerken
De taalmodellen waarop AI berust, worden vaak voorgesteld als neurale netwerken waarin miljoenen ‘neuronen’ onderling verbonden zijn en er bliksemsnel miljarden input-outputrelaties worden berekend. Vergelijking met onze hersenen ligt voor de hand. Daar zijn neuronen en actiepotentialen de cruciale rekenmechanismen, al moet ons zenuwstelsel het met een relatief trage, elektrochemische neurotransmissie doen.
Ook in andere opzichten gaat de vergelijking van kunstmatige intelligentie met een levend organisch zenuwstelsel mank. Onze hersenen en de rest van het zenuwstelsel maken deel uit van een lichaam waarmee we waarnemen, voelen, herinneren, beslissen, ervaren en handelen. Onze bewuste ervaring is continu verweven met een bewegend en voelend lijf, dat ons, sociale wezens als we zijn, fysiek positioneert in een wereld met anderen (Keijzer, 2024). Een computer is een onbelichaamde, zielloze machine. Dat staat elke suggestie van een ‘denkend’, ‘voelend’ of ‘beslissend’ apparaat in de weg. Kan een machine empathisch zijn? Op zijn hoogst simuleert een machine misschien empathie, wat het succes en de soms desastreuze effecten van sommige ‘therapeutische’ chatbots verklaart (Andoh, 2026). Juist psychologen zouden moeten begrijpen dat de computermetafoor een volstrekt ontoereikend model is voor menselijk voelen, denken en handelen. Kan een mens of dier iets voelen zonder lijf? Intuïtief denk je ‘nee, natuurlijk niet’. Maar zelfs de moderne cognitiewetenschap komt niet toe aan een onomwonden, ontkennend antwoord op deze vraag. Cognitie en emotie zijn intrinsiek gekoppeld aan levende systemen, maar mentale fenomenen worden nog steeds onvoldoende bestudeerd binnen de context van bewegende en belevende lijven (Keijzer, 2024).
AI werkt met giga rekenkracht, ondoorgrondelijke algoritmes en giga hoeveelheden data. AI verslaat het menselijk brein met brute kracht. Geen mens kan alle informatie overzien die AI gebruikt. Maar AI voelt niet als een mens, leert niet als een mens, denkt niet als een mens en maakt geen keuzes als een mens. Dit negeren en vervolgens blind vertrouwen op de output van een AI-model gaat volgens mij in tegen wat we voorlopig maar zullen aanduiden als ‘gezond verstand’.
Large Language Models
Grote taalmodellen zoals ChatGPT, Claude, DeepSeek, Gemini en Llama worden getraind op de enorme hoeveelheden tekst die in het publieke domein beschikbaar zijn. Hoe indrukwekkend de prestaties van ChatGPT ook mogen zijn, bedenk wel dat er beperkingen aan kleven. Tekstbestanden op het internet zijn vervuild met onjuistheden, onwaarheden of vooroordelen, of representeren niet alle kennis en opvattingen over de materie waarover een taalmodelgebruiker vragen stelt. Op het internet circuleren teksten die ronduit frauduleus zijn. Zo kunnen generatieve taalmodellen de verwachting hebben opgeklopt en rondgepompt dat amyloïd-eiwitophoping een sleutelrol zou spelen bij de oorzaak en behandeling van de ziekte van Alzheimer (Piller, 2025). Een taalmodel kan voor een literatuurreferentielijst bij een wetenschappelijk artikel niet-bestaande publicaties ‘hallucineren’. ‘Papierfabrieken’ vervuilen het internet met volkomen gefingeerde wetenschappelijke publicaties die lijken op echt onderzoek. Wat de taalmodellen met dergelijke garbage doen, is niet duidelijk. Wordt de content gebruikt voor trainingsdoeleinden, dan blijft de ‘informatie’ voor altijd in het model circuleren. Ironisch genoeg kunnen door AI ondersteunde detectiesystemen wel weer helpen om frauduleuze content te ontdekken die een algoritme zelf de wereld in heeft geholpen.
Gemiddelde teksten
Taalmodellen produceren teksten die in het verlengde liggen van wat er al geschreven is. Ze zijn ontworpen om zo goed mogelijk een gemiddelde tekst te schrijven. Gemiddeld, dat is saai, nivellerend, vlak en voorspelbaar (Kuipers Munneke, 2025). De modellen hebben geen inhoudelijke kennis en ‘begrijpen’ niets van wat zij produceren. Ik legde ChatGPT onlangs een raadsel voor van mijn tienjarige kleindochter: ‘Wat is sterker, een Belgisch trekpaard of een Engels potje thee?’ De computerstem legde omstandig uit dat een trekpaard sterker is. Mijn kleindochter keurde het antwoord niet goed. Glunderend gaf zij de oplossing: het trekpaard wordt moe van het trekken, de thee wordt er juist sterker van. Kinderhumor is aan ChatGPT niet besteed.
Hoe ons te verhouden tot kunstmatige intelligentie?
Generatieve kunstmatige intelligentie is een gegeven en ontwikkelt zich snel. Generatieve AI, in de vorm van machine learning, kan de psychodiagnostiek met sprongen vooruit brengen wanneer persoonlijke ervaringen, in de vorm van het eigen verhaal van een patiënt of onderzochte, worden gecombineerd met biometrische data. Een onderzochte kan bijvoorbeeld een dagboek bijhouden over de eigen gevoelens, gedachten en handelingen, terwijl gelijktijdig lichamelijke functies geregistreerd worden. Naast op tekst gebaseerde taalmodellen worden large multimodal models (LMMs) ontwikkeld die kunstmatige intelligentie loslaten op tekst-, beeld- en audiobestanden tegelijk (Stringer, 2026). Integratie van grote hoeveelheden subjectieve (kwalitatieve) en objectieve (kwantitatieve) gegevens kan een individuele, persoonsgerichte diagnostiek dichterbij brengen (Galatzer-Levy, Tomasev, Chung, & Williams, 2026).
Generatieve kunstmatige intelligentie kan het werkveld van de psycholoog ingrijpend veranderen en het is dan ook goed om de ontwikkelingen te volgen. In dit redactioneel beperken we ons tot het gebruik van AI en taalmodellen voor het schrijven van wetenschappelijke artikelen. Hoe kunnen psychologen, onderzoekers en auteurs zich het best tot die toepassing van AI verhouden?
Wat wel?
Generatieve AI kan worden gebruikt als gereedschap voor tekstverwerkingstoepassingen, zoals spellingcontrole, tekstinkorting (zie mijn eerste voorbeeld) of het ordenen van argumenten in een discussie. Onderzoekers en auteurs zijn en blijven steeds zelf verantwoordelijk voor hun werk. Gebruik van AI als schrijfhulp verandert daar niets aan. Auteurs houden hun AI-geletterdheid op peil (Perlis, 2026). Zij zijn in staat en bereid om inzicht te geven in de manier waarop zij AI eventueel hebben toegepast bij hun onderzoek, data-analyse en rapportage (transparantie-eis).
Wat niet?
Laat een taalmodel niet de tekst of een deel van de tekst van een wetenschappelijk artikel schrijven. Dan gebruik je de machine van generatieve AI als bron van informatie. Wees wat dat betreft zeer kritisch. Onderzoekers worden geacht zelfstandig, kritisch en onafhankelijk te denken. Laat de mens, de machinist, de baas blijven!
Oproep
Als redactie willen we ouderenpsychologen, onderzoekers en auteurs uitnodigen te reageren op onze aanbevelingen. Laat ons weten wat je ervan vindt en welke correcties of aanvullingen je voorstelt. Ook horen we graag wat wij over het gebruik van generatieve kunstmatige intelligentie zouden moeten opnemen in de auteursrichtlijnen op de website van het Tijdschrift.
Referenties
Andoh, E. (2026). Digital companions are reshaping emotional connection. Monitor on Psychology, 57, 60-63.
Diesfeldt, H.F.A. (1983). De draad kwijt. Over organisatie van het geheugen bij dementie. Deventer: Van Loghum Slaterus.
Field, A., Van Doorn, J., & Wagenmakers, E.J. (2025). Discovering statistics using JASP. London: Sage.
Galatzer-Levy, I.R., Tomasev, N., Chung, S., & Williams, G. (2026). Generative psychometrics, an emerging frontier in mental health measurement. JAMA Psychiatry, 83, 5-6.
Keijzer, F. (2024). Belevende lijven: conceptueel dualisme en de computermetafoor. Algemeen Nederlands Tijdschrift voor Wijsbegeerte, 116, 228-244.
Kuipers Munneke, P. (2025). ChatGPT verheft de middelmaat. NRC, 20 september.
Perlis, R.H. (2026). Artificial Intelligence and the potential transformation of mental health. JAMA Psychiatry, 1-5. doi:doi:10.1001/jamapsychiatry.2025.4116
Piller, C. (2025). The devastating legacy of lies in Alzheimer's science. The New York Times, 24 januari.
Stringer, H. (2026). AI, neuroscience, and data are fueling personalized mental health care. Monitor on Psychology, 57, 56-59.
Wagenmakers, E.J. (2023). Bayesian Spectacles. Redefine statistical significance XX: a chat on p-values with ChatGPT.
Auteur
Dr. H.F.A. Diesfeldt, zelfstandig onderzoeker; redactielid Tijdschrift voor Ouderenpsychologie.