Hoe Copilot omgaat met je gegevens

Leestijd 7 minuten

Wat er gebeurt tussen je vraag en het antwoord, en met wie je daarbij eigenlijk iets deelt

Een vraag die elke clinic terugkomt

In bijna elke sessie krijg ik dezelfde vraag, en het korte antwoord doet vaak de vraag tekort. Als ik Copilot iets vraag, gaat mijn data dan naar OpenAI of Anthropic? Wordt mijn werk zichtbaar voor anderen? En houdt Microsoft mijn gegevens achter de hand?’ Het eerlijk antwoord vraagt om iets meer ruimte. Want ‘delen’ heeft in deze context meerdere lagen, en de architectuur waar Copilot op draait, met een orchestrator, een semantische index en sinds dit jaar twee taalmodel-routes, verdient de uitleg die in een live-clinic niet past. Daar is deze toelichting voor.

Wat delen eigenlijk betekent

Voordat we het over architectuur hebben, eerst de vraag zelf scherper. Binnen Copilot zijn er drie lagen waarop data ‘gedeeld’ kan worden. Door ze uit elkaar te halen, voorkom je dat een geruststelling op de ene laag wordt verward met een afspraak op de andere. De technische werkelijkheid is overzichtelijker dan het gevoel.

Laag 1: Binnen je tenant

Tussen de Microsoft 365-diensten waar je dagelijks mee werkt (Outlook, SharePoint, OneDrive, Teams) kan Copilot data combineren op basis van de rechten die jij in je organisatie al hebt. Een mail die voor jou onzichtbaar was, blijft onzichtbaar. Een SharePoint-bibliotheek waar je geen toegang toe hebt, wordt door Copilot niet ontsloten. De rechtenstructuur uit je tenant is hier de bovengrens, niet de uitnodiging.

Laag 2: Met microsoft als platformverwerker

De Copilot-laag zelf, de retrieval via Microsoft Graph, de semantische index en de orchestratie van het hele proces draaien op Microsoft-infrastructuur. Microsoft is hier de verwerker, onder de afspraken uit de Microsoft Product Terms, de Data Protection Addendum (DPA) en de Enterprise Data Protection (EDP). Die kaders bepalen wat Microsoft wel en niet mag met je gegevens, en ze sluiten gebruik voor productverbetering of training nadrukkelijk uit.

Laag 3: met subverwerkers (openAI, Anthrophic)

Alleen tijdens de inferentiestap zelf. Het taalmodel ziet de samengestelde vraag, berekent een antwoord en vergeet daarna alles wat het zag. Geen training op klantcontent, geen logging buiten Microsofts beleid, geen toegang tot je tenant, geen retentie. De waarborg volgt niet uit een losse technische uitspraak, maar uit het contractuele kader: Product Terms, DPA en EDP gelden net zo goed voor de subverwerkers.

Deze drie lagen verklaren waarom het antwoord op ‘wordt mijn data gedeeld?’ niet ja of nee is, maar met wie, waarvoor en onder welke afspraken. De rest van deze toelichting bouwt daarop voort.

De architectuur achter een vraag

Tussen jouw prompt en het antwoord op je scherm zitten meer stappen dan je vermoedt. Microsoft documenteert ze als de acht stappen van de Copilot-orchestrator. Voor deze toelichting comprimeer ik ze tot vijf, en behandel ik twee daarvan in eigen secties verderop omdat ze de meeste vragen oproepen: hoe gaat Copilot om met bestanden, en wat doet de Responsible AI-laag.

  1. Je prompt komt binnen bij de orchestrator. Niet rechtstreeks bij een taalmodel. De orchestrator ontvangt de vraag binnen jouw Microsoft 365-tenant en bepaalt wat ervoor nodig is: alleen tekstgeneratie, of ook retrieval uit je werkomgeving en eventueel een agent-actie. Hier vinden ook de eerste Responsible AI-checks plaats.
  2. Copilot raadpleegt Microsoft Graph en de semantische index. Daar staan verwijzingen naar de bestanden, mails, chats en agendapunten waar jij toegang toe hebt. De semantische index is een vector-index die betekenis-overeenkomst snel terugvindt, binnen de rechtsgrenzen van de tenant en de gebruiker. Niet meer, niet minder.
  3. De grounded prompt wordt samengesteld. Je vraag wordt aangevuld met relevante passages uit de retrieval. Niet hele bestanden, maar fragmenten die ertoe doen. Dit samengestelde geheel is wat het taalmodel ziet. Geen mailbox, geen volledige documenten standaard, alleen wat Copilot voor je vraag nodig acht.
  4. Het taalmodel genereert een antwoord. De inferentie draait op Microsoft-infrastructuur, met Azure OpenAI of Anthropic Claude als route. De orchestrator kan in één gespreksbeurt meerdere taalmodel-aanroepen doen voor onder meer intent-bepaling, retrieval-verfijning en het uiteindelijke antwoord. Klantcontent wordt niet bewaard voor training.
  5. Copilot levert het antwoord met brondverwijzingen terug. Vóór jij het ziet, doorloopt het antwoord nog een Responsible AI-check tegen de richtlijnen van Microsoft. Het werkgeheugen van de sessie verdwijnt. Wat overblijft is het antwoord, in jouw tenant, met links naar de bronnen die zijn gebruikt.

Bestanden en het taalmodel

Eén misverstand wil ik direct rechtzetten. Het idee dat een document ‘naar OpenAI of Anthropic gestuurd’ wordt zodra je Copilot iets vraagt, klopt niet. Standaard werkt Copilot met grounding: de orchestrator haalt via Microsoft Graph en de semantische index alleen de passages op die voor je vraag relevant lijken, en voegt die toe aan de grounded prompt. Volledige bestanden gaan dus niet de inferentiestap in.

Toch is het beeld niet altijd zwart-wit, en daarom is de nuance belangrijk. Bij scenario’s waarin je Copilot vraagt een héél document samen te vatten, bijvoorbeeld ‘Vat dit voorstel van veertig pagina’s samen’ in Word, komt het er in de praktijk op neer dat Copilot de inhoud van het document gebruikt om een antwoord op te bouwen. Microsoft formuleert dat in de productdocumentatie als: Copilot ‘neemt het hele document in beschouwing’. De technische implementatie daarvan publiceert Microsoft niet in detail (chunkgroottes, tokenbudgetten, eventuele meerdere aanroepen voor één samenvatting blijven binnen de orchestrator), maar het mag je niet verbazen wanneer het antwoord laat zien dat de inhoud écht is gelezen.

Wat in alle scenario’s wél vaststaat: het taalmodel ziet alleen wat in die ene grounded prompt zit, vergeet die direct na het antwoord, gebruikt het niet voor training en heeft geen toegang tot de rest van je tenant. Of Copilot nu één paragraaf of de hele tekst nodig heeft om je vraag te beantwoorden, het kader is hetzelfde. Alleen de hoeveelheid context die de orchestrator selecteert verandert.

De responsible AI-laag

Tussen je prompt en het antwoord zit niet één model-aanroep, maar een orchestrator die er meerdere kan doen. Microsoft beschrijft dit als een continuous reasoning loop: dezelfde gespreksbeurt kan onder de motorkap meerdere keren langs een taalmodel komen, voor uiteenlopende deeltaken. Een eerste aanroep om je intentie te interpreteren, een tweede om de retrieval-zoekopdracht te verfijnen, een derde voor het feitelijke antwoord, en aan het begin én het eind een Responsible AI-check.

Die laatste check is de Responsible AI-laag. Microsoft documenteert expliciet dat zowel de input (jouw prompt en de samengestelde grounded prompt) als de output (het antwoord van het model) wordt beoordeeld op schadelijke inhoud, geheime informatie, prompt-injecties en beschermd materiaal. Wat de check signaleert, wordt afgevangen vóór jij het te zien krijgt. Het effect is dat één gebruikersvraag in de praktijk meerdere keren door de modellen en classifiers wordt geleid, niet om een ‘beter’ antwoord af te dwingen, maar om de waarborgen op meerdere punten te verankeren.

Voor wie zich de vraag stelt ‘wordt mijn vraag dan vaker verwerkt dan ik denk?’ is het eerlijke antwoord ja, op architectuurniveau. En tegelijk: die meervoudige verwerking valt binnen dezelfde contractuele kaders en binnen dezelfde tenantgrens. Geen van die passages verlaat de Microsoft-infrastructuur of brengt klantcontent in een trainingsdataset.

Wie ziet wat

De drie lagen vertaald naar wie precies welke inhoud te zien krijgt. Lees deze tabel als een toegangskaart.

Wie Wat ze (kunnen) zienWat ze niet zien of doen
Jij en collega’s in dezelfde tenantDe inhoud waar in Microsoft 365 al rechten op zijn verleend.Niets nieuws ten opzichte van de bestaande rechtenstructuur.
Microsoft, als platformverwerkerLogging en metadata om Copilot-dienst te leveren. Klantinhoud niet voor productverbetering of modeltraining, contractueel vastgelegd.
OpenAI of Anthropic, als subverwerkerAlleen de samengestelde grounded prompt tijdens de inferentie. Geen tenant-toegang, geen retentie, geen training op klantdata.
Andere klanten of het publiek Niets.Tenants zijn logisch geïsoleerd via Microsoft Entra-autorisatie en RBAC.

Wil je niet alleen weten hoe Copilot met jouw data omgaat, maar vooral hoe je er slim en verantwoord mee werkt? Tijdens de training Copilot Introductie van Beeckestijn Business School neemt Ruben Mellaart je mee in de mogelijkheden van Microsoft Copilot binnen Microsoft 365. Je ontdekt hoe de technologie werkt, wat de impact is op privacy en beveiliging en hoe je Copilot inzet om slimmer, sneller en efficiënter te werken. Met praktische voorbeelden, direct toepasbare tips en volop ruimte om zelf te oefenen ga je naar huis met kennis én vertrouwen om aan de slag te gaan.

Delen