Datele cu caracter personal și inteligența artificială

Utilizarea unui model de limbaj (LLM) în activitatea unei organizații nu este neutră din perspectiva protecției datelor. Orice prompt care conține informații despre o persoană identificabilă intră sub incidența GDPR - indiferent că modelul rulează în cloud sau local, indiferent că procesarea durează o secundă sau o oră.

Temeiul legal al procesării

Înainte de orice implementare, organizația trebuie să identifice temeiul legal pe care se bazează procesarea. Simpla utilitate a modelului nu constituie un temei. Cele mai frecvente baze aplicabile sunt executarea unui contract, îndeplinirea unei obligații legale sau interesul legitim - acesta din urmă necesitând o analiză de impact (DPIA) documentată, în care interesele organizației sunt cântărite față de drepturile persoanelor vizate.

Ce date intră efectiv în model

Unul dintre cele mai frecvente erori de guvernanță este lipsa unui inventar clar al datelor care ajung în prompturi. Numele, adresele, istoricul medical, datele financiare sau orice altă informație care permite identificarea unei persoane reprezintă date cu caracter personal - chiar dacă sunt incluse incidental, chiar dacă scopul interogării este altul. Organizațiile trebuie să definească politici clare privind ce categorii de date pot fi trimise către un LLM și în ce condiții.

Categorii speciale de date

Datele privind sănătatea, originea etnică, convingerile religioase, orientarea sexuală sau datele biometrice beneficiază de un regim de protecție suplimentar conform art. 9 GDPR. Procesarea lor printr-un LLM este permisă doar în baza unor excepții expres prevăzute de lege - consimțământ explicit, interes public semnificativ sau altele -, fiecare cu cerințe de documentare stricte. Transmiterea necontrolată a acestor categorii către un model este, în cele mai multe cazuri, o încălcare directă.

Atenție la datele implicite. Un prompt de tipul „pacientul din dosarul 4821 are alergii la penicilină" nu conține explicit numele persoanei, dar combinat cu alte date din sistemele organizației poate deveni ușor identificabil. Pseudonimizarea și anonimizarea corectă sunt obligatorii înainte de procesare.

LLM local vs. cloud - diferența contează

Un model rulat integral pe infrastructura proprie elimină transferul de date către un operator terț - ceea ce reduce semnificativ suprafața de risc și simplifică documentația GDPR. În schimb, utilizarea unui serviciu cloud (OpenAI, Anthropic, Google etc.) constituie o relație de prelucrare în numele operatorului, care necesită încheierea unui acord de procesare a datelor (DPA), verificarea locației serverelor și, dacă datele ajung în afara SEE, implementarea unor garanții adecvate (clauze contractuale standard, decizii de adecvare etc.).

Minimizarea datelor și anonimizarea

Principiul minimizării impune că în model intră doar datele strict necesare scopului urmărit. Dacă o interogare poate fi formulată fără a include date identificabile, aceasta este varianta obligatorie, nu cea opțională. Unde datele personale sunt inevitabile, anonimizarea sau pseudonimizarea corectă - nu simpla ștergere a numelui, ci eliminarea oricărui atribut care permite re-identificarea - trebuie aplicată anterior procesării.

Retenția și ștergerea datelor din istoricul modelului

Un LLM nu „memorează" în mod implicit datele din prompturi - dar contextul conversațional poate fi stocat în loguri, în baze de date de sesiuni sau în sisteme RAG. Aceste stocări sunt procesări de sine stătătoare și intră sub obligațiile de retenție și ștergere prevăzute de GDPR. Politicile de retenție trebuie să acopere explicit logurile de inferență, istoricul de conversații și orice vector store asociat.

Drepturile persoanelor vizate

Persoanele ale căror date au fost procesate prin intermediul unui LLM au aceleași drepturi ca în orice alt context: acces, rectificare, ștergere, restricționare, portabilitate. Dificultatea constă în trasabilitate - organizația trebuie să fie în măsură să răspundă la o cerere de acces sau ștergere și în privința datelor care au tranzitat un model de limbaj. Fără o arhitectură de logare și auditare adecvată, acest lucru devine imposibil în practică.

Evaluarea impactului (DPIA)

Implementarea unui LLM în procese care implică date personale la scară sau date din categorii speciale necesită, de regulă, o Evaluare a Impactului asupra Protecției Datelor (DPIA) conform art. 35 GDPR. Aceasta nu este un document opțional - este obligatorie ori de câte ori prelucrarea este susceptibilă să genereze un risc ridicat. O DPIA bine condusă identifică riscurile înainte de implementare și documentează măsurile de atenuare, protejând atât persoanele vizate, cât și organizația în fața autorităților de supraveghere.