IA e dati degli utenti: si può allenare un algoritmo con le informazioni degli utenti?

Tempo di lettura: 7 minuti

Abstract

Gli strumenti di intelligenza artificiale generativa apprendono continuamente, anche dalle informazioni fornite dagli utenti. Ma è lecito usare dati personali o riservati per addestrare questi modelli? Questo articolo analizza il funzionamento dell’addestramento automatico, il quadro normativo applicabile (tra GDPR e AI Act) e i rischi legali per imprese e professionisti. Con un focus sul caso OpenAI, affrontiamo i limiti giuridici e le responsabilità di chi sviluppa — o utilizza — sistemi di IA.

L’intelligenza artificiale si “allena” con i nostri dati

Quando si parla di intelligenza artificiale generativa, come ChatGPT, Claude o Gemini, si tende a dimenticare che questi strumenti imparano continuamente… anche da noi. L’allenamento dei modelli linguistici di grandi dimensioni (Large Language Models, LLM) avviene attraverso l’elaborazione di enormi quantità di contenuti testuali, documenti, immagini, tra cui anche quelli forniti dagli utenti.

In molti casi, la stessa interazione con l’IA, chiedendo l’analisi di documenti caricati, messaggi, registrazioni vocali e input testuali diventano parte del materiale di addestramento, contribuendo a migliorare le risposte dello strumento. Il problema è che questi dati possono contenere anche informazioni personali, sensibili o confidenziali, che non vengono filtrate, finendo per diventare parte delle “knowledge” dell’intelligenza artificiale utilizzata.

Come funziona l’allenamento dell’IA?

Come detto, quando si interagisce con un sistema di intelligenza artificiale, le informazioni fornite – come domande, testi o immagini – possono essere raccolte, analizzate e usate per rendere il modello sempre più preciso ed efficace. Questo processo si chiama training, o addestramento.

In pratica, l’IA può conservare parte dei contenuti inseriti dagli utenti per rielaborarli in un secondo momento. Prima, però, quei dati devono essere “ripuliti”: si eliminano elementi inutili, si organizza il materiale in modo coerente e lo si trasforma in un linguaggio che l’algoritmo riesce a interpretare. Il tutto avviene sotto forma di numeri e strutture matematiche che rappresentano parole, immagini o concetti.

A questo punto, il sistema studia i dati per trovare schemi ricorrenti, collegamenti logici e modalità espressive. È qui che entrano in gioco due tecniche fondamentali: il machine learning e il deep learning.

Il machine learning è un metodo che permette all’IA di imparare dai dati, osservando molti esempi. Può essere guidato da un essere umano (quando i dati sono già etichettati), oppure funzionare in autonomia, cercando solo somiglianze e differenze. In genere, serve comunque l’aiuto di un esperto per indicare al sistema quali aspetti dei dati sono davvero importanti per imparare bene.

Il deep learning, invece, è un approccio più evoluto. Si basa su reti neurali che imitano – in modo semplificato – il funzionamento del cervello umano. Queste reti lavorano a più livelli: analizzano i dati passo dopo passo, da quelli grezzi fino alle informazioni più astratte. Riescono a capire immagini, generare testi o riconoscere volti senza bisogno che qualcuno gli spieghi come farlo. È il tipo di intelligenza usato, ad esempio, nei grandi modelli generativi come ChatGPT.

Che si tratti di machine learning o deep learning, il meccanismo di fondo è lo stesso: ogni nuova informazione può contribuire a migliorare il sistema. Con il tempo, l’IA evolve e diventa sempre più capace di affrontare richieste complesse.

Resta però una domanda aperta: l’intelligenza artificiale è legittimata memorizzare tutto ciò che riceve?

Trasparenza e privacy: cosa dicono il GDPR e l’AI Act?

Quando si utilizza un sistema di intelligenza artificiale, è quindi più che lecito domandarsi cosa succeda ai dati forniti, soprattutto se quei dati riportano informazioni personali.

Il Regolamento Generale sulla Protezione dei Dati (GDPR) impone regole rigorose per il trattamento di tali dati. In particolare, se un’informazione viene raccolta con una determinata finalità – ad esempio, per fornire un servizio – non può essere riutilizzata, ad esempio per addestrare un modello di IA, senza una nuova base giuridica. Lo stabilisce l’articolo 6, paragrafo 1, del GDPR: tra le condizioni di liceità del trattamento, la più adatta in questi contesti è spesso il consenso esplicito dell’interessato (lett. a), oppure, in casi specifici, il legittimo interesse del titolare (lett. f), purché supportato da una valutazione approfondita sull’impatto per i diritti e le libertà della persona.

Per questo, è essenziale esaminare con attenzione le condizioni d’uso e le informative privacy dei provider di IA. Se si intende utilizzare dati personali per finalità di addestramento, occorre specificarlo chiaramente, illustrando finalità, modalità e durata della conservazione. L’informativa deve essere redatta in modo chiaro, trasparente e facilmente accessibile, come richiesto dagli articoli 12 e 13 del GDPR. Allo stesso modo, l’utente deve essere posto nelle condizioni di esercitare i propri diritti, tra cui il diritto di opposizione (art. 21) e il diritto alla cancellazione dei dati (art. 17, il cosiddetto “diritto all’oblio“).

Non si tratta di sola teoria. Il Garante italiano per la protezione dei dati, come altre autorità europee, ha più volte sollecitato maggiore trasparenza da parte di chi sviluppa sistemi di IA generativa, soprattutto in relazione al riutilizzo delle informazioni fornite dagli utenti. È emblematico il recente caso Meta, in cui il Garante è intervenuto con un comunicato ufficiale per garantire che gli interessati potessero esercitare il diritto di opposizione al trattamento dei propri dati a fini di addestramento.

Sebbene tali criticità riguardino in prima battuta i dati personali, anche le imprese e i professionisti devono prestare attenzione. In ambito aziendale, è infatti tutt’altro che improbabile che un dipendente, un collaboratore o un consulente inserisca in un sistema di intelligenza artificiale informazioni riservate relative a progetti, clienti o tecnologie. Se tali dati fossero impiegati per l’addestramento del modello, potrebbero riemergere in contesti non controllabili, con gravi conseguenze in termini di violazione di segreti industriali, obblighi di riservatezza contrattuale o dati personali di terzi.

Il GDPR, affiancato oggi dal Regolamento europeo sull’Intelligenza Artificiale (AI Act), consente di affrontare questi scenari, caratterizzati da trattamenti del tutto nuovi. In tema di trasparenza, l’AI Act impone obblighi specifici per i modelli di IA generativa ad alto impatto. Si pensi, ad esempio, al Considerando 67, secondo cui le pratiche di data governance dovrebbero garantire – ove siano trattati dati personali – trasparenza circa la finalità originaria della raccolta. Oppure all’articolo 53, lett. a), che impone la redazione e l’aggiornamento della documentazione tecnica dei modelli, comprensiva dei dati di addestramento e dei risultati di valutazione, da fornire su richiesta alle autorità competenti.

In definitiva, non tutto è lecito nell’addestramento dell’intelligenza artificiale. Chi gestisce questi sistemi deve agire con trasparenza, assumersi la responsabilità delle scelte tecniche e organizzative, e garantire il rispetto dei diritti degli interessati.

Il caso OpenAI: il trattamento illecito dei dati per l’addestramento dell’IA

Nel dicembre 2024, il Garante per la protezione dei dati personali ha concluso l’istruttoria avviata nei confronti di OpenAI, sanzionando la società per gravi violazioni in materia di protezione dei dati personali nel contesto del funzionamento di ChatGPT. Il procedimento – aperto nel marzo 2023 – ha preso in esame, tra le altre criticità, l’uso dei dati personali degli utenti e dei non-utenti a fini di addestramento dell’intelligenza artificiale generativa, senza che OpenAI avesse previamente individuato una base giuridica conforme al GDPR, né rispettato gli obblighi di trasparenza informativa. Tra le principali violazioni accertate figurano:

  • l’assenza di un’informativa adeguata riguardo all’uso dei dati personali per l’addestramento del modello;
  • l’impossibilità per gli interessati di opporsi efficacemente a tale trattamento, in violazione dell’art. 21 GDPR;
  • la mancata predisposizione di strumenti per l’esercizio del diritto alla cancellazione, con compromissione del diritto all’oblio (art. 17);

A fronte di tali criticità, l’Autorità ha imposto a OpenAI una sanzione pecuniaria di 15 milioni di euro, tenendo conto anche dell’atteggiamento collaborativo dell’azienda durante l’istruttoria, e ordinando l’avvio di una campagna di comunicazione istituzionale su scala nazionale (radio, TV, stampa e web) della durata di sei mesi, volta a informare il pubblico sulle finalità e le modalità del trattamento dei dati da parte di ChatGPT, e a promuovere la consapevolezza dei diritti di opposizione, rettifica e cancellazione.

Sebbene la sanzione sia stata impugnata, e sospesa con effetto cautelare dal Tribunale di Roma, per una asserita sproporzionalità, il caso OpenAI segna un punto di svolta: le operazioni di addestramento dei modelli di IA non possono sottrarsi alle garanzie del diritto europeo e nazionale in materia di dati personali. Per quanto possibile, chi utilizza sistemi di IA e ha a cuore la protezione dei propri dati, dovrebbe sempre premurarsi di analizzare preventivamente il corredo contrattuale fornito dai provider, o a “danno compiuto”, contattare un legale esperto.

© Canella Camaiora S.t.A. S.r.l. - Tutti i diritti riservati.
Data di pubblicazione: 18 Giugno 2025

È consentita la riproduzione testuale dell’articolo, anche a fini commerciali, nei limiti del 15% della sua totalità a condizione che venga indicata chiaramente la fonte. In caso di riproduzione online, deve essere inserito un link all’articolo originale. La riproduzione o la parafrasi non autorizzata e senza indicazione della fonte sarà perseguita legalmente.

Pablo Lo Monaco Dominguez

Laureato presso l’Università di Milano-Bicocca, praticante Avvocato appassionato di litigation e risarcimento del danno.

Leggi la bio
error: Content is protected !!