Canella Camaiora / L’eccezione TDM nell’era dell’IA generativa: opt-out, training e trasformazione del diritto esclusivo di riproduzione

L’eccezione TDM nell’era dell’IA generativa: opt-out, training e trasformazione del diritto esclusivo di riproduzione

Tempo di lettura: 15 minuti

Diritto d'autore e copyright

Scritto da: Celeste Martinez Di Leo Leggi la bio per Canella Camaiora Studio Legale

1 Introduzione: Dal text and data mining al training dei foundation models
2 La genealogia dell’uso analitico nel diritto d’autore: Interoperabilità, motori di ricerca, Google Books e copie funzionali
3 L’AI Act e la trasformazione del copyright europeo: Dall’autorizzazione alla compliance: opt-out, GPAI e licenza obbligatoria implicita
4 L’IA generativa e il collasso della distinzione tra uso analitico e uso sostitutivo: Dal data mining all’estrazione industriale di valore creativo
5 Il conflitto sistemico con il diritto internazionale e i diritti fondamentali: Three-step test, proprietà intellettuale e trasformazione del diritto esclusivo

L’eccezione TDM nell’era dell’IA generativa_ opt-out, training e trasformazione del diritto esclusivo di riproduzione

1 Introduzione: Dal text and data mining al training dei foundation models
2 La genealogia dell’uso analitico nel diritto d’autore: Interoperabilità, motori di ricerca, Google Books e copie funzionali
3 L’AI Act e la trasformazione del copyright europeo: Dall’autorizzazione alla compliance: opt-out, GPAI e licenza obbligatoria implicita
4 L’IA generativa e il collasso della distinzione tra uso analitico e uso sostitutivo: Dal data mining all’estrazione industriale di valore creativo
5 Il conflitto sistemico con il diritto internazionale e i diritti fondamentali: Three-step test, proprietà intellettuale e trasformazione del diritto esclusivo

Abstract

L’addestramento dei sistemi di intelligenza artificiale generativa si basa sull’utilizzo di enormi quantità di contenuti digitali, spesso protetti dal diritto d’autore. In Europa – e non solo -, questo fenomeno ha riaperto il dibattito sui limiti entro cui opere, articoli, immagini o banche dati possano essere utilizzati per il training dei modelli senza il consenso dei titolari dei diritti.

L’articolo analizza il rapporto tra le eccezioni per il text and data mining previste dalla Direttiva DSM e la disciplina dei modelli di intelligenza artificiale per finalità generali introdotta dall’AI Act, interrogandosi sulla liceità del training dei foundation models su opere protette dal diritto d’autore. Muovendo dalla distinzione tradizionale tra uso analitico e uso sostitutivo delle opere, il contributo ricostruisce la genealogia delle copie funzionali nel diritto d’autore europeo per mostrare come l’IA generativa alteri profondamente tale equilibrio. L’articolo esamina infine le tensioni che questa trasformazione solleva rispetto al three-step test internazionale, alla struttura proprietaria del copyright europeo e alla tutela della proprietà intellettuale quale diritto fondamentale.

Introduzione: Dal text and data mining al training dei foundation models

L’intelligenza artificiale generativa ha costretto il diritto d’autore europeo a confrontarsi con una domanda che, solo in apparenza, riguarda la tecnologia: fino a che punto un’opera protetta può essere utilizzata per addestrare un modello di IA senza il consenso del titolare dei diritti?

Negli ultimi anni, il diritto europeo sembra aver iniziato a fornire una risposta implicita a questa domanda, attraverso il progressivo collegamento tra le eccezioni per il text and data mining (TDM) introdotte dalla Direttiva (UE) 2019/790 (“Direttiva DSM”) e la disciplina dei modelli di IA per finalità generali prevista dal Regolamento (UE) 2024/1689 (“ AI Act”).

Il TDM indica l’insieme di tecniche automatizzate che consentono a software e sistemi informatici di analizzare grandi quantità di contenuti digitali per estrarre informazioni, correlazioni, ricorrenze e modelli. La “Direttiva DSM”, adottata per adattare il diritto d’autore europeo all’economia digitale, ha introdotto due eccezioni specifiche per queste attività:

una destinata alla ricerca scientifica svolta da organismi di ricerca e istituti culturali (art. 3 DSM)
e una applicabile anche a usi commerciali, salvo opt-out del titolare dei diritti (art. 4 DSM).

L’AI Act si colloca invece su un piano diverso. Il Regolamento non nasce per disciplinare il diritto d’autore, ma per regolare lo sviluppo, l’immissione sul mercato e l’utilizzo dei sistemi di intelligenza artificiale, con particolare attenzione ai modelli di IA per finalità generali (general-purpose AI models o GPAI). Tuttavia, nel disciplinare tali modelli, l’AI Act riconduce espressamente il loro addestramento al quadro delle eccezioni per il text and data mining previste dalla Direttiva DSM, consolidando l’idea che il training dei foundation models possa svolgersi sulla base dell’art. 4 DSM, salvo riserva dei diritti da parte del titolare.

È proprio in questo collegamento che emerge il nodo problematico. Le eccezioni TDM introdotte dalla Direttiva DSM erano state concepite per consentire attività di analisi automatizzata dei dati. L’AI Act, però, finisce per proiettarle nel contesto dell’IA generativa, estendendo una disciplina pensata per usi analitici a sistemi il cui scopo non è più soltanto estrarre informazioni dalle opere, ma generare nuovi contenuti a partire da esse.

La tesi di questo contributo è che l’eccezione TDM, interpretata alla luce dell’AI Act e applicata al training dei foundation models, rischi di funzionare non più come una semplice eccezione al diritto d’autore, ma come una forma di “licenza obbligatoria implicita” a favore dell’industria dell’intelligenza artificiale. Una trasformazione che solleva tensioni profonde con la struttura proprietaria del copyright europeo (cfr. art. 2 Direttiva 2001/29/CE), con il three-step test internazionale (cfr. art. 9(2) Convenzione di Berna per la protezione delle opere letterarie e artistiche; art. 13 TRIPS; art. 10 WCT) e con la tutela della proprietà intellettuale quale diritto fondamentale (cfr. art. 17(2) Carta dei diritti fondamentali dell’UE).

La genealogia dell’uso analitico nel diritto d’autore: Interoperabilità, motori di ricerca, Google Books e copie funzionali

L’idea che opere protette possano essere utilizzate senza autorizzazione per finalità puramente analitiche non nasce con il text and data mining. Da tempo il diritto d’autore europeo e comparato tollera alcune forme di riproduzione “funzionale”, quando la copia dell’opera non costituisce il fine dell’utilizzo, ma il mezzo necessario per ottenere informazioni, garantire interoperabilità o consentire processi automatizzati di analisi.

Questa logica emerge innanzitutto nella disciplina del reverse engineering e dell’interoperabilità del software. La Direttiva 91/250/CEE, poi confluita nella Direttiva 2009/24/CE sui programmi per elaboratore, ha ammesso in casi specifici attività di decompilazione necessarie per ottenere le informazioni indispensabili a far dialogare sistemi informatici differenti. In questo contesto, la riproduzione del software non era considerata uno sfruttamento economico dell’opera in quanto tale, ma un passaggio tecnico necessario per accedere a informazioni funzionali.

Una logica analoga si è progressivamente affermata nell’economia digitale con i motori di ricerca e i sistemi di indicizzazione automatizzata del web (cfr. art. 5, par. 1, Direttiva 2001/29/CE; CGUE, C-360/13, Public Relations Consultants Association Ltd v Newspaper Licensing Agency Ltd). L’attività di crawling, caching e indicizzazione implica inevitabilmente la realizzazione di copie temporanee o funzionali dei contenuti analizzati. Tuttavia, tali copie sono state generalmente considerate compatibili con il diritto d’autore nella misura in cui servivano a localizzare, organizzare o rendere reperibili le informazioni online, senza sostituire direttamente la fruizione delle opere originarie.

Anche il contenzioso relativo a Google Books riflette questa impostazione (cfr. Authors Guild, Inc. v. Google Inc., 804 F.3d 202, 2d Cir. 2015). La digitalizzazione massiva di milioni di opere editoriali era stata ritenuta ammissibile, nel contesto statunitense, perché finalizzata principalmente alla ricerca testuale e all’indicizzazione dei contenuti, mentre la visualizzazione delle opere restava limitata e, per l’effetto, non sostitutiva rispetto al mercato editoriale originario.

Su questo terreno si inserisce il text and data mining disciplinato dalla “Direttiva DSM”. Le eccezioni previste dagli artt. 3 e 4 si fondano sulla stessa idea di fondo: consentire l’analisi automatizzata delle opere per estrarre dati, correlazioni e modelli, senza attribuire rilevanza centrale alla fruizione espressiva dei contenuti copiati.

L’elemento comune di queste esperienze è la distinzione tra uso analitico e uso sostitutivo. La copia viene tollerata quando serve a comprendere, classificare o analizzare l’opera, non quando consente di competere economicamente con essa. È su questa distinzione che si innestano oggi le principali criticità derivanti dall’applicazione dell’art. 4 della Direttiva DSM all’IA generativa.

L’AI Act e la trasformazione del copyright europeo: Dall’autorizzazione alla compliance: opt-out, GPAI e licenza obbligatoria implicita

Il passaggio decisivo avviene con l’AI Act. Formalmente, il Regolamento non modifica la Direttiva DSM né introduce nuove eccezioni al diritto d’autore. Tuttavia, nel disciplinare i modelli di IA per finalità generali, esso consolida una lettura dell’art. 4 DSM applicabile al training dei foundation models.

Il Considerando 105 costituisce il punto di collegamento più rilevante. Il legislatore europeo riconosce espressamente che l’addestramento dei modelli di IA generativa richiede l’accesso a grandi quantità di dati e che, in tale contesto, le tecniche di text and data mining sono ampiamente utilizzate. Il considerando aggiunge inoltre che, “qualora il diritto di sottrarsi sia stato espressamente riservato in modo appropriato, i fornitori di modelli di IA per finalità generali devono ottenere un’autorizzazione dai titolari dei diritti, qualora intendano compiere l’estrazione di testo e di dati su tali opere.”.

Il ragionamento a contrario è evidente. Se l’autorizzazione diventa necessaria solo in presenza di un opt-out validamente esercitato, il sistema finisce implicitamente per assumere che, in assenza di tale riserva, il training possa svolgersi nell’ambito dell’eccezione prevista dall’art. 4 DSM.

L’AI Act non si limita però a evocare questo collegamento sul piano teorico. L’art. 53 impone ai fornitori di GPAI specifici obblighi di copyright compliance, tra cui l’adozione di policy idonee a individuare e rispettare le riserve dei diritti espresse dai titolari ai sensi dell’art. 4 DSM (cfr. art. 53(1)(c) AI Act), nonché obblighi di trasparenza relativi ai contenuti utilizzati per l’addestramento (art. 53(1)(d) AI Act).

Si produce così uno spostamento strutturale del sistema.

Nel modello classico del diritto d’autore, l’utilizzo dell’opera presuppone l’autorizzazione preventiva del titolare.
Nel modello che emerge dall’interazione tra art. 4 DSM e AI Act, invece, l’utilizzo tende a diventare presuntivamente lecito salvo opt-out (cfr. Considerando 105 AI Act; art. 53 AI Act; art. 4 DSM), mentre il problema principale si trasferisce dal piano dell’autorizzazione sostanziale a quello della compliance procedurale.

È in questo passaggio che l’eccezione TDM rischia di assumere una funzione diversa da quella originariamente prevista dal legislatore europeo. Più che operare come semplice limite circoscritto al diritto esclusivo, l’art. 4 DSM tende progressivamente a funzionare come una forma di “licenza obbligatoria implicita” a favore dell’industria dell’IA generativa: un sistema nel quale l’utilizzo delle opere appare ammesso di default, salvo opposizione del titolare secondo modalità tecnicamente riconoscibili dai fornitori dei modelli.

L’IA generativa e il collasso della distinzione tra uso analitico e uso sostitutivo: Dal data mining all’estrazione industriale di valore creativo

L’ascesa dell’IA generativa ha profondamente alterato l’equilibrio su cui si fondavano le tradizionali forme di utilizzo analitico delle opere protette. I foundation models vengono addestrati su dataset di dimensioni enormi, spesso ottenuti attraverso tecniche di scraping e text and data mining applicate a contenuti reperiti online. Sotto il profilo tecnico, tali attività presentano molte analogie con le pratiche già tollerate nell’ambito del reverse engineering, dei motori di ricerca o dell’analisi automatizzata dei dati. Tuttavia, cambia radicalmente la funzione economica dell’utilizzo.

Nelle tradizionali forme di uso analitico, la copia dell’opera costituiva un mezzo per ottenere informazioni sulle opere stesse: garantire interoperabilità, organizzare contenuti, individuare correlazioni o consentire ricerche automatizzate. L’attività di analisi restava esterna al mercato espressivo dell’opera e non produceva contenuti destinati a sostituirne la fruizione economica.

L’IA generativa rompe questa distinzione. Il training dei foundation models utilizza le opere non soltanto per estrarre dati o modelli informativi, ma per costruire sistemi capaci di generare testi, immagini, codice, musica o altri contenuti potenzialmente concorrenti rispetto a quelli utilizzati nel dataset di addestramento.

Un chatbot addestrato su articoli giornalistici può fornire sintesi e risposte che riducono la necessità di consultare le fonti originarie. Un generatore di immagini addestrato su fotografie, illustrazioni o opere artistiche può produrre contenuti alternativi a quelli offerti da fotografi, illustratori o piattaforme stock. Un modello addestrato su repository di codice può generare porzioni di software economicamente sostitutive rispetto al lavoro degli sviluppatori umani.

In questo passaggio si consuma la rottura sistemica. L’analisi non resta confinata alla conoscenza dell’opera, ma diventa capacità produttiva. La copia funzionale non serve più soltanto a comprendere o classificare contenuti, ma alimenta sistemi che operano direttamente nei mercati creativi, informativi e professionali.

È proprio questo slittamento a rendere problematica l’applicazione dell’art. 4 DSM al training dei foundation models. Le eccezioni TDM erano state concepite in un contesto in cui l’utilizzo automatizzato delle opere appariva sostanzialmente non sostitutivo. L’IA generativa, invece, introduce una forma di sfruttamento che tende a collocarsi sempre più vicino al nucleo economico del diritto esclusivo.

Il conflitto sistemico con il diritto internazionale e i diritti fondamentali: Three-step test, proprietà intellettuale e trasformazione del diritto esclusivo

La trasformazione prodotta dall’interazione tra art. 4 DSM e AI Act non pone soltanto problemi di politica legislativa o di equilibrio economico tra industria dell’IA e titolari dei diritti. Essa solleva anche interrogativi più profondi circa la compatibilità dell’attuale assetto europeo con i limiti imposti dal diritto internazionale del copyright e con la tutela della proprietà intellettuale quale diritto fondamentale.

Il primo terreno di tensione riguarda il three-step test, recepito dall’art. 9, par. 2, della Convenzione di Berna, dall’art. 13 dell’Accordo TRIPS e dall’art. 10 del WIPO Copyright Treaty. Secondo tale criterio, eccezioni e limitazioni al diritto d’autore sono ammissibili soltanto:

in casi speciali;
nei limiti in cui non interferiscano con il normale sfruttamento dell’opera;
e non arrechino un ingiustificato pregiudizio agli interessi legittimi del titolare.

L’applicazione dell’art. 4 DSM al training dei foundation models solleva dubbi rispetto a ciascuno di questi requisiti. La portata generalizzata dell’eccezione, applicabile potenzialmente a quantità enormi di contenuti e a modelli destinati a operare su scala industriale, rende difficile qualificare il training generativo come “caso speciale” nel senso richiesto dal three-step test.

Anche il secondo requisito appare problematico. La giurisprudenza europea ha tradizionalmente interpretato le eccezioni al diritto d’autore in modo restrittivo proprio in ragione della loro incidenza sul diritto esclusivo del titolare (cfr. CGUE, Infopaq International, C-5/08; Pelham, C-476/17). Le tradizionali forme di uso analitico erano state considerate compatibili con il three-step test nella misura in cui non interferivano direttamente con il mercato delle opere originarie. L’IA generativa, al contrario, tende sempre più a collocarsi nei medesimi mercati creativi e informativi da cui estrae i contenuti utilizzati per l’addestramento.

Il problema emerge con particolare evidenza nei settori in cui stanno nascendo mercati di licensing specificamente destinati al training dell’IA. La crescente diffusione di accordi tra piattaforme di IA generativa ed editori, agenzie fotografiche, collecting societies e titolari di grandi archivi digitali dimostra come l’utilizzo delle opere per il training stia assumendo un autonomo valore economico. In questo contesto, risulta sempre più difficile sostenere che tale utilizzo non interferisca con il “normale sfruttamento dell’opera” ai sensi del three-step test.

A ciò si aggiunge il profilo costituzionale. L’art. 17, par. 2, della Carta dei diritti fondamentali dell’Unione europea stabilisce espressamente che “la proprietà intellettuale è protetta”. La Corte di giustizia dell’Unione Europea ha più volte riconosciuto che il diritto d’autore costituisce una forma di proprietà tutelata dall’ordinamento europeo, pur dovendo essere bilanciata con altri diritti fondamentali e interessi generali (cfr. CGUE, Promusicae, C-275/06; Scarlet Extended, C-70/10; UPC Telekabel Wien, C-314/12).

Anche la Corte europea dei diritti dell’Uomo ha progressivamente ricondotto la proprietà intellettuale nell’ambito di applicazione dell’art. 1 del Protocollo n. 1 CEDU, riconoscendole la natura di “bene” suscettibile di tutela convenzionale (cfr. Corte EDU, Anheuser-Busch Inc. v. Portugal, GC, 2007).

In questa prospettiva, il problema non riguarda soltanto la legittimità astratta delle eccezioni TDM, ma la loro trasformazione funzionale nel contesto dell’IA generativa. Quanto più l’art. 4 DSM tende a operare come meccanismo generale di accesso ai contenuti per finalità industriali di training, tanto più il sistema rischia di avvicinarsi a una forma di riallocazione regolatoria del valore economico delle opere, senza un corrispondente meccanismo di compensazione per i titolari dei diritti.

È in questo slittamento che emerge la tesi centrale del presente contributo. Interpretata alla luce dell’AI Act e applicata al training dei foundation models, l’eccezione TDM rischia infatti di funzionare non più come una semplice limitazione circoscritta al diritto esclusivo, ma come una forma di “licenza obbligatoria implicita” a favore dell’industria dell’intelligenza artificiale. L’utilizzo delle opere tende a essere considerato lecito in via generale, salvo opposizione del titolare mediante opt-out, mentre il controllo effettivo sullo sfruttamento economico dei contenuti si sposta progressivamente dal consenso preventivo alla gestione tecnica della riserva dei diritti.

Si tratta di una trasformazione destinata verosimilmente ad alimentare un contenzioso crescente. Le azioni già avviate negli Stati Uniti e nel Regno Unito contro OpenAI, Stability AI, Meta o Anthropic (NYT v. OpenAI; Getty v. Stability AI; Kadrey v. Meta; Bartz v. Anthropic) mostrano come il conflitto non riguardi più soltanto la liceità tecnica del training, ma la redistribuzione del valore economico prodotto dai sistemi di IA generativa. Anche nell’ordinamento europeo è prevedibile che il contenzioso si sposti progressivamente dalla questione della mera riproduzione tecnica delle opere alla verifica della compatibilità sistemica dell’attuale modello con la struttura proprietaria del copyright europeo, con i limiti posti dal three-step test internazionale e con la tutela della proprietà intellettuale quale diritto fondamentale.

In questa prospettiva, l’attuale assetto normativo potrebbe rivelarsi soltanto una fase transitoria di un processo più ampio di trasformazione del copyright europeo. Quanto più l’utilizzo delle opere per il training dell’IA tenderà a essere considerato lecito in via generale salvo opt-out, tanto più il diritto esclusivo rischierà di avvicinarsi, sul piano funzionale, a un modello fondato non più sul consenso preventivo del titolare, ma su forme di accesso generalizzato eventualmente accompagnate da meccanismi compensativi.

In questo scenario, il vero nodo non sembra più essere se il training dell’IA debba essere consentito, ma a quali condizioni economiche e giuridiche tale utilizzo possa avvenire senza alterare strutturalmente la funzione proprietaria del diritto d’autore europeo.

Se il training dell’IA è ammesso salvo opt-out, il diritto esclusivo non scompare formalmente. Ma cambia natura. Da diritto di autorizzare tende a trasformarsi in diritto di opporsi. Da regola fondata sul consenso preventivo diventa meccanismo di riserva. Da proprietà pienamente negoziabile rischia di trasformarsi in una posizione giuridica condizionata da un onere tecnico di protezione.

È in questa trasformazione che si gioca una delle partite più rilevanti del diritto d’autore contemporaneo. L’eccezione TDM, nata per consentire l’analisi automatizzata dei dati, rischia infatti di diventare il cavallo di Troia di una nuova infrastruttura industriale dell’accesso ai contenuti: una forma di “licenza obbligatoria implicita”, non espressamente dichiarata dal legislatore e costruita non attraverso una riforma organica del copyright, ma mediante la regolazione dell’intelligenza artificiale.

Bibliografia

AI and copyright: The training of general-purpose AI, European Parliamentary Research Service (EPRS), European Parliament, 28 aprile 2025.

Axhamn J., Extended Collective Licensing for Use of Copyrighted Works for Machine Learning, in Columbia Journal of Law & the Arts, vol. 48, 2025, p. 523 ss.

de la Durantaye K., Control and Compensation. A Comparative Analysis of Copyright Exceptions for Training Generative AI, in IIC – International Review of Intellectual Property and Competition Law, vol. 56, 2025, pp. 737–770.

Lucchi N., Generative AI and Copyright. Training, Creation, Regulation, Study requested by the JURI Committee, European Parliament, PE 774.095, luglio 2025.

New Rules of the Game: How the Italian AI Framework Act Redefines the Boundaries of Text and Data Mining Limitations in Copyright Law, 2025.

Senftleben M., Are the European TDM Exceptions Applicable to GenAI Training Despite the Three-Step Test?, Institute for Information Law (IViR), University of Amsterdam, 2025.

The AI Act: Calling for global compliance with EU copyright?, Freshfields, 5 aprile 2024.

Ziaja G.M., The text and data mining opt-out in Article 4(3) CDSMD: Adequate veto right for rightholders or a suffocating blanket for European artificial intelligence innovations?, in Journal of Intellectual Property Law & Practice, vol. 19, n. 5, 2024, p. 453 ss

È consentita la riproduzione testuale dell’articolo, anche a fini commerciali, nei limiti del 15% della sua totalità a condizione che venga indicata chiaramente la fonte. In caso di riproduzione online, deve essere inserito un link all’articolo originale. La riproduzione o la parafrasi non autorizzata e senza indicazione della fonte sarà perseguita legalmente.

Celeste Martinez Di Leo

Leggi la bio

Richiedi un preventivo personalizzato.