approfondimento
-
Tempo medio di lettura 13'

Quando è Thomson Reuters a fare causa, l’AI non è imbattibile

Pubblicato in: Proprietà Intellettuale
di Arlo Canella
Home > Quando è Thomson Reuters a fare causa, l’AI non è imbattibile

L’uso dell’intelligenza artificiale per la ricerca giuridica può violare il copyright? Il caso Thomson Reuters vs. Ross Intelligence ha stabilito un precedente importante negli Stati Uniti. Il tribunale ha riconosciuto che Ross Intelligence aveva utilizzato senza autorizzazione le sintesi giuridiche di Thomson Reuters per addestrare la propria AI, determinando una violazione diretta del copyright. Questa decisione, che applica il fair use, si distingue dalle più recenti sentenze europee, come il caso LAION in Germania, dove la raccolta di dati per il training AI è stata ritenuta lecita in base all’eccezione per finalità di ricerca prevista dalla Direttiva (UE) 2019/790. Perché negli USA l’AI ha perso e in Europa ha vinto? Quali saranno le implicazioni di questa sentenza per il futuro dell’AI e del copyright?

Il gigante contro la startup

La vicenda ha origine nel 2020, quando Ross Intelligence, una startup emergente nel settore dell’intelligenza artificiale applicata alla ricerca giuridica, sviluppa un motore di ricerca legale basato su linguaggio naturale. L’obiettivo era ambizioso: fornire agli avvocati uno strumento capace di analizzare sentenze giudiziarie e restituire citazioni pertinenti, semplificando il processo di ricerca legale.

Tuttavia, il nodo centrale della controversia risiede nei dati utilizzati per l’addestramento dell’AI. Ross Intelligence, infatti, ha basato lo sviluppo del proprio sistema su un elemento essenziale per qualsiasi banca dati giuridica: le headnotes, ossia massime giuridiche che sintetizzano i punti chiave di una decisione giudiziaria. Queste sintesi, redatte da esperti del settore, costituiscono il cuore del sistema di ricerca di Westlaw, la celebre piattaforma di informazione giuridica di proprietà di Thomson Reuters.

Ross Intelligence, consapevole del valore strategico di queste sintesi, ha inizialmente tentato di ottenere una licenza da Thomson Reuters, la quale ha però rifiutato di concederla. A seguito di questo rifiuto, la startup ha adottato una soluzione alternativa: ha commissionato a una società terza la realizzazione di circa 25.000 “Bulk Memos”, documenti che raccoglievano domande giuridiche corredate da risposte corrette e scorrette. Tuttavia, nel corso del giudizio, è emerso che questi memo erano stati elaborati utilizzando gli headnotes di Westlaw e, in molti casi, ne riproducevano fedelmente il linguaggio e la struttura.

Di fronte a questa evidenza, Thomson Reuters ha avviato un’azione per violazione del copyright, sostenendo che Ross Intelligence avesse sfruttato i suoi materiali protetti per addestrare un’AI concorrente, senza autorizzazione e senza compensare il lavoro redazionale degli esperti di Westlaw.

Dopo un primo rigetto del 2023, motivato dalla presenza di questioni di fatto ancora da chiarire, la United States District Court for the District of Delaware ha riesaminato la questione e, in parziale riforma della precedente decisione, l’11 febbraio 2025 ha emesso una delle prime sentenze che affrontano direttamente la questione dell’uso di contenuti protetti da copyright nell’addestramento dell’intelligenza artificiale.

Il giudice Stephanos Bibas, della Corte d’Appello del Terzo Circuito, operando come giudice designato presso il tribunale distrettuale, nel caso Thomson Reuters Enterprise Centre GmbH e West Publishing Corporation v. Ross Intelligence Inc., Civil Action No. 20-613-LPS, ha accolto parzialmente il ricorso di Thomson Reuters, stabilendo che Ross Intelligence ha violato il diritto d’autore utilizzando senza autorizzazione materiali editoriali di Westlaw per addestrare il proprio motore di ricerca basato su AI.

Questa decisione è destinata a creare un precedente significativo, non solo per il contenuto della pronuncia, ma anche perché il giudice ha applicato i quattro fattori del “fair use”, un principio cardine del diritto d’autore statunitense. Cos’è il fair use e quali sono questi quattro fattori? Analizziamoli nel dettaglio.

Cos’è il “Fair Use” nel diritto d’autore americano?

Il concetto di fair use è uno degli elementi più distintivi del diritto d’autore statunitense. Regolato dall’articolo 107 del Titolo 17 dello U.S. Code, il fair use consente, in determinate circostanze, l’utilizzo di opere protette da copyright senza il consenso del titolare dei diritti, purché tale utilizzo sia giustificato da finalità specifiche e non comprometta il mercato dell’opera originale.

Questa dottrina mira a bilanciare la tutela del diritto d’autore con la necessità di garantire libertà di espressione, innovazione e progresso scientifico. È proprio attraverso il fair use che molte tecnologie digitali hanno potuto svilupparsi senza incorrere immediatamente in violazioni del copyright. Tuttavia, come dimostra la sentenza Thomson Reuters v. Ross Intelligence, l’applicazione di questa eccezione non è automatica: le corti americane valutano il “fair use” caso per caso, basandosi su quattro criteri fondamentali.

Per determinare se un uso rientra nel fair use, i giudici statunitensi applicano un test articolato in quattro fattori, ciascuno dei quali deve essere esaminato nel contesto specifico della controversia:

Il primo fattore riguarda la finalità per cui l’opera viene utilizzata (i.e., lo scopo e il carattere dell’uso). Un uso a scopi educativi, informativi o di critica ha maggiori probabilità di rientrare nel fair use rispetto a un uso commerciale.

La natura dell’opera protetta gioca un ruolo altrettanto determinante. Alcune opere godono di una protezione più forte rispetto ad altre. Le opere altamente creative (come romanzi, film, opere d’arte) sono più tutelate rispetto a opere sostanzialmente fattuali (come manuali tecnici o sentenze). In generale, l’uso di opere con un elevato contenuto di originalità è meno suscettibile di rientrare nel fair use.

La quantità e la rilevanza della parte utilizzata spesso fanno la differenza, anche se non conta solo la percentuale di contenuto riprodotta. Se l’uso riguarda la parte centrale e più significativa dell’opera, è meno probabile che venga considerato fair use.

Il quarto fattore è spesso considerato il più rilevante, poiché esamina l’impatto economico della “copiatura”. Se l’uso non autorizzato entra in competizione diretta con l’opera originale o riduce le opportunità di mercato del titolare dei diritti, difficilmente verrà ritenuto fair use. Inoltre, i tribunali tengono conto non solo del mercato attuale, ma anche di eventuali mercati derivati che il titolare avrebbe potuto sviluppare.

Il fair use è stato spesso invocato dalle aziende tecnologiche per giustificare l’uso di contenuti protetti da copyright nell’addestramento di modelli di intelligenza artificiale.

Tuttavia, la sentenza Thomson Reuters v. Ross Intelligence rappresenta una delle prime decisioni in cui un tribunale rigetta esplicitamente questa difesa, sancendo chiaramente che l’utilizzo di contenuti protetti per l’addestramento di un’AI commerciale non rientra automaticamente nel fair use.

Sebbene i criteri del fair use siano specifici del diritto statunitense, la questione ha implicazioni globali. In Europa, per esempio, non esiste un’eccezione simile, e il Regolamento sull’Intelligenza Artificiale dell’UE ha introdotto un’eccezione diretta al copyright, per legittimare l’avanzamento tecnologico attraverso l’uso di dati protetti per il training dei modelli AI (ne ho parlato anche qui: L’AI Act ha ucciso il Copyright? Riflessioni sul plagio nell’era dell’AI).

Ma come ha applicato il giudice Bibas questi principi al caso Ross Intelligence?

Thomson Reuters sconfigge l’AI grazie a un’applicazione rigorosa dei “four factors”

Nel suo ragionamento, il giudice Stephanos Bibas ha applicato in modo rigoroso il test dei quattro fattori del fair use.

Il tasso di trasformazione è parte del primo fattore del fair use, ovvero “scopo e carattere dell’uso” (purpose and character of the use). Il 17 U.S.C. § 107(1) stabilisce che il primo fattore considera:

“the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes.”

Tuttavia, la giurisprudenza della Corte Suprema ha chiarito che un elemento cruciale per valutare questo fattore è se l’uso dell’opera originale sia “trasformativo” o meno.

Nel caso Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994), la Corte Suprema ha stabilito che:

“the more transformative the new work, the less will be the significance of other factors, like commercialism, that may weigh against a finding of fair use.”

In altre parole, se un’opera è altamente trasformativa, anche un uso commerciale potrebbe rientrare nel fair use.

Nel caso Ross Intelligence, la corte ha stabilito che l’uso delle massime giuridiche di Westlaw non era trasformativo. Ross non ha modificato gli headnotes, né li ha utilizzati per creare un’opera con una finalità differente. Al contrario, li ha incorporati nei dati di addestramento della propria AI per sviluppare un prodotto in concorrenza con Westlaw.

“Ross was using Thomson Reuters’s headnotes as AI data to create a legal research tool to compete with Westlaw. […] Ross’s use is not transformative because it does not have a ‘further purpose or different character’ from Thomson Reuters’s.”

Questo punto è stato decisivo: la corte ha ritenuto che l’uso delle massime da parte di Ross fosse sostanzialmente identico a quello per cui erano state originariamente create da Westlaw, escludendo quindi qualsiasi carattere trasformativo.

Il secondo fattore del fair use riguarda la natura dell’opera protetta. Le opere altamente creative ricevono una protezione più forte, mentre quelle di natura fattuale possono avere una minore tutela. Ross Intelligence ha cercato di difendersi sostenendo che le massime giuridiche fossero meri dati e, in quanto tali, non soggetti a piena protezione del diritto d’autore. Tuttavia, la corte ha rigettato questa argomentazione, chiarendo che gli headnotes di Westlaw non sono semplici aggregati di informazioni, bensì sintesi editoriali strutturate da esperti legali, che richiedono un significativo apporto creativo.

Sebbene le sentenze siano di dominio pubblico, la loro elaborazione in forma di headnotes rappresenta un’opera protetta. Questo fattore ha quindi giocato parzialmente a favore di Ross, ma senza un impatto decisivo sul giudizio finale.

Un altro elemento determinante è stato l’ammontare della copiatura e la sua rilevanza rispetto all’opera originale. Ross ha tentato di sostenere che il numero di massime utilizzate fosse esiguo rispetto all’intero database di Westlaw. La corte, però, ha respinto questa difesa con un ragionamento chiaro: non conta solo la quantità di testo copiato, ma il valore della parte sottratta. In altre parole, se viene riprodotta la parte centrale e più significativa dell’opera, anche un prelievo limitato può costituire violazione del copyright.

If taking 300 words out of President Ford’s memoirs could count as taking the heart of the work, so too can taking several thousand headnotes out of Westlaw.” (Il riferimento del giudice va alla sentenza Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569)

L’elemento più importante del test del fair use è il quarto fattore, ovvero l’impatto economico dell’uso contestato sull’opera originale. Ross Intelligence ha cercato di difendersi affermando che gli headnotes non venivano mostrati direttamente agli utenti finali, ma erano solo usati per addestrare il modello AI. Il giudice Bibas, però, ha chiarito che ciò che conta non è tanto la disponibilità diretta al pubblico, quanto il rischio che l’uso dell’opera crei un sostituto di mercato per l’originale. Il fatto che Ross Intelligence stesse sviluppando un motore di ricerca giuridica basato su AI, destinato a competere direttamente con Westlaw, ha portato la corte a concludere che il suo utilizzo riduceva il valore commerciale degli headnotes di Thomson Reuters.

La decisione del giudice Bibas non si è limitata a rigettare la difesa basata sul fair use, ma ha anche stabilito un principio molto interessante: le massime giuridiche non sono dati grezzi.

Questa sentenza mette in discussione un elemento rilevante che potrebbe portare a rivedere il concetto di dati grezzi nel settore dell’intelligenza artificiale.

Se le massime giuridiche sono tutelate dal copyright, quali sono allora le opere che possono essere considerate libere?

Copyright vs. AI: una linea di confine sempre più sottile

Il caso Thomson Reuters v. Ross Intelligence ha stabilito un principio interessante: l’uso di contenuti protetti da copyright per l’addestramento di un’AI non è automaticamente lecito (fair use). La decisione del giudice Stephanos Bibas ha sottolineato che le massime giuridiche non sono dati grezzi, bensì opere editoriali originali, frutto di selezione e giudizio umano. Ross Intelligence non ha potuto appellarsi al fair use perché il suo motore AI non trasformava gli headnotes, ma li usava con la stessa finalità per cui erano stati creati da Westlaw/Thomson Reuters.

Un altro aspetto interessante di questa sentenza è che non riguarda un’AI generativa (GenAI), bensì un motore di ricerca basato su AI. Questo la rende particolarmente rilevante, poiché il dibattito globale sul copyright e l’AI si concentra quasi esclusivamente sui modelli generativi, come quelli di OpenAI, Google e Meta. Tuttavia, anche AI non generative possono violare il copyright, se il loro funzionamento comporta una riproduzione sistematica di contenuti protetti.

Se negli Stati Uniti il fair use ha limitato l’uso dell’AI nei motori di ricerca giuridici, in Europa un caso simile ha avuto un esito completamente diverso.

Il caso LAION, recentemente esaminato dal Tribunale di Amburgo il 27 settembre 2024, ha stabilito che LAION non ha violato il copyright raccogliendo immagini per creare dataset di addestramento per AI (ho accennato al caso Laion in questo mio precedente articolo “Le immagini generate con AI possono essere utilizzate a fini commerciali?” ma ne ho parlato anche su Linkedin).

La motivazione? La finalità di ricerca scientifica. In base all’articolo 4 della Direttiva (UE) 2019/790, l’estrazione di testi e dati (text and data mining – TDM) è lecita per fini di ricerca, salvo che il titolare dei diritti non abbia espressamente vietato tale utilizzo attraverso un opt-out leggibile dalle macchine (vedi anche: Intelligenza Artificiale: il silenzioso sfruttamento delle opere degli autori. – Canella Camaiora).

Questo meccanismo ha permesso a LAION di operare in un quadro legale più permissivo rispetto a quello statunitense. Tuttavia, qui emerge una contraddizione di fondo: i dataset di LAION sono stati utilizzati da Stability AI, che a sua volta ha sviluppato Stable Diffusion, un modello commerciale utilizzato da Amazon e altre big tech.

In pratica, un dataset protetto dalla normativa sulla ricerca è stato utilizzato per addestrare AI impiegate in prodotti commerciali.

Questa situazione solleva una domanda: l’opt-out europeo è davvero sufficiente a proteggere i titolari dei diritti? O serve un intervento normativo più restrittivo, per evitare che dataset sviluppati per la ricerca vengano poi sfruttati da aziende private a fini commerciali?

Nel frattempo, la sentenza Thomson Reuters v. Ross Intelligence potrebbe influenzare le future controversie legali negli Stati Uniti, dove sempre più creatori di contenuti stanno sfidando in tribunale le big tech dell’AI.

Tuttavia, rimane un dubbio: se al posto di Ross Intelligence ci fosse stata una big tech come OpenAI o Microsoft, la decisione sarebbe stata la stessa?

© Canella Camaiora Sta. Tutti i diritti riservati.
Data di pubblicazione: 7 Marzo 2025

È consentita la riproduzione testuale dell’articolo, anche a fini commerciali, nei limiti del 15% della sua totalità a condizione che venga indicata chiaramente la fonte. In caso di riproduzione online, deve essere inserito un link all’articolo originale. La riproduzione o la parafrasi non autorizzata e senza indicazione della fonte sarà perseguita legalmente.
Avv. Arlo Cannela

Avvocato Arlo Canella

Managing Partner dello studio legale Canella Camaiora, iscritto all’Ordine degli Avvocati di Milano, appassionato di Branding, Comunicazione e Design.
Leggi la bio
error: Content is protected !!