Robots.txt per bloccare lo scraping di contenuti da IA: un esercizio futile o un passo necessario?

Alberto Puliafito

Il quaderno delle Intelligenze Artificiali

Nell’era delle intelligenze artificiali (IA), i confini tradizionali della proprietà e della distribuzione dei contenuti sono messi a dura prova.

___STEADY_PAYWALL___

Uno degli strumenti a disposizione di chi crea contenuti e li pubblica su un sito (vale per un blog o per un giornale o comunque un progetto editoriale, qualunque sia il modo in cui lo vuoi chiamare o lo concepisci) è il file robots.txt: un semplice file di testo che indica ai web crawler quali pagine possono o non possono richiedere dal tuo sito.

Da agosto del 2023 la società che produce uno dei più popolari strumenti di IA, OpenAI, ha messo a disposizione di chi lo desidera un’istruzione per bloccare il proprio bot se lo desideri. Si fa in maniera molto semplice. È sufficiente inserire nel robots.txt queste righe di codice

User-agent: GPTBot Disallow: /

Ma è un esercizio futile? O un passo necessario per proteggere l’integrità dei nostri contenuti e la loro monetizzazione? Esploriamo i pro e i contro, cercando di esaminarli soprattutto dal punto di vista di chi vorrebbe, appunto, monetizzare i propri contenuti..

Quali possono essere le ragioni di chi usa il robots.txt per bloccare l’IA

Libertà decisionale

Si può desiderare, molto semplicemente, pieno controllo sulle entità che possono utilizzare i propri contenuti.

Protezione del copyright

Uno degli argomenti che vengono usati per incoraggiare l’uso di robots.txt per bloccare il bot di GPT è la protezione della proprietà intellettuale. Visto che il giornalismo è un’industria che dovrebbe dipendere fortemente dalla qualità e dall’esclusività dei suoi contenuti, per esempio, gli editori che scelgono di bloccare l’IA dall’acquisire questi contenuti lo fanno per mantenere il controllo sulla loro proprietà intellettuale. Sembrerebbe un po’ diversa la questione di chi produce contenuti per altri scopi (come per esempio per un sito aziendale o simili.

Preservare delle entrate

Molti publisher si basano su modelli che prevedono anche abbonamenti o entrate pubblicitarie. Proprio come Wolf, che stai leggendo. Se un’IA può acquisire e riassumere il contenuto, i potenziali abbonati potrebbero eludere il paywall, influenzando le fonti di reddito.

Preservare della qualità e contesto

I contenuti, soprattutto i pezzi giornalistici, spesso implicano una narrazione ampia che sia in grado di fornire contesto a quel che viene raccontato, una ricerca approfondita e, nel caso del giornalismo, una strutturata verifica delle fonti. Un’IA che riassume tale contenuto potrebbe perdere queste sfumature, portando a interpretazioni errate.

Responsabilità

Chi produce contenuti dovrebbe essere responsabile degli stessi. I giornalisti, poi, sono – almeno sulla carta: sappiamo che a volte la pratica racconta altro – vincolati da standard etici.
I modelli di IA, d’altra parte, non hanno questo livello di responsabilità, potenzialmente portando alla diffusione di disinformazione.

Una dichiarazione d’intenti

Bloccare i contenuti dalla scansione di un’IA è anche una presa di posizione. Poche persone (solo quelle che sanno leggere un robots.txt) se ne accorgeranno, ma l’industria di riferimento potrà sicuramente sapere di questa scelta. Nel caso delle IA è come dichiarare che non si vuole permettere ai produttori di macchine di lucrare sulla produzione di contenuti di terzi.

Il potere contrattuale

Bloccare i contenuti dalla scansione di un’IA potrebbe in qualche modo rappresentare una volontà di esercitare il proprio potere contrattuale, per tentare di ricevere delle forme di compensazioni dalle aziende che producono LLM e intelligenze artificiali generative.

Quali possono essere le ragioni di chi è contrario all’uso di robots.txt per bloccare l’IA

È futile contro tecniche avanzate

Individui o organizzazioni tecnologicamente esperti possono spesso trovare modi per aggirare le restrizioni di robots.txt, rendendo l’esercizio in qualche modo futile per coloro che sono determinati a fare scraping del contenuto. Non solo: anche l’esistenza di intelligenze artificiali multimodali (che possono ricevere input sonori o visivi) rende futile il tentativo di bloccare l’accesso a un contenuto. Allo stesso modo, semplicemente, una persona potrebbe decidere di raccontare la propria versione di un testo a una macchina: non c’è modo di impedirlo.

Limita l’accesso alle informazioni e la rappresentanza delle stesse

Anche se il blocco riguarda alcune specifiche macchine, come ChatGPT, il blocco potrebbe rappresentare in qualche modo un blocco di fruizione dell’informazione, o anche una sotto-rappresentazione di determinate posizioni e contenuti, se questi non sono presenti dentro l’addestramento di un’intelligenza artificiale.

Opportunità perse per la collaborazione

L’IA, il giornalismo e più in generale la creazione di contenuti possono coesistere e persino prosperare attraverso la collaborazione. Adottando una posizione di contrasto, gli editori potrebbero perdere opportunità per migliorare i loro contenuti attraverso l’IA.

Metà dei soldi va per i recinti, l’altra metà per ridipingerli

Se l’obiettivo è semplicemente fare una dichiarazione sulla posizione di una pubblicazione sull’IA, allora l’uso di robots.txt potrebbe servire efficacemente a tale scopo, anche se non offre una protezione infallibile.

A dirla tutta, non protegge affatto: è compito dei produttori di intelligenze artificiali onorare la richiesta fatta col robots.txt e non si può impedire in alcun modo l’inserimento di contenuti ad opera di chi utilizza questi strumenti.

Il rischio è di continuare a combattere battaglie di retroguardia. Gli strumenti per rilevare un testo scritto da IA sono già obsoleti e inutili. L’idea di un watermark (come SynthID) per le immagini o i video è già aggirabile in maniera facilissima ed è presumibile che lo sarà ancor di più in futuro.

E quindi?

Il dibattito sull’uso di robots.txt per bloccare i bot delle IA insomma, anche se complesso e sfaccettato, potrebbe essere un’enorme perdita di tempo e un atto in gran parte simbolico, servendo più come dichiarazione di una presa di posizione sulle intelligenze artificiali piuttosto che come una misura protettiva efficace.

Wolf.

Risolve problemi. Gestisce la complessità.