Per evitare che i tuoi contenuti vengano utilizzati per addestrare un agente di chat o semplicemente per riprodurli, è possibile impedire a ChatGPT e ai suoi plug-in di utilizzare le pagine del tuo sito Web in futuro modificando il file robots.txt.

Pochi giorni fa, OpenAI ha presentato i suoi primi plug-in ChatGPT. Questi componenti forniscono al chatbot funzionalità aggiuntive attraverso l’accesso ad applicazioni di terze parti. Pertanto, uno strumento di chat può, ad esempio, navigare in Internet per trovare informazioni più aggiornate o sfruttare Wolfram solo per informazioni convalidate.

Poiché gli sviluppatori saranno in grado di creare tali plug-in, è una scommessa sicura che questi plug-in prolifereranno. In particolare, possiamo immaginare plugin che prendono di mira fonti specifiche per fornire informazioni di alta qualità in aree specifiche. Come un plug-in chatbot di supporto sulle soluzioni VMware che recupera informazioni dai forum tecnologici o un plug-in di consigli sui film da non perdere che alimenterà i programmi cinematografici e le recensioni pubblicate sui media.

Perché bloccare l’accesso ai tuoi contenuti?

Consentire a ChatGPT e ai suoi plug-in di utilizzare i tuoi contenuti presenta due rischi principali. Innanzitutto, consente all’agente di chat di sfruttare il contenuto generato senza compenso. A differenza dei motori di ricerca, che possono portare i visitatori su un sito, i chatbot utilizzano i contenuti per rispondere direttamente, senza consultare le fonti, almeno per ora. Non è dissimile dal nuovo Bing, di cui non si sa se tutte le fonti di risposta corrispondano ai link citati.

Il secondo è il rischio, la riservatezza e la proprietà intellettuale. Sapendo che i giganteschi modelli linguistici possono avere allucinazioni e generare false informazioni, è anche probabile che riproducano il contenuto su cui sono stati addestrati, per memorizzarlo in qualche modo. In un recente articolo, i ricercatori dell’EPFL in particolare hanno mostrato che i modelli di diffusione che generano immagini (Dall-e 2, Stable Diffusion) a volte ripetono il contenuto dell’allenamento in modo quasi identico. I ricercatori citano in particolare immagini di persone e loghi, ma un terzo di essi è protetto da copyright. Avvertono che lo stesso fenomeno può verificarsi con i dati medici sensibili utilizzati nella formazione e sottolineano che le tecniche per evitarlo (rafforzamento della privacy) non sono soddisfacenti.

Una copia esatta dell'originale

Nel 2020, gli stessi ricercatori hanno descritto un fenomeno simile utilizzando strumenti di generazione del testo. E lo scorso gennaio, abbiamo anche appreso che il sito Web tecnologico CNET era colpevole di plagio pubblicando contenuti generati dall’intelligenza artificiale che riproducevano articoli quasi identici da altri media.

Come impedite l’accesso ai vostri contenuti?

Bisogna distinguere tre casi. Innanzitutto, per i contenuti che sono già stati utilizzati per addestrare il modello, non c’è molto da fare.

Per i contenuti più recenti, è possibile bloccare la scansione condivisa. Dal 2008, questa organizzazione non commerciale ha prodotto una versione di Internet che mette gratuitamente a disposizione di ricercatori, aziende e privati. Questo gigantesco database rappresenta il 60% dei dati di addestramento GPT-3. Per impedirgli di accedere ai tuoi testi, è sufficiente modificare il file robots.txt del sito aggiungendovi delle istruzioni:

Agente utente: CCBot
Non consentire: /

Il terzo scenario, plugin complementari ChatGPT. OpenAI afferma che è possibile bloccarli anche lì modificando il file robots.txt con le istruzioni:

Agente utente: ChatGPT-Utente
Non consentire: /

Le istruzioni possono anche essere modificate per escludere solo alcune parti del sito Web o, al contrario, per consentire esplicitamente ai plug-in di raccogliere i contenuti del sito Web, sottolinea OpenAI nella sua documentazione.

By AI NEWS

Leave a Reply

Your email address will not be published. Required fields are marked *