Bienvenido al club de víctimas de plagio de IA generativa, si estas leyendo esto es porque te ha pasado o conoces un caso, pero hay millones de autores que aun no se enteraron. Es que hasta hoy, todos los proyectos IA (incluyendo los de Bing y Google), han entrenado sus modelos ignorando olímpicamente los derechos de autor.
Muchos medios (comenzando por el new York Times), han iniciado demandas contra OpenAI y Microsoft por ese motivo.
No te recomiendo que hagas lo mismo, obvio… pero sí te explico cómo prevenir el problema.
¿Qué debo hacer para evitar que la IA generativa me copie?
Es importante que sepas que si ya te ha copiado, ese contenido ya no lo recuperas, aqui te explico cómo evitar que vuelva a hacerlo.
Básicamente todos los proyectos IA, tienen un bot destinado al entrenamiento LLM (aprender contenidos), y otro bot que se encarga del rastreo en la web.
Si bloqueas el bot de entrenamiento, estás haciendo que la plataforma se comporte como un buscador tradicional, solo puede mostrar en sus resultados, título, descripción y url, pero sin leer ni utilizar tus contenidos
¿Cómo bloquear los bots de entrenamiento IA?
Hay varios metodos para hacerlo, pero el mas facil y rapido es confeccionar y añadir una lista de exclusión en el archivo robots.txt, con los bots (user-agent), de las principales plataformas de IA.
Veamos un ejemplo con ChatGPT:
GPTbot es el nombre del bot que debemos bloquear con la siguiente sentencia:
User-agent: GPTBot
Disallow: /
La misma sintaxis se aplica a las demás plataformas IA, que son muchas, pero aqui te muestro ejemplo resumido con las más utilizadas:
User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Omgili
User-agent: Omgilibot
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /
De esta forma te aseguras que ninguno de estos bots plagie tus contenidos con las excusa del entrenamiento 😉
Además, si tu web está montada en WordPress, ya hay plugins en el repositorio para gestionar un listado mas amplio por defecto… (como siempre ocurre)
¿Por que en la lista de exclusión no hay un bot de Google?
Ya te explico, se trata de Google-Extended y existe desde 2023, aunque desde Mountain View sostienen que no es un bot, sino un “control de editores“…
Le dirán como quieran, pero se gestiona como si fuese un bot, con la misma sentencia:
User-agent: Google-Extended
Pero el caso es que no está en la lista de exclusión, porque también estaría evitando que tus contenidos se incluyan en el resumen de AI Overview, la nueva función de búsqueda AI de Google, y esto afectaría directamente al SEO de tu web… (echa un vistazo a AI Overview quita tráfico y posicionamiento)
A veces es mejor dejar que Google te plagie contenidos, pero que no le quite posicionamiento a tu web.