tecnología

La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo

Es una queja recurrente: los modelos de IA devoran contenido de forma industrial . Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores . Cada compañía tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de información y hacen lo que se denomina scraping . Recorren millones de página web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para s

13 min de lectura1 lecturasComentarios

Escuchá el resumen

Exclusivo para suscriptores Premium

Desbloquear
La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo
Lo esencial

Es una queja recurrente: los modelos de IA devoran contenido de forma industrial . Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores . Cada compañía tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de información y hacen lo que se denomina scraping . Recorren millones de página web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para s

  • Es de sobra conocida la demanda del New York Times a Microsoft y OpenAI, acusándolos de utilizar millones de sus artículos para entrenar ChatGPT
  • Eso sí, oneroso: tuvo que desembolsar unos 1.500 millones de dólares
  • Era el equivalente a 3.000 dólares por cada uno de los 482.460 libros que admitió haber descargado ilícitamente para entrenar a su IA
  • OpenAI llegó a un acuerdo con el grupo mediático News Corp para tener acceso a sus informaciones durante cinco años a cambio de 250 millones de dólares

Es una queja recurrente: los modelos de IA devoran contenido de forma industrial . Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores . Cada compañía tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de información y hacen lo que se denomina scraping . Recorren millones de página web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para s

Fuente: Xataka. Para leer la nota completa:

Leer artículo completo

Resumen rápido

Lo que necesitás saber en segundos. Para la nota completa, visitá la fuente original.

Fuente: Xataka|Fuente primaria|Editado por Tempranísimo IA

Preguntale a la nota

Hacé preguntas y la IA responde usando solo este artículo

2 preguntas restantes · Respuestas basadas en el contenido del artículo

Compartir
WhatsAppXFacebookTelegram

Recibí las noticias en WhatsApp

Seguí nuestro canal para recibir lo más importante del día, directo a tu celular.

Seguir canal

Comentarios

para dejar un comentario

Cargando comentarios...