Inteligencia Artificial

OpenAI utilizó YouTube sin permiso para entrenar a Whisper

OpenAI, el rival de Google en el campo de la inteligencia artificial (IA), ha sido acusado de utilizar vídeos de YouTube para entrenar a sus modelos sin autorización. La investigación del New York Times revela que la empresa habría usado más de un millón de horas de vídeos para entrenar a Whisper, su IA que convierte audio en texto.

¿Llegarán a los tribunales o habrá otro tipo de arreglo?

Esta práctica, aunque controvertida, no es nueva. Las principales compañías de IA ya han agotado los datos públicos y privados disponibles para entrenar sus modelos. OpenAI, al quedarse sin datos en 2021, decidió recurrir a YouTube, a pesar de los riesgos legales.

La empresa argumenta que su uso de los vídeos se ajusta al “uso razonable”, ya que solo se utilizó una pequeña parte del contenido total de la plataforma. Sin embargo, Google no está de acuerdo y ha calificado la acción como “una zona gris” de la ley.

El caso podría llegar a los tribunales, pero también existe la posibilidad de que ambas compañías lleguen a un acuerdo. Lo que sí es seguro es que este incidente pone de relieve la necesidad de encontrar soluciones más sostenibles para el entrenamiento de modelos de IA.

Posibles opciones para evitar estos problemas

  • Crear datos sintéticos: Diseñados artificialmente para la IA.
  • Utilizar modelos de entrenamiento que no requieran tantos datos.
  • Sin embargo, estas alternativas aún no han demostrado ser completamente efectivas. Se estima que, para 2028, la demanda de datos para IA superará la capacidad de generarlos.
  • El futuro de la IA dependerá de encontrar un equilibrio entre la ética, la legalidad y la necesidad de alimentar a estos modelos con información.

Otros puntos destacados de la investigación

OpenAI habría utilizado herramientas automatizadas para descargar y transcribir los vídeos de YouTube. El propio presidente de OpenAI, Greg Brockman, habría estado involucrado en la operación.

Meta también se habría quedado sin datos para entrenar sus modelos de IA y ha barajado diferentes opciones para obtener más.

Este caso abre un debate importante sobre el uso de datos públicos para el desarrollo de la IA. ¿Es ético utilizar contenido protegido por derechos de autor sin autorización? ¿Cómo se puede garantizar un acceso equitativo a los datos para todas las empresas?

Artículos relacionados

Back to top button