La IA se está entrenando a tu costa

Muchas personas llevan años publicando textos, fotos y vídeos sin control en las redes sociales y los sistemas de IA han sido entrenados con toda aquella información pública que han encontrado en Internet

TEXTO: ARANTXA HERRANZ

Puede que no te dieras cuenta, pero la última polémica de Meta (empresa propietaria de Facebook, Instagram y WhatsApp) ya lo dejó bien claro: los usuarios nos hemos tirado años publicando cosas en Internet (textos, fotos, dibujos, vídeos…) y todo ese contenido ha sido ingerido por los sistemas de entrenamiento de Inteligencia Artificial para aprender y proporcionar ahora resultados sorprendentes.

El anuncio de Meta de intentar cambiar su política de privacidad de las aplicaciones de redes sociales para utilizar las publicaciones y fotos públicas de los usuarios en Facebook e Instagram para entrenar sus modelos de inteligencia artificial desataba la indignación de los usuarios. Muchos no estaban de acuerdo con que se utilizara su información sin su consentimiento y aunque la compañía facilitó un formulario de objeción para que los usuarios pudieran optar por no participar en el uso de sus datos para el entrenamiento de IA, quedar excluido de estos procesos de entrenamiento era complicado y difícil de realizar.

Esta opción de exclusión solo estaba disponible en un primer momento para los usuarios de la Unión Europea y el Reino Unido (los usuarios de otros países, como Australia y Estados Unidos, no tenían esta opción). Algo que se debía a que las autoridades de protección de datos europeas respondieron al anuncio de Meta con preocupación y solicitaron la suspensión de la iniciativa, por considerar que se podría estar vulnerando los derechos de las personas.

De hecho, la Comisión de Protección de Datos de Irlanda (DPC), de la que depende Meta al estar su sede europea en la capital irlandesa, solicitó la suspensión de la controvertida iniciativa de Meta en nombre de varias autoridades de protección de datos. La compañía accedió, no sin antes asegurar que la petición de la DPC suponía «un paso atrás para la innovación europea y la competencia en el desarrollo de la IA». A pesar de la suspensión, Meta sigue convencida de que su actividad cumple con la normativa vigente, específicamente con el Reglamento General de Protección de Datos (RGPD), y se basa en los “intereses legítimos” que también han utilizado otros actores de la industria para entrenar sus modelos de IA.

He aquí el quid de la cuestión: que todos los sistemas de IA han sido entrenados con toda aquella información pública que han encontrado en Internet, independientemente de si está protegida por leyes de copyright, y sin haber pedido permiso para ello.

Innovación y derechos
De nuevo, la polémica se centra en el equilibrio entre el desarrollo de tecnologías de IA y el respeto a la privacidad y el control de los datos de los usuarios.

De hecho, las controversias de copyright en el entrenamiento de la inteligencia artificial (IA) siguen siendo un tema de debate, especialmente desde que han aparecido ChatGPT y DallE. En este último caso, parece aún más evidente al ser la IA generativa capaz de hacer un cuadro al estilo, por ejemplo, Van Gogh.

Tanto es así que tanto OpenAI como Meta y Google (tres de las principales empresas que están desarrollado IA) han sido demandados por supuestamente vulnerar los derechos de autor. Los creadores de contenido y las empresas tecnológicas han entrado en conflicto debido a las inteligencias artificiales generativas, como ChatGPT, dado que estas IA son capaces de aprender y generar respuestas a través del análisis de grandes bases de datos y documentos en internet.

La actriz y comediante estadounidense Sarah Silverman y los escritores Paul Tremblay y Mona Awad, demandaron a OpenAI, el creador de ChatGPT, y a Meta, por infringir sus derechos de autor en el entrenamiento de sus IA generativas. El New York Times también ha demandado a OpenAI por entrenar su sistema con los textos del rotativo sin pedir permiso ni pagar por ello. Scarlett Johanson también denunció públicamente por usar su voz sin permiso para que se pudiera usar en ChatGPT. Google fue acusado de haber estado “robando en secreto todo lo creado y compartido en internet por cientos de millones de estadounidenses” para entrenar sus productos de inteligencia artificial. La Asociación de Medios de Información (AMI) denunció en España que Google “vampiriza” los contenidos de los medios con su inteligencia artificial.

Mientras, Getty Images, la conocida agencia de fotografía demandó a Stability AI, la empresa detrás de la IA generativa Stable Diffusion, por infracción del copyright.

En el caso de ROSS Intelligence, se planteó si la utilización de obras protegidas por derechos de autor para el entrenamiento de sistemas de IA constituye un acto de infracción de propiedad intelectual o si, por el contrario, dicha actividad se puede enmarcar en la doctrina del fair use americana.

¿Plagio o inspiración?
La cuestión es si el uso de materiales con derechos de autor en el entrenamiento de modelos de IA se considera una violación de los derechos de autor o si se puede justificar como un uso legítimo. Las empresas discográficas más importantes del mundo, incluyendo Sony Music Entertainment, Universal Music Group y Warner Records, han demandado a las empresas de inteligencia artificial (IA) Suno y Udio por supuesta infracción de derechos de autor. Las discográficas alegan que Suno y Udio han infringido los derechos de autor a una escala “casi inimaginable” y están explotando las obras grabadas de los artistas. Piden una indemnización de 150.000 dólares estadounidenses (unos 140.000 euros) por obra.

Sin embargo, el director ejecutivo de Suno AI, Mikey Shulman, asegura que su tecnología está “diseñada para generar resultados completamente nuevos, no para memorizar contenidos preexistentes”, y que no permite a los usuarios hacer referencia a artistas concretos. Para las tecnológicas, las obras con copyright sirven de inspiración para las máquinas, igual que para el reto de humanos.

Explicabilidad
Muchas de estas polémicas aún tardarán años en resolverse. Según la ley europea sobre IA, los sistemas de IA deben cumplir con ciertos requisitos de transparencia, lo que incluye la obligación de revelar que el contenido es generado por IA y no por seres humanos, y la publicación de información sobre el uso de datos de entrenamiento protegidos por la legislación sobre derechos de autor.

Además, la ley establece que los sistemas de IA y los modelos en los que se basan deben cumplir con los requisitos de transparencia propuestos inicialmente por el Parlamento. Esto implica la elaboración de documentación técnica, el cumplimiento de la normativa de la UE sobre derechos de autor y la divulgación de resúmenes detallados sobre el contenido utilizado en la formación.

Sin embargo, parece que algunas de esas compañías ni siquiera saben muy bien qué datos han utilizado para entrenar sus modelos. Cuando se le preguntó a Mira Murati, la CTO de OpenAI, sobre si habían utilizado datos de YouTube para entrenar al modelo de Sora, respondió que no estaba segura. En otra ocasión, cuando se le volvió a preguntar por las fuentes de datos de entrenamiento, Murati atajó la cuestión diciendo: «No voy a entrar en detalles».

Además, un portavoz de OpenAI afirmó que “el entrenamiento de Sora incluyó material de fuentes con licencia, así como contenido disponible públicamente en internet”, pero se negó a responder a preguntas concretas sobre si habían descargado vídeos de YouTube a gran escala y si habían utilizado este contenido como datos para el entrenamiento de modelos de inteligencia artificial.

Unas declaraciones han generado cierta polémica, ya que no aclaran completamente cómo OpenAI accede a suficiente contenido de la plataforma de vídeo de Google para que esto funcione.

La cuestión de cómo se entrenan los modelos de IA sigue siendo un tema de debate en la comunidad de la inteligencia artificial y que durará durante un tiempo. Pero parece evidente que todo lo que está disponible en Internet, incluyendo tus post en redes sociales, ha servido para que ahora estas máquinas proporcionen resultados asombrosos.