A fines de 2023 el New York Times demandó ante la Corte del Distrito Sur de Nueva York a las empresas OpenAI y Microsoft por supuestas violaciones de derechos de autor al utilizar millones de artículos del periódico para entrenar a sus modelos de inteligencia artificial (ChatGPT y al chatbot Bing) sin su autorización, y sin brindar ningún pago por ese uso.
El diario alegó que el uso de su contenido implicaba una infracción de derechos de autor al crear productos que luego competían o sustituían al periódico reduciendo su audiencia y perjudicando sus ganancias y por su parte los demandados argumentaron que el uso del contenido de ese medio estaba amparado por la doctrina del uso legítimo que permitía el uso de material protegido por derechos de autor con fines transformadores, educativos o de investigación.
El caso que aún se encuentra en trámite ante la justicia estadounidense, volvió a ser noticia ante una presentación realizada por parte de la empresa OpenAI en la cual se requirió que se desestimaran los cargos en base a una serie de argumentos y expresó que “las alegaciones contenidas en al denuncia del Times no se ajustan a sus famosas y rigurosas normas periodísticas” sino que “pagó a alguien para hackear los productos de OpenAI” ya que les habría tomado “decenas de miles de intentos para generar los resultados altamente anómalos que componían la prueba J de la demanda”.
En su escrito expone que solo pudieron hacerlo “aprovechando y explotando un error” que la empresa se comprometió a corregir y “mediante el uso de mensajes engañosos” contrariando los términos y condiciones de uso de su programa, brindando inclusive partes de sus propios artículos (ya públicos en múltiples sitios web) para generar esos resultados.
OpenAI …requirió que se desestimaran los cargos en base a una serie de argumentos y expresó que “las alegaciones contenidas en al denuncia del Times no se ajustan a sus famosas y rigurosas normas periodísticas” sino que “pagó a alguien para hackear los productos de OpenAI” ya que les habría tomado “decenas de miles de intentos para generar los resultados altamente anómalos que componían la prueba J de la demanda”.
Concluyeron en que el juez Brandeis hace más de 100 años explicó que “la regla general del derecho es que la mas noble de las producciones humanas, el conocimiento, las verdades comprobadas, las concepciones y las ideas tras su comunicación voluntaria a otros, quedan libres como el aire para el uso común”, por lo que el diario no podía impedir que los modelos adquieran conocimiento de los hechos del mismo modo que otra organización de noticias no puede impedir que el propio Times informe sobre historias en cuya investigación no ha participado.
El texto de 35 páginas brinda un contexto sobre el programa y su evolución, jurisprudencia y una serie de argumentos por los cuales deben retirarse los cargos en su contra, y en relación al supuesto hackeo, explica que el actor se enfocó en dos comportamientos “marginales”, poco comunes e involuntarios de la inteligencia artificial generativa, que son la “regurgitación” de datos de entrenamiento y la “alucinación” de modelos.
La regla general del derecho es que la mas noble de las producciones humanas, el conocimiento, las verdades comprobadas, las concepciones y las ideas tras su comunicación voluntaria a otros, quedan libres como el aire para el uso común”, por lo que el diario no podía impedir que los modelos adquieran conocimiento de los hechos del mismo modo que otra organización de noticias no puede impedir que el propio Times informe sobre historias en cuya investigación no ha participado.
La primera (regurgitación) refiere al caso cuando la IA genera una muestra que se parece mucho a sus datos de entrenamiento lo que ocurre cuando se entrenó el modelo incluyendo varios trabajos duplicados, de manera tal que hay mas probabilidades de completar ese texto textualmente cuando se le pida que lo haga. Lo que se intenta reparar con contenido de entrenamiento más diverso.
La segunda (alucinación) ocurre cuando se generan respuesta aparentemente realistas pero erróneas, lo que ocurre porque no son bases de datos sino motores estadísticos que predicen que palabras es probable que sigan a una determinada instrucción, lo que al ser probabilístico no siempre se acierta al 100%. Esto se busca reparar con modelos que mejoren la precisión de las predicciones.
Según alega la presentación de los demandado, la demanda utilizó estos fenómenos para crear ejemplos para ser utilizados en como prueba luego de “prolongados y extensos esfuerzo para hackear los modelos” intentando que esos fenómenos aparezcan como un comportamiento típico de los modelos.
Por su parte el abogado del NYT expresó que “Lo que OpenAI bizarramente caracteriza erróneamente como 'hackeo' es simplemente usar los productos de OpenAI para buscar pruebas de que robaron y reprodujeron las obras protegidas por derechos de autor del Times".