Un nuevo conflicto legal en el sector tecnológico presenta a Salesforce en el ojo del huracán: dos autoras, E. Molly Tanzer y Jennifer Gilmore, la acusan de haber utilizado sin autorización una vasta colección de libros protegidos por derechos de autor para entrenar su modelo de inteligencia artificial XGen.
La demanda, presentada en San Francisco y fundamentada en la Ley de Derechos de Autor, señala que Salesforce habría infringido derechos al emplear «cientos de miles de libros con derechos» en sus sistemas, principalmente a través de conjuntos de datos como RedPajama, The Pile y la colección Books3, que incluye más de 196,000 títulos extraídos del rastreador privado Bibliotik.
Las autoras denuncian que, tras el lanzamiento de XGen en junio de 2023, Salesforce inicialmente reconoció en GitHub haber usado fuentes como RedPajama-Books en su entrenamiento. Sin embargo, en septiembre del mismo año, la compañía eliminó esas referencias, reemplazándolas por menciones vagas a «datos de lenguaje natural» provenientes de fuentes públicas.
El CEO de Salesforce, Marc Benioff, fue citado en la denuncia, recordando en una entrevista con Bloomberg en enero de 2024 que «las empresas de IA robaron datos para entrenar sus modelos», afirmación que ha generado polémica. Además, la plataforma Hugging Face retiró la base de datos Books3 en octubre de 2023 tras recibir quejas por posible violación de derechos.
Asimismo, la demanda indica que Salesforce utilizó The Pile para entrenar modelos como CodeGen en 2022 y que, pese a modificar la narrativa pública, continúa comercializando servicios basados en IA que, según las autoras, aún contienen datos obtenidos de fuentes cuestionadas. En diciembre de 2023, la empresa afirmó que sus modelos se entrenaron en «conjuntos de datos legalmente conformes», sin mencionar previamente las fuentes polémicas.
Expertos como Ishita Sharma, socia de Fathom Legal, explican que estas demandas STrequieren probar daño financiero concreto, no solo la utilización de obras protegidas. La jurisprudencia reciente en casos similares, como los contra OpenAI y Anthropic, ha establecido que no basta con demostrar que las obras fueron usadas, sino que también se debe probar que hubo daño al mercado.
Sharma advierte que usar datos públicos como RedPajama o The Pile no exonera de la posible infracción si se evidencia que los autores sabían o ignoraron la inclusión de obras con derechos de autor, ya que los tribunales podrían considerar esto como un desprecio imprudente. Solo si la IA reproduce literalmente partes sustanciales de una obra original, puede considerarse infracción directa.
Las autoras solicitaron una certificación como clase colectiva para todos los autores cuyos derechos hayan sido utilizados por Salesforce desde octubre de 2022. Entre sus solicitudes están daños estatutarios, el razonar de copias ilegales, la confiscación de beneficios ilícitos, una declaración de infracción intencional y el pago de honorarios legales.
Este caso se vigila de cerca, dado que su resolución puede definir nuevas reglas en el uso de materiales protegidos para entrenar inteligencias artificiales, estableciendo límites legales y obligaciones de transparencia para las grandes tecnológicas en el manejo de datos sensíveis.