
Timothée Poisot, ecólogo computacional de la Universidad de Montreal (Canadá), ha hecho carrera estudiando la biodiversidad mundial. Un principio rector de su investigación es que debe ser útil, afirma Poisot, como espera que lo sea a finales de este año, cuando se una a otros trabajos que se están estudiando en la 16ª Conferencia de las Partes (COP16) del Convenio de las Naciones Unidas sobre la Diversidad Biológica en Cali (Colombia). «Cada dato científico que producimos y que es examinado por los responsables políticos y las partes interesadas es a la vez emocionante y un poco aterrador, ya que es mucho lo que está en juego», afirma.
Pero a Poisot le preocupa que la inteligencia artificial (IA) interfiera en la relación entre ciencia y política en el futuro. Chatbots como Bing de Microsoft, Gemini de Google y ChatGPT, creados por la empresa tecnológica OpenAI de San Francisco (California), se entrenaron utilizando un corpus de datos extraídos de Internet, entre los que probablemente se encuentra el trabajo de Poisot. Pero como los chatbots no suelen citar el contenido original en sus resultados, los autores no pueden saber cómo se utiliza su trabajo ni comprobar la credibilidad de las afirmaciones de la IA.
Según Poisot, es probable que las afirmaciones no verificadas de los chatbots lleguen a reuniones importantes como la COP16, donde corren el riesgo de ahogar a la ciencia sólida.
«Existe la expectativa de que la investigación y la síntesis se hagan de forma transparente, pero si empezamos a subcontratar esos procesos a una IA, no hay forma de saber quién hizo qué, de dónde procede la información y a quién hay que reconocer el mérito», afirma.
Desde la llegada de ChatGPT en noviembre de 2022, parece que no hay parte del proceso de investigación que los chatbots no hayan tocado. Las herramientas de IA generativa (genAI) ya pueden realizar búsquedas bibliográficas, redactar manuscritos, solicitudes de subvención y comentarios de revisión por pares, e incluso producir código informático. Sin embargo, como las herramientas se entrenan con enormes conjuntos de datos -que a menudo no se hacen públicos-, estos ayudantes digitales también pueden entrar en conflicto con las normas de propiedad, plagio y privacidad de formas inesperadas que no pueden abordarse en los marcos legales actuales. Y como la genAI, supervisada sobre todo por empresas privadas, entra cada vez más en el dominio público, a menudo recae en los usuarios la responsabilidad de utilizar las herramientas de forma responsable.
Recompensas para los robots
La tecnología subyacente a la genAI, desarrollada por primera vez en instituciones públicas en la década de 1960, ha pasado a manos de empresas privadas, que no suelen tener incentivos para dar prioridad a la transparencia o el acceso abierto. Como resultado, la mecánica interna de los chatbots genAI es casi siempre una caja negra -una serie de algoritmos que no se entienden completamente, ni siquiera por sus creadores- y la atribución de fuentes a menudo se borra de la salida. Esto hace que sea casi imposible saber exactamente qué se ha incluido en la respuesta de un modelo a una pregunta.
Hasta ahora, organizaciones como OpenAI han pedido a los usuarios que se aseguren de que los resultados utilizados en otros trabajos no infringen las leyes, incluidas las de propiedad intelectual y derechos de autor, ni divulgan información confidencial, como la ubicación, el sexo, la edad, el origen étnico o los datos de contacto de una persona. Algunos estudios han demostrado que las herramientas genAI pueden hacer ambas cosas1,2.
Los chatbots son potentes en parte porque han aprendido de casi toda la información de Internet -obtenida a través de acuerdos de licencia con editores como Associated Press y plataformas de medios sociales como Reddit, o mediante amplias búsquedas de contenidos de libre acceso- y destacan en la identificación de patrones en montañas de datos. Por ejemplo, el modelo GPT-3.5, en el que se basa una versión de ChatGPT, se entrenó con unos 300.000 millones de palabras, que utiliza para crear cadenas de texto basadas en algoritmos predictivos.
Las empresas de IA están cada vez más interesadas en desarrollar productos dirigidos al mundo académico. Varias han lanzado motores de búsqueda basados en IA. En mayo, OpenAI anunció ChatGPT Edu, una plataforma que añade capacidades analíticas adicionales al popular chatbot de la empresa e incluye la posibilidad de crear versiones personalizadas de ChatGPT.
Dos estudios realizados este año han hallado pruebas del uso generalizado de genAI para redactar manuscritos científicos publicados3 y comentarios de revisión por pares4, a pesar de que las editoriales intentan poner barreras al uso de la IA prohibiéndola o pidiendo a los redactores que revelen si la utilizan y cuándo. Los juristas e investigadores que hablaron con Nature dejaron claro que, cuando los académicos utilizan chatbots de este modo, se exponen a riesgos que podrían no prever o comprender plenamente. «La gente que utiliza estos modelos no tiene ni idea de lo que realmente son capaces de hacer, y me gustaría que se tomaran más en serio su protección y la de sus datos», afirma Ben Zhao, un investigador de seguridad informática de la Universidad de Chicago (Illinois) que desarrolla herramientas para proteger el trabajo creativo, como el arte y la fotografía, contra el scraping o la imitación por parte de la IA.
Un portavoz de OpenAI se puso en contacto con él para pedirle que comentara la situación y dijo que la empresa estaba estudiando la forma de mejorar el proceso de exclusión. «Como empresa de investigación, creemos que la IA ofrece enormes beneficios para el mundo académico y el progreso de la ciencia», afirma el portavoz. «Respetamos que algunos propietarios de contenidos, incluidos los académicos, no quieran que sus obras de acceso público se utilicen para ayudar a enseñar nuestra IA, y por eso les ofrecemos formas de excluirse. También estamos explorando qué otras herramientas pueden ser útiles.»
En ámbitos como el académico, en el que los resultados de la investigación están ligados al éxito profesional y al prestigio, perder la atribución no sólo priva a las personas de una compensación, sino que también perpetúa el daño a la reputación. «Eliminar los nombres de las personas de su trabajo puede ser muy perjudicial, sobre todo para los científicos que empiezan su carrera o las personas que trabajan en lugares del Sur», afirma Evan Spotte-Smith, químico computacional de la Universidad Carnegie Mellon de Pittsburgh (Pensilvania), que evita utilizar la IA por razones éticas y morales. Las investigaciones han demostrado que los trabajos de los miembros de grupos marginados en la ciencia se publican y citan con menos frecuencia que la media5 y, en general, tienen menos oportunidades de progresar. Según Spotte-Smith, la IA puede agravar aún más estos problemas: no atribuir el trabajo de una persona «crea una nueva forma de “colonialismo digital”, que nos permite acceder a lo que producen nuestros colegas sin necesidad de relacionarnos con ellos».
Hoy en día, los académicos tienen pocos recursos para decidir cómo se utilizan sus datos o para que los modelos de IA existentes los «desaprendan »6 . La investigación suele publicarse en acceso abierto, y es más difícil litigar por el uso indebido de artículos o libros publicados que por el de una pieza musical o una obra de arte. Zhao afirma que la mayoría de las políticas de exclusión voluntaria «son, en el mejor de los casos, una esperanza y un sueño», y que muchos investigadores ni siquiera poseen los derechos de su producción creativa, ya que los han cedido a instituciones o editoriales que, a su vez, pueden asociarse con empresas de IA que buscan utilizar su corpus para entrenar nuevos modelos y crear productos que puedan comercializarse de nuevo a los académicos.
Los representantes de las editoriales Springer Nature, la Asociación Estadounidense para el Avance de la Ciencia (que publica la familia de revistas Science), PLOS y Elsevier afirman que no han suscrito acuerdos de licencia de este tipo, aunque algunos, incluidos los de las revistas Science, Springer Nature y PLOS, señalan que las revistas sí revelan el uso de la IA en la edición y revisión por pares y para comprobar el plagio. (Springer Nature publica Nature, pero la revista es editorialmente independiente de su editor).
A algunos autores les inquieta la noticia de que su trabajo vaya a alimentar algoritmos de IA (véase «Cómo proteger su propiedad intelectual de la IA»). «No estoy seguro de poder predecir todas las formas en que la IA podría afectarme a mí o a mi trabajo, y eso me frustra y me asusta un poco», afirma Edward Ballister, biólogo oncólogo de la Universidad de Columbia, en Nueva York. «Creo que las instituciones y los editores tienen la responsabilidad de pensar en lo que todo esto significa y de ser abiertos y comunicativos sobre sus planes».
Cómo proteger la propiedad intelectual de la IA
En última instancia, las nuevas leyes establecerán expectativas más sólidas en torno a la propiedad y la transparencia de los datos utilizados para entrenar modelos de IA generativa (genAI). Mientras tanto, hay algunas medidas que los investigadores pueden tomar para proteger su propiedad intelectual (PI) y salvaguardar los datos sensibles.










