El software que detecta uso de IA en textos al final no sirve de mucho

Con la llegada del ChatGPT estalló la preocupación entre docentes e instituciones educativas acerca de lo fácil que sería ahora para los estudiantes copiar en exámenes y evaluaciones.

Compartir esta noticia
La herramienta de Inteligencia Artificial ChatGPT revolucionó el sector
La herramienta de Inteligencia Artificial ChatGPT revolucionó el sector<br/>

Una de las primeras cosas que ocurrieron en Uruguay, y en todo el mundo, con la llegada del ChatGPT fue el estallido de preocupación entre docentes e instituciones educativas acerca de lo fácil que sería ahora para los estudiantes copiar en exámenes y evaluaciones. En respuesta a estos temores, varias startups comenzaron a crear productos que prometían detectar si un texto fue escrito por un humano o una máquina.

El problema es que, según una nueva investigación que publica el MIT y que aún no ha sido revisada por pares, es relativamente sencillo engañar a estas herramientas y evitar la detección. Debora Weber-Wulff, profesora de medios y computación en la Universidad de Ciencias Aplicadas, HTW Berlín, trabajó con un grupo de investigadores de diversas universidades para evaluar la capacidad de 14 herramientas, incluyendo Turnitin, GPT Zero y Compilatio, para detectar texto escrito por ChatGPT de OpenAI. La mayoría de estas herramientas funcionan buscando características típicas del texto generado por IA, como la repetición, y luego calculan la probabilidad de que el texto haya sido generado por una IA. Sin embargo, el equipo descubrió que todas las herramientas evaluadas tenían dificultades para detectar texto generado por ChatGPT que había sido ligeramente reorganizado por humanos y reescrito mediante una herramienta, lo que sugiere que los estudiantes solo necesitan adaptar ligeramente los ensayos generados por la IA para evadir a los detectores.

"Estas herramientas no funcionan", dice Weber-Wulff a The Technology Review del MIT. "No hacen lo que dicen hacer. No son detectores de IA." Los investigadores evaluaron las herramientas escribiendo ensayos cortos a nivel de pregrado sobre una variedad de temas, incluyendo ingeniería civil, informática, economía, historia, lingüística y literatura. Ellos mismos escribieron los ensayos para asegurarse de que el texto no estuviera ya en línea, lo que habría significado que podría haber sido utilizado para entrenar a ChatGPT.

Luego, cada investigador escribió un texto adicional en bosnio, checo, alemán, letón, eslovaco, español o sueco. Estos textos se tradujeron al inglés utilizando la herramienta de traducción automática DeepL o Google Translate. El equipo luego utilizó ChatGPT para generar dos textos adicionales cada uno, los cuales ajustaron ligeramente con el fin de ocultar que habían sido generados por IA. Un conjunto fue editado manualmente por los investigadores, quienes reordenaron oraciones e intercambiaron palabras, mientras que otro fue reescrito utilizando una herramienta de parafraseo por IA llamada Quillbot. Al final, tenían 54 documentos para probar con las herramientas de detección.

Descubrieron que, aunque las herramientas eran buenas para identificar texto escrito por un humano (con un 96% de precisión, en promedio), tuvieron un peor desempeño al detectar texto generado por IA, especialmente cuando había sido editado. Aunque las herramientas identificaron texto de ChatGPT con un 74% de precisión, este porcentaje cayó al 42% cuando el texto generado por ChatGPT había sido ligeramente modificado.

Daphne Ippolito, científica investigadora senior en Google especializada en generación de lenguaje natural, quien no trabajó en el proyecto, plantea otra preocupación. "Si se van a emplear sistemas de detección automática en entornos educativos, es crucial comprender sus tasas de falsos positivos, ya que acusar incorrectamente a un estudiante de hacer trampa puede tener graves consecuencias para su carrera académica", dice. "La tasa de falsos negativos también es importante, porque si demasiados textos generados por IA se consideran escritos por humanos, el sistema de detección no es útil".

¿Encontraste un error?

Reportar

Temas relacionados

premium

Te puede interesar

Pelea en Punta Carretas
0 seconds of 4 minutes, 19 secondsVolume 90%
Press shift question mark to access a list of keyboard shortcuts
Próximo
Tiroteo entre tres delincuentes y policías en el peaje Dock Sud
00:48
00:00
04:19
04:19