Columnas

Alucinación legal

La inteligencia artificial (IA) está transformando el ámbito legal, pero un estudio reciente de la Universidad de Stanford revela que los modelos de IA, como ChatGPT y Llama, presentan alucinaciones frecuentes en tareas jurídicas, cuestionando su fiabilidad. Estos errores plantean desafíos para la integración de la IA en la práctica jurídica, especialmente en el razonamiento y la interpretación de cuestiones legales complejas. Descubre los hallazgos y los retos que enfrenta la IA en el sector legal.

Por: Diego Navarro*

Un estudio reciente del centro de Inteligencia Artificial de la Universidad de Stanford descubrió errores preocupantes y generalizados entre los modelos de inteligencia artificial generativa en una amplia gama de tareas jurídicas.

Diego Navarro
Diego Navarro

En mayo del año pasado, un abogado de Manhattan se hizo famoso por presentar un informe jurídico generado en gran parte por ChatGPT. El juez señaló “una circunstancia sin precedentes”, y que el escrito estaba plagado de “determinaciones jurídicas falsas . . citas falsas y citas internas falsas”. La historia del abogado ChatGPT se hizo viral un una noticia en el New York Times, provocando incluso que el Presidente de la Corte Suprema del país, John Roberts, lamentara el papel de las “alucinaciones” de los grandes modelos lingüísticos (LLM) en su informe anual sobre el poder judicial federal.

¿Hasta qué punto son frecuentes las alucinaciones jurídicas?

El sector jurídico está experimentando una importante transformación, impulsada por la aparición de modelos de inteligencia artificial generativa como ChatGPT, Mistral, PaLM, Claude y Llama. Estos modelos avanzados, equipados con miles de millones de parámetros, pueden procesar y generar textos extensos y creíbles sobre una amplia gama de temas. Su influencia es cada vez más evidente en muchos aspectos de la vida cotidiana, incluido su creciente uso en la práctica jurídica.

Desde estudiantes a estudios jurídicos utilizan actualmente herramientas basadas en LLM para diversas tareas. Entre ellas se incluye la búsqueda de pruebas relevantes en documentos de investigación, la elaboración de informes jurídicos detallados, escritos de casos y la formulación de estrategias de litigio. Sin embargo, persiste un problema fundamental: las alucinaciones, o la inclinación de los LLM a generar contenidos que se apartan de la información jurídica real o de los principios de cada legislación.

Estudio

Un nuevo estudio realizado por investigadores del Stanford RegLab y el Institute for Human-Centered AI (https://doi.org/10.48550/arXiv.2401.01301) revela que las alucinaciones jurídicas son comunes y preocupantes. Según el estudio, los índices de alucinación oscilan entre el 69% y el 88% en respuesta a consultas jurídicas específicas de los modelos más avanzados. Además, se descubrió que estos modelos a menudo no son conscientes de sus errores y tienden a reforzar suposiciones y creencias jurídicas incorrectas. Estos hallazgos plantean dudas sobre la confiabilidad de estas herramientas en contextos jurídicos y resaltan la importancia de integrar tecnologías de IA en la práctica jurídica de manera cuidadosa y supervisada.

El estudio se realizó sobre el sistema jurídico norteamericano, pero por la naturaleza jerarquizada de las normas es aplicable a cualquier otro ordenamiento. Se diseñó creando varias tareas, desde consultas sencillas como identificar la opinión del autor hasta peticiones más complejas como determinar si dos preceptos están en conflicto, que es un aspecto crucial del razonamiento jurídico. Se evaluaron más de 200.000 consultas en ChatGPT 3.5, Llama 2 y PaLM 2, categorizando en función de criterios clave.

En primer lugar, descubrieron que el rendimiento disminuye cuando se trata de tareas más complejas que requieren una comprensión acabada de las cuestiones jurídicas o la interpretación de textos jurídicos. Por ejemplo, en una tarea que mide la relación de los precedentes entre dos casos diferentes, la mayoría de los LLM no obtienen mejores resultados que conjeturas aleatorias. Además, cuando responden a preguntas sobre el fallo de un tribunal, los modelos alucinan al menos el 75% de las veces. Estos resultados sugieren que los LLM son actualmente incapaces de realizar el razonamiento jurídico necesario para evaluar la relación precedente entre los casos, que es un objetivo central de la investigación jurídica.

Por último, los distintos modelos de LLM tienen diferentes niveles de precisión y sesgos. ChatGPT 3.5 suele superar a los otros modelos, pero muestra sesgos al favorecer a jueces conocidos y tipos específicos de casos.

Otro peligro que descubrieron fue la susceptibilidad al llamado “sesgo contrafactual”. Se refiere a la tendencia de asumir que una premisa en una pregunta es cierta, aunque sea errónea. Este fenómeno es especialmente notable en modelos como GPT 3.5. Los modelos suelen dar respuestas como reales cuando se basan en premisas falsas, probablemente debido a su entrenamiento en el seguimiento de instrucciones. Esta tendencia se acentúa en escenarios jurídicos complejos o cuando se trata de casos de tribunales de primera instancia. En cambio, Llama 2 rechaza con frecuencia las premisas falsas, pero en ocasiones niega la existencia de casos o jueces reales.

En relación con lo anterior, descubrieron que los modelos no están bien calibrados para las cuestiones jurídicas. La calibración de los modelos mide si la confianza del modelo está vinculada a la precisión de las respuestas. Los modelos suelen exagerar su certeza, especialmente en ámbitos jurídicos muy conocidos. Este exceso de confianza es especialmente evidente en tareas complejas y en las relativas a tribunales inferiores.

¿Cómo avanzar?

En la actualidad empresas técnicas como SPEKTR AI, Harvey y otras están realizando un arduo trabajo para abordar y reducir las alucinaciones. Equilibrar la fidelidad a los datos de entrenamiento, la precisión en la respuesta a las peticiones del usuario y la adherencia a los hechos legales del mundo real son los principales desafíos a los que nos vemos enfrentados. Para minimizar las alucinaciones, se requiere de bases de entrenamiento verificables y válidas que no permitan a los LLM ampliar sus horizontes de información.

Los LLM tienen un gran potencial para la práctica jurídica. Integrar la IA de forma responsable en la práctica jurídica requerirá supervisión y comprensión humana de las capacidades y limitaciones de la IA.

Los hallazgos enfatizan la importancia de la IA centrada en el ser humano. La integración responsable de la IA debería apoyar el trabajo de abogados, estudiantes y personas en general, pero no “deshumanizar la ley”.

*Diego Navarro. Abogado y emprendedor con más de 15 años de experiencia en comunicaciones corporativas y tecnología. Fundador y CEO de SPEKTR, una startup de inteligencia artificial jurídica que busca revolucionar la industria legal y el trabajo cualitativo de abogados.

Artículos relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Close
Close