Skip to content

Los chatbots de IA se vuelven más aduladores a medida que avanzan


No son personas, pero los juzgamos como si lo fueran

Aunque los modelos de lenguaje basados en IA no son seres humanos, a menudo los juzgamos con estándares humanos, sometiéndolos a evaluaciones como el examen jurídico o la certificación médica de EE. UU.

Es común que estos modelos sobresalgan en tales pruebas, posiblemente debido a la presencia de ejemplos similares en sus datos de entrenamiento.

Hay una creciente corriente de especialistas que sugiere abandonar estos métodos de evaluación, argumentando que solo magnifican el entusiasmo por la IA y perpetúan una percepción errónea de sus verdaderas capacidades.

Lo que resalta de su relato es nuestra limitada comprensión de estos modelos de lenguaje y las razones detrás de sus respuestas. A pesar de ello, seguimos evaluando su "inteligencia" basándonos en sus resultados, sin realmente entender su mecánica interna

Aspectos a considerar:

  • Percepción Antropomórfica: Melanie Mitchell, del Instituto Santa Fe, señala que históricamente hemos probado la IA con pruebas humanas, pero esto no refleja adecuadamente su verdadera naturaleza.

  • Comparación con Infantes: Al presentarle a GPT-3 un desafío inspirado en una historia, este no pudo proponer soluciones lógicas, algo que un niño podría haber hecho, según Taylor Webb de UCLA.

  • Diferenciando la IA de lo Humano: Laura Weidinger de Google DeepMind advierte que, aunque la IA pueda sonar humana, las pruebas psicológicas humanas no son necesariamente aplicables.

  • Aprendiendo de los Animales: Lucy Cheke, de la Universidad de Cambridge, propone que las técnicas empleadas en investigaciones con animales podrían ser útiles para la IA, evitando así sesgos humanos.

  • Entendimiento Limitado: Tomer Ullman, de Harvard, enfatiza que el enfoque debería ser entender cómo funcionan los modelos de lenguaje, más que solo sus resultados en pruebas.