Appearance
No son personas, pero los juzgamos como si lo fueran
¿Qué está pasando?
Los modelos de lenguaje de IA no son humanos y, sin embargo, los evaluamos como si lo fueran, utilizando pruebas como el examen de la abogacía o el examen de licencia médica de los Estados Unidos.
Los modelos tienden a obtener muy buenos resultados en estos exámenes, probablemente porque los ejemplos de dichos exámenes abundan en los datos de entrenamiento de los modelos.
Un número creciente de expertos ha pedido que se abandonen estas pruebas, diciendo que aumentan el entusiasmo por la IA y crean "la ilusión de que [los modelos de lenguaje de IA] tienen mayores capacidades de las que realmente existen".
Aspectos a considerar:
Percepción Antropomórfica: Melanie Mitchell, del Instituto Santa Fe, señala que históricamente hemos probado la IA con pruebas humanas, pero esto no refleja adecuadamente su verdadera naturaleza.
Comparación con Infantes: Al presentarle a GPT-3 un desafío inspirado en una historia, este no pudo proponer soluciones lógicas, algo que un niño podría haber hecho, según Taylor Webb de UCLA.
Diferenciando la IA de lo Humano: Laura Weidinger de Google DeepMind advierte que, aunque la IA pueda sonar humana, las pruebas psicológicas humanas no son necesariamente aplicables.
Aprendiendo de los Animales: Lucy Cheke, de la Universidad de Cambridge, propone que las técnicas empleadas en investigaciones con animales podrían ser útiles para la IA, evitando así sesgos humanos.
Entendimiento Limitado: Tomer Ullman, de Harvard, enfatiza que el enfoque debería ser entender cómo funcionan los modelos de lenguaje, más que solo sus resultados en pruebas.