La larga marcha de un grupo de voluntarios por lograr un ChatGPT hispano
María Grandury lanzó en 2021 SomosNLP, una iniciativa voluntaria para tener más recursos en nuestra lengua en inteligencia artificial. Su trayectoria muestra la complejidad de lograr un chatbot nacional

“La pregunta es ‘dame una receta típica de Perú’, y entonces te la da”, dice María Grandury, fundadora de la organización de voluntarios SomosNLP. Grandury describe una acción banal para los nuevos chatbots hechos con inteligencia artificial (IA). Esa simple petición incluye, sin embargo, un enorme trabajo previo, la mayor parte automatizado, pero en gran parte también humano.
Recibí las noticias en tu email
Accedé a las últimas noticias desde tu emailEsa pregunta necesita, al menos, tres elementos básicos: primero, una base de datos que incluya recetas peruanas en español, que salen de internet. Segundo, una lista de preguntas y respuestas que permita al modelo aprender qué responder cuando le preguntan por una receta peruana. Y tercero, un control que permita revisar la respuesta y decir si es correcta.
Esta sencilla explicación de tres pasos oculta una variedad ingente de opciones, donde la financiación es clave. Las grandes empresas de Silicon Valley y el inglés dominan en todo con mucha distancia. ¿Qué se hace desde otras lenguas? Se intenta, a distintos niveles. El español debería ser una lengua también dominante, pero en realidad no lo es tanto. El reto de hacer que una máquina aprenda a responder cualquier pregunta en español (no un puñado, centradas en un solo tema) es enormemente complejo.
El primer paso clave es reunir ingentes cantidades de texto para entrenar lo que se llama un modelo fundacional. “De mucho texto no tenemos tantísimos, pero sí que hay más en estos últimos tres años, ha ido creciendo la comunidad y han surgido iniciativas por parte del Gobierno”, dice Grandury. Se refiere sobre todo a Alia, modelo impulsado por el Gobierno de España y del que el ministro José Luis Escrivá dijo en EL PAÍS que “abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del castellano y las lenguas cooficiales de España”.