miércoles, noviembre 30, 2022
Actualidad Tecnología, Gadgets y Socialmedia Meta presenta NLLB-200, un modelo de IA capaz de traducir a 200...

Meta presenta NLLB-200, un modelo de IA capaz de traducir a 200 idiomas diferentes

Meta ha anunciado el desarrollo de NLLB-200, un modelo basado en Inteligencia Artificial (IA), capaz de traducir a 200 idiomas diferentes, entre los que se encuentran lenguas como el kambra, el lao o el igbo, que se hablan en distintos países de África.

Los investigadores de Meta AI han desarrollado este sistema como parte de la iniciativa ‘No Language Left Behind’ (NLLB), con la que busca crear funciones de traducción automática avanzadas para la mayoría de los idiomas del mundo.

En concreto, NLLB-200 puede traducir a 200 idiomas que o bien no existían hasta ahora en las herramientas de traducción más utilizadas o bien no funcionaban correctamente, según ha indicado la compañía en un comunicado remitido a Europa Press.

Meta ha puesto en evidencia estas carendias indicando que menos de 25 idiomas de África se incluyen en los traductores actuales, un problema que intenta resolver con este modelo, que incluye 55 idiomas africanos.

La compañía ha publicado en código abierto el modelo NLLB-200 y otras herramientas para que otros investigadores puedan ampliar este trabajo a más idiomas y diseñar tecnologías más inclusivas.

Con ello, ha anunciado que quiere conceder subvenciones de hasta 200.000 dólares a organizaciones sin ánimo de lucro (ONGs) que quieran aplicar esta nueva tecnología en entornos reales.

De ese modo, cree que estos avances podrán proporcionar más de 25 millones de traduciones al día en la sección de noticias de Facebook, Instagram y el resto de las plataformas que desarrolla.

Con esta apuesta por el modelo NLLB-200, Meta también espera ofrecer traducciones precisas que puedan ayudar a detectar contenido dañino e información errónea, así como proteger la integridad en procesos políticos como elecciones o frenar casos de explotación sexual y tráfico de personas en internet.

PROBLEMAS EN LOS SISTEMAS DE TRADUCCIÓN

Tras dar a conocer este modelo de IA, Meta ha mencionado cuáles son los retos a los que se han tenido que enfrentar para desarrollar su nuevo modelo NLLB-200.

En primer lugar, ha recordado que estos servicios se entrenan con datos, un entrenamiento que consiste en millones de oraciones emparejadas entre combinaciones de otras lenguas.

El problema reside en que hay muchas combinaciones para las que no existen oraciones paralelas que puedan servir como traducción, lo que hace que algunas de estas traducciones incluyan errores gramaticales o incoherencias.

Meta ha puntualizado que otra gran dificultad es optimizar un modelo único para que funciona con distintos idiomas sin que eso perjudique o comprometa la traducción.

Además, ha señalado que estos modelos de traducción producen errores difíciles de identificar y, al existir menos conjuntos de datos para lenguas con menos recursos, es complejo probarlos y mejorarlos.

A fin de solucionar estas dificultades, trabajó inicialmente en el modelo de traducción a 100 idiomas M2M-100, que impulsó la creación de nuevos métodos para recabar datos y mejorar los resultados.

Para poder llegar a los 200 idiomas que recoge NLLB-200, Meta AI tuvo que enfocarse principalmente en tres aspectos: la ampliación de los recursos de entrenamiento disponibles, el ajuste del tamaño del modelo sin renunciar al rendimiento y las herramientas de mitigación y evaluación para 200 idiomas.

En primer lugar, la compañía ha señalado que, para recopilar textos paralelos para las traducciones más precisos en otros idiomas, ha mejorado su herramienta de representacions de oraciones agnósticas del lenguaje (LASER). de transferencia ‘zero-shot’.

En concreto, la nueva versión de LASER utiliza un modelo Transformer entrenado con supervisión automática. Además, la compañía ha anunciado que ha mejorado el rendimiento utilizando un modelo basado en el aprendizaje profesor alumno y creando codificadores específicos para cada grupo de idiomas.

Asimismo, para crear formas gramaticales concretas y correctas, ha desarrollado listas de toxicidad para los 200 idiomas y las ha tulizado para evaluar y filtrar errores a fin de reducir el riesgo de la llamada ‘toxicidad por alucinaciones’. Esto ocurre cuando el sistema introduce, de manera errónea, contenido problemático durante las traducciones.

Por otra parte, la compañía ha reconocido que aún quedan “grandes retos por delante para ampliar el modelo de 100 a 200 idiomas” y se ha centrado especialmente en tres aspectos: regularizaicón y aprendizaje curricular, aprendizaje de supervisión automática y diversficación de la retrotraducción (esto es, volver a traducir lo preciamente traducido al idioma de origen).

Finalmente, se ha presentado FLORES-200, un conjunto de datos de evaluació que permite a los investigadores evaluar el rendimiento de su último modelo basado en IA en más de 40.000 direcciones entre idiomas diferentes.

En concreto, FLORES-200 se puede utilizar en diferentes ámbitos, como folletos informatuivos de salud o contenido cultural (películas o libros) en países o regiones donde se hablen idiomas con pocos recursos.

“Creemos que NLLB puede contribuir a la preservación de las diferentes lenguas a la hora de compartir contenido, en lugar de usar una como intermediaria, lo que puede llevar a una idea errónea o transmitir un sentimiento que no era el que se pretendía”, ha puntualizado Meta en este comunicado.

Para que otros investigadores puedan conocer el método de incrustación miltilingüe de LASER3, ha publicado en código abierto este programa, al igual que FLORES-200.

TRABAJO CON WIKIPEDIA

Con el objetivo de crear una herramienta accesible para todos los usuarios, la tecnológica ha anunciado que está colaborando con la Fundación Wikipedia, la organización sin ánimo de lucro que proporciona el servidor a Wikipedia y otros proyectos de acceso gratuito.

Meta considera que existe un gran desequilibrio en torno a la disponibilidad de los distintos idiomas que se hablan en todo el mundo que alberga este servicio. Para ello, ha puesto el ejemplo que existe entre los 3260 artículos de Wikipedia escritos en lingala (un idioma hablado por 45 millones de personas en países africanos) y los 2,5 millones de publicaciones escritas en sueco (una lengua que solo hablan 10 millones de personas en Suecia y Finlandia).

Asimismo, ha incidido en que los editores de Wikipedia están utilizando la tecnología NLLB-200 a través de la herramienta de traducción de contenidos de la Fundación Wikimedia para traducir sus entradas a más de 20 idiomas con pocos recursos.

Estos son los que no disponen de conjuntos de datos lo suficientemente abundantes para entrenar los sistemas de IA. Entre ellos, se incluyen 10 idiomas que anteriormente no estaban disponibles.

ARTÍCULOS RELACIONADOS

Apple confirma que iPhone adoptará el cargador USB-C en la UE

Apple ha confirmado que cumplirán con la nueva legislación europea que impondrá el cargador USB tipo C a la mayoría de dispositivos electrónicos desde finales de 2024, prescindiendo del puerto Lightning en iPhone al menos en este mercado.

La autenticación biométrica podría ser un talón de Aquiles para la seguridad del Metaverso, según expertos

Los datos biométricos expuestos en la Red crean un grave riesgo de autenticación en una amplia variedad de escenarios digitales, incluido el Metaverso, según alertan los expertos de la compañía de ciberseguridad Trend Micro en el estudio 'Filtrado hoy, explotado de por vida: cómo afectan los patrones biométricos de las redes sociales'.

WhatsApp se recupera tras dos horas caída en todo el mundo

La aplicación de mensajería instantánea WhatsApp se está recuperando tras dos horas caída este martes en todo el mundo por razones que de momento se desconocen.

Mantente conectado

1,373FansLike
34,139FollowersFollow
45,771FollowersFollow

Últimos artículos

00:05:54

Taylor Swift presenta su versión de Cenicienta en ‘Bejeweled’

La cantautora estadounidense, Taylor Switft, presentó a sus seguidores la versión de “Cenicienta” que presentó en el videoclip de su nuevo tema promocional titulado ‘Bejeweled’.

Apple confirma que iPhone adoptará el cargador USB-C en la UE

Apple ha confirmado que cumplirán con la nueva legislación europea que impondrá el cargador USB tipo C a la mayoría de dispositivos electrónicos desde finales de 2024, prescindiendo del puerto Lightning en iPhone al menos en este mercado.

EMA alerta de “nueva ola” de covid en próximas semanas

La Agencia Europea de Medicamentos (EMA) advirtió hoy de que la pandemia “aún no ha terminado” y la mutación del virus que causa la COVID-19 es “más rápida” que el proceso de actualización de las vacunas, y alertó de que se espera una “nueva ola en las próximas semanas” por nuevas subvariantes de Ómicron.

¿Cuándo se estrena la temporada 2 de La Casa del Dragón?

Con el estreno en HBO Max del décimo capítulo, la temporada 1 de La Casa del Dragón llegó a su fin. Ya se ha confirmado que la producción tendrá una segunda entrega, pero los episodios podrían tardar en llegar más de lo esperado.

Cantv conectó servicios a cerca de 630 familias en centroccidente

Durante despliegue especial, Cantv realizó en los estados Falcón, Lara y Yaracuy la restitución de los servicios de telecomunicaciones a cerca de 630 suscriptores, residenciales y comerciales, a través del Plan de Resolución Integral de Averías y el sistema 1x10 del Buen Gobierno.

Publicidad