¿Qué es la traducción automática?

La traducción automática (TA) es traducción automatizada. Es el proceso mediante el cual se utiliza software de computadora para traducir un texto de un lenguaje natural (como el inglés) a otro (como el español).

Al procesar cualquier traducción, humana o automática, el significado del texto en el idioma original (origen) se debe restaurar totalmente en el de destino, es decir, en la traducción. Aunque en apariencia parezca sencillo, es mucho más complejo. La traducción no es una mera sustitución de una palabra por otra. Un traductor debe interpretar y analizar todos los elementos del texto y saber cómo influyen unas palabras en otras. Para ello se necesitan amplios conocimientos de gramática, sintaxis (estructura de las oraciones), semántica (significados), etc., de los idiomas de origen y de destino, además de familiaridad con cada región específica.

Tanto la traducción humana como la automática tienen sus propios desafíos. Por ejemplo, dos traductores individuales no pueden producir traducciones idénticas del mismo texto en el mismo par de idiomas, y es posible que se requieran varias rondas de revisiones para lograr la satisfacción del cliente. Pero el mayor desafío reside en cómo se pueden producir traducciones de calidad aptas para ser publicadas mediante la traducción automática.

Tecnología de traducción automática basada en reglas

La traducción automática basada en reglas se basa en incontables reglas lingüísticas integradas y en millones de diccionarios bilingües para cada par de idiomas.

El software analiza sintácticamente el texto y crea una representación transitoria a partir de la cual se genera el texto en el idioma de destino. Este proceso requiere léxicos amplios con información morfológica, sintáctica y semántica, además de grandes conjuntos de reglas. El software utiliza esos conjuntos de reglas complejos y, a continuación, transfiere la estructura gramatical del idioma de origen al idioma de destino.

Las traducciones se construyen con diccionarios enormes y reglas lingüísticas sofisticadas. Los usuarios pueden mejorar la calidad de la traducción instantánea añadiendo su terminología al proceso de traducción. Para ello crean diccionarios definidos por el usuario que invalidan la configuración predeterminada del sistema.

En la mayoría de los casos, hay dos pasos: una inversión inicial que aumenta de forma significativa la calidad con un costo limitado, y una inversión acumulable que aumenta la calidad de forma incremental. Aunque la TA basada en reglas proporciona a las empresas el umbral de calidad que necesitan e incluso más, el proceso de mejora de calidad puede ser largo y costoso.

Tecnología de traducción automática estadística

La traducción automática estadística utiliza modelos de traducción estadísticos cuyos parámetros emanan del análisis de corpus monolingües y bilingües. La creación de modelos de traducción estadísticos es un proceso rápido, pero la tecnología depende enormemente de los corpus multilingües existentes. Se necesitan un mínimo de 2 millones de palabras para un dominio específico y más incluso para el idioma en general. Teóricamente es posible alcanzar el umbral de calidad, pero la mayoría de las compañías no tienen cantidades tan grandes de corpus multilingües para crear los modelos de traducción necesarios. Además, la traducción automática estadística consume mucha CPU y requiere una configuración de hardware amplia para ejecutar los modelos de traducción que permiten obtener niveles de rendimiento promedio.

TA basada en reglas frente a TA estadística

La TA basada en reglas proporciona una buena calidad fuera del dominio o ámbito concreto y es previsible por naturaleza. La personalización basada en diccionarios garantiza una calidad mejorada y la conformidad con la terminología corporativa. Pero a los resultados de la traducción les puede faltar la fluidez que esperan los lectores. En términos de inversión, el ciclo de personalización necesario para llegar al umbral de calidad puede ser largo y costoso. El rendimiento es alto incluso con hardware estándar.

La TA estadística proporciona una buena calidad cuando se dispone de corpus grandes y cualificados. La traducción es fluida, lo que significa que se lee bien y, por lo tanto, cumple con las expectativas del usuario. Sin embargo, la traducción no es ni previsible ni coherente. El entrenamiento a partir de corpus buenos es automático y más barato. Pero el entrenamiento sobre corpus del lenguaje general, es decir, sobre textos que no son del dominio especificado, es deficiente. Además, la TA estadística requiere un hardware determinado para crear y administrar modelos de traducción grandes.

TA basada en reglas TA estadística
+ Calidad coherente y previsible – Unpredictable translation quality
+ Calidad de la traducción fuera del dominio – Poor out-of-domain quality
+ Conoce las reglas gramaticales – Does not know grammar
   
+ Alto rendimiento y robustez – High CPU and disk space requirements
+ Coherencia entre versiones – Inconsistency between versions
   
– Lack of fluency + Buena fluidez
– Hard to handle exceptions to rules + Buena para tratar las excepciones a las reglas
   
– High development and customization costs + Desarrollo rápido y rentable siempre que exista el corpus requerido

Dados los requisitos generales, existe una necesidad clara de un tercer planteamiento en el que los usuarios logren un mayor rendimiento y una mejor calidad de traducción (similares a los de la TA basada en reglas), con menos inversión (como sucede con la TA estadística).

Complete la información que se solicita a continuación para descargar el documento.

*Campos obligatorios

Algunos datos no se han introducido correctamente. Por favor, compruebe los campos resaltados.

Información sobre la empresa
Datos de contacto
Código de seguridad

Introduzca los caracteres que visualiza en la imagen de arriba (sin distinción entre mayúsculas y minúsculas). Haga clic en la imagen si tiene dificultad para ver los caracteres correctamente.