Traduction automatique
14 września 2011 o 17:59 w irom, www

En ce qui concerne la traduction faite par, ou à l’aide d’une machine (d’un logiciel ou d’un matériel informatique spécialisé), l’encyclopédie des sciences de traduction (Routledge, 1998) distingue trois directions des recherches et de la mise en pratique des ordinateurs dans le processus de traduction1 : les aides informatiques pour les traducteurs (machine aids for translators), la traduction assisté par l’ordinateur (TAO, machine-aided translation) et la traduction automatique (MT, mechanical translation). Le premier terme désigne une situation où l’homme est le traducteur qui utilise le logiciel qui lui facilite le travail (comme un éditeur de texte ou le logiciel permettant la gestion des termes techniques, la gestion des versions, des bases de données, des dictionnaires, etc.). Dans le deuxième cas c’est l’ordinateur qui traduit les parties du texte avec ou sans leur pre- et post-traitement par le traducteur. Le niveau supérieur c’est la traduction automatique où l’ordinateur effectue la traduction et l’intervention du traducteur (souvent monolingue) n’est pas nécessaire pour obtenir un texte compréhensible.

A. Pisarska et T. Tomaszkiewicz de l’Université de Poznań proposent une autre distinction de la traduction automatique : sur la traduction faite par un homme assisté par un ordinateur et la traduction faite par un ordinateur assisté par un homme 2. Elles excluent la situation où la traduction se fait sans facteur humain qui prépare le texte pour l’analyse ou le révise après la synthèse – le logiciel comme Word Lens (décrit plus loin) prouve que les ordinateurs sont déjà auto-suffisants.

histoire


Le développement des technologies de la traduction automatique a été lié à l’industrie militaire : les premiers grands pas dans ce domaine ont étés faits grâce à l’invention de l’ordinateur numérique pendant la deuxième guerre mondiale. Une machine qui servait d’abord à calculer les trajectoires des missiles et à la cryptanalyse 3 a incité l’imagination des hommes de science. Ils voyaient beaucoup de similarités entre le décodage des messages secrets et la traduction automatique – le but semblait être très accessible.

Pourtant, les premiers approches à la traduction automatique ont étés faites non pas par des linguistes, mais par des informaticiens 4 qui n’étaient pas conscients des nouvelles découvertes dans le domaine de la grammaire descriptive. Leur systèmes n’étaient donc pas trop compliqués dans la couche linguistique : ils se composaient d’un dictionnaire et d’une grammaire qui permettait de mettre les mots en ordre correct, propre au langue de traduction 5. En fait, leur méthodes rassemblaient beaucoup aux flux de travaux 6 des cryptanalystes. Les machines construits dans les années 50 et 60 sont souvent référés comme systèmes „directes” ou de „la première génération”.
Malheureusement, en dépit de l’engagement des fonds nationaux (aux États-Unis et dans plusieurs pays en Europe et en Asie) les systèmes directes ont créé beaucoup de problèmes. À cause d’un nombre énorme d’idiomes qui devrait toujours être „appris” à l’ordinateur manuellement la préparation des dictionnaires nécessitait beaucoup de travail. De plus, la polysémie rendait la traduction sans intervention de l’utilisateur très difficile, presque impossible. Le logiciel de traduction avait besoin de la compétence générale, nécessaire de comprendre le texte et pouvoir faire des choix entre plusieurs significations d’un mot à la base du contexte intra- ou extratextuel.
Mais le plus important problème était que la traduction automatique ne produisait que des textes bruts qui devraient toujours êtres revus et corrigés par des traducteurs. Il faut noter que parfois la correction d’un texte traduit automatiquement durait plus que la traduction manuelle de le début 7.
Ainsi, après la publication du rapport ALPAC en 1966 (Automatic Language Processing Advisory Committee) le financement aux États-Unis a été sévèrement limité. Le rapport soulignait le coût de MT, sa qualité inférieure à la traduction manuelle et le manque des perspectives de l’amélioration rapide de la situation 3. Bien que le rapport concernait seulement les laboratoires américains, les conséquences de sa publication ont ralenti le développement de la traduction automatique dans le monde entier.
Les groupes qui ont survécu la crise ont révisé leur méthodes. L’approche nommé „indirect”, ou „la deuxième génération” a été inauguré. Il introduit le concept de la représentation abstraite du texte analysé avant sa synthèse dans la langue-cible. Cet approche a permis de créer des systèmes multilingues qui ne basent pas sur les „paires” des langues. Le système le plus connu est SYSTRAN, fondé en 1968. SYSTRAN est une hybride de la première et de la deuxième génération 9, développé aux États-Unis et acheté par une entreprise français en 1986. Il a été utilisé par le Département de la Défense des États-Unis et il est toujours utilisé par la Commission Européenne.
Malgré le progrès évident dans le domaine de la qualité, prix et de vitesse de la traduction, certains problèmes ne pouvaient toujours pas être résolus. Lors du procès de la traduction l’intervention de l’utilisateur était toujours presque nécessaire. En traduisant „j’ai terminé” de français vers le polonais il faut prendre une décision si le sujet de la syntagme est masculin ou féminin („skończyłem” ou „skoczyłam”). Pour pouvoir faire un bon choix il est nécessaire d’avoir soit une bonne compréhension du texte, soit une compétence générale. Il semblait qu’il est impossible d’améliorer la qualité de traduction automatique sans introduire l’intelligence artificielle. Pourtant, le temps a démontré qu’on est assez loin de l’application de IA qui serait suffisamment développé pour comprendre un texte littéraire avec toute sa complexité.
Par conséquent, la question a été posé : qu’est-ce qu’une machine doit comprendre d’un texte pour pouvoir le traduire ?
Les différents approches à la traduction automatique résultent des différents réponses à cette question. Les systèmes classiques, de première et de deuxième génération essaient d’analyser un texte pour que la machine sait autant que possible sur le document qui est traduit. On utilise donc des dictionnaires avec des informations sur la forme grammaticale (le nombre, genre, personne, temps, mode, etc.) et des grammaires qui expliquent l’ordre logique des mots et des syntagmes dans la phrase.
Pourtant, les solutions disponibles sur le marché était en majorité des systèmes de la première génération. Le logiciel de traduction qui était distribué de façon commercial n’utilisait pas des nouvelles technologies développées dans les laboratoires de traduction automatique.
Dans les années 80 deux autres approches ont été préparés, les deux plutôt empiriques que rationnels 10. Ils impliquent l’usage des corpus et de statistique et non pas de dictionnaires ou de grammaires. Dans le premier cas on tire les traductions de corpus bilingues parallèles (qui contiennent des milliards de mots) à la base de la probabilité statistique 11, dans l’autre on travaille sur des corpus plus petits qui ne contient que des éléments-clés utilisés comme modèles de traduction. Le logiciel de traduction automatique statistique base sur des corpus des textes déjà traduits et l’analyse détaillée n’est pas nécessaire pour obtenir un texte compréhensible.

Les services de traduction en ligne


Avec le développement de l’Internet l’accès aux services de traduction automatique c’est rapidement étendu. Bien que le logiciel était déjà sur le marché sur les disquettes ou sur les disques optiques, dans les années 2000, grâce aux entreprises comme AltaVista, Yahoo! ou Google, il a été rendu accessible à tout les utilisateurs du réseau gratuitement.
En fait, la traduction automatique nécessite des microprocesseurs très puissants et peu de bande passante, c’est donc un service qui est fait pour être réalisé à l’aide de l’Internet. Les internautes s’y sont rapidement habitués 12.
Babel Fish, un service de l’entreprise américain Yahoo! 13 a été le premier à populariser les services de traduction en ligne. En fait, ce n’est qu’un interface Web pour le logiciel SYSTRAN, d’ou le petit nombre des paires de langues supportés 14. Le nom du service (Babel Fish), référant à la fois à la Bible et à la culture populaire (A. Douglas, The Hitchhiker’s Guide to The Galaxy) servait à familiariser les internautes avec des nouveau possibilités de leur ordinateurs personnels.
Un autre entreprise américain, Google, a lancé son propre service de traduction – Google Traduction (Google Translate, GT) – qui basait d’abord sur le même logiciel SYSTRAN. Mais les essais de créer un mécanisme de traduction de la langue arabe ont poussé les programmateurs a chercher une autre méthode 15. Ils ont décidé d’utiliser la technologie développe antérieurement par IBM – traduction automatique statistique 16.
Google Traduction permet de traduire des mots, phrases, textes de longueur limitée et des pages Web entières. Grâce au logiciel portable (plate-formes iOS et Android) le service permet aussi de traduire la parole (des segments enregistrés). Dans le cas de plusieurs langues il est possible d’écouter la prononciation correcte du texte-résultat.
Voilà comme les créateurs du service expliquent le fonctionnement d'algorithmes statistiques:


Lorsque Google Traduction génère une traduction, il recherche des modèles dans des centaines de millions de documents afin de déterminer quelle est la meilleure traduction. En recherchant des modèles dans des documents traduits par des traducteurs humains, Google Traduction peut identifier la traduction la plus appropriée. Ce processus de recherche dans d'importants volumes de texte est appelé "traduction automatique statistique". Les traductions étant générées par des machines, elles peuvent présenter des imperfections. Plus Google Traduction peut analyser de documents traduits par l'homme dans une langue donnée, meilleure est la traduction. C'est pour cette raison que la qualité des traductions peut varier d'une langue à l'autre. 17

Google Traduction a donc à sa disposition une grande base de données qui peut servir de même façon que les hommes utilisent leur compétences culturelles et sociales pour comprendre et traduire le texte. En fait, cette base de données (les documents de l’ONU et des milliers de pages web multilingues) est souvent actualisée ce qui permet à Google Traduction de se développer sans grand frais de fonctionnement – la qualité de traduction s’améliore avec temps. Malheureusement, son intelligence artificielle est toujours d’un très bas niveau qui ne lui permet pas de comprendre les textes comme les linguistes l’espéraient dans les années 70 18.
Puisque Google Traduction base sur un corpus des textes, les problèmes potentiels sont d’un caractère complètement différent des systèmes de la première et de la deuxième génération. Bien qu’il est assez bon avec des phrases et des long textes, il est considéré inférieur à SYSTRAN dans le cas des textes plus courts. Traduction automatique statistique peut confondre des formes grammaticales (une forme personnelle de verbe traduit comme un nom, etc.) – ce sorte des fautes était presque absent dans les systèmes de la première ou deuxième génération (exception faite aux mots polysémiques). Parfois il arrive aussi que Google Traduction est incapable de traduire le titre d’un film ou d’un livre si dans son corpus il apparaissait souvent dans la version originale 19.

application moderne de la traduction automatique


La traduction automatique, déjà présente dans le monde d’affaires ou de la politique, progressivement entre dans la vie quotidienne des millions. Les services de la traduction utilisés avec un navigateur web ne sont que la pointe de l’iceberg – le monde du logiciel pour les portables s’ouvre en créant des possibilités qui étaient impensables il y a 20 ans.
Avec le développement des systèmes de la reconnaissance de la parole et de sa synthèse on est de plus en plus proche des programmes capables d’écouter en un langue et de traduire oralement en un autre. La technologie est déjà disponible : Google Traduction en version mobile peut faire l’enregistrement audio d’une phrase, l’analyser en une seconde et la traduire. De plus, si la langue de traduction est sur la liste des langues plus importants, on peut aussi écouter la prononciation. C’était déjà possible grâce à des appareils dédiés qui ne supportaient qu’une paire des langues – maintenant la technologie est accessible à quasiment tout les utilisateurs des ordiphones 20. Google travaille maintenant sur un logiciel qui permettait d’avoir une conversation presque ordinaire à la base de leur système de traduction orale instantanée (il serait tellement rapide et facile à utiliser) 21.De plus, Word lens 22 est un bon exemple de l’application des nouvelles technologies dans le domaine de la traduction : ce logiciel, disponible seulement sur la plate-forme iOS, utilise l’appareil photo intégré dans le téléphone portable et donne traduction en temps réel de tout les textes qu’on voit avec la caméra. Sur l’écran du téléphone les traductions remplacent les textes originaux – ce ne serait pas possible sans développement des technologies comme OCR (la reconnaissance optique des caractères) ou la réalité augmentée, popularisé récemment (entre autres) par le logiciel Layar 23. Vu les systèmes de traduction automatique disponible il y a 20 ans c’est vraiment un grand pas en avance.

conclusion


Il existent maintenant sur le marché deux branches principales de la traduction automatique : l’approche traditionnelle, analytique, et approche statistique. Pour l’instant, en dépit des années de développement, les deux sont imparfaits.
Malheureusement, vu la situation géopolitique et la popularité croissante de l’anglais, il semble qu’aucune institution ni gouvernement ne soutiendra des recherches qui permettrait de construire un système de traduction suffisamment développé. Il faut attendre encore plus pour voir une hybride efficace des deux approches qui sera peut-être une solution. Pour l’instant, nous vivons dans le monde où des pages Web entières peuvent être traduites en un instant par un ordinateur qui se trouve sur l’autre hémisphère. Bien que la traduction ne soit pas parfaite, elle nous aide à échanger des idées, ce qui est déjà très beaucoup 24.

bibliographie


A. Pisarska, T. Tomaszkiewicz, Współczesne tendencje przekładoznawcze, Poznań, Wydawnictwo Naukowe UAM, 1996.
« Machine-aided translation », « Machine translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998.
« Google Traduction vu de l'intérieur », document officiel de Google, accès le 11.09.2011, disponible sur : lien

note de l’auteur


En écrivant ce texte j’ai utilisé Google Traduction pour vérifier certains expressions en français, l'Encyclopédie libre Wikipedia pour traduire des termes techniques anglais et polonais, le dictionnaire Oxford pour les définitions de l’anglais, le site du Centre National des Ressources Textuelles et Lexicales (lien) pour les définitions du français et le site Reverso (lien) pour consulter les tables de conjugaison des verbes.

  • 1. « Machine-aided translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998, p. 134.
  • 2. A. Pisarska, T. Tomaszkiewicz, Współczesne tendencje przekładoznawcze, Poznań, Wydawnictwo Naukowe UAM, 1996, p. 205.
  • 3. « Machine translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998, p. 140.
  • 4. « Machine-aided translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998, p. 144.
  • 5. A. Pisarska, T. Tomaszkiewicz, Współczesne tendencje przekładoznawcze, Poznań, Wydawnictwo Naukowe UAM, 1996, p. 204.
  • 6. Terme officiellement recommandé par la Commission générale de terminologie et de néologie comme traduction de l’anglicisme workflow.
  • 7. A. Pisarska, T. Tomaszkiewicz, Współczesne tendencje przekładoznawcze, Poznań, Wydawnictwo Naukowe UAM, 1996, p. 213.
  • 8. « Machine translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998, p. 140.
  • 9. Ibid, p. 141.
  • 10. Ibid, p. 143.
  • 11. Ibid.
  • 12. Il y avait des vagues d’intérêt sur l’Internet : d’abord c’était le courrier électronique, puis c’étaient les services de traduction automatique, enfin (quand la technologie nous a permis) les services de cartographie en ligne.
  • 13. Antérieurement développé par AltaVista.
  • 14. Accès le 11.09.2011 : 38 paires. La traduction de/vers le polonais est impossible.
  • 15. F. Och, « Statistical machine translation live » dans Research Blog, accès le 11.09.2011, disponible sur : lien
  • 16. « Machine translation » dans Routledge Encyclopedia of Translation Studies, sous la direction de Mona Baker, London, Routledge, 1998, p. 148.
  • 17. « Google Traduction vu de l'intérieur », document officiel de Google, accès le 11.09.2011, disponible sur : lien
  • 18. A. Pisarska, T. Tomaszkiewicz, Współczesne tendencje przekładoznawcze, Poznań, Wydawnictwo Naukowe UAM, 1996, p. 203.
  • 19. Google Traduction ne sait pas traduire „Quantum of Solace” de l’anglais vers le polonais parce qu’en Pologne le film a été distribué avec le titre original. Même si quelqu’un ne cherche pas de contexte cinématographique, il ne verra pas de traduction.
  • 20. Terme proposé comme traduction de l’anglicisme smartphone.
  • 21. E. Buskirk, « Google’s Real-Time Voice Translator Could Make Any Language Lingua Franca » dans Wired, accès le 11.09.2011, disponible sur : lien
  • 22. Le logiciel, qui pour l’instant ne traduit qu’entre l’anglais et l’espagnole, est disponible sur : lien.
  • 23. Disponible sur : lien.
  • 24. En fait, plusieurs sites Web basent sur la traduction automatique pour présenter des informations publiées en langues étrangers — p.ex. Engadget.
  • Wojciech Mosiejczuk @mosiejczuk
    filmowiec i romanista zainteresowany wszelkimi formami narracji, od książek po media wizualne
    1048
    wyświetleń