Autre titre | Multilingual pretrained word embeddings |
---|
Téléchargement | Voir les téléchargements (14) |
---|
Auteur | Rechercher : Lo, Chi-Kiu1Identifiant ORCID : https://orcid.org/0000-0001-8714-7846 |
---|
Affiliation du nom | - Conseil national de recherches du Canada. Technologies numériques
|
---|
Format | Texte, Ensemble de données |
---|
Description physique | 14 fichiers .tgz – taille totale d’environ 65Go |
---|
Sujet | YiSi; plongements de mots; traduction automatique; BLEU; CNRC Portage |
---|
Résumé | Plongements de mots pré-entraînés par le CNRC : représentation des mots dans un espace vectoriel de grande dimension
Les plongements de mots pré-entraînés par le CNRC sont une collection de représentations vectorielles de grande dimension de mots en quatorze langues :
• allemand
• anglais
• chinois
• espagnol
• estonien
• finlandais
• français
• hindi
• letton
• polonais
• roumain
• russe
• tchèque
• turc
Les plongements de mots sont entraînés à l’aide de word2vec (Mikolov et al. 2013) sur les données rendues disponibles pour la tâche de traduction de nouvelles par la conférence WMT sur la traduction automatique. Tous les plongements de mots pré-entraînés sont normalisés en vecteurs de 300 dimensions et de norme unité. Les plongements de mots pré-entraînés peuvent être utilisés comme blocs de base des modèles neuronaux pour d’autres tâches de traitement automatique des langues, comme la similarité entre mots, la similarité sémantique textuelle, l’évaluation de la traduction automatique, et autres applications.
Pour plus de détail sur l’utilisation des plongements de mots avec YiSi, la métrique d’évaluation et d’estimation de la qualité des traductions automatiques du CNRC en logiciel libre, visitez le site web github du CNRC : http://github.com/nrc-cnrc/YiSi. |
---|
Date de publication | 2019-05-23 |
---|
Date de création | 2018 |
---|
Maison d’édition | Conseil national de recherches du Canada |
---|
Licence | |
---|
Publication connexe | |
---|
Langue | anglais |
---|
Exporter la notice | Exporter en format RIS |
---|
Collection | Données de recherche du CNRC |
---|
Identificateur de l’enregistrement | 41bc88cd-5362-4d43-b4fd-61ef661018c8 |
---|
Enregistrement créé | 2019-05-23 |
---|
Enregistrement modifié | 2022-05-09 |
---|