Facebookの新しいAIは100の言語間で翻訳します

Facebookは、100の異なる言語間で翻訳できる新しいオープンソースAIモデルを発表しました。そのAIモデルは、既存のテキストを英語に変換する必要さえなく、より効率的で正確な翻訳を可能にします。

テキストを翻訳する新しい方法の紹介

Facebookについてのブログ投稿で、プラットフォームは、M2M-100としても知られる新しい多言語機械翻訳(MMT)モデルについて詳しく説明しました。印象的なことに、このオープンソースの機械学習モデルは、 「英語のデータに依存することなく、100の言語の任意のペア間で翻訳できます」。

これはまだ研究プロジェクトですが、多くの可能性を示しています。 FacebookのリサーチアシスタントであるAngelaFanは、「典型的な」機械翻訳モデルは言語ごとに異なるモデルを利用しているため、Facebookのような大規模なプラットフォームでは非常に非効率的であると述べています。

高度なモデルでさえ、言語間の仲介者として英語を使用しているため、それをカットしません。つまり、システムは最初にソーステキストを英語に翻訳し、次にそれをターゲット言語に翻訳する必要があります。

英語に依存するモデルは、最高の翻訳を生成しません。ファンは、写真から英語を取り除くことで、FacebookのMMTシステムがより正確な翻訳を生成できると述べています。

たとえば、中国語からフランス語に翻訳する場合、英語のトレーニングデータが最も広く利用できるため、ほとんどの英語中心の多言語モデルは中国語から英語、英語からフランス語でトレーニングします。私たちのモデルは、意味をよりよく保存するために、中国語からフランス語のデータを直接トレーニングします。

そのため、英語を橋渡しとして使用する代わりに、FacebookのMMTモデルは100の異なる言語間で相互に翻訳できます。ファンによると、Facebookは「これまでで最も多様な多対多のMMTデータセット」を構築しました。これは100言語の75億の文のペアで構成されています。

この偉業を達成するために、研究チームはWebで言語翻訳データをマイニングし、最初に「最も多くの翻訳要求がある」言語に焦点を合わせました。次に、研究者は、共通の特性に基づいて、これらの言語を14のグループに分類しました。

ここから、研究者は各グループのブリッジ言語を確立し、すべての可能な組み合わせのトレーニングデータをマイニングしました。これにより、2,200の方向で75億の並列文が生成されました。

そして、それほど普及していない言語に関しては、Facebookは逆翻訳と呼ばれるものを使用して合成翻訳を作成しました。

このプロセス全体により、Facebook AIチームは、「すべての言語、方言、およびモダリティをサポートする単一のモデル」を作成するという目標に近づいています。

Facebookはより良い翻訳を提供することに近づいています

Facebookはすでにニュースフィードで毎日200億の翻訳を実行しており、FacebookAIはプロセスをより効率的にするだけです。新しい翻訳モデルはまだ実装されていませんが、特定の翻訳を必要とする海外のFacebookユーザーにとっては間違いなく便利です。