2022年10月29日 星期六

Meta AI 新技術可翻譯口說對話,祖克柏也能聽懂台籍員工說的台語

 https://technews.tw/2022/10/20/meta-using-ai-to-translate-speech-for-a-primarily-oral-language/

至今為止,AI 翻譯主要著重於各種書寫語言,但在全球超過 7,000 種的現存語言中,將近半數主要是以口語表達,沒有標準或廣泛使用的書寫文字系統。這導致人們無法使用標準技術為這類語言打造機器翻譯工具,因為標準技術需有大量的書寫文字來訓練 AI 模型。為克服這項挑戰,Meta 為主要以口語表達、缺少標準書寫文字系統的「閩南語」打造一個史無前例的 AI 技術翻譯系統,可讓使用閩南語的人士與使用英語的人士對話。

來自台灣的 Meta AI 研究員陳鵬仁深刻了解語言障礙將影響大家的溝通能力,他在台灣長大,講中文,但是他的父親陳聖獎先生是一個 70 歲已退休的工廠技術主管,來自普遍使用台語的台灣南部,陳爸爸常覺得用一般中文進行複雜的對話非常困難。

陳鵬仁表示,「我爸聽得懂中文,但若是討論比較複雜的主題時,他說話的速度會比較慢」,更希望「我爸跟所有人溝通時都能用台語對話,這是他最熟悉的語言」。不甘於只為陳爸爸擔心,他開始投入心力,改善這個問題,推動 Meta AI 全新技術發展,讓閩南語和英語之間得以相互翻譯。

如何克服訓練資料的挑戰

這套開放原始碼的翻譯系統是 Meta Universal Speech Translator(UST,通用語音翻譯工具)專案的一部分,該專案致力於開發新的 AI 方法,期望最終能為所有現存語言進行即時語音翻譯,包括主要以口語表達的語言,進而拉近人們之間的距離,無論身在何處,甚至在元宇宙中也可以。

為開發這個只有語音的全新翻譯系統,Meta AI 研究人員必須克服許多來自傳統機器翻譯系統的挑戰,包括資料蒐集、模型設計以及準確度評估。其中一個重大障礙在於是否能夠蒐集到足夠的資料,由於閩南語是所謂的資源匱乏語言,未有足夠的訓練資料;此外,能將英語翻譯成閩南語的翻譯人員相對較少,因此更難以蒐集資料並加上註解來訓練模型。為此 Meta 利用中文作為中間語言,以建立偽標籤和人工翻譯,也就是說先將英語(或閩南語)語音翻譯成中文文字,接著再翻譯成閩南語(或英語),然後新增至訓練資料中。

另一種產生訓練資料的做法是語音探勘,Meta 使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對。接著 Meta 從文字來合成英語語音,產生平行的閩南語和英語語音。

全新模型做法和評估準確度

許多語音翻譯系統依賴轉譯內容,或依賴語音轉文字系統。但如閩南語等主要以口語表達的語言並沒有標準書寫文字形式,Meta 無法將翻譯的文字製作成翻譯內容輸出,因此聚焦在語音轉語音翻譯。

Meta 使用語音轉單元翻譯(speech-to-unit translation,S2UT)系統,直接在先前由 Meta 開創的路徑中,將輸入的語音翻譯成一系列聲學單元,然後從這些單元中生成波形。此外,針對二次解碼機制採用 UnitY,讓第一階段的解碼器產生相關語言(中文)的文字,然後讓第二階段的解碼器製作單元。

語音翻譯系統通常會使用稱為 ASR-BLEU 的衡量指標來評估,首先需使用自動語音識別系統將翻譯後的語音轉譯成文字,然後將轉譯後的文字與人工翻譯的文字比較,以計算 BLEU 分數(標準機器翻譯衡量指標)。但評估主要以口語表達的語言時,評估語音翻譯的挑戰之一同樣是沒有標準書寫文字系統。為啟動自動評估程序,Meta 開發稱為「Tâi-lô」(台羅)的系統,將閩南語語音轉譯成標準化的拼音符號。這項技術能以音節為單位計算 BLEU 分數,並能夠很容易地比較不同方法下的翻譯品質。

除了開發方法以評估閩南語與英語語音翻譯的準確度,Meta 也根據名為 Taiwanese Across Taiwan 的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集。Meta 將開放此基準資料集的原始碼,鼓勵其他研究人員合作進行閩南語語音翻譯,一同在這個領域取得進展。

展望翻譯的未來

在目前的階段中,Meta 做法能夠讓使用閩南語的人士與使用英語的人士對話。雖然該模型仍在開發當中,而且每次只能翻譯一個完整句子,但已朝向未來為各種語言提供同步翻譯的目標邁出新步伐。

Meta 首創用於閩南語的各項技術,可以擴展至許多其他有書寫系統和無書寫系統的語言。為此將發布 SpeechMatrix(暫譯語音矩陣),是由 Meta 的創新資料探勘技術支援的大型語音翻譯語料庫 LASER,能讓研究人員建立自己的語音翻譯系統。此外,Meta 在非監督方式語音識別技術(wav2vec-U)與非監督方式機器翻譯(mBART)上的最新進展,將有助於未來能翻譯更多口語的工作。

如對此 AI 翻譯系統感興趣的話,PTT 網友分享可試試「Hokkien Translation」,是以上述 Meta AI 模型和 S2UT、UnitY 兩種系統為基礎,當你上傳一段閩南語或英語口說,在「Model」選擇台譯英(hk-en)或英譯台(en-hk)後並按下「Submit」,耐心等待幾秒鐘後即可完成語音翻譯。

 

 

沒有留言: