国产精品免费嫩草研究院|无遮羞动漫在线观看AV|国产麻豆精品传媒AV国产在线|村在线观看|寂寞情人1正版|韩国床震韩国床震古|精品系列专区久久

解放前通用語言 解放語言的Pixel

解放前通用語言 解放語言的Pixel

科技發展日新月異,隨著谷歌實時翻譯這項黑科技的發明,從前我們苦練外語的時代也許一去不復返了,也許以后很多學生就要大聲高呼:我終于可以不用學英語啦!不同國別,不同人種之間,語言包袱真能甩掉嗎?人之人之間真能實現順暢自然的交流嗎?這也只是小編一個對未來的美好暢想,但谷歌Pixel Buds耳機實時翻譯的新科技也讓我看到了希望的曙光 。下面小編就和大家共同探討下谷歌實時翻譯的黑科技奧秘 。
這款無線耳機可以利用 Pixel 手機上的谷歌翻譯 APP , 幫你把你所說的和所聽到的話在 40 種語言里隨意翻譯 。實時語言翻譯需要一系列技術的支持,而這些技術都在近幾年里實現了極大的發展 。從 Pixel Buds 聽到語音的一瞬間,到被翻譯好的語音從手機中播放出來,中間使用了哪些技術呢?

探秘黑科技 輸入調節:Pixel Buds 耳機所“聽到的”語音會包含大量的背景噪音,所以“除噪”是必須的 。語音活性檢測(VAD)則會讓你的 Pixel Bud 只有在你說話時候才會響應,而不是對周圍每個大聲說“Ok Google”的人都有反應 。觸控則是用來提高 VAD 的準確度 。
語言識別(LID):此系統會用機器學習,在幾秒內識別所說的語言是哪一種 。這很重要,因為 Pixel Buds 之后所聽到的一切語音都會因為語言的不同而意義不同 。而僅僅用發音來識別語言并不可靠,比如烏克蘭語和俄羅斯語,以及烏爾都語和印地語的發音幾乎一模一樣 。所以,谷歌必須全新發明一種聲學模型來識別語言 。
自動語音識別(ASR):ASR 會使用該聲學模型把記錄的語音轉換成一個個音素,然后具體的語言模型會把這些音素數據轉換為文字 。通過口語語法、上下文、概率以及發音詞典,ASR 系統可以自主補上句子中的空缺并且修改誤認的音素 。最終 , ASR 將會推斷出一段基本正確的文字 。

自然語言處理(NLP):NLP 會使用機器翻譯 , 把這段文字從一種語言翻譯到另一種語言 。雖然聽起來簡單 , 但這不僅僅是把每一個詞翻譯成對應的詞,而是需要理解語音背后的意思 , 然后把這個意思用另外一種語言表達出來 。而這段被翻譯出來的文字在細微之處也需要符合其語言的習慣 。
語音合成(TTS 系統):TTS 和 ASR 可以被視為同一個過程的逆操作 。這個系統需要從一段文字中生成一段聽起來十分自然的語音 。以前的老 TTS 系統會用增添合成 , 也就是把許多個由人所說的音素按照正確的順序排列好,合成出成品 。而現代系統則會使用復雜的統計聲學模型來產生聽起來十分自然的聲音 。

當我們把這 5 個不同的技術放在一起的時候,實現實時翻譯也就不難了 。但是它們是如何具體的工作呢?讓我們用一個中英翻譯的例子來加以解釋 。
當 Pixel Buds 收到翻譯的指令后,它會首先語音錄下來,用 VAD 來判斷這段話從哪開始、在哪結束 。背景的噪音在語音被耳機記錄的時候就會先被過濾一遍 , 然后在被傳到手機上的時候再被過濾一遍 。手機中的 APP 會對這段語音進行壓縮,避免用太多的數據流量,然后在通過無線網或 4G 把它上傳到谷歌的語音服務器 。
谷歌的云端服務器會對這段語音進行解壓,然后使用 LID 技術來判斷所說的是漢語還是英語 。
假設這段語音是漢語,那么漢語的 ASR 系統就會接手,將它轉化為文字 。之后,NLP 系統會把漢字翻譯成英文文字,然后再發送給英語 TTS 軟件,合成為英語語音 。這段被壓縮的語音會沿原路返回到手機和耳機中,并播放出來 。
雖然這個過程聽起來很復雜,但是在現實中僅需幾秒鐘就能完成 。不過這幾秒可以說是很關鍵的幾秒,因為耳機和手機中的處理器并沒有足夠的能力來進行本地翻譯,也沒有足夠的空間去存儲各種語言和聲學模型 。就算谷歌開發出一款威力出奇的耳機或手機,這種程度的計算的能耗也會在幾秒內將電池用空 。
最重要的是,市面上包括谷歌、科大訊飛以及 IBM 在內的所有實時翻譯產品都在無時不刻的進行著更新,努力的在提高性能和用戶體驗 。而對自己的云端服務器進行更新很顯然要比對無數個用戶的耳機進行更新更容易 。
看來要想短時間內研發出完美的實時翻譯技術還是挺有難度的,實時翻譯技術的研發傳播之路任重而道遠?。?
【解放前通用語言 解放語言的Pixel】

經驗總結擴展閱讀