訓練非英語AI模型 Meta專家:2大挑戰待克服
(中央社記者吳家豪加州孟羅公園27日電)國科會以Meta語言模型Llama為基礎,發展融合台灣元素的可信任人工智慧(AI)對話引擎,Meta專家今天在Connect大會回答中央社提問時表示,打造非英語的語言模型,需要克服詞彙量差異、預訓練學習率下降等2大挑戰。
Meta今天在美國加州總部舉辦Connect大會,為COVID-19(2019冠狀病毒疾病)疫情後首度恢復實體舉行,會中發表Quest 3頭戴式裝置、圖像生成模型Emu、結合直播功能的新一代智慧眼鏡,為元宇宙鋪路。Meta僅邀請全球不到百家媒體與會,中央社為唯一親臨現場的華文媒體。
在Connect主題演講後進行的媒體團訪時間,中央社記者提問,台灣政府部門使用Llama打造中文版AI對話引擎,Meta能否為相關研究者提供建議。Meta AI研究科學家安琪拉.范(Angela Fan)表示,打造非英語的語言模型,會面臨一些挑戰,其中之一是詞彙量(vocabulary size)差異。
安琪拉.范指出,如果某個語言模型的詞彙量是根據英語文本進行訓練,那麼未來使用其他語言訓練時,會發現詞元(token)分布方式不同。
她以英語為例,一個單字可能被分成2個詞元,但在另一種語言中的一個單字可能被分成6個詞元,這會對生成式應用帶來更多挑戰,因為詞元分布的任何差異,都可能導致模型輸出錯誤。在大部分時候,人們嘗試透過第二階段的預訓練(Pre-training)來改善相關問題。
不過,安琪拉.范提到,預訓練資料的多樣性也帶來另一種挑戰。在世界不同地區,人們關心不同的事情,如果主要使用英語資料訓練語言模型,能涵蓋的知識範圍將受限,影響模型輸出結果。就實務而言,大多數語言模型進行預訓練時,學習率都會逐步下降,必須做出更多調整,也是需要克服的問題。(編輯:張良知)1120927
延伸閱讀
- 高雄公車「衝慢車道闖燈左轉」險撞轎車 警將開罰2023/10/08
- 疫後日幣狂貶帶動觀光! 物價漲2.8%日人嘆「買不起」2023/10/07
- 遊北海道「自駕」撞護欄! 台人7輕重傷2023/10/07
- 【聽見大海的心跳】海龜返鄉路|華視新聞雜誌2023/10/07
- 蔡總統紀錄片加州首映 蔡想想出鏡逗樂觀眾2023/10/07
- 國慶預演今登場 「翡翠騎士」活力演出博滿堂彩2023/10/07
- 【聽見大海的心跳】珊瑚齊產卵|華視新聞雜誌2023/10/07
- 國慶焰火倒數3天! 中央公園9號下午開始交管2023/10/07
- 歐洲里程碑 西班牙民企成功發射可重複使用火箭2023/10/07
- 【聽見大海的心跳】鯨豚之死 敲響生態警鐘||華視新聞雜誌2023/10/07
- 「少男少女」全球首映 黑暗現實打破觀眾幻想2023/10/08
- 連假小三通擠爆!候位1400號 旅客火大「質疑黑箱」2023/10/07







