https://ift.tt/2tSzj5a
本文:
現在各大科技公司關注 AI,要用 AI 訓練語音辨識,就得有語句對應語音資料庫的存在了,才有辦法訓練 AI。採用開放方式運作的 Mozilla,則是推出 Mozilla 同聲計畫 (Common Voice),上個月 6 日公布開始收集德語、法語和威爾斯語的音檔。如今 Mozilla 已經開放錄製正體中文的音檔,並且由 Mozilla 台灣社群開始號召社群成員錄製大家平常生活對話。
採用開源方式運作的 Mozilla 基金會,採用慣用的開源群眾力量來收集 AI 訓練所需要的語音庫,推出同聲計畫。Mozilla 台灣社群 Facebook 粉絲頁週六發布貼文,宣布同聲計畫的正體中文版本網站上線,並且開始收錄大家的語音對話。只要花上一點點時間,按下網站的錄音按鈕,不論在桌機還是手機上面,就可以照著螢幕上出現的句子,照平常說話方式說出來,貢獻給要做語音辨識的人。
▲ Mozilla Taiwan 志工,開放文化基金會理事趙柏強在社交媒體上面號召大家一起參與錄製台灣國語的語音資料庫。
目前在桌機上或是手機瀏覽器,都可以進到同聲計畫正體中文版,錄製台灣日常語言。但由於系統限制,iOS 下必須下載 App 才能貢獻錄音,Android 則可以直接在手機瀏覽器之下錄音。
▲ 拜現代瀏覽器越來越強大之賜,不論在手機還是桌機上面,都可以直接貢獻自己的聲音出來。(Source:Mozilla Common Voice)
▲ Mozilla 同聲計畫,也可以在手機上操作,貢獻自己的錄音,或是審核別人念得對不對。(Source:Mozilla Common Voice)
如果想要貢獻對話文本,也可以上 Mozilla Github,在去除隱私資料之後,捐出日常對話出來,供大家拿來當口說錄音的腳本。
- Mozilla goes multilingual with open source Common Voice speech recognition datasets
- More Common Voices
(首圖來源:Mozilla)
全民共同創作一直都是這種需要大資料最好的方法,可以獲得各種不同種族、環境、生活的資訊,讓整個資料庫更加完善。
沒有留言:
張貼留言