4月22日,,“2025天府融媒大講堂——主流媒體系統(tǒng)性變革之技術(shù)賦能”活動現(xiàn)場,格?;ú氐卣Z料庫建設(shè)正式啟動。

記者從現(xiàn)場了解到,,該語料庫由天府融媒(四川)科技有限公司、四川省全媒信息傳播研究院共同發(fā)起,,尼瑪扎西院士工作站(電子科技大學),、藏地陽光全媒體中心、甘孜州傳媒中心,、四川日報全媒技術(shù)中心等多家機構(gòu)共同建設(shè),。
黨的二十大提出,要實施國家文化數(shù)字化戰(zhàn)略,,增強中華文明傳播力影響力,。今年,教育部,、國家語委,、中央網(wǎng)信辦聯(lián)合印發(fā)的《關(guān)于加強數(shù)字中文建設(shè) 推進語言文字信息化發(fā)展的意見》指出,“以加強數(shù)字中文建設(shè)為重點,,以集成化,、智能化、國際化為導向”,,“促進中文數(shù)據(jù)的規(guī)模生產(chǎn),、優(yōu)質(zhì)集成,、融合創(chuàng)新,、規(guī)范治理和復(fù)用增效”“加快推進語言文字信息化發(fā)展”,明確要求推進“古籍數(shù)字化整理關(guān)鍵技術(shù)研究”和“國家關(guān)鍵語料庫,、高質(zhì)量民族語言文字語料庫”建設(shè),。
格桑花代表著幸福和吉祥,,是藏族人民對美好生活的向往和期盼,。以“格桑花”命名,,寓意語料庫將像格?;ㄒ粯觽鞒胁刈逦幕?,并為藏語在人工智能時代的應(yīng)用注入新的希望和活力。
目前,,格?;ú氐卣Z料庫已初步搭建藏語語料訓練系統(tǒng)。接下來,,將對已整理的超200億字符的藏文資料,、30000多小時的音視頻資料進行訓練,形成千萬條高質(zhì)量多模態(tài)藏語語料,。同時,,基于已有的翻譯詞庫構(gòu)建500萬級“藏漢英對照”平行語料庫。
記者了解到,,今后語料庫還將通過數(shù)據(jù)清洗,、知識提取等智能處理,形成藏語核心語料及細分領(lǐng)域知識庫,,并借助格?;ú氐卣Z料庫建設(shè)藏語智能體綜合平臺,開發(fā)藏語知識問答,、藏漢互譯等智能體,,為藏語研究、內(nèi)容生產(chǎn)與傳播提供支撐,。
編輯:馮方湲
責任編輯:金艷
編審:喻佳
0