全方位開釋說話文字的數據要素價值_查包養中國網

原標題:全方位釋放語言文字的數據要素價值

對語言文字,我們“日學而不察、日用而不覺”。其實,語言文字是國家主要的教導、科技、文明、經濟、平安和戰略資源。近日,為搶抓年夜語言模子迭代升級新機遇,教導部、國家語委、中心網信辦印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(以下簡稱《意見》)。3月31日,教導部舉行新聞發布會,專門對《意見》進包養行周全解讀。

教導部語言文字信息治理司司長劉培俊介紹,《意見》明確提出,將數字中文建設作為服務數字中國建設的主要任務和周全推進語言文字信息化發展的凸起重點,全方位釋放語言文字在經濟社會發展中的數據要素價值。在實踐中,既要規范、有用、批量地將中文資源信息轉化為智能數據,也要促進中文數據的規模生產、優質集成、規范管理和復用增效,實現以數字化手腕構建新型中文服務體系,引領帶動語言文字信息化周全發展。

為何強調數字中文?劉培俊表現,中文任務嚴重,數字中國建設,加年夜國家通用語包養言文字推廣力度、深化中華優秀語言文明傳承、增進語言文明國際交通互鑒等多項嚴重任務都加倍需求中文數字化賦能。中文文明內涵豐富,是中國貢獻給世界的主要公共文明產品,加倍需求中文數字化傳播。中文應用范圍廣泛,加倍需求中文數字化學習。並且,中文數據價值凸起,年夜規模、高質量的中文數據有利于推動中國特點年夜語言模子創新發展,加倍需求中文數字化支撐。

劉培俊介紹,未來在技術創新應用上,要發揮天然語言處理技術支撐人工智能發展的基礎感化,加速領域年夜語言模子應用試點,確保規范平安,示范應用;研制面向人工智能的語言資源建設、治理、應用標準,特別是語料和數據質量評價標準等。在數據資源建設上,發揮語言文字服務國家包養語言才能建設的戰略感化,實施國家關鍵語料庫建設計劃,建設年夜規模中文語料庫等。在關鍵領域賦能上,發揮信息技術賦能國家語言服務體系構建的全局優勢,研制年夜語言模子才能素養框架(師生版),推進甲骨文數字化共享,實施中華文明優秀課程多語種數字化傳播計劃等。

北京年夜學王選計算機研討所所長湯幟指出,上世紀80年月,激光照排技術的發明,讓承載中華文明的中文在全球互聯網空間獲得重生。當前,年夜語言模子技術對年夜規模高質量語料提出史無前例的需求,中文信息處理技術的發展從以往解決漢字輸進輸出的基礎性問題,進階到當前釋放語言文字數據要素價值的全方位衝破。

湯幟表現,加強數字中文建設將重塑發展格式,推動中文信息處理技術發展進進新階段。語言文字將實現從“靜態符號”向“動態數字資產”、從“信息載體”向“生產要素”的轉型,要重點推動語料庫、數據標注與評價等標準的研制,支撐文本天生與懂得、語言翻譯、感情剖析等各種任務。語言文字還將實現從符號存儲到智能建模的質變,是以,要聚焦關鍵垂直領域建設語料基礎設施,構建支撐年夜模子訓練的高質量中文數據集。

包養網幟強調,語言文字還會起到賦能全局發展的感化。新形勢下,語言文字信息包養網排名處理技術創新應用正經歷從“GB2312字符集”到“萬億參數年夜語言模子”的范式變革,語言文字將實現與信息技術的深度融會,構成“技術衝破—場景落地—生態繁榮”的良性循環,服務教導發展,助力科技創新,賦能文明傳承,推動產業升級,促進社會進步。(科技日報北京3月31日電)

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *