中新社拉薩11月19日電 (記者 貢桑拉姆)“陽光清言”藏語大模型研發成果19日在西藏拉薩市正式發布。目前,研究團隊已按照國家相關法規推進模型備案工作,待完成后將正式上線面向社會服務。
“‘陽光清言’藏語大模型V1.0是一個千億參數級的藏語大模型。”中國工程院院士、西藏大學教授尼瑪扎西介紹,此款藏語大模型的訓練數據使用了約288億token高質量藏語數據,包括大規模句子級和篇章級的藏語單語數據、漢藏和藏英平行語料、漢藏雙語辭典條目等,內容涵蓋新聞、法律、醫學、哲學、教育、文化和科學技術等多個領域。
尼瑪扎西說,這款模型能夠處理復雜的語言結構和多領域知識,具備深度的藏語語義理解與生成能力,問答自然流暢、生成明晰準確,在藏語智能問答、文本生成、機器翻譯等領域有著優異的表現。
“‘陽光清言’藏語大模型除了具有藏語能力,還有更為強大的漢語能力。”西藏大學信息科學技術學院副教授、尼瑪扎西院士團隊成員洛桑嘎登稱,作為基座模型,“陽光清言”藏語大模型可以廣泛應用于邊疆治理大模型、西藏文旅大模型、西藏綠色能源大模型、西藏農牧科研大模型、西藏教育大模型、西藏文化大模型和藏醫藥與高原健康大模型等研發。
他說,該模型重點解決邊疆數智治理過程中的語言技術支撐能力、基于大模型的市域和區域治理能力、基于大模型的民生服務能力、AI賦能文化旅游產業能力、AI賦能高原科學技術研究、清潔能源開發利用智能化等關鍵技術。
據悉,西藏大學尼瑪扎西院士團隊與北京智譜華章科技有限公司聯合開展了藏語大模型研發工作,旨在推動藏語智能技術的國際話語權,同時為西藏的長治久安和高質量發展提供技術支持。(完)