AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的主要作者來自上海交通大學和上海人工智能實驗室智慧醫(yī)療聯合團隊,共同第一作者為上海交通大學博士生邱芃鋮和吳超逸,共同通訊作者為上海交通大學人工智能學院王延峰教授和謝偉迪副教授,這是該團隊在繼 PMC-LLaMA 后,在持續(xù)構建開源醫(yī)療語言大模型的最新進展。該項目受到科創(chuàng) 2030—“新一代人工智能” 重大項目支持。
在醫(yī)療領域中,大語言模型已經有了廣泛的研究。然而,這些進展主要依賴于英語的基座模型,并受制于缺乏多語言醫(yī)療專業(yè)數據的限制,導致當前的醫(yī)療大模型在處理非英語問題時效果不佳。
為了克服這一挑戰(zhàn),近期一篇發(fā)表在《nature communications》的論文全面地從數據、測評、模型多個角度考慮了多語言醫(yī)學大語言模型的構建,做出了三項貢獻:
1. 創(chuàng)建了一個包含 25.5 Billion tokens 的多語言醫(yī)療語料庫 MMedC。
2. 開發(fā)了一個全新的多語言醫(yī)療問答評測標準 MMedBench, 覆蓋了 6 種語言,21 種醫(yī)學子課題。
3. 推出了一款名為 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多項基準測試中超越了現有的開源模型,更加適合通過醫(yī)學指令微調,適配到各種醫(yī)學場景。
所有數據和代碼、模型均已開源。
論文標題:Towards building multilingual language model for medicine
論文地址:https://www.nature.com/articles/s41467-024-52417-z
項目地址:https://github.com/MAGIC-AI4Med/MMedLM
Leaderboard: https://henrychur.github.io/MultilingualMedQA/