國慶是10月1日？中研院AI使用中國資料庫　還稱「台灣是中國的一部分」

2023/10/09 18:42

生活中心／台北報導

▲中研院緊急將CKIP-Llama-2-7b語言模型下架。（圖／記者林柏廷攝影）

請繼續往下閱讀….

我國最高學術機關「中央研究院」日前釋出了可商用的繁體中文語言模型CKIP-Llama-2-7b，不料卻遭網友抓包該語言模型採用中國的資料庫，若不針對問答內容特別限縮，該系統會回覆「國慶日是10月1日」、「根據中國憲法，台灣是中國的一部分」等中國本位的說法，引起各界熱烈討論。

根據「UniHub有你好棒」創辦人謝昆霖所述，CKIP-Llama-2-7b採用了兩個資料集進行訓練，分別是「COIG-PC資料集」和「dolly-15k資料集」，前者是以中國AI研究單位為首所編制的作品，後者則是以簡體中文為主的一般性知識問答對話資料集。

而CKIP-Llama-2-7b所經過的C-Eval中文模型評測，也是中國清大和中國交大所開發的評量系統。

換句話說，CKIP-Llama-2-7b的資料庫基本上來自於中國，因此若詢問「國慶日的時間」，會得到「10月1號」的回答；詢問「台灣是中國的一部分嗎」，則會得到「根據中國憲法，台灣是中國的一部分」的肯定答案。

不過提問內容若是限縮在「中華民國的國慶日時間」，系統也能正確無誤的回答「10月10日」，不會產生政治立場牴觸的問題。

也就是如此，若真的遵照中研院聲稱，將CKIP-Llama-2-7b用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等方面，並不多加審核內容的話，成品可能真的會「出大事」。

不論是用語還是問答內容，CKIP-Llama-2-7b皆以對岸的思維和習慣回應，只是將內容「簡體轉繁體」。

對此，中研院隨即將該語言模型下架，並強調該AI語言模型為個人的小型研究，因此各界的提問並不在原先的研究範疇，才會生成許多意料之外的內容。

中研院進一步指出，往後針對CKIP-LlaMa-2-7b及其他的相關研究成果會更加謹慎，在成果釋出前，院內也將會擬定審核機制。