聽新聞
0:00 0:00

國慶是10月1日?中研院AI使用中國資料庫 還稱「台灣是中國的一部分」

評論

這篇文章報導了中央研究院釋出的繁體中文語言模型CKIP-Llama-2-7b,然而卻引起了網友的質疑,指出該模型所使用的資料庫主要來自中國,而其回答內容偏向中國本位立場。這引起了社會上的熱烈討論。 作者提及了CKIP-Llama-2-7b所採用的兩個資料集,分別是由中國AI研究單位編制的作品以及以簡體中文為主的一般性知識問答對話資料集。另外,文中也提到了CKIP-Llama-2-7b在中國清大和中國交大所開發的評量系統中經過的評測。這些資訊都表明了該模型的中國背景。 然而,作者也提到了限縮問答內容範圍可以避免產生政治立場牴觸的問題。例如,若問及「中華民國的國慶日時間」,該模型能正確回答「10月10日」。這暗示著該模型在特定範圍內的回答仍然是可靠的。 然而,如果CKIP-Llama-2-7b被廣泛應用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等領域,且內容審核不夠嚴格,可能會導致嚴重的後果。因此,有必要對這樣的語言模型進行更深入的審核和修正,以確保其回答的中立性和準確性。 總體來說,這篇文章報導了中央研究院釋出的繁體中文語言模型CKIP-Llama-2-7b的爭議,並指出其資料庫的中國背景可能導致與政治立場相關的問題。建議對這樣的語言模型進行更嚴格的審核,以確保其使用在各個領域不會出現不應有的後果。

這篇文章報導了中央研究院釋出的繁體中文語言模型CKIP-Llama-2-7b,然而卻引起了網友的質疑,指出該模型所使用的資料庫主要來自中國,而其回答內容偏向中國本位立場。這引起了社會上的熱烈討論。 作者提及了CKIP-Llama-2-7b所採用的兩個資料集,分別是由中國AI研究單位編制的作品以及以簡體中文為主的一般性知識問答對話資料集。另外,文中也提到了CKIP-Llama-2-7b在中國清大和中國交大所開發的評量系統中經過的評測。這些資訊都表明了該模型的中國背景。 然而,作者也提到了限縮問答內容範圍可以避免產生政治立場牴觸的問題。例如,若問及「中華民國的國慶日時間」,該模型能正確回答「10月10日」。這暗示著該模型在特定範圍內的回答仍然是可靠的。 然而,如果CKIP-Llama-2-7b被廣泛應用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等領域,且內容審核不夠嚴格,可能會導致嚴重的後果。因此,有必要對這樣的語言模型進行更深入的審核和修正,以確保其回答的中立性和準確性。 總體來說,這篇文章報導了中央研究院釋出的繁體中文語言模型CKIP-Llama-2-7b的爭議,並指出其資料庫的中國背景可能導致與政治立場相關的問題。建議對這樣的語言模型進行更嚴格的審核,以確保其使用在各個領域不會出現不應有的後果。

問答

Q1:CKIP-Llama-2-7b所釋出的繁體中文語言模型主要使用了哪兩個資料集進行訓練? a. 中國AI研究單位編制的作品和簡體中文問答對話資料集 b. 台灣AI研究單位編制的作品和繁體中文問答對話資料集 c. 台灣AI研究單位編制的作品和簡體中文問答對話資料集 d. 中國AI研究單位編制的作品和繁體中文問答對話資料集 正確答案:a. 中國AI研究單位編制的作品和簡體中文問答對話資料集 Q2:CKIP-Llama-2-7b的C-Eval中文模型評測是由哪兩所大學開發的評量系統? a. 台灣清華大學和中國交通大學 b. 台灣清華大學和中國清華大學 c. 台灣交通大學和中國清華大學 d. 台灣交通大學和中國交通大學 正確答案:b. 台灣清華大學和中國清華大學 Q3:若不進行特別限縮,CKIP-Llama-2-7b系統針對問答內容可能會回覆哪種中國本位的說法? a. 國慶日是10月1日 b. 國慶日是10月10日 c. 台灣是中國的一部分 d. 台灣不是中國的一部分 正確答案:c. 台灣是中國的一部分

Q1:CKIP-Llama-2-7b所釋出的繁體中文語言模型主要使用了哪兩個資料集進行訓練? a. 中國AI研究單位編制的作品和簡體中文問答對話資料集 b. 台灣AI研究單位編制的作品和繁體中文問答對話資料集 c. 台灣AI研究單位編制的作品和簡體中文問答對話資料集 d. 中國AI研究單位編制的作品和繁體中文問答對話資料集 正確答案:a. 中國AI研究單位編制的作品和簡體中文問答對話資料集 Q2:CKIP-Llama-2-7b的C-Eval中文模型評測是由哪兩所大學開發的評量系統? a. 台灣清華大學和中國交通大學 b. 台灣清華大學和中國清華大學 c. 台灣交通大學和中國清華大學 d. 台灣交通大學和中國交通大學 正確答案:b. 台灣清華大學和中國清華大學 Q3:若不進行特別限縮,CKIP-Llama-2-7b系統針對問答內容可能會回覆哪種中國本位的說法? a. 國慶日是10月1日 b. 國慶日是10月10日 c. 台灣是中國的一部分 d. 台灣不是中國的一部分 正確答案:c. 台灣是中國的一部分

生活中心/台北報導

中研院緊急將CKIP-Llama-2-7b語言模型下架。(圖/記者林柏廷攝影)

▲中研院緊急將CKIP-Llama-2-7b語言模型下架。(圖/記者林柏廷攝影)

我國最高學術機關「中央研究院」日前釋出了可商用的繁體中文語言模型CKIP-Llama-2-7b,不料卻遭網友抓包該語言模型採用中國的資料庫,若不針對問答內容特別限縮,該系統會回覆「國慶日是10月1日」、「根據中國憲法,台灣是中國的一部分」等中國本位的說法,引起各界熱烈討論。

根據「UniHub有你好棒」創辦人謝昆霖所述,CKIP-Llama-2-7b採用了兩個資料集進行訓練,分別是「COIG-PC資料集」和「dolly-15k資料集」,前者是以中國AI研究單位為首所編制的作品,後者則是以簡體中文為主的一般性知識問答對話資料集。

而CKIP-Llama-2-7b所經過的C-Eval中文模型評測,也是中國清大和中國交大所開發的評量系統。

換句話說,CKIP-Llama-2-7b的資料庫基本上來自於中國,因此若詢問「國慶日的時間」,會得到「10月1號」的回答;詢問「台灣是中國的一部分嗎」,則會得到「根據中國憲法,台灣是中國的一部分」的肯定答案。

不過提問內容若是限縮在「中華民國的國慶日時間」,系統也能正確無誤的回答「10月10日」,不會產生政治立場牴觸的問題。

也就是如此,若真的遵照中研院聲稱,將CKIP-Llama-2-7b用於學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等方面,並不多加審核內容的話,成品可能真的會「出大事」。

不論是用語還是問答內容,CKIP-Llama-2-7b皆以對岸的思維和習慣回應,只是將內容「簡體轉繁體」。

對此,中研院隨即將該語言模型下架,並強調該AI語言模型為個人的小型研究,因此各界的提問並不在原先的研究範疇,才會生成許多意料之外的內容。

中研院進一步指出,往後針對CKIP-LlaMa-2-7b及其他的相關研究成果會更加謹慎,在成果釋出前,院內也將會擬定審核機制。

加入 @setn 好友

大數據推薦
熱銷商品
直播✦活動
三立新聞網三立新聞網為了提供更好的閱讀內容,我們使用相關網站技術來改善使用者體驗,也尊重用戶的隱私權,特別提出聲明。
了解最新隱私權聲明 知道了