※ 本文轉寄自 ptt.cc 更新時間: 2023-11-06 21:58:05
看板 Tech_Job
作者 標題 [新聞] 繁中資料量落後簡中 不利台AI語言模型
時間 Sun Nov 5 20:18:12 2023
https://ec.ltn.com.tw/article/paper/1613748
繁中資料量落後簡中 不利台AI語言模型 - 自由財經
國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述 〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術 ...
國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述 〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術 ...
繁中資料量落後簡中 不利台AI語言模型
2023/11/05 05:30
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入
70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。(資料照,記者吳柏軒攝)
70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。(資料照,記者吳柏軒攝)
國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠(
左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴
繁體中文語料。(中央社資料照)
左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴
繁體中文語料。(中央社資料照)
〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發
對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路
社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。
對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路
社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。
台算力、資料資源相對有限
ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE
)計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單
位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應,
引起軒然大波。
)計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單
位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應,
引起軒然大波。
中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運
用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的
Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入
AI研發,都凸顯台灣需要自己的大型語言模型。
台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中
資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即
無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累
、短期難解,若使用PTT等平台資料,處理成本又高。
資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即
無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累
、短期難解,若使用PTT等平台資料,處理成本又高。
李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾
罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資
料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能
盡量隔絕不希望AI學習的資料與內容。
罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資
料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能
盡量隔絕不希望AI學習的資料與內容。
--
佛沒說小乘、大乘。上座部佛教馬哈希尊者《具戒經講記》拆穿假佛教大乘經典的騙局。
上座部佛教明昆《南傳菩薩道》是真釋迦牟尼佛的菩薩成佛之道 大乘是假菩薩成佛之道妙法蓮華經 華嚴經 心經 金剛經 楞伽經 梵網經菩薩戒 圓覺經 楞嚴經 是 大乘假佛經
阿彌陀佛 藥師佛 是 大乘假佛 觀世音 文殊 普賢 維摩詰 龍樹 地藏王 是 大乘假菩薩
上座部佛教目犍連子帝須和那先破偽經大乘十方諸佛
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣)
※ 作者: hvariables 2023-11-05 20:18:12
※ 文章代碼(AID): #1bHuW7Mc (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html
→ : 還不都中文 有差?1F 11/05 20:50
→ : 上次不是被抓包套皮中國的系統2F 11/05 20:55
推 : 我不會說沒差,但既然簡中有優勢,就還是需要多參3F 11/05 20:58
→ : 考求自己進步,不能為反而反
→ : 考求自己進步,不能為反而反
推 : 除了政治話題外有什麼資料是繁中有簡中沒有的5F 11/05 21:03
推 : 繁轉簡沒啥問題 簡轉繁很多字會轉不過來6F 11/05 21:08
噓 : 這原本就是一個政治操作原本就只有2000多萬人口的產7F 11/05 21:10
→ : 出要怎麼會多過13億人口的產出你可以說這是一個與愛
→ : 發展的困境也可以說他根本就不是一個問題這個問題會
→ : 產生完全是因為你選擇使用這樣的方向發展而不是使用
→ : 一個量少質精的方向發展會遇到這種問題根本就是遲早
→ : 的事別把大家都當白癡耍
→ : 聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰
→ : 決策這些東西發展的方向自然就會水落石出!
→ : 出要怎麼會多過13億人口的產出你可以說這是一個與愛
→ : 發展的困境也可以說他根本就不是一個問題這個問題會
→ : 產生完全是因為你選擇使用這樣的方向發展而不是使用
→ : 一個量少質精的方向發展會遇到這種問題根本就是遲早
→ : 的事別把大家都當白癡耍
→ : 聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰
→ : 決策這些東西發展的方向自然就會水落石出!
→ : 自由時報…呵呵,不演了?15F 11/05 21:35
推 : AI本身就大數據 能贏我才覺得有鬼吧16F 11/05 21:36
→ : 都抄的當然落後17F 11/05 22:06
推 : 自己不累積啊 先出錢翻譯國外文件18F 11/05 22:21
噓 : 乾脆繁轉英還比較有用19F 11/05 22:26
推 : 中國連 stackoverflow 都翻成簡體了20F 11/05 22:33
噓 : 等一下,中研院不是已經切割說是「個人研究」嗎?21F 11/05 22:46
→ : 結果現在又開始出來說沾光?
→ : 結果現在又開始出來說沾光?
推 : 簡中資源量一直都是屌打繁中....23F 11/05 22:53
噓 : 台灣是全世界最鄙視翻譯的地方24F 11/05 22:54
推 : 當然有差,簡中LLM弄出來的用詞就是對岸的。25F 11/05 23:19
→ : 不是簡中是屌打繁中,但這樣世界各地其他國家怎麼辦26F 11/05 23:33
→ : 又不是被屌打就做不出來
→ : 又不是被屌打就做不出來
推 : 理由伯28F 11/05 23:41
推 : 科技業不烙個英文單字就弱了29F 11/05 23:45
推 : 新聞現在都用水平了 沒在用水準 早就被統一30F 11/05 23:50
推 : 還不如花錢讓全國人民英語能力提升31F 11/05 23:50
→ : 連用詞都慢慢被同化 直接用簡轉繁訓練算了32F 11/05 23:51
推 : 上次還聽到新聞說「質量」....聽了搖頭33F 11/05 23:56
推 : 放棄吧,台灣不可能搞這個34F 11/05 23:58
推 : 所以數位部還在搞麵線嗎?35F 11/06 00:17
噓 : 哦 要合理化直接爽抄中國又爽拿台灣經費了36F 11/06 00:17
→ lwamp …
→ : 繁中資料集也只是ChatGPT的一點點而已39F 11/06 00:23
推 : 不忍苛責CKIP 有問題的是沒搞懂又亂發新聞的人40F 11/06 00:47
推 : 兩千多萬人的資料產出想大於13億人?這數量差太多了41F 11/06 01:59
噓 : 合理化支語仔行為42F 11/06 02:00
推 : 對普通台灣人如我,最好的選擇就是把英文跟簡中都練43F 11/06 02:13
→ : 繁中我不指望了
→ : 繁中我不指望了
推 : 人家有知乎,繁中有啥?Dcard幻想文?覺青廢文,還45F 11/06 06:05
→ : 是白飯新聞?
→ : 就沒什麼知識性的討論,人民也不愛看書,自己變弱勢
→ : 文化怪誰?
→ : AI剛好就是加速淘汰弱勢文化而已
推 : Garbage in Garbage out
推 : 最佳解法就是學新加坡變英語系國家,不然講中文逃不
→ : 了
→ : 是白飯新聞?
→ : 就沒什麼知識性的討論,人民也不愛看書,自己變弱勢
→ : 文化怪誰?
→ : AI剛好就是加速淘汰弱勢文化而已
推 : Garbage in Garbage out
推 : 最佳解法就是學新加坡變英語系國家,不然講中文逃不
→ : 了
推 : 馬的幹連谷歌繁中翻譯都被簡中污染53F 11/06 06:38
→ : 這根本是學者為了騙經費而說的話。google 搜尋引擎54F 11/06 07:12
→ : 搜到一堆簡體與政治立場不正確的資料,怎麼不自己研
→ : 發一套取代Google搜尋的工具? 怎麼不自己建立搜尋
→ : 引擎所需資料? 資料品質差,繁體中文資料較少,根
→ : 本不是最大的問題,不然政府與學者早就該研發繁體中
→ : 文搜尋引擎取代google了。
→ : 最大的問題是,連世界上最厲害的OpenAI與ChatGPT都
→ : 沒在分繁簡體知識或任何國籍語言,才會有好的效果。
→ : 政府與學者卻為了政治目的,違背科學原理,開倒車訓
→ : 練一個狹隘知識的模型。
→ : 防堵中國偏見言論,我贊同。但防堵簡體中文知識,完
→ : 全是違背科學原理的做法。
→ : 最簡單的做法其實是:不要排除簡體中文知識,但過濾
→ : 政治意圖資料,才是全世界研究LLM的主流做法。不信
→ : 可以去看各國論文。
→ : 另外,怎麼不說:"繁中資料量落後英文,不利台AI語
→ : 言模型呢?" 為了騙經費,政治目的,科學與邏輯都變
→ : 差了。
→ : 搜到一堆簡體與政治立場不正確的資料,怎麼不自己研
→ : 發一套取代Google搜尋的工具? 怎麼不自己建立搜尋
→ : 引擎所需資料? 資料品質差,繁體中文資料較少,根
→ : 本不是最大的問題,不然政府與學者早就該研發繁體中
→ : 文搜尋引擎取代google了。
→ : 最大的問題是,連世界上最厲害的OpenAI與ChatGPT都
→ : 沒在分繁簡體知識或任何國籍語言,才會有好的效果。
→ : 政府與學者卻為了政治目的,違背科學原理,開倒車訓
→ : 練一個狹隘知識的模型。
→ : 防堵中國偏見言論,我贊同。但防堵簡體中文知識,完
→ : 全是違背科學原理的做法。
→ : 最簡單的做法其實是:不要排除簡體中文知識,但過濾
→ : 政治意圖資料,才是全世界研究LLM的主流做法。不信
→ : 可以去看各國論文。
→ : 另外,怎麼不說:"繁中資料量落後英文,不利台AI語
→ : 言模型呢?" 為了騙經費,政治目的,科學與邏輯都變
→ : 差了。
→ : 因為沒能力去做AI篩選阿XDDD72F 11/06 08:13
噓 : 真的有人信這種?73F 11/06 08:14
→ : Ai模型會看不懂簡體?
→ : Ai模型會看不懂簡體?
→ : 少不一定不好 八卦這麼多真知灼見怎麼不拿來用75F 11/06 08:23
→ : 簡中論壇的知識庫狂甩繁中10年以上76F 11/06 08:28
→ : ptt跟本悲哀
→ : ptt跟本悲哀
→ : PTT一堆沒營養的資訊 沒什麼知識成分 然後嗆來嗆去78F 11/06 08:42
→ : 的 能有用才怪
→ : 的 能有用才怪
推 : 其實查資料比較常查的是英文的,AI應該可以用台灣常80F 11/06 08:45
→ : 用搜尋語系做一個參考,不必侷限繁中跟簡中
→ : 不同行業的常用語言應該也會有蠻大的差異
→ : 用搜尋語系做一個參考,不必侷限繁中跟簡中
→ : 不同行業的常用語言應該也會有蠻大的差異
推 : 看有的推文就知道,為何繁中資料沒用83F 11/06 09:08
→ : 塔綠班課綱教出一堆沒文化中文奇爛無比的學生,跟人84F 11/06 09:45
→ : 家比什麼中文?!
→ : 家比什麼中文?!
推 : 講得好像對岸的論壇就多有營養一樣,落後的問題才86F 11/06 09:49
→ : 不在這
→ : 要也是記者隨便抄ptt當新聞這種行為
→ : 不在這
→ : 要也是記者隨便抄ptt當新聞這種行為
推 : 滿慘的 人口太少只能用劣等文化的資料庫89F 11/06 09:53
推 : 因為AI經費都拿去發給顏色正確的接標案啊 嘻嘻90F 11/06 10:42
→ : 再不然就加個簡繁語彙關鍵字轉換外掛吧91F 11/06 10:58
推 : google只是搜尋,又不灌輸立場,跟語言模型比,笑死92F 11/06 11:02
推 : 語言模型只是計算,又不灌輸立場,跟搜尋引擎比,笑93F 11/06 11:55
→ : 死。
→ : 搜尋引擎的演算法與架構,絕對比語言模型更"不中立"
→ : ,光是google的排序,廣告,地域,都是被控制的。
→ : 想解決LLM有政治偏見,然後不解決更常用的搜尋引擎
→ : 或媒體有偏見。不是騙錢是什麼。
→ : 死。
→ : 搜尋引擎的演算法與架構,絕對比語言模型更"不中立"
→ : ,光是google的排序,廣告,地域,都是被控制的。
→ : 想解決LLM有政治偏見,然後不解決更常用的搜尋引擎
→ : 或媒體有偏見。不是騙錢是什麼。
→ : 台灣的雜誌報紙不夠多嗎? 從古早以前國民黨剛來到99F 11/06 12:14
→ : 現在也累積很多了吧? 只怕是怕古早以前的都沒有數
→ : 位化或消失了
→ : 現在也累積很多了吧? 只怕是怕古早以前的都沒有數
→ : 位化或消失了
噓 : 天才102F 11/06 12:36
推 : 93樓中肯,搜尋引擎超好控制的,媒體輿論都超容易103F 11/06 12:54
→ : 被這種演算法把持得死死的
→ : 它不用灌輸立場,只要選擇性地讓特定立場的資訊更
→ : 容易浮上檯面就行了
→ : 被這種演算法把持得死死的
→ : 它不用灌輸立場,只要選擇性地讓特定立場的資訊更
→ : 容易浮上檯面就行了
→ : 繁中使用人數就是比簡中少107F 11/06 12:56
噓 : 還在火星文 這人是昭和年代的老害嗎108F 11/06 13:04
推 : 國力強人多是優勢阿,同理哪個ai不管英文只有繁中109F 11/06 13:22
噓 : 不能用那為啥不用ChatGPT110F 11/06 13:31
→ : 那就先做個模型把簡中翻譯成繁中不行?111F 11/06 14:22
推 : 軟硬體知識很多也都是簡體的,台灣沒什麼在分享112F 11/06 15:55
→ : 搜尋人為調整跟訓練資料導致不同推論的能比?要講人113F 11/06 16:51
→ : 為干預的話什麼都可以用陰謀論結案那還有甚麼好討論
→ : 的?一群天才....
→ : 為干預的話什麼都可以用陰謀論結案那還有甚麼好討論
→ : 的?一群天才....
推 : 理由伯116F 11/06 18:29
推 : 網軍24小時輪班也很難贏117F 11/06 19:21
→ : 台灣一堆別人翻好的不用自己生成118F 11/06 19:44
推 : 嗯嗯,所以繁中資料量不足,要怎麼解決? 簡中要參119F 11/06 20:23
→ : 考嗎? 還是中共國的我們都不該用,你陰謀論?XD
→ : 考嗎? 還是中共國的我們都不該用,你陰謀論?XD
推 : 好高騖遠 自不量力121F 11/06 21:35
--
※ 看板: Tech_Job 文章推薦值: 0 目前人氣: 0 累積人氣: 146
回列表(←)
分享