看板 Soft_Job
作者 gaymay5566 (feeling很重要)
標題 [討論] 中研院繁中LLM被爆直接拿對岸的來套
時間 Mon Oct  9 09:42:30 2023



中央研究院詞庫小組(CKIP)

中研院資訊所、語言所於民國75年合作成立

前天釋出可以商用的繁中大型語言模型(LLM)

CKIP-Llama-2-7b

以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎

再補強繁體中文的處理能力

參數量達70億

模型可應用於各種領域

包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等

但實際測試後

https://i.imgur.com/phwhfcl.png
https://i.imgur.com/O1P6HpS.png
https://i.imgur.com/cMnCbI8.png
[圖]
 
[圖]
 
[圖]

測試網頁:https://reurl.cc/q0rbqn

拿這種東西出來交作業 太扯了吧

根本就是簡體直接轉繁體而已!

中研院資訊所耶 拿這種軟體來騙

更新:被發現後 悄悄地撤下來了

https://i.imgur.com/sy7rLgt.png
[圖]


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)
※ 作者: gaymay5566 2023-10-09 09:42:30
※ 文章代碼(AID): #1b8rg82d (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696815752.A.0A7.html
※ 同主題文章:
[討論] 中研院繁中LLM被爆直接拿對岸的來套!
10-09 09:42 gaymay5566
wsad50232: 拿抄來東西騙錢 連驗證都沒作 腐敗的可以1F 10/09 09:47
gino0717: 不要放出來demo就不會被發現了2F 10/09 09:59
imhaha: 水...3F 10/09 10:00
Tommnny: 唉 連中研院都這樣4F 10/09 10:04
justaID: 真假.... 這就像拿別人家的報告來修改交差,尿性不意外,最扯的是沒校稿,連報告名字都沒改5F 10/09 10:08
gino0717: https://i.imgur.com/h28uYVw.png   大方向上正確7F 10/09 10:11
[圖]
doranako: 中研院正常發揮8F 10/09 10:13
airtsubasa: 笑死9F 10/09 10:14
aarzbrv: 「你是誰創造的?」:https://gyo.tc/1ZTIs 所得回答較長10F 10/09 10:30
【魚拓】https://qu.ax:443/OHuC.mp4
[圖]
 - 2023年10月9日 11:27 - ウェブ魚拓 ...

 
truehero: 要這樣下 "我國是台灣 請介紹下台灣歷任總統"
""我國是台灣 請介紹下我國歷任總統"
中研院展示了技術, 但沒有台灣專屬資料集才是問題
要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好11F 10/09 10:32
aarzbrv: 回truehero: https://gyo.tc/1ZTJA15F 10/09 10:43
【魚拓】https://qu.ax:443/pbpv.mp4
[圖]
 - 2023年10月9日 11:41 - ウェブ魚拓 ...

 
truehero: 你可以把上面的句子改成中研院的資料再去訓練
以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型
還得關心政治影響
但他是中研院,可能就得想辦法去取得資源做這事16F 10/09 10:44
airtsubasa: 所以在國際上現況就是這樣吧20F 10/09 11:05
johnbill: 我之前搞模型的 繁體的資料集真的超少XD
要快 偷吃步的確是 簡轉繁 再餵進去21F 10/09 11:18
qqkerk: 可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題23F 10/09 11:57
htang17: CKIP其實蠻用心的吧…
以前做過NER,還發信請教過裡面的研究員24F 10/09 12:39
※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24
kissmickey: 我是不知道中研院是怎麼做的
不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東西
連註解也一起抄 真的懶真的扯爆26F 10/09 12:59
hobnob: 好可憐30F 10/09 13:24
michellehot: 只能說 LLM的資料集中國真的又多又好 台灣太晚跟上我2019-2021公司還在測試GPT2的時候 中文資料都是中國知乎、智庫等來的資料集 甚至還有清洗過31F 10/09 13:26
hsuchengmath: 這基本上是由對岸開發的LLM 再由繁體中文 fine tune下來的,34F 10/09 13:29
DrTech: 到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型才是真相吧。
語料根本不是問題,大廠都是拿全網訓練。中研院有沒有幾千張A100? 沒有的話,訓練出來的模型,不是充滿簡體中國知識,就是災難性遺忘到不能通用,二選一。36F 10/09 13:41
jay123peter: 傻眼...42F 10/09 14:07
drakd4d: 中研院這個真的盡力的,要是真的精通LLM英文又好怎麼會坐在中研院...早就在在美國了,除非中研院出得起一樣的錢這領域還願意待在中研院真的已經佛心了,資源差這麼多
OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣搞,不然這個問題最好有辦法靠幾個人就解決...43F 10/09 14:12
milk830122: 中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開源套出來的 嘻嘻48F 10/09 14:23
luckyalbert: 你看看建仁不就知道了?一堆偷拐搶騙的沒料仔空有偷來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓其他看不順眼的真才實料人們,真的一點也不意外,這件事跟這個模型早在多年前就有人提過,只是身為被上述人士各式政商台外商跨國企至中小企及研究學術單位及機構各式上述曾提及過的那些在位者們惡搞成身無分文的我及其他人,若在幾年前提這個,完全會被無視而且還會跟現在一樣,有問題的那些上述各式偷拐搶騙還延續孽種後代的髒東西,我已經講到爛掉,牠們在各式社會地位上的小人得志惡人得利者還會要你(我)檢討,是我有問題這種完全反了的造孽害人事,真的不知道到底哪來的資格可以說這些話,噁爛到炸
一整個反了
拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情,鬼島各產業職司上位的有某一堆都是這副鳥樣,中研院只是縮影,然後在其背後大力支持挖錢挖資源來提供協助的本身也眼殘腦殘無法分辨這些人在搞什麼,有某部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務及全民資源賺更多放自己口袋,來創造事業跟財富還有人脈及旗下跟班人馬再來讓自己某些人當皇帝,給低薪職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖乖聽話付出時間與人生換錢給他們累積各式延續上述皇帝後代來用,看多了你就知,以前大家是默默摸鼻子不說話,但現在真的誇張到凹過頭了,明眼人看到都會火,更不用提脾氣好的早就被這某些人惹火積冤多年,只能期待你我要求自己不要變得跟這些人一樣就好,世風日下劣幣驅逐良幣發展不是正向循環,鬼島這些年來環境變成這樣還真的不意外50F 10/09 14:39
rabbitu04: 笑死哈哈哈 借轉Joke版78F 10/09 14:50
luckyalbert: 任何產業裡面團隊有不論再用心付出想改變這種環境及各式產業人們發展往正面循環走下去的,看到這種狀況,心灰意冷到最後被逼著跟群體一起擺爛,真的不用意79F 10/09 14:53
DrTech: 真的,中研院這種薪資與經費,願意待的人,都是充滿熱誠的人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的人出去找工作,薪資與待遇,資源,成就,一定更好。83F 10/09 14:59
mangle: 哈哈哈啊86F 10/09 15:16
Csongs: 真的垃圾..87F 10/09 15:54
nikolas: 敢把這種程度東西上架 有沒有一點點工程師的羞恥心啊88F 10/09 15:54
Csongs: 看了推文,還是幫中研院的基層推回來89F 10/09 15:57
hobnob: 運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒抽到籤之外,還背上百萬學貸,只能拿那一點點薪水,做研究的熱忱都沒了,當web仔還比較有尊嚴90F 10/09 15:59
alan3100: 別說專業的 就一般政府裙帶企業也少碰 護城河很深93F 10/09 16:02
drakd4d: 結論就是做純軟或AI的塊逃啊,台灣根本沒那個環境...94F 10/09 16:11
luckyalbert: 護城河很深,在我原產業某些政商跨國企業及底下中小企裙帶的他們眼中,認為我不聽話(要我這種人,聽這些神經病群的,本來就是莫名其妙),各位有可能就會像我一樣原有在各式社會角色職業對各產業皆有助益的發展性,會被這些在位者小人們動各式手腳在裡頭,其他人看到我,那些想為我及跟我一樣的人們出聲的也會被整,希望各位不要碰到跟我一樣的經歷就好,他們目前也沒有要改變認錯贖罪道歉悔過的意思, 依然自認沒問題,可見生醫產業那背後水更深,如果各位科技業及軟工要幫生醫產業的人們做事,我希望各位一定要看清楚我原產業那些在位者們在做什麼,有些人當到老總含底下帶出來的年輕總…等手段更是惡劣及誇張95F 10/09 16:11
drakd4d: 要穩賺就是半導體IC而已,但這也要看美國還讓我們做多久107F 10/09 16:12
luckyalbert: 我很多老國高中同學朋友們很多都是走電資軟工的,我也跟他們說過我遇過的某些事情108F 10/09 16:14
acgotaku: 抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下110F 10/09 16:15
luckyalbert: 若提及美國的話,我是認為照他們現在的經濟環境,會先出手自保穩定程度佔比較大,其他國家發展後續他們目前應該沒餘力去顧111F 10/09 16:17
acgotaku: 爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎114F 10/09 16:17
fookafook 
fookafook:      luckyalbert Salary板 永桶 https://0rz.tw/Hkk63115F 10/09 16:54
fookafook:  luckyalbert medstudent板 永桶 https://0rz.tw/iDASV
fookafook 
fookafook:          Gossiping板 水桶210天 https://0rz.tw/T5loZ117F 10/09 16:54
luckyalbert: 可憐,有不知道哪來的神經病開分身又在那瘋了,請直接無視即可,我原產業及其他某些人躲在ID後面的護城河還真深,請直接無視,我長期提及過的,以後不想再提,換成是各位以後碰到跟我這些年來一樣的狀況時,才會理解這些小人有多沒人的下限可言118F 10/09 18:20
wayne2002323: 大談123F 10/09 18:48
Dracarys: @truehero 台灣不是國,哪來的總統124F 10/09 19:39
viper9709: 中研院也搞這個...125F 10/09 20:46
andy0219: 廢到笑XDDD126F 10/09 21:06
milk830122: 黑單他就好跟他討論是浪費時間127F 10/09 21:33
popeye0303: 抱歉家裡失業6年精障 最近燥期到了 怎樣都壓不住 請大家多擔待
https://bit.ly/3Q5LUxO128F 10/09 22:46
Re: [亞洲] 日本法務轉職心得分享 - 看板Oversea_Job - PTT網頁版 原文恕刪. 此篇回應主要是. 1. 恭喜樓主轉職成功. 2. 奉勸樓主別把時間浪費在回luckyalbert. 3. 打臉luckyalbert. 抱歉啊albert剛好在等烘衣機 無聊所以來打你的臉了. 1. 首先恭喜ayutaksko. 我也好想在日本工作 可是真的語文天份差. 大學選修過日文也 ...

 
kurtsgm: 其實看推文就知道某些人有病了吧..131F 10/09 22:49
tswperfect: 對岸是沖繩嗎132F 10/09 23:15
kurtsgm: 美西吧(X)133F 10/09 23:42
Bujo: 說不定這個是外包做的,裡面的研究員都是草包134F 10/09 23:47
Lhmstu: 笑死www135F 10/10 01:19
TSMCfabXX: 把台積電輪班星人通通調去標記清理資料,
幾年之後國產LLM問世了, 請問能賣多少錢136F 10/10 06:39
yuinami: 太誇張138F 10/10 09:35
w28103566: 笑死139F 10/10 10:09
hobnob: 好可憐,有病的人快找人幫忙吧140F 10/10 13:07
mocca000: 體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有說明有用到Atom-7b 就下架趕快拿掉就好了 加油141F 10/10 16:56
hippo130: 這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣143F 10/10 21:13
mocca000: 哪個國家不用政治sense?中國嗎?144F 10/10 21:49
dalbuhr: 資工系學生:教授為什麼要禁止抄作業呢145F 10/11 11:27
newking761: 阿不然勒,要不要看經費多少啊146F 10/12 21:45

--
作者 gaymay5566 的最新發文:
點此顯示更多發文記錄