※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2019-09-19 10:01:20
看板 Gossiping
作者 標題 Re: [爆卦] Redmango已經卸任
時間 Wed Sep 18 19:16:17 2019
※ 引述《pponywong (pony)》之銘言:
: 這篇吵到現在 稍微給大家科普一下
: 要怎麼做人工AI篩選演算法
: 要把大量數據歸納成 簡單的指標 有幾個方法
: 一個是 PCA (principal component analysis) 主成分分析
: 一個是 FA (factor analysis) 因素分析
: 兩個方法很類似 一個是歸納(PCA) 一個是推導(FA)
: PCA 數學上來講就是 找出資料(關聯矩陣)的本徵值 本徵向量(eigenvalue, eigenvector)
對AI不熟,不過你講的內容應該只是資料分析
還是你指的是人工(Manual) AI(Artificial Intelligence)?
另外eigenvalue我們一般翻譯成特徵值
基本上如果要用AI來抓網軍
除了用爬蟲程式把ptt的文抓下來分析特徵(關鍵字,推發文時間等等)
標記(label)發推文特徵,還有紀錄登入ip、時間等等外
還有一個很重要的工作: 標註網軍(或是疑似網軍)
抓文爬蟲可以用程式,但是 標記(label)文章特徵則需要人去閱讀標記
不是少數一兩個人可以完成的工作
另一方面,如果是用檢查登入ip時間來找網軍作為訓練data還好
如果紅芒果是用人工來選出網軍(或是疑似網軍)的訓練data
那他們訓練出來的AI也不過是紅芒果二號罷了
--
The whole problem with the world is that fools and fanatics are
always so certain of themselves, but wiser people so full of doubts.
– Bertrand Russell
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.21.9 (臺灣)
※ 文章代碼(AID): #1TWX8CHc (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1568805388.A.466.html
※ 同主題文章:
09-17 15:42 ■ [爆卦] Redmango已經卸任
… ×28
09-18 17:17 ■ Re: [爆卦] Redmango已經卸任
09-18 18:00 ■ Re: [爆卦] Redmango已經卸任
09-18 18:07 ■ Re: [爆卦] Redmango已經卸任
09-18 18:14 ■ Re: [爆卦] Redmango已經卸任
09-18 18:48 ■ Re: [爆卦] Redmango已經卸任
● 09-18 19:16 ■ Re: [爆卦] Redmango已經卸任
09-18 22:12 ■ Re: [爆卦] Redmango已經卸任
09-19 01:56 ■ Re: [爆卦] Redmango已經卸任
→ : 有疑問怎麼不自己做一隻來掃1F 114.136.172.122 台灣 09/18 19:18
推 : 就是人工標記啊2F 101.9.227.158 台灣 09/18 19:18
→ : factor analysis的分群定義是人為的
→ : factor analysis的分群定義是人為的
推 : 我們做不到阿,紅芒果用的事什麼黑科技?4F 36.234.27.106 台灣 09/18 19:19
→ : 開放程式碼讓高手檢定一下阿
→ : 開放程式碼讓高手檢定一下阿
推 : 工人演算法,真人工、智慧6F 223.136.70.27 台灣 09/18 19:19
→ : 資料分析只是分群 但群的命名時人工7F 101.9.227.158 台灣 09/18 19:19
→ : 的
→ : 的
推 : 標記也自動化就好 只有一開始要人工分9F 59.120.184.171 台灣 09/18 19:20
→ : 析出幾個確定異常的ID然後以這些ID為種
→ : 析出幾個確定異常的ID然後以這些ID為種
推 : 另一邊是科技被耽誤了二十年嗎?=_=11F 27.242.35.9 台灣 09/18 19:21
→ : 子找出有相同特徵的一整串出來12F 59.120.184.171 台灣 09/18 19:21
→ : 標記都是事後的 PCA FA只能進行分群13F 101.9.227.158 台灣 09/18 19:21
推 : 他又不是真的要抓,只是當作鬥爭工具14F 36.225.76.30 台灣 09/18 19:21
→ : 事後針對群的特質再下分組15F 101.9.227.158 台灣 09/18 19:21
→ : 當然要訓練紅芒果二號,不然抓到自己16F 36.225.76.30 台灣 09/18 19:22
推 : 沒辦法解釋相同條件為什麼我標誌它沒有標誌17F 36.234.27.106 台灣 09/18 19:22
→ : 人怎麼玩18F 36.225.76.30 台灣 09/18 19:22
→ : 命名群也沒有一定標準19F 101.9.227.158 台灣 09/18 19:22
→ : 不同人去命名 會有不同得結論
→ : 不同人去命名 會有不同得結論
→ : 紅芒果1號就是沒有任何規律的標誌21F 36.234.27.106 台灣 09/18 19:23
→ : 有種把標籤的都送檢舉22F 180.204.98.252 台灣 09/18 19:23
→ : 這不就是類似美國的自動指標分享系統的23F 114.47.219.130 台灣 09/18 19:23
→ : 低階版?
→ : 低階版?
推 : 代PO那邊有講了25F 114.25.184.166 台灣 09/18 19:23
看起來的演算法就是人工(Manual) AI找幾個"自認為重要的特徵",然後造一個函數產生一個數值(社會信用評分?)
權重調整到可以抓到我認為的網軍就 PERFECT
如果發現某個id網軍分數高,但是掃ip記錄抓不到把柄不能處理
就是因為這些網軍很狡猾,列入神奇id
→ : 這不是說明用人工嗎? 還扯什麼文字雲26F 36.234.27.106 台灣 09/18 19:23
→ : 有學過多變量的 都知道這種分析不適27F 101.9.227.158 台灣 09/18 19:24
→ : 合當黃金標準 只能進行有限度的歸納
→ : 合當黃金標準 只能進行有限度的歸納
推 : 特徵值 資料是人工餵的29F 114.136.131.101 台灣 09/18 19:25
→ : a板説他用文字雲 R自己說他用算的30F 101.9.227.158 台灣 09/18 19:25
→ : 資料處理出來的還是資料 還是看人怎麼解讀/31F 118.167.44.219 台灣 09/18 19:26
→ : 利用
→ : 利用
→ : 要不特徵是選過的 要不程式有bug 老實說33F 114.136.131.101 台灣 09/18 19:26
→ : 有bug機率實在不低
→ : 而且特徵分析有誤判也是常見 把抓出來的
→ : 有bug機率實在不低
→ : 而且特徵分析有誤判也是常見 把抓出來的
推 : 資料是保守推論用的 不是拿來鬥人的36F 101.9.227.158 台灣 09/18 19:28
→ : 我出差或出國玩罵柯文哲就變跳板幫了 白癡37F 1.171.7.72 台灣 09/18 19:28
→ : 然後這種沒公開的程式又有輸入帳密的 要小38F 118.167.44.219 台灣 09/18 19:28
→ : 心使用 更尤其不是從原作者地方下載的 說不
→ : 定你的帳號不知不覺也幫忙做了資料蒐集
→ : 心使用 更尤其不是從原作者地方下載的 說不
→ : 定你的帳號不知不覺也幫忙做了資料蒐集
→ : 回國後罵就變成"發現被盯上後改用台灣IP"41F 1.171.7.72 台灣 09/18 19:29
→ : 而且特徵分析有誤判也是常見 把抓出來的42F 114.136.131.101 台灣 09/18 19:30
→ : ID定罪真的很有腦
→ : ID定罪真的很有腦
推 : 很明顯就人工作業44F 101.9.147.36 台灣 09/18 19:31
※ 編輯: perceval (140.116.21.9 臺灣), 09/18/2019 19:41:10推 : 所以才要整套公布啊45F 114.137.91.83 台灣 09/18 19:42
推 : 對 所以有反應過以大量分身為主 其他取消46F 114.25.184.166 台灣 09/18 19:46
→ : 但他可能認為把難堪字眼帳號列入影響視覺
→ : 這就不夠中立 本身準確性就會被打入問號
→ : 但他可能認為把難堪字眼帳號列入影響視覺
→ : 這就不夠中立 本身準確性就會被打入問號
→ : 我的話應該沒有使用過什難聽的字眼49F 218.166.23.198 台灣 09/18 19:58
→ : 但是還被列入
→ : 個人認為是比較針對性的像柯學啦
→ : 但是還被列入
→ : 個人認為是比較針對性的像柯學啦
推 : 已經先入為主認為反柯的都是網軍才這樣搞52F 104.32.182.180 美國 09/18 20:15
→ : 我自己避免啥屎尿糞的字眼 他們大概手動
→ : 放我 或是那奇怪的刪舊文搜尋吧
→ : 我自己避免啥屎尿糞的字眼 他們大概手動
→ : 放我 或是那奇怪的刪舊文搜尋吧
→ : 要中立就raw data train個幾次來看55F 114.137.91.83 台灣 09/18 20:22
推 : 罵綠營的文字雲都是難聽子眼還重複IP倒56F 101.9.26.130 台灣 09/18 20:23
→ : 是連一點標記都沒有
→ : 是連一點標記都沒有
→ : 手動的啦 在手機板惹到他就被標智障了58F 220.133.14.178 台灣 09/18 20:43
推 : 我覺得alans說的u可能59F 59.127.190.36 台灣 09/18 23:23
→ : 因為帳號頻繁去Q別人會被踢下線Ban IP
→ : 因為帳號頻繁去Q別人會被踢下線Ban IP
噓 : 拜託各位去抓網軍 不要讓紅芒果獨領風騷61F 1.171.66.55 台灣 09/19 03:17
我們現在就在抓紅芒果這個網軍啊你為甚麼要坦護他,你是不是他團隊的一個
※ 編輯: perceval (140.116.21.9 臺灣), 09/19/2019 03:25:24
--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 84
作者 perceval 的最新發文:
- 19F 4推 2噓
- 1.轉錄網址︰ 2.轉錄來源︰ 劉宇(四叉貓) 3.轉錄內容︰ 【問卦】 為什麼十月底販售的帳號(20000元) 11月開始在PTT八卦版每篇發文都會被推爆呢? 真有趣(笑) 4.附註、心得、想法︰ …77F 34推 7噓
- 新竹市長選戰激烈「割喉」廝殺大亂鬥!選前關鍵時刻,國民黨候選人林耕仁昨再重磅爆 料「吹哨者」所提供內部資料,指控民眾黨對手高虹安涉嫌詐領助理加班費,疑違法挪用 公款作為私人「小金庫」,要求高應出面說明 …311F 111推 42噓
- 我覺得侯團隊應該是沒料到有人會先下載錄音還傳給媒體 然後居然有媒體(鏡周刊、CoCo)沒辦法擺平 在侯市長拒絕給恩恩爸錄音檔時,應該就已經加密不讓人下載了 所以吹哨者如果在那之後才想下載會失敗 也就是 …150F 26推
點此顯示更多發文記錄
1樓 時間: 2019-09-19 10:57:40 (台灣)
→
09-19 10:57 TW
噓 RD5566: 拜託各位去抓網軍 不要讓紅芒果獨領風騷61F 1.171.66.55 台灣 09/19 03:17 我們現在就在抓紅芒果這個網軍啊 你為甚麼要坦護他,你是不是他團隊的一個
回列表(←)
分享