※ 本文為 e6148532 轉寄自 ptt.cc 更新時間: 2014-05-02 01:57:09
看板 Gossiping
作者 標題 Re: [爆卦] 混淆網軍監測的方法 (代po)
時間 Fri May 2 00:06:27 2014
※ 引述《Lavchi (拉維奇)》之銘言:
: 其實還有一種法方
: 你要知道實其人類對於讀閱是有強大的適應力
: 根據研究指出,中文字的序順並不會響影閱讀
: 所以可以在召號文裡面故意把序順倒顛
: 例如把「包圍總統府」變成「包圍統總府」
: 死宅宅工程師寫出來的式程是死的 人腦才是活的
: 版權沒有 隨意錄轉
: 引用或轉錄得記附上作者 Lavchi 即可 謝謝
雖然我是偽Google,但還是要宣揚一下正確觀念
各位資訊人大學時代有修過 information retrieval 就知道
information retrieval 會處理 順序 錯字 別名
因此原PO說要改順序 這麼做是無效的 (你可以試著搜尋看看)
統總府:http://goo.gl/D6hyCz (順序錯仍會辨識成正確順序)
國民擋:http://goo.gl/22riqO (打錯字仍會辨識成正確名稱)
KMT: http://goo.gl/WgwNNp (用別名仍會辨識出通俗名稱)
也有人認為加空白沒有用只要把空白清掉就好 應該加符號
↑這也是錯誤想法
事實上
1. information retrieval 建 index 時就會把符號去除
這也是為什麼我們無法用搜尋引擎搜尋符號
例如搜尋逗號:http://goo.gl/iiAg6Q
一般我們如果想搜尋特殊符號時
會使用該符號的名稱,如:wildcard sharp dollar sign 等
2. information retrieval 建 index 時並不會把空白去掉
"this is a book"
清掉空白變成 "thisisabook"
那還建什麼index?
所以說,加空白其實是目前較好的做法
加空白會讓搜尋變困難 (只是變難但不是找不到)
以上提供給各位參考
(小魯只是在大學部修過一學期的課而已,有錯的話請各位先進指正了)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.27.78.169
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398960390.A.3B4.html
※ 同主題文章:
05-01 23:19 ■ [爆卦] 混淆網軍監測的方法 (代po)
05-01 23:29 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-01 23:48 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
● 05-02 00:06 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 00:36 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 00:41 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 01:43 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
→ :國 民 黨 馬 英 無 限 期 支 持 台 灣 獨 立 總 統 腐1F 05/02 00:07
推 :還 滿 屌 的2F 05/02 00:07
→ :理論而已 我想能做到的世界上只有google有機會3F 05/02 00:08
推 :你拿google和接政府案子的計劃比,會不會太兇悍了4F 05/02 00:09
推 :你舉的是搜尋,如果被搜尋也會這樣嗎5F 05/02 00:09
→ :ufoon大 是先知阿 原來他早知道 (跪)6F 05/02 00:09
推 :你拿中文去空白看看7F 05/02 00:09
→ :問題是鴿子沒有GOOGLE的技術 別擔心8F 05/02 00:09
→ :改成代號就好了 ma in 9 死 爛 蛆 舔 支 那 賣 歹 灣9F 05/02 00:09
推 :倒果為因 google輸入總統府會跑出總府統嗎?10F 05/02 00:09
打什麼能搜到什麼 就表示這兩個詞是同義的 是連在一起的
至於會不會跑出來 這是順序的問題 只要那個網頁夠重要就會在越上面
不然可以請總統府明天把網頁標題改成"總府統"
可以跟你保證搜尋總統府還是出現這個網站
→ :不過要是騙得過google,幾乎等於騙過大部份系統了11F 05/02 00:09
推 :我不太相信政府寫的程式對中文辨別有做得那麼好12F 05/02 00:09
推 :手倉 斃 ma IN 救13F 05/02 00:09
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:11:47→ :就算有也會有正確順序的垃圾資訊跑出來給黨工看14F 05/02 00:10
推 :瑪瓔韮陋釢15F 05/02 00:10
推 :寫直的,直式書寫。16F 05/02 00:10
推 :中文的IR要做得好 我看他們沒那技術XD17F 05/02 00:11
推 :a83 u/ ru.3 vu84 w9618F 05/02 00:12
→ :這樣搜尋的到嗎?
→ :這樣搜尋的到嗎?
Yahoo 有做注音這塊 不過目前 Google 好像還沒有 XD
但我相信政府的系統應該不會做啦XDDDDD
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:14:03
→ :推 應該還是加空白比較有用20F 05/02 00:13
→ :既然符號會清掉⑨代替9如何21F 05/02 00:14
→ :DELETE FROM *22F 05/02 00:14
推 :原來如此23F 05/02 00:14
推 :政府外包的那種案子跟google比太嚴苛了24F 05/02 00:15
推 :木倉~sha~M阿~英~nine 手丁~人到~國~民~黨25F 05/02 00:15
推 :我猜上一篇的做法,是針警方只拿到純文字檔,自己做前處理26F 05/02 00:15
推 :其實...有做,而且比你們想的都還強27F 05/02 00:15
→ :CKIP我覺得是拿來練IEEE的 最後還是去編字典 苦情阿~28F 05/02 00:16
→ :團隊裡鄉民不少,而且都很聰明,尤其對網路使用者的習性29F 05/02 00:16
我錯了QQ 真的有做
http://goo.gl/mV0ugN
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...
→ :有人要開發PTT直行文轉換器嗎XD30F 05/02 00:16
推 :覺得很可悲,台灣的網路居然也像中國一樣要一堆符號了..31F 05/02 00:16
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:17:40→ :以前看文章都還笑他們的,今天我們的台灣也...QQ32F 05/02 00:17
推 :我去年買了個錶 這樣子?33F 05/02 00:17
假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset - typeset.ipcn.org 假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset IPCN Windtear typeset.ipcn.org ...
→ :6719 6638 2876 1172 0149 9735F 05/02 00:19
推 :結果搞到後來,最簡單的方式其實就是換掉國民黨…36F 05/02 00:20
→ :不過雖然簡單但是如果○○○不覺醒也沒用
→ :不過雖然簡單但是如果○○○不覺醒也沒用
推 :其實順序有差的,你提的字都很少,排列組合極少38F 05/02 00:21
→ :用錯輸入法導出正確結果 是跑演算法加權出來的可能值40F 05/02 00:21
→ :給你一篇文章裡有100個詞的,根本無法正確組句41F 05/02 00:21
→ :稍微不怎麼熱門的字就不會有什麼正確結果42F 05/02 00:22
→ :而且google方法是紀錄你是否重新搜尋,建立詞與詞的聯結43F 05/02 00:22
推 :不能跟google比啦44F 05/02 00:22
→ :你多用幾個名詞試試看就知道大概都是沒有的45F 05/02 00:22
→ :才會有那種打e04連得到幹的情況,總之,滿複雜的46F 05/02 00:23
→ :2012年中有陣子稍微熱門的就是中文字代換英文字密碼47F 05/02 00:24
→ :因為某資安論壇開講公佈像第一名易破解的密碼叫
→ :"PASSWORD" 後來就有好多人認為中文輸入法代換可讀
→ :性的作法非常有密碼強度
→ :不然普遍西方人記密碼都是一些簡單的英文單字
→ :因為某資安論壇開講公佈像第一名易破解的密碼叫
→ :"PASSWORD" 後來就有好多人認為中文輸入法代換可讀
→ :性的作法非常有密碼強度
→ :不然普遍西方人記密碼都是一些簡單的英文單字
推 :所以橫轉直有用嗎?52F 05/02 00:27
→ :一個?萬字的字典就可以破掉30%人的密碼 太糟糕了53F 05/02 00:27
→ :所以夾雜數字會好一點嗎@@54F 05/02 00:28
→ :不過中文斷詞系統難做主要是因為英文單字相比55F 05/02 00:29
推 :所以順序+空白或是特殊符號會有加強效果嗎56F 05/02 00:30
→ :一句話很難判斷分拆字詞的點 只能靠詞性去組57F 05/02 00:31
→ :當然有阿 排列組合可以強化密碼強度 當然暴力破解
→ :當然有阿 排列組合可以強化密碼強度 當然暴力破解
→ :ㄋㄚˋ ㄓㄨˋ 一ㄣㄨㄣˊ ㄋ?59F 05/02 00:33
→ :以宏觀來看就是時間問題 不過時間能造成問題他就有效60F 05/02 00:33
→ :回到中文上 這種東西要靠量去擴充他的字典
→ :回到中文上 這種東西要靠量去擴充他的字典
推 :加*不行麼62F 05/02 00:35
→ :所以其實也不是做不到 我一直覺得PTT現在有網址生成65F 05/02 00:38
→ :方便站外連結就可以讓RSS讀 明顯降低門檻
→ :就是data mining的好材料
→ :方便站外連結就可以讓RSS讀 明顯降低門檻
→ :就是data mining的好材料
→ :夾雜數字呢@@?68F 05/02 00:40
→ :不必再拿程式爬 用現成的東西就好了69F 05/02 00:42
推 :推。不過我認為首要是資訊完整,如果因為怕人查,70F 05/02 00:44
→ :那資訊如何流通?
→ :那資訊如何流通?
→ :哦我覺得極權政府對於言論自由的箝制普遍有其針對性73F 05/02 00:54
→ :像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
→ :那這並不妨礙資訊流通阿 所以只要有專職人員監管
→ :將使用者們意識上代換的字詞做攔截 那其實也就跟正確
→ :的字詞無異(就多一個嘛) 這就是人的厲害之處
→ :程式就很難寫出這麼彈性的做法
→ :同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫
→ :養成這種怪習慣是怎麼來的?
→ :其實普遍網站的經營者手上都會有一份禁字表
→ :這不只是極權政府了 比如說兒童色情各式各樣的關鍵字
→ :經營者在登載資訊時就會避免這類字詞出現 像台灣
→ :禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字
→ :百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息
→ :你可以查到人山人海的圖片 可就查不到坦克車壓學生
→ :這才是真正的限制言論自由 真正的侵犯人權
→ :像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
→ :那這並不妨礙資訊流通阿 所以只要有專職人員監管
→ :將使用者們意識上代換的字詞做攔截 那其實也就跟正確
→ :的字詞無異(就多一個嘛) 這就是人的厲害之處
→ :程式就很難寫出這麼彈性的做法
→ :同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫
→ :養成這種怪習慣是怎麼來的?
→ :其實普遍網站的經營者手上都會有一份禁字表
→ :這不只是極權政府了 比如說兒童色情各式各樣的關鍵字
→ :經營者在登載資訊時就會避免這類字詞出現 像台灣
→ :禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字
→ :百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息
→ :你可以查到人山人海的圖片 可就查不到坦克車壓學生
→ :這才是真正的限制言論自由 真正的侵犯人權
--
※ 看板: Gossiping 文章推薦值: 1 目前人氣: 0 累積人氣: 1261
作者 Goog1e 的最新發文:
- 超秦肉品 就是嫩雞 椒麻雞胸肉 100g (效期至2025/03/07) 期間限定特價 NT$35 * 商品頁顯示 $69,結帳時會折扣成 $35 * 注意:此檔特價的口味是【椒麻】 * 全家行動購 …40F 22推 1噓
- 民進黨 threads 又發文啦! 沒道歉反而怪在野黨過度渲染 連青鳥都看不下去,目前炎上中 一堆支持者跳出來要求黨團約束小編,笑死354F 185推 22噓
- 死刑須一致決 黃國昌爆:30死囚評議簿已銷毀、勢必非常上訴 聯合報/記者林銘翰/台北即時報導 憲法法庭在今年9月宣判死刑部分合憲、限縮適用範圍,包含判處死刑須經各級法院合議庭法官一致決。民眾黨立法院 …206F 113推 3噓
- 很震撼的消息,目前還沒有新聞報導 37個死刑犯當中,有30個死刑犯當年合議庭的「評議簿」已經銷毀... 先說結論: 今天司法法治委員會去台北地方法院考察 考察後得到一個可怕的答案,30個死刑犯將會重 …970F 464推 115噓
- 20F 11推
點此顯示更多發文記錄
回列表(←)
分享