※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-10-04 09:49:21
看板 Gossiping
作者 標題 [爆卦]發文門檻研究
時間 Thu Oct 4 05:13:59 2018
※註:有電視或媒體有報導者,請勿使用爆卦!
無重大八卦請勿使用此分類,否則視同濫用爆卦鬧板(文章退回、水桶6個月)
未滿30繁體中文字 水桶3個月
未滿30繁體中文字 水桶3個月
先前板上在討論增加發文門檻
我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的
何不做個資料分析,探討這項政策會帶來的效應。
我針對今年7/1到9/19(政策實施前)的所有文章進行爬取,再從ID公開資訊爬取各篇作者
的登入次數
做相關性的研究。
不囉嗦,先上結論
https://imgur.com/BG1h7AP.jpg
把作者分為登入次數<700,與登入次數>700兩組
結果顯示,登入次數少的作者得到的認同度(推 - 噓)顯著較低。被噓文次數顯著較高。
文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。
文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。
另外,增設700登入次數的門檻,會使八卦板流失12.37%發文作者,與12.65%文章。
------------------------以下詳細數據與分析方法-------------------------------
我用Python scrapy從網頁板PTT爬取文章
用Python telnet爬取作者登入次數。登入次數是動態的,而我在事後爬取,爬取時間是
9/30
所以與那些作者真正寫文章的時間(7~9月)有最多90次的誤差。這是本研究無可避免的限
制。
https://imgur.com/8TtCeqy.jpg
從流程圖可知,扣除網路因素、文章格式因素導致的爬取失敗,我們已捕捉93.2%作者與
84%文章。資料品質應該夠好了。
接著我們將資料匯入SAS 9.4做統計與資料視覺化。
我們計算每個作者的總發文次數、個人平均推、噓、箭頭次數,個人平均認同度、討論度
。
如下圖,每筆資料為一位作者的總結。
(所以你會看到推文數有小數點,因為那是該作者的個人平均)
https://imgur.com/nXKYh5j.jpg
之後的分析都將以"作者"為單位,而非"文章"。
首先,我們要注意,這個資料非常"偏"(skew)
以發文次數為例
下圖,上半部是我從常態分布模擬出來的樣本,是一個對稱的分布。平均值與中位數很接
近。
下半部是真實資料的作者發文數。平均和中位數差了近8篇文章。
https://imgur.com/gkxGV3V.jpg
這就說明大部分人發文在2篇左右,可是有少數人發了很多篇,把平均拉高了。
這時候如果還用平均數來總結這個資料,就會忽視真正廣大的族群。
因此之後的分析,我們將把重點放在中位數。
再跟大家介紹怎麼看箱型圖(Boxplot)
https://imgur.com/lQZbrEx.jpg
Q1是第一四分位數,也就是有25%的人低於這個數。可以反映出"底層"的情況
Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。
Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。
下圖呈現登入次數<700與>700兩組的各項數值差距。
可以注意中位數跟平均有很大的落差。這就是先前說的,這份資料很偏。
https://imgur.com/gb8i7a0.jpg
根據Wilcoxon Two-Sample Test(檢驗中位數差異)
兩組在噓文數有顯著差異 (p < 0.0001),在認同度有顯著差異 (p < 0.0001)
也就是說,登入次數<700那組較常被噓,推文 - 噓文的數值也較低。
接著,我們撇開700門檻這個政策,巨觀來看登入次數與文章品質的關係。
首先皮爾森相關係數(Pearson Correlation Coefficients)告訴我們
登入次數與認同度是顯著(p < 0.0001)正相關的(r = 0.05156)。
也就是說,登入越多次,容易拿到更多推(或更少噓)。
把作者以1000次登入為單位,分成6個組別
1~1000
1000~2000
2000~3000
3000~4000
4000~5000
5000+
如下圖
https://imgur.com/hG7HY0W.jpg
https://imgur.com/jpPFHNQ.jpg
可以看到認同度隨登入次數上升
討論度在第一組比較高,之後下降,又上升。
我們知道登入次數<700的組別,其噓文數顯著較高,所以這邊的討論度應該是被"噓"出來
的。
整體而言,認同度與討論度都隨登入次數增加而增加。
值得注意的是,隨登入次數提高,認同度的Q1和中位數只有些許上升,而平均和Q3卻大幅
上升,這表示
其實不管登入次數多少,大多數人的文章並沒有什麼差別。是較右邊的組別,有少數人在
拉高整體素質。
所以作為一介平庸的鄉民,我們也不要太歧視菜鳥。畢竟我們的整體文章品質會好,主要
是來自跟我們同組的神人大大們。
補充各門檻的保留作者比例
https://imgur.com/uKXKXOx.jpg
如果把門檻定在1000,板上會剩下76%作者。
定在2000,則會剩下45%作者。
所以訂高門檻確實可以提高文章認同度,可是同時也會流失許多作者。
同場加映
經濟狀況與文章認同度
https://imgur.com/R89ZhRG.jpg
這讓我很訝異,相關性似乎比登入次數更高...
以後說不定也可以用經濟狀況來定門檻(誤~)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.71.70
※ 文章代碼(AID): #1RjJ4PeD (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1538601241.A.A0D.html
→ : 有夠閒給推1F 61.58.87.4 台灣 10/04 05:14
推 : 樓下看懂惹ㄇ2F 101.15.63.52 台灣 10/04 05:15
推 : 太長3F 180.177.121.237 台灣 10/04 05:16
推 : 少惹很多肥宅文就是惹4F 101.15.63.52 台灣 10/04 05:19
推 : 結論要更清楚一點方便閱讀5F 114.137.88.83 台灣 10/04 05:19
推 : 懶人包:登入次數越多的作者發文與文章6F 61.58.87.4 台灣 10/04 05:20
→ : 討論度呈正相關
→ : 討論度呈正相關
推 : 不要浪費才能8F 93.117.249.43 荷蘭 10/04 05:21
→ : 但是數據顯示大部份人並沒有因為登入次9F 61.58.87.4 台灣 10/04 05:21
→ : 數獲得更高的發文討論度
→ : 反而是靠一些優秀作者在撐
→ : 數獲得更高的發文討論度
→ : 反而是靠一些優秀作者在撐
推 : 結論:看人12F 101.15.63.52 台灣 10/04 05:22
推 : 推認真(?13F 101.13.245.218 台灣 10/04 05:22
→ : 另外持有P幣數量也與發文討論度呈正相14F 61.58.87.4 台灣 10/04 05:22
→ : 關 非常有趣
→ : 關 非常有趣
推 : 推16F 36.230.205.64 台灣 10/04 05:23
推 : 哈哈哈哈統計給推17F 129.67.118.224 英國 10/04 05:27
推 : 看人啦18F 180.217.175.68 台灣 10/04 05:28
→ : 會不會有生存者偏差(?)19F 129.67.118.224 英國 10/04 05:28
推 : 所以看起來 提高門檻會有顯著文章數降低20F 1.175.81.178 台灣 10/04 05:29
→ : 但文章品質跟推文品質並沒與登入次數無
→ : 正關連性?
→ : 但文章品質跟推文品質並沒與登入次數無
→ : 正關連性?
噓 : END23F 61.228.158.210 台灣 10/04 05:32
推 : 太長 在八卦版不要發超過二頁好嗎24F 122.121.96.228 台灣 10/04 05:34
推 : 啊就發錢文太多啊 也沒發到家產清空25F 118.169.185.60 台灣 10/04 05:34
推 : 讚26F 114.137.222.206 台灣 10/04 05:36
推 : 笑死27F 101.13.247.16 台灣 10/04 05:39
→ : 所以結論是?28F 49.216.142.121 台灣 10/04 05:40
推 : 可以順便比較一下IP國籍的推噓比29F 98.248.208.99 美國 10/04 05:41
推 : 這真的浪費才能30F 49.216.146.226 台灣 10/04 05:42
推 : 窮人沒發文的權益 批踢踢搞貧富歧視(叭叭31F 175.180.249.8 台灣 10/04 05:42
推 : 經濟狀況就經驗值相關32F 31.13.189.90 美國 10/04 05:50
→ : 就算靠賭盤來的也是經驗
→ : 就算靠賭盤來的也是經驗
推 : 太強了哈哈34F 42.76.215.59 台灣 10/04 05:53
推 : 最後應該是因為有錢常發錢認同度高?35F 36.225.50.178 台灣 10/04 05:54
推 : 發錢文根本都垃圾36F 114.36.62.105 台灣 10/04 05:57
→ Wand …
推 : 很有趣,不過應該要排除發錢溫才能得到38F 114.37.141.128 台灣 10/04 06:13
→ : 更真實的結果
→ : 更真實的結果
推 : 認真給推40F 111.248.22.173 台灣 10/04 06:18
推 : 我說那叫推文風格,有事電話給我41F 59.115.87.31 台灣 10/04 06:23
推 : 推分析42F 180.217.184.166 台灣 10/04 06:28
推 : 推分析43F 149.142.103.175 美國 10/04 06:30
推 : 乖乖做研究卻不要浪費才能 XDDD44F 95.91.249.151 德國 10/04 06:37
推 : ==45F 115.82.64.28 台灣 10/04 06:38
推 : 我不同意 文章品質 跟 推-噓 有正向關聯46F 24.5.143.254 美國 10/04 06:38
推 : 文章如果跟風向發 推文數自然就多
→ : 但這會降低八卦版上文章的多樣性
→ : 提升門檻的風險就是搞得文章歧異度更低
推 : 文章如果跟風向發 推文數自然就多
→ : 但這會降低八卦版上文章的多樣性
→ : 提升門檻的風險就是搞得文章歧異度更低
→ : 要做風向分析要碰NN吧…有夠麻煩50F 61.58.87.4 台灣 10/04 06:41
→ : 也不用想那麼複雜 你就想版上文章如果都51F 24.5.143.254 美國 10/04 06:42
→ : 是一面>10推 這肯定是有問題的
→ : 是一面>10推 這肯定是有問題的
推 : 推分析53F 193.52.24.38 法國 10/04 06:43
→ qazsedcft …
→ : 這世界上很少大議題是沒有激烈正反辯論55F 24.5.143.254 美國 10/04 06:43
→ : 不過我倒是對於那兩個Python tool 感興趣
→ : 不過我倒是對於那兩個Python tool 感興趣
推 : 嗯~ 我到底看了什麼 (推眼鏡57F 123.195.173.162 台灣 10/04 06:45
推 : 乖乖做研究不要浪費才能啦XD58F 1.200.49.20 台灣 10/04 06:50
推 : ㄜ哈哈哈厲害59F 49.217.52.15 台灣 10/04 06:52
推 : 羡慕60F 42.77.119.11 台灣 10/04 06:52
推 : 你研究報告做這個好了61F 101.9.135.217 台灣 10/04 06:52
推 : 推62F 39.8.9.44 台灣 10/04 06:53
推 : 我怎麼覺得沒有很顯著差異64F 160.39.240.94 美國 10/04 07:05
推 : 就是哆啦王和馬雅人這些鄉民在拉高分數65F 111.71.78.12 台灣 10/04 07:06
推 : 推66F 101.14.140.222 台灣 10/04 07:06
推 : 推67F 27.52.33.199 台灣 10/04 07:16
推 : 你的生統老師知道你在這裡發廢文嗎68F 111.83.54.191 台灣 10/04 07:21
推 : 反正繼續提高黨工繼續買帳號來 反而正69F 49.215.227.122 台灣 10/04 07:22
→ : 常人都被擋下來 呵呵
→ : 常人都被擋下來 呵呵
推 : 厲害71F 180.217.133.15 台灣 10/04 07:26
推 : 推72F 114.187.193.88 日本 10/04 07:27
噓 : 做這個研究73F 114.24.113.30 台灣 10/04 07:30
→ : 就是想消滅少數意見吧XD
→ : 要不要乾脆推出身分標籤
→ : ID前面有個符號之類的
→ : 這樣還沒看文章就知道該噓該推
→ : 就是想消滅少數意見吧XD
→ : 要不要乾脆推出身分標籤
→ : ID前面有個符號之類的
→ : 這樣還沒看文章就知道該噓該推
噓 : 恩恩78F 223.139.75.211 台灣 10/04 07:30
推 : 還蠻有意思的79F 49.197.215.115 澳大利亞 10/04 07:30
推 : 門檻提高 測風向大師文佔比跟著提高80F 42.76.94.137 台灣 10/04 07:31
推 : 其實真要操作幾個人就可以了81F 58.115.19.33 台灣 10/04 07:33
→ : Ethan 的FB 有個人Lin Lin 一直法不重要
→ : 的文洗版,等人少再補殺人文章
→ : Ethan 的FB 有個人Lin Lin 一直法不重要
→ : 的文洗版,等人少再補殺人文章
推 : 認同度 □新聞.FB.爆掛 不太能算在ID上84F 61.227.192.55 台灣 10/04 07:38
推 : 推85F 223.140.115.3 台灣 10/04 07:40
推 : 很有意思,但是浪費才能。86F 118.167.127.126 台灣 10/04 07:40
推 : 推87F 49.218.114.83 台灣 10/04 07:43
推 : 推88F 223.140.39.1 台灣 10/04 07:43
推 : 這蠻有趣的89F 114.37.139.46 台灣 10/04 07:45
推 : 一文下重複推噓 應該只記一次; 另,發錢=賄選90F 111.251.77.1 台灣 10/04 07:47
推 : 有點厲害91F 114.41.165.236 台灣 10/04 07:48
推 : 推92F 49.216.183.236 台灣 10/04 07:55
推 : 推93F 182.234.203.248 台灣 10/04 07:55
推 : 推推推推推94F 1.174.136.184 台灣 10/04 07:56
推 : 推95F 42.72.252.98 台灣 10/04 07:57
推 : 認真給推96F 180.204.226.62 台灣 10/04 08:10
推 : 滿厲害的!!97F 111.83.48.100 台灣 10/04 08:10
推 : r=0.05 滿少的耶 這也表示網軍沒那麼多98F 153.235.106.205 日本 10/04 08:10
推 : 推研究精神99F 111.242.206.17 台灣 10/04 08:11
推 : 推100F 36.224.142.246 台灣 10/04 08:11
推 : 太神拉101F 111.249.8.60 台灣 10/04 08:12
推 : 看得懂給推102F 110.54.179.8 菲律賓 10/04 08:21
推 : 推 認真103F 14.0.226.254 香港 10/04 08:21
推 : 有錢說的話才有人聽 就是這個意思104F 223.137.186.232 台灣 10/04 08:21
推 : 讚105F 114.136.208.101 台灣 10/04 08:22
推 : 推106F 42.75.209.226 台灣 10/04 08:23
推 : 沒空107F 61.228.178.111 台灣 10/04 08:24
推 : 推推推108F 36.227.76.85 台灣 10/04 08:26
推 : 促咪109F 140.113.104.45 台灣 10/04 08:26
推 : 統計廢文數量與質量110F 118.171.173.17 台灣 10/04 08:27
推 : r^2=0.0025 能解釋的變異量也太低了111F 211.75.47.181 台灣 10/04 08:28
推 : 幹 浪費才能哈哈112F 114.136.47.6 台灣 10/04 08:29
推 : 專業推113F 115.82.69.65 台灣 10/04 08:31
推 : 跟我想的一樣114F 101.13.21.36 台灣 10/04 08:32
推 : 你統計系?115F 1.160.125.30 台灣 10/04 08:33
推 : 認真給推116F 49.216.140.199 台灣 10/04 08:38
推 : 浪費才能 精神給推117F 140.96.46.94 台灣 10/04 08:39
→ : 哈哈118F 42.77.78.18 台灣 10/04 08:41
推 : 太猛119F 223.140.2.139 台灣 10/04 08:42
推 : 統計推推120F 220.136.1.65 台灣 10/04 08:43
推 : 猛121F 101.14.231.68 台灣 10/04 08:48
→ : 你是不是來ppt找工作的?122F 36.229.247.15 台灣 10/04 08:50
推 : 好強 借問那間學校123F 111.71.101.74 台灣 10/04 08:50
→ : Ptt*124F 36.229.247.15 台灣 10/04 08:50
推 : 看發文沒什麼用,主要是推文部隊125F 111.71.94.186 台灣 10/04 08:51
→ : 建議應該是針對50推以上文章
→ : 建議應該是針對50推以上文章
推 : 幹結論到底是什麼啦127F 42.73.50.183 台灣 10/04 08:52
→ : 看底下推噓文的那些id帳號128F 111.71.94.186 台灣 10/04 08:53
→ : 是不是都以登入次數少於700居多
→ : 這樣就可以大致判定出是否真的有
→ : 是不是都以登入次數少於700居多
→ : 這樣就可以大致判定出是否真的有
推 : ptt也來搞資本主義131F 101.14.224.5 台灣 10/04 08:53
→ : 推噓文部隊在帶風向132F 111.71.94.186 台灣 10/04 08:54
推 : 好文133F 114.136.139.221 台灣 10/04 08:54
→ : 反過來看噓文X2以上的應該也能判斷出134F 111.71.94.186 台灣 10/04 08:55
推 : 經濟狀況認同度高可能跟發錢文有關135F 220.133.124.44 台灣 10/04 08:55
→ : 如果進一步鉤稽推爆跟噓爆文的議題136F 111.71.94.186 台灣 10/04 08:56
→ : 應該可以更明確看出有特定立場部隊
推 : 像之前每星期固定會有一篇仇甲文推爆
→ : 門檻提高後消失了一陣子直到這星期
→ : 應該可以更明確看出有特定立場部隊
推 : 像之前每星期固定會有一篇仇甲文推爆
→ : 門檻提高後消失了一陣子直到這星期
推 :140F 211.76.92.72 台灣 10/04 08:58
→ : 你說這背後沒有推文帳號部隊也太剛好141F 111.71.94.186 台灣 10/04 08:59
推 : 推142F 1.46.79.107 泰國 10/04 08:59
→ : 乾~領500、5毛的黨工剛好是貧窮那群XDD143F 180.217.217.183 台灣 10/04 09:00
推 : 典型冪分佈 滿合理的144F 114.47.22.24 台灣 10/04 09:01
推 : 浪費才能!145F 42.76.233.114 台灣 10/04 09:02
推 : 殺小.....XDDDDD146F 117.19.197.222 台灣 10/04 09:06
推 : 推XDD147F 61.222.241.157 台灣 10/04 09:07
推 : 下一篇 政治文與登入次數的關係148F 223.140.121.170 台灣 10/04 09:07
推 : 發sci 了啦149F 223.139.163.6 台灣 10/04 09:07
推 : 乾 專業什麼啦?150F 111.71.92.148 台灣 10/04 09:14
推 : 怕.jpg151F 180.177.113.238 台灣 10/04 09:15
推 : 推U文 雖然怎麼想都是因為發錢152F 123.193.0.208 台灣 10/04 09:20
推 : 經濟狀況與文章認同度是發錢的那種吧?153F 60.250.184.98 台灣 10/04 09:20
推 : 寫論文喔靠北 哈哈154F 140.112.4.192 台灣 10/04 09:22
推 : 給推 這個題目滿有趣的155F 140.109.160.112 台灣 10/04 09:23
推 : 浪費才能阿XDDDD156F 118.163.167.82 台灣 10/04 09:24
推 : 要浪費才能到底的話,乾脆去跑多變量分析157F 180.177.113.238 台灣 10/04 09:25
推 : 我也有點想知道發錢文的影響力www
推 : 我也有點想知道發錢文的影響力www
推 : 這代表著5000還是會被噓159F 12.163.134.12 美國 10/04 09:26
推 : 拜託不要浪費才能160F 202.169.173.134 台灣 10/04 09:29
推 : 你不要這麼專業好不好161F 180.204.66.127 台灣 10/04 09:29
推 : 寫文推爆拿p幣變有錢不是本來就正相關
推 : 寫文推爆拿p幣變有錢不是本來就正相關
推 : 最後一張圖讓人直接想到發錢文。w163F 180.176.132.254 台灣 10/04 09:34
→ : 有錢的有可能是發錢文拉高"認同度"而已164F 125.227.13.36 台灣 10/04 09:34
推 : 沒錢的窮鬼臭了嗎?165F 140.112.208.96 台灣 10/04 09:36
推 : 推分析 雖然我看不懂166F 223.139.78.124 台灣 10/04 09:37
推 : 優文推推推167F 1.164.38.6 台灣 10/04 09:38
推 : 整理good168F 27.52.137.96 台灣 10/04 09:42
→ : 專業!169F 115.82.214.239 台灣 10/04 09:42
→ : 有要提高門檻嗎??170F 163.16.240.165 台灣 10/04 09:47
推 : 關於分身 能否從標註同一發文IP去處理呢?171F 61.230.107.68 台灣 10/04 09:48
→ : 例如不同帳號重複從某IP發文可視為相同
→ : 進而把低登入數ID之發文資訊合併到最高登
→ : 入數的ID 之後再作分析這樣
→ : 例如不同帳號重複從某IP發文可視為相同
→ : 進而把低登入數ID之發文資訊合併到最高登
→ : 入數的ID 之後再作分析這樣
推 : 推認真XD175F 36.238.50.190 台灣 10/04 09:49
--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 224
作者 daviden 的最新發文:
- 我太太生第一胎時沒有去月子中心 是我媽媽來我們家幫忙坐月子。 現在想起來真的是悲劇。 一開始奶水產量少,小嬰兒吃不夠,一直哭 我媽不會處理,就只是一直抱著唱歌哄她 哭一兩天後,小朋友就不哭了 我回來一 …899F 245推 73噓
- 我18歲的時候喜歡過一個大兩屆的學姐 她也知道我喜歡她,可只把我當成小弟弟 沒過多久,她就被一個28歲的業務追走了 他們還租一間老公寓同居 那個男的每天騎機車載她,同進同出。 那時候我超難過,覺得被實 …34F 20推 5噓
- 先前板上在討論增加發文門檻 我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的 何不做個資料分析,探討這項政策會帶來的效應。 我針對今年7/1到9/19(政策實施前)的所有文章進行爬取 …175F 125推 3噓
- 不知道用爆掛適不適合,如有不妥麻煩版主提醒。 我用類神經網絡,加上八卦版上半年度的所有妹妹文 做了一個自動寫妹妹廢文的機器人。 先看結果: " 昨天晚上睡到下去,輕撫著我的餘溫。 我看著妹妹 …53F 29推 8噓
- 最近看到這個新聞覺得滿好笑的, 剛好手邊有一個寫文章機器人的project, 就拿來實驗給大家看看。 這些是訓練神經網絡時的紀錄點(checkpoint), 我挑一個比較不成熟的(loss高的)來展示 …123F 90推 9噓
點此顯示更多發文記錄
回列表(←)
分享