顯示廣告
隱藏 ✕
※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-10-04 09:49:21
看板 Gossiping
作者 daviden (daviden)
標題 [爆卦]發文門檻研究
時間 Thu Oct  4 05:13:59 2018


※註:有電視或媒體有報導者,請勿使用爆卦!

無重大八卦請勿使用此分類,否則視同濫用爆卦鬧板(文章退回、水桶6個月)

未滿30繁體中文字 水桶3個月


先前板上在討論增加發文門檻

我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的

何不做個資料分析,探討這項政策會帶來的效應。

我針對今年7/1到9/19(政策實施前)的所有文章進行爬取,再從ID公開資訊爬取各篇作者
的登入次數

做相關性的研究。


不囉嗦,先上結論

https://imgur.com/BG1h7AP.jpg
[圖]
 

把作者分為登入次數<700,與登入次數>700兩組

結果顯示,登入次數少的作者得到的認同度(推 - 噓)顯著較低。被噓文次數顯著較高。

文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。


另外,增設700登入次數的門檻,會使八卦板流失12.37%發文作者,與12.65%文章。


------------------------以下詳細數據與分析方法-------------------------------


我用Python scrapy從網頁板PTT爬取文章

用Python telnet爬取作者登入次數。登入次數是動態的,而我在事後爬取,爬取時間是
9/30

所以與那些作者真正寫文章的時間(7~9月)有最多90次的誤差。這是本研究無可避免的限
制。

https://imgur.com/8TtCeqy.jpg
[圖]
 

從流程圖可知,扣除網路因素、文章格式因素導致的爬取失敗,我們已捕捉93.2%作者與
84%文章。資料品質應該夠好了。



接著我們將資料匯入SAS 9.4做統計與資料視覺化。

我們計算每個作者的總發文次數、個人平均推、噓、箭頭次數,個人平均認同度、討論度


如下圖,每筆資料為一位作者的總結。

(所以你會看到推文數有小數點,因為那是該作者的個人平均)

https://imgur.com/nXKYh5j.jpg
[圖]
 

之後的分析都將以"作者"為單位,而非"文章"。



首先,我們要注意,這個資料非常"偏"(skew)

以發文次數為例

下圖,上半部是我從常態分布模擬出來的樣本,是一個對稱的分布。平均值與中位數很接
近。

下半部是真實資料的作者發文數。平均和中位數差了近8篇文章。

https://imgur.com/gkxGV3V.jpg
[圖]
 

這就說明大部分人發文在2篇左右,可是有少數人發了很多篇,把平均拉高了。

這時候如果還用平均數來總結這個資料,就會忽視真正廣大的族群。

因此之後的分析,我們將把重點放在中位數。



再跟大家介紹怎麼看箱型圖(Boxplot)

https://imgur.com/lQZbrEx.jpg
[圖]
 

Q1是第一四分位數,也就是有25%的人低於這個數。可以反映出"底層"的情況

Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。





下圖呈現登入次數<700與>700兩組的各項數值差距。

可以注意中位數跟平均有很大的落差。這就是先前說的,這份資料很偏。

https://imgur.com/gb8i7a0.jpg
[圖]
 

根據Wilcoxon Two-Sample Test(檢驗中位數差異)

兩組在噓文數有顯著差異 (p < 0.0001),在認同度有顯著差異 (p < 0.0001)

也就是說,登入次數<700那組較常被噓,推文 - 噓文的數值也較低。



接著,我們撇開700門檻這個政策,巨觀來看登入次數與文章品質的關係。

首先皮爾森相關係數(Pearson Correlation Coefficients)告訴我們

登入次數與認同度是顯著(p < 0.0001)正相關的(r = 0.05156)。

也就是說,登入越多次,容易拿到更多推(或更少噓)。



把作者以1000次登入為單位,分成6個組別

1~1000
1000~2000
2000~3000
3000~4000
4000~5000
5000+

如下圖

https://imgur.com/hG7HY0W.jpg
https://imgur.com/jpPFHNQ.jpg
[圖]
 
[圖]
 

可以看到認同度隨登入次數上升

討論度在第一組比較高,之後下降,又上升。

我們知道登入次數<700的組別,其噓文數顯著較高,所以這邊的討論度應該是被"噓"出來
的。

整體而言,認同度與討論度都隨登入次數增加而增加。

值得注意的是,隨登入次數提高,認同度的Q1和中位數只有些許上升,而平均和Q3卻大幅
上升,這表示

其實不管登入次數多少,大多數人的文章並沒有什麼差別。是較右邊的組別,有少數人在
拉高整體素質。

所以作為一介平庸的鄉民,我們也不要太歧視菜鳥。畢竟我們的整體文章品質會好,主要
是來自跟我們同組的神人大大們。



補充各門檻的保留作者比例

https://imgur.com/uKXKXOx.jpg
[圖]
 

如果把門檻定在1000,板上會剩下76%作者。

定在2000,則會剩下45%作者。

所以訂高門檻確實可以提高文章認同度,可是同時也會流失許多作者。



同場加映

經濟狀況與文章認同度

https://imgur.com/R89ZhRG.jpg
[圖]
 

這讓我很訝異,相關性似乎比登入次數更高...

以後說不定也可以用經濟狀況來定門檻(誤~)

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.71.70
※ 文章代碼(AID): #1RjJ4PeD (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1538601241.A.A0D.html
wuyiulin: 有夠閒給推1F 61.58.87.4 台灣 10/04 05:14
randy101021: 樓下看懂惹ㄇ2F 101.15.63.52 台灣 10/04 05:15
sgtpepper: 太長3F 180.177.121.237 台灣 10/04 05:16
randy101021: 少惹很多肥宅文就是惹4F 101.15.63.52 台灣 10/04 05:19
chivalry70: 結論要更清楚一點方便閱讀5F 114.137.88.83 台灣 10/04 05:19
wuyiulin: 懶人包:登入次數越多的作者發文與文章6F 61.58.87.4 台灣 10/04 05:20
wuyiulin: 討論度呈正相關
showforce: 不要浪費才能8F 93.117.249.43 荷蘭 10/04 05:21
wuyiulin: 但是數據顯示大部份人並沒有因為登入次9F 61.58.87.4 台灣 10/04 05:21
wuyiulin: 數獲得更高的發文討論度
wuyiulin: 反而是靠一些優秀作者在撐
randy101021: 結論:看人12F 101.15.63.52 台灣 10/04 05:22
ttping: 推認真(?13F 101.13.245.218 台灣 10/04 05:22
wuyiulin: 另外持有P幣數量也與發文討論度呈正相14F 61.58.87.4 台灣 10/04 05:22
wuyiulin: 關 非常有趣
wushwush: 推16F 36.230.205.64 台灣 10/04 05:23
pujipuji: 哈哈哈哈統計給推17F 129.67.118.224 英國 10/04 05:27
L1ON: 看人啦18F 180.217.175.68 台灣 10/04 05:28
pujipuji: 會不會有生存者偏差(?)19F 129.67.118.224 英國 10/04 05:28
jkkkj123: 所以看起來 提高門檻會有顯著文章數降低20F 1.175.81.178 台灣 10/04 05:29
jkkkj123:  但文章品質跟推文品質並沒與登入次數無
jkkkj123: 正關連性?
EggXBlueSky: END23F 61.228.158.210 台灣 10/04 05:32
doom3: 太長 在八卦版不要發超過二頁好嗎24F 122.121.96.228 台灣 10/04 05:34
Benbenyale: 啊就發錢文太多啊 也沒發到家產清空25F 118.169.185.60 台灣 10/04 05:34
verakaco: 讚26F 114.137.222.206 台灣 10/04 05:36
WORLDKING56: 笑死27F 101.13.247.16 台灣 10/04 05:39
rererere147: 所以結論是?28F 49.216.142.121 台灣 10/04 05:40
arcred: 可以順便比較一下IP國籍的推噓比29F 98.248.208.99 美國 10/04 05:41
rover10: 這真的浪費才能30F 49.216.146.226 台灣 10/04 05:42
iem2000: 窮人沒發文的權益 批踢踢搞貧富歧視(叭叭31F 175.180.249.8 台灣 10/04 05:42
lhsieh: 經濟狀況就經驗值相關32F 31.13.189.90 美國 10/04 05:50
lhsieh: 就算靠賭盤來的也是經驗
spending: 太強了哈哈34F 42.76.215.59 台灣 10/04 05:53
ayubabbit: 最後應該是因為有錢常發錢認同度高?35F 36.225.50.178 台灣 10/04 05:54
shields5566: 發錢文根本都垃圾36F 114.36.62.105 台灣 10/04 05:57
Wand 
Wand: 你真的,,,就是杜奕瑾所說的自我成長嗎37F 111.83.1.51 台灣 10/04 06:12
kids9995: 很有趣,不過應該要排除發錢溫才能得到38F 114.37.141.128 台灣 10/04 06:13
kids9995: 更真實的結果
a2654133: 認真給推40F 111.248.22.173 台灣 10/04 06:18
fzrpower: 我說那叫推文風格,有事電話給我41F 59.115.87.31 台灣 10/04 06:23
arcslam: 推分析42F 180.217.184.166 台灣 10/04 06:28
baculovirus: 推分析43F 149.142.103.175 美國 10/04 06:30
qkenny: 乖乖做研究卻不要浪費才能 XDDD44F 95.91.249.151 德國 10/04 06:37
qaz123ws10: ==45F 115.82.64.28 台灣 10/04 06:38
arrenwu: 我不同意 文章品質 跟 推-噓 有正向關聯46F 24.5.143.254 美國 10/04 06:38
arrenwu: 文章如果跟風向發 推文數自然就多
arrenwu: 但這會降低八卦版上文章的多樣性
arrenwu: 提升門檻的風險就是搞得文章歧異度更低
wuyiulin: 要做風向分析要碰NN吧…有夠麻煩50F 61.58.87.4 台灣 10/04 06:41
arrenwu: 也不用想那麼複雜 你就想版上文章如果都51F 24.5.143.254 美國 10/04 06:42
arrenwu: 是一面>10推 這肯定是有問題的
skyjet: 推分析53F 193.52.24.38 法國 10/04 06:43
qazsedcft 
qazsedcft: 嗯嗯嗯我也是這麼想的54F 118.166.67.176 台灣 10/04 06:43
arrenwu: 這世界上很少大議題是沒有激烈正反辯論55F 24.5.143.254 美國 10/04 06:43
arrenwu: 不過我倒是對於那兩個Python tool 感興趣
SkyChaos: 嗯~ 我到底看了什麼 (推眼鏡57F 123.195.173.162 台灣 10/04 06:45
boostman: 乖乖做研究不要浪費才能啦XD58F 1.200.49.20 台灣 10/04 06:50
cmax: ㄜ哈哈哈厲害59F 49.217.52.15 台灣 10/04 06:52
Dustwind: 羡慕60F 42.77.119.11 台灣 10/04 06:52
wadeCC: 你研究報告做這個好了61F 101.9.135.217 台灣 10/04 06:52
lambkinchan: 推62F 39.8.9.44 台灣 10/04 06:53
gunfighter: https://i.imgur.com/eZ7c7Us.gif63F 36.234.53.93 台灣 10/04 07:00
 
NdFe35: 我怎麼覺得沒有很顯著差異64F 160.39.240.94 美國 10/04 07:05
youthyeh: 就是哆啦王和馬雅人這些鄉民在拉高分數65F 111.71.78.12 台灣 10/04 07:06
denny5425: 推66F 101.14.140.222 台灣 10/04 07:06
ucfan: 推67F 27.52.33.199 台灣 10/04 07:16
nomorepipe: 你的生統老師知道你在這裡發廢文嗎68F 111.83.54.191 台灣 10/04 07:21
ruby00514: 反正繼續提高黨工繼續買帳號來 反而正69F 49.215.227.122 台灣 10/04 07:22
ruby00514: 常人都被擋下來 呵呵
qilar: 厲害71F 180.217.133.15 台灣 10/04 07:26
st093: 推72F 114.187.193.88 日本 10/04 07:27
Atako: 做這個研究73F 114.24.113.30 台灣 10/04 07:30
Atako: 就是想消滅少數意見吧XD
Atako: 要不要乾脆推出身分標籤
Atako: ID前面有個符號之類的
Atako: 這樣還沒看文章就知道該噓該推
kiske011: 恩恩78F 223.139.75.211 台灣 10/04 07:30
airyptt: 還蠻有意思的79F 49.197.215.115 澳大利亞 10/04 07:30
jojojen: 門檻提高 測風向大師文佔比跟著提高80F 42.76.94.137 台灣 10/04 07:31
ttnilozz: 其實真要操作幾個人就可以了81F 58.115.19.33 台灣 10/04 07:33
ttnilozz: Ethan 的FB 有個人Lin Lin 一直法不重要
ttnilozz: 的文洗版,等人少再補殺人文章
eddy1221: 認同度 □新聞.FB.爆掛 不太能算在ID上84F 61.227.192.55 台灣 10/04 07:38
Aquatics: 推85F 223.140.115.3 台灣 10/04 07:40
saisai9230: 很有意思,但是浪費才能。86F 118.167.127.126 台灣 10/04 07:40
OGC218: 推87F 49.218.114.83 台灣 10/04 07:43
tn00371115: 推88F 223.140.39.1 台灣 10/04 07:43
resudi: 這蠻有趣的89F 114.37.139.46 台灣 10/04 07:45
czm: 一文下重複推噓 應該只記一次; 另,發錢=賄選90F 111.251.77.1 台灣 10/04 07:47
zxz56780: 有點厲害91F 114.41.165.236 台灣 10/04 07:48
TarikBlack: 推92F 49.216.183.236 台灣 10/04 07:55
linlaosure: 推93F 182.234.203.248 台灣 10/04 07:55
bochengchen: 推推推推推94F 1.174.136.184 台灣 10/04 07:56
ke1030: 推95F 42.72.252.98 台灣 10/04 07:57
jockercard: 認真給推96F 180.204.226.62 台灣 10/04 08:10
q22w: 滿厲害的!!97F 111.83.48.100 台灣 10/04 08:10
LunaDance: r=0.05 滿少的耶 這也表示網軍沒那麼多98F 153.235.106.205 日本 10/04 08:10
smallmai0207: 推研究精神99F 111.242.206.17 台灣 10/04 08:11
ALJOE30: 推100F 36.224.142.246 台灣 10/04 08:11
nazo: 太神拉101F 111.249.8.60 台灣 10/04 08:12
x06x06xj4: 看得懂給推102F 110.54.179.8 菲律賓 10/04 08:21
warlocks: 推 認真103F 14.0.226.254 香港 10/04 08:21
CTUST: 有錢說的話才有人聽 就是這個意思104F 223.137.186.232 台灣 10/04 08:21
Philethan: 讚105F 114.136.208.101 台灣 10/04 08:22
sidog: 推106F 42.75.209.226 台灣 10/04 08:23
Strokes: 沒空107F 61.228.178.111 台灣 10/04 08:24
zu11tune13: 推推推108F 36.227.76.85 台灣 10/04 08:26
shrink5566: 促咪109F 140.113.104.45 台灣 10/04 08:26
opfish: 統計廢文數量與質量110F 118.171.173.17 台灣 10/04 08:27
nixing: r^2=0.0025 能解釋的變異量也太低了111F 211.75.47.181 台灣 10/04 08:28
ChenYiBoy: 幹 浪費才能哈哈112F 114.136.47.6 台灣 10/04 08:29
f26724309: 專業推113F 115.82.69.65 台灣 10/04 08:31
Neil000: 跟我想的一樣114F 101.13.21.36 台灣 10/04 08:32
DrumREd: 你統計系?115F 1.160.125.30 台灣 10/04 08:33
BDUUU: 認真給推116F 49.216.140.199 台灣 10/04 08:38
smallpum: 浪費才能 精神給推117F 140.96.46.94 台灣 10/04 08:39
kinomon: 哈哈118F 42.77.78.18 台灣 10/04 08:41
James042: 太猛119F 223.140.2.139 台灣 10/04 08:42
F12NLargo: 統計推推120F 220.136.1.65 台灣 10/04 08:43
appleball200: 猛121F 101.14.231.68 台灣 10/04 08:48
slimfat0202: 你是不是來ppt找工作的?122F 36.229.247.15 台灣 10/04 08:50
denny811012: 好強 借問那間學校123F 111.71.101.74 台灣 10/04 08:50
slimfat0202: Ptt*124F 36.229.247.15 台灣 10/04 08:50
yukinoba: 看發文沒什麼用,主要是推文部隊125F 111.71.94.186 台灣 10/04 08:51
yukinoba: 建議應該是針對50推以上文章
waitu0526: 幹結論到底是什麼啦127F 42.73.50.183 台灣 10/04 08:52
yukinoba: 看底下推噓文的那些id帳號128F 111.71.94.186 台灣 10/04 08:53
yukinoba: 是不是都以登入次數少於700居多
yukinoba: 這樣就可以大致判定出是否真的有
rhox: ptt也來搞資本主義131F 101.14.224.5 台灣 10/04 08:53
yukinoba: 推噓文部隊在帶風向132F 111.71.94.186 台灣 10/04 08:54
oyaji5566: 好文133F 114.136.139.221 台灣 10/04 08:54
yukinoba: 反過來看噓文X2以上的應該也能判斷出134F 111.71.94.186 台灣 10/04 08:55
cc456: 經濟狀況認同度高可能跟發錢文有關135F 220.133.124.44 台灣 10/04 08:55
yukinoba: 如果進一步鉤稽推爆跟噓爆文的議題136F 111.71.94.186 台灣 10/04 08:56
yukinoba: 應該可以更明確看出有特定立場部隊
yukinoba: 像之前每星期固定會有一篇仇甲文推爆
yukinoba: 門檻提高後消失了一陣子直到這星期
s6525480:140F 211.76.92.72 台灣 10/04 08:58
yukinoba: 你說這背後沒有推文帳號部隊也太剛好141F 111.71.94.186 台灣 10/04 08:59
zoechen2008: 推142F 1.46.79.107 泰國 10/04 08:59
ginhwa: 乾~領500、5毛的黨工剛好是貧窮那群XDD143F 180.217.217.183 台灣 10/04 09:00
chopssin: 典型冪分佈 滿合理的144F 114.47.22.24 台灣 10/04 09:01
helixc: 浪費才能!145F 42.76.233.114 台灣 10/04 09:02
jack0216: 殺小.....XDDDDD146F 117.19.197.222 台灣 10/04 09:06
firenaruto: 推XDD147F 61.222.241.157 台灣 10/04 09:07
sulabird: 下一篇 政治文與登入次數的關係148F 223.140.121.170 台灣 10/04 09:07
davidchen329: 發sci 了啦149F 223.139.163.6 台灣 10/04 09:07
spadej69171: 乾 專業什麼啦?150F 111.71.92.148 台灣 10/04 09:14
Lydia66: 怕.jpg151F 180.177.113.238 台灣 10/04 09:15
isaac42: 推U文 雖然怎麼想都是因為發錢152F 123.193.0.208 台灣 10/04 09:20
david220: 經濟狀況與文章認同度是發錢的那種吧?153F 60.250.184.98 台灣 10/04 09:20
kevin123453: 寫論文喔靠北 哈哈154F 140.112.4.192 台灣 10/04 09:22
s4552752: 給推 這個題目滿有趣的155F 140.109.160.112 台灣 10/04 09:23
eggbird: 浪費才能阿XDDDD156F 118.163.167.82 台灣 10/04 09:24
Lydia66: 要浪費才能到底的話,乾脆去跑多變量分析157F 180.177.113.238 台灣 10/04 09:25
Lydia66: 我也有點想知道發錢文的影響力www
lpoijk: 這代表著5000還是會被噓159F 12.163.134.12 美國 10/04 09:26
iamhemry: 拜託不要浪費才能160F 202.169.173.134 台灣 10/04 09:29
chichung: 你不要這麼專業好不好161F 180.204.66.127 台灣 10/04 09:29
chichung: 寫文推爆拿p幣變有錢不是本來就正相關
daniel1309: 最後一張圖讓人直接想到發錢文。w163F 180.176.132.254 台灣 10/04 09:34
bnn: 有錢的有可能是發錢文拉高"認同度"而已164F 125.227.13.36 台灣 10/04 09:34
huihuihui: 沒錢的窮鬼臭了嗎?165F 140.112.208.96 台灣 10/04 09:36
domotocat: 推分析   雖然我看不懂166F 223.139.78.124 台灣 10/04 09:37
fatetwister: 優文推推推167F 1.164.38.6 台灣 10/04 09:38
princeguitar: 整理good168F 27.52.137.96 台灣 10/04 09:42
littlemen: 專業!169F 115.82.214.239 台灣 10/04 09:42
mmnnm: 有要提高門檻嗎??170F 163.16.240.165 台灣 10/04 09:47
faloca: 關於分身 能否從標註同一發文IP去處理呢?171F 61.230.107.68 台灣 10/04 09:48
faloca:  例如不同帳號重複從某IP發文可視為相同
faloca:  進而把低登入數ID之發文資訊合併到最高登
faloca: 入數的ID 之後再作分析這樣
gungunme5566: 推認真XD175F 36.238.50.190 台灣 10/04 09:49

--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 224 
作者 daviden 的最新發文:
  • +172 Re: [問卦] 月子中心一個月30萬 花的下去都什麼 - Gossiping 板
    作者: 73.115.110.240 (美國) 2021-09-26 02:12:39
    我太太生第一胎時沒有去月子中心 是我媽媽來我們家幫忙坐月子。 現在想起來真的是悲劇。 一開始奶水產量少,小嬰兒吃不夠,一直哭 我媽不會處理,就只是一直抱著唱歌哄她 哭一兩天後,小朋友就不哭了 我回來一 …
    899F 245推 73噓
  • +15 Re: [問卦] 大學生真的打不過社會人士嗎 - Gossiping 板
    作者: 73.115.110.240 (美國) 2021-09-19 12:55:38
    我18歲的時候喜歡過一個大兩屆的學姐 她也知道我喜歡她,可只把我當成小弟弟 沒過多久,她就被一個28歲的業務追走了 他們還租一間老公寓同居 那個男的每天騎機車載她,同進同出。 那時候我超難過,覺得被實 …
    34F 20推 5噓
  • +122 [爆卦]發文門檻研究 - Gossiping 板
    作者: 129.109.71.70 (美國) 2018-10-04 05:13:59
    先前板上在討論增加發文門檻 我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的 何不做個資料分析,探討這項政策會帶來的效應。 我針對今年7/1到9/19(政策實施前)的所有文章進行爬取 …
    175F 125推 3噓
  • +21 [爆卦] 八卦版妹妹文產生器 - Gossiping 板
    作者: 108.176.209.137 (美國) 2017-08-17 00:38:20
    不知道用爆掛適不適合,如有不妥麻煩版主提醒。 我用類神經網絡,加上八卦版上半年度的所有妹妹文 做了一個自動寫妹妹廢文的機器人。 先看結果: " 昨天晚上睡到下去,輕撫著我的餘溫。 我看著妹妹 …
    53F 29推 8噓
  • +81 [爆卦] 臉書機器人自創語言事件的實驗 - Gossiping 板
    作者: 108.176.209.137 (美國) 2017-08-03 14:11:29
    最近看到這個新聞覺得滿好笑的, 剛好手邊有一個寫文章機器人的project, 就拿來實驗給大家看看。 這些是訓練神經網絡時的紀錄點(checkpoint), 我挑一個比較不成熟的(loss高的)來展示 …
    123F 90推 9噓
點此顯示更多發文記錄
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇