※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2019-06-13 07:47:04
看板 Gossiping
作者 標題 Re: [新聞] 民進黨總統初選民調結果 卓榮泰:明中午
時間 Thu Jun 13 01:43:14 2019
(原文恕刪)
撇開其他的政治紛擾不算,
其實民進黨黨內全民調初選本身開啟社會對於民調的討論以及關心程度,
就值得公共政策以及問卷專家學者們感到欣慰了。
從民進黨臉書釋出的三個解釋民調過程的影片的資訊透明程度,
到民調問題的設計,
都可以感覺到對整個民調過程的嚴謹以及誠意。
身為問卷業鄉民,
希望趁著這個機會來科普一下,
也順便跟大家一起討論這個民調做得好的還有甚麼可以做得更好的地方。
1. 全民調抽樣
我私心覺得這真的是一個很聰明的決定,
使用全民調抽樣的好處在於這份民調同時兼具了
(1)決定黨內初選候選人,
(2)了解現在在這個時間點民眾對於現在檯面上所有可能候選人的支持程度,
兩個重要的功能,
調查結果可以發揮到它的作用以及在未來選戰上的部署也可以作為參考,
本身就是一個很好的決定。
全民調抽樣還有另外一個優點就是減少分析人員在加權步驟會導致的麻煩,
這一點我們等會再談。
有一點想要提出的是,
我一直沒有辦法找到到底民進黨黨中央是用那一種機率抽樣方法,
就暫時預測是隨機抽樣好了(simple random sampling).
隨機抽樣的概念很好理解,
就像是從10000個人裡面隨機選出100個人的概念一樣,
完全隨機,
所以不一定每一次都會抽到同樣的一批人,
但是每個人被抽到的機率都是一樣的。
但是隨機抽樣有一個盲點,
那就是,
隨機抽樣所抽出來的那一批人,
可能區域上會剛好地落在某幾個地方(就不是故意的恰好發生)。
舉例來說(這個例子我舉誇張一點),
被選到的那一百個人剛剛好有98個都住在台北市和高雄市,
剩下的兩個人一個人住屏東一個人住嘉義,
請問這樣的民調結果可以代表整個台灣的結果嗎?
隨機抽樣方法上面來說是沒有問題的,
但是抽樣方法的細緻度上是可以改進的。
怎麼改進呢?
用同樣的例子,
假設我在隨機抽樣之前先把台灣分成五區,東西南北中,
然後每一個區域都隨機抽出20個人
(如果全台灣的所有人都守著電話和手機所以回應率100% 哈哈哈),
那麼這樣的方法獲得的結果就會是比較洽當的。
這抽樣方法就是所謂的分層抽樣(stratified sampling),
(把每一個區域想成一層比較好了解)。
如果民進黨這一次是使用分層抽樣來進行民調,
那就真的太好了,
如果不是的話還有一個補救的辦法,
就是利用事後的加權步驟進行事後分層,
也可以達到某種程度上矯正的效果,
這個我們等等再談。
2.使用手機和市話並行進行民調
這一點真的要給予高度肯定,
因為考慮到普及率(coverage)的問題,
民調的工具最好要使用可以普及到各個年齡層各種地理位置的工具。
使用手機和市話並行真的是一個很洽當且適合的決定。
這裡要提出此次民調我個人覺得很美中不足的地方,
就是民調過程中少了幾題讓分析師能夠事後調整被抽樣機率的問題,
這個失誤可能會讓結果產生一些誤差。
舉例來說,
假設阿明同時擁有市話和手機,
但是阿桃只有市話,
那麼阿明跟阿桃被抽中民調的機率難道一樣嗎?
當然不一樣阿,
阿明明顯就比阿桃機會大一點
(因為阿明可能會被抽中回答市話民調,也有可能會被抽中回答手機民調),
為了解決這樣的問題,
如果在民調裡加上,
Q: 你有其他市話嗎?幾隻?
Q: 你有其他手機嗎?幾隻?
這種問題,
那麼分析師就可以事後調整阿明和阿桃的被抽樣機率,
讓結果比較接近事實。
另外還可以加上問題像是
Q: 這一支市話所在的住宅有多少個18歲以上的成人居住?
這種問題,
也會讓分析師們好做事後抽樣機率的調整。
(因為同樣只有一支市話,家裡有9個人其中之一被抽到的機率
和家裡只有2個人其中之一被抽到的機率也是不一樣的)
3. 加權(weighting)
這一個部分民進黨的臉書就沒有提到了,
我google之後找到的資訊就只有
"卓榮泰指出,民進黨總統初選民調將依照性別、年齡、戶籍三項加權"
這個句子。
(至少知道民進黨黨部有打算要把民調結果做加權這個打算)
加權在問卷分析上來說是一門深奧的學問,
我會盡力把它寫得淺顯易懂一點。
簡單來說,權重(weights)的定義就是,
除了你自己之外,
你還代表幾個人?
假設你這一次有接到民調電話,
而且你完成了民調成為最後的一萬五千筆樣本之一,
最後分析師分析完結果給你的權重等於10,
表示說,
你的意見除了你自己之外,
還代表了另外九個沒有收到電話的台灣人,
不管你投票給那一位候選人,
那個候選人都拿到了你貢獻的額外九票,
假設台灣兩千萬人18歲以上的投票人口有九百萬人好了(就是一個隨便假設),
你加權後的十票就立馬占了所有回答的10/9000000 (1/900000, 九十萬之一)
所以當民調蒐集完之後,
你加權後的十票就立馬占了所有回答的10/9000000 (1/900000, 九十萬之一)
所以當民調蒐集完之後,
計算權重的工作就落到分析師身上了,
通常分析師會做的事情就是利用已知的普查資料庫(就是記錄著全台灣人的資料庫),
抽取他們需要的部分(像這次分析師就會抽取18歲以上全台灣所有區域可投票人口的資料)
為手上的民調結果計算權重。
(全民調的好處就是最後在加權的時候不用擔心特定區域的問題,
要不然光判定手機號碼來源需要剃除或是增加特定區域就夠麻煩了)
概念上來說,
分析師要做的事情就是確保民調的結果跟實際上的目標人口資料相符合。
如果不符合,
那就用加減權重的方式來完成事後的調整。
權重計算的第一步是使用被抽樣機率來計算初始權重,
被抽樣機率大的人初始權重小,
被抽樣機率小的人初始權重大。
(這樣調整才公平啊)
被計算完畢的初始權重接著會被拿去做進一步的計算平衡
民調樣本之間和實際上台灣人口情況的不同,
得到最後的權重用來計算到底那位候選人出線。
舉個例子(仍然是個隨便舉的例子),
如果最後收到的民調之中有40% 年輕人,60% 中老年人
但是實際情況的全台灣可投票年輕人目標人口總數佔了60%,可投票中老年人只佔40%
那麼所有民調中的年輕人就會被加權(增加權重)讓最後的年齡百分比增加到60%
(年輕人權重 = 60/40 = 1.5)
同時所有民調中的中老年人就會被減權(就是權重變少)讓最後的年齡百分比減少到40%
(中老年人權重 = 40/60 = 2/3 = 0.67)
等於每一個年輕人支持的候選人在假設中的900萬人中獲得多一點票
同時每一個中老年人支持的候選人在假設中的900萬人中獲得少一點票
看到這裡你或許會問,
那麼如果權重那麼重要可以改變結果,
那麼民調的結果不就很容易被有心人士操弄嗎?
其實中間的眉角比我這裡簡述的多所以真的沒有那麼容易
民調的回答選項裡有12個年齡層、兩個性別、以及很多縣市區域,
到底要假裝回答些甚麼才能有效的減少對手的民調票數
真的是一個很複雜的挑戰
根據我的猜測,
民進黨黨部的分析師應該會使用多重反覆加權(raking)的方法,
將民調將依照性別、年齡、戶籍三項反覆進行加權到符合全台灣實際人口的資料百分比
也就是說
每一個民調樣本使用他們最後所獲得的權重之後所計算的
性別、年齡、戶籍百分比
都會和實際上全台灣的目標人口在性別、年齡、戶籍上的百分比一樣。
這樣一來民調之後投票的結果加上使用性別、年齡、戶籍計算後的權重所得出的結論,
便可以說是可以代表全台灣不同年齡層、不同性別、不同居住區域人口
所集結的民意。
當然這篇文章有很多分析方法是我的猜測,
詳細的方法還是要等到民進黨中央發出官方公告以及詳細的分析方法為準。
(希望他們會把方法詳細的公告出來)
---
寫在後面:
其實大半夜的寫了這麼多
無非是希望民調這個有統計基礎根據的工具不要再被電視上的名嘴拿來隨便當成
可以唬爛的話題
有人也是靠做這種事情來做為專業來餬口飯吃的。
尤其是每到大選前夕各家民調數字滿天飛舞,
其實中間還有很多細節民眾都要有足夠的知識去分辨,
才不會被其實方法上根本就有缺陷的民調結果給帶了風向還不知道。
時時刻刻去檢驗自己看到的民調
抽樣方法是不是隨機?(還是想參加就給你參加)
抽樣方法有沒有分層/分區?(還是拿台北人的意見去比照全國的選舉結果)
民調工具的普及率高嗎?(市話?手機?網路?明信片?)
有沒有事後加權? 如果有,加權了哪些項目?(年齡、性別、區域、教育水平、職業)
樣本數是否夠大? (老實說那些小於400人的民調就看看就好)
在亂世中,
知識就是力量。
台灣加油,
一起加油。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 173.49.228.8 (美國)
※ 文章代碼(AID): #1T0JcqCB (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1560361396.A.30B.html
※ 同主題文章:
06-12 15:59 ■ [新聞] 民進黨總統初選民調結果 卓榮泰:明中午出爐
06-12 22:03 ■ Re: [新聞] 民進黨總統初選民調結果 卓榮泰:明中午
● 06-13 01:43 ■ Re: [新聞] 民進黨總統初選民調結果 卓榮泰:明中午
→ : 不用看也知道是小英穩了1F 06/13 01:44
噓 : 哪裡透明了 怎麼不全民公投2F 06/13 01:44
有錢就可以全民公投
做民調很燒錢的呀
推 : 專業推 雖然加權模型是機密沒得猜3F 06/13 01:47
推 : 推!4F 06/13 01:47
推 : 推好文5F 06/13 01:48
推 : 推,上了一課6F 06/13 01:49
噓 : 不過重點是臨時改規則7F 06/13 01:50
→ : 抽樣工具可以 但用的時間點很有趣
→ : 抽樣工具可以 但用的時間點很有趣
推 : 推9F 06/13 01:51
推 : 這種優質文居然沒人推= =10F 06/13 01:56
推 : 深夜好文 推!11F 06/13 01:57
→ superjim …
推 : 優文推,有沒有國民黨的?13F 06/13 01:57
→ : 啊抱歉忘了,國民黨是習近平指派
→ : 啊抱歉忘了,國民黨是習近平指派
推 : 推 優質好文15F 06/13 02:01
推 : 推16F 06/13 02:06
推 : 推17F 06/13 02:13
推 : 推 果然被我黑名單的 都是重複的黑話18F 06/13 02:15
推 : 解釋清楚推,一二樓根本來亂的19F 06/13 02:20
推 : 專業推20F 06/13 02:22
推 : 好專業給推21F 06/13 02:24
推 : 推統計專家22F 06/13 02:24
推 : 柯糞很急著崩潰低調噓呢23F 06/13 02:25
推 : 專業好文必推,拜托有深度的名嘴跟記者來拜讀24F 06/13 02:25
推 : 推好文,以前都不知道加權25F 06/13 02:26
推 : 長知識26F 06/13 02:27
推 : 你統計系?27F 06/13 02:35
推 : 讚28F 06/13 02:36
推 : 國民黨都還在市話民調 真是落伍29F 06/13 02:37
推 : 推30F 06/13 02:42
推 :31F 06/13 02:46
推 : 所以民調應該也會依城市人口數比例抽樣,是嗎?32F 06/13 02:47
推 : 好有趣喔 各政黨的民調單位都很專業嗎?有時候看起來33F 06/13 02:48
→ : 滿唬爛的
應該都會有專家負責控管品質才是→ : 滿唬爛的
要不然請我當顧問好了
(迷之聲: 你誰啊XD)
→ sonyabear …
→ : 例如二百萬人口跟二十萬人口一樣抽十個…36F 06/13 02:49
→ : 反而沒辦法得知該城市實際的支持率不是嗎?
→ : 反而沒辦法得知該城市實際的支持率不是嗎?
恩恩
這個問題超有水準
用城市作為單位可能有一點太小(想想看台灣有多少城市)
用縣或是區域感覺起來是個不錯的單位
不過看起來民進黨好像沒有做分層(也可能是有座只是我沒有找到資料)
所以我才會說隨機抽樣這個抽樣方法不精緻
更好的做法是先分層/分區(依照縣市或是區域都可以)
再決定要不要以區域的人口比例下去抽樣(像是你說的這樣)
或是不以人口比例抽樣但是做其他的調整(調整誤差增加率之後再加權)
不同的民調或是問卷目的不同抽樣的策略也不一樣
做民調或是問卷之前的抽樣計畫跟加權計畫都是很重要的呀
推 : 快推38F 06/13 02:51
推 : 推,長知識39F 06/13 02:52
推 : 先隨機抽選 再用權重去調40F 06/13 02:52
重點王4ni!推 : 推41F 06/13 02:58
推 : 就是有賴清德這種故意帶風向說黨中央民調作弊42F 06/13 02:58
推 : 藍營惡意灌票是可以篩選出來的嗎?43F 06/13 03:00
也許可以可是統計學家做不到QQ
民調跟問卷的硬傷就是建立在相信所有人的回答都是真實的上面
所以像是長度比較長的問卷通常問題會設計一下可以交叉比較
但是這種一拍兩瞪眼只有兩題的全民調其實真的很難
推 : 推44F 06/13 03:01
推 : 結果柯黑連賴粉都能變成柯粉了XDDD45F 06/13 03:04
→ : 手機的部分有一個問題 就是該如何解決APP造成的拒接現象?
手機拒接跟市話沒有接的情形其實是一樣的→ : 手機的部分有一個問題 就是該如何解決APP造成的拒接現象?
就是沒有接到
(沒接到跟把電話接起來之後說我不回答問題基本上很相似)
通常有兩個解決方法
一個是過某段時間之後再打一次(或兩次)做後續追蹤
還有另一個方法就是一剛開始就定多一點樣本數
(像是民進黨需要一萬五千筆資料但是抽樣了60萬筆電話)
這樣沒有接到或是被拒接就直接打下一個
推 : 有APP的比例很小吧 而且會裝APP很大比例就不想接電話47F 06/13 03:14
推 : 推,統計人48F 06/13 03:20
推 : 推你民調系喔 XD49F 06/13 03:25
推 : 推50F 06/13 03:28
推 :51F 06/13 03:41
推 : 推專業52F 06/13 03:43
推 : 推專業文53F 06/13 03:44
推 : 優質介紹54F 06/13 03:44
→ : 政黨政治應該是由黨推出最強的候選人然後去說服民眾,讓民55F 06/13 03:51
→ : 眾來決定你要派誰覺得有點怪怪的 XD
政黨政治不是我專業我沒有答案→ : 眾來決定你要派誰覺得有點怪怪的 XD
不過當同個團體或是社群內有不同的意見
決定用問卷或是民調這個工具來決定多數意願的時候
要確保這個工具有被正確地而且適當的被使用是很重要的
所以這個討論希望能讓每個能投票的公民都對這個工具有一點粗淺的了解
才不會被不正確的觀念帶著走
推 : 同是survey人 推推57F 06/13 03:58
感謝推※ 編輯: fukuspeed (173.49.228.8 美國), 06/13/2019 04:36:34
推 : 推專業文58F 06/13 05:24
推 : 專業推59F 06/13 05:35
推 : 推專業60F 06/13 05:41
推 : 專業!61F 06/13 05:47
推 :62F 06/13 06:27
推 : 推63F 06/13 06:46
噓 : 配合某人一延再延64F 06/13 06:50
推 : 推 不過權重有辦法考量年輕人/老人實際會出來投的比例 而65F 06/13 07:01
→ : 不是可投票的比例嗎
→ : 不是可投票的比例嗎
推 : 推67F 06/13 07:03
推 : 專業文68F 06/13 07:03
推 : 推統計,民進黨這次看起來蠻有心的69F 06/13 07:07
推 : 推70F 06/13 07:11
噓 : 八卦滿滿公關和民調業者啊71F 06/13 07:18
→ : 別假了
→ : 別假了
推 : 優73F 06/13 07:21
推 : 推74F 06/13 07:21
推 : 推推75F 06/13 07:22
噓 : 你是不是就是分析師76F 06/13 07:26
→ : 不小心噓到等等補推
→ : 不小心噓到等等補推
推 : 推78F 06/13 07:27
推 : 推79F 06/13 07:29
--
※ 看板: Gossiping 文章推薦值: 2 目前人氣: 0 累積人氣: 203
作者 fukuspeed 的最新發文:
- 超級同意上篇文章 當溫度太高的時候,可能會影響到內層的聚丙烯熔噴層的靜電, 也很有可能破壞纖細的纖維。 台灣不織布公會也有其它很棒的文章像是 推薦給有科學研究精神的鄉民朋友。 在這裡我想要提出另外一個 …365F 152推 22噓
- (前文恕刪) 真的完全同意黃醫師的看法。 自從24例爆發之後, 是否台灣已經進入社區傳播/社區感染階段就變成了一個大家開始關注的議題。 這裡想要先撇開尚在爭議定義上的界定, 假設社區傳播真的離我們現在 …94F 40推 3噓
- 自從24例爆發之後, 是否台灣已經進入社區傳播/社區感染階段就變成了一個大家開始關注的議題。 這裡想要先撇開定義上的界定, 假設社區傳播真的離我們現在所處的處境不遠的話, 試問我們到底準備好了嗎? 如 …95F 75推 5噓
- 雖然最近出現的第19名病例可以算是社區感染的案例, 但是台灣到現在為止還沒有進入社區傳播的狀況, 所以其實還沒有戴口罩的必要。 但是我其實鼓勵每個人家裡都有口罩預備著會比較好, 如果未來遇到需要出入飛 …137F 47推
- (原文恕刪) 撇開其他的政治紛擾不算, 其實民進黨黨內全民調初選本身開啟社會對於民調的討論以及關心程度, 就值得公共政策以及問卷專家學者們感到欣慰了。 從民進黨臉書釋出的三個解釋民調過程的影片的資訊透 …79F 60推 6噓
點此顯示更多發文記錄
回列表(←)
分享