作者 Tpintrts (Tt.梅梗)
標題 [討論] 市話民調的取樣問題
時間 Wed Sep 20 17:27:24 2023


為什麼YT街訪民調的結果和市話手機民調的結果有那麼大的落差,
我想很多人都有這個疑問,
我也是在想這個問題,如果排除做假的的可能性,
我們要問的是到底為什麼會發生這種現象?
不過YT的取樣資料反正就影片拍給你看了,大概大家都能講出一堆問題,
可是市話民調就不知道了,難道市話民調的就超嚴謹高明嗎?
後來發現其實TVBS有給一點資料,

以這一份為例

https://cc.tvbs.com.tw/portal/file/poll_center/2023/20230904/a4b533d900de66e02ea64ed5977f4997.pdf

它做出來的結果是賴30%、侯19%、柯23%

https://i.imgur.com/KtcfyBJ.png
[圖]

取樣方法為:
訪問時間:112 年 8 月 28 日至 9 月 1 日晚間 18:30 - 22:00
調查方法:市話、手機併用的雙底冊抽樣調查,人員電話訪問

https://i.imgur.com/R8CHvOQ.png
[圖]

我們可以從年齡交叉表中看到,它的賴30%、侯19%、柯23%是怎麼樣的年齡比例:

https://i.imgur.com/fLWQfRA.png
[圖]

我們可以發現,60歲以上的樣本數佔了全體的32%,
而且最後算出來的賴30%、侯19%、柯23%也沒有任何加權調整。
換言之,60歲以上支持度高的候選人會有比較高的機會最後出來結果會比較高,
但,民調公司說不定是考慮了人口比例啊!

於是我就去找了內政部的人口統計報表(https://www.ris.gov.tw/app/portal/346

 
可以看到今年的人口比例,65歲以上佔18.02%,20歲以上佔83.52%。

https://i.imgur.com/O3iu8it.png
[圖]

計算之後我們可以得出65歲以上的人口佔20歲以上人口的21.6%左右,
不過我們還要加上60~65歲的人口,才是60歲以上人口的百分比,
但從內政部的統計資料中,我們無從得知人數,
所以就暴力的加個5%吧,那也頂多就27%左右,
但市話卻似乎因為現實考量問到了32%的量。


這時候可能有人要說,看吧!市話+手機民調果然訪問了過多的老人,
且慢,我們也要驗證街訪民調的情況。

先前提過這個工具可以查詢YT街訪的結果

https://www.aweb.tpin.idv.tw/president2024/
2024總統大選YT街頭民調資料
2024總統大選YT街頭民調資料,整理youtuber街訪影片中的投票結果,樣本統計,是YT民調結果資料查詢工具。 ...

 

由於只有「木炭民調」和「阿凱街頭民調」比較有系統性且有統計年齡資料,
「街頭麥克風」雖然也有年齡資訊,但他的地點太過集中,
所以這裡就只勾選他們兩個,然後因為「木炭民調」4/29前沒有年齡資料,
因此日期區間就取4/29之後的影片資料。

https://i.imgur.com/NzKIQsR.png
[圖]

我知道有人要說,那麼長的時間,難道投票意向都不會變嗎?
我只能說,YT人力物力有限,短時間全縣市街訪一千份怎麼樣也辦不到,
這裡先網開一面,我們先討論取樣分佈,
在這樣的條件下,他們的年齡分佈如下:

https://i.imgur.com/5lVo2ua.png
[圖]

可以發現60~69歲佔18%、70歲以上佔11%,
加起來是29%,所以其實比例也是偏高,
但這裡也是要注意,嚴格來說他們的環島民調還在「途中」而已,
如果他們的抽樣夠隨機,或許未來這個年齡的樣本比例會下降。

同時,他們做出的年齡趨向也和市話的分佈很類似

https://i.imgur.com/5GyzMGw.png
[圖]

柯的支持度隨年紀遞減,賴侯則遞增。

但這樣問題又會回到原點,為什麼市話手機民調會和YT街訪民調差那麼多,
是表態率嗎?還是露臉問題?
但至少我們可以知道,市話民調的抽樣並不如想像中的嚴謹,
也許市話手機可以突破「空間」限制,但它也出現了別的限制,
只有18:30 - 22:00會接市話或手機、且願意接陌生電話的人,才會被訪查到,
這樣的人是否具有代表性,那就看你怎麼說服別人了。
相對的街訪民調也有他各種限制。

至於很多人在講YT街訪隨便做都是柯文哲勝出,其實也未必,
為了證明這一點,工具追加了篩選條件,
你可以篩選特定候選人勝出的影片

https://i.imgur.com/6ikOHcE.png
[圖]

雖然柯文哲的是有比較多,但大概也就將近一半而已,
侯勝出的影片也不少,只是確實集中在「桃園孫先生」,
所以大家會對他有意見也是沒辦法的事,
不過這和他的訪問習慣和名氣或許有點關係,
他訪問的時間白天居多,如果白天要上班的人大概也訪不到。

只要有心,也可以篩出心目中侯選人勝出的結果

https://i.imgur.com/555mRpV.png
[圖]

大膽假設,小心求證,大家國中理化都有學過這句話,
過於高估市話手機的準確性和低估街訪民調的參考性,或許都不那麼健康吧。


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.170.62 (臺灣)
※ 作者: Tpintrts 2023-09-20 17:27:24
※ 文章代碼(AID): #1b2hi0M3 (HatePolitics)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1695202048.A.583.html
tsubasawolfy: 摻在一起做meta然後調權重如何1F 42.75.22.225 台灣 09/20 17:30
我也覺得若有辦法兩邊互補抽樣弱點會有更接近實情的結果,但問題就在於
當你建立了一些模型和加權,就得說服大家這些加權方式是合理的,
於是又會回到信任問題。
wawaking1: 反正我只信師父第一的街頭民調2F 1.168.223.26 台灣 09/20 17:30
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 17:33:56
thbygn98: 只信木炭、新頭腦3F 61.230.42.90 台灣 09/20 17:36
Hohenzollern: https://i.imgur.com/kkxAxg5.png4F 101.12.30.213 台灣 09/20 17:36
[圖]
skbb2553: ...要不要去讀個統計學 然後有基礎概念後再回來看5F 114.136.41.184 台灣 09/20 17:37
好,我確實在學習中。
所以很想知道這些調查有什麼問題,又應該怎麼克服。
也許之後我會覺得自己很傻,但學問之進在乎疑嘛。
有些事情確實不是三言兩語說清楚的,
所以我會聽從你的建議,繼續學習統計學。
Hohenzollern: 只有新頭腦NewBrain的調和式民調最準確!7F 101.12.30.213 台灣 09/20 17:37
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 17:40:21
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 17:40:55
skbb2553: 如果覺得統計學很困難的話
就只要知道樣本數的目標是滿足抽樣誤差這樣就好9F 114.136.41.184 台灣 09/20 17:48
所以你的意思是60歲以上訪問了與人口比例明顯不符的32%,
其實是經過民調公司精密計算之後,可以滿足抽樣誤差的樣本數?
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 17:51:19
skbb2553: 總統民調的話 母體群是合格投票人口
不是所有法定年齡的人都能投票啊12F 114.136.41.184 台灣 09/20 17:50
這樣的話,60歲以上的抽樣應該要低於人口比例的21.6%(或27%)吧?
因為有些60歲以上的人可能無法投票?
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 17:54:20
macheal: T台不清楚,不過美麗島有加權
詳情去看吳懂的直播14F 1.160.103.250 台灣 09/20 17:56
chu:  #1aVRHik3 (HatePolitics)
裡面可以撈年齡五等分的人口數
裡面最後的 資料來源二
https://i.imgur.com/fBMFIUy.png16F 111.71.212.144 台灣 09/20 18:00
[討論] 統計下次年輕投票數可能和老人差不多 - 看板 HatePolitics - 批踢踢實業坊
作者: chu (chu) 早上看到這篇 [討論] 要怎樣讓年輕人20-30歲踴躍投票? 同時看到八卦版的老人數 到70-79人口數竟然崩跌得很嚴重  
 
[圖]
chu: 60歲以上人口30.5% TVBS寫30%可以接受啦
更正:TVBS寫32% 可以接受啦20F 111.71.212.144 台灣 09/20 18:01
原來如此,我查了一下其他份TVBS的總統民調,60歲以上確實都在32%~35%之間
所以這個確實是他們設定的人口比例,照你說的這樣接近實情的話那就合理
不過令人意外的是60~64歲的人口居然多達9%,
然後街訪民調的29%這時候反而也貼近實情了...
chu: https://i.imgur.com/PqPi8Mb.png
前幾天的董市長開講 除了年紀 學歷也要加權所以忘了哪份民調有提到什麼線性回歸加權22F 111.71.212.144 台灣 09/20 18:05
[圖]
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:10:07
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:21:20
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:21:45
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:35:34
SantaNM: 專業的民調公司也就會知道市話的樣本
會偏向老人 所以你看到的數據早就已經加權過了 如果是原始資料賴會更高
至於怎麼加權就是各家民調公司的know how反正到時候投票出來自然就對答案25F 140.113.78.113 台灣 09/20 18:33
其他的部份有沒有加權我不知道,
但年齡那邊就是單純訪問一票就算一票去算出來的,
沒有加權過的樣子。
至於用最後投票結果來驗證準不準,其實挺不公平的啦,
畢竟光是有「棄保」這種東西,民調就只能說支持度「當下」是那樣子,
投票日那天就未必了。
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:39:18
SantaNM: 專業的民調公司為了能長期賺錢 會把他當嚴肅的科學在做 而不是帶風向順便自慰的30F 140.113.78.113 台灣 09/20 18:37
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:41:05
SantaNM: 柯學 路邊隨機抽樣事實上一點也不隨機
除了成本很低以外毫無可取之處
這幾乎是所有統計學一開始就會提到的事但就因為便宜 就有人會不停犯相同的錯
來給大家笑32F 140.113.78.113 台灣 09/20 18:39
其實我今天的疑惑就是市話手機民調,好像也沒有比較「隨機」,
因為確實有相當比例的人訪不到。
彷彿那個時間點接不到電話的人就沒有投票權一般。
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:45:44
alancool: 60以上的確是30.5,你應該還是漏算了37F 101.10.95.118 台灣 09/20 18:43
我從60~64那欄算起,最後合計出來是5,964,220,
除總人口23,399,654,最後是25.488%,我的數字和你的一樣嗎?
算了兩次都這個數,還是哪裡除錯了?
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 18:53:36
kenyeh001: 這個真的很有研究精神呢,在這版Po這個,大概會被無視!!38F 111.83.98.142 台灣 09/20 18:55
alancool: 要扣掉沒投票權的啊40F 101.10.95.118 台灣 09/20 18:59
你是對的,犯了低級錯誤,要扣到未滿20歲的5,964,220人,除出來是30.5%
alancool: 你在乎人口比例完全重合,那美麗島民調就是了41F 101.10.95.118 台灣 09/20 19:00
※ 編輯: Tpintrts (59.115.170.62 臺灣), 09/20/2023 19:08:59
--
作者 Tpintrts 的最新發文:
點此顯示更多發文記錄