l**********3 发帖数: 10970 | 1 难道不是poll调查选了谁就是谁嘛,哪里来的误差?系统误差? |
s******e 发帖数: 343 | 2 我们感兴趣的是整个population支持谁的比例有多少,但是我们不可能去问每个人,只
能选一个样本。样本越大越准确,多准确就用这个误差来描述 |
l**********3 发帖数: 10970 | 3 来说说,
如果总投票人口是1亿,他们抽1000人调查,误差是多少
【在 s******e 的大作中提到】 : 我们感兴趣的是整个population支持谁的比例有多少,但是我们不可能去问每个人,只 : 能选一个样本。样本越大越准确,多准确就用这个误差来描述
|
f**********n 发帖数: 29853 | 4 俺当年嘲笑日日日日的楼里,有个台湾连接有详细的解释。 |
t***n 发帖数: 546 | 5 解析解不会,搞个蒙特卡洛模拟应该很容易吧。
假定p1的几率的人投民主党,p2的几率的人弃权,1-p1-p2几率的人投共和党
产生1000个随机数,看各自投了多少。应该很接近p1:(1-p1-p2)
这样跑1000次,方差应该能算出来
找个码农10分钟就搞出来了吧 |
K*****2 发帖数: 9308 | 6 不是学统计的
粗略估算下,n个样本,投民主党的比例是p,投共和党的比例是1-p,那么民主党的
lead就是p-(1-p)=2p-1.
p的方差大概是p(1-p)/n, 标准差是这个数的平方根。p(1-p)最大值是1/4,假如n=1024
,那么标准差大概是1/2/32=1/64,也就是1.5625%。所以lead的标准差是这个数的两倍
,也就是3%. |
w**d 发帖数: 2334 | 7 不是学统计的。不过那些poll里常提到的误差,并不是真的误差就那么大。定义完全不
一样的。 |
q***0 发帖数: 225 | 8 把这个3%叫做误差其实有点misleading,实际上这是给了一个 confidence interval。
也就是说,假设sampling完全随机,真实结果和统计结果的差别在3%以内的机率有 95
%,或者说有95%的信心真实结果的误差在3%以内。
这个 margin of error 的大小是由调查人数决定的,根据统计学里的大数原理,这个
分布接近正态分布,这个 confidence interval 的大小是由正态分布的方差决定的,
而这个方差是由调查人数的多少决定的。调查的人数越多,confidence interval越小
,也就是说 margin of error 越小。
其实不需要调查太多人,一千人已经很准确了,但然做到完全随机很难,这也是poll出
错的主要原因。像538网站那样把那么多polls的data放在一起分析,单从统计学上讲,
应该非常非常准确 |
m****r 发帖数: 237 | 9 如果每个poll的样本都是representative的并且是随机的,那么合起来确实可以减小误
差。但是如果每一个poll的样本都是biased,那加起来也没有用。就看抽样的可靠程度
了。
95
【在 q***0 的大作中提到】 : 把这个3%叫做误差其实有点misleading,实际上这是给了一个 confidence interval。 : 也就是说,假设sampling完全随机,真实结果和统计结果的差别在3%以内的机率有 95 : %,或者说有95%的信心真实结果的误差在3%以内。 : 这个 margin of error 的大小是由调查人数决定的,根据统计学里的大数原理,这个 : 分布接近正态分布,这个 confidence interval 的大小是由正态分布的方差决定的, : 而这个方差是由调查人数的多少决定的。调查的人数越多,confidence interval越小 : ,也就是说 margin of error 越小。 : 其实不需要调查太多人,一千人已经很准确了,但然做到完全随机很难,这也是poll出 : 错的主要原因。像538网站那样把那么多polls的data放在一起分析,单从统计学上讲, : 应该非常非常准确
|
a****l 发帖数: 8211 | 10 统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。
【在 l**********3 的大作中提到】 : 难道不是poll调查选了谁就是谁嘛,哪里来的误差?系统误差?
|
q***0 发帖数: 225 | 11 那些制造结论的人恰恰是不懂统计学,滥用统计学里的概念,比如搞搞p-value 什么的
,这不是统计学的错
【在 a****l 的大作中提到】 : 统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。
|
v*******e 发帖数: 11604 | 12 算出来也是然并卵。最大的问题是bias。你打电话调查,查的都是家里有电话的。你去
街头调查,调查的都是逛街的。你去上门调查,调查的都是愿意给陌生人开门的。 |
q***0 发帖数: 225 | 13 很多样本是有bias,作统计的人时时刻刻在努力compensate,比如 Russmusen 的样本
,多少年来一直倾向共和党,CNN今年的poll实际上也倾向共和党,当然川粉不承认,
这在那些综合网站里都有纠正
【在 m****r 的大作中提到】 : 如果每个poll的样本都是representative的并且是随机的,那么合起来确实可以减小误 : 差。但是如果每一个poll的样本都是biased,那加起来也没有用。就看抽样的可靠程度 : 了。 : : 95
|