注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Puriney's Notes

Puriney=purine+Y, my Wonderland

 
 
 

日志

 
 

【转】p-value&FPR v.s. q-value&FDR  

2011-10-21 12:32:55|  分类: Bio |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
  1. 我一直觉得这个很有意思,为什么是0.05或者0.1,假如吃苹果对治疗心脏病有一定的效果,将心脏病人根据年龄、病史、性别分为2组,然后1组每天吃1个苹果(A),另一组不吃(B),假设:H0:A=B,
    H1:A>B,得到p=0.2,则我们一般会认为该实验没有确切的证据认为两者有差别。可是在现实生活中,如果一件事的发生概率是0.8,你一定会觉得这件事发生的可能性很大,那我要是心脏病人,一定会认为吃苹果是有效的。
    2 年 前回复 # 回复
  2. mono9952

    新手上路
    注册于: 2008/03/16
    发帖数: 31

    回答楼主题目:

    著名的英国统计学家费希尔把小概率的标准定为0.05,虽然费希尔并没有对为什么选择0.05给出充分的解释,但人们还是沿用了这个标准,把0.05或比0.05更小的上成小概率。

    ——《统计学(第三版)贾俊平 何晓群 金勇进》
    中国人民大学出版社(P216-217)

    这是我能找到的说法。
    2 年 前回复 # 回复
  3. shunqinature

    新手上路
    注册于: 2007/10/03
    发帖数: 42

    引用第0楼[i]luranguo[/i]于[i]2009-01-30 04:29[/i]发表的“为什么大多数都喜欢将p-value是否大于0.05作为标准呢?”:
    我一直觉得这个很有意思,为什么是0.05或者0.1,假如吃苹果对治疗心脏病有一定的效果,将心脏病人根据年龄、病史、性别分为2组,然后1组每天吃1个苹果(A),另一组不吃(B),假设:H0:A=B,
    H1:A>B,得到p=0.2,则我们一般会认为该实验没有确切的证据认为两者有差别。可是在现实生活中,如果一件事的发生概率是0.8,你一定会觉得这件事发生的可能性很大,那我要是心脏病人,一定会认为吃苹果是有效的。


    我个人觉得Fisher只是想相对保守一点吧,或者说求稳。记得原来看过artist说Fisher的思想是反证法,很赞同。就是说如果H0正确,但我们却看到了在H0下极其罕见的现象,那么我们认为H0是错误的。那么多“罕见”才算“罕见”呢?Fisher用了0.05的概率。也就是说,如果H0是正确的,那么我们只有5%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),所以更大的可能不是我们凑巧有了“罕见”的数据,而是我们假设的H0是错误的。

    如果用20%的话,我觉得是比较aggressive的做法。在H0的假设下,我们有20%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),那么究竟是因为我们的假设有问题呢还是我们凑巧有了这20%概率的数据呢?我觉得这个矛盾不是很尖锐啊。

    对于楼主把0.8解释成H0的概率,这个似乎欠妥。p不是H1发生的概率,1-p也不是H0发生的概率。
    2 年 前回复 # 回复
  4. chamdre

    新手上路
    注册于: 2009/01/11
    发帖数: 1

    引用第2楼[i]shunqinature[/i]于[i]2009-01-31 05:39[/i]发表的“”:


    我个人觉得Fisher只是想相对保守一点吧,或者说求稳。记得原来看过artist说Fisher的思想是反证法,很赞同。就是说如果H0正确,但我们却看到了在H0下极其罕见的现象,那么我们认为H0是错误的。那么多“罕见”才算“罕见”呢?Fisher用了0.05的概率。也就是说,如果H0是正确的,那么我们只有5%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),所以更大的可能不是我们凑巧有了“罕见”的数据,而是我们假设的H0是错误的。

    如果用20%的话,我觉得是比较aggressive的做法。在H0的假设下,我们有20%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),那么究竟是因为我们的假设有问题呢还是我们凑巧有了这20%概率的数据呢?我觉得这个矛盾不是很尖锐啊。
    .......


    我觉得各行各业对于p值都有不同的标准,例如对于经济学或者心里学中的检验,p值为0.1或者0.2,已经是很不错的结果了。所以,也许对于医学,正如楼主所言(具体情况我也不清楚),当p=0.2的时候,已经可以做为有效的证据之一。我们平日做的统计题目只是理论上的正确,其实并不一定符合实践的标准。

    我同意2楼的话,p不是H1发生的概率,这个在“不得不提的P值”郑冰的文章中有说明。
    2 年 前回复 # 回复
  5. liguow

    新手上路
    注册于: 2009/02/03
    发帖数: 2

    1) P-value 是 (在H0 = true的情况下)得到和试验数据一样极端(或更极端)的统计量的概率. 它不是H1发生的概率. 假定吃苹果的一组和不吃苹果的一组的差异为D, P-value=0.2的意思是, pure randomly (即H0=true)的情况下, 观察到和D一样或比D更大的差异的概率是20%. 

    2) p-value 的本质是控制PFR (false positive rate), hypothesis test 的目的是make decision. 传统上把小概率事件的概率定义为0.05或0.01, 但不总是这样. 主要根据研究目的. 在一次试验中(注意:是一次试验, 即single test), 0.05 或0.01的cutoff足够严格了(想象一下, 一个口袋有100个球, 95个白的, 5个红的, 只让你摸一次, 你能摸到红的可能性是多大?). 我刚才强调的是single test, 在multiple test中, 通常不用p-value, 而采用更加严格的q-value. 与p-value 不同, q-value 控制的是FDR (false discovery rate). 

    3)举个例子.假如有一种诊断艾滋病的试剂, 试验验证其准确性为99%(每100次诊断就有一次false positive). 对于一个被检测的人(single test) 来说, 这种准确性够了. 但对于医院 (multiple test) 来说, 这种准确性远远不够, 因为每诊断10 000个个体, 就会有100个人被误诊为艾滋病. 

    4)总之, 如果你很care false positive, p-value cutoff 就要很低. 如果你很care false negative (就是"宁可错杀一千, 也不能漏掉一个" 情况), p-value 可以适当放松到 0.1, 0.2 都是可以的. 

    -本人不是学统计出身, 亦没有数理背景, 错误之处, 请随时更正.
    2 年 前回复 # 回复
  6. shunqinature

    新手上路
    注册于: 2007/10/03
    发帖数: 42

    引用第4楼[i]liguow[/i]于[i]2009-02-04 12:57[/i]发表的“”:
    1) P-value 是 (在H0 = true的情况下)得到和试验数据一样极端(或更极端)的统计量的概率. 它不是H1发生的概率. 假定吃苹果的一组和不吃苹果的一组的差异为D, P-value=0.2的意思是, pure randomly (即H0=true)的情况下, 观察到和D一样或比D更大的差异的概率是20%. 

    2) p-value 的本质是控制PFR (false positive rate), hypothesis test 的目的是make decision. 传统上把小概率事件的概率定义为0.05或0.01, 但不总是这样. 主要根据研究目的. 在一次试验中(注意:是一次试验, 即single test), 0.05 或0.01的cutoff足够严格了(想象一下, 一个口袋有100个球, 95个白的, 5个红的, 只让你摸一次, 你能摸到红的可能性是多大?). 我刚才强调的是single test, 在multiple test中, 通常不用p-value, 而采用更加严格的q-value. 与p-value 不同, q-value 控制的是FDR (false discovery rate). 

    3)举个例子.假如有一种诊断艾滋病的试剂, 试验验证其准确性为99%(每100次诊断就有一次false positive). 对于一个被检测的人(single test) 来说, 这种准确性够了. 但对于医院 (multiple test) 来说, 这种准确性远远不够, 因为每诊断10 000个个体, 就会有100个人被误诊为艾滋病. 
    .......


    Multiple testing的问题最近越来越火了:)

    其实我一直有一个问题,从Benjamini开始,现在FDR的控制方法不下10种,为什么Storey的是最流行的?实际应用起来除了Benjamini的方法,其它所有的方法基本上都是一样的。q-value究竟是如何脱颖而出的呢?
    2 年 前回复 # 回复
  7. liguow

    新手上路
    注册于: 2009/02/03
    发帖数: 2

    引用第5楼[i]shunqinature[/i]于[i]2009-02-05 07:22[/i]发表的“”:


    Multiple testing的问题最近越来越火了:)

    其实我一直有一个问题,从Benjamini开始,现在FDR的控制方法不下10种,为什么Storey的是最流行的?实际应用起来除了Benjamini的方法,其它所有的方法基本上都是一样的。q-value究竟是如何脱颖而出的呢?


    q-value 是随着multipel test 而产生的. 在multiple test (比如10000次), 如果用p-value=0.05去cut. 如果有1000次是显著的, 那么在这1000中, 有10000*0.05=500次是 False positive. 这显然不能接受. 太宽松了. 

    Bonferroni提出FWER, 在上面的例子中, 就是把cutoff 设为: 0.05/10000 = 0.000005, 这虽然能控制False Positive, 但这只在极少数情况下有用. 因为太严格了, 大量的true alternatives 被miss掉了

    q-vlaue 实际上是上述两种方法的折衷. 既能控制FP, 有不会miss掉太多的true alternatives.

    For details see Storey's paper published ON PNAS (2003).
    2 年 前回复 # 回复
  8. shunqinature

    新手上路
    注册于: 2007/10/03
    发帖数: 42

    引用第6楼[i]liguow[/i]于[i]2009-02-05 14:24[/i]发表的“”:


    q-value 是随着multipel test 而产生的. 在multiple test (比如10000次), 如果用p-value=0.05去cut. 如果有1000次是显著的, 那么在这1000中, 有10000*0.05=500次是 False positive. 这显然不能接受. 太宽松了. 

    Bonferroni提出FWER, 在上面的例子中, 就是把cutoff 设为: 0.05/10000 = 0.000005, 这虽然能控制False Positive, 但这只在极少数情况下有用. 因为太严格了, 大量的true alternatives 被miss掉了
    .......


    赞同:)不过我的问题并不是关于FWER,而是关于FDR的控制。Benjamini and Hochberg在1995年第一次提出了FDR的概念,其出发点就是基于Bonferroni的保守性,并给出了控制FDR的方法(这算是FDR控制方法的祖师爷了)。不过他们的方法也有其保守性。所以随后人们开始研究更加powerful的方法,现有的方法有Storey的, Broberg的,Dalmasso的,Guan的,Strimmer的等等等等。Benjamini的方法是将FDR控制在一个level以下,而之后所有的方法都在试图精确地估计FDR。所以后来的这些方法都要powerful一些。不过他们所付出的代价就是robustness。

    现有FDR控制方法最大的弊端在于,他们假设p-value's under the null hypothesis是(1)independent(2)following uniform (0,1) distribution. 这两点假设从实际观察到的数据来看经常是不合理的,尤其是第二点。(顺便提一句,Storey和Leek在07年的PLOS Genetics发表了一篇文章专门解决第二个假设的合理性问题,很牛,有兴趣可以看一下)

    我现在的问题是:Storey的方法没有比后来出现的其它方法更精确,在robustness方面也没有体现其优越性。它究竟是怎么获胜的?为什么它是最流行的FDR control procedure?
    2 年 前回复 # 回复
  9. shunqinature

    新手上路
    注册于: 2007/10/03
    发帖数: 42

    引用第7楼[i]shunqinature[/i]于[i]2009-02-06 05:03[/i]发表的“”:


    赞同:)不过我的问题并不是关于FWER,而是关于FDR的控制。Benjamini and Hochberg在1995年第一次提出了FDR的概念,其出发点就是基于Bonferroni的保守性,并给出了控制FDR的方法(这算是FDR控制方法的祖师爷了)。不过他们的方法也有其保守性。所以随后人们开始研究更加powerful的方法,现有的方法有Storey的, Broberg的,Dalmasso的,Guan的,Strimmer的等等等等。Benjamini的方法是将FDR控制在一个level以下,而之后所有的方法都在试图精确地估计FDR。所以后来的这些方法都要powerful一些。不过他们所付出的代价就是robustness。

    现有FDR控制方法最大的弊端在于,他们假设p-value's under the null hypothesis是(1)independent(2)following uniform (0,1) distribution. 这两点假设从实际观察到的数据来看经常是不合理的,尤其是第二点。(顺便提一句,Storey和Leek在07年的PLOS Genetics发表了一篇文章专门解决第二个假设的合理性问题,很牛,有兴趣可以看一下)
    .......


    得高人指点了。答案比我想象得简单多了:因为q-value是“最早的”估计FDR的方法。

转自cos论坛
  评论这张
 
阅读(4228)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017