r******n 发帖数: 351 | 1 对dependent variable做一个log tranformation:
log(y) = XB + e,
where y is my dependent variable and X is my vector of independent
variables.
Now, from this regression I would like to obtain fitted/predicted
values for y.
I understand that E(y) is not equal to exp(E(log(y))).
Is the correct fitted value:
E(y) = exp( E(y) + (sigma^2)/2 ),
where sigma is the standard deviation of the error?
Is there a closed form method for obtaining the expected value | q********i 发帖数: 795 | 2 你的期望值好像有点不对啊,
z=log(y), 那么 Z 是 N(XB,sigma^2)
E(y)=E(exp(Z))
用泰勒级数展开后应该是
E(y)=exp(XB)(1+(sigma^2)/2) | s*****n 发帖数: 2174 | 3 你首先应该考虑一个问题, 计算E(y)的意义是什么
对于正态的分布(或者对称的分布), E(y)是描述
分布中心位置的参数. 对于某些其他的分布(比如泊松)
其代表一定的实际意义(可直白解释).
你之所以要做log transformation, 就是由于
原数据的特征不符合直接做回归的条件,
比如asymmetric, long-tail, 等等.
对于这样的distribution, 计算E(y)有什么意义呢,
E(y)有什么实际的meaning? 它既不代表分布的中心
特征, 又不代表任何可解释的意义. 即使数学上可
以推导具体的形式(比如用Taylor展开), 如果没有
实际意义的话, 计算E(y)也是毫无价值的.
这种情况, 一般都是考虑新的变量Z=log(Y), 然后
讨论Z的性质, 比如E(Z)什么的, 彻底忘掉Y和E(Y).
【在 r******n 的大作中提到】 : 对dependent variable做一个log tranformation: : log(y) = XB + e, : where y is my dependent variable and X is my vector of independent : variables. : Now, from this regression I would like to obtain fitted/predicted : values for y. : I understand that E(y) is not equal to exp(E(log(y))). : Is the correct fitted value: : E(y) = exp( E(y) + (sigma^2)/2 ), : where sigma is the standard deviation of the error?
| r******n 发帖数: 351 | 4 很有道理。我想这也是在统计学上这方面(back tranformation)讨论不多的原因。
但是在工业界里,E(y)确实有些用。 比如我们现在就想预测y (比如说是revenue),
讨论统计学上的意义也是为了最终更好的预测y (或者说求E(y))。 所以这个转换就非
常必要了。
【在 s*****n 的大作中提到】 : 你首先应该考虑一个问题, 计算E(y)的意义是什么 : 对于正态的分布(或者对称的分布), E(y)是描述 : 分布中心位置的参数. 对于某些其他的分布(比如泊松) : 其代表一定的实际意义(可直白解释). : 你之所以要做log transformation, 就是由于 : 原数据的特征不符合直接做回归的条件, : 比如asymmetric, long-tail, 等等. : 对于这样的distribution, 计算E(y)有什么意义呢, : E(y)有什么实际的meaning? 它既不代表分布的中心 : 特征, 又不代表任何可解释的意义. 即使数学上可
| s*****n 发帖数: 2174 | 5 所谓工业界里面希望求E(y), 无非就是人们已经习惯了"average"这个概念,
从而把这个概念应用到各个细节, 不管所谓的"average"到底合理不合理.
比如你说的例子, 想预测revenue, 但是只有log(revenue)才好用.
这种情况从纯统计来说, 根本就不应该来预测y, 只应该预测log(y), 或者
说人们看到revenue, 脑子里面就应该想成是log(reveune), 遇到reveune
就自动取log, 根本没有原始revenue的概念. 你的project中, 讨论的永远
是log(revenue), 根本不存在back-trans的问题. 当然这是理想情况, 现实中, 你未必
能说服你的manager把脑筋转过来. 这种情况下, 如果实在无法说服别人,
那就凑合transform回去好了, 不过麻烦的问题是, 你manager有可能问你,
"我自己把原数据取了个平均, 为什么和你给我fit的差这么远呢?" 这种情况
你还得费很大力气给他解释为什么 E(Y) =/= exp(E(log(Y))).
当然也有其他的方法, 比如用glm什么的. 只要结果能
【在 r******n 的大作中提到】 : 很有道理。我想这也是在统计学上这方面(back tranformation)讨论不多的原因。 : 但是在工业界里,E(y)确实有些用。 比如我们现在就想预测y (比如说是revenue), : 讨论统计学上的意义也是为了最终更好的预测y (或者说求E(y))。 所以这个转换就非 : 常必要了。
| s*r 发帖数: 2757 | 6 you won't get e(y) anyway
you will only get estimate of y for each observation
if it is a mle, you can estimate the mle for the function of e(y) easily
【在 r******n 的大作中提到】 : 对dependent variable做一个log tranformation: : log(y) = XB + e, : where y is my dependent variable and X is my vector of independent : variables. : Now, from this regression I would like to obtain fitted/predicted : values for y. : I understand that E(y) is not equal to exp(E(log(y))). : Is the correct fitted value: : E(y) = exp( E(y) + (sigma^2)/2 ), : where sigma is the standard deviation of the error?
| s*r 发帖数: 2757 | 7 in logistic regression, people use exp transformation of the regression
coefficient to get OR all the time.
【在 s*****n 的大作中提到】 : 你首先应该考虑一个问题, 计算E(y)的意义是什么 : 对于正态的分布(或者对称的分布), E(y)是描述 : 分布中心位置的参数. 对于某些其他的分布(比如泊松) : 其代表一定的实际意义(可直白解释). : 你之所以要做log transformation, 就是由于 : 原数据的特征不符合直接做回归的条件, : 比如asymmetric, long-tail, 等等. : 对于这样的distribution, 计算E(y)有什么意义呢, : E(y)有什么实际的meaning? 它既不代表分布的中心 : 特征, 又不代表任何可解释的意义. 即使数学上可
| h******a 发帖数: 198 | 8 可以直接硬算啊
E(y) = exp(x*beta)*E(exp(e)) | s*****n 发帖数: 2174 | 9 tranformation没有问题, 单点对单点.
不存在求E()这类概念就可以.
再说logistic regression 的情况和这个不一样.
那个不是对原始数据{0,1}进行transformation,
而是引入了一个概念性的probability.
而且对于这个probability的引申函数log(OR)进行
fit, 从来也没人讨论什么OR的expectation吧.
【在 s*r 的大作中提到】 : in logistic regression, people use exp transformation of the regression : coefficient to get OR all the time.
| j*****e 发帖数: 182 | 10 qiqiandlei (yubaobao) is right.songkun is wrong. We are dealing with the
mean of a transformed r.v., not a transformed mean. OR is a parameter, not a
r.v.
You need to use Taylor expansion to compute the mean. The higher the order,
the more acurate it would be. | s****s 发帖数: 368 | 11 It's a very common problem in health economics to estimate E(Y). Please see
Duan (JASA 1983) for the smearing estimate. | r******n 发帖数: 351 | 12 对,可以这样做。这个跟我在帖子里写的公式
E(y) = exp( E(y') + (sigma^2)/2 )
应该是等价的。
【在 h******a 的大作中提到】 : 可以直接硬算啊 : E(y) = exp(x*beta)*E(exp(e))
| g*******y 发帖数: 380 | 13 The Prof. who taught us used this in SAS anyway.
【在 r******n 的大作中提到】 : 对,可以这样做。这个跟我在帖子里写的公式 : E(y) = exp( E(y') + (sigma^2)/2 ) : 应该是等价的。
| D*****a 发帖数: 2847 | 14 E(x) has a much much deeper meaning. Not just a industry "convention".
But in this application, as you said, E(x) may not be the variable
of interest.
【在 s*****n 的大作中提到】 : 所谓工业界里面希望求E(y), 无非就是人们已经习惯了"average"这个概念, : 从而把这个概念应用到各个细节, 不管所谓的"average"到底合理不合理. : 比如你说的例子, 想预测revenue, 但是只有log(revenue)才好用. : 这种情况从纯统计来说, 根本就不应该来预测y, 只应该预测log(y), 或者 : 说人们看到revenue, 脑子里面就应该想成是log(reveune), 遇到reveune : 就自动取log, 根本没有原始revenue的概念. 你的project中, 讨论的永远 : 是log(revenue), 根本不存在back-trans的问题. 当然这是理想情况, 现实中, 你未必 : 能说服你的manager把脑筋转过来. 这种情况下, 如果实在无法说服别人, : 那就凑合transform回去好了, 不过麻烦的问题是, 你manager有可能问你, : "我自己把原数据取了个平均, 为什么和你给我fit的差这么远呢?" 这种情况
|
|