A**H 发帖数: 4797 | 1 有一百个样品。每一个样品的实际值是1,2,3,或者4。观察值范围变动大概是0.5到
12左右,也就是说,对于实际值是2的样品,有可能观察到1.8或者5.1。我想要的是一
个方法能有效的把样品分到四组,对应于实际值1,2,3,4
有几种测量方法,每一种都会得到这么一个样子的数据
实际值 观测值
2 3.4133
2 3.3333
2 3.0588
3 6.9932
4 7.0595
3 6.5312
2 6.4757
1 1.2419
4 10.337
2 6.0229
2 7.2705
4 8.1558
1 0.7025
怎么评判哪种测量方法好
大概可以看到观测值随着实际值增大而增大,correlation也支持这一点
补充:
我可以使用几种不同的测量方法(或者说计算方法),比如说甲乙丙三种方法,我想知
道哪种方法能让我更好的判断某个样品的实际值属于四组里面的哪一个小组(也就是实
际值是1,2,3,或者4)
给出的数据是一部分,真正的变化有点大,比如说
方法甲会产生
0.5~3.1观测值for实际值1
1.1~6.2观测值for实际值2
1.0~8.1观测值for实际值3
2.5~12.1观测值for实际值4
再:
不知道multinomial goodness of fit分析是不是合适
看了下,似乎不对。。。
再2:
举一个极端的例子
如果方法丙能产生
0.8~1.2观测值for实际值1
1.8~2.2观测值for实际值2
2.8~3.2观测值for实际值3
3.8~4.2观测值for实际值4
那这个方法肯定比上面说的方法甲要好
贴两个方法的data summary:
Method X:
> summary(r1$V2) #--- group for expected value = 1
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.019 1.694 2.095 2.110 2.451 3.435
> summary(r2$V2) #--- group for expected value = 2
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.892 3.235 3.865 4.215 4.917 9.557
> summary(r3$V2) #--- group for expected value = 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.122 6.438 7.031 7.491 8.155 10.760
> summary(r4$V2) #--- group for expected value = 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.732 7.269 8.644 8.975 10.110 12.370
Method Y:
> summary(r1$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.7025 1.2420 1.2720 1.6030 1.8330 3.1200
> summary(r2$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.210 2.344 3.181 3.633 4.895 10.270
> summary(r3$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.574 3.784 4.801 5.182 6.380 11.590
> summary(r4$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.232 6.876 7.547 8.473 8.701 15.580 |
D*a 发帖数: 6830 | 2 啥叫“哪种测量方法好“?你是要测量方法好还是要分四组?
观察值范围变动大概是0.5到
12左右,也就是说,对于实际值是2的样品,有可能观察到1.8或者5.1
---这个变动范围不是3么,怎么是12?到底是对于实际值是2的样品有可能观察到14还
是? |
A**H 发帖数: 4797 | 3 我可以使用几种不同的测量方法(或者说计算方法),比如说甲乙丙三种方法,我想知
道哪种方法能让我更好的判断某个样品的实际值属于四组里面的哪一个小组(也就是实
际值是1,2,3,或者4)
给出的数据是一部分,真正的变化有点大,比如说
方法甲会产生
0.5~3.1观测值for实际值1
1.1~6.2观测值for实际值2
1.0~8.1观测值for实际值3
2.5~12.1观测值for实际值4
举一个极端的例子
如果方法丙能产生
0.8~1.2观测值for实际值1
1.8~2.2观测值for实际值2
2.8~3.2观测值for实际值3
3.8~4.2观测值for实际值4
那这个方法肯定比上面说的方法甲要好
【在 D*a 的大作中提到】 : 啥叫“哪种测量方法好“?你是要测量方法好还是要分四组? : 观察值范围变动大概是0.5到 : 12左右,也就是说,对于实际值是2的样品,有可能观察到1.8或者5.1 : ---这个变动范围不是3么,怎么是12?到底是对于实际值是2的样品有可能观察到14还 : 是?
|
D*a 发帖数: 6830 | 4 那这种变动符合正态分布么?比如把所有数据都放一起能否看到几个明显的峰?
【在 A**H 的大作中提到】 : 我可以使用几种不同的测量方法(或者说计算方法),比如说甲乙丙三种方法,我想知 : 道哪种方法能让我更好的判断某个样品的实际值属于四组里面的哪一个小组(也就是实 : 际值是1,2,3,或者4) : 给出的数据是一部分,真正的变化有点大,比如说 : 方法甲会产生 : 0.5~3.1观测值for实际值1 : 1.1~6.2观测值for实际值2 : 1.0~8.1观测值for实际值3 : 2.5~12.1观测值for实际值4 : 举一个极端的例子
|
A**H 发帖数: 4797 | 5 应该不太能看到,因为样品里面的有实际值1,2,3,4的数目是不一样的,比如说30个
1,20个2,5个3,15个4
【在 D*a 的大作中提到】 : 那这种变动符合正态分布么?比如把所有数据都放一起能否看到几个明显的峰?
|
A**H 发帖数: 4797 | 6 Ultimately I need develop a method that can assign samples based on observed
values into groups (with expected values of 1, 2, 3, or 4). Of course the
more correctly assigned samples, the better. |
u*h 发帖数: 397 | 7 讨论一下:
假设:
对于 1 观察值分布 是否是正态分布?
对于 2, 3, 4 是不是也这样?
如果是这样, 是不是可以用multinomial logistic?
【在 A**H 的大作中提到】 : 有一百个样品。每一个样品的实际值是1,2,3,或者4。观察值范围变动大概是0.5到 : 12左右,也就是说,对于实际值是2的样品,有可能观察到1.8或者5.1。我想要的是一 : 个方法能有效的把样品分到四组,对应于实际值1,2,3,4 : 有几种测量方法,每一种都会得到这么一个样子的数据 : 实际值 观测值 : 2 3.4133 : 2 3.3333 : 2 3.0588 : 3 6.9932 : 4 7.0595
|
A**H 发帖数: 4797 | 8 应该不是很正态分布,不过我想也可以大约到正态分布吧
我查查看multinomial logistic去
【在 u*h 的大作中提到】 : 讨论一下: : 假设: : 对于 1 观察值分布 是否是正态分布? : 对于 2, 3, 4 是不是也这样? : 如果是这样, 是不是可以用multinomial logistic?
|
A**H 发帖数: 4797 | 9 贴两个方法的data summary:
Method X:
> summary(r1$V2) #--- group for expected value = 1
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.019 1.694 2.095 2.110 2.451 3.435
> summary(r2$V2) #--- group for expected value = 2
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.892 3.235 3.865 4.215 4.917 9.557
> summary(r3$V2) #--- group for expected value = 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.122 6.438 7.031 7.491 8.155 10.760
> summary(r4$V2) #--- group for expected value = 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.732 7.269 8.644 8.975 10.110 12.370
Method Y:
> summary(r1$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.7025 1.2420 1.2720 1.6030 1.8330 3.1200
> summary(r2$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.210 2.344 3.181 3.633 4.895 10.270
> summary(r3$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.574 3.784 4.801 5.182 6.380 11.590
> summary(r4$V2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.232 6.876 7.547 8.473 8.701 15.580 |
y***s 发帖数: 4225 | 10 ANCOVA, 测量方法 being the independent variable, 观测值 being the outcome,
实际值being the covariate. |
|
|
s**e 发帖数: 294 | 11 感觉可以用每个方法得出的数据做cluster analysis,结果和真正值用chi square去比
,看哪个跟真正值最吻合。 |
s*****j 发帖数: 6435 | 12 就LZ给的数据, 你这样算出来的”最吻合”结果.
你敢信吗?
【在 s**e 的大作中提到】 : 感觉可以用每个方法得出的数据做cluster analysis,结果和真正值用chi square去比 : ,看哪个跟真正值最吻合。
|
A**H 发帖数: 4797 | 13 数据和和ANCOVA的例子倒是长得有点像
不过ANCOVA是分析variance或者test hypothesis,不知道怎么用来评判我的方法中哪
个更好
我再学学去。。。
【在 y***s 的大作中提到】 : ANCOVA, 测量方法 being the independent variable, 观测值 being the outcome, : 实际值being the covariate.
|
u*h 发帖数: 397 | 14 一个建议:
choose values for a1 < a2 < a3 as separator values,
for example, a1 = 1.3, a2 = 2.8, a3=8.6;
For all the sample, based on the observation value:
if obv < a1, Y_hat = 1
if a1 < obv < a2, Y_hat = 2
if a2 < obv < a3, Y_hat = 3
if a3 < obv, Y_hat = 4
count the sum for Y_real <> Y_hat, call it error_sum
for each method, adjust a1, a2, a3 so the error_sum is minimum,
To compare between methods, the smaller error_sum, the better method.
note: each method should have it own a1, a2, a3 values.
【在 A**H 的大作中提到】 : 有一百个样品。每一个样品的实际值是1,2,3,或者4。观察值范围变动大概是0.5到 : 12左右,也就是说,对于实际值是2的样品,有可能观察到1.8或者5.1。我想要的是一 : 个方法能有效的把样品分到四组,对应于实际值1,2,3,4 : 有几种测量方法,每一种都会得到这么一个样子的数据 : 实际值 观测值 : 2 3.4133 : 2 3.3333 : 2 3.0588 : 3 6.9932 : 4 7.0595
|
s******s 发帖数: 13035 | 15 exactly. lz这数据再怎么model都没用,就三个separator,最小化错误率就行了。
【在 u*h 的大作中提到】 : 一个建议: : choose values for a1 < a2 < a3 as separator values, : for example, a1 = 1.3, a2 = 2.8, a3=8.6; : For all the sample, based on the observation value: : if obv < a1, Y_hat = 1 : if a1 < obv < a2, Y_hat = 2 : if a2 < obv < a3, Y_hat = 3 : if a3 < obv, Y_hat = 4 : count the sum for Y_real <> Y_hat, call it error_sum : for each method, adjust a1, a2, a3 so the error_sum is minimum,
|