问题:在两分类问题中,一样本集,所有样本均未标定,如何估计该样本集合的label
的不确定信息。
抛砖引玉:假如我们能估计出p(y|x),对于一个样本Xi,我们可以简单的估计它的label
的不确定信息:
p(y=1|Xi)log(p(y=1|Xi))+p(y=-1|Xi)log(p(y=-1|Xi))
y is the label of one sample
那么如何估计多个样本的label的不确定信息,我们不能简单的将每个样本的label不确
定的信息相加,因为样本之间相互影响。所以必须消除它们之间的冗余信息。
谢谢各位大侠!