感慨一下数学/物理和生物合作之难 - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 感慨一下数学/物理和生物合作之难

相关主题
● 生物使用数学	● 请教DNA长度的一个问题
● 求助！！！ChIP-qPCR中的percentage input方法	● 统计学感觉是伪科学
● Phosphopeptide Enrichment kit	● 大家看看，这TIME上的话，是不是有语法错误？
● 请教gene ontology/enrichment	● 有没有这样的在线工具
● [求助]RNA-seq data怎么做broad的GSEA分析	● 生物学与数理化的根本区别。
● [转载] 科学技术的重大变革：生物芯片	● 聚合酶polymerase 的proof-reading
● DNA相邻碱基对之间的距离，与整个DNA长短有关吗？	● Tas1r2基因
● 再聊进化论：热运动组装第一个基因 (转载)	● 请大家推荐点生物的科普读物

相关话题的讨论汇总
话题: enrichment话题: 生物话题: gene话题: bayesian话题: 数学

进入Biology版参与讨论

(共1页)

s**********y
发帖数: 509

重读了艳阳天的巨贴，我也与生物学家合作了十几年了，也来讲讲另一端的感受。
给大家提供另一个侧面，希望有助合作。无意踢馆，如有冒犯，请多包涵。
如果已经读了帖子 “生物使用数学“，您可以跳过此帖，因为我只是把信息整理了
一下。
I
生物中数学的使用有限，主要在于生物研究从整体上仍处于描述的状态，还没有进入
预测的状态。如果只用于描述，数学就会显得太复杂。
生物学的描述往往依赖于感觉（或视觉）。很多分子层面的描述，没有数据的支持，
可以称之为少量数据 + 大量想象。国内某名家称动画，（ppt animation）对生
物过程描述恒重要。要是从数理来看，几乎是臆想（呵呵）
经典遗传学，是可以用数学预测 (如豌豆性状 3：1 分离）。但太少了。
想起一个故事：生物老师上课：某植物叶缘是大圆，某植物叶缘是小圆。
某植物叶缘是大齿，某植物叶缘是小齿。
数学家：大小和形状是需要定义的！您在讲曲率，挠率，半径，还是弧长？
生物老师：少打岔，认识杨树和槐树的差别吗？
关于形态分类， see 早期癌症细胞的自动分类。
II
生物学的基本思维是归纳，数学的基本思维是演绎。又想起一个故事：
生物学家：我发现RNA可以是酶！
其他生物学家：太重要了， Nobel price level work!
数学家：哪条（物理，化学）定理告诉你 RNA不能是酶？我们证明了在一个公里体
系中，有无数这样的定理，既不可以被证否，也不可以被证实 (a Hilbert Problem)
。看见了一个新的事实就 high 成这样，那我们还不 high 死了。
III
生物学的基本思维是归纳，所以有一个新的事实，大家都很兴奋。
数学的基本思维是演绎。数学工具用的强的邻域，只有在新的事实挑战既有的理论时
，大家才兴奋。参见十九世纪末的物理学。
生物学研究有一个特点，大家都在找新的事实。欢句话说，如果一个体系已近可以
开始演绎，生物学的热点早已过去（参见老鼠派对虫子派，尽管虫子还离演绎差
很远）。
也就是说当你的回归方程可以用的时候，生物学家会说让我们考虑另一种情况，原来
的情况已近太简单！？：）。 so you are chasing a moving target all the time
。
IV
生物学和数学可以结合吗？结论是悲观的。但是我们看到的却是数学越来越多的在生
物学中引用。为什么？
（1）新仪器。测序，图像，筛选，array，这些技术的出现使得数学处理非常有用
。凡是在instrumentation上做的，对最终的生物问题可以不关心；但生物学家对数
据的处理不能不关心。
（2）医学。生物学的研究常常没有 end-point 但医学一定有end-point。只要有了
end-point，不管演绎，归纳，都可以看看对 end-point 有没有贡献。诸位都可以
大展圣手。
V
在生物的描述中，大量使用报道（report）这个词。一读到这我就常常发晕，
这学科到底是新闻还是科学。
在数理中，大量使用证明这个词。不是说不需要想象，但是还需要证实。个人很
欣赏这一点。也就是大胆假设，小心求证的意思。
生物学追求新现象，体系自是越复杂越好。数理追求事物之间的联系，体系自是越
简单越好。
各位生物学家不必担心数理背景的人来抢饭碗（呵呵），生物学家拿手绝活就是在
只有少量事实的情况下，对复杂体系进行探索（a.k.a. 瞎子摸象）。数理背景的人
一般干不了，尽管也有例外。这活绝对挑战人类智力，一不小心也常常侮辱读者智
商。
数理背景的人拿手绝活就是用少数数理规律对复杂体系进行探索（a.k.a. 夜郎自大，
具体事例见：给我一个支点，我就可以撬起整个地球）。这活也绝对挑战人类智
力，但用到生物这种复杂体系上一不小心就制造喜剧效果。
VI
世事无常，有位兄台提过（见MHP，事情已经起了变化。歪一下，赞题目醒目，恍
惚在读人民日报），以前找到几个基因有表达差异，就可以报道了。现在一个片子
，所有的都在那了。以前突变了以后，要看对几个pathway的影响要做半年，现在
subcontract出去， 10天回来结果。高通数据使生物学正在快速向数理靠近：全面收
集数据，产生假说，在假说的基础上再全面收集数据。现在的实验室， array，
sequencing 是常规。有了数据，数理推断就有了坚实的基础。谁也不能直接更数据
较劲，是吧？
看样子，生物和数理的合作只会加强，不会减弱。

k*****1
发帖数: 454

好文章！晚上再评
ps，那个“盲人摸象”的比喻虽然刻薄了点，但是很形象。

l**********1
发帖数: 5204

sure 大多欧美生物PIs 大学的微积分考试是没有经历过或是D or E score 吧哈即
使从牛(顿)莱(不尼兹)的眼里看都是文科生
更不用说从加(罗瓦)巴(拿赫) 的群论或泛函来看那是幼儿园毕业生吧哈
不过有了MathWorks (Matlab) 即使小学新生的算术水平到巴(拿赫) 的泛函可能2
～3年就可搞掂吧哈
当然在HIV Cancer 上可以用上群论或泛函的时代还尚未来到...

【在 k*****1 的大作中提到】

: 好文章！晚上再评
: ps，那个“盲人摸象”的比喻虽然刻薄了点，但是很形象。

B****m
发帖数: 63

好文。很喜欢这些天版上对交叉学科的讨论，也学习了很多。看来要在这个学科做好，
还要打好很深的数理和计算功底。
我是做实验出身，还有很多数学的知识需要学习补充。根据楼上lotkaeuler11 的观点
，数学是超前于生物学科需要的，以至于癌症等研究领域要继续发展，才能到应用到群
论或泛函。
而我认为当前的数学或者计算工具是不够的。曾经跟一个数学出身，做生物计算的薄厚
聊过，他通过计算来预测蛋白修饰加工。我问他说，某个蛋白的修饰（糖基化，磷酸化
等）可能涉及到一些当前还不清楚的信号和细胞因子，他如何保证预测的准确性。他说
他无法验证预测是不是正确，因为他们不做实验，只计算。
个人认为，对于单变量或者少数变量的过程，便于建立数学模型。而对于涉及多变量的
过程，如病毒致病或者机体发育，则很难建立数学模型。但是生物学家采用数理和计算
工具肯定是将来的大方向，因为只有这样才能更深刻理解自己的数据，助于新发现。

k*****1
发帖数: 454

多变量的系统都不是“解出来的”，而是通过数值计算的方式“仿真”出来的。
比如说如果要模拟一个细胞，里面有几千个"抽象"的离子通道，每个离子通道假设是4
个微分方程，一个细胞就代表至少1万个以上的微分方程。在实际的求解当中，都是用
特定的数值计算求解的算法对微分方程进行求解。
所以理论上只要是常见的数学模型，不管有多少个变量，都能用计算机给“解”出来，
缺点就是运算速度和计算精度不太好控制。

【在 B****m 的大作中提到】

: 好文。很喜欢这些天版上对交叉学科的讨论，也学习了很多。看来要在这个学科做好，
: 还要打好很深的数理和计算功底。
: 我是做实验出身，还有很多数学的知识需要学习补充。根据楼上lotkaeuler11 的观点
: ，数学是超前于生物学科需要的，以至于癌症等研究领域要继续发展，才能到应用到群
: 论或泛函。
: 而我认为当前的数学或者计算工具是不够的。曾经跟一个数学出身，做生物计算的薄厚
: 聊过，他通过计算来预测蛋白修饰加工。我问他说，某个蛋白的修饰（糖基化，磷酸化
: 等）可能涉及到一些当前还不清楚的信号和细胞因子，他如何保证预测的准确性。他说
: 他无法验证预测是不是正确，因为他们不做实验，只计算。
: 个人认为，对于单变量或者少数变量的过程，便于建立数学模型。而对于涉及多变量的

k*****1
发帖数: 454

另外，我觉得现在工程领域的数学工具已经足够了，只是还没引入生物而已。不要轻易
说数学/物理知识不够，理论物理已经远远领先于人类现有的实践水平有200年了，开始
思考宇宙起源这样的数学模型了，难道研究一个生物体还不够？
另外，你知道波音这样的飞机是怎么设计出来的吗？波音空客这样的公司有自己专门的
设计软件，先把飞机在软件当中“仿真”出来，然后再在实际当中进行生产和调试。描
述一架客机的“模型”里面有几十万上百万个参数，你把现在所有已知的生物方面的知
识加起来能有上百万个参数？

【在 B****m 的大作中提到】

D*a
发帖数: 6830

回答最后一个问题很简单啊，仿真一下进化就行了。。。或者仿真一下某个部件的进化
也行，什么脑子啊肝啊眼睛啊什么的。看看是不是比仿真大灰机简单些。

【在 k*****1 的大作中提到】

: 另外，我觉得现在工程领域的数学工具已经足够了，只是还没引入生物而已。不要轻易
: 说数学/物理知识不够，理论物理已经远远领先于人类现有的实践水平有200年了，开始
: 思考宇宙起源这样的数学模型了，难道研究一个生物体还不够？
: 另外，你知道波音这样的飞机是怎么设计出来的吗？波音空客这样的公司有自己专门的
: 设计软件，先把飞机在软件当中“仿真”出来，然后再在实际当中进行生产和调试。描
: 述一架客机的“模型”里面有几十万上百万个参数，你把现在所有已知的生物方面的知
: 识加起来能有上百万个参数？

k*****1
发帖数: 454

哈只要你有参数而且参数足够准确真的可以试一下。
波音公司有自己的数据库和模型库，都是上百年制造经验的积累。每个零件各种型号的
参数都记录下来以供仿真。

【在 D*a 的大作中提到】

: 回答最后一个问题很简单啊，仿真一下进化就行了。。。或者仿真一下某个部件的进化
: 也行，什么脑子啊肝啊眼睛啊什么的。看看是不是比仿真大灰机简单些。

B****m
发帖数: 63

仿真飞机可能比仿真甚至一个酵母细胞简单些。
机械的东西大部分是模块化，并且参数可测。而生物过程的很多因素我们还不清楚，并
且研究的因素是动态且相互联系的，复杂性存在于不同过程和因子的相互作用和联系。
按说现在对人的了解也是很深刻了，人与人之间的相互关系也没有很多种，但是如何预
测和仿真人类社会的运作和发展。我对神经科学不懂，但是如果把每个人比作一个神经
细胞，对人类社会的仿真就有些像对人脑的仿真了，复杂性存在于巨大的相互作用中。

k*****1
发帖数: 454

生物系同是一系列的微观系统的集合；这中间每一个微观系统，最微观的层面，比如说
分子运动，都没有超出现在人类所需要的物理和数学知识。理论上只要参数足够多，肯
定可以描述的很清楚。

【在 B****m 的大作中提到】

: 仿真飞机可能比仿真甚至一个酵母细胞简单些。
: 机械的东西大部分是模块化，并且参数可测。而生物过程的很多因素我们还不清楚，并
: 且研究的因素是动态且相互联系的，复杂性存在于不同过程和因子的相互作用和联系。
: 按说现在对人的了解也是很深刻了，人与人之间的相互关系也没有很多种，但是如何预
: 测和仿真人类社会的运作和发展。我对神经科学不懂，但是如果把每个人比作一个神经
: 细胞，对人类社会的仿真就有些像对人脑的仿真了，复杂性存在于巨大的相互作用中。

相关主题
● [转载] 科学技术的重大变革：生物芯片	● 请教DNA长度的一个问题
● DNA相邻碱基对之间的距离，与整个DNA长短有关吗？	● 统计学感觉是伪科学
● 再聊进化论：热运动组装第一个基因 (转载)	● 大家看看，这TIME上的话，是不是有语法错误？
进入Biology版参与讨论

k*****1
发帖数: 454

另外，我的观点是，一个系统的复杂度不是问题，只要这个系统最基本的那个层面的运
动现象没有超出现有的数学和物理知识就可以了。

【在 B****m 的大作中提到】

B****m
发帖数: 63

我们社会的知识积累比播音公司的时间更长，但是我们如果能获取每个人的参数，不知
能否仿真和预测哪怕是社会的一个小方面（比如我们政治改革的方向）；我们了解某个
人每个脑细胞的参数，能否模拟重现他的思维和思想。我希望当前的数学/物理知识已
经领先生命科学的应用需求200年了，这样我们做生物的只需要学习一下相关知识和工
具就行。

D*a
发帖数: 6830

令我想起了“心理史学”^_^

【在 B****m 的大作中提到】

: 我们社会的知识积累比播音公司的时间更长，但是我们如果能获取每个人的参数，不知
: 能否仿真和预测哪怕是社会的一个小方面（比如我们政治改革的方向）；我们了解某个
: 人每个脑细胞的参数，能否模拟重现他的思维和思想。我希望当前的数学/物理知识已
: 经领先生命科学的应用需求200年了，这样我们做生物的只需要学习一下相关知识和工
: 具就行。

k*****1
发帖数: 454

你说到点子上了。难度不在于数学和物理知识，而在于如何“有目的”的搜集参数和获
取参数。
你说到神经科学，我觉得现在能够“有目的”的去搜集参数的还只有离子通道这一个。
其他的很多参数，绝大部分是因为仪器限制测不出来，比如说离子通道的分布，还有很
小一部分是能够测出来但是搞实验的可能认为太简单没有价值所以不太愿意去测试，比
如说buffer的性质。
对于神经科学，我觉得改进测量的仪器是目前来说最重要的事情。很多测量仪器本身就
是在破坏细胞的完整性，这样测出来的数据基本上都是在测试的被“毒死”的细胞的参
数。

【在 B****m 的大作中提到】

k*****1
发帖数: 454

说句题外话，我在硕士毕业的时候，曾经有机会参与建立一个年收入超过200亿美元的
外企在北京的研发中心。他们主要做的就是模拟气候对中国社会活动的
影响，从而为产品定价提供参考。当时已经面试到最后一轮了，可惜金融危机来了，整
个项目被取消了。这家公司在历史上曾经比较准确的利用气候模型对产品价格提供了准
确的分析。
所以也许模拟人类活动还停留在比较基础的阶段，但是毫无疑问是有一定效果的。

【在 B****m 的大作中提到】

B****m
发帖数: 63

交流是个学习知识的好方式。我对数学的很多知识和工具不懂，希望能多学些。
把中国和美国比作两个不同类型的细胞。当然这两个国家都是由具体的资源、人口和运
作体系组成，不存在超自然的东西。但是我认为这两个系统的复杂性都是问题，有些局
势的发展甚至上层都无法预测和掌控。
细胞也是一样，没有超自然的过程。但是具体一个细胞的过程同它自身的特性、大环境
和小环境都有关，然后决定是放电、分裂、凋亡、攻击、休眠或者其他响应。我一会要
去吃饭，这是我决定的；但是我的腿上一块肌肉不停抽搐，我无法预知也无法控制，不
知能否仿真出来。
如果我们对生物过程认识得深入，对我们社会也会认识得更深入；希望我们的生活会因
此变好。

【在 k*****1 的大作中提到】

: 另外，我的观点是，一个系统的复杂度不是问题，只要这个系统最基本的那个层面的运
: 动现象没有超出现有的数学和物理知识就可以了。

k*****1
发帖数: 454

说到预测，我说一个我最喜欢也是最简单的模型，马尔可夫模型（我不太喜欢复杂的东
西，什么东西都喜欢往简单的去理解，所以也经常被某些要求严格的同行们批评，哈哈）
马尔可夫模型的原理特别简单：就是如果一个过程当中任何event的现在的状态只取决
于之前一步的那个状态。也就是P(第i状态的概率）=P（第i-1状态的概率）*P（从(i-1
)状态进化到i状态的概率）。
如果把马尔可夫模型运用到你所说的那个事情上，可以这么理解。
i状态为“脚抽筋”，i-1状态为“去吃饭”。那么你可以统计一下平时在去吃饭的情况
下会脚抽筋的条件概率 P（脚抽筋|去吃饭），这样你就可以完美的建立起一个概率模
型出来了。
假设 P（脚抽筋|去吃饭）= 0.1（十次发生一次），而你一般在12点会去吃饭的概率
为0.5 （ 50% ），那么你在中午12点会脚抽筋的概率就是：0.1*0.5 = 0.05 这个0.
05就是可被预知的概率，它的准确性完全取决于你是否建立一个数据库，能够最精准的
记录 P（脚抽筋|去吃饭）和 P（吃饭）。

【在 B****m 的大作中提到】

: 交流是个学习知识的好方式。我对数学的很多知识和工具不懂，希望能多学些。
: 把中国和美国比作两个不同类型的细胞。当然这两个国家都是由具体的资源、人口和运
: 作体系组成，不存在超自然的东西。但是我认为这两个系统的复杂性都是问题，有些局
: 势的发展甚至上层都无法预测和掌控。
: 细胞也是一样，没有超自然的过程。但是具体一个细胞的过程同它自身的特性、大环境
: 和小环境都有关，然后决定是放电、分裂、凋亡、攻击、休眠或者其他响应。我一会要
: 去吃饭，这是我决定的；但是我的腿上一块肌肉不停抽搐，我无法预知也无法控制，不
: 知能否仿真出来。
: 如果我们对生物过程认识得深入，对我们社会也会认识得更深入；希望我们的生活会因
: 此变好。

B****m
发帖数: 63

有意思，有空应该学习一下。但是这个模型只能用于连续并且是简单过程吧？腿抽筋不
是吃饭的原因，而吃饭也不是腿抽筋的原因，他们是不相关的过程。但是它们同时发生
的时候就会有作用，比如说要多坐一会，等腿舒服以后再吃饭。

k*****1
发帖数: 454

马尔可夫过程的特点就是把相关性理解成“概率”。按照这个理念，任何事务都是“相
关”的，只不过是相关的概率多少而已。这和逻辑学上的相关性没有任何关系。或者可
以这么理解，两个在逻辑上不相关的事件概率是很低的，比如说0.0001 （你总不可能
说这两个事件永远都不会同时发生吧）；而越相关的事件概率也就越高。
马尔可夫链可以是连续函数，也可以是离散函数。取决你用的概率模型是连续的还是离
散的。

【在 B****m 的大作中提到】

: 有意思，有空应该学习一下。但是这个模型只能用于连续并且是简单过程吧？腿抽筋不
: 是吃饭的原因，而吃饭也不是腿抽筋的原因，他们是不相关的过程。但是它们同时发生
: 的时候就会有作用，比如说要多坐一会，等腿舒服以后再吃饭。

B****m
发帖数: 63

说到概率，我有个问题。一个5岁儿童，从2岁起就在生日前后一星期内发烧。2岁生日
前一周发烧2次，3岁生日前发烧1次，四岁生日前发烧一次，5岁生日后发烧一次。那他
在生日前后发烧是有触发因素，还是纯属巧合？

相关主题
● 有没有这样的在线工具	● Tas1r2基因
● 生物学与数理化的根本区别。	● 请大家推荐点生物的科普读物
● 聚合酶polymerase 的proof-reading	● 怎么得到一个最小基因组的老鼠？
进入Biology版参与讨论

k*****1
发帖数: 454

如果你想用马尔可夫过程来表示因果关系，也很简单，就是P（A->B) = 0.5 but P(B->
A) = 0 ;
这个意思就是说从event A 到 B 的概率是 0.5（这个数字是随意取的）但是从B到A的
概率为0，也就是说A为因，B为果。
在现实生活中，你可能观察到两个独立的事件，假设你不知道这二者之间有什么因果关
系，
如果 P（A->B)>>P(B->A), 也可以理解成A为因的可能性更大。

【在 B****m 的大作中提到】

k*****1
发帖数: 454

不用数学我都可以告诉你这是有触发原因的，哈哈

【在 B****m 的大作中提到】

: 说到概率，我有个问题。一个5岁儿童，从2岁起就在生日前后一星期内发烧。2岁生日
: 前一周发烧2次，3岁生日前发烧1次，四岁生日前发烧一次，5岁生日后发烧一次。那他
: 在生日前后发烧是有触发因素，还是纯属巧合？

b****r
发帖数: 17995

拿波音飞机的复杂程度和人体比，这也太夜郎自大了
人体的复杂程度不知道要比波音飞机高多少个数量级，现在还完全处于人类无法想象的
程度，更不要说像波音飞机那样自由改装，批量生产了
我有个帖子已经说过，要解决生物体的重大问题，你们这些数理PhD不幸起码早生50年
，也有可能早生了500年甚至更多，这是个目前根本深不见底的坑

【在 k*****1 的大作中提到】

b****r
发帖数: 17995

你还真喷了不少啊
随便给你一条简单的事实吧
现在很多人都在用数理方法，用计算机模拟蛋白分子的运动和构象，我有好几个哥们都
是做这个的。有很多几十个氨基酸的多肽链，在上十亿年进化史上无数种动物体内几乎
毫无例外都会按照同一种方式进行折叠，但是做数学模型的人就是无法理解它们为什么
要这么折叠，而不是用其他方式折。类似的，如果他们企图预测改变其中一个氨基酸
后，这个肽链到底会不会改变折叠方式，准确率也仍然相当低，我们生物学家根本不能
直接拿这个预测结果用，还是要反复实验验证
这还只是一条结构已经很清楚的肽链，哪怕是对于一个最简单的单细胞动物来讲，用你
的比方来讲，也就是波音飞机上的一个螺丝钉的级别。
以我有限的生物信息学知识，预测多肽的折叠方式到还是当今数理学家们这辈子比较容
易理解也有可能解决的生物问题，而且对生物科学意义也算是比较大，你可以google些
相关文献看看

【在 k*****1 的大作中提到】

: 生物系同是一系列的微观系统的集合；这中间每一个微观系统，最微观的层面，比如说
: 分子运动，都没有超出现在人类所需要的物理和数学知识。理论上只要参数足够多，肯
: 定可以描述的很清楚。

k*****1
发帖数: 454

你没看懂我的意思。
我的意思是，现在生物领域内已经累积的知识，所能描绘的参数还不能和波音飞机的复
杂度相比。另外，飞机设计的过程不是你想象的那么简单，把一堆零件堆到一起就行了
。还要考虑到精度和强度，这是最难的地方。

【在 b****r 的大作中提到】

: 拿波音飞机的复杂程度和人体比，这也太夜郎自大了
: 人体的复杂程度不知道要比波音飞机高多少个数量级，现在还完全处于人类无法想象的
: 程度，更不要说像波音飞机那样自由改装，批量生产了
: 我有个帖子已经说过，要解决生物体的重大问题，你们这些数理PhD不幸起码早生50年
: ，也有可能早生了500年甚至更多，这是个目前根本深不见底的坑

b****r
发帖数: 17995

你这个东西我倒是知道点，我记得现在一些输入法就是用这个模型，根据你输入的上一
个字对于下一个字甚至一整句话提供建议吧。这个工作可以说做了也有一阵子了，咱们
用的这些拼音输入法据我所知都用上好一阵子了，按照输入法软件的热门程度，我估计
数理学家们已经把这个模型用到了它目前最大的限度。
不过效果到底怎么样，每个打字的人应该都有数。打到第3，4个字就错误百出，面目
全非了。这还是简单的二维单向预测，还有无数一目了然的training set（已有的典籍
）。可以想象，用这种简单的笨办法去预测4维的生物现象能走多远了。更何况限于技
术和精力，生物现象很多时候还根本没有多少training set可用，还得靠生物学家慢慢
做实验收集

哈）
-1

【在 k*****1 的大作中提到】

: 说到预测，我说一个我最喜欢也是最简单的模型，马尔可夫模型（我不太喜欢复杂的东
: 西，什么东西都喜欢往简单的去理解，所以也经常被某些要求严格的同行们批评，哈哈）
: 马尔可夫模型的原理特别简单：就是如果一个过程当中任何event的现在的状态只取决
: 于之前一步的那个状态。也就是P(第i状态的概率）=P（第i-1状态的概率）*P（从(i-1
: )状态进化到i状态的概率）。
: 如果把马尔可夫模型运用到你所说的那个事情上，可以这么理解。
: i状态为“脚抽筋”，i-1状态为“去吃饭”。那么你可以统计一下平时在去吃饭的情况
: 下会脚抽筋的条件概率 P（脚抽筋|去吃饭），这样你就可以完美的建立起一个概率模
: 型出来了。
: 假设 P（脚抽筋|去吃饭）= 0.1（十次发生一次），而你一般在12点会去吃饭的概率

k*****1
发帖数: 454

排开模型不讲（拼音的模型估计是最简单的那种），我觉得你提到的training set是个
很关键的地方。正如我上面提到的，生物学家现在还没有意识去“标准化”自己的工作
流程，建立数据库。

【在 b****r 的大作中提到】

: 你这个东西我倒是知道点，我记得现在一些输入法就是用这个模型，根据你输入的上一
: 个字对于下一个字甚至一整句话提供建议吧。这个工作可以说做了也有一阵子了，咱们
: 用的这些拼音输入法据我所知都用上好一阵子了，按照输入法软件的热门程度，我估计
: 数理学家们已经把这个模型用到了它目前最大的限度。
: 不过效果到底怎么样，每个打字的人应该都有数。打到第3，4个字就错误百出，面目
: 全非了。这还是简单的二维单向预测，还有无数一目了然的training set（已有的典籍
: ）。可以想象，用这种简单的笨办法去预测4维的生物现象能走多远了。更何况限于技
: 术和精力，生物现象很多时候还根本没有多少training set可用，还得靠生物学家慢慢
: 做实验收集
:

b****r
发帖数: 17995

就是因为已知的少，所以更不好预测
不过你觉得生物体已知的才几百万个参数，那你也太。。大胆了，赤裸裸鄙视咱们啊
就拿我们生物学我看最类似计算机运行方式的DNA来讲，就有30亿个碱基对，每个碱基
对都4种可能，这个序列已经搞清楚了。而我们已经发现了起码其中几万个碱基对，只
要其中一对错了，整个系统就坍塌了，人根本活不了，而另外起码几千万个碱基对，我
们也基本搞清楚了，错了的话基本没有关系。这个还只是生物几十个子学科里一个学科
的最基本的一项数据

【在 k*****1 的大作中提到】

: 你没看懂我的意思。
: 我的意思是，现在生物领域内已经累积的知识，所能描绘的参数还不能和波音飞机的复
: 杂度相比。另外，飞机设计的过程不是你想象的那么简单，把一堆零件堆到一起就行了
: 。还要考虑到精度和强度，这是最难的地方。

b****r
发帖数: 17995

见我关于30亿碱基对的上贴吧。为什么总是有人觉得自己就是比别人聪明，别人会傻到
一些基本的东西都想不到呢，特别是整个行业都这么傻

【在 k*****1 的大作中提到】

: 排开模型不讲（拼音的模型估计是最简单的那种），我觉得你提到的training set是个
: 很关键的地方。正如我上面提到的，生物学家现在还没有意识去“标准化”自己的工作
: 流程，建立数据库。

B****m
发帖数: 63

俺是期待你给点专业的回答呢。比如说下次发生的概率是多少？
他不识字的老外婆也推断他发烧跟生日之间有联系。但是医生认为是巧合。
具体对不对，会有验证的时候。

【在 k*****1 的大作中提到】

: 不用数学我都可以告诉你这是有触发原因的，哈哈

相关主题
● [合集] 高屋建瓴，点评生物学家　（二）	● 求助！！！ChIP-qPCR中的percentage input方法
● 饶毅的这篇文章貌似有很多八卦......	● Phosphopeptide Enrichment kit
● 生物使用数学	● 请教gene ontology/enrichment
进入Biology版参与讨论

r****t
发帖数: 10904

这文好。

【在 s**********y 的大作中提到】

: 重读了艳阳天的巨贴，我也与生物学家合作了十几年了，也来讲讲另一端的感受。
: 给大家提供另一个侧面，希望有助合作。无意踢馆，如有冒犯，请多包涵。
: 如果已经读了帖子 “生物使用数学“，您可以跳过此帖，因为我只是把信息整理了
: 一下。
: I
: 生物中数学的使用有限，主要在于生物研究从整体上仍处于描述的状态，还没有进入
: 预测的状态。如果只用于描述，数学就会显得太复杂。
: 生物学的描述往往依赖于感觉（或视觉）。很多分子层面的描述，没有数据的支持，
: 可以称之为少量数据 + 大量想象。国内某名家称动画，（ppt animation）对生
: 物过程描述恒重要。要是从数理来看，几乎是臆想（呵呵）

k*****1
发帖数: 454

唉，你对自己30亿碱基对就是30个亿参数的假设还这么样样得意，还真的让我想起版上
那个关于“生物学家测收音机”笑话。如果按照你这个逻辑，一块CPU上面就有40亿个
晶体管，那得多少个参数合适？：-）一个飞机轮胎就是几百亿个橡胶分子，这得多
少个参数？
对了，如果哪天你改行了去测试收音机，是不是每个频率就是一个参数啊？

【在 b****r 的大作中提到】

: 见我关于30亿碱基对的上贴吧。为什么总是有人觉得自己就是比别人聪明，别人会傻到
: 一些基本的东西都想不到呢，特别是整个行业都这么傻

k*****1
发帖数: 454

我建议你下次直接问你哥们为什么预测的准确率低。
我硕士念的就是生物信息，预测蛋白质折叠懂一点点，但是对这方面的了解就停
留在6，7年前，我就说说我理解的为什么蛋白质预测为什么不准：
（1）蛋白质结构的数据库太小。如果仅仅只是根据蛋白质序列来进行预测，一般保守
序列的预测还比较准确，但是非保守序列的效果就很差。因为本身蛋白质结构解出来的
就不是太多，所以数据库太小，非保守序列出现的频率也小，找不出太好的具有统计意
义的规律出来。
（2）如果做分子层面上的仿真，建立的模型就会变得复杂，一般可能有几十个近百个
参数；模型本身还不会到复杂得让人望而生畏的地步，但是计算的复杂度非常非常高，
如何调这些参数就会涉及到很多远远超出生物信息范畴的专业知识，比如说如何设计并
行计算的算法，如何优化运行的时间，如何优化计算的精度，等等。这绝不是一个人能
够单打独斗出来的。
这也是生物信息领域在预测蛋白质结构为什么在当时进展缓慢的原因。并不是不能做，
而是投入的人力物力远远不够。就想你自己所说的，自然界几十亿年进化出来的，数以
万记的搞生物实验的在折腾这个，如果被一个只有几百号人的小field给折腾出来了，
你说你们搞实验的脸往哪搁？

【在 b****r 的大作中提到】

: 你还真喷了不少啊
: 随便给你一条简单的事实吧
: 现在很多人都在用数理方法，用计算机模拟蛋白分子的运动和构象，我有好几个哥们都
: 是做这个的。有很多几十个氨基酸的多肽链，在上十亿年进化史上无数种动物体内几乎
: 毫无例外都会按照同一种方式进行折叠，但是做数学模型的人就是无法理解它们为什么
: 要这么折叠，而不是用其他方式折。类似的，如果他们企图预测改变其中一个氨基酸
: 后，这个肽链到底会不会改变折叠方式，准确率也仍然相当低，我们生物学家根本不能
: 直接拿这个预测结果用，还是要反复实验验证
: 这还只是一条结构已经很清楚的肽链，哪怕是对于一个最简单的单细胞动物来讲，用你
: 的比方来讲，也就是波音飞机上的一个螺丝钉的级别。

b****r
发帖数: 17995

我知道的测不准的原因差不多是这个意思吧
不过我不太懂为啥你说投入不够，从中国来美国搞科研的生物方向可能可以比肩其他的
所有加起来的，美国NIH拿到的投资也比任何一个部委都高，最大的私人科研投资基金
也是生物方向（HHMI）。

【在 k*****1 的大作中提到】

: 我建议你下次直接问你哥们为什么预测的准确率低。
: 我硕士念的就是生物信息，预测蛋白质折叠懂一点点，但是对这方面的了解就停
: 留在6，7年前，我就说说我理解的为什么蛋白质预测为什么不准：
: （1）蛋白质结构的数据库太小。如果仅仅只是根据蛋白质序列来进行预测，一般保守
: 序列的预测还比较准确，但是非保守序列的效果就很差。因为本身蛋白质结构解出来的
: 就不是太多，所以数据库太小，非保守序列出现的频率也小，找不出太好的具有统计意
: 义的规律出来。
: （2）如果做分子层面上的仿真，建立的模型就会变得复杂，一般可能有几十个近百个
: 参数；模型本身还不会到复杂得让人望而生畏的地步，但是计算的复杂度非常非常高，
: 如何调这些参数就会涉及到很多远远超出生物信息范畴的专业知识，比如说如何设计并

b****r
发帖数: 17995

我还确实不太明白为什么30亿个碱基对为什么不能算30亿个参数
在我看来，如果人类拿到一块外星人给的40亿晶体管的CPU，要搞清楚功能还真不那么
简单，特别是如果人类那时候还不懂晶体管有啥用，不知道设计电路板的时候，可能还
只能先从一个个拆下晶体管，局部测试输入输出变化开始。另外，DNA分子还只是人体
的极小一部分，每一个碳氢氧原子在人体里和其他东西的互作我看就比一个晶体管要复
杂，一个蛋白质分子的内部互作和信号输出复杂程度可能就可以比肩人类现有的芯片
橡胶分子是基本均质的，而且是死的，对其他橡胶分子的作用很简单，不是
intelligent design，不会缺一个分子轮子就分解破碎。收音机的频率和DNA分子的关
系，对不起，看不懂你什么意思

【在 k*****1 的大作中提到】

: 唉，你对自己30亿碱基对就是30个亿参数的假设还这么样样得意，还真的让我想起版上
: 那个关于“生物学家测收音机”笑话。如果按照你这个逻辑，一块CPU上面就有40亿个
: 晶体管，那得多少个参数合适？：-）一个飞机轮胎就是几百亿个橡胶分子，这得多
: 少个参数？
: 对了，如果哪天你改行了去测试收音机，是不是每个频率就是一个参数啊？

j**********n
发帖数: 527

呵呵，我想起了刘慈欣的镜子。

【在 D*a 的大作中提到】

: 令我想起了“心理史学”^_^

s**********y
发帖数: 509

同学，如果你用svm 做cancer 分类，你已经在cancer上用泛函了。

能2

【在 l**********1 的大作中提到】

: sure 大多欧美生物PIs 大学的微积分考试是没有经历过或是D or E score 吧哈即
: 使从牛(顿)莱(不尼兹)的眼里看都是文科生
: 更不用说从加(罗瓦)巴(拿赫) 的群论或泛函来看那是幼儿园毕业生吧哈
: 不过有了MathWorks (Matlab) 即使小学新生的算术水平到巴(拿赫) 的泛函可能2
: ～3年就可搞掂吧哈
: 当然在HIV Cancer 上可以用上群论或泛函的时代还尚未来到...

D*a
发帖数: 6830

你们两个的分歧不就是到底是生物学家笨蛋（不懂怎么测参数只好瞎测）还是数学家笨
蛋（不懂生物现象瞎嚷嚷建模）的分歧么
正应了楼主题目LOL
一路看下来还是学了不少。

d****z
发帖数: 301

真正合作还是很难的。当年生物出国申请一个学校面试报销路费，老板硬是最简单的三
位数的加减法都没算对，我就心里凉了一大截，现在终于转行了。。。
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite

y*******h
发帖数: 443

这个世界一切可以用数学方式表达，现在的问题是数学进展太慢，严重影响了其他学科
。认为飞机生物体复杂，是种无知。化学反应都无法很好的模拟，何谈生物。

相关主题
● 请教gene ontology/enrichment	● DNA相邻碱基对之间的距离，与整个DNA长短有关吗？
● [求助]RNA-seq data怎么做broad的GSEA分析	● 再聊进化论：热运动组装第一个基因 (转载)
● [转载] 科学技术的重大变革：生物芯片	● 请教DNA长度的一个问题
进入Biology版参与讨论

f**********e
发帖数: 1994

Structure Prediction 像屎一样不准大部分是因为势能函数太差，小部分是因为采样
算法太原始。如果有很好的势能／目标函数，采样算法可以没效率一些。但是没有。
现在最准的势能／目标函数就是 homology derived restraints, 运用范围有限。
这破行当已经十年多没什么进展了。死掉吧。

【在 k*****1 的大作中提到】

l**********1
发帖数: 5204

Bingo
Banach and Hilbert Space have been used for
Comprehensive transcriptome analysis of mouse embryonic stem cell
adipogenesis
please refer one Estonia University of Tartu 2011 PhD DISSERTATION
by
KULL M
Title:
Statistical enrichment analysis in algorithms for studying gene regulation
Abstracts:
>
Gene regulation determines the production rate and timing of gene products,
enabling, for instance, the cells of a multicellular organism to be very
different despite the identical genomes. Statistical enrichment analysis has
been applied widely in bioinformatics to analyze the data about gene
regulation. Enrichment is according to the most general definition a
situation, where the abundance of something is significantly higher than
some reference value. By revealing enrichment it is possible to find
associations between genes and other biological entities. For instance, in
case of functional enrichment the proportion of genes annotated to some
biological function is higher than expected within some group of genes,
indicating an association between the group and function.
The goal of this dissertation is to enhance and apply algorithms involving
or related to statistical enrichment analysis for studying gene regulation.
First, a formal statistical definition of enrichment is proposed,
complemented by the presentation of several known enrichment analysis
methods with respect to the new definition. Second, a fast approximate
algorithm is developed for performing hierarchical clustering. This is
applied in a software tool for performing hierarchical functional enrichment
analysis of gene expression data, suitable as one of the first steps in
studying gene regulation. Third, a novel measure of enrichment strength is
developed in the context of regulatory enrichment analysis, which is a
proposed extension of motif enrichment analysis. The new measure is applied
in two biological studies of gene regulation in mouse embryonic stem cells.
Finally, an evolutionary DNA substring distribution model is proposed with
potential applications in background modelling for motif discovery and motif
enrichment analysis.
its full text pdf free download link:
http://dspace.utlib.ee/dspace/handle/10062/18098?show=full

【在 s**********y 的大作中提到】

: 同学，如果你用svm 做cancer 分类，你已经在cancer上用泛函了。
:
: 能2

l**********1
发帖数: 5204

Sure
plus
one Australian University of Adelaide 2010 PhD Thesis
Title: Bayesian networks for high-dimensional data with complex mean
structure.
by Kasza, JE
Abstract: In a microarray experiment, it is expected that there will be
correlations between the expression levels of different genes under study.
These correlation structures are of great interest from both biological and
statistical points of view. From a biological perspective, the
identification of correlation structures can lead to an understanding of
genetic pathways involving several genes, while the statistical interest,
and the emphasis of this thesis, lies in the development of statistical
methods to identify such structures. However, the data arising from
microarray studies is typically very high-dimensional, with an order of
magnitude more genes being considered than there are samples of each gene.
This leads to difficulties in the estimation of the dependence structure of
all genes under study. Graphical models and Bayesian networks are often used
in these situations, providing flexible frameworks in which dependence
structures for high-dimensional data sets can be considered. The current
methods for the estimation of dependence structures for high-dimensional
data sets typically assume the presence of independent and identically
distributed samples of gene expression values. However, often the data
available will have a complex mean structure and additional components of
variance. Given such data, the application of methods that assume
independent and identically distributed samples may result in incorrect
biological conclusions being drawn. In this thesis, methods for the
estimation of Bayesian networks for gene expression data sets that contain
additional complexities are developed and implemented. The focus is on the
development of score metrics that take account of these complexities for use
in conjunction with score-based methods for the estimation of Bayesian
networks, in particular the High-dimensional Bayesian Covariance Selection
algorithm. The necessary theory relating to Gaussian graphical models and
Bayesian networks is reviewed, as are the methods currently available for
the estimation of dependence structures for high-dimensional data sets
consisting of independent and identically distributed samples. Score metrics
for the estimation of Bayesian networks when data sets are not independent
and identically distributed are then developed and explored, and the utility
and necessity of these metrics is demonstrated. Finally, the developed
metrics are applied to a data set consisting of samples of grape genes taken
from several different vineyards.
full text pdf free download link:
http://digital.library.adelaide.edu.au/dspace/handle/2440/60532
more relative papers please go to the author of above thesis her PhD
studying main advisor:
Gary Glonek his web site:
http://www.maths.adelaide.edu.au/people/gary.glonek

->

【在 k*****1 的大作中提到】

: 如果你想用马尔可夫过程来表示因果关系，也很简单，就是P（A->B) = 0.5 but P(B->
: A) = 0 ;
: 这个意思就是说从event A 到 B 的概率是 0.5（这个数字是随意取的）但是从B到A的
: 概率为0，也就是说A为因，B为果。
: 在现实生活中，你可能观察到两个独立的事件，假设你不知道这二者之间有什么因果关
: 系，
: 如果 P（A->B)>>P(B->A), 也可以理解成A为因的可能性更大。

u**********d
发帖数: 573

石室诗士施氏，嗜狮，誓食十狮。施氏时时适市视狮。十时，适十狮适市。是时，适施
氏适市。氏视是十狮，恃矢势，使是十狮逝世。氏拾是十狮尸，适石室。石室湿，氏使
侍拭石室。石室拭，氏始试食是十狮。食时，始识是十狮，实十石狮尸。

【在 f**********e 的大作中提到】

: Structure Prediction 像屎一样不准大部分是因为势能函数太差，小部分是因为采样
: 算法太原始。如果有很好的势能／目标函数，采样算法可以没效率一些。但是没有。
: 现在最准的势能／目标函数就是 homology derived restraints, 运用范围有限。
: 这破行当已经十年多没什么进展了。死掉吧。

(共1页)

进入Biology版参与讨论

相关主题
● 请大家推荐点生物的科普读物	● [求助]RNA-seq data怎么做broad的GSEA分析
● 怎么得到一个最小基因组的老鼠？	● [转载] 科学技术的重大变革：生物芯片
● [合集] 高屋建瓴，点评生物学家　（二）	● DNA相邻碱基对之间的距离，与整个DNA长短有关吗？
● 饶毅的这篇文章貌似有很多八卦......	● 再聊进化论：热运动组装第一个基因 (转载)
● 生物使用数学	● 请教DNA长度的一个问题
● 求助！！！ChIP-qPCR中的percentage input方法	● 统计学感觉是伪科学
● Phosphopeptide Enrichment kit	● 大家看看，这TIME上的话，是不是有语法错误？
● 请教gene ontology/enrichment	● 有没有这样的在线工具

相关话题的讨论汇总
话题: enrichment话题: 生物话题: gene话题: bayesian话题: 数学

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天