g*****f 发帖数: 241 | 1 个人认为应当是今后的热点之一.因为智能化毕竟是时代发展的趋势.而
智能化的初级阶段就是语音识别的智能化.
个人认为,语音识别优点如下:
1)遍寻美国大学,有语音识别的好学校并不多,若肯下功夫,进入相关领域
前沿的可能性比较大;
2)美国各大公司几乎都有语音识别的研发部门,且潜力巨大;
3)中文从理论角度来说比西方语系更有初步实现语音智能的可能;
4)成功商业化的语音识别产品并不多,给我们留下很多发展空间.
缺点如下:
1)何时能热起来,不太好说,因为现在的语音识别成果只能成为大公司产品
的一个Feature,而市场更关注的是Total Solution;
2)因为相关研究组较少,今后如果要找Faculty可能不如现在的VLSI和Nano
等好找;
3)语音识别领域基础研究相对比较成熟,换言之,要想有突破性进展,要有啃
硬骨头的准备.
但总而言之.还是不错的选择.事实证明,去做现在大家(尤其是中国人)都知
道的热门,本身就已经迟了一步.而语音识别,大家好像关注的热度还不那么
大.
抛砖引玉.只是这个版Speech Guy好像不是很多. | g*****f 发帖数: 241 | 2 我是做语音的.你说的这个我不否认啊,这在我第一篇文章中讨论语音识别
的第三个缺点说的就是这个.
不过正是理论很久没有突破,才有创新的可能在.现在的所有模型都是建立
在统计的基础上,无论HMM,VQ,GMM,EM等都是,唯一的MFCC还是比较粗矿的建
立在听觉的生理基础之上.这些都是非常局限的.
我始终认为,语音识别和通信不一样,它是真真实实和人打交道,不从仿生的
角度出发,是不会有大前途的.就好比不会扇翅膀的飞机绝对不会是人类飞机
的终极模型.语音也是一样.从这个角度上说,语言学的发展对语音识别有着
至关重要的影响.做语音的人每天在时域,频域和倒谱域里找线索是不会有大
发展的.
不过非常遗憾,现在IEEE Signal Processing, Speech and Audio Processing
和Communications Transaction上的灌水文章,大部分都是玩点花花肠子,探询
事物本质的实在太少.难怪很多人要列一个Robust Journal Paper的List.否则
看Journal有的时候也是浪费时间啊. | v*****k 发帖数: 7798 | 3 你说的这个我是赞成的。
通信信号是人造的,爱搞成什么样都可以;
DSP的信号多半都是自然产生的,所以从
仿生的角度挖掘idea是最终解决之道。
问题是,人的大脑(或者简单一点,脑中的语音处理系统)
是一个大得无法想象的神经网络,并且经过了
几十年的训练和纠错。很难想象计算机发展到什么地步
才可以模拟这种功能。
现存的ANN也就是3层到顶了,大家还嫌慢,这要发展到什么时候啊?
语音处理包括整个信号处理现在就像是“20世纪初的物理学”,
大家也只能在小数点后头多搞搞了。
【在 g*****f 的大作中提到】 : 我是做语音的.你说的这个我不否认啊,这在我第一篇文章中讨论语音识别 : 的第三个缺点说的就是这个. : 不过正是理论很久没有突破,才有创新的可能在.现在的所有模型都是建立 : 在统计的基础上,无论HMM,VQ,GMM,EM等都是,唯一的MFCC还是比较粗矿的建 : 立在听觉的生理基础之上.这些都是非常局限的. : 我始终认为,语音识别和通信不一样,它是真真实实和人打交道,不从仿生的 : 角度出发,是不会有大前途的.就好比不会扇翅膀的飞机绝对不会是人类飞机 : 的终极模型.语音也是一样.从这个角度上说,语言学的发展对语音识别有着 : 至关重要的影响.做语音的人每天在时域,频域和倒谱域里找线索是不会有大 : 发展的.
| g*****f 发帖数: 241 | 4 非常同意你的看法.对现在那些只停留在皮毛上的Journal Paper实在是
看烦了,但是遗憾的自己也在炮制类似的文章,有时还担心别人收不收.呵
呵,惭愧啊.
所以我认为西方把博士通称为PhD,真的是非常高明.任何学科的突破都是
哲学思想和基本思路的突破,没有一个可以例外.人脑确实复杂的让现在的
CS和EE无妨登堂入室,窥的门径.但我认为这样复杂的机构并不意味着本身
原理的复杂.相反,现在的科学是在人为的复杂上继续堆砌更高复杂度的复
杂.
有科学家对此提出挑战,但全部头破血流.所以,现在为了谋生和现在这个学
术圈子里混下去,也只有跟着先复杂一把.
【在 v*****k 的大作中提到】 : 你说的这个我是赞成的。 : 通信信号是人造的,爱搞成什么样都可以; : DSP的信号多半都是自然产生的,所以从 : 仿生的角度挖掘idea是最终解决之道。 : 问题是,人的大脑(或者简单一点,脑中的语音处理系统) : 是一个大得无法想象的神经网络,并且经过了 : 几十年的训练和纠错。很难想象计算机发展到什么地步 : 才可以模拟这种功能。 : 现存的ANN也就是3层到顶了,大家还嫌慢,这要发展到什么时候啊? : 语音处理包括整个信号处理现在就像是“20世纪初的物理学”,
|
|