由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
EE版 - Re: How is the future of Speech Recognition?
相关主题
微软语音识别组招聘 (转载)请推荐语音信号处理和语音识别方面的书
有做face recognition的没语音识别就业
求推荐经典的HMM在speech recognition应用的论文高维数据怎么训练GMM高斯混合模型?
Audio/Speech recognition 是不是个好坑?VLSI info and job bank.
搞模式识别的能在医院里有什么样的工作?Re: 咋没人讨论Solid state 和Semiconductor的呢?
Intern or full time Positions available(Speech area)Re: Telecommunication现在还热门吗?
请推荐语音处理的经典书Re: VLSI and Cadence
大牛给解释一下当前的语音识别技术吧?Re: VLSI and Cadence (Analog artist)
相关话题的讨论汇总
话题: speech话题: 语音话题: future话题: 识别
进入EE版参与讨论
1 (共1页)
g*****f
发帖数: 241
1
个人认为应当是今后的热点之一.因为智能化毕竟是时代发展的趋势.而
智能化的初级阶段就是语音识别的智能化.
个人认为,语音识别优点如下:
1)遍寻美国大学,有语音识别的好学校并不多,若肯下功夫,进入相关领域
前沿的可能性比较大;
2)美国各大公司几乎都有语音识别的研发部门,且潜力巨大;
3)中文从理论角度来说比西方语系更有初步实现语音智能的可能;
4)成功商业化的语音识别产品并不多,给我们留下很多发展空间.
缺点如下:
1)何时能热起来,不太好说,因为现在的语音识别成果只能成为大公司产品
的一个Feature,而市场更关注的是Total Solution;
2)因为相关研究组较少,今后如果要找Faculty可能不如现在的VLSI和Nano
等好找;
3)语音识别领域基础研究相对比较成熟,换言之,要想有突破性进展,要有啃
硬骨头的准备.
但总而言之.还是不错的选择.事实证明,去做现在大家(尤其是中国人)都知
道的热门,本身就已经迟了一步.而语音识别,大家好像关注的热度还不那么
大.
抛砖引玉.只是这个版Speech Guy好像不是很多.
g*****f
发帖数: 241
2
我是做语音的.你说的这个我不否认啊,这在我第一篇文章中讨论语音识别
的第三个缺点说的就是这个.
不过正是理论很久没有突破,才有创新的可能在.现在的所有模型都是建立
在统计的基础上,无论HMM,VQ,GMM,EM等都是,唯一的MFCC还是比较粗矿的建
立在听觉的生理基础之上.这些都是非常局限的.
我始终认为,语音识别和通信不一样,它是真真实实和人打交道,不从仿生的
角度出发,是不会有大前途的.就好比不会扇翅膀的飞机绝对不会是人类飞机
的终极模型.语音也是一样.从这个角度上说,语言学的发展对语音识别有着
至关重要的影响.做语音的人每天在时域,频域和倒谱域里找线索是不会有大
发展的.
不过非常遗憾,现在IEEE Signal Processing, Speech and Audio Processing
和Communications Transaction上的灌水文章,大部分都是玩点花花肠子,探询
事物本质的实在太少.难怪很多人要列一个Robust Journal Paper的List.否则
看Journal有的时候也是浪费时间啊.
v*****k
发帖数: 7798
3
你说的这个我是赞成的。
通信信号是人造的,爱搞成什么样都可以;
DSP的信号多半都是自然产生的,所以从
仿生的角度挖掘idea是最终解决之道。
问题是,人的大脑(或者简单一点,脑中的语音处理系统)
是一个大得无法想象的神经网络,并且经过了
几十年的训练和纠错。很难想象计算机发展到什么地步
才可以模拟这种功能。
现存的ANN也就是3层到顶了,大家还嫌慢,这要发展到什么时候啊?
语音处理包括整个信号处理现在就像是“20世纪初的物理学”,
大家也只能在小数点后头多搞搞了。

【在 g*****f 的大作中提到】
: 我是做语音的.你说的这个我不否认啊,这在我第一篇文章中讨论语音识别
: 的第三个缺点说的就是这个.
: 不过正是理论很久没有突破,才有创新的可能在.现在的所有模型都是建立
: 在统计的基础上,无论HMM,VQ,GMM,EM等都是,唯一的MFCC还是比较粗矿的建
: 立在听觉的生理基础之上.这些都是非常局限的.
: 我始终认为,语音识别和通信不一样,它是真真实实和人打交道,不从仿生的
: 角度出发,是不会有大前途的.就好比不会扇翅膀的飞机绝对不会是人类飞机
: 的终极模型.语音也是一样.从这个角度上说,语言学的发展对语音识别有着
: 至关重要的影响.做语音的人每天在时域,频域和倒谱域里找线索是不会有大
: 发展的.

g*****f
发帖数: 241
4
非常同意你的看法.对现在那些只停留在皮毛上的Journal Paper实在是
看烦了,但是遗憾的自己也在炮制类似的文章,有时还担心别人收不收.呵
呵,惭愧啊.
所以我认为西方把博士通称为PhD,真的是非常高明.任何学科的突破都是
哲学思想和基本思路的突破,没有一个可以例外.人脑确实复杂的让现在的
CS和EE无妨登堂入室,窥的门径.但我认为这样复杂的机构并不意味着本身
原理的复杂.相反,现在的科学是在人为的复杂上继续堆砌更高复杂度的复
杂.
有科学家对此提出挑战,但全部头破血流.所以,现在为了谋生和现在这个学
术圈子里混下去,也只有跟着先复杂一把.

【在 v*****k 的大作中提到】
: 你说的这个我是赞成的。
: 通信信号是人造的,爱搞成什么样都可以;
: DSP的信号多半都是自然产生的,所以从
: 仿生的角度挖掘idea是最终解决之道。
: 问题是,人的大脑(或者简单一点,脑中的语音处理系统)
: 是一个大得无法想象的神经网络,并且经过了
: 几十年的训练和纠错。很难想象计算机发展到什么地步
: 才可以模拟这种功能。
: 现存的ANN也就是3层到顶了,大家还嫌慢,这要发展到什么时候啊?
: 语音处理包括整个信号处理现在就像是“20世纪初的物理学”,

1 (共1页)
进入EE版参与讨论
相关主题
Re: VLSI and Cadence (Analog artist)搞模式识别的能在医院里有什么样的工作?
Re: DSP 转VLSI......请教。。。。。。。大虾帮忙呀。Intern or full time Positions available(Speech area)
Re: 关于VLSI的两个问题请推荐语音处理的经典书
请大家谈谈wireless communication的发展前景(a little confused:)大牛给解释一下当前的语音识别技术吧?
微软语音识别组招聘 (转载)请推荐语音信号处理和语音识别方面的书
有做face recognition的没语音识别就业
求推荐经典的HMM在speech recognition应用的论文高维数据怎么训练GMM高斯混合模型?
Audio/Speech recognition 是不是个好坑?VLSI info and job bank.
相关话题的讨论汇总
话题: speech话题: 语音话题: future话题: 识别