嘘,AI正在悄悄听懂你的话

欧美色图

嘿,AI正在悄悄地理解你的话语

更精彩,敬请关注硅谷官方网站(http://www.svinsight.com)

当我小时候看一部间谍电影时,经纪人通常都有一项基本技能。他们盯着几百米外的谈话对象,判断对方从口中说了什么。有了这种记忆,我今天看到的什么样的语音识别技术很常见。我刚才说了一句,你明白,AI英雄是什么。

但是,最近的一项专利申请表明,微软正在向代理商学习,以引入无声语音识别技术。当人工智能也像一个特工时,我们的声音毫无疑问,我们的世界有什么不同?

去除嘴唇识别,

AI有什么方法能够悄悄地理解你的话语吗?

说到无声语音识别,许多人可能首先回应复制人类的方式,并使用图像识别来解释嘴唇语言。唇语用于语音识别已经存在了很长时间,但识别的准确性并不高。 DeepMind已于2016年进行测试。经过10,000小时的新闻视频培训,AI唇语准确率达到46.8%。国内公司提供了相关数据:在识别中国新闻视频时,准确率达到70%。搜狗引入的驾驶场景中的唇语识别,因为所涉及的词汇量很小,准确率可以达到90%。

可以发现,与目前主流语音识别的95%和97%的准确度相比,唇识别的准确性实际上并不在谈判桌上。对于中国人来说,一个单词和一个音节的语言很好。对于具有许多链接的语言,例如英语,唇写识别有很多阈值。

3843bfd74c78437fb9105e50ca65b8d5.jpeg

另一方面,唇部识别中涉及的伦理问题太严重了。唇部识别的“范围”太过分了。如果这项技术真的成熟,那就意味着我们谈话时就没有隐私。今天,当隐私焦虑越来越强,哪家公司正在公开研究这项技术时,恐怕他家的公关部门太忙了。

因此,包括微软在内的行业和学术界正在寻求更加精确和无隐私的静音语言识别。目前,无声语音识别的技术方向可分为两个“派系”,一个是“齐宗”,另一个是“电力”。

微软提交的专利是典型的“qizong”在终端上添加一个传感器,通过在用户说话时检测到气流来判断用户的语音。终端就像放在用户嘴上的小麦克风。用户在演讲期间形成的气流将在装置中形成反射。训练后,气流反射的信号可与文本一一对应。

“电力”更令人惊叹。我们知道,当人们说话时,他们需要动员整个下半部分的肌肉。不同的单词发音动员肌肉的方式并不相同。通过面部肌电图(肌电图)信号的采集,学习人类语音的面部肌电信号特征,并通过神经网络的训练匹配肌电信号和文本。

可以看出,这两种无声语音识别都具有共同的特征,即自主性和隐私性。无论是EMG信号采集还是气流采集,都需要在扬声器上佩戴设备,而不是图像技术,可以在没有说话者知识的情况下远程收集和分析。

沉默的语音识别成为真正的气功?

无论是Qizong还是E-Zong,这些无声语音识别技术都面临着同样的问题。由于用户必须说出这些单词以便识别它们,为什么不直接将语音识别应用于文本转换和翻译,并且必须得到一些并且气功对于实际应用场景没有任何技巧?

事实上,无声语音识别的应用可能没有人们想象的那么广泛。它不能以最有效的方式帮助听力受损者,也不允许用于监测等。但在某些关键情况下,无声语音识别可能会非常有用。

我们可以将大脑放在一起思考人们需要说话的地方,但他们无法互相倾听。答案很简单,无论是声音没有传播还是声音特别嘈杂。因此,无声语音识别具有以下应用场景:

灾害现场,舱外探险,水下作业..

件(例如氧气不足)通常不允许人们以正常的声音说话,并且防护服的闭合状态会引起声音的混响。过去,浊音语音识别很难发挥。

b380d86cf687482b867cc8d064ef1e4f.jpeg

此时,可以放置在防护服内的无声语音识别非常有价值,并且扬声器只能通过输出类型将信息传送到外界。

除此之外,还有嘈杂的道路,工厂车间,机场..

在这些地方,为了让对方听到自己的声音,往往需要拍蝎子。使语音识别准确地拾取声音更加困难。此时,使用无声语音识别要容易得多。不仅可以准确地表达信息,而且在这种情况下,一些工作人员可以佩戴耳塞来保护他们的听力。

实际上,在欧洲的某些型号的战斗机中,由于机舱内的噪音和飞行员无法进行通信,因此应用了EMG信号的静音声音识别技术。

504bf48c4cbd4cafa45232b1a68a1477.jpeg

当然,与语音识别技术甚至唇语音识别相比,静音语音识别技术的发展阶段仍然非常原始,应用效率也不高。

件,识别语音后重新传递信息的媒介,更不用说复杂的数据收集。

然而,我们有理由相信,在未来,当AI技术变得越来越流行并且应用成本越来越低时,在极端场景应用中总会有一些看似无用的技术。也许有一天,战士的控制也应该适用。语音交互怎么样?

,查看更多