谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技

用人工智能模拟出来的声音

几乎可以和真人以假乱真


我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来的成果似乎还是跟人类真实的声音差距很大,生硬、不自然一直是通病。


在这方面,谷歌倒是一直不遗余力的在研究,所谓只要功夫深,铁杵磨成针。前段时间,他们终于宣布,让机器说人话这事儿,有进展了!!!


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌最近发布了一个利用神经网络合成语音的模型,它可能会让电脑发出的声音变得更有“人味儿”。

根据dailymail报道,谷歌最近展示了一种新的语音系统,可以让语音助手的声音听起来更加自然,更加像真人的声音。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自dailymail)


这个名为Tacotron 2的机器人,是通过真实的人类对话案例和文本记录训练出来的,据说这样可以让它的交流显得更加自然。

日前,这套机器人系统演示了一下如何顺利的朗读不同文本,甚至连Peter Piper的绕口令都读了!!!


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


嗯……只是被一些比较困难的文字绊住了,不过也可以理解啦,毕竟人类自己读绕口令还嘴瓢呢。

不信你试试谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨——

Peter Piper picked a peck of pickled peppers.
Did Peter Piper pick a peck of pickled peppers?
If Peter Piper picked a peck of pickled peppers,
where’s the peck of pickled peppers Peter Piper picked?


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自Tom’s Hardware


在一篇新的博客文章中,谷歌的研究人员解释说,最新的文字转语音系统(TTS)可以把从培训中学到的内容用自己的话说出来。

与普通的TTS系统相反,Tacotron 2不使用复杂的语言和声学特性作为输入,用语音示例和相应的文本记录进行训练,使系统从文本生成更显自然的人类声音。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自TechCrunch)


关于Tacotron 2,谷歌这次综合了以前研发的Tacotron和WaveNet的思路,并且增加了更多的改进。

这里简单说一下Tacotron和WaveNet——

Tacotron是今年3月Google 提出的一种新的端到端的语音合成系统。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。

WaveNet 则是由Deepmind在一年前提出的生成原始音频波形的深层神经网络模型,已正式商用于Google Assistant中。今年10月,Deepmind发表博客称,该模型比起一年前的原始模型效率提高1000倍,且能比目前的方案更好地模拟自然语音。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


研发团队对Tacotron 2的表现也充满信心,很多听众都表示它的效果都可以拿来跟专业录音媲美了。

研究人员对此解释说,Tacotron 2的工作原理是使用序列-序列模型来映射序列字母到编码音频的功能,这其中还结合了发音、音量、速度和语调,所以它可以捕捉到人类发音的各种微妙之处。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


小编倒是觉得,讲话语调的变化真的很重要。

比如wo cao 这个词

wō cāo 表轻蔑

wǒ cáo 表疑问

wǒ vào 表愤怒

wò cào 表惊叹

同理可用于fuck一词。谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


最后,这些特征被转换成24 kHz的波形。

虽然Tacotron 2在听众的评分中表现还不错,但研发团队也表示——

它还并不是很完美。

“尽管我们的样本听起来不错,但还是有一些棘手的问题需要解决。例如,Tacotron 2系统在复杂词语(比如“decorum”和“merlot”)方面还是有些困难,在极端的情况下甚至会随机产生些奇奇怪怪的噪音。”研究人员说。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

另外有点遗憾的是,Tacotron 2系统还不能实时生成音频。

以及,虽然可以比较流畅的生成自然人声,但他们还不能控制系统所产生的音频,比如引导它这段音频的感情是高兴还是悲伤。

毕竟用丧气的语调读一段婚礼致辞场面还是略显尴尬的。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


谷歌的研究人员对这些问题还是很乐观的——“这些问题,每个都是有趣的研究问题啊(可以说是很热爱学习和研究的一群人了)

Tacotron 2建立在WaveNet的一些想法的基础上,WaveNet能够通过分析来自人声的声波来创造自然的合成语音,而不是专注于人类语言。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


去年,DeepMind的研究人员声称,这个开创性的项目已经把计算机系统和人类语音之间的质量差距减半了。

最新的Tacotron 2系统旨在进一步进行文本到语音的转换,以获得更自然的计算机生成的语音。

根据报道,Tacotron 2 模型平均意见得分为 4.53(满分5),专业录音平均意见得分为 4.58。


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨


看来大多数使用者对这套新的文字转语音系统还是十分满意的,感兴趣的同学可以点击阅读原文链接,在网站上品品Tacotron 2 的发音够不够纯正。

ref:

http://www.dailymail.co.uk/sciencetech/article-5219359/Google-claims-machine-speak-like-human.html

https://www.leiphone.com/news/201712/57LIlaAzrxjzCJkH.htmlhttps://www.leiphone.com/news/201710/GPrvpxAD5SkPVOeH.html


谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

文章和评论观点不代表本站,仅供学习和参考,如有问题请联系管理员
关于“北美留学生日报”:中国最大的独立留学新媒体,集杂志、网站、app于一身的国际教育新媒体平台。讲述留学生自己的故事,分享有趣而真实的留学生活,发布客观真实的留学资讯,中立、真实、有味道!官方网站:www.CollegeDaily.cn

分享到:
赞(0) 赞助

说两句呗抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就赞助一下网站呗

支付宝扫一扫打赏

微信扫一扫打赏