一个时代,终究还是落幕了。
11月15日,上海第三中院对「人人**字幕组」**案进行公开审理,并当庭作出****。
并处罚金***一百五十万元。
违法所得予以追缴,扣押在案的供**所用的本人财物等予以没收。
前段时间,韩国反乌托邦题材剧集《鱿鱼游戏》(Squid Game)可谓是相当火爆,上线1个月播放量就达到了1.42亿,霸榜90个**和地区。
Netflix也为其提供了多达31种语言的字幕和13种语言的配音。
就比如说,当女演员用韩语表示「看什么看」,Netflix 的英文字幕翻译为「走开」。
随着Netflix等流媒体的兴起,像是《鱿鱼游戏》这类的非英语作品也越来越多。
然而,字幕和配音行业的人才却非常紧缺,尤其是小语种直译方面。
还是以《鱿鱼游戏》为例,如果想将其推向西班牙语市场,通常会先输出英文版的字幕,然而再在这个基础上进行法语翻译。
也就是说,而这个转化过程难免会丢失很多信息细节。
《鱿鱼游戏》的配音版比字幕版的观看人数还要多。
为此,不管是Netflix这样的流媒体巨头,还是一些小型的本地化服务供应商,
那么,AI到底是能行,还是不能行?
这就得从Deepfake Voice是什么开始说起了。
常用到的一项技术叫Deepfake Voice,也称为语音克隆或合成语音,
什么是声音克隆?
声音克隆是一个过程,在这个过程中,人们使用计算机生成真实个体的语音,使用人工智能(AI)创建一个特定的、**的声音的克隆。
要克隆某人的声音,
比如可以用文字键入的任何东西生成一段语音,这个过程称为文本到语音。
在以往的文本到语音(TTS)系统中,它控制了语音输出的产生。换句话说,
不过现在,使用一些目标声音的特征,比如语音波形,也可以进行更深入的分析和提取。
什么是合成声音?
合成声音是一个术语,也就是通常所说的Deepfake Voice,合成声音也经常与声音克隆互换使用。
但简单来说,合成语音就是计算机生成的语音,也叫语音合成,
合成声音的方式主要有两种:文本到语音转换(TTS)和语音到语音(STS)。
文本到语音转换(TTS)在上文中已经介绍过,目前,TTS软件已被用于帮助视障人士阅读数字文本,还被搭载在语音助手等其他应用上。

而语音到语音(STS)不是使用文本,而是使用一段语音修改其声音的特征来创建另一段听起来很真实的合成语音。
过去的语音合成并不能生成以假乱真的声音。但是随着技术的发展,这种情况已经改变。
传统的语音合成通常使用两种基本技术。这两种技术是拼接合成和共振峰合成。
拼接合成采用的方法是将录制声音的短样本拼接在一起,形成一个称为单元的链。这些单元然后被用来生成用户定义的声音模式。
这些方法的缺点是,它们时不时会生成一些人们无法发出的声音。
AI文本到语音转换通常被称为神**本到语音转换,它利用神经和机器学习技术从文本中合成语音输出。
首先,语音引擎接受音频输入,并识别人类声音产生的声波。
接着,这被称为自动语音识别(ASR)。以理解它所收集的单词的含义,这被称为自然语言处理(NLP)。
没有清晰的声音录音,就没有办法成功地训练人工智能模型来捕捉一个人说话的所有复杂细节。
录制过程可能需要几个小时到几个小时,语音解决方案团队将提供一个全面的短语列表,以捕捉一个人声音的所有特征。

通常,这个列表不会超过4000个短语,声音克隆就越准确。
使用神经获取一组有序的音素,然后将它们转换成一组频谱图。频谱图是信号频带频谱的可视化呈现。
神经选择合适的频谱图,其频带能够更准确地刻画人脑在理解语音时使用的声学特征。然后,神经声码器将这些频谱图转换成语音波形,就可以发出自然且逼真的声音。

中文版Deepfake Voice尝鲜吗?

今年10月,GitHub上的一个项目狂揽13k星。

只需5秒,并且还支持中文。
声音模仿的也很逼真。

适用于pytorch,已在1.9.0版本中测试,GPU Tesla T4和GTX 2060
可在Windows操作系统和Linux操作系统中运行(苹果系统M1版也有社区成功运行案例)
复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder)
其使用也非常简单。
首先安装好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩余包。
第三步在浏览器直接启动一个Web程序来进行调试。
这个仓库的名字MockingBird 是仿声鸟、反舌鸟,以善于模仿其他鸟类及昆虫、两栖动物的叫声而**,也是一种经常出现在西方文学或**作品之中的鸟类,在生物学上是嘲鸫的俗称。

**的书的名字《**一只知更鸟》的英文就是To Kill a Mocking Bird,实际上属于翻译的错误,知更鸟的英文是Robin。
Deepfake Voice带来的语音欺诈是一个很大的问题。
2019年,****克隆了一家总部位于英国的能源公司CEO的声音,*走了24万美元,原因就是这个假CEO在口音和语气上听起来都是十分真实的。这起**是欧洲已知的**起直接使用人工智能的**。
另一起**发生在2020年。他当时以为他在和一家公司的董事说话,结果掉进了一个彻头彻尾的语音**,错误地批准了3500万美元的转账。

随着技术的发展,Deepfake Voice**变得越来越复杂,许多人可能在社交媒体上就已经遇到过一些Deepfake Voice伪造的声音。
那么,如何防范Deepfake Voice欺诈呢?
有两种方法。
**种方法是创建一个检测器,不幸的是,因为Deepfake Voice技术会不断发展,检测器无法永远保持正确。
第二种方法则相对更加现实,这样一来,人们就更容易知道一段声音是否是合成的。
36氪经**发布。





发表评论