人工智能，绑架了我的声音

编辑丨kkknei

排版丨KIM

「AI」是2023年开年来最热门的话题，当人们为人工智能的崛起而感到兴奋之时，一场危机也随之而来。

在过去几个月时间里，我们见识到了「AI问答」、「AI制图」和「AI换脸」，每一项技术的曝光，都引起不小的讨论。在设想「AI」成为我们的得力助手之前，这些工具已经率先成了不法之徒的「好伙伴」。

(资料图片仅供参考)

全球最大的专业安全技术公司McAfee不久前公开了一项调查数据，在受到电话诈骗的人群中，有超过77%的受害者被「AI语音」所欺骗。这些受害者难以辨别来电中的声音是否来自家人、朋友，于是，在陌生来电的请求下，向不法分子打去一笔又一笔钱款。

利用「AI」，人们可以轻松地克隆任何人的声音，除了行骗之外，还可能出现在任何场合、任何地点，乃至于网友们普遍认为，「AI语音」迟早会出现在法庭上，成为伪证的主要来源。

这听起来十分吓人，对吧？

声音是假的，诈骗是真的

经常在网上冲浪的朋友，近期一定在不同的社交平台中看到利用「AI」创作的歌曲，例如：

「AI孙燕姿《发如雪》Cover From周杰伦」

「AI霉霉《反方向的钟》Cover From周杰伦」

「AI周杰伦《普通朋友》Cover From陶喆」

这些利用「AI」创作的歌曲，成为网友们热捧的二次创作。

（图源：bilibili）

事实上，「AI」创作歌曲和「AI语音」诈骗案，手法是一样的。创作者通过某些工具，将语音素材导入其中，以高性能显卡进行训练，不需要花费太多时间，即可轻易地获得一段“以假乱真”的音频内容。

用「AI」创作歌曲，还需要调整音调，使这些音频与原曲的节奏、音高保持一致。当然，在最新版本的创作工具中，已经可以做到“一键处理”，效果不会太差。而「AI语音」的难点在于处理情绪，除了调整仿真音频的节奏之外，还需要加上因不同情绪而产生的内容变化。

（图源：Veer）

在McAfee提到的两个真实案例中，一位母亲接到诈骗团伙拨来的绑架电话，在电话那头，她的女儿正声嘶力竭地呼救。不仅声音相似，就连情绪也十分到位，这正是受害者“上钩”的重要原因。

今年3月，一款名为“Mocking Bird”的AI工具诞生，据开发者介绍，它能在电话、视频中提取人声，以AI算法进行模拟匹配，最后根据分析出来的内容，“拼凑”你所需要的语音内容。经网友实测，这款工具确实可以制作出「AI语音」，但要求并不算低。

制作「AI语音」，需要足量样本，最好是清晰的人声，因此想要在一通电话就提取到足够的声音素材，还是比较艰难的。不过，利用「AI语音」诈骗，或许并不需要逼真的声音。

「AI」能诈骗

未必全靠「科技与狠活」

当每个人都能轻而易举地「克隆」他人的声音，这个世界不就乱套了吗？「AI语音」，真的做到人人都能随手创作了吗？

为了了解「AI语音」现阶段的真实情况，我采访了一位在该领域比较资深的创作者明治老师，听听他对「AI语音」的看法。

小雷：明治老师，看您在「AI」领域的研究颇为深入，您如何看待「AI语音」诈骗案？

明治：目前来说，光靠一通电话、一段视频就能提取出足够用于语言训练的素材，难度很大，从被报道出来的案例看，大多数被骗的用户在当时是处于紧张的状态中，因为不知道对方是不是真的，大脑自动匹配想象对象的声音，这也是有可能的。

小雷：也就是说，现阶段还不能单纯依靠「AI」制作足以以假乱真的语音吗？

明治：我们看到网络上有很多AI翻唱的内容，还有很多主播整活的语音音频，但你有没有发现，这些二创内容都有一个共同点——“样本足量”。就像孙燕姿这类歌手，她能不断被作为AI创作对象，正是因为她有足够的声音素材。即便有了足量的声音素材，对硬件也有很高的要求，即便是最好的消费级显卡4090Ti，模型生成也需要耗费很多时间。

小雷：假如说，只用一段音频作为素材去制作「AI语音」，能实现以假乱真吗？

明治：上面也说过了，声音样本不够，是很难做出所谓的「AI语音」内容的，就算强行制作，得到的成果质量也不会很高。“以假乱真”，其实有很多判定标准，例如童声，大多数童声听起来都是差不多的，尤其是在电话中，不太清晰的语音加上比较普遍的声线，混淆视听也不足为奇。

（图源：Veer）

从简单的访谈中我们可以了解到一些关于「AI」内容创作者的想法，总体来说，「AI语音」除了技术加持之外，更多还是利用了人们对于未知事物的恐惧、慌张。而「AI」工具，只是让原本的电话诈骗提升了一点可信度。

在ChatGPT初代公开之时，所有人都没有预料到这样一个人工智能问答平台可以衍生出这么繁多且强大的功能。同样地「AI语音」现阶段还不算是全民化、普世化的工具，但即便是在这个阶段，已经足够让电话诈骗成功几率大大提升。很难想象，当「AI语音」工具简化后，这个领域会被「玩」成什么花样。

无论如何，「AI」确实正在对我们的安全造成威胁。

「AI」,实在太危险！

在相应的法规出台前，「AI」在任何领域里，都称不上是安全、可靠的工具。

不久前，一位全网拥有百万粉丝的女网红发布长文，痛斥「AI换脸」正在对她的名誉、精神造成伤害。文中，这名网红揭露，有不法分子通过这项技术，将其她的脸换在成人视频里，让她“成为”影片中的女主角。

（图源：Veer）

不仅是「AI换脸」，利用「AI」工具，用户可以随时输入相应的关键词，生成任何他们想要的内容，「18禁图片」、「名人」或是任何「没有发生的事情」，精制的图片难辨真伪，影响了用户们的判断力。

从前，“有图有真相”，是我们判断事情真伪的主要证据，再后来，配合动态视频、真人语音，衍生出“视频不能P”的判定标准。在「AI」蓬勃发展的今天，图片可以自制、真人可以被移花接木，甚至是语音，也能被「AI」克隆。尽管「AI语音」并不能完全被认定位电话诈骗成功的主因，但它提供的帮助，是被安全机构所认定为「具有风险」的。

目前，我国已经出台《网络音视频信息服务管理规定》，对于“非真实音视频信息”，应当予以标识，禁止利用大数据深度学习制作、发布虚拟新闻。而这仅仅只是一个开始，想要给「AI」戴上镣铐，任重道远。

McAfee出具的报告中提到，光是2022年这一年时间里，涉及「AI语音」诈骗的金额就达到了26亿美元，约合人民币180亿元。

面对「AI语音」诈骗，我们该如何防范呢？

（图源：Veer）

如前面提到的，「AI语音」的生成需要大量克隆对象的声音样本，减少在未知风险的社交平台中发送带有自己真实声音的视频、音频内容，其实是最保险的方案。另外，「AI语音」诈骗成功率高达77%，与人们的恐惧心理离不开关系，在没法确认对方的真实身份前，尽量不要接受对方的要求，尤其是转账。

无论如何，现阶段的「AI语音」并没有如同网上流传的那样神乎其神，我们普通网民也没必要过于着急自己的声音被克隆，在遇到有可能是诈骗的情况，先保持冷静，整理情绪，理清思路，才能更好地应对。