试了爆火全网的语音AI，我快分不清谁是真人了。。。

全网转载 • 2024年6月9日 19:31 • 热点 • 阅读 191

咳咳，在开始讲之前，先跟差友们宣布个事儿：

这自然的语气，隐约还能听到些换气声，是不是已经有差友快上钩了。

但大伙可别真以为世超要暴露真声，其实这段音频，是我用 AI 做出来的，从打开网址到做好整段音频，统共用了都没两分钟。

可能已经有朋友猜到世超用的是啥 AI 工具，就是最近刚火出圈的那位，ChatTTS 。

刚开源没几天，它的 GitHub 就有一万多颗标星，而且还在继续噌噌猛涨，就在世超在写稿的时候，亲眼看到它突破 2 万大关。。。

网上的热度也贼高，光是 b 站，随便一搜 ChatTTS ，就能弹出一大堆视频来，不是在教大伙怎么安装，就是在夸它有多逼真。

甚至连热度都传到国外了。

其实像 ChatTTS 这类文本转语音（ Text to Speech ）的工具，市面上一抓一大把，各家做 AI 应用的企业，基本上都有文本转语音的功能。

但和它们不一样的是， ChatTTS 主打的是，最自然地还原人声。

它网页版上的参数调节按钮，有一大半都是为了让生成的音频，更像咱们真人说话。

就比如，精调文本按钮打开之后，最后生成的音频里，会自动加一些口语化的连词，或者换气、笑声啥的，还有信噪比，就是为了还原说话时的背景音。

世超随便输了段话给 ChatTTS ，没动它的默认设置，生成的效果的是下面这个样子。

乍一听，还以为是办公室哪位同事遛火锅回来的吐槽。看下输出的文本，它是在最后一句的中间和结尾，自动加了两个气口。

不过要多听几遍，还是能在里面找到些 AI 味儿。

如果嫌生成的效果一般，我们也可以自个儿去手动设置，在输入文本里加 [ uv _ break ] 或者 [ laugh ] ，就能直接控制气口和笑声。

还是上面那句话，世超直接在结尾加上个 [ laugh ] ，整句话都会更自然一点，结尾那个笑声，还能咂摸出一点无奈的味儿。

光靠这一句话，咱还看不太出 ChatTTS 的实力，接下来上点难度，扔两段绕口令给它。

要是给咱们没练过的人来，指不定得口胡几次，没想到 ChatTTS ，模仿这个挺有一手。

讲到后面，它是直接一口气说完的，跟咱快忘词儿的语调相比，不能说十分像吧，起码也有个七八分了。

甚至为了让最后那句 “ 你看我说的还行吧 ” 更自然点，它还自己手动加了个词儿（那个）。

除了会说中文外， ChatTTS 也能整上两句英文。

世超输句肖申克的经典台词 “ Hope is a good thing and maybe the best of things.And no good thing ever dies.” 进去，它能顺溜生成语音。

至于效果嘛，世超觉得，没说中文自然。。。

当然，作为在咱们这儿土生土长的 AI ，说中文比说英文自然也情有可原。

不过让世超意外的是，虽然英语一般，但在学 ABC 中英夹杂， ChatTTS 是真有点天赋。

世超随便在台词里加了一些网上很火的英文梗，它直接把里面的精髓给模仿出来了。

不仅能准确切换中英文，口气啥的也都像模像样，而且该补充的连词也都补充了。硬要挑刺的话，就是最后那句有点卡壳，但平时咱说话，谁没有秃噜嘴的时候。

试到这儿，世超已经稍稍被 ChatTTS 给折服了。。。然鹅，就在咱准备再深度探索探索时，它一连给咱来了好几次大翻车。

就比如我想试试不精调文本，看看 ChatTTS 会生成怎样的音频，结果倒好，它直接罢工，输入的一大段话，它只读第一个字。

试了好几次都是这效果。。。

（因为输出的问题，iOS系统可能会打不开这段音频。）

而且如果整段文字里有阿拉伯数字， ChatTTS 也识别不了，得我们手动切换成中文数字。

更离谱的是，只要字数一多起来，它就开始浑水摸鱼，支支吾吾只从大段文字里挑着念，甚至有时候都能把它们的 GPU 给干宕机了。

像是世超想让 ChatTTS 帮差友们读下这篇文章的开头，它就已经撑不住了。。。

这都还不算啥， ChatTTS 有个最大的缺点，就是咱们不能事先知道选择了啥音色，只能在 “ 音频种子 ” 里输入数字盲选，或者掷骰子抽卡。

合着就是碰运气呗。。。

不过关于这些 “ BUG ” ，研究团队也有它们的说辞。一句话概括就是，为了防止 ChatTTS 被有心之人利用，他们没放出最好的模型。

据他们的说法，目前开源的和网站上用的，都是用4 万个小时数据训练出来的模型，还没经过监督微调（ SFT ）。

并且为了防止 AI 诈骗，他们还在这些训练数据里，加了少量的高频噪声，数据用的也都是音频质量不太高的 MP3 格式。

团队手里呢，其实还有个更大杯、性能更好的模型，用10 万小时数据。

ChatTTS 真实的实力，应该是官方视频里展示的那样。像咱们上面展示的那几个例子，它都能做得更好，比如中英文夹杂的句子，视频的示例比咱试的要丝滑得多，而且整个人声的清晰度，也比世超在线生成的强。

按照设想，它之后还能接入语言大模型，能直接和 AI 来个面对面交谈。

甚至光是凭几分钟的音频，它能直接把乔布斯、泰勒 · 斯威夫特的声音给克隆出来。

之后再进化进化，结合 ChatGPT 和对口型的 AI ，让它帮忙直播带货估计都没人能看得出来了。

当然有好处是一方面，但世超想说的是，说到底这 AI 还是模仿人说话的，要是被有心之人给利用了，带来的后果可不是一点好处就能抵消的。

像去年，就发生了好几起关于 AI 诈骗的案例，被骗好几百万的都有。而现在 AI 音频越来越逼真，等于说诈骗的门槛是越来越低了。

还有版权风险，也算是这类音频 AI 的一堵墙。前段时间，寡姐还因为声音版权的问题，公开撕了 OpenAI ，以 OpenAI 下架相关音色告终。

甚至在今年早些时候，美国田纳西州还立了个法，不让用 AI 模仿人声。

总之，在音频 AI 这块儿，还有很多窟窿要被补上。。。

但说句心里话，世超还真挺希望这模仿人说话的 AI 能尽快落地的，要能接到公众号上就更好了。

毕竟这 “ 听一听 ” 功能里的机械音，听着是真叫人难受。。。

撰文：松鼠

编辑：面线

图片、资料来源：

ChatTTS

本内容观点仅代表发布作者本人观点立场，欣文网平台只做信息内容展示和存储。发布作者：全网转载，转转请注明出处：https://www.xinenw.com/20869.html

赞 (0)

0

关于作者

全网转载官方认证

2.3K 文章

6 粉丝

第三方平台优质内容转载，如有侵犯您的权益，可以私信联系删除！

这个让脑子变傻的事情，你可能每天都在干，尤其夏天！

上一篇 2024年6月9日 19:31

运营八年的火影忍者手游，是怎么低调的把钱赚了的？

下一篇 2024年6月9日 19:31

热点

太打脸了！大一最不合群的同学，大四成了最受欢迎的人！

作者丨独立翁全文共976字阅读约需2分钟大家好，我是陪你们一起变优秀的翁哥。今天一个“老同学”给我发了微信，说他今年考研失利了，准备二战，听说我考的不错，二战想考我们学校，希望我能帮忙疏通下导师。我对他的唯一印象，就是恶心。于是非常直接的拒绝了他，并表示丝毫不想和他在一个学校。也许我情商很低，但曾经恶心过我的人，以后即便跪舔，我都不会看…

全网转载
2024年5月5日
21200
热点

中老年人“土味视频”遭年轻人嘲讽：以包容之心对待不同年龄的文化差异

吕旭阳山西大学 ——2024年度红网“青椒评论”系列作品在互联网中始终存在这样一种现象：当中老年人发表类似于配有粗糙特效和模板、搭配久远歌曲的“土味视频”，一旦被年轻人刷到，便会遭到年轻人对其审美和内容或明或暗的嘲讽，比如艾特自己的好友视为对好友的“恶搞”，或者发表一些不友好的言论等等。对此，笔者认为这是一种错误的行为。“土味视频”作为一种文化现象，其…

全网转载
2024年7月22日
18900
热点

给孩子可以治愈一生的童年，家长要做好这4点

心理学界流传着这样一句话：“幸运的人，一生都在被童年治愈；不幸的人，一生都在治愈童年。” 童年时期的经历，是一个人生命的底色。童年幸福的人，通常性格积极乐观、人格健全独立，每一次回望童年，都能感受到爱和希望，获得面对挫折和挑战的力量。而童年遭遇创伤的人，往往伴随着性格缺陷、思维方式消极等特点，经常需要回顾童年经历、疗愈创伤，才能克服自身的问题，创造一个更…

全网转载
2024年5月25日
20400
热点

早起送孩子上学的家长能有多生气？临走要上厕所，啥都能忘记带！

点击蓝字| 关注我们文｜我是笑笑以前小的时候总感觉自己精力无限，早晨很早就起来，晚上也不睡觉，长大后才发现小时候的自己最让自己羡慕！因为长大后的觉是不够睡的，从学生党到上班族，谁不想早晨多躺一会呢？尤其是寒冷的冬天，外面那么冷，更不想起床了。但现实是我们很多时候都要奋力爬起来，上班和家里有娃的，会治好每一个有起床气的人。笑笑朋友就是那种早睡早起的人…

全网转载
2024年7月9日
17200
热点

一款隐私安全的开源手机操作系统—LineageOS

大家好，今天给大家介绍一款完全开源且隐私安全的手机操作系统：LineageOS。主流的手机操作系统主流的手机端操作系统为安卓和IOS，而今天的主角LineageOS，就是基于安卓开发的操作系统。安卓系统本身是开源的，谷歌公司为了获得对安卓系统的绝对控制权，其核心服务GMS却是闭源的。不过国内的手机使用场景，基本不会用到谷歌的GMS，所以影响不大。但如果…

全网转载
2024年4月22日
38700

联系我们

400-800-8888

在线咨询： QQ交谈

邮件A：xinenw@qq.com

邮箱B：xinenw@163.com

工作时间：周一至周五，8:30-23:30；周六周日10:30-18:30；节假日休息

关注微信