试了爆火全网的语音AI,我快分不清谁是真人了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。咳咳,在开始讲之前,先跟差友们宣布个事儿:

这自然的语气,隐约还能听到些换气声,是不是已经有差友快上钩了。


但大伙可别真以为世超要暴露真声,其实这段音频,是我用 AI 做出来的,从打开网址到做好整段音频,统共用了都没两分钟


可能已经有朋友猜到世超用的是啥 AI 工具,就是最近刚火出圈的那位,ChatTTS 


刚开源没几天,它的 GitHub 就有一万多颗标星,而且还在继续噌噌猛涨,就在世超在写稿的时候,亲眼看到它突破 2 万大关。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


网上的热度也贼高,光是 b 站,随便一搜 ChatTTS ,就能弹出一大堆视频来,不是在教大伙怎么安装,就是在夸它有多逼真。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


试了爆火全网的语音AI,我快分不清谁是真人了。。。甚至连热度都传到国外了。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


其实像 ChatTTS 这类文本转语音( Text to Speech )的工具,市面上一抓一大把,各家做 AI 应用的企业,基本上都有文本转语音的功能。


但和它们不一样的是, ChatTTS 主打的是,最自然地还原人声

试了爆火全网的语音AI,我快分不清谁是真人了。。。


试了爆火全网的语音AI,我快分不清谁是真人了。。。它网页版上的参数调节按钮,有一大半都是为了让生成的音频,更像咱们真人说话。


就比如,精调文本按钮打开之后,最后生成的音频里,会自动加一些口语化的连词,或者换气、笑声啥的,还有信噪比,就是为了还原说话时的背景音。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


世超随便输了段话给 ChatTTS ,没动它的默认设置,生成的效果的是下面这个样子。


乍一听,还以为是办公室哪位同事遛火锅回来的吐槽。看下输出的文本,它是在最后一句的中间和结尾,自动加了两个气口。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


不过要多听几遍,还是能在里面找到些 AI 味儿。


如果嫌生成的效果一般,我们也可以自个儿去手动设置,在输入文本里加 [  uv _ break  ] 或者 [  laugh  ] ,就能直接控制气口和笑声。


还是上面那句话,世超直接在结尾加上个 [  laugh  ] ,整句话都会更自然一点,结尾那个笑声,还能咂摸出一点无奈的味儿。

试了爆火全网的语音AI,我快分不清谁是真人了。。。光靠这一句话,咱还看不太出 ChatTTS 的实力,接下来上点难度,扔两段绕口令给它。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


要是给咱们没练过的人来,指不定得口胡几次,没想到 ChatTTS ,模仿这个挺有一手。


讲到后面,它是直接一口气说完的,跟咱快忘词儿的语调相比,不能说十分像吧,起码也有个七八分了。


甚至为了让最后那句 “ 你看我说的还行吧 ” 更自然点,它还自己手动加了个词儿( 那个 )

除了会说中文外, ChatTTS 也能整上两句英文。


世超输句肖申克的经典台词 “ Hope is a good thing and maybe the best of things.And no good thing ever dies.” 进去,它能顺溜生成语音。


至于效果嘛,世超觉得,没说中文自然。。。

当然,作为在咱们这儿土生土长的 AI ,说中文比说英文自然也情有可原。


试了爆火全网的语音AI,我快分不清谁是真人了。。。不过让世超意外的是,虽然英语一般,但在学 ABC 中英夹杂, ChatTTS 是真有点天赋。


世超随便在台词里加了一些网上很火的英文梗,它直接把里面的精髓给模仿出来了。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


不仅能准确切换中英文,口气啥的也都像模像样,而且该补充的连词也都补充了。硬要挑刺的话,就是最后那句有点卡壳,但平时咱说话,谁没有秃噜嘴的时候。

试了爆火全网的语音AI,我快分不清谁是真人了。。。试到这儿,世超已经稍稍被 ChatTTS 给折服了。。。然鹅,就在咱准备再深度探索探索时,它一连给咱来了好几次大翻车


就比如我想试试不精调文本,看看 ChatTTS 会生成怎样的音频,结果倒好,它直接罢工,输入的一大段话,它只读第一个字。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


试了好几次都是这效果。。。

( 因为输出的问题,iOS系统可能会打不开这段音频。)

而且如果整段文字里有阿拉伯数字, ChatTTS 也识别不了,得我们手动切换成中文数字。


更离谱的是,只要字数一多起来,它就开始浑水摸鱼,支支吾吾只从大段文字里挑着念,甚至有时候都能把它们的 GPU 给干宕机了。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


像是世超想让 ChatTTS 帮差友们读下这篇文章的开头,它就已经撑不住了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


这都还不算啥, ChatTTS 有个最大的缺点,就是咱们不能事先知道选择了啥音色,只能在 “ 音频种子 ” 里输入数字盲选,或者掷骰子抽卡


试了爆火全网的语音AI,我快分不清谁是真人了。。。合着就是碰运气呗。。。


不过关于这些 “ BUG ” ,研究团队也有它们的说辞。一句话概括就是,为了防止 ChatTTS 被有心之人利用,他们没放出最好的模型。


据他们的说法,目前开源的和网站上用的,都是用4 万个小时数据训练出来的模型,还没经过监督微调( SFT )


并且为了防止 AI 诈骗,他们还在这些训练数据里,加了少量的高频噪声,数据用的也都是音频质量不太高的 MP3 格式。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


团队手里呢,其实还有个更大杯、性能更好的模型,用10 万小时数据


ChatTTS 真实的实力,应该是官方视频里展示的那样。像咱们上面展示的那几个例子,它都能做得更好,比如中英文夹杂的句子,视频的示例比咱试的要丝滑得多,而且整个人声的清晰度,也比世超在线生成的强。


按照设想,它之后还能接入语言大模型,能直接和 AI 来个面对面交谈。

甚至光是凭几分钟的音频,它能直接把乔布斯、泰勒 · 斯威夫特的声音给克隆出来。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


试了爆火全网的语音AI,我快分不清谁是真人了。。。之后再进化进化,结合 ChatGPT 和对口型的 AI ,让它帮忙直播带货估计都没人能看得出来了。


当然有好处是一方面,但世超想说的是,说到底这 AI 还是模仿人说话的,要是被有心之人给利用了,带来的后果可不是一点好处就能抵消的。


像去年,就发生了好几起关于 AI 诈骗的案例,被骗好几百万的都有。而现在 AI 音频越来越逼真,等于说诈骗的门槛是越来越低了。

试了爆火全网的语音AI,我快分不清谁是真人了。。。


还有版权风险,也算是这类音频 AI 的一堵墙。前段时间,寡姐还因为声音版权的问题,公开撕了 OpenAI ,以 OpenAI 下架相关音色告终。


甚至在今年早些时候,美国田纳西州还立了个法,不让用 AI 模仿人声。


总之,在音频 AI 这块儿,还有很多窟窿要被补上。。。


试了爆火全网的语音AI,我快分不清谁是真人了。。。但说句心里话,世超还真挺希望这模仿人说话的 AI 能尽快落地的,要能接到公众号上就更好了。


毕竟这 “ 听一听 ” 功能里的机械音,听着是真叫人难受。。。

撰文:松鼠

编辑:面线


图片、资料来源

ChatTTS


试了爆火全网的语音AI,我快分不清谁是真人了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。

试了爆火全网的语音AI,我快分不清谁是真人了。。。

本内容观点仅代表发布作者本人观点立场,欣文网平台只做信息内容展示和存储。发布作者:全网转载,转转请注明出处:https://www.xinenw.com/20869.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年6月9日 19:31
下一篇 2024年6月9日 19:31

相关推荐

  • 1L装饮料,杀疯了

    盛夏来临,货架上的饮料们悄悄变大了。 950ml的外星人电解质水,1L装的海之言电解质饮料,1.5L餐饮装的娃哈哈AD钙奶,2L大容量桶装的汇源果汁…… 今年上新的大瓶饮料已经数不过来,更别提去年东方树叶推出的900ml装,东鹏饮料的1L装“补水啦”电解质饮料,还有饮品界“老师傅”康师傅上市多年的1L大包装。 大瓶装饮料|图源:淘宝 据尼尔森IQ3月发布的《…

    2024年7月7日
    15000
  • 图数室 | 全国总监一半在理发店里,谁评的?

    剪个刘海五十元,理个发一百元,烫个头染个色可能就要上千元。我们的头发越来越少,理发却越来越贵。 钱包的厚度增长,赶不上理发的价格,更赶不上Tony老师的进化速度:从头到脚一身奢牌,头戴耳机腰别对讲,别管忙闲必须预约,要问叫啥一律总监。 但到了理发时,就是“剪个微分碎盖”,最后成品“七旬老太”。不仅如此,还会让你在一声声“公主请变美”中迷失,最后抹不开面子办了…

    2024年5月12日
    20700
  • 人人在C的EDG,缔造了CN瓦的冠军奇迹

    不留任何遗憾。 在韩国仁川,刚刚结束的2024无畏契约全球冠军赛上,VCT CN赛区一号种子队伍EDG,以3:2的成绩战胜TH,夺得了属于他们的第一个冠军,也是VCT CN赛区的第一个冠军。 在回顾这场惊心动魄的比赛之前,我想先讲讲这段时间“瓦”的直播新梗:“睡”。 说哪个选手“睡”过去了,一般是指他并没有按观众们的预期,发挥出他应有的水平。一支队伍有人“睡…

    2024年8月27日
    8000
  • 图数室丨十一去古镇旅游的人,嘴也太严了吧!

    提起古镇,很多人脑海中会出现“老街灯影浮动,小桥流水人家”的诗意画面。但当你向着“诗与远方”出发,很可能被商业化气息搅了兴致——天南海北无论哪个古镇,都充斥着豆腐酸奶大鱿鱼、汉服簪花写真集、“我在XX很想你”…… “我国共有2800多座已开发或正在开发的古城镇,数量大概率是全球第一。但真正能被人们记住的有几个?”这话是中国古城与文化研究院院长林鹏在几年前说的…

    2024年10月10日
    1800
  • 电子厂考试题目流出,满分反而不会被录取,因为文化太高不好控制!

    点击蓝字| 关注我们 文|我是笑笑 在我们上学的时候,大家都会接受九年义务教育,站在同一起跑线上学习,但学着学着大家就不一样了。 再经过中高考的两次分流,大家未来的发展就更加不一样了。 不一定考上名校就是成功,教育的目的也从来不是把学生培养成名校的学生,每个人价值的实现方式不同。 但不可否认的是现在学历仍然是很重要的,尤其是在就业当中,高学历的人可能有进大厂…

    2024年7月9日
    10700

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件A:xinenw@qq.com

邮箱B:xinenw@163.com

工作时间:周一至周五,8:30-23:30;周六周日10:30-18:30;节假日休息

关注微信