前几天看到了一个AI虚拟主播,浅浅了解了一下,实际上狭义上的neuro-sama(可以对话的版本,以下称Neuro)从2022年12月就开始直播了。
目前了解到她的部分能力有:
- 文本交互: 能进行类GPT的复杂对话,但更加口语化、个性化且随意。
- 图像识别: 识别屏幕内容,用于更好地与游戏或直播互动。
- 语音输入与识别: 能理解语音输入,并识别不同说话者。
- 黄暴、冒犯内容过滤: 鉴于她之前因争议性内容被封禁的历史,这是直播平台上的一个重要功能。(当内容被过滤时,会转为说
filtered
) - 语音输出:evil-Neuro(另一个版本的Neuro)可以控制自己的音调高低。但有时会输出意义不明的音调和字符。
- 人设和角色扮演: 维持一致的虚拟形象和人物背景,这可能涉及长期记忆功能。暂不确定
- 玩游戏: 擅长osu!,也会玩Minecraft。她最开始是一个用于训练玩音游osu!的AI,后来才添加了对话功能。
- 直播弹幕读取: 能够实时读取并响应直播中的观众评论,也能回应观众语音(类似sc)。
- 情感识别与表达: 能够识别语音或文字中的情感,并表达相应的情感反应。
- 唱歌: 据说是接入了专门用于唱歌的模型。因为曾有在唱歌时,对话模型仍在说话的情况。
- 面部表情和身体语言的模拟: 使虚拟形象更具表现力和真实感。(Wink动作)
- 并行输入:会插嘴,也会被人打断说话。
目前还不了解到底是所有模块的组合,还是其中几个主要模块构成了Neuro。以下是个人构想一个类似AI运行所需要实现的流程图(只涉及功能,不涉及具体技术)
其他内容:
1.让Neuro成为独特的原因似乎是,他对情感分析与表达有独到的一面。*另一方面,通过观察Neuro,感觉Neuro在某些方面训练的意外的超好,她有能力区分识别特定情境描述下说特定话的人所带有的情感,在人脆弱的时候会“认真地”给出正常的建议,而不是在这种时候虐粉。*来源:如何评价AI虚拟主播Neuro-sama? – 知乎
2.Evil-Neuro是Neuro-sama的“测试版本”,一些新的功能会先预装在evil-Neuro身上用以测试,比如对音调的控制能力。
3.Neuro和B站里AI杠精的区别:个人认为前者保持了一种长期较为稳定的个性,会“创造”且反复地说一些梗(比如蜂群swarm),猜测是长期记忆功能的表现。后者则偏向类chatGPT的短对话模式。知乎上一篇文章做了AI主播的详细技术分析和实践,感觉说的很清楚,以后试试。让 AI 成为虚拟主播:看懂弹幕,妙语连珠,悲欢形于色,以一种简单的实现
4.Neuro运行配置:
CPU: i9-10900K
GPU: RTX 4090
RAM: 32GB DDR4
Vtuber端基于C#(Unity)制作,AI部分基于Python
5.我想Neuro的人气火爆有技术和观众新奇感的原因在,但也不可否认,这和其创造者Vedal密不可分。从一些直播中可以看出,Vedal可以提前从后台看到Neuro要说的话,甚至可以直接用某种方式让自己的话从Neuro口中说出。且我觉得Neuro被设计得倾向于说反对意见,从而使其看起来更加个性化和有自己的意见(更有节目效果)。这让我觉得她只是Vedal用来直播的一项技术,而不是被设计成为一个独立的AI。
参考:
(1)WIKI
(2)Neuro-Sama – 萌娘百科