前几天看到了一个AI虚拟主播,浅浅了解了一下,实际上狭义上的neuro-sama(可以对话的版本,以下称Neuro)从2022年12月就开始直播了。

目前了解到她的部分能力有:

  1. 文本交互: 能进行类GPT的复杂对话,但更加口语化、个性化且随意。
  2. 图像识别: 识别屏幕内容,用于更好地与游戏或直播互动。
  3. 语音输入与识别: 能理解语音输入,并识别不同说话者。
  4. 黄暴、冒犯内容过滤: 鉴于她之前因争议性内容被封禁的历史,这是直播平台上的一个重要功能。(当内容被过滤时,会转为说filtered
  5. 语音输出:evil-Neuro(另一个版本的Neuro)可以控制自己的音调高低。但有时会输出意义不明的音调和字符。
  6. 人设和角色扮演: 维持一致的虚拟形象和人物背景,这可能涉及长期记忆功能。暂不确定
  7. 玩游戏: 擅长osu!,也会玩Minecraft。她最开始是一个用于训练玩音游osu!的AI,后来才添加了对话功能。
  8. 直播弹幕读取: 能够实时读取并响应直播中的观众评论,也能回应观众语音(类似sc)。
  9. 情感识别与表达: 能够识别语音或文字中的情感,并表达相应的情感反应。
  10. 唱歌: 据说是接入了专门用于唱歌的模型。因为曾有在唱歌时,对话模型仍在说话的情况。
  11. 面部表情和身体语言的模拟: 使虚拟形象更具表现力和真实感。(Wink动作)
  12. 并行输入:会插嘴,也会被人打断说话。

目前还不了解到底是所有模块的组合,还是其中几个主要模块构成了Neuro。以下是个人构想一个类似AI运行所需要实现的流程图(只涉及功能,不涉及具体技术)

其他内容:

1.让Neuro成为独特的原因似乎是,他对情感分析与表达有独到的一面。*另一方面,通过观察Neuro,感觉Neuro在某些方面训练的意外的超好,她有能力区分识别特定情境描述下说特定话的人所带有的情感,在人脆弱的时候会“认真地”给出正常的建议,而不是在这种时候虐粉。*来源:如何评价AI虚拟主播Neuro-sama? – 知乎

2.Evil-Neuro是Neuro-sama的“测试版本”,一些新的功能会先预装在evil-Neuro身上用以测试,比如对音调的控制能力。

3.Neuro和B站里AI杠精的区别:个人认为前者保持了一种长期较为稳定的个性,会“创造”且反复地说一些梗(比如蜂群swarm),猜测是长期记忆功能的表现。后者则偏向类chatGPT的短对话模式。知乎上一篇文章做了AI主播的详细技术分析和实践,感觉说的很清楚,以后试试。让 AI 成为虚拟主播:看懂弹幕,妙语连珠,悲欢形于色,以一种简单的实现

4.Neuro运行配置:
CPU: i9-10900K
GPU: RTX 4090
RAM: 32GB DDR4
Vtuber端基于C#(Unity)制作,AI部分基于Python

5.我想Neuro的人气火爆有技术和观众新奇感的原因在,但也不可否认,这和其创造者Vedal密不可分。从一些直播中可以看出,Vedal可以提前从后台看到Neuro要说的话,甚至可以直接用某种方式让自己的话从Neuro口中说出。且我觉得Neuro被设计得倾向于说反对意见,从而使其看起来更加个性化和有自己的意见(更有节目效果)。这让我觉得她只是Vedal用来直播的一项技术,而不是被设计成为一个独立的AI。

参考:

(1)WIKI

(2)Neuro-Sama – 萌娘百科