2024年1月10日最热AI论文Top5：DebugBench、AI智能体对齐、开放域问答系统、谈判游戏、联邦学习

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。

如需查看其他热门论文，欢迎移步saibomaliang.com^_^

TOP1

DebugBench: Evaluating Debugging Capability of Large Language Models

标题：

清华发布DebugBench，揭示大型语言模型的编程疑难解答真相

标签：
Tsinghua、NLP、ML

作者：
Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun

推荐理由：

这篇论文来自清华大学，一个在AI领域具有很高影响力的机构。论文的主题是评估大型语言模型的调试能力，这是一个当前AI研究的热点话题，因为它涉及到大型语言模型（LLMs）的实用性和可靠性。此外，调试能力是AI安全性和效率提升的关键部分，这可能会吸引业界的广泛关注。

论文简介：

大型语言模型（LLMs）已经展示出了卓越的编码能力。然而，作为编程熟练度的另一个关键组成部分，LLMs的调试能力相对未被充分探索。之前对LLMs调试能力的评估受到数据泄露风险、数据集规模以及测试错误种类多样性的显著限制。

为了克服这些不足，我们引入了DebugBench，一个由4,253个实例组成的LLM调试基准测试。它涵盖了C++、Java和Python中的四大错误类别和18个小类别。为了构建DebugBench，我们从LeetCode社区收集代码片段，使用GPT-4向源数据中植入错误，并确保严格的质量检查。我们在零样本场景下评估了两个商业模型和三个开源模型。

我们发现：（1）尽管像GPT-4这样的闭源模型在调试性能上不如人类，但像Code Llama这样的开源模型甚至无法达到任何通过率分数；（2）调试的复杂性显著受到错误类别的影响；（3）加入运行时反馈对调试性能有明显影响，但这种影响并不总是有帮助。作为扩展，我们还比较了LLM在调试和代码生成方面的表现，发现对于闭源模型而言，它们之间存在强相关性。这些发现将有助于LLMs在调试方面的发展。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=c1a9eb11-6992-420a-93c1-186826e0487a

TOP2

Agent Alignment in Evolving Social Norms

标题：

复旦提出EvolutionaryAgent框架，推动智能体与社会规范的持续对齐

标签：
Fudan、NLP、ML

作者：
Shimin Li, Tianxiang Sun, Xipeng Qiu

推荐理由：
这篇论文由复旦大学的研究人员撰写，探讨了在演化社会规范中的代理对齐问题。这是一个具有社会影响和伦理道德考量的研究领域，可能会引起公众和媒体的广泛讨论。此外，代理对齐与AI的安全性和可控性密切相关，这是当前AI研究的一个热点。

论文简介：

基于大型语言模型（LLMs）的智能体正日益渗透到人类生产和生活的各个领域，这突显了使它们与人类价值观保持一致的重要性。目前，人工智能系统的对齐主要集中在通过人类干预被动地对齐LLMs。然而，智能体具有接收环境反馈和自我进化等特性，这使得现有的LLM对齐方法不足。为此，我们提出了一个智能体进化和对齐的进化框架，名为EvolutionaryAgent，它将智能体对齐转变为一个在适者生存原则下的进化和选择过程。在社会规范不断演变的环境中，更好地适应当前社会规范的智能体将有更高的生存和繁衍概率，而那些对齐不足的智能体则会随时间减少。从多个角度评估智能体与社会规范对齐的实验结果表明，EvolutionaryAgent具有逐渐更好地与不断演变的社会规范对齐的能力，同时保持其在一般任务中的熟练程度。在各种开源和闭源LLMs作为智能体基础上进行的有效性测试也证明了我们方法的适用性。

论文解读链接：
https://www.saibomaliang.com/generate?session_id=ed3fe2a8-5072-431e-abba-40676d24bf31

TOP3

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

标题：
解锁知识评估新境界：Google提出GRANOLA QA，多粒度答案让问答准确率飙升20点！

标签：
Google、NLP

作者：
Gal Yona, Roee Aharoni, Mor Geva

推荐理由：
这篇论文由谷歌的研究团队发表，研究了开放域问答系统中的多粒度答案生成问题。谷歌是AI领域的领先公司之一，其研究成果通常会受到业界和学术界的高度关注。此外，开放域问答是自然语言处理领域的一个重要方向，具有广泛的应用前景。

论文简介：
事实类问题通常可以在不同的粒度级别上正确回答。例如，对于问题“巴拉克·奥巴马何时出生？”，“1961年8月4日”和“1961年”都是正确的答案。然而，标准的问答（QA）评估协议并没有明确考虑到这一点，而是将预测答案与单一粒度级别的答案进行比较。

在这项工作中，我们提出了GRANOLA QA，这是一种新颖的评估设置，其中预测答案将根据准确性和信息量与一组多粒度答案进行评估。我们提出了一种简单的方法论，用于丰富现有数据集中的多粒度答案，并创建了GRANOLA-EQ，一个EntityQuestions数据集的多粒度版本。我们在GRANOLA-EQ上评估了一系列解码方法，包括一种新算法，称为带有响应聚合的解码（DRAG），该算法旨在使响应粒度与模型的不确定性对齐。

我们的实验表明，使用标准解码的大型语言模型倾向于生成具体答案，这些答案往往是不正确的。相比之下，当在多粒度答案上评估时，DRAG的准确率平均提高了近20个百分点，对于罕见实体，这一提高更为显著。总体而言，这揭示了标准评估和解码方案可能会严重低估语言模型中封装的知识。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=2b6c3b89-21db-40f6-805e-89bd9aa9e875

TOP4

Evaluating Language Model Agency through Negotiations

标题：

Google研究新突破：问答系统的革新，智能回答更准确，知识评估差距被缩小

标签：
Stanford、NLP、ML

作者：
Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime Peyrard, Antoine Bosselut, Michal Kosinski, Robert West

推荐理由：
这篇论文来自斯坦福大学，研究了通过谈判评估语言模型的代理性。斯坦福大学是AI领域的顶尖机构之一，其研究成果通常具有较高的影响力。论文的主题与AI的社会影响和伦理问题相关，可能会引起公众和媒体的广泛讨论。

论文简介：

公司、组织和政府越来越多地利用语言模型（LM）展示类似代理的行为的显著能力。随着LM被用于执行越来越多的自主任务，迫切需要可靠和可扩展的评估基准。目前，主要是静态的LM基准测试不适合评估这类动态应用。因此，我们提出通过谈判游戏的视角来联合评估LM的性能和对齐。我们认为这种常见任务更好地反映了现实世界的部署条件，同时提供了对LM决策过程的洞察。关键是，谈判游戏允许我们研究多轮和跨模型互动，调节复杂性，并在评估中避免意外的数据泄露。

我们报告了几个主要提供商的六个公开可访问的LM在多种谈判游戏上的结果，评估了自我对弈和交叉对弈的性能。值得注意的发现包括：（i）开源模型目前无法完成这些任务；（ii）合作型讨价还价游戏证明具有挑战性；以及（iii）最强大的模型并不总是“赢家”。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=f7867983-4adf-47eb-bd7a-0b017d346504

TOP5

标题：
音频生成新纪元：Meta推出MAGNeT，单步变革非自回归Transformer，速度提升7倍！

标签：

Meta、ML

作者：
Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi

推荐理由：
这篇论文由Meta（前Facebook）的研究者撰写，Meta是AI领域的另一家领先企业。论文介绍了一种新的非自回归变换器用于掩蔽音频生成，这是一个创新的研究方向，涉及到音频处理和生成模型，这些都是当前AI领域的热点话题。此外，音频生成技术在娱乐、教育和辅助技术等多个领域都有潜在的应用价值。

论文简介：

我们介绍了MAGNeT，这是一种直接在多个音频令牌流上操作的掩蔽生成序列建模方法。与以往的工作不同，MAGNeT由单阶段、非自回归变换器组成。在训练过程中，我们预测由掩蔽调度器获得的掩蔽令牌跨度，而在推理过程中，我们使用多个解码步骤逐步构建输出序列。为了进一步提高生成音频的质量，我们引入了一种新颖的重评分方法，在该方法中，我们利用一个外部预训练模型来重评分和排列MAGNeT的预测，这些预测将被用于后续的解码步骤。最后，我们探索了MAGNeT的混合版本，在这个版本中，我们融合了自回归和非自回归模型，以自回归方式生成前几秒钟的音频，而序列的其余部分则并行解码。我们展示了MAGNeT在文本到音乐和文本到音频生成任务中的效率，并进行了广泛的实证评估，考虑了客观指标和人类研究。所提出的方法与评估的基准相当，同时速度显著更快（比自回归基准快7倍）。通过消融研究和分析，我们阐明了构成MAGNeT的每个组件的重要性，并指出了自回归和非自回归建模之间的权衡，包括延迟、吞吐量和生成质量。样本可在我们的演示页面上获得。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=e65b78f9-2b63-4360-a190-86f5346a0401

本文论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。

如需查看其他最热论文，欢迎移步saibomaliang.com^_^

文章版权归作者所有，未经允许请勿转载。

THE END