论文目录~
- 1.Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
- 2.Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
- 3.Meta-Task Prompting Elicits Embedding from Large Language Models
- 4.The First Place Solution of WSDM Cup 2024: Leveraging Large Language Models for Conversational Multi-Doc QA
- 5.Towards Generalist Prompting for Large Language Models by Mental Models
- 6.Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation
- 7.Cause and Effect: Can Large Language Models Truly Understand Causality?
- 8.Datasets for Large Language Models: A Comprehensive Survey
- 9.A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems
- 10.The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
- 11.Evaluating Very Long-Term Conversational Memory of LLM Agents
- 12.Tower: An Open Multilingual Large Language Model for Translation-Related Tasks
- 13.TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space
- 14.Training-Free Long-Context Scaling of Large Language Models
- 15.Investigating Continual Pretraining in Large Language Models: Insights and Implications
- 16.Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue
- 17.When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
- 18.Can Large Language Models Recall Reference Location Like Humans?
- 19.Do Large Language Models Latently Perform Multi-Hop Reasoning?
- 20.ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors
- 21.Improving LLM-based Machine Translation with Systematic Self-Correction
- 22.CodeS: Towards Building Open-source Language Models for Text-to-SQL
- 23.PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization
1.Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
标题:针对不同用户偏好的 LLM 算法控制:多目标奖励的定向偏好调整
author:Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang
publish:The code and model are released at
https://github.com/Haoxiang-Wang/directional-preference-alignment
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18571v2
摘要:
对大型语言模型(LLMs)进行细粒度控制仍然是一项重大挑战,这阻碍了它们对不同用户需求的适应性。虽然人类反馈强化学习(RLHF)在对齐 LLM 方面大有可为,但它对标量奖励的依赖往往限制了其在实际应用中捕捉不同用户偏好的能力。为了解决这一局限性,我们引入了定向偏好对齐(DPA)框架。与标量奖励的 RLHF 不同,DPA 结合了多目标奖励建模,以表示不同的偏好特征。此外,DPA 还将用户偏好建模为奖励空间中的方向(即单位向量),以实现用户偏好控制。我们的方法包括训练一个多目标奖励模型,然后用 Llama 2 采用的一种 RLHF 方法–拒绝采样微调(RSF)的偏好条件变体对 LLM 进行微调。这种方法能在各种奖励目标之间实现更好的性能权衡。与标量奖励 RLHF 相比,DPA 为用户提供了对 LLM 生成的直观控制:他们可以通过算术方法指定所需的权衡(例如,在减少啰嗦的同时提供更多帮助)。我们还通过 Mistral-7B 上的实际配准实验验证了 DPA 的有效性。我们的方法提供了对有用性和冗长性之间权衡的直接算术控制,同时保持了与直接偏好优化(DPO)等强大基线的竞争性能。
2.Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
标题:微调后的 LLM 保持一致:提示模板的关键作用
author:Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora
publish:20 pages
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18540v1
摘要:
公共 LLM(如 Llama 2-Chat)推动了 LLM 研究的巨大发展。这些模型经过了对齐训练,被认为是安全的。最近,Qi 等人(2023 年)报告说,即使是良性微调(例如,在看似安全的数据集上)也会导致模型出现不安全行为。本文介绍的是减轻这种对齐损失的方法和最佳实践。通过在几个聊天模型(Meta 的 Llama 2-Chat、Mistral AI 的 Mistral 7B Instruct v0.2,以及 OpenAI 的 GPT-3.5 Turbo)上进行大量实验,本文发现微调和推理过程中使用的提示模板在保持安全一致性方面起着至关重要的作用,并提出了 “纯粹微调,安全测试”(PTST)原则–在没有安全提示的情况下对模型进行微调,但在测试时加入安全提示。在 GSM8K、ChatDoctor 和 OpenOrca 上进行的微调实验表明,PTST 显著减少了不安全行为的增加,甚至在某些情况下几乎消除了不安全行为。
3.Meta-Task Prompting Elicits Embedding from Large Language Models
标题:元任务提示从大型语言模型中提取嵌入信息
author:Yibin Lei, Di Wu, Tianyi Zhou, Tao Shen, Yu Cao, Chongyang Tao, Andrew Yates
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18458v1
摘要:
在这项工作中,我们介绍了一种新的无监督嵌入方法–带有明确单词限制的元任务提示(Meta-Task Prompting with Explicit One-Word Limitation,简称 MetaEOL),用于从大型语言模型(Large Language Models,简称 LLM)生成高质量的句子嵌入,而无需对模型进行微调或针对特定任务进行工程设计。利用元任务提示功能,MetaEOL 通过一系列精心设计的提示来引导 LLM 生成嵌入句子,这些提示涉及多个表征方面。我们的综合实验证明,从各种元任务中平均得出的嵌入结果在语义文本相似性(STS)基准测试中具有竞争力,并且在下游任务中表现出色,超过了对比训练模型。我们的研究结果为嵌入生成提出了一种新的缩放规律,为以句子为中心的各种嵌入提取提供了一种多功能、资源节约型方法。
4.The First Place Solution of WSDM Cup 2024: Leveraging Large Language Models for Conversational Multi-Doc QA
标题:WSDM Cup 2024 第一名解决方案:利用大型语言模型进行会话式多文档质量保证
author:Yiming Li, Zhao Zhang
publish:1st solution for WSDM Cup 2024
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18385v1
摘要:
对话式多文档问题解答旨在根据检索到的文档和上下文对话回答特定问题。在本文中,我们介绍了我们在 WSDM Cup 2024 的 “对话式多文档问题解答 “挑战赛中获胜的方法,该方法利用了大型语言模型(LLM)的卓越自然语言理解和生成能力。我们首先根据任务调整 LLM,然后设计了一种混合训练策略,以充分利用域内无标注数据。此外,我们还采用了先进的文本嵌入模型来过滤潜在的不相关文档,并设计和比较了几种模型组合方法。在所有这些技术的支持下,我们的解决方案最终在 “WSDM Cup 2024 “中获得了第一名,在很大程度上超越了竞争对手。源代码已在 https://github.com/zhangzhao219/WSDM-Cup-2024 上发布。
5.Towards Generalist Prompting for Large Language Models by Mental Models
标题:通过心理模型实现大型语言模型的通用提示
author:Haoxiang Guan, Jiyan He, Shuxin Zheng, En-Hong Chen, Weiming Zhang, Nenghai Yu
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18252v1
摘要:
大型语言模型(LLM)在许多任务中都表现出了令人印象深刻的性能。然而,要达到最佳性能,仍需要专门设计的提示方法。这些方法要么依赖于需要一定领域知识的特定任务实例,要么设计简单,但只能在少数类型的任务中表现出色。在这项工作中,我们尝试引入通用提示的概念,其设计原则是在广泛的任务中实现最佳或接近最佳的性能,同时无需人工选择和定制针对特定问题的提示。此外,我们还提出了 MeMo(心理模型),这是一种创新的提示方法,设计简单,却能有效满足通用提示的标准。MeMo 将各种提示方法的核心提炼为单个心智模型,并允许 LLM 自主选择最适合问题的心智模型,从而在各种任务(如 STEM、逻辑推理和零镜头环境下的常识推理)中取得或接近最先进的结果。我们希望本文提出的见解能激励人们进一步探索针对 LLM 的通用提示方法。
6.Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation
标题:无监督信息提炼训练大型语言模型,实现检索增强型生成
author:Shicheng Xu, Liang Pang, Mo Yu, Fandong Meng, Huawei Shen, Xueqi Cheng, Jie Zhou
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18150v1
摘要:
检索增强生成(RAG)通过整合来自检索的附加信息来增强大型语言模型(LLM)。然而,研究表明,大语言模型在有效利用检索信息方面仍然面临挑战,甚至会忽略检索信息或被检索信息误导。其关键原因在于,对 LLM 的训练并不能让 LLM 明确学会如何利用输入的不同质量的检索文本。在本文中,我们提出了一个新的视角,将 LLMs 在 RAG 中的角色视为 “信息提炼者”,即无论检索文本的正确性、完整性或有用性如何,LLMs 都能持续地整合检索文本中的知识和模型参数,生成比检索文本更简洁、准确和完整的文本。为此,我们提出了一种名为 InFO-RAG 的信息提炼训练方法,以无监督的方式优化 RAG 的 LLM。InFO-RAG 成本低,适用于各种任务。对包括问题解答、槽填充、语言建模、对话和代码生成在内的不同任务中的 11 个数据集的零点预测进行的广泛实验表明,InFO-RAG 平均将 LLaMA2 的性能提高了 9.39% 的相对点。InFO-RAG 在上下文学习和鲁棒性方面也显示出 RAG 的优势。
7.Cause and Effect: Can Large Language Models Truly Understand Causality?
标题:因果关系:大型语言模型能否真正理解因果关系?
author:Swagata Ashwani, Kshiteesh Hegde, Nishith Reddy Mannuru, Mayank Jindal, Dushyant Singh Sengar, Krishna Chaitanya Rao Kathala, Dishant Banga, Vinija Jain, Aman Chadha
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18139v1
摘要:
随着大型语言模型(LLMs)的兴起,了解它们在破译和解释语言所包含的复杂因果关系网络方面的能力和局限性变得至关重要。目前的方法要么使用显式因果推理,要么使用隐式因果推理,但我们亟需一种将两者结合起来的统一方法,以更有效地处理各种因果关系。本研究提出了一种名为 “情境感知推理增强与反事实分析(CARE CA)”框架的新架构,以增强因果推理和可解释性。所提出的框架包含一个带有 ConceptNet 和反事实陈述的显式因果检测模块,以及通过 LLMs 进行的隐式因果检测。我们的框架更进一步,增加了一层反事实解释,以加强 LLM 对因果关系的理解。来自 ConceptNet 的知识增强了多种因果推理任务的性能,如因果发现、因果识别和反事实推理。反事实句子增加了非因果情景的明确知识。通过结合这些功能强大的模块,我们的模型旨在提供对因果关系的更深入理解,从而增强可解释性。对基准数据集的评估表明,在准确率、精确度、召回率和 F1 分数等所有指标上,我们的模型都取得了更好的性能。我们还介绍了 CausalNet,这是一个新的数据集,并附有我们的代码,以促进该领域的进一步研究。
8.Datasets for Large Language Models: A Comprehensive Survey
标题:大型语言模型的数据集:全面调查
author:Yang Liu, Jiahuan Cao, Chongyu Liu, Kai Ding, Lianwen Jin
publish:181 pages, 21 figures
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18041v1
摘要:
本文开始探索大型语言模型(LLM)数据集,这些数据集在 LLM 的显著进步中发挥着至关重要的作用。这些数据集是基础架构,类似于支撑和培育 LLM 发展的根系统。因此,对这些数据集的研究成为研究中的一个重要课题。为了解决目前缺乏对 LLM 数据集的全面概述和透彻分析的问题,并深入了解这些数据集的现状和未来趋势,本调查从五个方面对 LLM 数据集的基本方面进行了整合和分类:(1) 预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统自然语言处理 (NLP) 数据集。调查揭示了当前面临的挑战,并指出了未来研究的潜在途径。此外,还对现有的数据集资源进行了全面回顾,包括来自 444 个数据集的统计数据,涵盖 8 个语言类别和 32 个领域。数据集统计包含 20 个维度的信息。调查的总数据量超过了 774.5 TB(预训练语料库)和 7 亿个实例(其他数据集)。我们的目标是展示 LLM 文本数据集的全貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源请访问:https://github.com/lmmlzn/Awesome-LLMs-Datasets。
9.A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems
标题:基于 LLM 的多轮对话系统最新进展概览
author:Zihao Yi, Jiarui Ouyang, Yuwen Liu, Tianhao Liao, Zhe Xu, Ying Shen
publish:35 pages, 10 figures, ACM Computing Surveys
date Time:2024-02-28
paper pdf:http://arxiv.org/pdf/2402.18013v1
摘要:
本调查报告全面回顾了多轮对话系统的研究,尤其关注基于大型语言模型(LLM)的多轮对话系统。本文旨在:(a) 总结现有的大型语言模型和使大型语言模型适应下游任务的方法;(b) 阐述多轮对话系统的最新进展,包括基于大型语言模型的开放域对话(ODD)系统和面向任务的对话(TOD)系统,以及数据集和评估指标;© 讨论大型语言模型的发展和对多轮对话系统日益增长的需求所带来的一些未来重点和最新研究问题。
10.The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
标题:1 位 LLM 时代:所有大型语言模型均为 1.58 位
author:Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
publish:Work in progress
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17764v1
摘要:
最近的研究,如 BitNet,正在为 1 位大语言模型(LLM)的新时代铺平道路。在这项工作中,我们引入了一种 1 位 LLM 变体,即 BitNet b1.58,其中 LLM 的每个参数(或权重)都是三元{-1, 0, 1}。在困惑度和任务结束性能方面,它与具有相同模型大小和训练令牌的全精度(即 FP16 或 BF16)Transformer LLM 相匹配,同时在延迟、内存、吞吐量和能耗方面明显更具成本效益。更深远的意义在于,1.58 位 LLM 定义了一种新的缩放规律,也是训练新一代 LLM 的秘诀,这种 LLM 性能高、成本低。此外,它还实现了一种新的计算模式,并为设计针对 1 位 LLM 进行优化的特定硬件打开了大门。
11.Evaluating Very Long-Term Conversational Memory of LLM Agents
标题:评估 LLM 代理的超长期对话记忆
author:Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, Yuwei Fang
publish:19 pages; Project page: https://snap-research.github.io/locomo/
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17753v1
摘要:
关于长期开放域对话的现有研究主要集中在评估模型在不超过五个聊天会话的上下文中的反应。尽管长语境大型语言模型(LLMs)和检索增强生成(RAG)技术取得了进步,但它们在长期对话中的功效仍有待探索。为了填补这一研究空白,我们引入了一种机器-人工管道,利用基于 LLM 的代理架构,并将其对话建立在角色和时间事件图的基础上,从而生成高质量的长期对话。此外,我们还为每个代理配备了共享图像和对图像做出反应的功能。生成的对话将由人类注释者进行验证和编辑,以确保长距离一致性和事件图的基础性。利用这一管道,我们收集了 LoCoMo,这是一个包含长期对话的数据集,每个对话在长达 35 个会话中平均包含 300 个回合和 9K 个标记。在 LoCoMo 的基础上,我们提出了衡量模型中长期记忆的综合评估基准,包括问题解答、事件总结和多模态对话生成任务。我们的实验结果表明,长时记忆模型在理解冗长对话和理解对话中的长时动态和因果动态方面面临挑战。采用长语境 LLMs 或 RAG 等策略可以有所改进,但这些模型仍然大大落后于人类的表现。
12.Tower: An Open Multilingual Large Language Model for Translation-Related Tasks
标题:塔用于翻译相关任务的开放式多语种大语言模型
author:Duarte M. Alves, José Pombal, Nuno M. Guerreiro, Pedro H. Martins, João Alves, Amin Farajian, Ben Peters, Ricardo Rei, Patrick Fernandes, Sweta Agrawal, Pierre Colombo, José G. C. de Souza, André F. T. Martins
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17733v1
摘要:
虽然通用大型语言模型(LLM)在翻译领域的多个任务上都表现出了卓越的能力,但基于开放式 LLM 的方法只有在专门处理单一任务时才具有竞争力。在本文中,我们提出了一种针对翻译工作流中的多种任务定制 LLM 的方法。我们在单语和平行数据的多语种混合物上进行持续的预训练,创建了 TowerBase,然后在与翻译流程相关的指令上进行微调,创建了 TowerInstruct。我们的最终模型在多个与翻译工作流相关的任务上超越了其他开放式模型,与通用封闭式 LLM 相比也具有竞争力。为了促进未来的研究,我们在我们的基准上发布了 Tower 模型、我们的专业化数据集、专注于翻译生态系统的 LLM 评估框架,以及包括我们在内的模型生成集合。
13.TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space
标题:TruthX:通过编辑真实空间中的大型语言模型缓解幻觉
author:Shaolei Zhang, Tian Yu, Yang Feng
publish:Code: https://github.com/ictnlp/TruthX, A Llama-2-7B-Chat model with
baked-in TruthX: https:// huggingface.co/ICTNLP/Llama-2-7b-chat-TruthX
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17811v1
摘要:
大型语言模型(LLM)在各种任务中都表现出了非凡的能力。然而,它们有时也会产生幻觉,特别是在拥有正确知识的情况下,它们可能会产生不真实的回答。在本文中,我们提出了 TruthX,这是一种推理时方法,可通过编辑 LLMs 在真实空间中的内部表征来激发其真实性。TruthX 采用自动编码器将 LLM 的表征分别映射到语义空间和真实潜在空间中,并应用对比学习来确定真实空间中的真实编辑方向。在推理过程中,通过编辑 LLM 在真实空间中的内部表征,TruthX 可以有效提高 LLM 的真实性。实验表明,在 TruthfulQA 基准测试中,TruthX 有效地提高了 13 个高级 LLM 的真实性,平均提高了 20%。进一步的分析表明,TruthX 获取的真实空间在控制 LLM 产生真实或幻觉反应方面发挥了关键作用。
14.Training-Free Long-Context Scaling of Large Language Models
标题:大型语言模型的免训练长语境扩展
author:Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17463v1
摘要:
当输入标记的数量超过预训练长度时,大型语言模型(LLM)处理和生成连贯文本的能力就会明显减弱。考虑到使用较长序列对大型模型进行微调的高昂开销,我们提出了双块注意力(DCA),使 Llama2 70B 无需持续训练即可支持超过 100k 标记的上下文窗口。通过将长序列的注意力计算分解为基于分块的模块,DCA 能够有效捕捉同一分块内(Intra-Chunk)和不同分块间(Inter-Chunk)标记的相对位置信息,并与 Flash Attention 无缝集成。除了令人印象深刻的外推能力外,DCA 在实际的长语境任务中的表现与微调模型相当,甚至更好。与专有模型相比,我们的免训练 70B 模型达到了 gpt-3.5-16k 性能的 94%,这表明它是一个可行的开源替代方案。这项工作中使用的所有代码和数据都发布在 \url{https://github.com/HKUNLP/ChunkLlama} 上。
15.Investigating Continual Pretraining in Large Language Models: Insights and Implications
标题:调查大型语言模型中的持续预训练:见解与启示
author:Çağatay Yıldız, Nishaanth Kanna Ravichandran, Prishruit Punia, Matthias Bethge, Beyza Ermis
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17400v1
摘要:
本文研究了大型语言模型(LLM)中不断发展的持续学习(CL)领域,重点是开发高效和可持续的训练策略。我们的主要重点是持续的领域自适应预训练,这一过程旨在使 LLM 具备整合来自不同领域的新信息的能力,同时保留以前学习的知识,并在不依赖特定领域识别的情况下加强跨领域知识转移。以往的研究大多集中在有限的任务或领域选择上,主要目的是解决遗忘问题,与此不同,我们的研究评估的是 LLM 在实际场景中对不断变化的数据景观的适应性和能力。为此,我们引入了一个新的基准,旨在衡量 LLM 对这些不断变化的数据环境的适应性,从而提供一个全面的评估框架。我们研究了模型大小对学习效率和遗忘的影响,以及新兴领域的进展和相似性如何影响这些模型内的知识转移。我们的研究结果揭示了几个关键见解:(i) 当领域序列显示出语义相似性时,与单独的微调相比,持续的预训练能使 LLM 更好地专注于当前领域;(ii) 跨不同领域的训练能增强后向和前向知识转移;(iii) 较小的模型对持续的预训练特别敏感,其遗忘率和学习率都最为显著。我们认为,我们的研究标志着在研究 LLM 中的 CL 方面,我们正朝着建立一个更切合实际的基准迈进,并有可能在指导该领域未来研究方向方面发挥关键作用。
16.Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue
标题:越权发言:多轮对话中大型语言模型的安全漏洞
author:Zhenhong Zhou, Jiuyang Xiang, Haopeng Chen, Quan Liu, Zherui Li, Sen Su
publish:working in progress 23pages, 18 figures
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17262v1
摘要:
大型语言模型(LLMs)已被证明会产生非法或不道德的反应,尤其是在 “越狱 “的情况下。有关 “越狱 “的研究凸显了大型语言模型的安全问题。然而,之前的研究主要集中在单轮对话上,忽略了多轮对话可能带来的复杂性和风险,而多轮对话是人类从 LLMs 获取信息的重要模式。本文认为,人类可以利用多轮对话诱导 LLM 生成有害信息。在多轮对话中,即使每轮对话都是为了一个恶意目的而进行的,LLM 也可能无意拒绝警示性或边缘性的不安全查询。因此,通过将一个不安全查询分解为多个多轮对话的子查询,我们诱导 LLM 逐步回答有害的子问题,最终形成一个整体的有害响应。我们在多种 LLM 中进行的实验表明,目前多轮对话中的 LLM 安全机制存在不足。我们的研究结果揭示了在涉及多轮对话的复杂场景中 LLM 的脆弱性,为 LLM 的安全性提出了新的挑战。
17.When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
标题:当缩放遇到 LLM 微调:数据、模型和微调方法的影响
author:Biao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat
publish:ICLR24
date Time:2024-02-27
paper pdf:http://arxiv.org/pdf/2402.17193v1
摘要:
虽然大型语言模型(LLM)经常采用微调来释放其在下游应用中的能力,但我们对不同微调方法的归纳偏差(尤其是缩放特性)的了解仍然有限。为了填补这一空白,我们进行了系统实验,研究不同的缩放因子(包括 LLM 模型大小、预训练数据大小、新微调参数大小和微调数据大小)是否以及如何影响微调性能。我们考虑了两种类型的微调–全模型微调(FMT)和参数高效微调(PET,包括及时微调和 LoRA),并探讨了它们在数据有限机制下的缩放行为,在这种机制下,LLM 模型的大小大大超过了微调数据的大小。基于从 1B 到 16B 的两组预训练双语 LLM,以及在双语机器翻译和多语摘要基准上的实验,我们发现:1)LLM 微调遵循微调数据大小和每个其他缩放因子之间基于幂的乘法联合缩放规律;2)LLM 微调更多受益于 LLM 模型缩放而非预训练数据缩放,而 PET 参数缩放通常无效;3)最佳微调方法高度依赖于任务和微调数据。我们希望我们的发现能对理解、选择和开发 LLM 微调方法有所启发。
18.Can Large Language Models Recall Reference Location Like Humans?
标题:大型语言模型能像人类一样回忆参考位置吗?
author:Ye Wang, Xinrun Xu, Rui Xie, Wenxin Hu, Wei Ye
date Time:2024-02-26
paper pdf:http://arxiv.org/pdf/2402.17010v1
摘要:
在完成知识密集型任务时,人类有时不仅需要答案,还需要相应的参考段落进行辅助阅读。以往的方法需要通过额外的检索模型来获取预先分割好的文章块。本文探讨了如何利用大语言模型(LLM)预训练阶段存储的参数化知识,从任意起始位置独立调用参考段落。我们提出了一个两阶段框架,模拟人类回忆容易遗忘的参考文献的情景。首先,提示 LLM 回想文档标题标识符,以获得粗粒度文档集。然后,在获得的粗粒度文档集的基础上,再召回细粒度段落。在两阶段的召回过程中,我们使用了约束解码,以确保不会生成存储文档之外的内容。为了提高速度,我们在第二阶段只召回短前缀,然后定位其位置以检索完整段落。在 KILT 知识敏感任务上的实验验证了 LLMs 可以在各种任务形式中独立地召回参考段落位置,所获得的参考段落对下游任务有很大帮助。
19.Do Large Language Models Latently Perform Multi-Hop Reasoning?
标题:大型语言模型是否能潜在执行多跳推理?
author:Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
date Time:2024-02-26
paper pdf:http://arxiv.org/pdf/2402.16837v1
摘要:
我们研究了大型语言模型(LLMs)是否会对诸如”‘Superstition’歌手的母亲是 “这样的复杂提示进行多跳推理。我们寻找一种潜在推理路径的证据,在这种路径中,大型语言模型(LLM)(1)将”’Superstition’的歌手 “潜在地识别为桥梁实体 Stevie Wonder,(2)使用其关于 Stevie Wonder 母亲的知识来完成提示。我们单独分析这两个跳转,并将它们的共同出现视为潜在多跳推理的标志。对于第一跳,我们测试的是改变提示间接提及桥梁实体而不是其他实体是否会增加 LLM 对桥梁实体的内部回忆。对于第二跳,我们测试这种回忆的增加是否会使 LLM 更好地利用它对桥梁实体的了解。在某些关系类型的提示中,我们发现了潜在多跳推理的有力证据,80% 以上的提示都使用了推理路径。不过,推理途径的使用与具体情况密切相关,不同类型的提示会有不同的使用情况。而且,平均而言,第二跳和完整多跳遍历的证据相当有限,只有第一跳的证据相当可观。此外,我们还发现,随着模型规模的增大,第一跳推理有明显的缩放趋势,但第二跳则没有。我们的实验结果为 LLMs 未来的发展和应用提出了潜在的挑战和机遇。
20.ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors
标题:ShieldLM:增强 LLM 的能力,使其成为一致、可定制和可解释的安全探测器
author:Zhexin Zhang, Yida Lu, Jingyuan Ma, Di Zhang, Rui Li, Pei Ke, Hao Sun, Lei Sha, Zhifang Sui, Hongning Wang, Minlie Huang
publish:17 pages
date Time:2024-02-26
paper pdf:http://arxiv.org/pdf/2402.16444v1
摘要:
近年来,大型语言模型(LLM)的安全性越来越受到人们的关注,但仍然缺乏一种全面的方法,以统一、可定制和可解释的方式检测 LLM 响应中的安全问题。在本文中,我们提出了基于 LLM 的安全检测器 ShieldLM,它符合一般的人类安全标准,支持可定制的检测规则,并能对其决定做出解释。为了训练 ShieldLM,我们编制了一个大型双语数据集,其中包括 14,387 个查询-响应对,并根据各种安全标准对响应的安全性进行了注释。通过广泛的实验,我们证明了 ShieldLM 在四个测试集上超越了强大的基线,展示了出色的可定制性和可解释性。除了在标准检测数据集上表现出色外,ShieldLM 作为高级 LLM 的安全评估工具在现实世界中也被证明是有效的。我们在 \url{https://github.com/thu-coai/ShieldLM} 上发布了 ShieldLM,以支持在各种安全标准下进行准确且可解释的安全检测,为不断提高 LLM 的安全性做出贡献。
21.Improving LLM-based Machine Translation with Systematic Self-Correction
标题:用系统自校正改进基于 LLM 的机器翻译
author:Zhaopeng Feng, Yan Zhang, Hao Li, Wenqiang Liu, Jun Lang, Yang Feng, Jian Wu, Zuozhu Liu
date Time:2024-02-26
paper pdf:http://arxiv.org/pdf/2402.16379v1
摘要:
大型语言模型(LLM)在机器翻译(MT)领域取得了令人瞩目的成就。然而,通过人工仔细评估发现,大型语言模型生成的译文仍然包含多种错误。重要的是,将这些错误信息反馈给 LLM 可以实现自我修正,从而提高翻译性能。受这些见解的启发,我们引入了一个基于 LLM 的系统化自我校正翻译框架,命名为 TER(Translate, Estimate, and Refine),标志着我们在这一方向上迈出了重要一步。我们的研究结果表明:1)无论是从高资源语言到低资源语言,还是以英语为中心或以其他语言为中心,我们的自校正框架都能成功帮助 LLM 提高各种语言的翻译质量;2)与之前的方法相比,TER 表现出更高的系统性和可解释性;3)不同的估算策略会对人工智能反馈产生不同的影响,直接影响最终校正的效果。我们进一步比较了不同的 LLM,并进行了涉及自校正和跨模型校正的各种实验,以研究 LLM 的翻译和评估能力之间的潜在关系。
22.CodeS: Towards Building Open-source Language Models for Text-to-SQL
标题:CodeS:为文本到 SQL 构建开源语言模型
author:Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen
publish:Accepted to SIGMOD 2024
date Time:2024-02-26
paper pdf:http://arxiv.org/pdf/2402.16347v1
摘要:
语言模型在将自然语言问题翻译成 SQL 查询(文本到 SQL)的任务中表现出了良好的性能。然而,大多数最先进的(SOTA)方法都依赖于强大但闭源的大型语言模型(LLM),如 ChatGPT 和 GPT-4,这些模型可能存在模型架构不清晰、数据隐私风险和推理开销昂贵等局限性。为了解决这些局限性,我们引入了 CodeS,这是一系列预先训练好的语言模型,参数范围从 1B 到 15B,专为文本到 SQL 任务而设计。CodeS 是一种完全开源的语言模型,它能以更小的参数规模实现更高的准确性。本文研究了构建 CodeS 所面临的研究挑战。为了提高 CodeS 的 SQL 生成能力,我们采用了一种增量预训练方法,使用专门策划的以 SQL 为中心的语料库。在此基础上,我们通过战略性提示构建和双向数据增强技术,解决了模式链接和快速领域适应的难题。我们在多个数据集上进行了全面评估,包括广泛使用的 Spider 基准、最新发布的 BIRD 基准、鲁棒性诊断基准(如 Spider-DK、Spider-Syn、Spider-Realistic 和 Dr.Spider),以及为金融和学术应用创建的两个真实世界数据集。实验结果表明,我们的 CodeS 在几乎所有具有挑战性的文本到 SQL 基准上都达到了新的 SOTA 准确性和鲁棒性。
23.PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization
标题:PeriodicLoRA:打破 LoRA 优化中的低链瓶颈
author:Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, Zhifang Sui
date Time:2024-02-25
paper pdf:http://arxiv.org/pdf/2402.16141v1
摘要:
监督微调是使大型语言模型(LLM)适应下游任务的最常用方法,但对 LLM 进行全面微调需要大量计算资源。最近,参数效率微调(PEFT)方法因其成本效益而被广泛研究。LoRA 是应用最广泛的方法之一,它假定优化过程本质上是低维的。虽然 LoRA 微调很有效,但与完全微调相比,其性能仍有差距,因为其权重更新仅限于低秩矩阵。为了打破 LoRA 优化中的低秩瓶颈,我们提出了周期性 LoRA(PLoRA),通过多次累积低秩更新矩阵来获得更高的更新秩。PLoRA 有多个训练阶段。在每个阶段,我们仍然只更新 LoRA 权重。不过,在每个阶段结束时,我们会将 LoRA 权重卸载到主干参数中,然后重新初始化 LoRA 状态。实验结果表明,PLoRA 具有更强的学习能力,最多约为 LoRA 学习能力的 1.8 倍,但不会增加内存使用量。此外,我们还为 PLoRA 引入了基于动量的卸载策略,以减轻训练的不稳定性。