AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 5 Jan 2024
Totally 28 papers
上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
LLaMA Pro: Progressive LLaMA with Block Expansion Authors Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan 人类通常会在不影响旧技能的情况下获得新技能,但大型语言模型法学硕士则相反,例如从 LLaMA 到 CodeLLaMA。为此,我们提出了一种新的 LLM 后预训练方法,并扩展了 Transformer 块。我们仅使用新语料库来调整扩展块,高效且有效地提高模型的知识,而不会发生灾难性遗忘。在本文中,我们对代码和数学语料库进行了实验,产生了 LLaMA Pro 8.3B,这是一种从 LLaMA2 7B 初始化的多功能基础模型,在一般任务、编程和数学方面表现出色。 LLaMA Pro 及其对应的 LLaMA Pro Instruct 指令在各种基准测试中实现了先进的性能,展示了相对于 LLaMA 系列中现有开放模型的优越性,以及作为智能代理进行推理和解决各种任务的巨大潜力。 |
TinyLlama: An Open-Source Small Language Model Authors Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu 我们推出了 TinyLlama,这是一个紧凑的 1.1B 语言模型,在大约 1 万亿个令牌上进行了大约 3 个时期的预训练。 TinyLlama 基于 Llama 2 的架构和分词器构建,利用了开源社区贡献的各种进步,例如 FlashAttention,实现了更好的计算效率。尽管规模相对较小,TinyLlama 在一系列下游任务中表现出了出色的性能。它的性能明显优于规模相当的现有开源语言模型。 |
SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval Authors Griffin Adams, Jason Zucker, No mie Elhadad 每次患者出院时,临床医生都必须写一份冗长的总结。由于入院报告中涵盖了大量独特的临床概念,因此这项任务非常耗时。识别和涵盖显着实体对于摘要在临床上有用至关重要。我们对开源 LLM Mistral 7B Instruct 和 Zephyr 7B beta 的任务进行了微调,发现它们生成的摘要不完整且不忠实。为了增加实体覆盖率,我们训练了一个较小的、仅编码器的模型来预测显着实体,这些实体被视为指导法学硕士的内容计划。为了鼓励法学硕士关注源注释中的具体提及,我们提出通过嵌入式实体检索进行 SPEER 句子级别规划。具体来说,我们用特殊的边界标签标记每个显着实体跨度,并指示 LLM 在生成每个句子之前检索标记的跨度。句子级规划充当状态跟踪的一种形式,因为模型显式记录其使用的实体。我们在入院患者的 167,000 个大规模、多样化数据集上微调 Mistral 和 Zephyr 变体,并在 3 个数据集上进行评估。 |
Are LLMs Robust for Spoken Dialogues” />Authors Seyed Mahed Mousavi, Gabriel Roccabruna, Simone Alghisi, Massimo Rizzoli, Mirco Ravanelli, Giuseppe Riccardi 大型预训练语言模型在不同的下游任务中展示了最先进的性能,包括对话状态跟踪和端到端响应生成。尽管如此,大多数面向任务的对话的公开数据集和基准都集中在书面对话上。因此,所开发的模型对语音交互的鲁棒性尚不清楚。在这项工作中,我们评估了法学硕士在 DSTC11 测试集上面向口语任务的对话的表现。由于缺乏适当的口语对话数据集,我们使用最先进的 ASR 引擎自动转录了一组口语对话开发集。我们描述了 ASR 错误类型及其分布,并在大型对话数据集中模拟了这些错误。我们分别报告了微调 GPT 2 和 T5 模型在响应生成和对话状态跟踪两个子任务中的内在困惑和外在人类评估性能。 |
Rethinking Response Evaluation from Interlocutor’s Eye for Open-Domain Dialogue Systems Authors Yuma Tsuta, Naoki Yoshinaga, Shoetsu Sato, Masashi Toyoda 开放域对话系统已经开始与人类进行持续对话。这些对话系统需要根据人类对话者进行调整,并根据他们的观点进行评估。然而,目前的自动评估方法是否能够近似对话者的判断是值得怀疑的。在本研究中,我们从对话者的角度分析和检查了自动响应评估器需要哪些功能。 Hazumi 数据集上的第一个实验表明,对话者意识在使自动响应评估与对话者的判断相关联方面发挥着关键作用。 |
L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages Authors Aishwarya Mirashi, Srushti Sonavane, Purva Lingayat, Tejas Padhiyar, Raviraj Joshi 在这项工作中,我们介绍了 L3Cube IndicNews,这是一个多语言文本分类语料库,旨在为印度地方语言打造高质量的数据集,特别关注新闻标题和文章。我们的工作重点是 10 种著名的印度语言,包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包含 10 类或更多类新闻文章。 L3Cube IndicNews 提供 3 个不同的数据集,专门用于处理不同的文档长度,这些数据集被分类为包含新闻标题和新闻类别的短标题分类 SHC 数据集、包含整篇新闻文章和新闻类别的长文档分类 LDC 数据集以及包含新闻标题和新闻类别的长段落分类 LPC 数据集。新闻和新闻类别的子文章。我们在所有 3 个数据集上保持一致的标签,以进行基于深度长度的分析。我们使用 4 种不同的模型评估每个印度语言数据集,包括单语言 BERT、多语言印度句子 BERT IndicSBERT 和 IndicBERT。这项研究对于扩大可用文本分类数据集库做出了重大贡献,并且还使得开发印度地方语言的主题分类模型成为可能。由于语言之间标签的高度重叠,这也可以作为跨语言分析的优秀资源。 |
Joint Multi-Facts Reasoning Network For Complex Temporal Question Answering Over Knowledge Graph Authors Rikui Huang, Wei Wei, Xiaoye Qu, Wenfeng Xie, Xianling Mao, Dangyang Chen 时序知识图TKG是常规知识图的扩展,附加了时间范围。现有的时间知识图问答 TKGQA 模型仅处理简单的问题,因为事先假设每个问题仅包含具有显式隐式时间约束的单个时间事实。因此,他们在包含多个时间事实的问题上表现不佳。在本文中,我们提出textbf underline JMFRN,联合推理多个时间事实,以准确回答复杂的时间问题。具体来说,JMFRN 首先从 TKG 中检索给定复杂问题的每个实体的问题相关时间事实。对于联合推理,我们设计了两种不同的注意力,即实体感知和时间感知模块,它们适用于通用设置,以聚合检索到的事实的实体和时间戳信息。此外,为了过滤不正确的类型答案,我们引入了一个额外的答案类型区分任务。 |
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models Authors Songbo Hu, Xiaobin Wang, Zhangdie Yuan, Anna Korhonen, Ivan Vuli 我们推出了 DIALIGHT,这是一个用于开发和评估多语言任务导向对话 ToD 系统的工具包,它有助于对使用预训练语言模型 PLM 进行微调的 ToD 系统与利用大型语言模型 LLM 的零样本和上下文学习功能的 ToD 系统进行系统评估和比较。除了自动评估之外,该工具包还具有一个安全、用户友好的 Web 界面,用于在本地话语级别和全局对话级别进行细粒度的人工评估,以及一个基于微服务的后端,提高了效率和可扩展性。我们的评估表明,虽然 PLM 微调可以带来更高的准确性和一致性,但基于 LLM 的系统在产生多样化且受欢迎的响应方面表现出色。然而,我们也发现了法学硕士在遵守特定任务指令和以多种语言生成输出方面面临的重大挑战,突出了未来研究的领域。 |
Location Aware Modular Biencoder for Tourism Question Answering Authors Haonan Li, Martin Tomko, Timothy Baldwin 回答寻求兴趣点 POI 建议的现实世界旅游问题具有挑战性,因为它需要对大量候选池进行空间和非空间推理。当候选者数量增加时,对每对问题和 POI 进行编码的传统方法会变得效率低下,使其不适用于现实世界的应用。为了克服这个问题,我们建议将 QA 任务视为密集向量检索问题,其中我们分别对问题和 POI 进行编码,并利用嵌入空间相似性检索与问题最相关的 POI。我们使用预训练的语言模型 PLM 来编码文本信息,并训练位置编码器来捕获 POI 的空间信息。对现实世界旅游 QA 数据集的实验表明,我们的方法是有效、高效的,并且在所有指标上都优于以前的方法。在密集检索架构的支持下,我们进一步建立了全局评估基线,与之前的工作相比,将搜索空间扩大了 20 倍。我们还通过后续实验探索了影响模型性能的几个因素。 |
Shayona@SMM4H23: COVID-19 Self diagnosis classification using BERT and LightGBM models Authors Rushi Chavda, Darshan Makwana, Vraj Patel, Anupam Shukla 本文描述了 Shayona 团队执行 SMMH4 23 共享任务 1 和 4 的方法和结果。共享任务 1 是自我报告 COVID 19 诊断的英语推文的二元分类,共享任务 4 是自我报告社交焦虑障碍诊断的英语 Reddit 帖子的二元分类。我们团队在任务 1 中取得了所有参与者中最高的 f1 分数 0.94。 |
Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study Authors Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai Kit Yeung 大型语言模型法学硕士已经展示了作为通用助理回答各种查询的强大能力。连续多模态大语言模型MLLM赋予LLM感知视觉信号的能力。 GPT 4 生成式预训练 Transformer 的推出引起了研究界的极大兴趣。 GPT 4V ison 作为新一代人工智能的焦点,在学术界和工业领域都展现了强大的力量。尽管 GPT 4V 取得了巨大成功,但在特定领域分析(例如需要特定领域知识和专业知识的海洋分析)中探索 MLLM 却很少受到关注。在本研究中,我们对利用 GPT 4V 进行海洋分析进行了初步和全面的案例研究。本报告对现有GPT 4V进行了系统评估,评估了GPT 4V在海洋研究方面的表现,并为MLLM的未来发展制定了新标准。 GPT 4V的实验结果表明,GPT 4V产生的响应还远远不能满足海洋专业领域的特定要求。 |
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models Authors Wendi Cui, Jiaxin Zhang, Zhuohang Li, Lopez Damien, Kamalika Das, Bradley Malin, Sricharan Kumar 评估大型语言模型法学硕士生成的文本的质量和可变性提出了重大但尚未解决的研究挑战。传统的评估方法,例如 ROUGE 和 BERTScore,用于测量 token 相似性,通常无法捕获整体语义等价性。这导致与人类判断和直觉的相关性较低,这在医疗保健和金融等高风险应用中尤其成问题,在这些应用中,可靠性、安全性和稳健的决策非常关键。这项工作提出了 DCR,这是一种使用分治推理方法评估和提高 LLM 生成文本的一致性的自动化框架。与在段落级别操作的现有基于 LLM 的评估器不同,我们的方法采用分而治之评估器 DCE,它将两个生成的响应之间的段落与段落比较分解为单个句子与段落的比较,每个比较都根据预定义的标准进行评估。为了促进这种方法,我们引入了自动度量转换器 AMC,它将 DCE 的输出转换为可解释的数字分数。除了一致性评估之外,我们还提出了一种推理辅助改进器 RAI,它利用分析原因和 DCE 确定的解释来生成旨在减少这些不一致的新响应。通过全面、系统的实证分析,我们表明,在评估语义、事实和摘要一致性任务中多个基准的 LLM 生成的一致性方面,我们的方法大幅优于最先进的方法,例如 SummEval 数据集上的 19.3 和 24.3 。 |
PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee 参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。 |
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers Authors Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou ChatGPT和LLaMA等大型语言模型LLM的出现在特定领域任务中遇到了限制,这些模型在专业领域往往缺乏深度和准确性,并且在微调时表现出通用能力下降,特别是小规模模型的分析能力。为了解决这些差距,我们引入了 ICE GRT,利用基于近端策略优化 PPO 的人类反馈 RLHF 的强化学习,在领域场景中展示了卓越的能力,而不会影响一般任务性能。我们对 ICE GRT 的探索凸显了其理解和推理能力,不仅可以生成可靠的答案,还可以对答案背后的原因进行详细分析。此功能标志着超出监督微调模型范围的重大进步。 ICE GRT 的成功取决于几个关键因素,包括适当的数据、奖励规模缩放、KL 控制、优势标准化等。ICE GRT 模型在特定领域任务和 12 个一般语言任务中与同等任务相比,展现了最先进的性能规模甚至更大规模的法学硕士,凸显了我们方法的有效性。 |
Text2MDT: Extracting Medical Decision Trees from Medical Texts Authors Wei Zhu, Wenfeng Li, Xing Tian, Pengfei Wang, Xiaoling Wang, Jin Chen, Yuanbin Wu, Yuan Ni, Guotong Xie 医疗决策过程的知识(可以建模为医疗决策树 MDT)对于构建临床决策支持系统至关重要。然而,目前的MDT构建方法严重依赖于费时费力的人工标注。在这项工作中,我们提出了一项新任务 Text2MDT,以探索从医学指南和教科书等医学文本中自动提取 MDT。我们规范了 MDT 的形式,并在医学专家的参与下创建了一个带注释的 Text to MDT 数据集。我们研究了用于 Text2MDT 任务的两种不同方法,一种端到端框架,该框架仅依赖于 GPT 样式大型语言模型 LLM 指令调整来生成所有节点信息和树结构。 b 将 Text2MDT 任务分解为三个子任务的管道框架。在我们的 Text2MDT 数据集上进行的实验表明,基于 LLM 7B 参数或更大参数的端到端方法显示出有希望的结果,并成功优于管道方法。 b 引用 Wei2022ChainOT 的思想链 COT 提示方法可以提高 Text2MDT 测试集上微调的 LLM 的性能。 c 基于编码器的预训练模型的轻量级流水线方法可以与模型复杂度小两个数量级的 LLM 相媲美。 |
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives Authors Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu 大语言模型LLM的反思能力受到广泛关注。事后激励策略,例如反思和自我完善,根据自我评估或外部反馈完善法学硕士的反应。然而,最近的研究表明,如果没有外部反馈,LLM的内在反映是不稳定的。我们的调查表明,关键的瓶颈是自我评估反馈的质量。我们发现法学硕士在自我评估时经常表现出过度自信或高度随意性,提供顽固或不一致的反馈,从而导致不良的反思。为了解决这个问题,我们提倡自我对比,它根据请求自适应地探索不同的解决视角,对比差异,并将这些差异总结成一个清单,可用于重新检查和消除差异。我们的方法赋予法学硕士不同的视角,以减轻顽固的偏见。此外,它们的差异表明了法学硕士经常忽视的潜在错误或固有的不确定性。反思这些可以促进更准确和稳定的反思。 |
Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias Authors Anshuman Chhabra, Hadi Askari, Prasant Mohapatra 我们通过测量位置偏差来描述和研究大型语言模型法学硕士中的零样本抽象概括,我们提出将其作为先前文献中研究的更具限制性的引导偏差现象的一般表述。位置偏差捕获了模型不公平地将输入文本的某些部分的信息优先于其他部分的倾向,从而导致不良行为。通过对四个不同的现实世界数据集进行大量实验,我们研究了多个 LLM 模型(例如 GPT 3.5 Turbo、Llama 2 和 Dolly v2)以及最先进的预训练编码器解码器抽象摘要模型(例如 Pegasus 和 BART)中的位置偏差。 |
A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity Authors Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K. Kummerfeld, Rada Mihalcea 虽然对齐算法现在通常用于根据用户的偏好调整预先训练的语言模型,但我们缺乏对模型对齐的底层机制的解释,因此很难解释越狱等现象。在这项工作中,我们研究了一种流行的算法,直接偏好优化 DPO,以及它减少毒性的机制。也就是说,我们首先研究如何在预先训练的语言模型(GPT2 介质)中表示和引发毒性。然后,我们将 DPO 与精心设计的成对数据集一起应用以减少毒性。我们检查了生成的模型如何避免有毒输出,并发现从预训练中学到的功能并没有被删除,而是被绕过了。 |
Generalist embedding models are better at short-context clinical semantic search than specialized embedding models Authors Jean Baptiste Excoffier, Tom Roehr, Alexei Figueroa, Michalis Papaaioannou, Keno Bressem, Matthieu Ortala 在医学领域的各种任务中越来越多地使用基于大型语言模型法学硕士的工具和解决方案已成为一个突出趋势。因此,它们在这个高度关键和敏感的领域的使用引发了关于其鲁棒性的重要问题,特别是在响应输入变化和生成输出的可靠性方面。本研究通过构建基于 ICD 10 CM 代码描述的文本数据集来解决这些问题,该代码描述在美国医院广泛使用,包含许多临床术语及其易于重现的改写。然后,我们在语义搜索任务中对现有的嵌入模型(无论是通用的还是专门针对临床领域的)进行基准测试,其目标是将改写的文本与原始描述正确匹配。我们的结果表明,通才模型的表现优于临床模型,这表明现有的临床专业模型对输入的微小变化更敏感,这些变化使它们感到困惑。专业模型突出的问题可能是由于它们没有接受足够数据的训练,特别是数据集不够多样化,无法获得可靠的全球语言理解,而这对于准确处理医疗文档仍然是必要的 |
Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister 尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。 |
LLM Augmented LLMs: Expanding Capabilities through Composition Authors Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar 具有数十亿参数的基础模型已经在大型数据集上进行了训练,已经在各个领域展示了不平凡的技能。然而,由于它们的整体结构,增强它们或传授新技能具有挑战性且成本高昂。另一方面,由于它们的适应能力,这些模型的几个新实例正在针对新领域和任务进行训练。在这项工作中,我们研究了现有基础模型与更具体模型的高效实用组合问题,以实现更新的功能。为此,我们提出了增强语言模型的 CALM 组合,它引入了模型之间的交叉注意力来组合它们的表示并启用新的功能。 CALM 的显着特征是 i 通过重新使用现有的 LLM 以及一些附加参数和数据来扩展 LLM 在新任务上的规模,ii 现有模型权重保持不变,从而保留现有功能,以及 iii 适用于不同的领域和设置。我们证明,使用在低资源语言上训练的较小模型来增强 PaLM2 S 可以在翻译成英语和低资源语言的算术推理等任务上获得高达 13 的绝对改进。 |
Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models Authors Uday Allu, Biddwan Ahmed, Vishesh Tripathi 事实证明,检索增强生成 RAG 架构的常规使用对于从不同文档中检索信息是有效的。然而,在处理复杂表查询时会出现挑战,特别是在包含复杂表格结构的 PDF 文档中。本研究引入了一种创新方法来提高基于 RAG 的系统中复杂表查询的准确性。我们的方法包括将 PDF 存储在检索数据库中并单独提取表格内容。提取的表经历上下文丰富的过程,将标题与相应的值连接起来。为了确保全面理解丰富的数据,我们采用 Llama 2 聊天语言模型的微调版本在 RAG 架构内进行汇总。此外,我们通过一次性提示使用 ChatGPT 3.5 API 增强了表格数据的上下文感知。然后,这些丰富的数据将与其他 PDF 一起输入检索数据库。 |
LLaVA-$ϕ$: Efficient Multi-Modal Assistant with Small Language Model Authors Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang 在本文中,我们介绍了 LLaVA phi LLaVA Phi,这是一种高效的多模态助手,它利用最近先进的小语言模型 Phi 2 的强大功能来促进多模态对话。 LLaVA Phi 标志着紧凑型多模式模型领域的显着进步。它表明,即使是参数少至 2.7B 的较小语言模型,也可以有效地参与集成文本和视觉元素的复杂对话,只要它们接受高质量语料库的训练。我们的模型在公开的基准测试中提供了值得称赞的性能,包括视觉理解、推理和基于知识的感知。除了在多模式对话任务中表现出色之外,我们的模型还为时间敏感的环境和需要实时交互的系统(例如实体代理)中的应用开辟了新的途径。 |
Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe Authors Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang, Lei Yu 管道并行性是大规模 Transformer 模型训练中的一项重要技术。但内存消耗不平衡,导致内存利用率不足。 BPipe 技术是为了解决这个问题而提出的,并且在 GPT 3 模型中被证明是有效的。然而,我们的实验并没有为 LLaMA 训练带来类似的好处。此外,在应用 Flash Attention 时,BPipe 对 GPT 3 训练产生的好处可以忽略不计。我们分析了 BPipe 在 GPT 3 和 LLaMA 上表现不同的根本原因。 |
Instruct-Imagen: Image Generation with Multi-modal Instruction Authors Hexiang Hu, Kelvin C.K. Chan, Yu Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming Wei Chang, Xuhui Jia 本文提出了 instruct imagen,这是一种处理异构图像生成任务并泛化未见过的任务的模型。我们引入了用于图像生成的多模态指令,这是一种精确阐明一系列生成意图的任务表示。 |
AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets Authors Ernest Perkowski, Rui Pan, Tuan Dung Nguyen, Yuan Sen Ting, Sandor Kruk, Tong Zhang, Charlie O Neill, Maja Jablonska, Michael J. Smith, Kevin Schawinski, Kartheik Iyer, Ioana Ciuc for UniverseTBD 我们探索通过有针对性的、持续的预训练来提高法学硕士在天文学重点问答方面的表现的潜力。通过采用紧凑的 7B 参数 LLaMA 2 模型并专注于一组精选的天文学语料库(包括摘要、介绍和结论),我们在专业主题理解方面取得了显着进步。虽然像 GPT 4 这样的一般法学硕士由于具有卓越的推理能力,在更广泛的问答场景中表现出色,但我们的研究结果表明,利用有限的资源进行持续的预训练仍然可以提高模型在专门主题上的性能。此外,我们还提出了 AstroLLaMA 的扩展,即在特定领域的对话数据集上对 7B LLaMA 模型进行微调,最终发布支持聊天的 AstroLLaMA 供社区使用。目前正在进行全面的定量基准测试,并将在即将发表的全文中详细介绍。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com