Usage instructions: here
Publish Date | Title | Authors | Code | abstract | |
---|---|---|---|---|---|
2025-02-17 | HARBOR: Exploring Persona Dynamics in Multi-Agent Competition | Kenan Jiang et.al. | 2502.12149 | null | 我们研究了影响大型语言模型(LLM)代理在竞争性多智能体环境中的成功因素,使用拍卖作为测试平台,在这里代理竞价以最大化利润。这些代理配备了投标领域的知识、反映物品偏好的不同人格特征,并且具有对拍卖历史的记忆。我们的工作通过创建一个现实的环境扩展了经典的拍卖场景,在这个环境中,多个代理竞标房屋,考虑诸如大小、位置和预算等因素,以确保获得最理想的房屋并以最低价格购得。特别是,我们探讨了三个关键问题:(a) 人格如何影响代理在竞争环境中的行为?(b) 代理能否有效分析其竞争对手在拍卖中的行为?(c) 如何利用人格分析来利用策略优势,例如心智理论?通过一系列实验,我们分析了LLM代理的行为,并揭示了新的发现。我们的测试平台称为HARBOR,为深入理解竞争环境中多智能体工作流程提供了有价值的平台。 |
2025-02-17 | Scaling Autonomous Agents via Automatic Reward Modeling And Planning | Zhenfang Chen et.al. | 2502.12130 | null | 大型语言模型(LLMs)在各种文本生成任务中展示了显著的能力。然而,LLMs在需要多步决策和环境反馈的问题上仍然存在困难,例如在线购物、科学推理和数学问题解决。与纯文本数据不同,收集大规模决策数据具有挑战性。此外,许多强大的LLMs仅通过API访问,这由于成本和复杂性限制了它们在代理任务中的微调。为了应对LLM代理的局限性,我们提出了一种框架,可以从环境中自动学习奖励模型而无需人工注释。该模型可以用于评估LLM代理的动作轨迹,并为任务规划提供启发式方法。具体而言,我们的方法涉及使用基于LLM的代理随机导航环境,从而生成多样化的动作轨迹。随后,利用另一个LLM分配任务意图并合成每个轨迹的负面响应和正确响应。这些三元组(任务意图、正面响应和负面响应)被用作训练数据以优化能够评分动作轨迹的奖励模型。通过在不同的代理基准上进行的评估证明了我们框架的有效性和通用性。总之,我们提出的框架代表了增强LLM代理决策能力的重要进展。通过自动化奖励模型的学习,我们克服了数据稀缺性和API限制的挑战,可能革新LLMs在复杂和交互式环境中的应用。这项研究为开发能够解决广泛现实世界问题的更复杂AI代理铺平了道路。 |
2025-02-17 | A-MEM: Agentic Memory for LLM Agents | Wujiang Xu et.al. | 2502.12110 | null | 虽然大型语言模型(LLM)代理可以有效地使用外部工具来处理复杂的现实任务,但它们需要记忆系统来利用历史经验。当前的记忆系统仅能实现基本的存储和检索功能,尽管最近尝试引入了图数据库,但仍然缺乏复杂记忆组织。此外,这些系统的固定操作和结构限制了它们在多样任务中的适应性。为了解决这一局限,本文提出了一种新颖的代理记忆系统,该系统可以动态地以代理方式组织记忆。遵循Zettelkasten方法的基本原则,我们设计了记忆系统,通过动态索引和链接创建相互关联的知识网络。当新增记忆时,我们生成包含多个结构化属性的综合笔记,包括上下文描述、关键词和标签。系统随后分析历史记忆以识别相关连接,在有意义的相似之处建立联系。此外,这一过程还实现了记忆演化——随着新记忆的整合,它们可以触发对现有历史记忆的上下文表示和属性的更新,从而使记忆网络能够持续优化其理解。我们的方法结合了Zettelkasten的结构化组织原则与代理驱动决策的灵活性,实现了更适应和上下文感知的记忆管理。在六个基础模型上的实验证明了相对于现有最先进的基线方法的优越改进。源代码可在https://github.com/WujiangXu/AgenticMemory获取。 |
2025-02-17 | Can LLM Agents Maintain a Persona in Discourse? | Pranav Bhandari et.al. | 2502.11843 | null | 大型语言模型(LLMs)作为对话代理被广泛应用于教育、法律、医学等多个领域。然而,这些模型经常表现出上下文转换的行为,导致缺乏一致且符合其个性的交互。对心理特征的遵循缺乏全面分析,特别是在双人对话的情况下。我们从两个角度探讨了这一挑战:首先使用两个对话代理针对某一主题进行对话,并根据OCEAN框架(开放性、尽责性、外向性、亲和力和神经质)分配高/低性格特质。随后,使用多个裁判代理来推断最初分配的性格特质,以探索预测一致性、模型间的一致性和与分配个性的对齐情况。我们的研究结果表明,虽然LLMs可以在个性驱动的对话中得到引导,但它们保持性格特征的能力在很大程度上取决于模型组合和对话设置。这些不一致性突显了在LLMs中实现稳定且可解释的个性对齐交互所面临的挑战。 |
2025-02-17 | LLM Agents Making Agent Tools | Georg Wölflein et.al. | 2502.11705 | null | 工具的使用已经将大型语言模型(LLMs)转变为能够通过动态利用外部软件组件来执行复杂多步任务的强大代理。然而,这些工具必须由人类开发者提前实现,这限制了LLM代理在需要大量高度专业化工具的领域中的应用,如生命科学和医学。受科学研究越来越多地伴随公共代码仓库的趋势启发,我们提出了ToolMaker,这是一种新颖的自主框架,能够将带有代码的论文转化为LLM兼容的工具。给定一个简短的任务描述和一个代码库URL,ToolMaker能够自主安装所需的依赖项并生成执行该任务的代码,使用闭环自我修正机制来迭代诊断和修复错误。为了评估我们的方法,我们引入了一个包含15个多样化且复杂的计算任务的基准测试,这些任务跨越了医学和非医学领域,并有超过100个单元测试以客观评估工具的正确性和鲁棒性。ToolMaker正确实现了80%的任务,显著优于当前最先进的软件工程代理。因此,ToolMaker是向全自主代理科学工作流程迈出的一步。 |
2025-02-17 | Competing LLM Agents in a Non-Cooperative Game of Opinion Polarisation | Amin Qasmi et.al. | 2502.11649 | null | 我们引入了一种新颖的非合作博弈模型来分析意见形成和抗性,融入了社会心理学中的确认偏误、资源限制和影响力惩罚等原则。我们的模拟展示了大型语言模型(LLM)代理在竞争影响人群时的情况,并对生成传播或反驳虚假信息的消息的行为施加了惩罚。此框架将资源优化整合到了代理的决策过程中。研究结果表明,较高的确认偏误虽然增强了群体内部的意见一致性,但也加剧了总体上的两极分化。相反,较低的确认偏误导致意见碎片化且个体信念的变化有限。大量投资于高资源辟谣策略最初可以使人群与辟谣代理保持一致,但存在快速耗尽资源和长期影响力减弱的风险。 |
2025-02-17 | AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection | Weidi Luo et.al. | 2502.11448 | null | 大型语言模型(LLMs)的快速发展使得它们能够被部署为处理动态环境中复杂任务的自主代理。这些LLMs展示了强大的问题解决能力和对多方面场景的适应性。然而,它们作为代理的使用也引入了显著的风险,包括任务特定风险和系统风险。任务特定风险由代理管理员基于特定任务需求和限制来识别,而系统风险源于其设计或交互中的漏洞,可能导致信息的机密性、完整性和可用性(CIA)受到损害,并引发安全风险。现有的防御机构未能适应性地有效缓解这些风险。在本文中,我们提出了AGrail,一种终身代理护栏,以增强LLM代理的安全性,该方法具有自适应安全检查生成、有效的安全检查优化以及工具兼容性和灵活性。广泛的实验表明,AGrail不仅在应对任务特定和系统风险方面表现出色,而且在不同LLM代理的任务之间还表现出可转移性。 |
2025-02-17 | SMART: Self-Aware Agent for Tool Overuse Mitigation | Cheng Qian et.al. | 2502.11435 | null | 当前的大语言模型(LLM)代理在推理和工具使用方面表现出色,但往往缺乏自我意识,无法有效地平衡这两种方法。这种不平衡导致了工具过度使用的问题,即模型在可以通过参数知识解决的任务中不必要地依赖外部工具,从而增加了计算开销。受人类元认知的启发,我们引入了SMART(战略性模型认知推理与工具使用)范式,以增强代理的自我意识,优化任务处理并减少工具过度使用。为了支持这一范式,我们引入了SMART-ER数据集,该数据集涵盖三个领域,在推理过程中交替使用参数知识和工具依赖步骤,并且每个步骤都附有解释何时需要使用工具的理由。通过监督训练,我们开发了SMARTAgent,这是一系列能够动态平衡参数知识和工具使用的模型。评估显示,SMARTAgent减少了24%的工具使用量,同时提高了超过37%的性能,使得70亿规模的模型能够匹配其700亿对应版本以及GPT-4o的表现。此外,SMARTAgent在分布外测试数据如GSM8K和MINTQA上也表现良好,保持了准确性,仅需五分之一的工具调用次数。这些结果突显了战略性工具使用在增强推理、缓解过度使用以及缩小模型规模与性能之间差距方面的潜力,推动了智能且资源高效的代理设计的发展。 |
2025-02-17 | \textsc{FLAG-Trader}: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading | Guojun Xiong et.al. | 2502.11433 | null | 大型语言模型(LLMs)经过多模态金融数据的微调,在各种金融任务中展示了出色的推理能力。然而,它们在交互式金融市场中的多步骤、目标导向场景中常常表现不佳,例如在需要复杂代理方法来改进决策的交易中。为了解决这一问题,我们提出了\textsc{FLAG-Trader},这是一种统一架构,集成了语言处理(通过LLMs)和基于梯度的强化学习(RL)策略优化,其中部分微调的LLM充当策略网络,利用预训练知识的同时通过参数高效微调适应金融领域。通过基于交易奖励的策略梯度优化,我们的框架不仅提高了LLMs在交易中的表现,还在其他金融领域任务中提升了结果。我们提供了广泛的实证证据来验证这些改进。 |
2025-02-17 | TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents | Geon Lee et.al. | 2502.11418 | null | 时间序列数据在各种应用中至关重要,包括气候建模、医疗监测和金融分析。理解与真实世界时间序列数据相关的上下文信息对于准确可靠的事件预测通常是必不可少的。在本文中,我们介绍了TimeCAP,这是一种时间序列处理框架,它创造性地利用了大型语言模型(LLM)作为时间序列数据的上下文生成器,扩展了它们通常用作预测器的应用。TimeCAP包含两个独立的LLM代理:一个生成捕捉时间序列上下文的文本摘要,另一个则使用这个丰富的摘要来进行更明智的预测。此外,TimeCAP采用了一种多模态编码器,它与LLM代理协同工作,通过利用上下文示例来增强输入的相互增效作用,从而提高预测性能。实验结果表明,在真实世界的数据集上,TimeCAP在事件预测方面优于最先进的方法,包括那些利用LLM作为预测器的方法,并且在F1分数上平均提高了28.75%。 |
2025-02-14 | Process Reward Models for LLM Agents: Practical Framework and Directions | Sanjiban Choudhury et.al. | 2502.10325 | null | 我们介绍了Agent Process Reward Models (AgentPRM),这是一种简单且可扩展的框架,用于通过互动不断训练大型语言模型(LLM)代理以提升性能。AgentPRM遵循轻量级的动作-批评范式,使用蒙特卡罗滚动来计算奖励目标并优化策略。它对现有的强化学习从人类反馈(RLHF)管道所需的修改最小,使其易于大规模集成。除了AgentPRM之外,我们还提出了InversePRM,该方法直接从演示中学习过程奖励,而无需显式的成果监督。我们还探讨了关键挑战和机遇,包括探索、过程奖励塑造以及模型预测推理。我们在ALFWorld基准上进行了评估,结果显示使用AgentPRM和InversePRM训练的小型3B模型优于强大的GPT-4o基线,并分析了测试时扩展性、奖励操纵等问题。我们的代码可在以下地址获取:https://github.com/sanjibanc/agent_prm。 |
2025-02-14 | Automated Hypothesis Validation with Agentic Sequential Falsifications | Kexin Huang et.al. | 2502.09858 | null | 假设在信息获取、决策和发现中起着核心作用。然而,许多现实世界的假设都是抽象的、高层次的陈述,难以直接验证。这一挑战因大型语言模型(LLMs)生成假设而进一步加剧,这些模型容易产生幻觉,并且生成的假设数量使得手动验证变得不切实际。在这里,我们提出了Popper,这是一种代理框架,用于对自由形式的假设进行严格的自动化验证。受卡尔·波普尔证伪原则的指导,Popper使用LLM代理设计并执行针对其可测量推论的证伪实验。一种新颖的序贯检验框架确保严格控制I类错误的同时,积极地从多样化的观察中收集证据,无论是来自现有数据还是新进行的程序。我们在包括生物学、经济学和社会学在内的六个领域展示了Popper的应用。Popper提供了稳健的错误控制、高功效和可扩展性。此外,与人类科学家相比,Popper在验证复杂生物假设方面实现了相当的性能,同时减少了90%的时间,提供了一种可扩展且严谨的假设验证解决方案。 |
2025-02-13 | AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration | Jizhou Chen et.al. | 2502.09809 | null | 工具使用在大型语言模型(LLMs)中的集成使得具有实际影响力的自主系统成为可能。同时,与独立的LLMs相比,这些具备工具使用能力的代理系统如果被恶意利用,可能会执行造成更大影响的有害工作流程。我们提出了一种名为AgentGuard的框架,旨在自主发现并验证不安全的工作流程,随后生成安全约束以限制代理的行为,从而在部署时确保基本的安全保障。AgentGuard利用了LLM协调器的固有能力——了解工具功能、可扩展且现实的工作流程生成以及工具执行权限——作为其自身的安全评估者。该框架通过四个阶段运作:识别不安全的工作流程、在真实环境中验证它们、生成安全约束并验证约束的有效性。输出的评估报告包括不安全的工作流程、测试用例和经过验证的约束,能够支持多种安全应用。我们通过实验展示了AgentGuard的可行性。通过这项探索性工作,我们希望激发标准化测试和强化程序的建立,以增强LLM代理在实际应用中的可信度。 |
2025-02-13 | MDCrow: Automating Molecular Dynamics Workflows with Large Language Models | Quintina Campbell et.al. | 2502.09565 | link | 分子动力学(MD)模拟对于理解生物分子系统至关重要,但实现自动化仍然具有挑战性。近期大型语言模型(LLM)在使用基于LLM的代理自动执行复杂科学任务方面取得了成功。本文介绍了一种名为MDCrow的代理型LLM助手,能够自动化MD工作流程。MDCrow通过超过40个专家设计的工具链式思考,处理和加工文件,设置模拟,分析模拟输出,并从文献和数据库中检索相关信息。我们在25项不同子任务和难度的任务上评估了MDCrow的表现,并评估了该代理对难度和提示风格的鲁棒性。\texttt{gpt-4o}能够在低方差下完成复杂任务,紧随其后的是\texttt{llama3-405b},这是一个引人注目的开源模型。虽然最佳模型的性能不受提示风格的影响,但它对较小的模型有显著影响。 |
2025-02-14 | RTBAS: Defending LLM Agents Against Prompt Injection and Privacy Leakage | Peter Yong Zhong et.al. | 2502.08966 | null | 基于工具的代理系统(TBAS)允许语言模型(LM)使用外部工具执行超出其独立能力的任务,如网站搜索、航班预订或金融交易。然而,这些工具极大地增加了提示注入攻击的风险,其中恶意内容劫持语言模型代理以泄露机密数据或触发有害操作。现有的防御措施(如OpenAI GPTs)要求用户在每次调用工具前进行确认,给用户带来沉重负担。我们引入了鲁棒TBAS(RTBAS),它能够自动检测和执行那些能够保持完整性和保密性的工具调用,仅在无法确保这些保障时才需要用户确认。RTBAS针对TBAS特有的挑战调整了信息流控制方法。我们提出了两种新的依赖筛选器,即利用LM作为裁判和基于注意力的显著性方法,以克服这些挑战。实验结果表明,在AgentDojo提示注入基准测试中,RTBAS能够防止所有针对性攻击,并且在遭受攻击时仅损失了2%的任务效用。进一步的测试证实了其在检测微妙和直接隐私泄露方面接近最优性能。 |
2025-02-12 | If Multi-Agent Debate is the Answer, What is the Question? | Hangfan Zhang et.al. | 2502.08788 | null | 多智能体辩论(MAD)作为一种有前景的方法,通过在推理过程中让多个智能体进行迭代讨论,以增强大型语言模型(LLMs)的事实准确性及推理质量。尽管具有潜力,我们认为当前的MAD研究在评估实践中存在关键缺陷,包括有限的数据集重叠和不一致的基线,这引发了关于其泛化能力的重大关切。相应地,本文系统性地评估了五种代表性的MAD方法,在九个基准数据集上使用了四种基础模型。令人惊讶的是,我们的研究发现,即使消耗额外的推理时间计算,MAD方法也未能可靠地超越简单的单智能体基线,如Chain-of-Thought和Self-Consistency。通过分析我们发现,模型异质性可以显著提升MAD框架的表现。我们提出了Heter-MAD,使单一LLM智能体能够访问来自异构基础模型的输出,从而提升现有MAD框架的性能。最后,我们概述了推进MAD的潜在方向,旨在引发更广泛的讨论并激发该领域未来的研究。 |
2025-02-12 | SPeCtrum: A Grounded Framework for Multidimensional Identity Representation in LLM-Based Agent | Keyeun Lee et.al. | 2502.08599 | null | 现有的模拟个体身份的方法往往过于简化人类的复杂性,可能导致不完整或扁平化的表征。为了解决这个问题,我们引入了SPeCtrum,这是一种基于框架的构造LLM代理人格的方法,通过整合个人的多维自我概念来实现真实的人格构建。SPeCtrum整合了三个核心组成部分:社会身份(S)、个人身份(P)和个人生活背景(C),每个部分都贡献了身份的不同但相互关联的方面。为了评估SPeCtrum在身份表征方面的有效性,我们进行了自动化和人工评估。自动化评估使用流行的戏剧角色表明,来自对偏好和日常生活的简短文章分析所衍生出的个人生活背景(C)比单独的社会身份(S)和个人身份(P)更能有效地模拟角色的身份,并且与完整的SPC组合表现相当。然而,在涉及现实世界个体的人工评估中发现,完整的SPC组合提供了比C单独提供更全面的自我概念表征。我们的研究结果表明,虽然C单独可能足以用于基本的身份模拟,但整合S、P和C可以增强现实世界身份表征的真实性和准确性。总体而言,SPeCtrum为LLM代理中的个体模拟提供了一种结构化方法,使得人机交互更加个性化,并提高了基于模拟的行为研究的真实性。 |
2025-02-12 | Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks | Ang Li et.al. | 2502.08586 | null | 近年来,许多机器学习安全文献集中于针对对齐的大规模语言模型(LLMs)的攻击。这些攻击可能提取私人信息或将模型胁迫成生成有害输出。在实际部署中,LLMs通常作为更大代理管道的一部分,包括记忆系统、检索、网络访问和API调用。这些额外组件引入了漏洞,使这些LLM驱动的代理比孤立的LLMs更容易受到攻击,但与此类LLM代理的安全性相关的研究相对较少。在本文中,我们分析了仅限于LLM代理的安全和隐私漏洞。我们首先提供了一种按威胁行为者、目标、入口点、攻击者可观测性、攻击策略以及代理管道固有漏洞分类的攻击 taxonomy。然后,我们对流行的开源和商业代理进行了一系列说明性攻击,展示了其漏洞的直接实际影响。值得注意的是,我们的攻击易于实施且无需理解机器学习。 |
2025-02-13 | Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation | Mahnaz Koupaee et.al. | 2502.08514 | link | 基于大型语言模型(LLM)的忠实性评估器往往被文本的流畅性所迷惑,并且难以识别总结中的错误。我们提出了一种在总结忠实性评估中的方法,其中多个基于LLM的代理被分配初始立场(无论它们的实际信念如何),并被迫提出理由来证明强加的信念,从而进行多轮辩论以达成一致。均匀分布的初始分配导致了更大的立场多样性,这使得辩论更有意义,并最终能够识别出更多的错误。此外,通过分析最近的忠实性评估数据集,我们观察到实际上并非所有总结要么完全忠实于源文档要么不忠实。因此,我们引入了一个新的维度——模糊性,并提出了一个详细的分类法来识别这些特殊情况。实验表明,我们的方法有助于识别模糊性,并且在非模糊性总结上表现更佳。 |
2025-02-11 | Symbiotic Cooperation for Web Agents: Harnessing Complementary Strengths of Large and Small LLMs | Ruichen Zhang et.al. | 2502.07942 | null | 基于大型语言模型(LLMs)的网络浏览代理在自动化复杂网页任务方面显示出巨大的潜力。现有方法通常依赖于大型LLM(例如GPT-4)来探索网页环境并生成轨迹数据,这些数据随后用于演示检索(针对大型LLM)或以与探索分离的方式进行小LLM(例如Llama3)的提炼。在这篇论文中,我们提出了AgentSymbiotic,这是一种迭代框架,将数据合成与任务执行相结合,实现了大型和小型LLM的“共生改进”。我们的研究揭示了LLM类型之间的互补动态:虽然大型LLM擅长生成高质量的轨迹用于提炼,但提炼出的小型LLM由于其独特的推理能力,往往会选择与大型LLM不同的行动。这种差异驱动了新轨迹的探索,从而丰富了合成的数据。然而,我们也观察到小型LLM的性能成为这一迭代增强过程中的瓶颈。为了解决这个问题,我们提出了两种LLM提炼的创新方法:一种推测性数据合成策略,以减轻离策略偏差,以及一种多任务学习方法,旨在提升学生LLM的推理能力。此外,我们引入了一种混合模式以解决用户隐私问题。在WEBARENA基准测试中,AgentSymbiotic实现了最先进的性能。我们的最佳大型LLM代理达到了52%,超过了之前的最佳成绩45%,而我们的8B精炼模型也表现出色,达到49%,超过了之前的最佳成绩28%。代码将在接受后发布。 |
2025-02-12 | MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces | Loris Gaven et.al. | 2502.07709 | link | 开放性学习代理必须在广阔的可能性空间中高效地优先考虑目标,专注于那些最大化学习进度(LP)的目标。当这种由在线RL训练的LLM代理在高维和不断演变的目标空间中实现自我导向探索时,预测LP的一个关键挑战是建模自己的能力,这是一种元认知监控的形式。传统方法要么需要大量的采样,要么依赖于脆弱的专家定义的目标分组。我们介绍了MAGELLAN,一个元认知框架,使LLM代理能够在线学习预测它们的能力和LP。通过捕捉目标之间的语义关系,MAGELLAN实现了样本高效的LP估计,并通过泛化动态适应不断变化的目标空间。在一个交互式学习环境中,我们展示了MAGELLAN如何提高LP预测效率和目标优先级排序,它是唯一能使代理完全掌握大型和不断演变的目标空间的方法。这些结果表明,增强LLM代理的元认知能力以预测LP可以有效地将课程学习扩展到开放性的目标空间。 |
2025-02-11 | Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames | Vince Trencsenyi et.al. | 2502.07443 | null | LLM驱动的多智能体仿真近年来备受关注,应用范围涵盖了博弈论和社会模拟。尽管大多数实现旨在利用或评估LLM的智能推理能力,但通常采用的是较为薄弱的代理概念和简化的架构。我们实施了一种基于角色的多智能体战略互动框架,专门针对高级递归推理者设计,提供了系统深入开发和评估战略推理的方法。我们的游戏环境由裁判管理,负责从匹配到移动验证再到环境管理的游戏全过程。玩家在其决策机制中整合了最先进的LLM,并依赖于基于形式化超博弈的层级信念模型。我们使用一次性的两人美丽赛局来评估最新LLM的递归推理能力,提供了一个与经济学中的基准模型及人类实验数据进行比较的机会。此外,我们还提出了一个替代的语义推理层次测量方法,而不只是k级理论。实验结果表明,人工智能推理者在逼近人类行为和达到最优解方面可以超越基准模型。 |
2025-02-11 | Graph RAG-Tool Fusion | Elias Lumer et.al. | 2502.07223 | link | 近期在检索增强生成(RAG)领域的进展使得大型语言模型(LLM)代理能够扩展其对外部工具、API或作为工具的代理的复杂调用能力至数百甚至数千个。然而,传统的基于RAG的工具检索方法未能捕捉到工具之间的结构化依赖关系,这限制了对所检索工具的依赖关系的准确性。例如,在一个向量数据库中的工具里,“获取股票价格”API需要从“获取股票代码”API中获得“股票代码”参数,并且两者都依赖于操作系统级别的互联网连接工具。在本文中,我们通过引入Graph RAG-Tool融合这一新颖的即插即用方法来解决此局限性,该方法结合了基于向量的检索和高效的图遍历的优点,以捕获预定义工具知识图谱中所有相关的工具(节点)及其任何嵌套依赖关系(边)。我们还提出了ToolLinkOS,这是一个新的工具选择基准,包含了573个虚构工具,跨越15个行业,每个工具平均有6.3个工具依赖关系。我们证明Graph RAG-Tool Fusion在ToolLinkOS和ToolSandbox基准测试上分别比简单的RAG方法绝对提升了71.7%和22.1%(mAP@10)。ToolLinkOS数据集可在https://github.com/EliasLumer/Graph-RAG-Tool-Fusion-ToolLinkOS获取 |
2025-02-11 | Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification | Peipei Wei et.al. | 2502.07165 | null | 我们提出了基于原则的提示方法,这是一种简单但有效的多代理提示策略,用于文本分类。该方法首先让多个大型语言模型(LLM)代理根据带标签或不带标签的示例样本独立生成候选原则,然后通过最终确定者代理将这些原则整合成最终原则,最后将这些原则发送给分类器代理以执行下游分类任务。我们在二元和多类分类数据集上进行了大量实验,这些数据集具有不同大小的LLM,结果表明我们的方法不仅在宏F1得分上比零样本提示获得了显著的性能提升(1.55% - 19.37%),而且在性能上也超过了其他强大的基线方法(如CoT和后退提示)。我们的方法生成的原则帮助LLMs在两个私有数据集上的分类任务中表现优于人工编写的原则。与基于演示的少量样本提示方法相比,我们的多代理基于原则的提示方法在性能上相当甚至更好,同时推理成本显著降低。消融研究显示标签信息和多代理合作的LLM框架在生成高质量原则以促进下游分类任务方面发挥了重要作用。 |
2025-02-10 | Interactive Data Harmonization with LLM Agents | Aécio Santos et.al. | 2502.07132 | null | 数据整合是一项将来自不同来源的数据集进行集成的重要任务。尽管这一领域已经进行了多年的研究,但由于模式不匹配、术语差异以及数据收集方法的不同,它仍然是一项耗时且具有挑战性的任务。本文提出了代理式数据整合作为一种手段,旨在既能让专家整合自己的数据,又能简化该过程。我们介绍了Harmonia系统,该系统结合了基于大型语言模型的推理、交互式用户界面和数据整合基元库,以自动化合成数据整合管道。我们通过一个临床数据整合场景展示了Harmonia,展示了如何互动地创建可重用的管道来将数据集映射到标准格式。最后,我们讨论了挑战和未解决问题,并提出了研究方向以推进我们的愿景。 |
2025-02-10 | Repository-level Code Search with Neural Retrieval Methods | Siddharth Gandhi et.al. | 2502.07067 | link | 本文提出了一种多阶段重排序系统,用于仓库级代码搜索。该系统利用大型开源仓库中广泛可用的提交历史记录来辅助错误修复。我们将仓库级代码搜索定义为检索代码仓库当前状态下与用户问题或错误最相关的文件集。所提出的方案结合了基于BM25的消息检索和使用CodeBERT进行神经重排序以识别最重要文件的方法。通过从不同的仓库及其提交历史记录中学习模式,该系统可以展示出与任务相关的重要文件。该系统利用提交消息和源代码进行相关性匹配,并在正常和oracle设置下进行了评估。实验在一个由7个流行的开源仓库创建的新数据集上进行,结果显示相较于BM25基线,在各种查询下,该方法在MAP、MRR和P@1指标上的提升高达80%,证明了此方法的有效性。我们希望这项工作能够作为工具帮助LLM代理实现更好的代码搜索和理解。我们的代码和获得的结果是公开可获取的。 |
2025-02-10 | SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering | Xuehang Guo et.al. | 2502.06994 | null | 软件工程(SE)越来越依赖协作,开发人员需要在共享的复杂代码库上协同工作。有效的协作要求参与者——无论是人类还是AI代理——随着环境的变化保持对当前状态的理解一致。当参与者的理解与当前状态不一致时——我们称之为不同步挑战——其操作可能会失败,导致集成问题。在这项工作中,我们引入了SyncMind框架,该框架系统地定义了大型语言模型(LLM)代理在协作软件工程(CSE)中面临的不同步问题。基于SyncMind,我们创建了SyncBench基准,其中包括来自21个流行的GitHub仓库的24,332个实际CSE中的代理不同步场景,并带有可执行验证测试。对SyncBench的实验揭示了现有LLM代理的能力和局限性的关键见解。除了代理之间的显著性能差距(从Llama-3.1代理 <= 3.33%到Claude-3.5-Sonnet >= 28.18%),它们合作意愿的一致性较低(<= 4.86%)表明现有LLM在CSE中的根本局限性。然而,当合作发生时,它与不同步恢复的成功正相关。代理在资源感知不同步恢复中的微小性能差异进一步揭示了它们在资源意识和适应性方面的重大不足,这为未来的资源高效协作系统提供了启示。代码和数据可在我们的项目网站上公开获取:https://xhguo7.github.io/SyncMind/ |
2025-02-10 | Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents | Mathis Pink et.al. | 2502.06975 | null | 随着大型语言模型(LLMs)从文本完成工具发展成为在动态环境中运作的完整代理,它们必须应对持续学习和保留长期知识的挑战。许多生物系统通过情景记忆解决了这些挑战,该记忆支持一次性学习实例特定上下文的能力。受此启发,我们提出了一个针对LLM代理的情景记忆框架,围绕着情景记忆支撑适应性和上下文敏感行为的五个关键属性。尽管已有多个研究工作部分覆盖了这些属性,但本文认为现在是时候对情景记忆进行明确且集中的关注,以促进长期代理的发展。为此,我们概述了一条路线图,将多个研究方向联合起来,旨在支持所有五个情景记忆属性,从而实现更高效的长期LLM代理。 |
2025-02-10 | Visual Agentic AI for Spatial Reasoning with a Dynamic API | Damiano Marsili et.al. | 2502.06787 | null | 视觉推理——即解读视觉世界的能力——对于在三维场景中运作的具身代理至关重要。尽管人工智能的进步使得视觉和语言模型能够根据图像回答问题,但它们在处理三维空间推理任务时表现欠佳。为了解决这类推理问题的复杂性,我们引入了一种基于主体程序合成的方法,其中大型语言模型(LLM)代理协同生成一个Python风格的API,用以解决常见的子问题。我们的方法克服了依赖静态、人类定义的API的传统方法的局限性,使其能够应对更广泛的问题。为了评估AI在三维理解方面的能力,我们提出了一组新的查询,涉及多步骤的定位和推理。我们展示了该方法在三维视觉推理任务中优于先前的零样本模型,并通过实证验证了我们基于主体的框架在三维空间推理任务中的有效性。项目网站:https://glab-caltech.github.io/vadar/ |
2025-02-10 | Towards Internet-Scale Training For Agents | Brandon Trabucco et.al. | 2502.06776 | null | 我们开发了一种管道来促进无需繁琐人工标注的互联网规模训练。首先,大规模语言模型为15万多个不同的网站生成任务。接下来,这些模型代理完成任务并生成轨迹。最后,另一个大规模语言模型审查这些轨迹并判断其成功与否。语言模型在检测和过滤有害内容方面准确率达到97%,生成可行任务的成功率为89%,判断成功的轨迹准确率为82.6%。通过扩展这个管道,基于Llama 3.1 70B的大规模语言模型代理能够解决15万个网站上16.7%的任务。使用我们管道生成的数据进行训练与使用人类演示数据进行训练效果相当。在来自Mind2Web和WebLINX的数据受限设置下,我们改进了步骤准确性,分别提高了+89.5%和+122.1%。当使用基准测试中所有可用的人类数据训练代理时,它们无法泛化到各种实际网站,而添加我们的数据可以提高它们的泛化能力,对于WebLINX和Mind2Web分别提高了+149.0%和+156.3%。代码将在data-for-agents.github.io获取。 |
2025-02-10 | Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training | Yuchen Zhuang et.al. | 2502.06589 | null | 由于面向代理的预训练数据稀缺,基于大语言模型(LLM)的自主代理通常依赖于复杂的提示或广泛的微调,这往往无法在保持强大泛化能力的同时引入新功能。我们介绍了Hephaestus-Forge,这是首个大规模预训练语料库,旨在增强LLM代理在API函数调用、内在推理和规划以及适应环境反馈方面的基础能力。Hephaestus-Forge包含1030亿个代理特定数据,涵盖了76,537个API,包括工具文档以引入API功能的知识,以及功能调用轨迹以加强内在推理。为了探索有效的训练协议,我们研究了缩放法则以确定数据混合比率的最佳配方。通过持续在Hephaestus-Forge上进行预训练,Hephaestus在三个代理基准测试中表现出色,超越了小型到中型的开源LLM,并且可以与商业LLM相媲美,证明了我们的预训练语料库在增强LLM的基础代理能力和任务或环境泛化能力方面的有效性。 |
2025-02-10 | CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories | Yijia Xiao et.al. | 2502.06111 | null | 不断增加的计算机科学研究项目的复杂性要求更有效的工具来部署代码仓库。大型语言模型(LLMs),如Anthropic Claude和Meta Llama,在计算机科学研究的各个领域,包括自动化各种软件工程任务方面,已经展现出了显著的进步。为了评估LLMs在处理研究项目中的复杂代码开发任务方面的有效性,特别是针对NLP/CV/AI/ML/DM领域的任务,我们引入了CSR-Bench,这是一个计算机科学研究基准。该基准从准确度、效率和部署脚本质量等多个方面评估LLMs,旨在探索它们在自主进行计算机科学研究方面的潜力。我们还介绍了一个新的框架CSR-Agents,它利用多个LLM代理来自动化计算机科学研究项目GitHub代码仓库的部署。具体来说,通过检查自述文件中的指令并解释仓库结构,该模型生成并迭代改进bash命令,以设置实验环境并部署代码来进行研究任务。CSR-Bench的初步结果显示,LLM代理可以显著增强仓库部署的工作流程,从而提高开发者的生产力并改善开发工作流的管理。 |
2025-02-09 | HamRaz: A Culture-Based Persian Conversation Dataset for Person-Centered Therapy Using LLM Agents | Mohammad Amin Abbasi et.al. | 2502.05982 | null | 本文介绍了HamRaz,这是一个为以大型语言模型(LLMs)为基础的人格中心疗法(PCT)设计的新型波斯语心理健康数据集。尽管LLMs在AI驱动的心理咨询中的应用日益增长,现有的数据集大多侧重于西方和东亚背景,忽略了对有效波斯语治疗至关重要的文化和语言细微差别。为了解决这一差距,HamRaz结合了基于剧本的对话与适应性LLM角色扮演,确保连贯且动态的治疗互动。我们还介绍了HamRazEval,这是一种双评价框架,使用通用对话指标和Barrett-Lennard关系量表(BLRI)来衡量对话质量和治疗效果。实验结果表明,HamRaz在产生更具同理心、上下文感知和现实的治疗课程方面优于传统的剧本模式和双代理模式。通过发布HamRaz,我们贡献了一个文化适应的、由LLM驱动的资源,以推进多元社区中的AI驱动心理治疗研究。 |
2025-02-09 | MetaChain: A Fully-Automated and Zero-Code Framework for LLM Agents | Jiabin Tang et.al. | 2502.05957 | null | 大型语言模型(LLM)代理在任务自动化和智能决策方面展示了显著的能力,推动了像LangChain和AutoGen这样的代理开发框架的广泛应用。然而,这些框架主要服务于具有丰富技术专长的开发者——这是一个重要的限制,因为全球只有0.03%的人口具备必要的编程技能。这种明显的可访问性差距引发了基本问题:我们能否让每个人,无论其技术水平如何,仅通过自然语言就能构建自己的LLM代理?为了解决这一挑战,我们介绍了MetaChain——一个全自动且高度自我发展的框架,使用户能够仅通过自然语言创建和部署LLM代理。作为一款自主代理操作系统,MetaChain包含四个关键组件:i)代理系统实用程序,ii)基于LLM的操作引擎,iii)自我管理文件系统,以及iv)自我调整代理定制模块。这个轻量级但功能强大的系统能够在无需编码或人工干预的情况下高效地动态创建和修改工具、代理和工作流程。除了无代码代理开发能力外,MetaChain还作为一个多功能多代理系统,用于通用AI助手。在GAIA基准上的综合评估表明,MetaChain在通用多代理任务上表现出色,超越了现有的最先进方法。此外,MetaChain在与检索增强生成(RAG)相关的能力方面也表现出持续优越的性能,超过了众多基于LLM的解决方案。 |
2025-02-07 | MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison | Kaijie Zhu et.al. | 2502.05174 | null | 近期的研究表明大型语言模型(LLM)代理容易受到间接提示注入(IPI)攻击的威胁,其中工具检索到的信息中嵌入的恶意任务可以引导代理采取未经授权的操作。现有的IPI防御方法存在显著局限:要么需要重要的模型训练资源,要么对复杂的攻击效果不佳,或者会损害正常的实用性。我们提出了MELON(掩码重执行和工具比较),这是一种新的IPI防御方法。我们的方法基于这样的观察:在成功的攻击下,代理的下一个动作对用户任务的依赖性降低,而对恶意任务的依赖性增加。根据这一点,我们设计了MELON通过使用经过掩码函数修改的掩码用户提示来重新执行代理的行为轨迹以检测攻击。如果原始执行和掩码执行生成的动作相似,则识别为攻击。我们还设计了三个关键功能以减少潜在的误报和漏报。我们在IPI基准测试AgentDojo上的广泛评估表明,MELON在攻击预防和实用性保持方面都优于现有技术(SOTA)的防御措施。此外,我们将MELON与一种SOTA提示增强防御相结合(表示为MELON-Aug)进一步提升了其性能。我们还进行了详细的消融研究以验证我们设计的关键要素。 |
2025-02-07 | Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization | Zelai Xu et.al. | 2502.04686 | null | 大型语言模型(LLM)代理在开放式对话和多步骤决策制定等领域已经取得了显著的进展。然而,将这些代理应用于需要战略决策和自由形式语言互动的社会推理游戏(如狼人杀)仍然具有挑战性。传统方法基于反事实遗憾最小化(CFR)或强化学习(RL),通常依赖于预定义的动作空间,这使得它们不适合具有不受限文本动作空间的语言游戏。同时,纯LLM代理常常受到内在偏差的影响,并且需要庞大的数据集进行微调。我们提出了潜在空间策略优化(LSPO),这是一种迭代框架,通过首先将自由形式文本映射到离散潜在空间来解决这些问题,在这个空间中,CFR和RL可以更有效地学习战略政策。然后,我们将学到的策略转换回自然语言对话,用于通过直接偏好优化(DPO)微调LLM。通过在这些阶段之间交替迭代,我们的LSPO代理逐步提升战略推理和语言沟通能力。实验结果表明,在狼人杀游戏中,我们的方法在每次迭代中都提高了代理的表现,并优于现有的狼人杀代理,这凸显了其在自由形式语言决策制定中的潜力。 |
2025-02-07 | Self-Regulation and Requesting Interventions | So Yeon Min et.al. | 2502.04576 | null | 人类智能涉及元认知能力,如自我调节、认识局限以及仅在必要时寻求帮助。尽管大型语言模型(LLM)代理在许多领域表现出色,但它们通常缺乏这种意识。过于自信的代理可能会导致灾难性失败,而过度寻求帮助的代理则会阻碍效率。一个关键挑战是,在有限干预预算 |
2025-02-06 | Multi-Agent Reinforcement Learning with Focal Diversity Optimization | Selim Furkan Tekin et.al. | 2502.04492 | link | 大型语言模型(LLMs)及其微调策略的发展引发了对多智能体强化学习的重新关注。本文介绍了一种焦点多样性优化的多智能体强化学习方法,称为MARL-Focal,具有三个独特特征。首先,我们开发了一个代理融合框架,以鼓励基于多个LLM的代理协作产生每个LLM查询的最终推理输出。其次,我们开发了一种焦点-多样性优化的代理选择算法,可以根据它们如何互补生成查询输出来选择可用代理的一个小子集。最后,我们设计了一种冲突解决方法,用于检测多个代理之间的输出不一致,并通过奖励感知和策略自适应推理融合产生我们的MARL-Focal输出。在五个基准上的广泛评估表明,MARL-Focal是成本高效的且对抗稳健的。我们的多智能体融合模型比最佳的单个LLM代理提高了5.51%的性能,并在TruthfulQA基准上提供了更强的鲁棒性。代码可在https://github.com/sftekin/rl-focal获取。 |
2025-02-06 | Active Task Disambiguation with LLMs | Katarzyna Kobalczyk et.al. | 2502.04485 | link | 尽管大型语言模型(LLMs)在各种基准测试中表现出色,但它们解决现实世界交互中常见的模糊问题的能力仍缺乏探索。为了解决这一差距,我们引入了任务模糊性的正式定义,并通过贝叶斯实验设计的视角将任务消歧问题形式化。通过提出澄清性问题,LLM代理可以获取额外的任务规范,逐步缩小可行解决方案的空间,从而降低生成不令人满意的输出的风险。然而,生成有效的澄清性问题要求LLM代理进行一种元认知推理,而这种能力LLMs目前可能还不具备。我们提出的主动任务消歧方法使LLM代理能够生成最大化信息增益的针对性问题。实际上,这种方法将推理负担从隐式转移到对可行解决方案空间的显式推理上。实证结果表明,这种问题选择方式比仅在问题空间内进行推理的方法更能有效地进行任务消歧。 |
2025-02-04 | Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives | Elliot Meyerson et.al. | 2502.04358 | null | 在将复杂问题分解为子问题时,这些问题通常会变得更加容易和高效地解决。随着大型语言模型(LLM)跨越越来越多能力的关键可靠性阈值,人们越来越努力将系统分解为一组基于LLM的代理,每个代理都可以被委派子任务。然而,即使这种分解是自动化的,它也往往是直观的,例如基于人类可能分配给团队成员的角色。这些角色分解离最优有多近?这篇论文认为需要使用LLM原语进行渐近分析来推断此类分解系统的效率,并且从这种分析中获得的见解将解锁扩展它们的机会。通过将LLM前向传递视为计算成本的基本单位,可以将特定LLM的(通常是不透明的)内部工作与一组LLM执行硬任务的固有效率区分开来。换句话说,如果我们希望将LLM的部署扩展到极限,而不是拟人化LLM,应使用渐近分析与LLM原语来推理并开发更强大的大规模问题分解为LLM代理的方法。 |
2025-02-06 | ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization | Yinjie Wang et.al. | 2502.04306 | link | 近期的研究利用大规模语言模型的多智能体系统解决复杂问题,同时试图减少构建这些系统的手动工作量,推动了自动化智能体工作流程优化方法的发展。然而,现有方法由于表示能力有限、缺乏适应性以及在依赖离散优化技术时可扩展性差而显得不够灵活。我们通过ScoreFlow解决了这些挑战,ScoreFlow是一个简单但高性能的框架,利用连续空间中的高效梯度优化。ScoreFlow包含了Score-DPO,这是一种直接偏好优化方法的新变种,考虑到了定量反馈。在涵盖问答、编码和数学推理的六个基准测试中,ScoreFlow比现有基线提高了8.2%。此外,它还使较小的模型能够在较低的推理成本下超越较大的模型。项目:https://github.com/Gen-Verse/ScoreFlow |
2025-02-06 | PsyPlay: Personality-Infused Role-Playing Conversational Agents | Tao Yang et.al. | 2502.03821 | null | 当前关于角色扮演对话代理(RPCAs)与大型语言模型(LLMs)的研究主要集中在模仿特定的说话风格和利用角色背景上,而忽略了对更深层次个性特征的描绘。在这项研究中,我们引入了人格特征注入的角色扮演方法,以鼓励代理在对话中准确地展现其指定的人格特质。我们提出了PsyPlay,这是一种对话生成框架,旨在促进多个LLM代理之间丰富人格特征的表达。具体来说,PsyPlay使代理能够承担具有不同人格特质的角色,并围绕特定主题进行讨论,在整个互动过程中始终表现出其指定的人格特质。验证生成的对话数据表明,PsyPlay能够准确地展现预期的人格特质,在GPT-3.5上的总体成功率达到了80.31%。值得注意的是,我们观察到与积极价值观一致的LLMs在展现积极人格角色方面比展现消极人格角色更为成功。此外,我们构建了一个用于人格特征注入的角色扮演游戏对话语料库,称为PsyPlay-Bench。该语料库由4745个使用PsyPlay正确展现的对话实例组成,旨在进一步促进个性化角色扮演和对话人格检测研究。 |
2025-02-06 | MultiQ&A: An Analysis in Measuring Robustness via Automated Crowdsourcing of Question Perturbations and Answers | Nicole Cho et.al. | 2502.03711 | null | 一个在大型语言模型(LLMs)机构采用过程中关键的挑战源自于它们在生成回答时倾向于产生幻觉。为了解决这个问题,我们提出了MultiQ&A,这是一种系统的方法,用于评估LLM生成答案的稳健性和一致性。我们展示了MultiQ&A能够通过大规模地众包问题扰动及其相应的答案来实现这一点。我们的实验最终检查了190万个问题扰动和230万个答案。此外,MultiQ&A表明集成的LLM,如gpt-3.5-turbo,在扰动下仍然相对稳健和一致。MultiQ&A在响应生成领域提供了清晰度,提供了一种有效的方法来检查分歧和变异性。因此,我们的系统为机构采用LLM提供了一个潜在框架,具备衡量信心、一致性和量化幻觉的能力。 |
2025-02-05 | A Schema-Guided Reason-while-Retrieve framework for Reasoning on Scene Graphs with Large-Language-Models (LLMs) | Yiye Chen et.al. | 2502.03450 | null | 场景图已成为大型语言模型(LLMs)进行接地空间推理的结构化和可序列化环境表示。在这项工作中,我们提出了SG-RwR,这是一种针对场景图的Schema引导式检索-推理框架。我们的方法采用了两个合作的、编写代码的LLM代理:一个(1)推理器用于任务规划和信息查询生成,以及一个(2)检索器用于根据查询提取相应的图信息。这两个代理迭代地协同工作,使顺序推理和自适应关注图信息成为可能。与之前的工作不同,两个代理仅使用场景图模式而不是完整的图数据进行提示,这通过限制输入令牌减少了幻觉,并促使推理器抽象地生成推理跟踪。根据跟踪,检索器基于模式理解程序化地查询场景图数据,允许对图进行动态和全局的关注,从而增强推理和检索之间的对齐。通过在多个模拟环境中的实验,我们展示了我们的框架在数值问答和规划任务中超越了现有的基于LLM的方法,并且可以从任务级别的少量示例中受益,即使没有代理级别的演示。项目代码将会发布。 |
2025-02-04 | Adaptive Self-improvement LLM Agentic System for ML Library Development | Genghan Zhang et.al. | 2502.02534 | link | ML库通常使用针对特定架构的编程语言(ASPL)编写,这些语言面向特定领域的架构,对于高效的ML系统至关重要。然而,编写这些高性能的ML库具有挑战性,因为它需要对ML算法和ASPL有专业知识。另一方面,大型语言模型(LLMs)展示了通用编码能力。然而,当使用LLMs生成使用ASPL的ML库时仍然存在挑战,因为这项任务即使对于经验丰富的程序员来说也很复杂,并且由于ASPL的深奥和不断发展的性质,代码示例有限。因此,LLMs需要在数据有限的情况下进行复杂的推理才能完成此任务。为了解决这些挑战,我们引入了一种自适应自我改进的智能系统。为了评估我们系统的有效性,我们在典型的ML库基准上构建了一个测试,并使用开放和闭源的LLMs在这个基准上生成了ASPL代码。我们的结果显示,与单一LLM基线相比,性能提高了多达3.9倍。 |
2025-02-03 | Firewalls to Secure Dynamic LLM Agentic Networks | Sahar Abdelnabi et.al. | 2502.01822 | null | 未来的大型语言模型(LLM)代理很可能会代表用户与其他实体代理进行通信,以完成涉及长期计划和相互依赖目标的任务。目前的工作并未关注这样的代理网络及其所面临的挑战。因此,我们首先确定了代理间通信所需的特点,这些特点应该是主动的且具有适应性。通信需要满足以下要求:1)隐私性:代理不应分享超过任务所需的个人信息;2)安全性:通信必须保持完整性,并在面对自私实体时保持实用性。我们设计了一个使用案例(旅行规划)作为测试平台,以体现这些要求,并展示了如果处理不当可能会出现的问题。接下来,我们提出了一种实用的设计方案,该方案借鉴了已建立的网络安全原则,旨在为受限的LLM代理网络平衡适应性、安全性和隐私性。我们的框架能够自动构建和更新特定任务的规则,从而建立防火墙。我们提供了多层防御措施,包括:1)将自由格式输入转换为特定任务的协议;2)动态地将用户数据抽象到特定任务的许可程度;3)自我纠正代理的行为轨迹。 |
2025-02-03 | Position: Towards a Responsible LLM-empowered Multi-Agent Systems | Jinwei Hu et.al. | 2502.01714 | null | Agent AI和基于大型语言模型的多智能体系统(LLM-MAS)的兴起突显了实现系统操作的可靠性和责任性的需求。LangChain等工具和基于检索的生成方法扩展了LLM的功能,通过增强的知识检索和推理,实现了LLM在MAS中的更深层次集成。然而,这些进展带来了关键挑战:LLM代理表现出固有的不可预测性,其输出中的不确定性可能在交互过程中累积,威胁到系统的稳定性。为应对这些风险,需要采用以人为中心的设计方法和主动动态监管。这种方法通过促进智能体间的有效沟通和系统治理来增强传统的被动监督,从而更高效地实现MAS的预期目标。 |
2025-02-03 | TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues | Yubin Ge et.al. | 2502.01630 | null | 时间推理在多会话对话中提出了一个重要的挑战,这一领域在之前的时序推理基准测试中研究不足。为了填补这一空白,我们提出了一项新的评估任务,用于多会话对话中的时序推理,并介绍了一种通过增强LoCoMo对话数据集并创建多选题的方式来构建新基准的方法。此外,我们提出了TReMu框架,旨在提升LLM代理在这种情境下的时序推理能力。具体而言,该框架通过时间线摘要实现“时间感知记忆”,通过对每次对话会话中的事件及其推断日期进行总结来生成可检索的记忆。此外,我们整合了“神经符号时序推理”,其中LLM生成Python代码来进行时序计算并选择答案。对流行LLM的实验评估表明,我们的基准具有挑战性,而所提出的框架显著提升了时序推理性能,相较于标准提示方法(GPT-4o上的29.83)提升至我们的方法下的77.67,这突显了其在解决多会话对话中的时序推理问题方面的有效性。 |
2025-02-04 | Reinforcement Learning for Long-Horizon Interactive LLM Agents | Kevin Chen et.al. | 2502.01600 | null | 交互式数字代理(IDAs)利用应用程序编程接口(APIs)在响应用户请求时执行任务。尽管由经过指令调优的大语言模型(LLMs)驱动的IDAs可以在多步骤交互中对界面调用的反馈做出反应,但它们并未在其目标环境中进行训练。此前的方法在复杂的基准测试如AppWorld中完成的任务不足一半。我们提出了一种强化学习(RL)方法,直接在目标环境中训练IDAs。我们将这种训练形式化为一个部分可观测马尔可夫决策过程,并推导出LOOP,这是一种无需价值网络且内存效率极高的近端策略优化变体。LOOP仅在内存中保持单一LLM的副本,使其实现简单且内存使用效率与单次微调LLM相同。在AppWorld环境中训练的一个320亿参数的代理通过LOOP比规模更大的OpenAI o1代理高出9个百分点(相对提高15%)。据我们所知,这是首次将RL应用于通过直接API调用与状态多域多应用环境互动的IDAs的报告应用。我们的分析揭示了RL在此领域的有效性,表明该代理学会了查阅API文档,避免不必要的假设,减少虚构,并从挫折中恢复。 |
2025-02-03 | Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization | Minttu Alakuijala et.al. | 2502.01562 | null | 随着人工智能(AI)代理的通用能力不断进化,它们通过经验掌握多个复杂任务的能力仍然是一个关键挑战。当前的大语言模型(LLM)代理,尤其是那些基于专有语言模型的代理,通常依赖于提示来整合关于目标任务的知识。这种方法不允许代理内化这些信息,而是依赖于不断扩大的提示来在不同场景中维持其功能,这类似于患有顺行性遗忘症的人使用笔记系统,即无法形成新记忆的人。在这篇论文中,我们提出了一种新颖的方法,使AI代理能够在不需要繁琐的笔记系统或高质量的演示数据的情况下整合知识和技能以应对多个任务。我们的方法采用了一个迭代过程,在这个过程中,代理收集新的经验,从人类那里获得纠正性反馈的形式为提示,并通过上下文蒸馏训练程序将这些反馈融入其权重。我们通过在一个基于Llama-3的代理上实现这一方法来证明其有效性,该代理仅经过几次反馈循环后,就在需要正确顺序的信息检索、工具使用和问答的任务集中表现优于先进的模型GPT-4o和DeepSeek-V3。 |
2025-02-05 | TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets | Yuzhe Yang et.al. | 2502.01506 | link | 社会涌现现象的研究长期以来一直是社会科学的中心课题。传统的建模方法,如基于规则的多智能体模型(ABMs),在捕捉人类行为的多样性和复杂性方面存在困难,特别是强调行为经济学中的非理性因素。近年来,大型语言模型(LLM)代理作为模拟人类行为的社会科学和角色扮演应用的工具得到了广泛关注。研究表明,LLMs能够解释认知偏差、情绪波动以及其他非理性影响,从而实现对社会经济动态的更现实的模拟。在这项工作中,我们引入了TwinMarket,这是一种利用LLMs模拟社会经济系统的新型多智能体框架。具体而言,我们研究了个体行为如何通过互动和反馈机制产生集体动力学和涌现现象。通过在一个模拟股票市场环境中进行实验,我们展示了个体行为如何触发群体行为,导致金融泡沫和经济衰退等涌现结果。我们的方法为理解个体决策与集体社会经济模式之间的复杂相互作用提供了有价值的见解。 |
2025-02-03 | Simulating Rumor Spreading in Social Networks using LLM Agents | Tianrui Hu et.al. | 2502.01450 | link | 随着社交媒体的兴起,误信息的传播变得日益普遍,这在很大程度上是由谣言的散播所驱动的。本研究探讨了在一种新型框架内使用大型语言模型(LLM)代理来模拟和分析谣言在社交网络中的传播动态。为此,我们设计了多种基于LLM的代理类型,并构建了四种不同的网络结构来进行这些模拟。我们的框架评估了不同网络构造和代理行为在影响谣言传播方面的有效性。结果表明,该框架能够在各种包含一百多代理且有数千条边的网络中模拟谣言传播。评估显示,网络结构、角色和传播方案可以显著影响谣言的传播范围,从完全不传播到影响多达83%的代理,在迭代过程中提供了对社交网络中谣言传播的真实模拟。 |
2025-02-03 | Plan-Then-Execute: An Empirical Study of User Trust and Team Performance When Using LLM Agents As A Daily Assistant | Gaole He et.al. | 2502.01390 | link | 自从ChatGPT爆炸性地流行以来,大型语言模型(LLMs)继续影响着我们的日常生活。配备专为特定目的设计的外部工具(例如航班预订或闹钟),LLM代理在日常工作中展现出日益增长的能力来辅助人类。尽管LLM代理在作为日常助手方面展示出一个有前景的蓝图,但对于它们如何基于规划和顺序决策能力提供日常协助的理解仍然有限。我们受到最近工作的启发,这些工作强调了‘LLM模组’设置与人机环路相结合在规划任务中的价值。我们进行了一项实证研究(N=248),考察了LLM代理在六个常见任务中作为日常助手的表现,这些任务通常与不同程度的风险相关(例如,航班机票预订和信用卡支付)。为了确保用户对LLM代理的控制权,我们采用了计划后执行的方式,其中代理在一个模拟环境中逐步规划并分步执行。我们分析了每个阶段用户的参与如何影响他们的信任度和协作团队表现。我们的发现表明,LLM代理是一把双刃剑——(1)当高质量的计划和必要的用户执行参与都存在时,它们可以很好地工作;(2)用户很容易对看起来合理的计划产生不信任感。我们综合了关键见解,用于指导如何使用LLM代理作为日常助手以校准用户信任并实现更好的整体任务结果。我们的工作对未来的日常助手设计和LLM代理的人机协作具有重要意义。 |
2025-02-03 | ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution | Kanika Goswami et.al. | 2502.00989 | null | 大型语言模型(LLMs)可以执行图表问答任务,但通常会生成未经验证的幻觉性回答。现有的答案归因方法由于受限于有限的视觉语义上下文、复杂的视觉文本对齐要求以及在复杂布局中预测边界框的困难,难以将回答与源图表联系起来。我们提出了ChartCitor,这是一种多代理框架,通过识别图表图像中的支持证据来提供细粒度的边界框引用。该系统协调LLM代理执行图表到表格的提取、回答重构、表格增强、证据检索通过预筛选和重新排序,以及表格到图表的映射。ChartCitor在不同类型的图表上都优于现有基线。定性的用户研究表明,ChartCitor通过为LLM辅助的图表问答提供增强的可解释性来增加用户对生成式人工智能的信任,并使专业人员能够更高效地工作。 |
2025-01-31 | Do LLMs Strategically Reveal, Conceal, and Infer Information? A Theoretical and Empirical Analysis in The Chameleon Game | Mustafa O. Karabag et.al. | 2501.19398 | link | 大型语言模型(LLM)驱动的智能体在包含非合作方的环境中变得常见。在这些环境中,智能体需要在决策时向对手隐藏信息、向合作者透露信息,并通过推断来识别其他智能体的特征。为了研究LLM是否具备这些信息控制和决策能力,我们让基于LLM的智能体参与一种基于语言的隐身份游戏——变色龙游戏。在游戏中,一组互不认识的非变色龙智能体试图识别变色龙智能体而不泄露秘密。该游戏要求变色龙和非变色龙都具备上述信息控制能力。实证结果表明,虽然非变色龙LLM智能体能够识别变色龙,但它们未能向变色龙隐瞒秘密,其获胜概率远低于甚至是最简单的策略水平。为了正式解释这种行为,我们对从隐瞒到透露的一系列策略进行了理论分析,并提供了非变色龙获胜概率的界限。根据不同策略的实证结果和理论分析,我们得出结论,当代LLM驱动的非变色龙智能体在与未知身份的智能体互动时会泄露过多信息。我们的结果指出了包括GPT-4、GPT-4o、Gemini 1.5和Claude 3.5 Sonnet在内的当代LLM在战略互动中的一个弱点。 |
2025-01-30 | Leveraging LLM Agents for Automated Optimization Modeling for SASP Problems: A Graph-RAG based Approach | Tianpeng Pan et.al. | 2501.18320 | null | 自动化优化建模(AOM)在大型语言模型(LLMs)的快速发展中引起了广泛关注。现有的方法主要依赖于提示工程,利用精心设计的专家响应链或结构化指导。然而,由于缺乏特定领域的知识,基于提示的技术在传感器阵列信号处理(SASP)领域表现不佳。为了解决这个问题,我们提出了一种基于检索增强生成(RAG)技术的自动化建模方法,该方法包括两个主要组成部分:多代理(MA)结构和基于图的RAG(Graph-RAG)过程。MA结构专为架构AOM过程而设计,每个代理都基于人类建模过程的原则进行设计。Graph-RAG过程用于匹配用户查询与特定的SASP建模知识,从而提高建模结果。在十个经典信号处理问题上的结果表明,所提出的MAG-RAG方法优于几种AOM基准方法。 |
2025-01-31 | RepoAudit: An Autonomous LLM-Agent for Repository-Level Code Auditing | Jinyao Guo et.al. | 2501.18160 | null | 代码审计是一种旨在发现错误的代码审查过程。大型语言模型(LLMs)在这一任务中展现出显著潜力,能够分析无需编译的程序,并根据指定提示进行定制化的错误检测。然而,将LLMs应用于仓库级别的代码审计时面临显著挑战。LLMs固有的上下文限制和幻觉问题可能导致低质量的错误报告。同时,大型软件仓库引入了显著的时间和令牌成本,阻碍了实际场景中的效率和可扩展性。本研究介绍了一种自主的LLM代理RepoAudit,旨在实现精确且高效的仓库级别代码审计。配备了代理记忆功能,RepoAudit按需探索代码仓库,分析不同可行程序路径上的数据流事实。它还引入验证器来减轻幻觉并检查潜在错误路径的路径条件的可行性,使RepoAudit能够在代码审计过程中排除误报。实验表明,由Claude 3.5 Sonnet驱动的RepoAudit成功在15个现实世界系统中发现了38个真实错误,在每个项目上平均耗时0.44小时,花费2.54美元。 |
2025-01-29 | Is Conversational XAI All You Need? Human-AI Decision Making With a Conversational XAI Assistant | Gaole He et.al. | 2501.17546 | link | 解释性人工智能(XAI)方法被提出以帮助解释和理解人工智能系统如何得出特定预测。受到先前关于会话式用户界面工作的启发,我们主张通过会话式用户界面增强现有的XAI方法可以提高用户的参与度并增强用户对人工智能系统的理解。在本文中,我们探讨了会话式XAI界面对用户理解人工智能系统、信任程度以及依赖人工智能系统的影响。与XAI仪表板相比,我们发现会话式XAI界面能够使用户更好地理解人工智能系统,并提高用户信任度。然而,无论是使用XAI仪表板还是会话式XAI界面的用户都表现出明显的过度依赖人工智能系统。由大型语言模型(LLM)代理驱动的增强对话加剧了这种过度依赖。根据我们的研究结果,我们认为过度依赖的原因可能是伴随这两种XAI界面出现的解释深度错觉。我们的研究结果对设计有效的会话式XAI界面以促进适当的依赖性和改善人机协作具有重要意义。代码可以在https://github.com/delftcrowd/IUI2025_ConvXAI找到 |
2025-01-28 | A sketch of an AI control safety case | Tomek Korbak et.al. | 2501.17315 | null | 随着大型语言模型(LLM)代理造成危害的能力增强,AI开发者可能会越来越多地依赖监控等控制措施来证明它们是安全的。我们概述了开发者如何构建“控制安全性案例”,这是一个结构化的论点,表明模型无法规避控制措施以导致不可接受的结果。作为案例研究,我们概述了一个论点,即在一家人工智能公司内部部署的假设性LLM代理不会泄露敏感信息。该概述基于“控制评估”的证据,在此过程中,红队故意设计模型以在模拟部署环境中泄露数据。这种安全性案例则依赖于几个论点:(1) 红队充分揭示了模型泄露数据的能力,(2) 控制措施在部署时至少同样有效,(3) 开发者保守地推断模型性能以预测在部署中数据泄露的概率。这个安全性案例概述是迈向更具体论证的重要一步,可用于展示一个具有危险能力的LLM代理是安全的可以部署。 |
2025-01-28 | Large Language Model Critics for Execution-Free Evaluation of Code Changes | Aashish Yadavally et.al. | 2501.16655 | link | 大型语言模型(LLMs)为通过多步骤的基于LLM的主动工作流自动化软件工程任务(如错误修复、功能添加等)提供了有前景的方法。然而,现有的评估此类工作流的指标,主要是构建状态和偶尔的日志分析,过于稀疏且有限,无法提供评估所做更改质量所需的信息。在这项工作中,我们设计了基于LLM的评论者来推导出结构良好且严格的中间/步骤级、无执行评估代理,用于代码库级别的代码更改。重要的是,我们假设可以访问问题的黄金测试补丁(即参考感知),以评估生成补丁的语义和可执行性。使用黄金测试补丁作为参考,我们预测所有编辑位置的可执行性,F1得分为91.6%,聚合这些结果,我们可以预测SWE-bench中84.8%实例的构建状态。特别是,这种专注于执行的LLM评论者比其他无参考和有参考的LLM评论者表现高出38.9%到72.5%。此外,我们展示了这种有参考的框架在比较由不同主动工作流生成的补丁方面的有用性。最后,我们将为此项目开发的库开源,该库允许进一步用于其他主动工作流或其他基准测试。源代码可在https://github.com/amazon-science/code-agent-eval获取。 |
2025-01-27 | Will Systems of LLM Agents Cooperate: An Investigation into a Social Dilemma | Richard Willis et.al. | 2501.16173 | link | 随着自主代理在社会中的作用越来越重要,理解他们在战略互动中的集体行为变得至关重要。本研究调查了大型语言模型(LLM)代理系统在社会困境中的新兴合作倾向。与之前的研究不同,我们让最先进的LLM生成重复囚徒困境的完整策略,而不是仅仅输出个体行动。我们使用进化博弈论模拟具有不同战略倾向(好战、合作或中立)的代理人群体,并观察其进化动态。我们的发现揭示了不同的LLM表现出不同的偏见,影响了好战和合作策略的相对成功。本研究为部署的基于LLM的自主代理系统的潜在长期行为提供了见解,并强调了仔细考虑它们所处的战略环境的重要性。 |
2025-01-27 | LLM-attacker: Enhancing Closed-loop Adversarial Scenario Generation for Autonomous Driving with Large Language Models | Yuewen Mei et.al. | 2501.15850 | null | 确保和提高自动驾驶系统的安全性对于高度自动化车辆的部署至关重要,尤其是在处理安全关键事件时。为了解决稀有性问题,开发了对抗场景生成方法,在这些方法中,交通参与者的操作被操纵以引发安全关键事件。然而,现有方法仍然面临两个局限性。首先,识别对抗参与者直接影响生成的有效性。然而,现实世界场景的复杂性,包括众多参与者和多样的行为,使得识别变得具有挑战性。其次,生成的安全关键场景在持续改进自动驾驶系统(ADS)性能方面的潜力仍有待探索。为了解决这些问题,我们提出了LLM-attacker:一种利用大型语言模型(LLM)的闭环对抗场景生成框架。具体而言,设计并协调多个LLM代理以确定最优攻击者。然后优化攻击者的轨迹以生成对抗场景。这些场景基于ADS的性能进行迭代细化,形成一个反馈回路以提升ADS。实验结果表明,与其它方法相比,LLM-attacker能够创建更具危险性的场景,并且使用其训练的ADS碰撞率仅为使用正常场景训练的一半。这表明LLM-attacker具有测试和增强ADS安全性和鲁棒性的能力。视频演示可访问:https://drive.google.com/file/d/1Zv4V3iG7825oyiKbUwS2Y-rR0DQIE1ZA/view |
2025-01-25 | Are Human Interactions Replicable by Generative Agents? A Case Study on Pronoun Usage in Hierarchical Interactions | Naihao Deng et.al. | 2501.15283 | null | 随着大型语言模型(LLMs)的能力不断提升,研究人员越来越多地将其用于社会模拟。在本文中,我们研究了LLM代理之间的互动是否类似于人类的互动。具体而言,我们关注领导者和非领导者之间的代词使用差异,考察模拟是否会引导出类似人类的代词使用模式。我们的评估揭示了基于LLM的模拟与人类代词使用的显著差异,提示式或专业化的代理未能展示类似人类的代词使用模式。此外,我们发现即使LLMs理解人类的代词使用模式,它们在实际交互过程中也未能表现出这些模式。我们的研究突显了基于LLM代理的社会模拟的局限性,敦促在从业者决策过程中谨慎使用此类社会模拟。 |
2025-01-24 | Serving Long-Context LLMs at the Mobile Edge: Test-Time Reinforcement Learning-based Model Caching and Inference Offloading | Minrui Xu et.al. | 2501.14205 | null | 大型语言模型(LLMs)能够在未见过的任务上进行零样本学习,并在复杂的推理任务上进行少样本学习。然而,资源有限的移动边缘网络在多轮交互过程中难以支持长上下文LLM的服务。与边缘计算中的无状态计算卸载和静态服务卸载不同,优化边缘服务器上的LLM服务具有挑战性,因为LLMs会持续从上下文中学习,这引发了准确率、延迟和资源消耗的动态变化。在这篇论文中,我们提出了一种联合模型缓存和推理卸载框架,该框架利用测试时深度强化学习(T2DRL)来优化长上下文LLM服务的部署和执行策略。在这个框架中,我们分析了性能收敛情况,并设计了一个考虑LLMs中上下文窗口利用的优化问题。此外,T2DRL算法可以在训练阶段和测试阶段进行学习,主动管理缓存的模型和服务请求,并适应执行过程中的上下文变化和使用模式。为了进一步提高资源分配效率,我们提出了一种双荷兰拍卖(DDA)机制,该机制能够动态匹配供需关系,同时最大化社会福利。最后,实验结果表明,T2DRL算法相比基线可以减少至少30%的系统成本,同时保证LLM代理在真实世界感知和推理任务中的性能。 |
2025-01-24 | AI Chatbots as Professional Service Agents: Developing a Professional Identity | Wenwen Li et.al. | 2501.14179 | null | 随着大型语言模型(LLM)应用的迅速扩展,LLM基于的AI聊天机器人角色正从仅仅作为通用查询工具转向充当专业服务代理。然而,目前的研究往往忽视了专业服务代理的一个关键方面:以与其专业身份一致的方式进行沟通。这一点在医疗领域尤为重要,在该领域与患者的有效沟通对于实现专业目标至关重要,例如通过鼓励健康行为来促进患者福祉。为了弥补这一差距,我们提出了LAPI(具有专业身份的LLM代理),这是一种设计用于医疗问答服务的专业服务代理的新框架,确保与特定专业身份的一致性。我们的方法包括一个基于理论的任务规划过程,将复杂的专业任务分解为与专业目标一致的可管理子任务,以及一种实用的熵方法,旨在生成具有低不确定性的专业和道德响应。对各种LLM的实验表明,所提出的方法在流畅性、自然性、同理心、以患者为中心和ROUGE-L分数等关键指标上优于基线方法,包括少量提示、思维链提示。此外,消融研究强调了每个组件对整体效果的贡献。 |
2025-01-23 | AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback | Joshua Park et.al. | 2501.13333 | link | 多智能体系统必须决定哪个代理最适合执行给定任务。我们提出了一种新颖的架构,通过扩展Sentence-BERT (SBERT)编码模型来推荐在给定自然语言提示的情况下应由哪个大型语言模型代理执行任务。在测试数据上,我们实现了92.2%的前1准确率,每个分类耗时不到300毫秒。与传统分类方法相比,我们的架构计算成本低廉,能够适应新类别,具有可解释性和可控性,并且可以通过强化学习使用任意指标进行调整。通过将自然语言提示编码成句子嵌入,我们的模型捕捉到与推荐代理相关的语义内容。然后,通过对属于同一代理的句子嵌入之间的距离进行最小化并通过人类反馈的强化学习进行对齐,完成了微调。这使得基于最近邻原则通过测量嵌入之间的余弦相似度来对自然语言提示进行分类成为可能。这项工作是通过生成一个用于代理推荐的合成数据集实现的,我们已将该数据集以及AgentRec推荐系统的代码开源给公众,网址为https://github.com/joshprk/agentrec。 |
2025-01-23 | Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents | Shrinidhi Kumbhar et.al. | 2501.13299 | null | 材料发现与设计对于推动各个行业技术进步至关重要,通过开发满足特定应用需求的材料来实现这一目标。近期的研究利用了大规模语言模型(LLMs)来加速这一过程。我们探讨了LLMs在生成可行假设方面的潜力,这些假设一旦经过验证,可以加快材料发现的速度。与材料科学专家合作,我们从最近的期刊出版物中整理了一个新颖的数据集,该数据集涵盖了为设计实际应用而设定的真实目标、约束条件和方法。使用这个数据集,我们测试了基于LLM的代理,它们生成了实现给定目标并符合特定约束条件的假设。为了评估这些假设的相关性和质量,我们提出了一种新的可扩展评估指标,该指标模拟了材料科学家在批判性评估假设时所采用的过程。我们整理的数据集、提出的方法和评估框架旨在推进未来以LLMs加速材料发现与设计的研究。 |
2025-01-21 | LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems | Venkata Sai Aswath Duvvuru et.al. | 2501.11864 | null | 彻底的仿真测试对于验证小型无人驾驶航空系统(sUAS)在多种场景下的正确行为至关重要,包括恶劣天气条件(如风和雾)、不同环境(如丘陵地形或城市区域)以及不同的任务配置文件(如监视、跟踪)。尽管存在各种支持开发者的sUAS仿真工具,创建、执行和分析仿真测试的整个过程仍然是一个主要的手动且繁琐的任务。开发者必须确定测试场景、设置仿真环境、将被测系统(SuT)与仿真工具集成、制定任务计划,并收集和分析结果。这些劳动密集型任务限制了开发者进行广泛场景的全面测试的能力。为了解决这个问题,本文提出了一种名为AutoSimTest的大语言模型(LLM)驱动框架,在该框架中多个LLM代理协作以支持sUAS仿真测试过程。这包括:(1) 创建使SuT处于独特环境上下文中的测试场景;(2) 根据测试场景准备仿真环境;(3) 生成供SuT执行的不同sUAS任务;以及(4) 分析仿真结果并提供交互式分析界面。此外,该框架的设计灵活,适用于多种sUAS用例、仿真工具和SuT输入要求。我们通过以下方式评估了我们的方法:(a) 对基于PX4和ArduPilot飞行控制器的SuT进行仿真测试,(b) 分析每个代理的性能,(c) 收集sUAS开发者的反馈。研究结果表明,AutoSimTest显著提高了sUAS测试过程的效率和范围,使得能够进行更全面和多样的场景评估,同时减少了手动工作量。 |
2025-01-20 | Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training | Siyu Yuan et.al. | 2501.11425 | link | 大型语言模型(LLMs)代理在处理交互环境中的复杂任务时变得越来越重要。现有的工作主要集中在通过从更强的专家那里进行行为克隆来增强性能,然而这种方法在实际应用中往往难以奏效,主要是因为无法从错误中恢复。然而,逐步骤批评的数据收集既困难又昂贵。因此,自动化和动态构建自我批评数据集对于赋予模型智能代理能力至关重要。在这项工作中,我们提出了一种迭代自我训练框架Agent-R,使语言代理能够即时反思。与传统的基于正确性奖励或惩罚动作的方法不同,Agent-R利用MCTS构建从错误轨迹中恢复正确轨迹的训练数据。代理反思的关键挑战在于需要及时修订而不是等到rollout结束。为了解决这个问题,我们引入了一种模型引导的批评构建机制:行动者模型在其当前能力范围内识别失败轨迹中的第一个错误步骤。从该步骤开始,我们将它与相邻的正确路径拼接在一起,这两个路径在树中共享相同的父节点。这一策略使得模型能够根据其当前策略学习反思,从而提高学习效率。为了进一步探索这种自我改进范式的可扩展性,我们研究了对错误纠正能力和数据集构建的迭代细化。我们的研究结果表明,Agent-R持续提高了模型从错误中恢复的能力,并实现了及时的错误修正。在三个交互环境中进行的实验表明,Agent-R有效地使代理能够纠正错误动作,同时避免循环,相比基线方法性能更优(+5.59%)。 |
2025-01-20 | Towards Advancing Code Generation with Large Language Models: A Research Roadmap | Haolin Jin et.al. | 2501.11354 | null | 近年来,大型语言模型得到了迅速发展,在代码生成的下游任务中展示了出色的性能。然而,尽管这些模型具有潜力,基于LLM的代码生成仍然面临诸多技术和评估挑战,特别是在实际开发环境中的嵌入应用。在本文中,我们提出了当前研究方向的展望,并对这一任务的现有研究进行了深入分析。我们提出了一种六层视图框架,将代码生成过程分类为不同的阶段,即输入阶段、编排阶段、开发阶段和验证阶段。此外,我们概述了我们的视图工作流程,反映了目前普遍存在的框架。我们系统地分析了大型语言模型面临的挑战,包括基于LLM的代理框架在代码生成任务中的挑战。通过这些,我们在该领域提供了各种视角和可操作的建议。我们的目标是为提高基于LLM的代码生成系统的可靠性和实用性提供指导。最终,这项工作旨在解决持久的挑战,并为未来更实用的LLM解决方案提供切实可行的建议。 |
2025-01-20 | Large Language Model Agents for Radio Map Generation and Wireless Network Planning | Hongye Quan et.al. | 2501.11283 | null | 使用商用软件进行无线电图生成和无线网络规划通常需要复杂的手动操作,这在可扩展性、适应性和用户友好性方面带来了显著挑战,主要是由于大量的手动操作。为了解决这些问题,我们提出了一种自动化解决方案,该方案采用大型语言模型(LLM)代理。这些代理旨在为指定区域自主生成无线电图并促进无线网络规划,从而最大限度地减少大量手动干预的必要性。为了验证所提出的解决方案的有效性,我们开发了一个集成LLM代理的软件平台。实验结果表明,通过所提出的LLM代理可以节省大量的手动操作,并且自动化解决方案可以在城市环境中实现增强的覆盖范围和信噪比(SINR)。 |
2025-01-20 | PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents | Kanika Goswami et.al. | 2501.11233 | null | 图表可视化对于数据解读和交流至关重要,但通常仅以PDF中的图片形式存在,缺乏源数据表格和样式信息。为了使PDF或数字扫描中的图表能够得到有效编辑,我们提出了PlotEdit,这是一种新颖的多代理框架,通过自我反思的大型语言模型(LLM)代理实现自然语言驱动的端到端图表图像编辑。PlotEdit协调五个LLM代理:(1) Chart2Table用于数据表格提取,(2) Chart2Vision用于样式属性识别,(3) Chart2Code用于检索渲染代码,(4) 指令分解代理用于解析用户请求为可执行步骤,以及(5) 多模态编辑代理用于实施复杂的图表组件修改——所有这些都通过多模态反馈进行协调以保持视觉保真度。在ChartCraft数据集上,PlotEdit在样式、布局、格式和数据中心编辑方面优于现有基线,提高了对视障用户的可访问性并提升了初学者的生产力。 |
2025-01-18 | Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments | Hongjin Su et.al. | 2501.10893 | null | 自主代理由大型语言模型(LLMs)驱动,有可能增强人类能力,协助执行从发送电子邮件到执行数据分析等数字任务。现有LLMs在这些任务上的能力往往受到缺乏相应环境交互的高质量代理数据的限制。我们提出了一种名为Learn-by-interact的数据中心框架,该框架能够适应任何给定环境而无需人工注释。Learn-by-interact基于文档综合代理与环境交互的轨迹,并通过总结或抽象交互历史来构建指令,这一过程称为逆向构造。我们通过使用合成数据进行基于训练的场景和无训练上下文学习(ICL)评估其质量,在ICL中,我们设计了针对代理优化的创新检索方法。在涵盖现实编码、网络和桌面环境的SWE-bench、WebArena、OSWorld和Spider2-V的广泛实验表明,Learn-by-interact在各种下游代理任务中的有效性——对于使用Claude-3.5的ICL,基线结果提高了多达12.2%,而对于使用Codestral-22B的训练提高了19.5%。我们进一步证明了逆向构造的关键作用,它提供了高达14.0%的训练改进。我们的消融研究展示了合成数据在ICL中的效率以及我们检索管道相对于替代方法如传统检索增强生成(RAG)的优势。我们预计Learn-by-interact将成为LLMs在实际部署于真实环境时的基础性代理数据合成方法。 |
2025-01-18 | ML-SceGen: A Multi-level Scenario Generation Framework | Yicheng Xiao et.al. | 2501.10782 | null | 当前的科学研究见证了将大规模语言模型应用于场景生成的各种尝试,但这些研究倾向于只关注全面或危险的场景。在本文中,我们寻求构建一个三阶段框架,不仅让用户重新获得对生成场景的可控性,还能在不受控制的交叉路口环境中生成包含危险因素的全面场景。在第一阶段,大型语言模型代理将有助于将预期场景描述的关键组件转化为功能场景。在第二阶段,我们使用答案集编程(ASP)求解器Clingo来帮助我们在交叉路口内生成全面的逻辑交通。在最后一个阶段,我们使用大型语言模型更新相关参数以提高具体场景的危险程度。 |
2025-01-17 | PaSa: An LLM Agent for Comprehensive Academic Paper Search | Yichen He et.al. | 2501.10120 | link | 我们介绍了PaSa,一个由大型语言模型驱动的先进论文搜索代理。PaSa能够自主做出一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献,以最终获得复杂学术查询的全面且准确的结果。我们使用合成数据集AutoScholarQuery优化了PaSa,该数据集包含来自顶级AI会议出版物的35,000个细粒度学术查询及其对应的论文。此外,我们开发了RealScholarQuery基准,收集现实世界的学术查询,以评估PaSa在更现实场景中的表现。尽管是在合成数据上训练的,PaSa在RealScholarQuery上的表现显著优于现有的基线系统,包括Google、Google Scholar、对查询进行改写后的Google与GPT-4、chatGPT(可搜索的GPT-4o)、GPT-o1以及通过提示GPT-4o实现的PaSa-GPT-4o。值得注意的是,PaSa-7B在召回@20和召回@50方面分别比最佳的Google基线Google与GPT-4o高出37.78%和39.90%。它还在召回方面比PaSa-GPT-4o高出30.36%,在精确率方面高出4.25%。模型、数据集和代码可在https://github.com/bytedance/pasa获取。 |
2025-01-17 | A Survey on LLM Test-Time Compute via Search: Tasks, LLM Profiling, Search Algorithms, and Relevant Frameworks | Xinzhe Li et.al. | 2501.10069 | null | LLM测试时计算(或LLM推理)通过搜索已成为一个有前景的研究领域,并且发展迅速。然而,当前的框架通常在三个关键方面(任务定义、LLM配置文件和搜索过程)采取不同的视角,这使得直接比较变得困难。此外,所采用的搜索算法往往偏离了标准实现,而它们的具体特征并未得到充分说明。在这篇调查文章中,我们提供了一个全面的技术回顾,统一了任务定义,并提供了LLM配置文件和搜索过程的模块化定义。这些定义使各种LLM推理框架之间的精确比较成为可能,同时突出了它们与传统搜索算法的差异。我们还讨论了这些方法的应用性、性能和效率。有关更多细节和最新更新,请参阅我们的GitHub仓库:https://github.com/xinzhel/LLM-Agent-Survey/blob/main/search.md |
2025-01-15 | Leveraging LLM Agents for Translating Network Configurations | Yunze Wei et.al. | 2501.08760 | null | 配置翻译在网络操作中是一项关键且频繁的任务。当网络设备损坏或过时需要更换以维持服务连续性时,这些替换设备可能来自不同的供应商,因此需要进行配置翻译以确保网络操作的无缝运行。然而,手动翻译配置既耗时又容易出错。在本文中,我们提出了一种基于意图的框架,利用大型语言模型(LLM)代理进行网络配置翻译。我们的方法核心是一个基于意图的检索增强生成(IRAG)模块,该模块系统地将配置文件拆分为片段,提取意图,并生成准确的翻译。我们还设计了一个两阶段验证方法来验证翻译配置的语法和语义正确性。我们在真实世界的网络配置上实现了并评估了所提出的方法。实验结果表明,我们的方法达到了97.74%的语法正确性,优于现有技术在翻译准确性方面的表现。 |
2025-01-14 | Addressing the sustainable AI trilemma: a case study on LLM agents and RAG | Hui Wu et.al. | 2501.08262 | null | 大型语言模型(LLMs)展示了显著的能力,但其广泛部署和更高级的应用引发了关键的可持续性挑战,特别是在推理能耗方面。我们提出了可持续人工智能三难概念,强调了人工智能能力、数字公平性和环境可持续性之间的紧张关系。通过系统地研究LLM代理和检索增强生成(RAG)的案例研究,我们分析了嵌入在内存模块设计中的能源成本,并引入了新的指标来量化能源消耗与系统性能之间的权衡。我们的实验结果揭示了当前内存增强框架中存在的重大能源效率低下的问题,并表明资源受限环境面临不成比例的效率惩罚。我们的发现挑战了以LLM为中心的设计范式,并为开发更可持续的人工智能系统提供了实用的见解。 |
2025-01-14 | Flow: A Modular Approach to Automated Agentic Workflow Generation | Boye Niu et.al. | 2501.07834 | null | 多智能体框架由大型语言模型(LLM)驱动,在自动化规划和任务执行方面已经取得了显著的成功。然而,有效调整代理工作流程在执行过程中的研究还不够充分。有效的流程调整至关重要,因为在许多现实场景中,初始计划必须实时适应不可预见的挑战和不断变化的条件,以确保复杂任务的高效执行。本文中,我们将工作流程定义为活动顶点(AOV)图。我们通过基于历史表现和先前AOV动态调整任务分配来持续优化工作流程。为了进一步提高系统性能,我们强调基于测量并行性和依赖复杂性的工作流程设计模块化。我们提出的多智能体框架实现了高效的子任务并发执行、目标达成和容错能力。在不同实际任务中的实证结果表明,通过动态更新工作流程和模块化,多智能体框架的效率得到了显著提升。 |
2025-01-13 | SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing | Varun Biyyala et.al. | 2501.07554 | link | 视频编辑模型近年来取得了显著进展,但评估其性能仍然具有挑战性。传统的度量标准,如CLIP文本和图像得分,往往不尽如人意:文本得分受限于训练数据的不足和层次依赖关系,而图像得分则无法评估时间一致性。我们提出了SST-EM(语义、空间和时间评价指标),这是一种新颖的评价框架,它利用现代视觉-语言模型(VLM)、目标检测和时间一致性检查。SST-EM包含四个组成部分:(1)使用VLM从帧中提取语义信息,(2)使用目标检测进行主要对象跟踪,(3)通过LLM代理进行关注对象的精炼,以及(4)使用视觉Transformer(ViT)进行时间一致性评估。这些组件被整合到一个统一的度量标准中,权重来自于人类评估和回归分析。SST-EM的名字反映了它在视频评估中对语义、空间和时间方面的关注。SST-EM提供了对视频编辑中语义保真度和时间平滑性的全面评估。源代码可在GitHub仓库https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git获取。 |
2025-01-13 | Lifelong Learning of Large Language Model based Agents: A Roadmap | Junhao Zheng et.al. | 2501.07278 | link | 终身学习,也称为持续或增量学习,是推进人工通用智能(AGI)的关键组成部分,通过使系统能够在动态环境中不断适应。尽管大型语言模型(LLM)在自然语言处理方面展示了令人印象深刻的能力,现有的基于LLM的代理通常设计用于静态系统,并且缺乏随着时间响应新挑战而进行适应的能力。本综述首次系统地总结了将终身学习纳入基于LLM的代理的潜在技术。我们将这些代理的核心组件分为三个模块:感知模块用于多模态输入集成,记忆模块用于存储和检索不断发展的知识,以及动作模块用于与动态环境进行基础交互。我们强调这些支柱如何共同实现连续适应,缓解灾难性遗忘,并提高长期性能。本综述为研究人员和从业人员提供了一张路线图,以开发基于LLM代理的终身学习能力,提供了对新兴趋势、评估指标和应用场景的见解。相关文献和资源可在 https://github.com/qianlima-lab/awesome-lifelong-llm-agent 获取。 |
2025-01-12 | AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds | Yinfang Chen et.al. | 2501.06706 | null | AI for IT Operations (AIOps)旨在自动化复杂的运维任务,如故障定位和根因分析,以减轻人力负担并减少客户影响。虽然传统的DevOps工具和AIOps算法通常专注于解决孤立的运维任务,但大型语言模型(LLM)和AI代理的最新进展正在通过实现端到端和多任务自动化来革新AIOps。本文展望了一个未来,在这个未来中,AI代理在整个事故生命周期中自主管理运维任务,从而实现自我修复的云系统,我们称这种范式为AgentOps。要实现这一愿景,需要一个全面的框架来指导这些代理的设计、开发和评估。为此,我们提出了AIOPSLAB框架,该框架不仅部署微服务云环境、注入故障、生成工作负载并导出遥测数据,还协调这些组件,并提供与代理交互和评估的接口。我们讨论了此类综合性框架的关键需求,并展示了AIOPSLAB如何促进下一代AIOps代理的评估。通过在AIOPSLAB创建的基准中对最先进的LLM代理进行评估,我们提供了有关其在处理云环境中复杂运维任务的能力和局限性的见解。 |
2025-01-12 | DVM: Towards Controllable LLM Agents in Social Deduction Games | Zheng Zhang et.al. | 2501.06695 | null | 大型语言模型(LLMs)在社交推理解谜游戏(SDGs)中的游戏代理能力方面取得了显著进展。这些游戏严重依赖于对话驱动的互动,并要求代理基于此类信息进行推理、决策和表达。尽管这一进步使得社交推理解谜游戏中非玩家角色(NPCs)更加复杂和具有策略性,但仍需要控制这些代理的能力。这种控制不仅确保了NPCs可以在游戏过程中适应不同的难度级别,还为LLM代理的安全性和公平性提供了见解。在本文中,我们提出了一种名为DVM的新框架,用于开发适用于社交推理解谜游戏的可控LLM代理,并在最受欢迎的社交推理解谜游戏之一“狼人杀”中展示了其实现。DVM包含三个主要组件:预测器、决策者和讨论者。通过结合强化学习与以胜率为基础的决策链奖励机制,我们使代理能够动态调整其游戏水平以达到指定的胜率目标。实验表明,DVM不仅在“狼人杀”游戏中优于现有方法,还能成功调节其性能水平以满足预定义的胜率目标。这些结果为LLM代理在社交推理解谜游戏中的自适应和平衡游戏玩法铺平了道路,开启了有关可控游戏代理研究的新领域。 |
2025-01-10 | OpenFOAMGPT: a RAG-Augmented LLM Agent for OpenFOAM-Based Computational Fluid Dynamics | Sandeep Pandey et.al. | 2501.06327 | null | 这项工作介绍了一个名为OpenFOAMGPT的大语言模型(LLM)代理,该代理专为以OpenFOAM为中心的计算流体动力学(CFD)模拟而设计,利用了来自OpenAI的两个基础模型:GPT-4o和一个具有思维链(CoT)功能的o1预览模型。这两个代理在多个任务中均表现出色。尽管o1模型的令牌价格是GPT-4o的六倍,但它在处理从零样本案例设置到边界条件修改、湍流模型调整和代码翻译等复杂任务时始终表现出优越的性能。通过迭代校正循环,该代理高效地解决了单相流和多相流、传热、RANS、LES及其他工程场景的问题,通常在有限的迭代次数内以较低的令牌成本收敛。为了嵌入特定领域的知识,我们采用了检索增强生成(RAG)管道,展示了如何利用现有的仿真设置进一步将代理专业化于能源和航空航天等子领域。尽管该代理表现优异,但人类监督对于确保准确性并适应不断变化的环境仍然至关重要。模型性能随时间波动表明,在关键任务应用中需要进行监控。虽然我们的演示集中在OpenFOAM上,但这种框架的可适应性为开发针对广泛求解器和代码的LLM驱动代理打开了大门。通过简化CFD仿真,这种方法有望加速基础研究和工业工程的进步。 |
2025-01-10 | Multi-Agent Collaboration Mechanisms: A Survey of LLMs | Khanh-Tung Tran et.al. | 2501.06322 | null | 随着大型语言模型(LLMs)的最新进展,具身人工智能在现实世界的应用变得引人注目,并朝着基于多个LLM的代理方向发展,这些代理能够感知、学习、推理和协作行动。这些基于LLM的多智能体系统(MASs)使一群智能代理能够在规模上协调并集体解决复杂任务,从孤立的模型转向以合作为中心的方法。本文提供了关于MASs协作方面的广泛调查,并介绍了一个可扩展的框架以指导未来的研究。我们的框架根据关键维度对协作机制进行分类:参与者(涉及的代理)、类型(如合作、竞争或coopetition)、结构(如点对点、集中式或分布式)、策略(如基于角色或基于模型)以及协调协议。通过回顾现有方法论,我们的研究结果为阐明和推进LLM-based MASs奠定了基础,使其朝着更智能、更协作的解决方案发展,以应对复杂的实际应用。此外,我们还调查了MASs在不同领域的各种应用,包括5G/6G网络、工业5.0、问答系统以及社会和文化环境,展示了它们的广泛应用及其更广泛的影响。最后,我们确定了MASs在人工集体智能方向上的关键经验教训、开放性挑战和潜在研究方向。 |
2025-01-09 | Emergence of human-like polarization among large language model agents | Jinghua Piao et.al. | 2501.05171 | null | 大型语言模型(LLMs)的快速发展使自主代理能够建立社会关系、进行沟通,并对政治问题形成共同或分歧的意见。然而,我们对它们的集体行为和潜在机制的理解仍然不完整,这给社会带来了意想不到的风险。在本文中,我们模拟了一个包含数千个大型语言模型代理的网络系统,发现通过LLM对话引导的社会互动导致了类似人类的两极分化。我们发现这些代理自发地建立了具有人类特性的社交网络,包括同质性聚类,同时也通过现实世界中观察到的回声室效应等机制形成了集体意见。人类与LLM代理之间的相似性——包括行为、机制和涌现现象——引发了关于它们放大社会两极分化的担忧,但同时也有可能作为有价值的测试平台来识别可能缓解两极分化及其后果的策略。 |
2025-01-09 | LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models | Zengqi Peng et.al. | 2501.05057 | null | 近期强化学习(RL)在自动驾驶领域的进展展示了其巨大的潜力。尽管前景广阔,但诸如人工设计奖励函数以及在复杂环境中样本效率低等问题仍然阻碍了安全有效的驾驶策略的发展。为了解决这些问题,我们介绍了LearningFlow,这是一种专为城市驾驶定制的创新自动化策略学习工作流程。该框架利用多个大型语言模型(LLM)代理在整个RL训练过程中进行协作。LearningFlow包括课程序列生成过程和奖励生成过程,这两个过程协同工作,通过生成定制化的训练课程和奖励函数来指导RL策略。特别的是,每个过程都有一个分析代理来评估训练进度并为生成代理提供关键见解。通过这些LLM代理的合作努力,LearningFlow能够在一系列复杂的驾驶任务中自动学习策略,并显著减少对人工奖励函数设计的依赖,同时提高样本效率。我们在高保真CARLA模拟器中进行了广泛的实验,并与其他现有方法进行了比较,以证明我们所提出方法的有效性。结果表明,LearningFlow在生成奖励和课程方面表现出色,并且在各种驾驶任务中实现了卓越的性能和稳健的泛化能力,同时也能够很好地适应不同的RL算法。 |
2025-01-08 | Agent Laboratory: Using LLM Agents as Research Assistants | Samuel Schmidgall et.al. | 2501.04227 | null | 历史上,科学研究是一个漫长且成本高昂的过程,从初步构想到最终成果需要投入大量时间和资源。为了加速科学研究,降低成本并提高研究质量,我们引入了Agent Laboratory(代理实验室),这是一种基于大型语言模型(LLM)的自主框架,能够完成整个研究过程。该框架接受人类提供的研究想法,并通过三个阶段——文献回顾、实验和报告撰写,生成包括代码仓库和研究报告在内的全面研究成果,同时允许用户在每个阶段提供反馈和指导。我们将Agent Laboratory与各种最先进的LLMs结合部署,并邀请多名研究人员通过参与调查、在研究过程中提供反馈以及评估最终论文来评估其质量。我们发现:(1) 由o1-preview驱动的Agent Laboratory生成的研究成果最佳;(2) 生成的机器学习代码能够达到现有方法中的最先进性能;(3) 人类的介入,在每个阶段提供反馈,显著提高了研究的整体质量;(4) Agent Laboratory显著减少了研究费用,相比之前的自主研究方法降低了84%。我们希望Agent Laboratory能够让研究人员将更多精力投入到创意构思而非低级别的编码和写作上,从而加速科学发现。 |
2025-01-02 | Toward Inclusive Educational AI: Auditing Frontier LLMs through a Multiplexity Lens | Abdullah Mushtaq et.al. | 2501.03259 | null | 随着像GPT-4和Llama 3这样的大型语言模型(LLM)在教育环境中的应用日益广泛,人们对这些技术中固有的文化偏见、权力失衡和伦理限制的担忧也在增加。尽管生成式人工智能工具旨在提升学习体验,但它们往往反映了根植于西方、受过教育、工业化、富裕且民主(WEIRD)文化范式的价值观,这可能使多元全球视角边缘化。本文提出了一种通过应用多重复性视角来评估和缓解LLM中文化偏见的框架。多重复性,受到Senturk等人启发,并扎根于伊斯兰及其他智慧传统,强调多种文化观点共存的重要性,支持一种将实证科学与规范价值相结合的多层次认识论。我们的分析揭示,LLM经常表现出文化极化,在明显回应和微妙的上下文线索中都显示出偏见。为了应对内在偏见并融入LLM中的多重复性,我们提出了两种策略:一种是基于上下文实现的多重复性LLM,它直接将多重复性原则嵌入系统提示中,在基础层面影响LLM的输出,并独立于个人提示;另一种是多代理系统(MAS)实现的多重复性LLM,其中多个LLM代理各自代表不同的文化视角,协作生成一个平衡且综合的响应。我们的研究结果表明,随着缓解策略从基于上下文提示发展到MAS实施,文化包容性显著提高,表现在视角分布得分(PDS)显著上升,以及PDS熵从基线的3.25%增加到MAS实施的多重复性LLM的98%。情感分析进一步显示,不同文化之间的正面情感倾向有所增加…… |
2025-01-10 | MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning | Pu Yang et.al. | 2501.01834 | null | 图像描述是计算机视觉和自然语言处理交叉领域中的关键任务,在各个领域都有广泛的应用。对于复杂的任务如诊断报告生成,深度学习模型不仅需要特定领域的图像-描述数据集,还需要结合相关通用知识以提供上下文准确性。现有的方法存在固有限制:专门化的模型擅长捕捉特定领域的细节但缺乏泛化能力,而基于大型语言模型(LLM)的视觉-语言模型(VLM)利用通用知识但在特定领域适应方面存在问题。为了解决这些限制,本文提出了一种新颖的增强型模型协作框架,我们称之为MoColl,旨在有效整合特定领域的知识和通用知识。具体来说,我们的方法是将复杂的图像描述任务分解为一系列相互关联的问题-答案子任务。采用可训练的视觉问答(VQA)模型作为专门工具,专注于特定领域的视觉分析,根据图像内容回答特定问题。同时,基于LLM的代理利用通用知识来制定这些问题,并将得到的问题-答案对综合成连贯的描述。除了在利用VQA模型方面的作用外,该代理还指导其自身的训练以增强其特定领域的功能。在放射学报告生成方面的实验结果验证了所提框架的有效性,展示了生成报告质量的显著提升。 |
2025-01-03 | SDPO: Segment-Level Direct Preference Optimization for Social Agents | Aobo Kong et.al. | 2501.01821 | link | 社交代理由大型语言模型(LLMs)驱动,能够模拟人类社会行为,但在处理复杂的目标导向社会对话方面表现不足。直接偏好优化(DPO)已被证明在多种代理任务中有效,能够使LLM的行为与人类偏好对齐。现有的基于DPO的多轮交互方法分为轮次级别和会话级别方法。轮次级别的方法过于细粒度,仅关注个别轮次,而会话级别的方法则过于粗略,通常引入训练噪声。为了解决这些局限性,我们提出了分段级直接偏好优化(SDPO),该方法专注于交互中的特定关键片段来优化多轮代理行为,同时最小化训练噪声。在SOTOPIA基准上的评估表明,SDPO调优的代理在所有现有基于DPO的方法和专有LLM如GPT-4o之上表现出色,突显了SDPO在提升LLM代理社会智能方面的潜力。我们的代码和数据可在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO获取。 |
2025-01-03 | AgentRefine: Enhancing Agent Generalization through Refinement Tuning | Dayuan Fu et.al. | 2501.01702 | null | 大型语言模型(LLM)代理已证明能够像人类一样执行复杂的任务。然而,现有的开源LLM与商业模型如GPT系列之间仍存在较大差距。本文专注于通过指令微调来提升LLM的代理泛化能力。我们首先观察到现有的代理训练语料库在保留评估集上表现良好,但在未见过的集合上却无法泛化。这些代理调优工作面临严重的格式错误,并且经常长时间陷入相同的错误中。我们分析认为,泛化能力差的原因在于过度拟合于几个手动代理环境以及缺乏对新情况的适应性。它们在行动步骤上出现问题,无法从经验中学习,只是机械地记忆现有的观察-行动关系。受此启发,我们提出了一个名为AgentRefine的新框架用于代理调优。其核心思想是使模型能够通过轨迹中的观察来纠正自己的错误。具体来说,我们提出了一种代理合成框架,以涵盖各种各样的环境和任务,并提示强大的LLM根据环境反馈来优化其错误行为。AgentRefine在多种代理任务上的泛化能力方面显著优于最先进的代理调优工作。它还具有更好的鲁棒性,面对扰动时能生成多样化的思考。我们的研究结果建立了代理泛化能力和自我优化之间的关联,并为未来的研究提供了一个新的范式。 |
2025-01-02 | BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery | Kanishk Gandhi et.al. | 2501.01540 | link | 理解世界并通过科学理论解释它是人工智能研究的核心目标。提出理论、设计实验来验证它们,并根据数据进行修正,是科学发现的基础。尽管基于大型语言模型(LLM)的科学代理具有巨大的潜力,但目前还没有基准系统地测试LLM提出科学模型、收集实验数据以及在新数据面前修订模型的能力。我们引入了BoxingGym,这是一个包含10个环境的基准,用于系统性评估实验设计(例如收集数据以检验科学理论)和模型发现(例如提出并修订科学理论)的能力。为了实现可处理且定量的评估,我们将每个环境实现为一个生成概率模型,科学代理可以通过该模型运行交互式实验。这些概率模型源自各种现实世界的科学领域,从心理学到生态学不等。为了定量评估科学代理收集信息量大的实验数据的能力,我们计算了预期信息增益(EIG),这是一种信息论量度,衡量实验如何减少对生成模型参数的不确定性。一个好的科学理论是一个简洁且有预测性的解释。因此,为了定量评估模型发现,我们要求科学代理解释其模型,然后评估这种解释是否能使另一个科学代理可靠地预测此环境。除了基于解释的评估外,我们还计算标准的模型评估指标,如预测误差。我们发现当前的LLM,如GPT-4,在实验设计和模型发现方面都存在困难。我们发现,用显式的统计模型增强LLM代理并不能可靠地改善这些结果。 |
2025-01-02 | Harnessing Multi-Agent LLMs for Complex Engineering Problem-Solving: A Framework for Senior Design Projects | Abdullah Mushtaq et.al. | 2501.01205 | null | 多智能体大型语言模型(LLMs)因其在复杂问题解决、决策制定和规划任务中利用集体智慧的能力而备受关注。这与“群体的智慧”概念相吻合,在该概念中,不同的代理共同作用以生成有效的解决方案,尤其适用于教育环境。高年级设计项目,也称为毕业设计或最终年份项目,在工程教育中至关重要,因为它们将理论知识与实际应用相结合,培养批判性思维、团队合作和现实世界的问题解决能力。在本文中,我们探讨了在支持工程学生进行的高年级设计项目中使用多智能体LLMs的可能性。这些项目通常涉及多学科考量和相互冲突的目标,如在优化技术性能的同时解决伦理、社会和环境问题。我们提出了一种框架,其中不同的LLM代理代表不同的专家视角,例如问题表述代理、系统复杂性代理、社会伦理代理或项目经理代理,从而促进全面的问题解决方法。这种实现利用了标准多智能体系统(MAS)概念,如协调、合作和谈判,并结合提示工程来为每个代理开发多样化的角色。这些代理通过丰富的协作对话进行互动,模拟人类工程团队的行为,并遵循来自集群人工智能的原则以有效平衡个体贡献向统一解决方案的转化。我们调整了这些技术以创建一个用于LLM代理的合作结构,鼓励跨学科推理和谈判,类似于真实的高年级设计项目。为了评估此框架的有效性,我们收集了六项工程和计算机科学领域的提案 |
2025-01-01 | Agentic Systems: A Guide to Transforming Industries with Vertical AI Agents | Fouad Bousetouane et.al. | 2501.00881 | null | 智能体系统的进化在人工智能和现代软件系统领域标志着一个重要里程碑,这是由于对专门针对不同行业的垂直智能的需求所驱动的。这些系统通过适应性、学习能力和与动态环境的互动来提升业务成果。这一变革的前沿是大型语言模型(LLM)智能体,它们作为这些智能系统的认知基础。为了满足一致性和可扩展性的需求,本文试图通过识别核心构建模块并提出一个认知技能模块来定义垂直AI智能体设计模式的标准化水平,该模块整合了专为特定领域构建的推理能力。基于这些基础概念,本文全面介绍了智能体系统,详细说明了其核心组件、操作模式和实施策略。此外,本文还探讨了各个行业中的实际用例和示例,突显了LLM智能体在推动行业特定应用方面的变革潜力。 |
2024-12-31 | Enabling New HDLs with Agents | Mark Zakharov et.al. | 2501.00642 | null | 大型语言模型(LLMs)基于代理正在通过促进初学者学习、实现代码生成以及优化文档工作流程来改变编程语言格局。硬件描述语言(HDLs)的用户社区较小,但从LLMs中获益良多,尤其是在学习新HDL方面。本文探讨了使LLMs适应HDLs的挑战和解决方案,特别是那些LLMs之前未受过训练的HDLs。本研究介绍了一种针对LLMs优化且对各种HDL了解有限的AI代理——HDLAgent。它显著提升了现成的LLMs。 |
2024-12-31 | Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding | Yue Fan et.al. | 2501.00358 | null | 本文研究了从第一人称视角观察中理解动态三维场景的问题,这是机器人和具身人工智能中的一个关键挑战。与之前的研究主要探索长视频理解并仅使用第一人称视频不同,我们提出了一种基于大型语言模型的代理Embodied VideoAgent,该代理通过结合第一人称视频和具身感知输入(例如深度和姿态感知)来构建场景记忆。我们进一步引入了一种基于视觉语言模型的方法,当感知到对物体的动作或活动时自动更新记忆。Embodied VideoAgent在三维场景中的复杂推理和规划任务中显著优于对比方法,分别在Ego4D-VQ3D上提高了4.9%,在OpenEQA上提高了5.8%,在EnvQA上提高了11.7%。我们还展示了它在各种具身人工智能任务中的潜力,包括为机器人操作生成具身交互和感知。代码和演示将会公开发布。 |
2024-12-31 | MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation | Chia-Yuan Chang et.al. | 2501.00332 | null | 大型语言模型(LLMs)已成为各种自然语言处理任务的重要工具,但它们经常产生过时或不正确的内容。检索增强生成(RAG)通过引入外部实时信息检索来解决这一问题,从而为LLM的回答提供依据。然而,现有的RAG系统常常难以应对检索文档的质量问题,因为不相关或噪声文档会降低性能,增加计算开销,并削弱响应的可靠性。为了解决这个问题,我们提出了多代理过滤检索增强生成(MAIN-RAG),这是一种无需训练的RAG框架,利用多个LLM代理协作过滤和评分检索到的文档。具体而言,MAIN-RAG引入了一种自适应过滤机制,根据得分分布动态调整相关性过滤阈值,有效减少了噪声同时保持了高召回率的相关文档。该方法利用代理之间的共识确保稳健的文档选择,而无需额外的训练数据或微调。在四个问答基准测试中的实验结果表明,MAIN-RAG相比传统RAG方法能持续提高答案准确性,准确率提高了2-11%,同时减少了不相关的检索文档数量。定量分析进一步显示,我们的方法在响应一致性和答案准确性方面优于基线方法,为基于训练的解决方案提供了一个具有竞争力且实用的替代方案。 |
2024-12-30 | AI Agent for Education: von Neumann Multi-Agent System Framework | Yuan-Hao Jiang et.al. | 2501.00083 | null | 大型语言模型的发展为教育带来了新的范式。本文聚焦于教育中的多智能体系统,并提出了冯·诺依曼多智能体系统框架。该框架将每个AI智能体分解为四个模块:控制单元、逻辑单元、存储单元和输入-输出设备,定义了四种类型的运算:任务分解、自我反思、记忆处理和工具调用。此外,本文介绍了与这四种运算相关的技术,如Chain-of-Thought(思维链)、Reson+Act(共鸣+行动)和多智能体辩论。文章还讨论了多智能体系统在教育中的能力增强循环,包括促进人类学习者知识构建的外循环和提升基于大语言模型的智能体群体智能的内循环。通过协作和反思,多智能体系统能够更好地促进人类学习者的学習,并在这个过程中提升其教学能力。 |
2024-12-30 | Aviary: training language agents on challenging scientific tasks | Siddharth Narayanan et.al. | 2412.21154 | null | 解决复杂的现实世界任务需要行动和观察的循环。这在科学领域尤为明显,其中的任务需要分析、工具使用和实验的多轮次。语言代理因其可以通过自然语言或代码与工具交互而有望自动化科学中的智力任务。然而,它们的灵活性给软件实现带来了概念性和实践性的挑战,因为代理可能包括非标准组件如内部推理、规划、工具使用以及温度采样的语言模型固有的随机性。在这里,我们介绍了Aviary,一个可扩展的用于语言代理的健身房。我们将代理形式化为解决语言导向的部分可观测马尔可夫决策过程的策略,我们将其称为语言决策过程。然后我们实现了五个环境,其中包括三个具有挑战性的科学环境:(1) 操纵DNA构建体进行分子克隆,(2) 通过访问科学文献回答研究问题,以及(3) 工程蛋白质稳定性。这些环境被选中是因为它们专注于多步推理并且与当代生物学研究相关。最后,通过在线训练和扩大推理时间的计算规模,我们展示了由开源而非前沿LLM支持的语言代理可以在多个任务上匹配并超过前沿LLM代理和人类专家的表现,并且成本降低高达100倍。 |
2024-12-30 | Exploring and Controlling Diversity in LLM-Agent Conversation | KuanChao Chu et.al. | 2412.21102 | null | 多样性是多智能体通信中的一个关键方面。在本文中,我们专注于开放领域多智能体对话背景下控制和探索多样性,特别是在世界模拟应用中的多样性。我们提出了一种新颖的方法——自适应提示修剪(APP),该方法通过单个参数λ动态调整生成话语的提示内容以控制多样性。通过广泛的实验,我们展示了APP能够有效地跨模型和数据集控制输出多样性,修剪更多的信息会导致更丰富的输出。我们全面分析了提示内容与会话多样性之间的关系。研究结果表明,来自提示所有组件的信息通常会限制输出的多样性,其中记忆块影响最大。APP与现有的技术如温度采样和top-p采样兼容,提供了一个多功能的工具来管理多样性。为了应对增加多样性的权衡问题,例如省略信息导致的一致性问题,我们引入了一个后生成校正步骤,这有效地平衡了多样性增强与输出一致性。此外,我们还研究了提示结构,包括组件顺序和长度对多样性的影响。本研究解决了围绕多智能体世界模拟中多样性的关键问题,提供了对其控制、影响因素及其相关权衡的见解。我们的贡献为系统地设计基于大型语言模型的多智能体协作中的多样性奠定了基础,推动了它们在实际应用中的有效性。 |
2024-12-30 | Plancraft: an evaluation dataset for planning with LLM agents | Gautier Dagan et.al. | 2412.21033 | link | 我们提出了Plancraft,一个多模态评估数据集用于大型语言模型(LLM)代理。Plancraft具有仅文本和多模态界面,基于Minecraft的合成GUI。我们包含了Minecraft Wiki以评估工具使用和检索增强生成(RAG),还包括一个oracle规划器和oracle RAG信息提取器,用以分析现代代理架构的不同组件。为了评估决策能力,Plancraft还包括了一组故意无法解决的例子,提供了一个现实的挑战,要求代理不仅能够完成任务,还需要判断任务是否可解。我们将开源和闭源的LLMs及策略在我们的任务上进行基准测试,并将其性能与手工制作的规划器进行比较。我们发现LLMs和VLMs在Plancraft引入的规划问题上存在困难,并提出了改进其能力的建议。 |
2024-12-29 | Planning, Living and Judging: A Multi-agent LLM-based Framework for Cyclical Urban Planning | Hang Ni et.al. | 2412.20505 | null | 城市再生在城市化的背景下面临着重大挑战,需要采取适应性方法来应对不断变化的需求。我们利用大型语言模型(LLM)的进展,提出了循环城市规划(CUP),这是一种新的范式,能够持续生成、评估和优化城市规划,并在一个闭环中进行。具体而言,我们的多代理LLM框架包括三个关键组成部分:(1)规划,其中LLM代理根据上下文数据生成和优化城市规划;(2)生活,其中代理模拟居民的行为和互动,模拟城市环境中的生活;(3)评判,涉及评估规划的有效性并提供迭代反馈以改进规划。这一循环过程使得规划方法具有动态性和响应性。实验证明了该框架作为持续和自适应规划过程的有效性。 |
2024-12-28 | FaGeL: Fabric LLMs Agent empowered Embodied Intelligence Evolution with Autonomous Human-Machine Collaboration | Jia Liu et.al. | 2412.20297 | null | 近期大型语言模型(LLMs)在推理能力方面的进展提升了具身代理的性能,推动了通往AGI驱动机器人技术的进步。尽管LLMs已在语义推理和任务泛化等任务上得到应用,其在开放物理空间探索中的潜力仍有待开发。本文介绍了一种名为FaGeL(Fabric Agent empowered by embodied intelligence with LLMs)的具身代理,它集成了智能织物技术,实现了无缝且非侵入式的人机交互。FaGeL利用来自可穿戴设备和环境传感器的多模态数据自主生成任务,并通过生成文本中的隐式人类反馈来优化其行为,无需显式的评分或偏好。我们还引入了一种基于标记级别的显著性映射,以可视化LLM的微调过程,增强对标记级别对齐的解释性。该系统利用双重反馈机制改进标记级别对齐,并解决了非侵入式人机交互和认知演化中的挑战。我们的贡献包括FaGeL的开发、DualCUT算法用于AI对齐,以及在合作任务中的实验验证,展示了FaGeL能够通过隐式反馈自主适应和演化的功能。未来,我们计划探索FaGeL在动态环境中的可扩展性及其与其他AI系统的集成,以开发能够无缝适应各种人类需求的AGI代理。 |
2024-12-28 | OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System | Yujie Luo et.al. | 2412.20005 | link | 我们介绍了OneKE,一个容器化的schema引导的知识提取系统,它可以从中提取知识网页和原始PDF书籍,并支持各种领域(科学、新闻等)。具体来说,我们设计了OneKE具有多个代理和配置知识库。不同的代理执行各自的角色,从而支持各种提取场景。配置的知识库促进了模式配置、错误案例的调试和纠正,进一步提高了性能。基准数据集上的实证评估证明了OneKE的有效性,而案例研究进一步阐明了它在多个领域的不同任务中的适应性,突显了其广泛应用的潜力。我们的代码已开源在https://github.com/zjunlp/OneKE,并发布了一个演示视频http://oneke.openkg.cn/demo.mp4。 |
2024-12-24 | Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent | Farhad Nooralahzadeh et.al. | 2412.18428 | link | 国际企业和组织、医院等收集大量多模态数据,这些数据存储在数据库、文本文档、图像和视频中。尽管在多模态数据分析领域以及自动将自然语言问题转换为数据库查询语言的系统方面已取得一些进展,但结合数据库系统查询与其他非结构化模态(如图像)的自然语言研究挑战仍未得到充分探索。在本文中,我们提出了XMODE——一个支持可解释多模态数据分析的自然语言系统。我们的方法基于以下研究贡献:(1) 我们的系统受到实际使用案例的启发,使用户能够探索多模态信息系统。(2) XMODE利用基于LLM的主动式AI框架将自然语言问题分解为子任务,如文本到SQL生成和图像分析。(3) 在关系数据和图像的多模态数据集上的实验结果表明,我们的系统优于现有的多模态数据分析系统,在准确性以及查询延迟、API成本、规划效率和解释质量等各种性能指标上均表现出色,这得益于LLMs推理能力更有效的利用。 |
2024-12-25 | Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents | Kaiwen Ning et.al. | 2412.18371 | link | 人工智能代理是能够感知其环境、自主规划和执行任务的系统。近期大型语言模型(LLM)的进步引入了一种变革性的范式,使人工智能代理能够通过提示与外部资源和工具进行交互。在这些代理的工作流程中,开发人员编写的代码与由LLM生成的自然语言相结合,前者负责框架构建和逻辑控制,后者则增强动态决策和交互能力。然而,开发者实现的逻辑与LLM生成内容的行为和预期结果之间的差异可能导致缺陷,例如工具调用失败和任务执行错误。这些问题会引发特定风险,导致LLM驱动的人工智能代理出现各种缺陷,如服务中断。尽管这些问题至关重要,但目前缺乏系统性工作专注于分析LLM驱动的人工智能代理以揭示其代码中的缺陷。在这篇论文中,我们提出了首个专注于识别和检测LLM代理缺陷的研究。我们从StackOverflow收集并分析了6,854篇相关帖子,定义了8类代理缺陷,并为每类缺陷提供了详细描述及示例。随后,我们设计了一款静态分析工具Agentable,利用代码属性图和LLM来分析代理工作流程,通过高效识别特定代码模式和分析自然语言描述来进行缺陷检测。为了评估Agentable的有效性,我们构建了两个数据集:AgentSet包含84个真实世界的代理,AgentTest则包含78个专门设计用于包含各种类型缺陷的代理。研究结果显示,Agentable的整体准确率为88.79%,召回率为91.03%。此外,我们的分析揭示了AgentSet中的889个缺陷,突显了这些缺陷的普遍性。 |
2024-12-24 | Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering | Zhongjian Hu et.al. | 2412.18351 | null | 大型语言模型(LLMs)在基于知识的视觉问答(VQA)中取得了显著成果。然而,现有方法仍然面临挑战:无法自主使用外部工具,以及无法团队协作。人类倾向于在遇到新问题时知道是否需要使用外部工具,例如,他们能够直接回答熟悉的问题,而在遇到不熟悉的问题时则倾向于使用搜索引擎等工具。此外,人类还倾向于与他人协作和讨论以获得更好的答案。受此启发,我们提出了多代理投票框架。我们设计了三种基于LLM的代理,模拟团队中的不同级别人员,并根据级别分配可用工具。每个代理提供相应的答案,最后所有代理提供的答案通过投票得到最终答案。在OK-VQA和A-OKVQA上的实验表明,我们的方法比其他基线方法分别高出2.2和1.0。 |
2024-12-24 | INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent | Haohang Li et.al. | 2412.18174 | null | 近期的进展突显了大型语言模型(LLM)在金融决策中的潜力。尽管如此,该领域目前面临两个主要挑战:(1)缺乏一个适用于多种金融任务的综合性LLM代理框架,以及(2)缺乏标准化基准和一致的数据集来评估代理性能。为了解决这些问题,我们介绍了\textsc{InvestorBench},这是首个专门用于评估LLM代理在不同金融决策背景下的表现的基准。InvestorBench通过提供一套全面的任务来增强LLM驱动代理的多功能性,这些任务适用于不同的金融产品,包括单个股票、加密货币和交易所交易基金(ETF)。此外,我们使用十三种不同的LLM作为基础模型,评估了我们的代理框架在各种市场环境和任务中的推理和决策能力。此外,我们还整理了一套开源的多模态数据集,并开发了一整套金融决策环境。这建立了一个高度可访问的平台,用于评估金融代理在各种场景下的表现。 |
2024-12-23 | Large Language Model Safety: A Holistic Survey | Dan Shi et.al. | 2412.17686 | link | 大型语言模型(LLMs)的快速发展和部署标志着人工智能领域的一个新前沿,这些模型在自然语言理解和生成方面展现出了前所未有的能力。然而,随着这些模型越来越多地被整合到关键应用中,随之而来的是重大的安全问题,需要对潜在风险进行彻底的审查并提出相应的缓解策略。本调查提供了关于LLM安全性的全面概述,涵盖了四个主要类别:价值错位、对抗性攻击的鲁棒性、误用以及自主AI风险。除了对这四个方面缓解方法和技术评估资源的综合回顾外,我们还探讨了与LLM安全相关的四个主题:LLM代理的安全影响、可解释性在增强LLM安全性中的作用、由一系列AI公司和研究所提出的并与之遵循的技术路线图,以及旨在实现LLM安全的AI治理,包括国际合作、政策建议和预期的监管方向。我们的研究结果强调了采取积极、多方面方法来确保LLM安全的必要性,强调了技术解决方案、伦理考量和稳健治理框架的融合。本调查旨在为学术研究人员、行业从业者和政策制定者提供一个基础资源,以洞悉与LLM安全集成相关的挑战和机遇。最终,它致力于促进LLM的安全和有益发展,与利用人工智能推动社会进步和福祉的总体目标保持一致。相关论文的精选列表已公开发布在https://github.com/tjunlp-lab/Awesome-LLM-Safety-Papers。 |
2024-12-23 | LegalAgentBench: Evaluating LLM Agents in Legal Domain | Haitao Li et.al. | 2412.17259 | link | 随着大型语言模型(LLM)代理的智能性和自主性的不断提高,它们在法律领域的潜在应用变得越来越明显。然而,现有的通用领域基准无法完全捕捉现实世界司法认知和决策的复杂性和细微差别。因此,我们提出了LegalAgentBench,这是一个专门设计用于评估中国法律领域中的LLM代理的综合基准。LegalAgentBench包括来自真实法律场景的17个语料库,并提供了37种与外部知识交互的工具。我们设计了一个可扩展的任务构建框架,并仔细标注了300项任务。这些任务涵盖了多种类型,包括多跳推理和写作,并且覆盖了不同难度级别,有效地反映了现实法律场景的复杂性。此外,除了评估最终的成功与否,LegalAgentBench还在中间过程中纳入了关键词分析来计算进度率,从而实现更精细的评估。我们评估了八种流行的LLM,突显了现有模型和方法的优势、局限性和潜在改进领域。LegalAgentBench为LLM在法律领域的实际应用设定了新的标准,其代码和数据可在https://github.com/CSHaitao/LegalAgentBench获取。 |
2024-12-22 | LLM Agent for Fire Dynamics Simulations | Leidong Xu et.al. | 2412.17146 | null | 显著的进展已经在利用基础模型,如大型语言模型(LLMs)来加速复杂的科学工作流程上取得。本文介绍了一种名为FoamPilot的概念验证LLM代理,旨在增强FireFOAM的可用性,FireFOAM是一种使用开源计算流体动力学工具箱OpenFOAM构建的专业火动力学和灭火模拟求解器。FoamPilot提供了三个核心功能:代码洞察、案例配置和仿真评估。代码洞察是一种替代传统关键词搜索的方法,采用检索增强生成(RAG),旨在使开发人员和有经验的用户能够高效地导航和总结FireFOAM源代码。对于案例配置,该代理以自然语言解释用户请求,并相应地修改现有的模拟设置,以支持中级用户。FoamPilot的任务执行功能旨在管理在高性能计算(HPC)环境中的模拟提交和执行,并提供模拟结果的初步分析,以支持经验较少的用户。每个功能都取得了有希望的结果,尤其是在简单的任务上,并且识别出了在更复杂任务上进行重大改进的机会。将这些功能整合到一个单一的LLM代理中是为了加速工程师和科学家在进行复杂的FireFOAM模拟时的工作流程,这对于提高消防安全至关重要。 |
2024-12-21 | The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents | Feiran Jia et.al. | 2412.16682 | null | 大型语言模型(LLM)代理作为能够通过工具集成执行复杂现实任务的对话助手正被越来越多地部署。这种增强的能力与外部系统的交互以及处理各种数据源虽然功能强大,但也引入了显著的安全漏洞。特别是嵌入在外部数据源中的恶意指令可以通过间接提示注入攻击操纵代理以偏离用户的意图。尽管基于规则约束、来源 spotlighting 和认证协议的现有防御措施显示出一定的前景,但它们难以在保持任务功能的同时维护强大的安全性。我们提出了一种新的正交视角,将代理安全从防止有害行为重新定义为确保任务一致性,要求代理的每个行动都服务于用户目标。基于这一见解,我们开发了Task Shield,这是一种测试时防御机制,系统性地验证每个指令和工具调用是否有助于用户指定的目标。通过在AgentDojo基准上的实验,我们证明Task Shield将攻击成功率降低到2.07%,同时保持了69.79%的任务效用,在GPT-4o上表现良好。 |
2024-12-19 | Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation and Execution in Complex Task Handling | Ziyi Ni et.al. | 2412.15305 | null | 解决复杂的推理任务是智能体的关键实际应用。得益于大型语言模型(LLMs)在代码数据上的预训练,最近的方法如CodeAct成功地使用代码作为LLMs的行动,取得了良好的效果。然而,CodeAct通过依赖片段化的思考来贪婪地生成下一个动作的代码块,这导致了不一致性和不稳定性。此外,CodeAct缺乏与行动相关的地面真值(GT),使其在多轮交互中的监督信号和终止条件受到质疑。为了解决这些问题,我们首先引入了一种简单而有效的端到端代码生成范式——CodeProgram,它利用代码的系统逻辑来与全局推理对齐,从而实现连贯的问题解决。然后,我们提出了基于代码可执行性质的Tree-of-Code(ToC),它可以自生长CodeProgram节点,并在无地面真值场景下实现自我监督。在两个数据集上使用十种流行的零样本LLMs进行的实验结果表明,ToC比CodeAct的准确率提高了近20%,且交互轮次不到其四分之一。一些LLMs在单轮CodeProgram上的表现甚至优于多轮CodeAct。为了进一步研究有效性和效率之间的权衡,我们测试了不同大小的ToC树和探索机制。我们还强调了ToC端到端数据生成在有监督和强化微调中的潜力。 |
2024-12-17 | Memory-Augmented Agent Training for Business Document Understanding | Jiale Liu et.al. | 2412.15274 | null | 传统企业在处理业务文档时面临重大挑战,例如从发票中提取运输参考信息等任务在物流操作中起着至关重要的作用,但目前仍主要依赖人工处理。尽管大型语言模型提供了潜在的自动化可能,但它们直接应用于专业业务领域往往效果不理想。我们介绍了一种名为Matrix(通过推理和迭代探索进行记忆增强代理训练)的新方法,该方法使大型语言模型代理能够通过经验驱动的记忆精炼和迭代学习逐步建立领域专业知识。为了验证这种方法,我们与全球最大的物流公司之一合作,创建了一个通用业务语言格式的发票文件数据集,重点研究了运输参考信息的提取任务。实验表明,Matrix的表现比单一的大型语言模型提示方式高出30.3%,比传统的大型语言模型代理方式高出35.2%。我们进一步分析了优化系统的指标,观察到代理系统需要较少的API调用、成本更低,并且可以平均处理更长的文档。我们的方法通过系统的记忆增强将通用大型语言模型转化为专门的商业工具,在文档处理任务中建立了新的途径。 |
2024-12-17 | On the Structural Memory of LLM Agents | Ruihong Zeng et.al. | 2412.15266 | link | 记忆在使基于大型语言模型(LLM)的代理能够进行复杂和长期的交互中起着关键作用,例如问答(QA)和对话系统。尽管已经提出了各种记忆模块用于这些任务,但不同记忆结构对任务的影响仍未充分探索。本文研究了记忆结构和记忆检索方法如何影响基于LLM的代理的表现。具体来说,我们评估了四种类型的记忆结构,包括片段、知识三元组、原子事实和摘要,以及混合记忆,它结合了这些组件。此外,我们评估了三种广泛使用的记忆检索方法:单步检索、重新排序和迭代检索。在四个任务和六个数据集上进行的广泛实验产生了以下关键见解:(1)不同的记忆结构提供了独特的优点,使它们能够针对特定任务进行调整;(2)混合记忆结构在嘈杂环境中表现出显著的韧性;(3)迭代检索在各种场景中始终优于其他方法。我们的研究旨在激发关于为LLM代理设计记忆系统的进一步研究。 |
2024-12-19 | On Verbalized Confidence Scores for LLMs | Daniel Yang et.al. | 2412.14737 | link | 大型语言模型(LLMs)的兴起及其与我们日常生活的紧密集成使得致力于提高其可信度变得至关重要。通过量化LLMs中的不确定性,可以建立人类对其响应的信任,同时也允许LLM代理基于彼此的不确定性做出更明智的决策。为了估计响应中的不确定性,通常使用内部令牌logits、任务特定的代理模型或多次采样多个响应。这项工作专注于让LLM本身以置信分数的形式口头表达其不确定性作为其输出标记的一部分,这是一种有前景的提示和模型不可知的不确定性量化方法,并且具有低开销。我们使用广泛的基准评估了口头置信分数的可靠性,涉及不同的数据集、模型和提示方法。我们的结果显示这些分数的可靠性在很大程度上取决于模型被询问的方式,但也有可能通过某些提示方法提取出校准良好的置信分数。我们认为口头置信分数可以成为未来一种简单但有效且多功能的不确定性量化方法。我们的代码可在https://github.com/danielyxyang/llm-verbalized-uq 获取。 |
2024-12-19 | Agent-SafetyBench: Evaluating the Safety of LLM Agents | Zhexin Zhang et.al. | 2412.14470 | link | 随着大型语言模型(LLM)作为代理的部署越来越多,它们在交互环境和工具使用中的集成引入了新的安全挑战,这些挑战超出了与模型本身相关的安全问题。然而,缺乏全面的基准来评估代理的安全性构成了有效评估和进一步改进的重大障碍。在本文中,我们介绍了Agent-SafetyBench,这是一个旨在评估LLM代理安全性的综合基准。Agent-SafetyBench涵盖了349个交互环境和2000个测试用例,评估了8类安全风险,并覆盖了在不安全交互中经常遇到的10种常见失效模式。我们对16个流行的LLM代理进行的评估揭示了一个令人担忧的结果:没有一个代理的安全得分超过60%。这突显了LLM代理在安全性方面的重大挑战,并强调了需要大幅改进。通过定量分析,我们确定了关键的失效模式,并总结了当前LLM代理中的两个基本安全检测问题:缺乏鲁棒性和缺乏风险意识。此外,我们的研究结果表明,仅依赖防御性提示不足以解决这些安全问题,强调了需要更先进和更稳健的策略。我们将Agent-SafetyBench发布在https://github.com/thu-coai/Agent-SafetyBench上,以促进进一步的研究和创新,推动代理安全评估和改进。 |
2024-12-18 | A Survey on Large Language Model-based Agents for Statistics and Data Science | Maojun Sun et.al. | 2412.14222 | null | 近年来,由大型语言模型(LLM)驱动的数据科学代理,被称为“数据代理”,在简化复杂数据任务和降低无相关专业知识的用户使用门槛方面展示了巨大的潜力,从而改变了传统的数据分析范式。本文综述了基于LLM的数据代理的发展、功能和应用,并探讨了它们在最小化人为干预的情况下解决以数据为中心的问题中的作用。我们探讨了当前基于LLM框架设计的趋势,详细介绍了规划、推理、反思、多代理协作、用户界面、知识集成和系统设计等关键特性,这些特性使代理能够处理复杂的任务。此外,我们分析了若干案例研究,以展示不同数据代理在实际场景中的应用。最后,我们指出了主要挑战并提出了未来的研究方向,以推动数据代理发展成为智能统计分析软件。 |
2024-12-18 | Tree-of-Code: A Hybrid Approach for Robust Complex Task Planning and Execution | Ziyi Ni et.al. | 2412.14212 | null | 大型语言模型(LLMs)的卓越能力极大地加速了代理的快速发展和广泛应用。最近的研究表明,生成Python代码以将基于LLMs的代理行为整合到统一的动作空间(CodeAct)中是开发实际应用中LLM代理的一种有前景的方法。然而,这种逐步生成代码的方法往往缺乏一致性和稳健性,导致代理应用程序在复杂推理和域外任务中的稳定性不足。在这篇论文中,我们提出了一种称为代码树(ToC)的新方法来解决通过端到端机制进行复杂问题规划和执行的挑战。通过结合思维树和CodeAct的关键思想,ToC融合了它们的优势以增强解决方案探索。在我们的框架中,每个最终代码执行结果被视为决策树中的一个节点,采用广度优先搜索策略来探索潜在解决方案。最终结果通过基于节点输出的投票机制确定。 |
2024-12-18 | TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks | Frank F. Xu et.al. | 2412.14161 | link | 我们日常生活中和工作中都在与计算机进行互动,而且许多工作都可以通过访问计算机和互联网来完成。与此同时,由于大型语言模型(LLM)的改进,与周围环境进行交互并影响其变化的人工智能代理也得到了快速发展。但是,这些人工智能代理在帮助加速甚至自主执行与工作相关任务方面的表现如何?这个问题的答案对于希望在其工作流程中采用人工智能的行业以及希望了解人工智能采用可能对劳动力市场产生的影响的经济政策制定者都具有重要意义。为了衡量这些LLM代理在执行现实世界专业任务方面的进展,我们在本文中介绍了TheAgentCompany,这是一个可扩展的基准测试,用于评估与数字工作者相似方式与世界互动的AI代理:通过浏览网络、编写代码、运行程序以及与其他同事沟通。我们构建了一个自包含的环境,其中包含内部网站和数据,模仿小型软件公司的环境,并创建了一系列可能由此类公司员工执行的任务。我们测试了基于封闭API和开放权重语言模型(LM)的基线代理,发现最优秀的代理能够自主完成24%的任务。这为我们提供了一幅关于使用LM代理进行任务自动化的复杂图景——在一个模拟真实工作场所的环境中,一些较简单的任务可以自主解决,但更复杂的长期任务仍然是当前系统难以企及的。 |
2024-12-18 | Exploring Multi-Modal Integration with Tool-Augmented LLM Agents for Precise Causal Discovery | ChengAo Shen et.al. | 2412.13667 | null | 因果推理是跨领域决策的重要基础,如智能健康、AI药物发现和AIOps。尽管传统的统计因果发现方法已经很成熟,但这些方法主要依赖于观察数据,并且经常忽略了因果关系中固有的语义线索。大型语言模型(LLMs)的出现提供了一种利用这些语义线索进行知识驱动因果发现的经济方式,但在因果发现领域的LLMs开发滞后,尤其是在探索多模态数据方面。为了弥合这一差距,我们引入了MATMCD,这是一种由工具增强型LLMs驱动的多代理系统。MATMCD有两个关键代理:一个数据增强代理负责检索和处理模态增强数据,一个因果约束代理负责整合多模态数据以进行知识驱动的推理。精心设计的内部机制确保了代理之间的成功协作。我们的实证研究涵盖了七个数据集,表明多模态增强因果发现的巨大潜力。 |
2024-12-18 | SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents | Sheng Yin et.al. | 2412.13178 | link | 随着大型语言模型(LLMs)的集成,具身代理在自然语言执行复杂指令方面表现出强大的能力,为具身机器人的潜在部署铺平了道路。然而,可以预见的是,这些具身代理也可以完美地执行一些危险任务,可能在现实世界中造成损害。为了研究这个问题,我们提出了SafeAgentBench——一个新的针对具身LLM代理的安全感知任务规划基准。SafeAgentBench包括:(1)一个包含750个任务的新数据集,涵盖了10种潜在危害和3种任务类型;(2)SafeAgentEnv,这是一个具有底层控制器的通用具身环境,支持多代理执行,并为8种最先进的基线提供了17种高级动作;以及(3)从执行和语义角度出发的可靠评估方法。实验结果表明,表现最好的基线对于安全任务的成功率为69%,但对于危险任务的拒绝率仅为5%,这表明存在显著的安全风险。更多详情和代码可在https://github.com/shengyin1224/SafeAgentBench获取。 |
2024-12-17 | RareAgents: Autonomous Multi-disciplinary Team for Rare Disease Diagnosis and Treatment | Xuanzhong Chen et.al. | 2412.12475 | null | 罕见疾病尽管单个疾病的发病率较低,但全球范围内影响的人数大约有3亿人,这是因为罕见疾病的种类繁多。这些疾病症状复杂且专业医生短缺,使得诊断和治疗比常见疾病更具挑战性。最近,由大型语言模型(LLM)驱动的代理在各个领域都显示出显著的进步。在医学领域,一些代理方法在从医学考试中进行问答的任务上已经超过了直接提示的方法。然而,当前的代理框架缺乏适应现实临床场景的能力,特别是那些涉及罕见疾病复杂需求的情况。为了解决这些挑战,我们提出了RareAgents,这是首个针对罕见疾病复杂临床环境的多学科LLM代理团队。RareAgents集成了先进的规划能力、记忆机制以及医疗工具的使用,其基础模型采用Llama-3.1-8B/70B。实验结果显示,RareAgents在罕见疾病的鉴别诊断和药物推荐方面超越了最先进的领域特定模型、GPT-4o以及现有的代理框架。此外,我们还贡献了一个新的数据集MIMIC-IV-Ext-Rare,该数据集基于MIMIC-IV,以支持该领域的进一步发展。 |
2024-12-16 | Codenames as a Benchmark for Large Language Models | Matthew Stephenson et.al. | 2412.11373 | null | 在本文中,我们提议将广受欢迎的基于词语的棋盘游戏“密码”作为评估大型语言模型(LLMs)推理能力的一个合适基准。密码游戏对实现成功的AI表现提出了高度有趣的挑战,需要具备复杂的语言理解、心理理论和认识论推理能力。此前开发密码游戏代理的努力主要依赖于词嵌入技术,这些技术词汇范围有限,并且在与其他方法结合时表现不佳。尽管LLMs在语言任务的理解和推理能力方面表现出色,但在横向思维挑战中仍可能遇到困难。我们评估了几种最先进的LLMs,包括GPT-4o、Gemini 1.5、Claude 3.5 Sonnet和Llama 3.1,在各种棋盘设置下的表现。我们的结果表明,虽然某些LLMs总体上表现优于其他模型,但不同的模型在游戏中表现出不同的新兴行为,并在特定角色中表现出色。我们还评估了不同组合的LLMs在合作游戏中的表现,证明LLM代理比先前的技术更能适应更广泛的队友组合。 |
2024-12-14 | Towards Action Hijacking of Large Language Model-based Agent | Yuyang Zhang et.al. | 2412.10807 | null | 在过去的几年中,由大型语言模型(LLM)驱动的智能代理在执行复杂任务方面取得了显著进展。这些基于LLM的代理接收查询作为任务,并通过内置的LLM分解成各种子任务,以指导外部实体(例如工具、AI代理)来回答用户的问题。凭借其出色的理解和解决问题的能力,它们被广泛应用于劳动密集型领域,包括医疗保健、金融、代码完成等。与此同时,也有关于这些代理可能被滥用的担忧,促使服务提供商内置了安全防护措施。为了规避内置指南,先前的研究提出了许多攻击方法,包括内存投毒、越狱和提示注入。这些研究往往由于代理采用的安全过滤器所限制的权限和查询中的有害语义而无法保持有效性。在本文中,我们介绍了\Name,一种新颖的劫持攻击,用于操纵黑盒代理系统的行动计划。\Name首先通过提示窃取从长期记忆中收集具有行动意识的记忆。然后,它利用代理的内部记忆检索机制提供错误的上下文。检索器与安全过滤器之间的巨大潜在空间差距使我们的方法能够轻松绕过检测。广泛的实验结果证明了我们方法的有效性(例如99.67%的攻击成功率)。此外,我们的方法对安全过滤器的平均绕过率为92.7%。 |
2024-12-13 | Cultural Evolution of Cooperation among LLM Agents | Aron Vallinder et.al. | 2412.10270 | null | 大型语言模型(LLMs)为构建具有广泛能力的人工智能代理提供了令人信服的基础。这些代理可能会在现实世界中大规模部署,代表个人(如人工智能助手)或群体(如人工智能加速的公司)的利益。目前,关于多个LLM代理在多代迭代部署中的动态知之甚少。在这篇论文中,我们研究了一组LLM代理是否能够在有诱因背叛的情况下学会互利的社会规范,这是人类社会性的一个显著特征,被认为是文明成功的关键因素之一。特别是,我们研究了间接互惠在LLM代理进行经典重复捐赠者游戏过程中跨代的发展,其中代理可以观察到其同伴的近期行为。我们发现不同基础模型的合作演化差异明显,克劳德3.5诗歌模型组成的社团平均得分显著高于杰米尼1.5闪存模型,而后者又优于GPT-4o。此外,克劳德3.5诗歌模型还可以利用额外的成本惩罚机制来实现更高的得分,而杰米尼1.5闪存和GPT-4o则无法做到这一点。对于每种模型类别,我们还观察到随机种子导致的涌现行为变化,这表明初始条件的敏感依赖性是一个有待研究的问题。我们建议,我们的评估体系可以激发一类新的廉价且信息丰富的LLM基准测试,重点关注LLM代理部署对社会合作基础设施的影响。 |
2024-12-13 | ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL | Yang Qin et.al. | 2412.10138 | link | 尽管文本到SQL(Text2SQL)领域因大型语言模型(LLMs)取得了显著进展,但最新的最先进方法仍然受限于闭源LLMs(如GPT-4)的上下文学习,这限制了它们在开放场景中的适用性。为了解决这一挑战,我们提出了一种新的鲁棒多任务调优与协作方法(ROUTE),以提高开源LLMs在Text2SQL方面的综合能力,从而提供一个更实用的解决方案。我们的方法从多任务有监督微调(SFT)开始,使用与SQL生成相关的各种合成训练数据。与现有的基于SFT的Text2SQL方法不同,我们引入了几个额外的SFT任务,包括模式链接、噪声校正和续写。参与多种SQL生成任务可以增强模型对SQL语法的理解,并提高其生成高质量SQL查询的能力。此外,受LLM代理协作模式的启发,我们引入了一种多任务协作提示策略(MCP)。该策略利用多个与SQL相关任务之间的协作来减少SQL生成过程中的幻觉,从而通过显式的多任务能力最大化提升Text2SQL性能。我们在八个开源LLMs和五个广泛使用的基准上进行了广泛的实验和深入分析。结果表明,我们的提案优于最新的Text2SQL方法,并取得了领先的表现。 |
2024-12-13 | You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects | Islem Bouzenia et.al. | 2412.10133 | null | 执行项目的测试套件在许多场景下都是至关重要的,例如评估代码质量和代码覆盖率、验证开发人员或自动化工具所做的代码更改以及确保与依赖项的兼容性。尽管如此,在实践中执行项目的测试套件可能具有挑战性,因为不同的项目使用不同的编程语言、软件生态系统、构建系统、测试框架和其他工具。这些挑战使得创建一个可靠且通用的测试执行方法变得困难,该方法可以跨不同项目工作。本文介绍了一种名为ExecutionAgent的自动化技术,它可以安装任意项目,配置它们以运行测试用例,并生成特定于项目的脚本来重现设置。受到人类开发者解决问题方式的启发,我们的方法是一种基于大型语言模型的代理,它能够自主执行命令并与主机系统进行交互。该代理使用元提示来收集关于给定项目最新技术的指南,并根据前一步骤的反馈迭代地完善其过程。我们的评估将ExecutionAgent应用于50个开源项目,这些项目使用了14种不同的编程语言和许多不同的构建和测试工具。该方法成功地执行了33/55个项目中的测试套件,同时与基准测试套件执行结果的偏差仅为7.5%。这些结果比之前可用的最佳技术提高了6.6倍。该方法的成本是合理的,平均每项目执行时间为74分钟,大型语言模型成本为0.16美元。我们预计ExecutionAgent将成为开发人员、自动化编程工具和研究人员的重要工具,他们需要跨大量项目执行测试。 |
2024-12-12 | Can Modern LLMs Act as Agent Cores in Radiology~Environments? | Qiaoyu Zheng et.al. | 2412.09529 | link | 大型语言模型(LLM)的进步为基于LLM的代理系统的发展铺平了道路,这些系统在各个领域提供了增强的准确性和可解释性。放射学,由于其复杂的分析需求,是这些代理应用的理想领域。本文旨在探讨构建具体放射学代理的前提问题,即“现代LLM能否作为放射学环境中的代理核心?”为此,我们介绍了RadABench,并有三个贡献:首先,我们提出了RadABench-Data,这是一个从广泛的分类生成的综合合成评估数据集,涵盖了6个解剖部位、5种成像模式、10类工具和11项放射学任务。其次,我们提出RadABench-EvalPlat,一个新的代理评估平台,具有提示驱动的工作流程和模拟各种放射学工具集的能力。第三,我们从五个视角使用多种指标评估了7个领先的LLM在我们基准上的表现。我们的研究结果表明,尽管当前的LLM在许多方面表现出强大的能力,但它们仍然不够先进,无法作为完全操作的放射学代理系统的核心代理核心。此外,我们确定了影响基于LLM的代理核心性能的关键因素,为临床医生提供了如何在现实世界的放射学实践中有效应用代理系统的见解。我们所有的代码和数据都已开源,详见https://github.com/MAGIC-AI4Med/RadABench。 |
2024-12-11 | ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes | Yuxi Wei et.al. | 2412.08685 | null | 生成交通参与者在街道场景中的逼真且交互式的动态对于街道场景模拟至关重要。然而,目前缺乏一种全面的方法来生成包括车辆和行人等多种类型参与者的逼真动态,并且这些参与者之间还存在不同类型的互动。在这篇论文中,我们介绍了ChatDyn,这是首个能够基于语言指令生成街道场景中交互式、可控且逼真的参与者动态的系统。为了通过复杂的语言实现精确控制,ChatDyn采用了一种多LLM代理角色扮演的方法,该方法利用自然语言输入来规划不同交通参与者的轨迹和行为。为了根据规划生成逼真的细节动态,ChatDyn设计了两种新的执行器:PedExecutor,这是一种统一的多任务执行器,能够在不同的任务规划下生成逼真的行人动态;以及VehExecutor,这是一种基于物理过渡的策略,用于生成物理上合理的车辆动态。广泛的实验表明,ChatDyn可以生成包含多个车辆和行人的逼真的驾驶场景动态,并在子任务上显著优于以前的方法。代码和模型将在https://vfishc.github.io/chatdyn 获取。 |
2024-12-11 | TapeAgents: a Holistic Framework for Agent Development and Optimization | Dzmitry Bahdanau et.al. | 2412.08445 | null | 我们介绍了TapeAgents,这是一种围绕着粒度化、结构化的会话日志带(log tape)构建的代理框架,该日志带也充当会话的可恢复状态。在TapeAgents中,我们利用日志带来促进LLM代理开发生命周期的所有阶段。代理通过处理日志带和大语言模型(LLM)的输出来生成新的想法和行动步骤,并将其附加到日志带中。环境则通过类似的方式将观察步骤附加到日志带中。由于这种以日志带为中心的设计,TapeAgents能够为AI从业者提供全面的端到端支持。在开发阶段,日志带促进了会话持久性、代理审核和逐步调试。部署后,可以重用日志带进行评估、微调和提示调优;关键的是,可以从其他代理中适应日志带或使用修订后的历史日志带。在本报告中,我们将详细解释TapeAgents的设计。我们通过几个具体示例展示了如何使用TapeAgents构建单体代理和多代理团队,优化代理提示以及微调代理的大语言模型。我们提供了工具原型,并报告了一个案例研究,在该研究中我们使用TapeAgents对一个Llama-3.1-8B表单填充助手进行了微调,使其性能与GPT-4相当,但成本却低了几个数量级。最后,我们的比较分析表明,TapeAgents相较于先前框架的优势源自于我们新颖地设计了可恢复、模块化的状态机,该状态机生成粒度化、结构化的日志,并能够将这些日志转换为训练文本——这是之前工作中所没有的独特组合功能。 |
2024-12-11 | Federated In-Context LLM Agent Learning | Panlong Wu et.al. | 2412.08054 | null | 大型语言模型(LLMs)通过实现逻辑推理、工具使用和与外部系统作为代理进行交互,彻底改变了智能服务。然而,LLM的进步常常受到高质量数据稀缺的阻碍,而这些数据大多具有内在敏感性。联邦学习(FL)提供了一个潜在解决方案,通过促进分布式LLM的协同训练,同时保护私有数据。然而,FL框架面临着显著的带宽和计算需求,并且存在来自异构数据分布的挑战。新兴的LLM上下文学习能力提供了一种有前景的方法,通过聚合自然语言而不是庞大的模型参数。然而,这种方法存在隐私泄露的风险,因为它需要在聚合过程中收集并展示来自不同客户端的数据样本。在本文中,我们提出了一种新颖的隐私保护联邦上下文学习LLM代理学习(FICAL)算法,据我们所知这是首次利用上下文学习的力量通过联邦学习训练各种LLM代理。在我们的设计中,由新型LLM增强的知识编纂生成(KCG)模块生成的知识编纂在客户端和服务器之间传输,而不是像以前的FL方法那样传输模型参数。除此之外,我们还设计了一个基于检索增强生成(RAG)的工具学习和使用(TLU)模块,并将聚合的全局知识编纂作为教师来教导LLM代理工具的使用。我们进行了广泛的实验,结果表明FICAL在与其他最先进的基线相比具有竞争力的同时,通信成本减少了 |
2024-12-11 | MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents | Yun Xing et.al. | 2412.08014 | null | 物理对抗性攻击在驾驶场景中可以揭示视觉感知模型的关键漏洞。然而,由于现实世界背景的多样性以及保持视觉自然性的要求,开发此类攻击仍然具有挑战性。基于这一挑战,我们将物理对抗性攻击重新定义为一次性补丁生成问题。我们的方法通过深度生成模型生成对抗性补丁,该模型考虑了特定场景上下文,从而实现在匹配环境中的直接物理部署。主要挑战在于同时实现两个目标:生成能够有效误导物体检测系统的对抗性补丁,并确定场景中上下文合适的放置位置。我们提出了MAGIC(Mastering Physical Adversarial Generation In Context),一种新颖的框架,由多模态LLM代理驱动以解决这些挑战。MAGIC通过语言和视觉能力的协同交互自动理解场景上下文并协调对抗性补丁的生成。MAGIC协调三个专门的LLM代理:adv-patch生成代理(GAgent)通过提示工程策略掌握欺骗性补丁的创建;adv-patch部署代理(DAgent)确保上下文一致性,基于场景理解确定最优放置策略;自我审查代理(EAgent)通过提供关键监督和迭代优化来完成这一系列工作。我们在数字和物理层面验证了我们的方法,即nuImage和手动捕捉的真实场景中,统计和视觉结果证明了我们的MAGIC对于攻击广泛使用的物体检测系统非常有效。 |
2024-12-10 | Agents for self-driving laboratories applied to quantum computing | Shuxiang Cao et.al. | 2412.07978 | null | 全自动化的自驾驶实验室有望通过减少重复劳动来实现高通量和大规模的科学发现。然而,有效的自动化需要深入整合实验室知识,这些知识通常是非结构化的、多模态的,并且难以融入现有的人工智能系统。本文介绍了一个名为k-代理框架,旨在支持实验者组织实验室知识并使用代理自动化实验。我们的框架采用基于大型语言模型的代理来封装实验室知识,包括可用的实验室操作以及分析实验结果的方法。为了自动化实验,我们引入了执行代理,它们将多步骤的实验程序分解成状态机,与其他代理交互以执行每个步骤并分析实验结果。分析后的结果随后被用来驱动状态转换,从而实现闭环反馈控制。为了展示其能力,我们将这些代理应用于校准和操作一个超导量子处理器,在数小时内自主规划并执行了实验,成功地生成并表征了在人类科学家水平上达到的纠缠量子态。我们的基于知识的代理系统为管理实验室知识和加速科学发现开辟了新的可能性。 |
2024-12-10 | MAGE: A Multi-Agent Engine for Automated RTL Code Generation | Yujie Zhao et.al. | 2412.07822 | link | 自动从自然语言指令生成RTL代码(如Verilog)在大型语言模型(LLMs)的发展中成为一个有前景的方向。然而,生成既符合语法又具备功能正确的RTL代码仍然是一项重大挑战。现有的单一LLM代理方法面临显著的限制,因为它们必须在多种编程语言之间导航,并处理复杂的生成、验证和修改任务。为了解决这些挑战,本文介绍了一个名为MAGE的开源多代理AI系统,该系统专为稳健且准确的Verilog RTL代码生成而设计。我们提出了一种新颖的高温度RTL候选采样和调试系统,能够有效地探索代码候选的空间,并显著提高候选代码的质量。此外,我们还设计了一种新颖的Verilog状态检查点检查机制,能够在早期检测到功能错误并提供精确反馈进行针对性修复,从而显著提升生成的RTL代码的功能正确性。MAGE在VerilogEval-Human 2基准测试中实现了95.7%的语法和功能正确代码生成率,比最先进的Claude-3.5-sonnet高出23.3%,展示了AI驱动的RTL设计工作流程中的稳健和可靠方法。 |
2024-12-11 | Searching for Structure: Investigating Emergent Communication with Large Language Models | Tom Kouwenhoven et.al. | 2412.07646 | null | 人类语言通过反复的语言学习和使用演化成有结构的形式。这些过程引入了在语言习得期间起作用的偏差,使语言系统趋向于提高交流效率。在这篇论文中,我们研究了是否大型语言模型(LLMs)的隐含偏差也会优化人工语言,并产生类似的效果。为此,我们模拟了一个经典的指称游戏,在这个游戏中,LLM代理学习并使用人工语言。我们的结果显示,最初无结构的整体语言确实被塑造成具有某些结构特性,使得两个LLM代理能够成功地进行交流。与人类实验中的观察结果相似,代际传递提高了语言的可学性,但也可能导致非人类特征的退化词汇。综合来看,这项工作扩展了实验发现,表明LLMs可以作为模拟语言演化的工具,并为该领域的未来人机实验开辟了可能性。 |
2024-12-06 | Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System | Fang Zeng et.al. | 2412.06828 | null | 本文介绍了一种名为“RadCouncil”的多代理大型语言模型(LLM)框架,旨在增强放射学报告中从发现部分生成印象的能力。RadCouncil由三个专门的代理组成:1)“检索”代理,负责识别并从向量数据库中检索相似的报告;2)“放射科医生”代理,基于给定报告的发现部分以及检索代理找到的示例报告生成印象;3)“审查者”代理,对生成的印象进行评估并提供反馈。该框架的性能通过定量指标(如BLEU、ROUGE、BERTScore)和定性标准进行了评估,并使用GPT-4对胸部X光作为案例研究进行了评估。实验结果显示,在多个维度上,包括诊断准确性、风格一致性以及清晰度方面,RadCouncil相比单一代理方法都有所提升。这项研究强调了利用每个代理都具有特定任务的多个交互式LLM代理来增强在专业医疗任务中的表现,并开发更强大和适应性强的医疗AI解决方案的潜力。 |
2024-12-09 | AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark | Lan Li et.al. | 2412.06724 | link | 我们研究了大型语言模型(LLMs)在自动生成数据清洗工作流方面的推理能力。为了评估LLMs完成数据清洗任务的能力,我们实现了一个基于LLM的自动化数据清洗工作流(AutoDCWorkflow)管道。该管道针对三种类型的数据质量问题:重复项、缺失值和不一致的数据格式,提示LLMs进行数据清洗操作。给定一个脏表和一个目的(以查询形式表达),此管道生成一个最小的清洁表以满足目的,并生成用于产生该表的数据清洗工作流。规划过程涉及三个主要的LLM驱动组件:(1)选择目标列:识别与目的相关的列集。(2)检查列质量:评估每个目标列的数据质量并生成数据质量报告作为操作目标。(3)生成操作及参数:根据数据质量报告结果预测下一个操作及其参数。此外,我们提出了一套数据清洗基准来评估LLM代理自动生成满足不同难度级别数据清洗目的的工作流的能力。该基准包括注释数据集,其中包含目的、原始表、清洁表、数据清洗工作流和答案集。在我们的实验中,我们评估了三种能够自动生成目的驱动的数据清洗工作流的LLMs。结果表明,LLMs在无需微调的情况下,在规划和生成数据清洗工作流方面表现良好。 |
2024-12-09 | Toward LLM-Agent-Based Modeling of Transportation Systems: A Conceptual Framework | Tianming Liu et.al. | 2412.06681 | null | 在交通系统需求建模和仿真中,基于代理的模型和微观仿真方法是当前最先进的方法。然而,现有的基于代理的模型在行为真实性和资源需求方面仍存在一些局限性,限制了它们的应用。在这项研究中,我们利用新兴的大语言模型(LLM)技术和基于LLM的代理,提出了一种用于交通系统的通用LLM代理建模框架。我们认为,LLM代理不仅具备作为代理的基本能力,还提供了克服现有基于代理的模型的一些局限性的有前景的解决方案。我们的概念框架设计紧密地复制了交通网络中人类旅行者在决策和互动过程中的特性和行为,我们通过相关研究和一个LLM代理在瓶颈场景中学习和调整的示范例子表明,所提出的系统可以满足决策和学习行为的关键行为标准。尽管LLM代理建模框架需要进一步完善,但我们认为这种方法有可能改进交通系统建模和仿真。 |
2024-12-09 | Simulating Human-like Daily Activities with Desire-driven Autonomy | Yiding Wang et.al. | 2412.06435 | null | 现有的以任务为导向的AI代理通常依赖于明确的指令或外部奖励,这限制了它们像人类一样由内在动机驱动的能力。在本文中,我们提出了一种基于欲望驱动的自主框架,用于引导基于大型语言模型(LLM)的代理模拟类似人类的日常活动。与之前的代理不同,我们的欲望驱动自主代理(D2A)遵循内在欲望的原则,使其能够自主地提出和选择满足其动机框架的任务。受到需求理论的启发,动机框架包含了对类似人类欲望的理解,如社交互动的需求、个人成就感的需求以及自我照顾的需求。通过使用基于欲望的任务生成机制,代理评估其当前状态并采取一系列与其内在动机一致的活动。通过模拟,我们展示了我们的欲望驱动自主代理(D2A)生成连贯且语境相关的日常活动,同时表现出类似于人类行为的多样性和适应性。与其他基于LLM的框架的比较分析表明,我们的方法显著提高了模拟活动的合理性。 |
2024-12-09 | StarWhisper Telescope: Agent-Based Observation Assistant System to Approach AI Astrophysicist | Cunshi Wang et.al. | 2412.06412 | null | 随着大型语言模型(LLM)的快速发展,基于LLM的代理引入了便捷且用户友好的方法来利用各个领域的工具。在天文观测领域,新望远镜的建设显著增加了天文学家的工作负担。部署基于LLM的代理可以有效减轻这一负担,并降低培训人员的成本。在涵盖三个观测站点八个望远镜的近邻星系超新星巡天(NGSS)项目中,该项目旨在寻找50mpc范围内的星系瞬变现象,我们开发了名为“StarWhisper望远镜系统”来管理整个观测过程。该系统自动化了生成观测列表、进行观测、分析数据和向观察者提供反馈等任务。观测列表根据不同站点和策略定制,以确保对天体的全面覆盖。经过人工验证后,这些列表通过系统中的代理上传到望远镜,代理会在收到中性语言指令时启动观测。观测图像实时分析,并将瞬变现象迅速传达给观察者。代理将其转换为实时跟进观测建议并发送至兴隆观测站群聊,然后将其添加到第二天的观测列表中。此外,系统内AI代理的集成提供了在线访问功能,节省了天文学家的时间,并鼓励业余天文学家更多地参与NGSS项目。 |
2024-12-09 | Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects | Louis Milliken et.al. | 2412.06294 | link | 近期许多研究提出了使用基于大语言模型(LLM)的代理来执行所谓的“仓库级”任务,这些任务的范围通常超过单个文件。这引发了人们的推测,认为这种仓库级任务的协调可以导致几乎不需要人工干预的软件工程代理。然而,我们认为在这一系列需要由自主软件工程代理执行的任务中,有一个重要任务被忽略了,即通过安装其他仓库来满足项目级别的依赖关系。为了探讨这一仓库级安装任务的可行性,我们引入了一个基准测试集,该测试集从40个开源Python项目中精选而来,并包含了每个目标仓库的实际安装过程作为真实情况。此外,我们提出了一种名为Installamatic的代理,其目标是通过搜索仓库中的文档以寻找相关安装说明来执行并验证仓库的安装。实证实验表明,我们的代理至少有10%的概率能够自动安装55%的研究仓库。通过进一步分析,我们识别了代理无法安装仓库的常见原因,讨论了设计和实现此类代理所面临的挑战,并考虑了这样的代理对开发者可能产生的影响。 |
2024-12-08 | Cooperative SQL Generation for Segmented Databases By Using Multi-functional LLM Agents | Zhiguang Wu et.al. | 2412.05850 | null | 文本到SQL的任务旨在根据用户的文本问题自动生成SQL查询。为了解决这个问题,我们提出了一种基于多功能代理的协作SQL生成框架(CSMA),该框架通过大型语言模型(LLM)代理之间的信息交互来实现。受到人类团队合作的启发,CSMA分为三个阶段:1)与问题相关的模式收集;2)与问题对应的SQL查询生成;3)SQL查询正确性检查。在第一阶段,代理分析各自的模式,并相互交流以收集与问题相关的信息。在第二阶段,代理利用收集到的信息尝试为问题生成相应的SQL查询。在第三阶段,代理根据已知信息检查SQL查询是否生成正确。这种基于交互的方法使每个代理所掌握的问题相关的数据库模式部分能够用于SQL生成和检查。在Spider和Bird基准上的实验表明,CSMA达到了与最先进方法相当的高水平性能,同时保持了这些独立代理中的私有数据。 |
2024-12-06 | Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models | Da Ju et.al. | 2412.05093 | null | 大型语言模型近年来被提议作为经典基于主体的模型(ABMs)的强大替代品,用于模拟社会动态。通过使用大型语言模型作为人类行为的代理,这种方法的希望在于能够模拟比传统ABM更为复杂的动态,并在社会科学、政治科学和经济学等领域获得新的见解。然而,由于大型语言模型的黑箱性质,目前尚不清楚这些模型是否真正执行了自然语言指令中编码的预期语义,以及由此产生的交互动态是否有意义。为了研究这个问题,我们提出了一种新的评估框架,该框架将大型语言模型的模拟与已建立的社会科学研究参考模型中的动态相结合。通过将大型语言模型视为一个黑盒函数,我们相对于这个参考模型评估其输入-输出行为,这使我们能够评估其行为的详细方面。我们的结果显示,虽然可以设计提示词来近似预期的动态,但这些模拟的质量对提示词的具体选择非常敏感。重要的是,模拟甚至对任意变化(如轻微措辞变化和空格)也非常敏感。这引发了对于当前版本的大型语言模型在有意义模拟中的效用的质疑,因为在没有参考模型的情况下,无法预先确定看似无意义的提示词变化对模拟的影响。 |
2024-12-05 | Practical Considerations for Agentic LLM Systems | Chris Sypherd et.al. | 2412.04093 | null | 随着大型语言模型(LLMs)近年来实力的增强,人们对将其作为自主代理基础模型的兴趣也在增加。尽管LLMs在自然语言领域展示了涌现能力和广泛的专业知识,但其固有的不可预测性使得实现LLM代理具有挑战性,从而导致相关研究与此类系统实际部署之间的差距。为了弥合这一差距,本文将研究社区中的可行见解和考虑因素置于已建立的应用程序范式背景下,以促进稳健LLM代理的构建和部署。具体而言,我们根据应用导向文献中的常见做法,将相关研究结果定位到四个广泛的类别——规划、记忆、工具和控制流,并强调在设计面向现实世界应用的代理型LLM时需要考虑的实际问题,例如处理随机性和高效管理资源等。虽然我们未进行实证评估,但我们提供了必要的背景知识,以便在学术界和工业界讨论代理型LLM设计的关键方面。 |
2024-12-05 | LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents | Bingchen Li et.al. | 2412.04090 | null | 我们提出了首个损失代理LossAgent,用于低级图像处理任务,如图像超分辨率和修复,旨在实现不同实际应用中的任何定制化优化目标。值得注意的是,并非所有优化目标(例如复杂的手工设计的感知度量、文本描述以及复杂的人类反馈)都可以通过现有的低级损失函数(如均方误差损失)来实现,这在端到端优化图像处理网络时构成了一个关键挑战。为了解决这个问题,我们的LossAgent引入了强大的大型语言模型(LLM)作为损失代理,在优化过程中赋予损失代理理解复杂优化目标、轨迹和外部环境状态反馈的能力。具体来说,我们通过整合支持低级图像处理端到端优化的现有损失函数建立了损失库。然后,我们设计了面向优化的提示工程,使损失代理能够主动且智能地决定每次优化交互中库中每个损失的组成权重,从而实现任何定制化优化目标所需的优化轨迹。在三个典型的低级图像处理任务和多种优化目标上的广泛实验表明,我们提出的LossAgent是有效且适用的。代码和预训练模型将在https://github.com/lbc12345/LossAgent 获取。 |
2024-12-05 | MISR: Measuring Instrumental Self-Reasoning in Frontier Models | Kai Fronsdal et.al. | 2412.03904 | link | 我们提出了一组任务来评估大型语言模型(LLM)代理的工具性自我推理能力。这种工具性自我推理能力可以提高适应性和实现自我修改,但也可能带来显著风险,如导致欺骗性对齐问题。先前的工作仅在非代理设置或有限领域内评估了自我推理。在这篇论文中,我们提出了针对在广泛场景中的代理任务的评估方法,包括自我修改、知识获取和不透明的自我推理。我们评估了使用最先进的LLMs构建的代理,包括商业系统和开源系统。我们发现,工具性自我推理能力仅在最强大的前沿模型中显现,并且高度依赖于上下文。没有模型通过我们评估中最困难的部分,因此我们的评估可以用于衡量未来模型在工具性自我推理能力方面的进步。我们将这些评估开源在https://github.com/kaifronsdal/Self-Reasoning-Evals。 |
2024-12-05 | Educational-Psychological Dialogue Robot Based on Multi-Agent Collaboration | Shiwen Ni et.al. | 2412.03847 | null | 智能对话系统在现代教育和心理辅导领域中的应用越来越广泛,但大多数现有的系统仅限于单一领域,无法同时处理教育和心理问题,并且在处理复杂问题时往往缺乏准确性和专业性。为了解决这些问题,本文提出了一种结合教育和心理辅导功能的智能对话系统。该系统由多个AI代理组成,包括安全检测代理、意图识别代理、教育大型语言模型代理和心理大型语言模型代理,这些代理协同工作,以确保提供准确的教育知识问答和心理支持服务。具体来说,系统通过意图分类模型识别用户输入的意图,并调用经过增强检索的教育大模型和使用心理数据微调的心理大模型,以提供专业的教育建议和心理支持。 |
2024-12-04 | From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents | Xinyi Mou et.al. | 2412.03563 | link | 传统的社会学研究通常依赖于人类的参与,尽管这种方法有效,但成本高昂、难以扩展,并且存在伦理问题。最近,大型语言模型(LLMs)的发展突显了它们模拟人类行为的潜力,使得个体反应的复制和跨多个跨学科研究成为可能。本文对这一领域进行了全面调查,展示了由LLM驱动的代理所推动的最新进展。我们将这些模拟分为三类:(1)个体模拟,模仿特定个人或人口群体;(2)场景模拟,在特定上下文中,多个代理协作以实现目标;(3)社会模拟,模拟代理社会中的互动,反映现实世界动态的复杂性和多样性。这些模拟从详细的个体建模到大规模的社会现象,呈现了一个渐进的过程。我们详细讨论了每种模拟类型,包括模拟的架构或关键组件、目标或场景分类以及评估方法。随后,我们总结了常用的基准数据集。最后,我们讨论了这三种模拟类型的趋势。相关资源库位于{\url{https://github.com/FudanDISC/SocialAgent}}。 |
2024-12-03 | Hacking CTFs with Plain Agents | Rustem Turtayev et.al. | 2412.02776 | link | 我们在高中的水平黑客基准测试中充分展示了基于大型语言模型(LLM)的简单代理设计的应用。具体来说,我们通过使用提示、工具使用和多次尝试,在流行的进攻性安全基准测试InterCode-CTF上达到了95%的性能。这一成绩超越了之前Phuong等人2024年的工作(29%)和Abramovich等人2024年的工作(72%)。我们的结果表明,当前的LLMs在进攻性网络安全方面已经超过了高中水平。它们的黑客能力仍未得到充分利用:我们的ReAct&Plan提示策略能够在1到2次交互内解决许多挑战,而无需复杂的工程或高级的利用技术。 |
2024-12-04 | DataLab: A Unified Platform for LLM-Powered Business Intelligence | Luoxuan Weng et.al. | 2412.02205 | null | 商业智能(BI)通过将现代组织中的大量数据转化为可操作的洞察,帮助进行明智的决策。最近,基于大型语言模型(LLM)的代理简化了BI工作流程,使任务规划、推理和在可执行环境中基于自然语言(NL)查询的动作自动化。然而,现有方法主要集中在个别BI任务上,如NL2SQL和NL2VIS。这些碎片化的任务分布在不同的数据角色和工具中,导致由于BI的迭代和协作性质而产生的低效率和潜在错误。在本文中,我们介绍了DataLab,这是一个统一的BI平台,它结合了一站式LLM代理框架和增强的计算笔记本界面。DataLab通过在一个环境中无缝结合LLM支持与用户定制,支持不同数据角色的各种BI任务。为了实现这种统一,我们设计了一个专门针对企业特定BI任务的领域知识整合模块,一个促进BI工作流程中信息共享的代理间通信机制,以及一种基于单元格的上下文管理策略,以提高BI笔记本中上下文利用的效率。广泛的实验表明,DataLab在各种流行研究基准上实现了最先进的性能。此外,DataLab在来自腾讯的真实世界数据集上保持了高效和高效果,在企业特定BI任务上的准确率提高了58.58%,令牌成本降低了61.65%。 |
2024-12-02 | HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing | Lajos Muzsai et.al. | 2412.01778 | link | 我们介绍了HackSynth,这是一种基于大型语言模型(LLM)的新型自主渗透测试代理。HackSynth采用双模块架构,包括规划器和总结器,使其能够迭代生成命令并处理反馈。为了评估HackSynth,我们提出了两个新的基于夺旗(CTF)的基准测试集,使用了流行的平台PicoCTF和OverTheWire。这些基准测试集包括两百个不同领域和难度的挑战,提供了一个标准化框架来评估基于LLM的渗透测试代理。根据这些基准测试,我们进行了广泛的实验,分析了HackSynth的核心参数,包括创造性(温度和top-p)以及令牌利用率。我们使用多个开源和专有LLM来衡量该代理的能力。实验表明,该代理在GPT-4o模型下表现最佳,优于GPT-4o系统卡所建议的效果。我们还讨论了HackSynth行动的安全性和可预测性。我们的研究结果表明,基于LLM的代理在推进自主渗透测试方面具有潜力,并强调了建立稳健保障措施的重要性。HackSynth及其基准测试集已公开供研究自主网络安全解决方案之用。 |
2024-12-02 | Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking | Jie Liu et.al. | 2412.01605 | null | 临床决策制定(CDM)是医疗保健交付中的一个复杂动态过程,但对于人工智能系统来说仍然是一个重大挑战。虽然基于大型语言模型(LLM)的代理在一般医学知识方面通过执照考试和知识问答任务进行了测试,但在现实世界场景中的临床决策制定表现有限,这主要是由于缺乏能够反映实际医疗实践的全面测试数据集。为了解决这一差距,我们介绍了MedChain,这是一个包含12,163个临床病例的数据集,涵盖了临床工作流程的五个关键阶段。MedChain通过三个关键特征——个性化、互动性和连续性,与现有基准区分开来。为了应对现实世界的临床决策制定挑战,我们还提出了MedChain-Agent,这是一种集成反馈机制和MCase-RAG模块的人工智能系统,可以学习之前的案例并调整其响应。MedChain-Agent在动态收集信息和处理连续临床任务方面表现出显著的适应性,明显优于现有方法。相关数据集和代码将在本文被接受后发布。 |
2024-12-02 | Can Large Language Models Serve as Evaluators for Code Summarization? | Yang Wu et.al. | 2412.01333 | link | 代码总结对于程序理解和软件维护至关重要,但评估生成的代码总结质量一直是一个挑战。尽管人工评估在评估代码总结质量方面非常有效,但它劳动密集且难以规模化。常用的自动指标如BLEU、ROUGE-L、METEOR和BERTScore通常与人类判断不完全一致。本文探讨了大型语言模型(LLMs)在评估代码总结中的潜力,提出了一种名为CODERPE(代码总结评估的角色扮演者)的新方法,该方法利用角色扮演提示来评估生成总结的质量。具体而言,我们让LLM代理扮演不同的角色,如代码审查员、代码作者、代码编辑器和系统分析师。每个角色从连贯性、一致性、流畅性和相关性等关键维度评估代码总结的质量。我们进一步通过多种提示策略,包括因果推理、情境学习和定制评分表设计,探索了LLMs作为评估者的稳健性。结果表明,LLMs可以有效地评估代码总结方法。特别是,我们的基于LLM的评估器CODERPE在与人类评估的相关性上达到了81.59%的Spearman相关系数,比现有的BERTScore指标高出17.27%。 |
2024-12-02 | RL2: Reinforce Large Language Model to Assist Safe Reinforcement Learning for Energy Management of Active Distribution Networks | Xu Yang et.al. | 2412.01303 | null | 随着大规模分布式能源资源被整合到主动配电网络(ADNs)中,与传统配电网络相比,有效的能源管理在ADNs中变得越来越突出。尽管先进的强化学习(RL)方法通过减轻复杂的建模和优化负担,极大地提高了ADNs中能源管理的效率,但安全性成为实际应用中RL的关键关注点。由于设计和调整惩罚函数(对应于操作安全约束)需要广泛的领域知识,因此新兴的ADN运营商需要一种更灵活和定制化的方法来处理惩罚函数,以进一步提高操作的安全性和效率。借助强大的理解、推理和上下文学习能力,大型语言模型(LLMs)提供了一种有前途的方式来辅助ADNs中的安全RL。在本文中,我们引入了LLM来理解ADNs中的操作安全要求并生成相应的惩罚函数。此外,我们提出了一个RL2机制,通过多轮对话迭代地和自适应地优化生成的函数,在这个过程中,LLM代理根据下游RL代理的训练和测试性能调整函数的模式和参数。所提出的方法显著减少了ADN运营商的干预。综合测试结果证明了该方法的有效性。 |
2024-12-02 | SAUP: Situation Awareness Uncertainty Propagation on LLM Agent | Qiwei Zhao et.al. | 2412.01033 | null | 大型语言模型(LLMs)集成到多步代理系统中能够实现各种应用中的复杂决策过程。然而,它们的输出往往缺乏可靠性,因此不确定性估计变得至关重要。现有的不确定性估计方法主要集中在最终步骤的输出上,这些方法未能考虑到在多步决策过程中累积的不确定性以及代理与其环境之间的动态交互。为了应对这些局限性,我们提出了一种名为SAUP(情境感知不确定性传播)的新框架,该框架通过LLM驱动的代理推理过程中的每一步来传播不确定性。SAUP通过在传播过程中为每个步骤的不确定性分配情境权重来整合情境感知能力。我们的方法兼容各种一步不确定性估计技术,提供了全面且准确的不确定性度量。在基准数据集上的广泛实验表明,SAUP显著优于现有的最先进方法,AUROC值提高了多达20%。 |
2024-11-28 | SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments | Yue Cao et.al. | 2412.00114 | null | 大型视觉-语言模型(LVLMs)在解释视觉内容方面展示了显著的能力。尽管现有工作表明这些模型对故意放置的对抗性文本存在脆弱性,但这些文本通常容易被识别为异常。本文提出了一种生成场景连贯的字体对抗攻击的方法,以误导先进的LVLMs,同时保持视觉自然性,通过使用基于大语言模型(LLM)的代理实现。我们的方法解决了三个关键问题:生成何种对抗性文本,将其置于场景中的何处,以及如何无缝整合。我们提出了一个无需训练、多模态LLM驱动的场景连贯字体对抗规划(SceneTAP),该方法采用三阶段过程:场景理解、对抗性规划和无缝整合。SceneTAP利用链式思维推理来理解场景,制定有效的对抗性文本,战略性地规划其位置,并提供详细的指令以在图像中自然整合。随后,我们使用一种场景连贯的TextDiffuser执行攻击,该方法采用局部扩散机制。我们将该方法扩展到现实场景中,通过打印并放置生成的补丁在物理环境中,展示了其实际应用价值。广泛的实验表明,我们提出的场景连贯的对抗性文本成功误导了最先进的LVLMs,包括ChatGPT-4o,即使在捕获新图像后也是如此。我们的评估显示,攻击成功率显著提高,同时保持了视觉自然性和上下文适宜性。这项工作揭示了当前视觉-语言模型对复杂、场景连贯的对抗性攻击的脆弱性,并提供了潜在防御机制的见解。 |
2024-11-29 | Training Agents with Weakly Supervised Feedback from Large Language Models | Dihong Gong et.al. | 2411.19547 | null | 大型语言模型(LLMs)为创建可以通过迭代环境交互来解决复杂任务的代理提供了有前景的基础。现有方法要么要求这些代理模仿专家提供的轨迹,要么依赖于确定性的环境反馈来进行强化学习,这限制了它们的应用场景,例如游戏或代码生成。本文介绍了一种新的基于弱监督信号从批评者LLM训练LLM代理的方法,从而绕过了对专家轨迹或确定性反馈的需求。我们的代理以迭代方式训练,首先通过环境交互生成轨迹。随后,一个批评者LLM选择一组好的轨迹,然后使用这些轨迹来更新代理,使其在下一次迭代中生成更好的轨迹。在API-bank数据集上的广泛测试表明,尽管使用的是参数少得多的开源模型,但我们的代理能力得到了持续提升,并且性能可与GPT-4相媲美。 |
2024-11-28 | Using a Feedback Loop for LLM-based Infrastructure as Code Generation | Mayur Amarnath Palavalli et.al. | 2411.19043 | link | 代码生成借助大语言模型(LLMs)已经帮助提高了软件开发人员在编码任务中的生产力,但在围绕代码的其他软件开发任务方面影响甚微。特别是基础设施管理仍然是一个悬而未决的问题。我们研究了使用LLM代理利用基础架构即代码(IaC)范式构建基础架构的能力。我们特别研究了使用反馈循环的方法,该循环返回生成的IaC的错误和警告,以允许LLM代理改进代码。我们发现,每次循环迭代后,其有效性呈指数下降,直到达到某个点并变得无效。 |
2024-12-02 | MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications | Vishnou Vinayagame et.al. | 2411.18915 | null | 数学推理能力随着工具增强的语言代理的使用而提升,但这些方法往往依赖于闭源或大型模型、外部数据或大量的提示工程。本文介绍了一种名为MATATA的新颖成本效益方法,用于通过推理、规划和工具使用来训练处理表格数据问题的大型语言模型(LLMs)。通过渐进自我改进范式和迭代弱监督机制,该方法特别适合本地托管和对数据隐私至关重要的敏感业务场景,使用的模型规模为38亿/80亿参数的小型语言模型(SLMs)。通过采用灵活且可重用的工具在不同数据集上,该方法实现了在共享任务中的稳健性能和有效扩展。实验表明,MATATA在基于开源模型的推理框架中,在FinQA和TAT-QA任务上达到了最先进的性能。此外,MATATA模型在TabMWP任务上的表现与基于GPT-4的框架相当,而MATATA本身是小型语言模型。 |
2024-11-28 | Wearable intelligent throat enables natural speech in stroke patients with dysarthria | Chenyu Tang et.al. | 2411.18266 | null | 可穿戴无声语音系统在恢复有言语障碍患者的交流能力方面具有巨大潜力。然而,流畅且连贯的语音仍然难以实现,临床疗效也尚未得到证实。本文介绍了一种由人工智能驱动的智能喉(IT)系统,该系统结合了喉咙肌肉振动和颈动脉脉冲信号传感器与大型语言模型(LLM)处理技术,以实现流畅且富有情感表达的交流。该系统利用超灵敏纺织品应变传感器捕捉颈部区域的高质量信号,并支持令牌级处理,实现实时、连续的语音解码,从而实现无缝、无延迟的通信。在五名患有构音障碍的中风患者测试中,IT系统的LLM代理智能地纠正了令牌错误并丰富了句子级别的感情和逻辑连贯性,实现了低错误率(4.2%的词错误率,2.9%的句错误率)以及用户满意度提高了55%。这项研究建立了一个便携式、直观的交流平台,适用于构音障碍患者,并有可能广泛应用于不同的神经性疾病及多语言支持系统。 |
2024-11-26 | MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation | Harsh Singh et.al. | 2411.17636 | null | 大型语言模型(LLMs)在各个领域,包括机器人操作和导航,展示了显著的规划能力。尽管最近在机器人技术中的努力已经利用了LLMs进行高层次和低层次的规划,但这些方法通常面临重大挑战,例如在长期任务中的幻觉问题以及由于一次性生成计划而缺乏适应性的问题。为了应对这些限制,我们提出了一种新颖的多代理LLM框架——多代理大型语言模型用于操作(MALMM),该框架将高层次规划和低层次控制代码生成分布在专门的LLM代理之间,并由一个额外的代理动态管理转换。通过在每一步之后纳入环境观察,我们的框架能够有效地处理中间失败并实现自适应重规划。与现有方法不同的是,我们的方法不依赖于预训练的技能策略或上下文学习示例,并且可以推广到各种新任务。我们在九个RLBench任务上评估了我们的方法,包括长期任务,并证明了它能够在零样本设置下解决机器人操作问题,从而克服了现有基于LLM的操作方法的关键限制。 |
2024-11-26 | LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble | Yujeong Lee et.al. | 2411.17135 | null | 利用大型语言模型(LLMs)来使具身代理变得流行,但在实践中也呈现出许多限制。在这项工作中,我们没有直接将LLMs作为代理使用,而是探索它们作为具身代理学习的工具。具体来说,为了通过离线强化学习(RL)训练单独的代理,LLM被用来在训练数据集中对单个动作提供密集的奖励反馈。为此,我们提出了一种一致性引导的奖励集成框架(CoREN),旨在解决将LLM生成的估计值与目标环境领域相结合的难题。该框架采用自适应集成的空间-时间一致奖励,以从训练数据集中推导出领域锚定的奖励,从而实现不同环境领域中有效离线学习具身代理。实验结果表明,在VirtualHome基准测试中,CoREN显著优于其他离线RL代理,并且其性能可与具有8B参数的最先进的LLM基代理相媲美,尽管CoREN的代理策略网络仅具有117M参数,并且仅在训练时使用LLMs。 |
2024-11-23 | Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction | Mitchell Rosser et.al. | 2411.16723 | null | 随着自然语言生成模型——即大规模语言模型(LLMs)的最新发展,出现了一种潜在的应用场景,即通过这些模型来改善人类与机器人助手之间的交互。这些模型应能够利用其广泛的理解能力,将自然语言命令转化为有效的、符合任务需求且安全的机器人任务执行。然而,在现实中,这些模型可能会产生幻觉,这可能导致安全问题或偏离任务。在其他领域,这些问题已经通过使用协作式AI系统得到改进,在这种系统中,多个LLM代理可以协同工作,共同规划、编码和自我检查输出。在这项研究中,测试了多个协作式AI系统与单一独立AI代理的表现,以确定其他领域的成功是否会在提高人机交互性能方面发挥作用。结果显示,并没有明确的趋势表明代理数量与模型成功率之间存在关联。然而,显而易见的是,某些协作式AI代理架构可以大大提升生成无误代码和解决抽象问题的能力。 |
2024-11-25 | Agent-Based Modelling Meets Generative AI in Social Network Simulations | Antonino Ferraro et.al. | 2411.16031 | null | 基于代理的建模(ABM)已成为模拟社交网络的重要工具,涵盖了信息传播、影响力动态和社区形成等多种现象。然而,手动配置多样的代理交互和信息流动态存在挑战,通常导致模型过于简化,缺乏现实世界的普适性。将现代大语言模型(LLM)与ABM结合提供了一种有前景的方法来解决这些挑战并增强模拟的真实性,利用LLM在感知、推理和行为方面的人类化能力。在本文中,我们提出了一种新颖的框架,利用LLM赋能的代理根据用户的兴趣和个性特征模拟社交网络用户。该框架允许自定义代理交互,类似于各种社交网络平台,包括内容重分享和个性化推荐机制。我们使用2020年美国大选期间的全面推特数据集验证了我们的框架,结果表明LLM代理能够准确再现真实用户的语言模式和政治倾向。这些代理形成了同质化的意识形态集群,并保留了其社区的主要主题。值得注意的是,基于偏好的推荐显著影响了代理行为,促进了更高的参与度、网络同质性和回音室的形成。总体而言,我们的研究结果强调了LLM代理在推进社交媒体模拟和揭示复杂的在线动态方面的潜力。 |
2024-11-24 | From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards | Ziyu Chen et.al. | 2411.15891 | null | 大型语言模型(LLMs)和强化学习(RL)是构建自主代理的两种强大方法。然而,由于对游戏环境的理解有限,代理常常依赖于低效的探索和试错,难以制定长期策略或做出决策。我们提出了一种从交互记录中提取经验以建模游戏环境底层规律的方法,利用这些经验作为内部动机来指导代理。这些经验以语言形式表达,非常灵活,既可以辅助代理直接推理,也可以转化为奖励来引导训练。我们的评估结果显示,在Crafter游戏中,无论是RL还是LLM代理都从这些经验中受益,从而提高了整体性能。 |
2024-11-23 | The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges | Jiqun Liu et.al. | 2411.15396 | null | 尽管在衡量和减轻人工智能(AI)和社会算法偏见方面取得了进展,但对于大规模语言模型(LLM)在自动化信息判断任务中的理性行为程度,以及它们是否也容易受到人类认知偏差的影响,仍不清楚。为了应对这一开放性问题,本研究通过众包用户实验和基于LLM的模拟实验,比较了在信息检索(IR)环境下,LLM和人类法官在潜在诱饵效应下的可信度评估,并实证检验了LLM在COVID-19医学(误)信息评估任务中的认知偏差程度与传统人类评估者相比的情况。结果显示,1)更大且较新的LLM在区分可信信息与虚假信息时表现出更高的一致性和准确性。然而,由于存在更突出的虚假信息诱饵结果,它们更容易对虚假信息给出更高的评分;2)虽然诱饵效应在人类和LLM的评估中都存在,但在不同条件和主题下的LLM判断中,该效应更为普遍。与通常认为的AI工具“理性”假设相反,本研究表明LLM代理嵌入了认知偏差风险,并评估了诱饵效应对LLM与人类可信度评估的影响,从而强调了去偏见AI代理和发展心理学驱动的AI审计技术和政策的重要性,以应对自动化判断任务及更广泛的应用。 |
2024-11-27 | XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models | Yixin Dong et.al. | 2411.15100 | null | LLM(大语言模型)代理的应用变得越来越复杂和多样化,导致对可以解析为代码、结构化函数调用和具身代理命令的结构化输出有很高的需求。这些发展带来了在LLM推理中进行结构化生成的重大需求。上下文无关文法是一种通过约束解码来实现结构化生成的灵活方法。然而,执行上下文无关文法需要在运行时遍历词汇表中的所有标记经过多个堆栈状态,这给结构化生成带来了不可忽视的开销。在这篇论文中,我们提出了XGrammar,这是一种针对大型语言模型的灵活且高效的结构化生成引擎。XGrammar通过将词汇表分为可以在预检查阶段处理的上下文无关标记和在运行时需要解释的上下文相关标记,从而加速上下文无关文法的执行。我们进一步构建转换以扩展语法上下文并减少上下文无关标记的数量。此外,我们构建了一个高效的持久堆栈以加速上下文相关标记的检查。最后,我们将语法引擎与LLM推理引擎协同设计,以使语法计算与GPU执行重叠。评估结果显示,XGrammar相比现有解决方案可以达到高达100倍的速度提升。结合LLM推理引擎,它能够在端到端低延迟LLM服务中实现近乎零开销的结构化生成。 |
2024-11-22 | ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data | Junhong Shen et.al. | 2411.15004 | link | 大型语言模型(LLM)代理正在迅速进步,以处理越来越复杂的网络任务。大多数这些代理依赖于像GPT-4这样的通用专有模型,并专注于设计更好的提示以提高其规划能力。然而,通用的LLM并没有专门针对理解特定的网络上下文如HTML进行训练,它们通常在长期规划方面存在困难。我们探索了一种替代方法,即使用来自超过250个领域的生产规模工作流数据(共计60亿个标记)对开源LLM进行微调。这一简单而有效的方法在现有的基准测试中显著优于基于提示的代理——ScribeAgent在Mind2Web上实现了最先进的直接生成性能,并在WebArena上将前最佳纯文本网络代理的任务成功率提高了14.1%。我们进一步对各种微调设计选择进行了详细的消融研究,并提供了有关LLM选择、训练配方、上下文窗口优化和数据集大小影响的见解。 |
2024-11-21 | Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning | Hang Zhou et.al. | 2411.14497 | link | 大型语言模型(LLMs)在下游任务中的有效性通常依赖于指令调优,而这又严重依赖于训练数据的质量。不幸的是,收集高质量且多样化的数据既昂贵又耗时。为了解决这个问题,我们提出了一种名为Star-Agents的新型框架,该框架通过多智能体协作和评估自动化地提升了跨数据集的数据质量。该框架采用三管齐下的策略。首先,它通过定制的采样方法利用多个LLM智能体生成多样化的指令数据。随后,生成的数据会经过严格的评估,使用双模型方法来评估难度和质量。最后,在动态优化阶段,更有效的LLM被优先考虑,从而提高整体数据质量。我们的实证研究,包括使用Pythia和LLaMA等模型进行指令调优实验,证明了所提议框架的有效性。优化后的数据集取得了显著改进,平均提高了12%,并在特定指标上也取得了显著提升,例如Fermi指标提高了40%,这在MT-bench、Vicuna bench和WizardLM测试集等基准测试中得到了验证。 |
2024-11-20 | Mediating Modes of Thought: LLM's for design scripting | Moritz Rietschel et.al. | 2411.14485 | null | 建筑师采用视觉脚本和参数化设计工具来探索更广阔的设计空间(Coates,2010年),精炼他们对设计几何逻辑的理解(Woodbury,2010年),并克服传统软件的局限性(Burry,2011年)。尽管已有二十年的努力使设计脚本更加易于使用,但设计师自由思考方式与算法的严格性之间仍存在脱节(Burry,2011年)。最近大型语言模型(LLM)的发展表明,这种情况可能会很快改变,因为LLM编码了人类语境的一般理解,并表现出生成几何逻辑的能力。本项目推测,如果LLM能够有效地在用户意图与算法之间进行调解,它们将成为一种强大的工具,使设计中的脚本编写更加普及且有趣。我们探讨了此类系统是否可以通过解释自然语言提示来组装与计算设计脚本相关的几何操作。在这个系统中,配置了多个具有特定上下文的LLM代理,以推断用户意图并构建顺序逻辑。给定用户的高层次文本提示,会创建一个几何描述,提炼成一系列逻辑操作,并映射到特定于软件的命令。最终脚本会在用户的可视化编程界面中构建。该系统成功生成了具有一定复杂度的完整可视化脚本,但在超出这一复杂度阈值时失败。这展示了LLM如何使设计脚本更贴近人类的创造力和思维。未来的研究应探索对话交互、扩展多模态输入和输出,并评估这些工具的性能。 |
2024-11-21 | Physics-Informed LLM-Agent for Automated Modulation Design in Power Electronics Systems | Junhua Liu et.al. | 2411.14214 | null | 基于大型语言模型(LLM)的自主代理在解决复杂的工业任务方面已经展示了出色的表现。然而,在追求碳中性和高性能可再生能源系统的过程中,现有的AI辅助设计自动化面临着在解释性、可扩展性和可用性方面的重大局限。为了解决这些挑战,我们提出了LP-COMDA,这是一种基于LLM、物理信息驱动的自主代理,它能够自动化电力电子系统中功率转换器的调制设计,并且只需要最少的人类监督。与传统的AI辅助方法不同,LP-COMDA包含一个基于LLM的规划器,该规划器通过用户友好的聊天界面收集和验证设计规范。然后,规划器协调物理信息驱动的设计和优化工具,迭代地自动生成并优化调制设计。通过聊天界面,LP-COMDA提供了可解释的设计过程,展示了解释和图表。实验表明,LP-COMDA在标准平均绝对误差方面比第二好的基准方法减少了63.2%的误差,优于所有基线方法。此外,对20位专家进行的实证研究表明,使用LP-COMDA的设计时间比传统方法快33倍以上,显示出其在设计效率上的显著提升。 |
2024-11-21 | Multi-LLM-Agent Systems: Techniques and Business Perspectives | Yingxuan Yang et.al. | 2411.14033 | null | 在多模态大型语言模型的时代,大多数操作过程可以通过LLM代理重新制定和再现。这些LLM代理可以感知、控制并从环境中获得反馈,从而以自主的方式完成给定任务。除了与环境交互的特性外,LLM代理还可以调用各种外部工具来简化任务完成过程。这些工具可以被视为具有私有或实时知识的预定义操作流程,这些知识不存在于LLM的参数中。作为发展的自然趋势,被调用的工具正逐渐成为自主代理,因此完整的智能系统变成了一个多LLM代理系统(MLAS)。本文讨论了MLAS的技术和商业前景。与之前的单个LLM代理系统相比,MLAS的优势在于:i)更高的任务解决性能潜力;ii)更高的系统变更灵活性;iii)每个参与实体的数据隐私保护;以及iv)每个实体的货币化可行性。为了支持MLAS的生态系统,我们提供了一个初步版本的MLAS协议,考虑了技术要求、数据隐私和业务激励。因此,MLAS将是实现未来人工智能集体智能的一种实用解决方案。 |
2024-11-21 | Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning | Song Jiang et.al. | 2411.13904 | null | 如何在未来利用基于大语言模型(LLM)的代理?尽管现有工作大多集中在提升特定任务族的性能上,本研究从一个不同的视角出发,探讨全面委托的概念:代理接管人类的日常决策过程,并被人类信任以找到满足个性化需求且适应不断变化环境的解决方案。为了实现这一目标,代理的行为,即自主行为,不仅应根据其成就(即结果评估)进行评价,还应根据其达成这些成就的方式(即过程评估)进行评价。为此,我们提出了APEC代理规范,这是一系列准则,代理应遵循以展示良好的自主行为,包括准确性、主动性、效率和可信度。为了验证APEC是否符合人类偏好,我们开发了APEC-Travel,这是一个旅游规划代理,它通过与旅行者的多轮对话主动提取隐藏的个性化需求。APEC-Travel完全由Llama3.1-405B-Instruct生成的合成数据构建而成,模拟了旅行者个性的丰富分布对话。经过迭代微调以遵循APEC代理规范,APEC-Travel在基于规则的指标上比基线高出20.7%,在LLM作为裁判的得分上高出9.1%。 |
2024-11-21 | Next-Generation Phishing: How LLM Agents Empower Cyber Attackers | Khalifa Afane et.al. | 2411.13874 | null | 日益增长的网络钓鱼邮件威胁变得越来越复杂,这与大型语言模型(LLM)的兴起密切相关。攻击者利用LLM来编写更具说服力和规避检测的网络钓鱼邮件,因此评估当前网络钓鱼防御系统的韧性变得至关重要。在这项研究中,我们对传统的网络钓鱼检测器(如Gmail垃圾邮件过滤器、Apache SpamAssassin和Proofpoint)以及机器学习模型(如SVM、逻辑回归和朴素贝叶斯)进行了全面评估,以识别传统网络钓鱼邮件和经过LLM重写的网络钓鱼邮件。我们还探讨了LLM作为网络钓鱼检测工具的新角色,这种方法已经被NTT安全控股公司和摩根大通等公司采用。我们的结果显示,所有检测器对重写邮件的检测准确性都有显著下降,这突显了当前网络钓鱼防御系统的关键弱点。随着威胁态势的发展,我们的研究结果强调了加强安全控制和对LLM生成内容的监管审查的重要性,以防止其被用于创建高级网络钓鱼攻击。本研究通过利用LLM生成多样化的网络钓鱼变体来进行数据增强,从而增强了网络钓鱼检测能力,并为开发更强大和适应性更强的威胁检测系统铺平了道路。 |
2024-11-21 | An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture | Boming Xia et.al. | 2411.13768 | null | 大型语言模型(LLMs)的出现使得开发能够自主实现未明确目标并持续进化的LLM代理成为可能,有时甚至无需更新代码或模型。传统方法如预定义测试用例和代码/模型重开发管道,在应对LLM代理开发的独特挑战时显得不足,特别是在质量和风险管理方面。本文介绍了一种基于评估驱动的设计方法,灵感来源于测试驱动开发,以解决这些挑战。通过多声音文献回顾(MLR),我们综合了现有的LLM评估方法,并提出了一种专门设计用于LLM代理的新过程模型和参考架构。所提出的方案整合了在线和离线评估,支持自适应运行时调整和系统的离线重开发,通过持续纳入评估结果(包括来自人类和AI评估者的细化反馈)来改进运行时管道、工件、系统架构和LLMs。 |
2024-11-20 | Metacognition for Unknown Situations and Environments (MUSE) | Rodolfo Valiente et.al. | 2411.13537 | null | 元认知——对自己认知过程的意识和调控——对于人类在未知情况下的适应性至关重要。相比之下,当前的自主代理在新环境中往往难以应对,因为它们的适应能力有限。我们假设元认知是自适应自主系统中的一个关键缺失因素,赋予它们处理陌生挑战所需的认知灵活性。鉴于元认知能力的广泛范围,我们重点关注两个关键方面:能力意识和针对新任务的战略选择。为此,我们提出了元认知未知情境与环境(MUSE)框架,该框架将元认知过程——特别是自我意识和自我调节——整合到自主代理中。我们提出了两种MUSE的初始实现方式:一种基于世界建模,另一种利用大型语言模型(LLMs),这两种方式都实现了元认知循环。我们的系统持续学习评估其在一个给定任务上的能力,并利用这种自我意识来指导策略选择的迭代周期。MUSE代理在自我意识和自我调节方面显示出显著改进,使它们能够更有效地解决新颖、分布外的任务,相比基于Dreamer-v3的强化学习和纯粹基于提示的LLM代理方法具有明显优势。这项工作突显了受认知和神经系统的启发方法在使自主系统适应新环境方面的潜力,克服了当前过度依赖大量训练数据的方法的局限性。 |
2024-11-19 | Human-In-the-Loop Software Development Agents | Wannita Takerngsaksiri et.al. | 2411.12924 | null | 最近,基于大型语言模型(LLM)的多代理范式被引入到软件工程中,以自动解决软件开发任务(例如从给定的问题到源代码)。然而,现有的工作主要基于历史基准数据集进行评估,没有考虑在自动化软件开发过程的每个阶段中的人类反馈,并且尚未在实际中部署。在本文中,我们介绍了一个名为HULA(人机协作LLM代理框架)的框架,用于软件开发,该框架允许软件工程师在生成给定任务的编码计划和源代码时对LLM进行细化和引导。我们设计、实现并已将HULA框架部署到Atlassian JIRA中进行内部使用。通过多阶段评估HULA框架,Atlassian的软件工程师认为HULA可以最小化整体开发时间和精力,特别是在启动编码计划和编写简单任务的代码方面。另一方面,提出了关于代码质量的一些挑战需要在未来的工作中解决。我们总结了经验教训并讨论了未来工作的机会,这将为LLM代理在软件开发中的发展铺平道路。 |
2024-11-19 | Probing the Capacity of Language Model Agents to Operationalize Disparate Experiential Context Despite Distraction | Sonny George et.al. | 2411.12828 | link | 大型语言模型(LLM)代理在越来越多的领域展现出潜力。在许多预期的应用场景中,预计代理需要根据输入提示中的累积经验进行推理。我们提出了OEDD(即使在干扰下也能运用经验)语料库,这是一个经过人工注释者验证的情景集合,其中包含预设的代理历史,代理必须在存在干扰信息的情况下基于不同的环境前提做出决策。我们使用最小化思维链提示策略评估了三种最先进的LLM(GPT-3.5 Turbo、GPT-4o和Gemini 1.5 Pro),并观察到当(1)输入上下文包含超过1615个历史交互令牌,(2)一个关键的决策性前提是在两个不同环境前提下的正确结论,并且(3)随后出现一个微不足道但具有干扰性的误导事实时,所有LLM在选择两个行动方案中较优的一个时表现得比随机选择更差。我们的代码和测试语料库公开可访问:https://github.com/sonnygeorge/OEDD 。 |
2024-11-19 | A More Advanced Group Polarization Measurement Approach Based on LLM-Based Agents and Graphs | Zixin Liu et.al. | 2411.12196 | null | 群体极化是社交媒体内容分析中的一个重要研究方向,吸引了许多研究人员探索这一领域。因此,如何有效地衡量群体极化已成为一个关键问题。在社交媒体上衡量群体极化存在一些挑战,这些挑战尚未被现有解决方案完全解决。首先,社交媒体群体极化的测量涉及处理大量文本,这对信息提取构成了重大挑战。其次,社交媒体上的文本通常难以理解,包括讽刺、表情包和网络俚语。此外,群体极化研究侧重于整体分析,而文本通常是碎片化的。为了解决这些挑战,我们设计了一个基于多智能体系统的解决方案,并使用了一种称为社区情感网络(Community Sentiment Network, CSN)的图结构来表示极化状态。此外,我们基于CSN开发了一种称为社区对立指数(Community Opposition Index, COI)的度量方法来量化极化程度。最后,我们通过零样本立场检测任务测试了我们的多智能体系统,并取得了出色的结果。总之,所提出的方法在可用性、准确性和可解释性方面具有显著价值。 |
2024-11-19 | Generative World Explorer | Taiming Lu et.al. | 2411.11844 | null | 在具身AI中,基于部分观测的规划是一个核心挑战。大多数先前的工作通过开发物理探索环境以更新其对世界状态的认知来解决这一挑战。相比之下,人类可以通过心理探索来想象世界未见的部分,并通过想象中的观察来修正其认知。这样的更新认知可以帮助他们做出更明智的决策,而无需总是进行物理探索。为了实现这种类似人类的能力,我们引入了“生成世界探索者(Genex)”,这是一个以自我为中心的世界探索框架,允许智能体在一个大规模的三维世界(如城市场景)中进行心理探索,并获取想象中的观测结果来更新其信念。这一更新后的信念将帮助智能体在当前步骤中做出更明智的决策。为了训练Genex,我们创建了一个合成的城市场景数据集Genex-DB。我们的实验结果表明:(1) Genex能够在大规模虚拟物理世界的长时域探索中生成高质量且一致的观测结果;(2) 使用这些生成的观测结果更新的信念可以指导现有的决策模型(例如LLM智能体)制定更好的计划。 |
2024-11-18 | LLM-IE: A Python Package for Generative Information Extraction with Large Language Models | Enshuo Hsu et.al. | 2411.11779 | null | 尽管最近采用了大型语言模型(LLMs)进行生物医学信息提取,但在提示工程和算法方面仍然存在挑战,并且没有专门的软件可用。为了解决这些问题,我们开发了LLM-IE:一个用于构建完整信息提取管道的Python包。我们的主要创新是一个交互式的LLM代理,用于支持模式定义和提示设计。 材料与方法:LLM-IE支持命名实体识别、实体属性提取和关系提取任务。我们在i2b2数据集上进行了基准测试并进行了系统评估。 结果:基于句子的提示算法在性能方面表现最佳,但需要更长的推理时间。系统评估提供了直观的可视化效果。 讨论:LLM-IE的设计基于医疗领域的实际NLP经验,并已在内部项目中采用。它对生物医学NLP社区应具有很高的价值。 结论:我们开发了一个名为LLM-IE的Python包,提供用于构建稳健的信息提取管道的构建模块。 |
2024-11-18 | OASIS: Open Agents Social Interaction Simulations on One Million Agents | Ziyi Yang et.al. | 2411.11581 | link | 近年来,人们对增强基于规则的智能体模型(ABMs)以研究社交媒体平台(如X和Reddit)的兴趣日益增长,从而实现对复杂系统进行更精细的研究。因此,在过去的一年里提出了几种基于大型语言模型(LLM)的ABMs。虽然这些模型很有前景,但每个模拟器都是专门为研究特定场景而设计的,这意味着使用相同的ABM探索其他现象既耗时又耗费资源。此外,这些模型只能模拟有限数量的智能体,而现实世界中的社交媒体平台涉及数百万用户。为此,我们提出了OASIS,这是一种通用且可扩展的社交媒体模拟器。OASIS基于真实世界的社交媒体平台设计,包括动态更新的环境(例如,动态社交网络和帖子信息)、多样化的动作空间(例如,关注、评论)以及推荐系统(例如,基于兴趣和热门评分)。此外,OASIS支持大规模用户模拟,能够建模多达一百万用户。凭借这些特性,OASIS可以轻松扩展到不同的社交媒体平台,以研究大规模群体现象和行为。我们复制了各种社会现象,包括信息传播、群体极化和羊群效应,这些现象发生在X和Reddit平台上。此外,我们在不同规模的智能体群体下提供了社会现象的观察结果。我们观察到,更大的智能体群体规模导致更强烈的群体动力和更多样化、更有帮助的智能体意见。这些发现展示了OASIS作为研究数字环境中复杂系统强大工具的潜力。 |
2024-11-16 | IntentGPT: Few-shot Intent Discovery with Large Language Models | Juan A. Rodriguez et.al. | 2411.10670 | null | 在当今数字化驱动的世界中,对话系统在提升用户交互方面发挥着关键作用,从客户服务到虚拟助手。在这些对话中,自动识别用户的目标对于及时解决他们的需求至关重要。这促使了意图检测模型的整合。然而,用户的意图是多样化和动态变化的,因此维持一组固定的预定义意图具有挑战性。因此,更实用的方法是开发一种能够随着新意图出现而识别它们的模型。我们关注的是意图发现这一领域,该领域在近期的研究工作中受到了广泛关注。现有的方法需要大量的数据训练以正确识别新的意图,这需要大量的人力投入。为了解决这个问题,我们提出了IntentGPT,这是一种新颖的无需训练的方法,能够有效地提示大型语言模型(如GPT-4)在少量标记数据的情况下发现新的意图。IntentGPT包括一个“上下文提示生成器”,用于生成上下文学习的信息性提示,一个“意图预测器”用于从语句中分类和发现用户意图,以及一个“语义少样本采样器”,用于选择相关的少样本示例和一组已知意图,并将其注入提示中。我们的实验表明,IntentGPT在包括CLINC和BANKING在内的流行基准测试中优于那些需要大量特定领域数据和微调的先前方法。 |
2024-11-15 | Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash | Parsa Hejabi et.al. | 2411.10422 | link | 大型语言模型(LLMs)在复杂任务和交互环境中展示了令人印象深刻的性能,但其创造力仍需进一步探索。本文介绍了一个利用游戏Balderdash的仿真框架,以评估LLMs的创造力和逻辑推理能力。在Balderdash游戏中,玩家需要为生僻词汇编造虚构定义,以欺骗其他玩家,同时识别正确定义。我们的框架使多个LLM代理能够参与这个游戏,评估它们生成可信定义的能力以及基于游戏规则和历史进行策略规划的能力。我们实现了一个集中式游戏引擎,其中包含多种LLM作为参与者,还有一个判断LLM来评估语义等效性。通过一系列实验,我们分析了不同LLM的表现,考察了诸如真实定义比率、欺骗比率和正确猜测比率等指标。结果提供了关于LLMs创造性和欺骗能力的见解,突显了它们的优势和改进空间。研究特别指出,输入中生僻词汇的频率低会导致对游戏规则和历史背景推理不足(https://github.com/ParsaHejabi/Simulation-Framework-for-Multi-Agent-Balderdash)。 |
2024-11-15 | An Empirical Study on LLM-based Agents for Automated Bug Fixing | Xiangxin Meng et.al. | 2411.10213 | null | 大型语言模型(LLMs)和基于LLM的Agent在自动修复bug方面已经显示出一定的能力,通过与开发环境的交互、迭代验证和代码修改来解决软件缺陷。然而,对这些Agent系统和非Agent系统的系统性分析仍然有限,特别是对于顶级表现系统之间的性能差异研究较少。在这篇论文中,我们在SWE-bench Lite基准上测试了七个专有和开源系统,以评估它们在自动修复bug方面的表现。我们首先评估每个系统的总体性能,记录所有或没有系统能够解决的实例,并探讨为什么某些实例只能被特定类型的系统解决。我们还比较了文件级和行级的故障定位准确性,并评估了bug重现的能力,识别出只有通过动态重现才能解决的实例。通过分析,我们得出结论,需要进一步优化LLM本身以及Agent流程设计,以提高Agent在修复bug方面的有效性。 |
2024-11-15 | Agentic LLMs in the Supply Chain: Towards Autonomous Multi-Agent Consensus-Seeking | Valeria Jannelli et.al. | 2411.10184 | null | 本文探讨了大型语言模型(LLMs)如何在供应链管理(SCM)中实现共识寻求的自动化。在供应链管理中,频繁的决策问题如库存水平和交货时间需要公司之间的协调。传统的供应链管理依赖于人类共识来做出决策,以避免诸如牛鞭效应等突发问题。一些常规的共识过程,尤其是那些耗时且成本较高的过程,可以实现自动化。然而,现有的自动化协调解决方案由于高准入门槛、有限的能力以及在复杂场景中的适应性限制而面临挑战,这将小型和中型企业排除在外。然而,生成式人工智能,特别是LLMs的最新进展显示出了克服这些障碍的潜力。通过在大规模数据集上的训练,LLMs能够进行谈判、推理和规划,从而以较低的准入门槛实现接近人类水平的共识。在这项工作中,我们识别出现有方法的关键局限性,并提出自主LLM代理来解决这些差距。我们引入了一系列针对LLM代理定制的新型供应链特定共识寻求框架,并通过库存管理的案例研究验证了我们方法的有效性。为了加速供应链社区内的进步,我们将代码开源,为LLM驱动的自主供应链解决方案的进一步发展提供基础。 |
2024-11-14 | Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents | Yuyou Gan et.al. | 2411.09523 | null | 随着大型语言模型(LLMs)的不断发展,基于变压器的模型在众多自然语言处理(NLP)任务中取得了突破性的进展,从而催生了一系列使用LLM作为控制核心的代理。尽管LLMs在各种任务中取得了成功,但它们面临着诸多安全和隐私威胁,这些威胁在代理场景中变得更加严重。为了增强基于LLM的应用程序的可靠性,一系列研究从不同角度评估和缓解了这些风险。本文旨在帮助研究人员全面了解各种风险,收集并分析了这些代理面临的不同威胁。为了应对前人分类框架在处理跨模块和跨阶段威胁方面的挑战,我们提出了一种基于威胁来源和影响的新分类框架。此外,我们基于六个关键特征总结了当前的研究进展,并分析了其局限性。随后,我们选择了四个代表性代理作为案例研究,分析了它们在实际应用中可能遇到的风险。最后,基于上述分析,我们从数据、方法论和政策三个角度提出了未来的研究方向。 |
2024-11-18 | Towards Evaluating Large Language Models for Graph Query Generation | Siraj Munir et.al. | 2411.08449 | null | 大型语言模型(LLMs)正在革新生成式人工智能(GenAI)领域,各种基于LLM的创新解决方案层出不穷。然而,当应用于数据库技术,特别是在图数据库和知识图谱(KGs)的查询生成方面时,LLMs仍面临重大挑战。尽管有关于LLM驱动的SQL查询生成的研究已经存在,但针对图数据库的类似系统仍然较少。本文通过一项对比研究,探讨了使用开放访问的LLM生成Cypher查询(一种强大的图数据库交互语言)所面临的挑战。我们严格评估了几种LLM代理(包括OpenAI ChatGPT 4.0、Claude Sonnet 3.5、Google Gemini Pro 1.5以及本地部署的Llama 3.1 8B),采用设计的少量学习提示和基于检索增强生成(RAG)及链式思维(CoT)推理的方法。我们的实证分析表明,在此特定领域中,Claude Sonnet 3.5在查询生成准确性方面优于其竞争对手。此外,我们还指出了未来研究的方向,以解决现有局限并推进LLM驱动的图数据库查询生成技术的发展。 |
2024-11-13 | Collaborative Participatory Research with LLM Agents in South Asia: An Empirically-Grounded Methodological Initiative and Agenda from Field Evidence in Sri Lanka | Xinjie Zhao et.al. | 2411.08294 | null | 人工智能在发展研究方法中的整合为解决参与式研究中长期存在的挑战提供了前所未有的机遇,特别是在像南亚这样语言多样的地区。本文基于斯里兰卡僧伽罗语社区的实证实施,提出了一种以经验为基础的方法论框架,旨在革新参与式发展研究,该框架位于斯里兰卡洪水频发的尼尔瓦拉河盆地这一具有挑战性的多语言环境中。超越传统的翻译和数据收集工具,该框架采用多智能体系统架构,重新定义了在语言和文化多样化的研究环境中如何进行数据收集、分析和社区参与。这种结构化的基于代理的方法使参与式研究既可扩展又具响应性,确保社区视角在研究结果中保持核心地位。实地经验揭示了基于大型语言模型(LLM)的系统在资源有限的地区解决发展研究中长期存在的问题的巨大潜力,提供量化的效率提升和定性的包容性改进。从更广泛的方法论角度来看,本研究议程倡导使用AI驱动的参与式研究工具,这些工具需保持伦理考虑、文化尊重和操作效率,强调部署AI系统以增强社区自主权和公平的知识生成的战略路径,可能为全球南方更广泛的研究议程提供参考。 |
2024-11-11 | Tooling or Not Tooling? The Impact of Tools on Language Agents for Chemistry Problem Solving | Botao Yu et.al. | 2411.07228 | null | 为了增强大型语言模型(LLMs)在化学问题解决中的能力,已经提出了几种配备了工具的LLM基代理,如ChemCrow和Coscientist。然而,它们的评估范围狭窄,对于理解工具在各种化学任务中的益处存在很大差距。为此,我们开发了ChemAgent,这是一种基于ChemCrow的增强型化学代理,并对其在专门化学任务和普通化学问题上的性能进行了全面评估。令人惊讶的是,ChemAgent并不总是在没有工具的情况下提高其基础LLM的表现。通过与化学专家进行错误分析,我们发现:对于专门的化学任务,如合成预测,我们应该为代理配备专门的工具;然而,对于像考试中的普通化学问题,代理正确运用化学知识的能力更为重要,工具的增加并不总是有帮助。 |
2024-11-10 | Hermes: A Large Language Model Framework on the Journey to Autonomous Networks | Fadhel Ayed et.al. | 2411.06490 | null | 推动蜂窝网络运营自动化的需求随着这些系统复杂性的增加而增长。尽管取得了进展,但完全自主目前仍然遥不可及,因为依赖于人为干预来建模网络行为并定义满足目标要求的策略。网络数字孪生(NDT)在增强网络智能方面显示出前景,但这种技术的成功实施受到特定用例架构的限制,限制了其在推进网络自主性方面的作用。需要更强大的网络智能,或“电信大脑”,以实现蜂窝网络的无缝、自主管理。大规模语言模型(LLM)作为这一愿景的潜在推动者应运而生,但在网络建模方面面临挑战,特别是在推理和处理各种数据类型方面。为了解决这些差距,我们介绍了赫尔墨斯(Hermes),这是一种链式LLM代理,通过结构化和可解释的逻辑步骤使用“蓝图”构建NDT实例。赫尔墨斯允许自动、可靠且准确地对各种用例和配置进行网络建模,从而朝着完全自主的网络运营迈进。 |
2024-11-12 | Game-theoretic LLM: Agent Workflow for Negotiation Games | Wenyue Hua et.al. | 2411.05990 | link | 本文研究了大型语言模型(LLMs)在战略决策背景下的合理性,特别是在博弈论框架下。我们评估了几种最先进的LLMs在完全信息和不完全信息游戏中的表现。研究发现,随着游戏复杂性的增加,例如更大的收益矩阵或更深的序列树,LLMs经常偏离理性策略。为了解决这些局限性,我们设计了多种基于博弈论的工作流程,以指导LLMs的推理和决策过程。这些工作流程旨在增强模型计算纳什均衡和在不确定性和不完全信息条件下做出理性选择的能力。实验结果表明,采用这些工作流程显著提高了LLMs在博弈论任务中的合理性和稳健性。具体而言,采用工作流程后,LLMs在识别最优策略、谈判场景中的近似最优分配以及减少谈判中的被利用倾向方面表现出显著改进。此外,我们还探讨了代理是否应该采用此类工作流程的元战略考虑,认识到决定使用或放弃工作流程本身就是一个博弈论问题。本研究有助于深入理解LLMs在战略环境下的决策能力,并提供了通过结构化工作流程提高其合理性的见解。研究结果对开发更强大和更具战略性的AI代理具有重要意义,这些代理能够在复杂的互动环境中导航。支持本研究的代码和数据可在以下链接获取:https://github.com/Wenyueh/game_theory。 |
2024-11-08 | LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution | Yuheng Zhao et.al. | 2411.05651 | null | 视觉分析(VA)要求分析师根据观察结果迭代地提出分析任务,并通过创建可视化和交互式探索来执行这些任务以获得洞察。这一过程需要编程、数据处理和可视化工具方面的技能,突显了对更智能、更精简的VA方法的需求。最近开发的大语言模型(LLM)作为代理,具备动态规划和使用工具的能力,为增强VA的效率和多功能性提供了潜力。我们提出了LightVA,这是一种轻量级的VA框架,通过人机协作支持任务分解、数据分析和交互式探索。我们的方法旨在帮助用户逐步将高层次的分析目标转化为低层次的任务,生成可视化并得出洞察。具体来说,我们引入了一种基于LLM代理的任务规划和执行策略,采用一个涉及规划者、执行者和控制器的递归过程。规划者负责推荐和分解任务,执行者处理任务执行,包括数据分析、可视化生成和多视图组合,而控制器则协调规划者和执行者之间的交互。在此框架基础上,我们开发了一个具有混合用户界面的系统,其中包括用于监控和管理任务规划过程的任务流程图、用于交互式数据探索的可视化面板以及用于通过自然语言指令引导模型的聊天视图。我们通过一个使用场景和专家研究来检验该方法的有效性。 |
2024-11-08 | Enhancing Cluster Resilience: LLM-agent Based Autonomous Intelligent Cluster Diagnosis System and Evaluation Framework | Honghao Shi et.al. | 2411.05349 | null | 近期在大型语言模型(LLMs)以及相关技术如检索增强生成(RAG)和思维导图(DoT)方面的进展,使得创建能够执行集群诊断和故障排除的自主智能系统成为可能。通过将这些技术与自我博弈方法论相结合,我们开发了一种LLM代理系统,旨在自主诊断和解决AI集群中的问题。我们的创新包括专为集群诊断设计的知识库、优化的LLM算法、代理的实用部署策略以及一个专门用于评估LLM在此领域能力的基准。通过在多个维度上的广泛实验,我们展示了该系统在应对集群诊断挑战方面的优越性,特别是在检测和纠正性能问题方面比传统方法更加高效和准确。 |
2024-11-07 | Alopex: A Computational Framework for Enabling On-Device Function Calls with LLMs | Yide Ran et.al. | 2411.05209 | null | 大型语言模型(LLMs)的快速发展促使它们被集成到移动设备中,以提供个性化助手服务,这使得LLMs能够调用外部API函数以增强其性能。然而,数据稀缺、问题格式不当和灾难性遗忘等问题阻碍了设备端LLM代理的发展。为了解决这些问题,我们提出了Alopex框架,该框架利用Fox LLM实现精确的设备端函数调用。Alopex引入了一种基于逻辑的方法来生成高质量的训练数据,并采用新颖的“描述-问题-输出”格式进行微调,从而减少函数信息泄露的风险。此外,还使用了一种数据混合策略来缓解灾难性遗忘,将函数调用数据与教科书数据集结合,以提升在各种任务中的表现。实验结果表明,Alopex提高了函数调用的准确性,并显著减少了灾难性遗忘,为无需人工干预地将函数调用能力整合到LLMs中提供了稳健的解决方案。 |
2024-11-07 | PentestAgent: Incorporating LLM Agents to Automated Penetration Testing | Xiangmin Shen et.al. | 2411.05185 | null | 渗透测试是一种关键的技术,用于识别安全漏洞,传统上由熟练的安全专家手动执行。这一复杂的过程涉及收集目标系统的相关信息、确定入口点、利用系统并报告发现结果。尽管这种方法非常有效,但手动渗透测试耗时且成本高昂,通常需要大量的专业知识和资源,许多组织无法承受。虽然已经提出了自动化渗透测试的方法,但在实际应用中往往由于灵活性、适应性和实施方面的限制而表现不佳。最近大型语言模型(LLM)的进步为通过提高智能和自动化水平来增强渗透测试提供了新的机会。然而,当前基于LLM的方法仍然面临重大挑战,包括有限的渗透测试知识和缺乏全面的自动化能力。为了解决这些不足,我们提出了一种名为PentestAgent的新型LLM驱动的自动化渗透测试框架,该框架利用LLM和各种基于LLM的技术(如检索增强生成,RAG)来增强渗透测试知识并实现多种任务的自动化。我们的框架利用多代理协作来自动化情报收集、漏洞分析和利用阶段,减少人工干预。我们使用一个全面的基准对PentestAgent进行了评估,展示了其在任务完成和整体效率方面的卓越性能。这项工作显著提升了自动化渗透测试系统的实用性和适用性。 |
2024-11-12 | CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models | Jierui Li et.al. | 2411.04329 | null | 预训练于大量代码和文本数据上的大规模语言模型(LLMs)在执行代码生成任务方面已经取得了显著的成就。通过额外的基于执行的反馈,这些模型可以作为代理,具备自主优化和改进生成代码的能力。然而,在具有极大搜索空间的挑战性编码任务中,当前的代理方法仍然难以处理多阶段规划、生成和调试的问题。为了解决这个问题,我们提出了CodeTree框架,该框架使LLM代理能够在代码生成过程的不同阶段高效地探索搜索空间。具体来说,我们采用了一个统一的树结构来明确探索不同的编码策略,生成相应的编码解决方案,并随后对这些解决方案进行优化。在每个阶段,探索过程中的关键决策(排序、终止、扩展)都由环境的基于执行的反馈和LLM代理生成的反馈共同指导。我们在7个代码生成基准上全面评估了CodeTree,并展示了CodeTree相对于强大基线的显著性能提升。使用GPT-4作为基础模型,我们在HumanEval上获得了95.1分,在MBPP上获得了98.7分,在CodeContests上获得了43.0分。在具有挑战性的SWEBench基准上,我们的方法也带来了显著的性能提升。 |
2024-11-06 | From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning | Zhirui Deng et.al. | 2411.03817 | null | 大型语言模型(LLMs)的卓越能力使其成为各种自主代理系统中的关键组件。虽然传统方法依赖于LLMs的内在知识而不进行微调,但更近期的方法转向了强化学习策略,以进一步增强代理在与环境和工具互动时解决复杂任务的能力。然而,先前的方法受到稀疏奖励问题的限制,现有数据集仅对每个多步骤推理链提供一个最终标量奖励,这可能导致策略学习的低效和无效。在这篇论文中,我们介绍了StepAgent,它利用逐步奖励来优化代理的强化学习过程。借鉴新手到专家理论的精神,我们首先比较专家和代理的行为,自动生成中间奖励以实现细粒度优化。此外,我们提出了隐式奖励和逆向强化学习技术,以促进代理的反思和策略调整。进一步的理论分析表明,代理的动作分布可以在多次训练周期内收敛到专家动作分布。实验结果表明,在各种数据集上,StepAgent的表现优于现有的基线方法。 |
2024-11-05 | AI Metropolis: Scaling Large Language Model-based Multi-Agent Simulation with Out-of-order Execution | Zhiqiang Xie et.al. | 2411.03519 | null | 随着大型语言模型(LLM)驱动的代理在模拟环境中进行复杂任务、与其他代理互动以及展示与社会科学研究和游戏相关的新兴行为的能力不断增强,基于这些模型的代理越来越多地被开发出来。然而,当前多代理模拟经常由于虚假依赖导致的有限并行性而遭受效率低下的问题,从而产生性能瓶颈。在这篇论文中,我们介绍了AI Metropolis,这是一种模拟引擎,通过引入乱序执行调度来提高LLM代理模拟的效率。通过动态跟踪代理之间的实际依赖关系,AI Metropolis最大限度地减少了虚假依赖,增强了并行性,并实现了高效的硬件利用。我们的评估表明,AI Metropolis在标准并行模拟与全局同步的情况下,速度提高了1.3倍到4.15倍,并且随着代理数量的增加,其性能接近最优。 |
2024-11-03 | Fixing Security Vulnerabilities with AI in OSS-Fuzz | Yuntong Zhang et.al. | 2411.03346 | null | 关键的开源软件系统会经历大量的模糊测试,以发现可能导致软件崩溃的输入。这种模糊测试通常是对程序输入域进行有偏的随机搜索,以找到可能使软件崩溃的输入。由于即使是闭源软件也可能使用开源组件,因此对开源软件进行测试对于增强软件系统的安全性至关重要。目前,OSS-Fuzz是最重要和最广泛使用的基础设施,用于持续验证开源系统。然而,尽管OSS-Fuzz已经在1000多个软件项目中识别出超过10000个漏洞,但这些被发现的漏洞可能仍然未被修补,因为漏洞修复通常需要手动操作。在本研究中,我们依赖于大型语言模型(LLM)代理在自主程序改进方面的最新进展,包括错误修复。我们定制了著名的AutoCodeRover代理来修复安全漏洞。这是因为LLM代理如AutoCodeRover通过代码搜索根据问题描述来修复错误。相反,在安全补丁方面,我们依靠执行漏洞利用输入来提取与修复相关的代码元素。我们对OSS-Fuzz漏洞数据的经验表明,LLM代理的自主性对于成功修复安全漏洞是有用的,这与那些控制流固定的无代理方法相比是一个优势。更重要的是,我们的研究结果表明,我们不能通过代码相似度(如VulMaster中使用的CodeBLEU分数)来衡量补丁的质量,因为即使具有高CodeBLEU分数的补丁仍无法通过给定的漏洞利用输入。我们的研究表明,安全补丁的正确性需要考虑动态属性,如测试执行,而不是依赖标准文本/代码相似性指标。 |
2024-11-05 | SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents | Dawei Li et.al. | 2411.03284 | link | 虽然多智能体系统已被证明在各种任务和应用中显著提升了大型语言模型(LLMs)的性能,但这些系统中密集的交互可能会影响其效率和多样性。为了解决这些问题,我们从稀疏混合智能体(SMoE)框架中汲取灵感,并提出了一种稀疏混合智能体(SMoA)框架,以提升多智能体LLMs的效率和多样性。与完全连接的结构不同,SMoA引入了新的响应选择和提前停止机制,以稀疏化个体LLM智能体之间的信息流,从而在性能和效率之间取得平衡。此外,受SMoE框架中专家多样性原则的启发,我们在每个LLM智能体上分配不同的角色描述,促进多样性和发散性思维。广泛的实验证明,在推理、对齐和公平性基准测试中,SMoA的表现与传统的混合智能体方法相当,但计算成本显著降低。进一步分析表明,SMoA更加稳定,具有更大的扩展能力,并通过超参数优化提供了巨大的潜力。代码和数据将在:https://github.com/David-Li0406/SMoA 获取。 |
2024-11-05 | Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities | Ryosuke Takata et.al. | 2411.03252 | null | 我们从零开始研究通过使用基于大型语言模型(LLM)的代理来产生自主性。在以往对基于LLM的代理的研究中,每个代理的特性,包括个性和记忆,通常是预定义的。我们关注的是如何从一个未分化的状态中分化出个体性,如行为、个性和记忆。当前的LLM代理在一个群体模拟中进行合作交流,通过自然语言交换基于上下文的消息。通过分析这种多代理模拟,我们报告了有关社会规范、合作和个人特质如何自发产生的有价值的新见解。本文展示了自主交互的LLM驱动代理会产生幻觉和标签,以维持交流,这反过来增加了其互动中的词汇多样性。每个代理的情绪会随着交流而变化,当它们形成社区时,代理的个性也随之显现并随之演变。这种计算建模方法及其发现将为分析集体人工智能提供一种新方法。 |
2024-11-04 | CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments | Kung-Hsiang Huang et.al. | 2411.02305 | link | 客户关系管理(CRM)系统对于现代企业至关重要,为管理客户互动和数据提供了基础。将AI代理集成到CRM系统中可以自动化例行流程并提升个性化服务。然而,由于缺乏反映现实世界CRM任务复杂性的现实基准,部署和评估这些代理具有挑战性。为了解决这个问题,我们介绍了CRMArena,这是一个旨在评估AI代理在专业工作环境中的实际任务的新基准。根据CRM专家的指导和行业最佳实践,我们设计了CRMArena,包括分布在三个角色(服务代理、分析师和经理)中的九个客户服务任务。该基准包括16个常用工业对象(如账户、订单、知识文章、案例),这些对象具有高度互联性,并且包括潜在变量(如投诉习惯、政策违规)以模拟现实的数据分布。实验结果显示,最先进的大型语言模型(LLM)代理使用ReAct提示方法在少于40%的任务中取得成功,即使拥有函数调用能力的情况下,成功率也低于55%。我们的研究结果强调了增强代理在函数调用和规则遵循方面的能力的需求,以便在现实世界的工作环境中部署。CRMArena是一个开放的挑战,能够可靠完成任务的系统展示了在流行工作环境中直接的商业价值。 |
2024-11-04 | DynaSaur: Large Language Agents Beyond Predefined Actions | Dang Nguyen et.al. | 2411.01747 | null | 现有的大型语言模型(LLM)代理系统通常在每一步从一个固定且预定义的动作集中选择动作。虽然这种方法在封闭且狭义限定的环境中是有效的,但我们认为它在部署LLM代理到现实世界场景时存在两大挑战:(1) 从固定的动作集中选择显著限制了LLM代理的规划和行动能力;(2) 这种方法需要大量的人力来枚举和实现所有可能的动作,在复杂环境中变得不切实际,因为潜在的动作数量巨大。在这项工作中,我们提出了一种LLM代理框架,该框架能够在在线过程中动态创建和组合动作。在这个框架中,代理通过在每个步骤生成并执行用通用编程语言编写的程序与环境进行交互。此外,生成的动作会随着时间积累以供未来重用。我们在GAIA基准测试上的广泛实验表明,该框架提供了显著更大的灵活性,并优于先前的方法。值得注意的是,它允许LLM代理在没有相关动作存在于预定义集合中或当现有动作因未预见的边缘情况而失败的情况下恢复。在撰写本文时,我们在GAIA公开排行榜上处于领先地位。我们的代码可以在https://github.com/adobe-research/dynasaur找到。 |
2024-11-03 | EcoAct: Economic Agent Determines When to Register What Action | Shaokun Zhang et.al. | 2411.01643 | null | 近期的进展使大型语言模型(LLMs)能够作为代理执行动作并使用外部工具。这要求在采取行动之前将工具信息注册或集成到LLM的上下文中。当前的方法是不加选择地将所有候选工具整合到代理的上下文中,并且这些工具在整个多个推理步骤中都保持不变。这一过程对LLM代理来说是不透明的,并未融入其推理程序中,导致由于不相关的工具增加了上下文长度而效率低下。为了解决这个问题,我们引入了EcoAct算法,它允许LLMs根据需要选择性地注册工具,从而优化上下文的使用。通过将工具注册过程整合到推理过程中,EcoAct在多步骤推理任务中的计算成本降低了50%以上,同时保持了性能,这一点通过广泛的实验得到了证明。此外,它可以插入任何推理管道,并且只需对提示进行微小修改即可实现,使其适用于现在的和未来的LLM代理。 |
2024-11-02 | AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? | Benlong Wu et.al. | 2411.01236 | link | 渗透测试对于确保网络安全至关重要,它能够提前检测和修复漏洞,防止数据泄露和其他严重后果。大型语言模型(LLMs)的强大推理能力在各个领域都取得了显著进展,基于LLM的代理的发展潜力有望革新网络安全领域的渗透测试行业。在这项工作中,我们建立了一个全面的端到端渗透测试基准,使用真实的渗透测试环境来探索LLM代理在这个领域的应用能力。我们的结果显示,这些代理熟悉渗透测试任务的框架,但在生成准确命令和执行完整流程方面仍面临限制。因此,我们总结了当前面临的挑战,包括难以保持整个消息历史记录以及代理容易陷入困境的问题。 基于以上见解,我们提出了一种基于有限状态机(FSM)方法的渗透测试状态机(PSM),以解决这些限制。然后,我们介绍了AutoPT,这是一种基于LLM驱动的渗透测试自动化代理,利用了LLM的内在推理能力和状态机的约束框架。我们的评估结果表明,AutoPT在GPT-4o mini模型上优于基线框架ReAct,并将基准目标的任务完成率从22%提高到41%。与基线框架和人工操作相比,AutoPT还进一步减少了时间和经济成本。因此,我们的AutoPT促进了自动化渗透测试的发展,并对学术界和工业界产生了重要影响。 |
2024-11-02 | A Large-scale Time-aware Agents Simulation for Influencer Selection in Digital Advertising Campaigns | Xiaoqing Zhang et.al. | 2411.01143 | null | 在数字世界中,影响者作为意见领袖起着关键作用,塑造其追随者的观点和选择。现代广告往往遵循这一趋势,营销人员根据详尽的市场分析选择合适的影响者进行产品代言。以往关于影响者选择的研究通常依赖于个人意见和互动的数值表示,这种方法简化了社会动态的复杂性。在这项工作中,我们首先介绍了一种时间感知影响者模拟器(TIS),帮助推广者基于LLM模拟识别并选择合适的影响力人物来推广他们的产品。为了验证我们的方法,我们在公共广告活动数据集SAGraph上进行了实验,该数据集涵盖了社交关系、帖子和用户互动。结果显示,我们的方法优于传统的基于数值特征的方法和使用有限LLM代理的方法。我们的研究表明,通过模拟用户的时间线和内容生命周期,可以简化扩展,从而在社交网络中实现大规模代理模拟。此外,基于LLM的社交推荐和广告代理在促销活动的决策中提供了显著的好处。 |
2024-11-01 | Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement | Yingwei Ma et.al. | 2411.00622 | link | 近年来,基于大型语言模型(LLM)的代理在自动软件工程领域取得了显著进展,特别是在软件维护和演化方面。尽管取得了这些令人鼓舞的进步,当前的研究仍面临两大挑战。首先,最先进的性能主要依赖于闭源模型,这极大地限制了技术的可访问性和在不同软件工程任务中的定制潜力。其次,这些模型大多是在静态代码数据上进行训练的,缺乏对软件开发过程中动态交互、迭代问题解决过程和演化特性的深刻理解。为了解决这些挑战,我们的研究采用软件工程视角。我们认识到,现实世界中的软件维护和演化过程不仅包括静态代码数据,还包括开发人员的思维过程、外部工具的使用以及不同职能人员之间的互动。因此,我们推出了Lingma SWE-GPT系列,包括Lingma SWE-GPT 7B和72B。通过学习和模拟真实的代码提交活动,Lingma SWE-GPT系统地融入了软件开发过程中固有的动态交互和迭代问题解决,从而实现了对软件改进过程的更全面理解。我们使用SWE-bench Verified基准进行了实验评估。结果表明,Lingma SWE-GPT 72B成功解决了30.20%的GitHub问题,标志着在自动问题解决方面的重大进步(比Llama 3.1 405B相对提高了22.76%),接近闭源模型的性能(GPT-4o解决了31.80%的问题)。值得注意的是,Lingma SWE-GPT 7B解决了18.20%的问题,突显了将较小模型应用于软件工程任务的潜力。 |
2024-10-31 | From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents | Nalin Tiwary et.al. | 2410.23555 | null | 近年来,基于大型语言模型(LLM)的框架已经扩展到复杂的现实世界应用,例如交互式网页导航。这些系统通过用户命令驱动,通过多轮对话在网页浏览器中完成任务,既提供了创新的机会也带来了显著的挑战。尽管已经引入了对话网页导航的基准测试,但影响这些代理性能的关键上下文组件的详细理解仍然难以捉摸。本研究旨在通过分析网页导航代理功能的各种关键上下文元素来填补这一空白。我们研究了上下文管理的优化,重点关注交互历史和网页表示的影响。我们的工作突出了通过有效的上下文管理,在分布外场景下(如未见过的网站、类别和地理位置)改进代理性能。这些发现为LLM基础代理的设计和优化提供了见解,使实际应用中的网页导航更加准确和有效。 |
2024-10-30 | Evaluating Cultural and Social Awareness of LLM Web Agents | Haoyi Qiu et.al. | 2410.23252 | null | 随着大型语言模型(LLMs)扩展到执行现实世界应用中的代理任务,超越传统NLP任务,评估其稳健性变得越来越重要。然而,现有的基准测试往往忽略了诸如文化和社会意识等关键维度。为了解决这些问题,我们引入了CASA,这是一个旨在评估LLM代理在两个基于网络的任务(在线购物和社交讨论论坛)中对文化和社会规范的敏感性的基准。我们的方法评估了LLM代理检测并适当回应违反规范的用户查询和观察的能力。此外,我们提出了一种全面的评估框架,该框架测量意识覆盖率、处理用户查询时的有用性以及面对误导性网络内容时的违规率。实验表明,当前的LLM在非代理环境中的表现明显优于基于网络的代理环境,代理的意识覆盖率低于10%,违规率超过40%。为了提高性能,我们探索了两种方法:提示和微调,并发现这两种方法可以互补——在特定文化数据集上进行微调可以显著提升代理在不同地区的泛化能力,而提示则可以增强代理处理复杂任务的能力。这些发现强调了在开发周期中不断基准测试LLM代理的文化和社会意识的重要性。 |
2024-10-30 | Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration | Yanchu Guan et.al. | 2410.22916 | null | 自主移动应用交互在移动应用程序复杂性日益增加的背景下变得越来越重要。开发能够有效导航和与移动应用交互的智能代理仍然是一个重大挑战。在本文中,我们提出了一种可解释的行为克隆大语言模型代理(EBC-LLMAgent),这是一种结合大型语言模型(LLMs)和行为克隆通过学习演示来创建智能且可解释的代理的新方法,用于自主移动应用交互。EBC-LLMAgent 包括三个核心模块:演示编码、代码生成和用户界面映射,这些模块协同工作以捕捉用户演示、生成可执行代码,并建立代码与用户界面元素之间的准确对应关系。我们引入了行为克隆链融合技术以增强代理的泛化能力。在五个来自不同领域的流行移动应用上进行的广泛实验表明,EBC-LLMAgent 具有卓越的性能,在任务完成方面具有高成功率,能够高效地泛化到未见过的场景,并生成有意义的解释。 |
2024-10-30 | Junting Chen et.al. | 2410.22662 | null | 异构多机器人系统(HMRS)已成为解决单个机器人无法独立完成的复杂任务的强大方法。目前基于大型语言模型的多智能体系统(LLM-based MAS)在软件开发和操作系统等领域取得了成功,但将其应用于机器人控制则面临着独特的挑战。特别是,多机器人系统中每个代理的能力本质上与其物理组成相关,而不是预定义的角色。为了解决这个问题,我们引入了一种新颖的多智能体框架,旨在实现具有不同形态和能力的异构机器人的有效协作,并提出一个新的基准测试Habitat-MAS。我们设计的关键组件是“机器人简历”:不同于采用人为设定的角色扮演方式,我们提出了自我提示的方法,即代理通过理解机器人的URDF文件并调用机器人运动学工具来生成描述其物理能力的文档,以指导其在任务规划和动作执行中的行为。Habitat-MAS基准测试旨在评估多智能体框架如何处理需要体现感知推理的任务,这些任务包括1)操作,2)感知,3)导航,以及4)复杂的多层物体重排。实验结果表明,机器人的简历和我们多智能体系统的分层设计对于在这种复杂的任务环境中有效运行异构多机器人系统至关重要。 | |
2024-10-29 | BENCHAGENTS: Automated Benchmark Creation with Agent Interaction | Natasha Butt et.al. | 2410.22584 | null | 评估受到基准测试可用性的限制。随着模型的发展,需要创建能够衡量新生成能力进展的基准测试。然而,通过人工注释创建新的基准测试既缓慢又昂贵,这限制了对任何能力的全面评估。我们引入了BENCHAGENTS框架,该框架系统地利用大型语言模型(LLMs)自动化创建复杂能力的基准测试,同时确保数据和度量的质量。BENCHAGENTS将基准测试创建过程分解为规划、生成、数据验证和评估四个步骤,每个步骤都由LLM代理执行。这些代理相互交互,并利用基准测试开发者的人机反馈来显式改进和灵活控制数据的多样性和质量。我们使用BENCHAGENTS创建用于评估文本生成过程中规划和约束满足能力的基准测试。然后,我们使用这些基准测试研究七种最先进的模型,并提取关于常见失败模式和模型差异的新见解。 |
2024-10-29 | Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents | Jaekyeom Kim et.al. | 2410.22552 | null | 在本文中,我们介绍了Auto-Intent方法,这是一种在不直接进行微调的情况下将预训练的大规模语言模型(LLM)作为目标领域代理的方法,特别关注网页导航任务。我们的方法首先从目标领域的演示中无监督地发现潜在的意图,以高度紧凑的形式(最多三个词)。通过提取的意图,我们训练意图预测器来根据代理过去的观察和行为预测下一个意图。特别是,我们提出了一种自我探索方法,其中概率最高的前k个意图预测被用作提示提供给预训练的LLM代理,从而增强其决策能力。Auto-Intent显著提高了GPT-3.5、GPT-4和Llama-3.1-70B、Llama-3.1-405B代理在大规模真实网站导航基准(来自Mind2Web)和在线导航任务(来自WebArena)上的性能,并且其跨基准的泛化能力也得到了验证。 |
2024-10-29 | SceneGenAgent: Precise Industrial Scene Generation with Coding Agent | Xiao Xia et.al. | 2410.21909 | link | 工业场景的建模对于工业制造中的模拟至关重要。尽管大型语言模型(LLMs)在从文本描述生成一般3D场景方面已经取得了显著进展,但使用LLMs生成工业场景面临着独特的挑战,因为这些场景需要精确的尺寸和定位,这要求对空间布局进行复杂的规划。为了解决这一挑战,我们引入了SceneGenAgent,这是一种基于LLM的代理,用于通过C#代码生成工业场景。SceneGenAgent通过结构化和可计算的格式、布局验证以及迭代优化来确保精确的布局规划,以满足工业场景的定量需求。实验结果表明,由SceneGenAgent驱动的LLMs超过了它们原有的性能,在实际工业场景生成任务中的成功率达到了81.0%,并有效地满足了大多数场景生成需求。为了进一步提高可访问性,我们构建了SceneInstruct,这是一个专门用于微调开源LLMs以集成到SceneGenAgent中的数据集。实验显示,基于SceneInstruct对开源LLMs进行微调可以获得显著的性能提升,Llama3.1-70B的性能接近GPT-4o。我们的代码和数据可在https://github.com/THUDM/SceneGenAgent获取。 |
2024-10-28 | Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games | Ji Ma et.al. | 2410.21359 | null | 随着基于大型语言模型(LLM)的代理越来越多地承担现实世界任务并与人类社会互动,我们对它们的行为了解多少?本研究(1)调查了不同人格如何诱导LLM代理的亲社会行为——一种基本的社会规范,并将其与人类行为进行基准测试;(2)引入了一种行为方法来评估LLM代理在复杂决策场景中的表现。我们探讨了不同人格和实验框架如何影响这些AI代理在独裁者博弈中的利他行为,并比较了同一LLM家族内、不同LLM家族之间以及与人类行为之间的差异。我们的发现揭示了LLM之间存在显著的差异和不一致性,并且与人类行为相比也有明显区别。仅仅赋予LLM类似人类的身份并不能产生类似人类的行为。尽管这些AI代理是在大量由人类生成的数据上训练的,但它们无法准确预测人类的决定。LLM代理无法捕捉到人类决策过程的内部机制,其与人类行为的一致性高度依赖于特定的模型架构和提示形式;更糟糕的是,这种依赖并不遵循明确的模式。 |
2024-10-28 | Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks | Eitan Farchi et.al. | 2410.21071 | null | 大语言模型(LLMs)可以用于多种与代码相关的任务,例如从一种编程语言翻译到另一种编程语言、实现自然语言需求和代码总结。最先进的大语言模型技术生成的工件有望在用户进行少量简单修改后即可使用。然而,量化这种模糊的概念具有挑战性,因此很难确定与代码相关的LLM解决方案的质量。我们称使用LLM判断来评估LLM解决方案的方法为“LLM作为裁判”,简称LaaJ。在这项工作中,我们介绍了一种生成和评估LaaJ实施的方法论,并利用自动产生的基准进行评估。该基准的目的是双重的,即用于开发和验证LaaJs,以及验证和测试使用LaaJs的大语言模型代码相关解决方案。为此,我们开发了一个自动基准生成引擎,该引擎为多种代码相关任务生成多种编程语言的代码,并将其作为LaaJ评估的输入。我们利用代码相关生成的图形表示G,其中图的顶点是生成的工件,边代表可能的生成,例如从自然语言需求生成Java程序。通过利用LLM代理链和G,我们生成与代码相关的工件。利用G中的循环,我们制定对生成工件的期望。利用这些制定的期望,可以开发和测试可靠的LLM判断,以衡量解决方案生成的工件的有用性。我们的方法能够创建高质量的代码任务解决方案。 |
2024-10-28 | Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments | Sangmim Song et.al. | 2410.20666 | null | 导航对于视觉障碍人士(PVI)来说是一个重大挑战。虽然传统的辅助工具如白色手杖和导盲犬非常宝贵,但它们在提供详细的环境信息和精确引导到目的地方面仍显不足。最近大型语言模型(LLM)和视觉-语言模型(VLM)的发展为增强辅助导航提供了新的途径。在本文中,我们介绍了一种名为Guide-LLM的具身化LLM基代理,旨在帮助视觉障碍人士在大型室内环境中导航。我们的方法采用了一种新颖的基于文本的拓扑图,使LLM能够使用简化的环境表示来规划全局路径,重点关注直线路径和直角转弯,以促进导航。此外,我们利用LLM的常识推理进行危险检测,并根据用户偏好进行个性化路径规划。模拟实验表明该系统在引导视觉障碍人士方面的有效性,突显了其作为辅助技术显著进步的潜力。结果表明,Guide-LLM能够提供高效、适应性强且个性化的导航辅助,指出了该领域有希望的发展前景。 |
2024-10-27 | TrajAgent: An Agent Framework for Unified Trajectory Modelling | Yuwei Du et.al. | 2410.20445 | link | 轨迹建模,包括轨迹数据模式挖掘和未来预测的研究,在生活服务、城市交通和公共管理等领域有着广泛的应用。针对特定问题,已经提出了许多方法来解决轨迹建模中的各种问题。然而,由于数据的异质性和任务的多样性,实现统一的轨迹建模仍然是一个重要的挑战。在本文中,我们提出了一种基于大型语言模型的代理框架TrajAgent,以统一各种轨迹建模任务。在TrajAgent中,我们首先开发了UniEnv,这是一个具有统一数据和模型接口的执行环境,支持各种模型的执行和训练。在此基础上,我们引入了TAgent,这是一种针对各种轨迹任务自动进行轨迹建模的代理工作流程。具体来说,我们在TAgent中设计了AutOpt,一个系统性的优化模块,进一步提高了集成模型的性能。通过输入自然语言的不同轨迹任务,TrajAgent能够通过训练和执行适当的模型自动生成有竞争力的结果。在四个真实世界数据集上进行的四个任务的大量实验表明,TrajAgent在统一轨迹建模方面是有效的,与基线方法相比,平均性能提高了15.43%。 |
2024-10-25 | Cooperative Strategic Planning Enhances Reasoning Capabilities in Large Language Models | Danqing Wang et.al. | 2410.20007 | null | 提升大型语言模型(LLMs)的推理能力对于使其能够解决复杂的多步问题至关重要。多智能体框架在增强LLMs的推理能力方面显示出巨大潜力。然而,LLM智能体之间缺乏有效的合作限制了它们的表现,特别是在多步推理任务中。本文提出了一种新颖的合作多智能体推理框架(CoPlanner),通过分离推理步骤并将不同的任务分配给不同的智能体来实现。CoPlanner由两个LLM智能体组成:规划智能体和推理智能体。规划智能体提供高层次的战略提示,而推理智能体则遵循这些提示并推导出答案。通过通过近端策略优化(PPO)训练规划智能体的策略,基于LLaMA-3-8B的CoPlanner在LogiQA上比之前最好的方法提高了9.94%,在BBH上提高了3.09%。我们的结果表明,规划智能体的指导以及智能体之间的有效合作对CoPlanner在解决多步推理问题方面的优越性能起到了重要作用。 |
2024-10-29 | Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting | Mohamed Salim Aissi et.al. | 2410.19920 | null | 强化学习(RL)是一种有前景的方法,可以将大型语言模型(LLMs)的知识应用于顺序决策任务。然而,很少有研究深入探讨在特定环境中使用RL微调这些模型对其能力的影响。本文提出了一种新颖的框架,用于分析在文本环境中进行RL训练后,LLM代理对提示格式的敏感性。我们的研究结果表明,当面对与RL训练阶段所使用的不同的提示格式时,LLM的性能会下降。此外,我们通过检查模型的内部表示和显著标记来分析这种敏感性的来源。最后,我们提出使用对比损失来减轻这种敏感性,并提高LLM的鲁棒性和泛化能力。 |
2024-10-25 | Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models | Liam Barkley et.al. | 2410.19385 | null | 大型语言模型(LLMs)是通过大量人类可读的文本训练而成的强大计算模型,使它们能够执行通用的语言理解和生成任务。这些模型因其在各种自然语言处理(NLP)任务中的卓越表现而在行业和学术界引起了广泛关注。尽管取得了这些成功,LLMs经常会产生不准确的情况,通常称为幻觉。提示工程,即设计和制定指令以使LLMs执行特定任务的过程,已成为减轻幻觉的关键方法。本文对不同的提示策略和框架进行了全面的经验评估,旨在减少LLMs中的幻觉。各种提示技术被应用于广泛的基准数据集,以评估每种方法的准确性和幻觉率。此外,本文还研究了工具调用代理(具有外部工具增强其能力以超越语言生成的LLMs)对同一基准数据集中幻觉率的影响。研究结果表明,最佳提示技术取决于问题类型,并且在减少幻觉方面,简单的技术往往比复杂的方法更有效。此外,研究表明,由于外部工具使用的复杂性增加,LLM代理可能会表现出更高的幻觉率。 |
2024-10-25 | Designing LLM-Agents with Personalities: A Psychometric Approach | Muhua Huang et.al. | 2410.19238 | null | 本文介绍了一种新颖的方法,用于使用五大人格框架为基于大语言模型的代理(Agent)分配可量化、可控且经过心理测量验证的人格特质。研究旨在克服人类主体研究的限制,提出代理作为社会科学研究的一种可访问工具。通过四项研究,本研究展示了为代理分配心理测量有效人格特质的可行性,并使其能够复制复杂的人类行为。第一项研究在大型语言模型的语义空间中建立了对人格结构和人格测试的理解。随后的两项研究利用实证数据和模拟数据展示了创建代理的过程,并通过显示人类和代理在人格测试中的答案高度对应来验证结果。最后一项研究进一步通过代理在涉及风险承担和道德困境的情境下复制已知的人类人格特质与决策行为之间的相关性,从而验证了人格心理测量方法设计代理的有效性及其在社会和行为研究中的适用性。 |
2024-10-25 | An LLM Agent for Automatic Geospatial Data Analysis | Yuxing Chen et.al. | 2410.18792 | null | 大型语言模型(LLMs)在数据科学代码生成任务中被广泛应用,但它们在处理复杂顺序任务时常常遇到逻辑错误的问题。特别是在处理地理空间数据时,这些模型面临着整合复杂数据结构和空间约束、有效利用各种函数调用以及较少使用的地理空间库方面容易产生幻觉的挑战。为了解决这些问题,我们引入了GeoAgent,这是一种新的交互框架,旨在帮助LLMs更有效地处理地理空间数据处理任务。GeoAgent首创性地将代码解释器、静态分析和基于检索的生成(RAG)技术与蒙特卡洛树搜索(MCTS)算法相结合,提供了一种新颖的地理空间数据处理方法。此外,我们还贡献了一个专门设计的新基准,用于评估基于LLMs的方法在地理空间任务中的表现。该基准利用了多种Python库,并包括从数据获取、数据分析到可视化的单轮和多轮任务。通过在各种地理空间环境中提供全面的评估,这个基准为开发LLMs在地理空间数据分析任务中的应用设定了新标准。我们的研究结果表明,仅依靠LLMs的知识对于准确编程地理空间任务是不够的,这需要连贯的多步骤过程和多次函数调用。与基线LLMs相比,提出的GeoAgent展示了卓越的性能,在函数调用和任务完成方面取得了显著的改进。此外,这些结果为未来LLMs代理在自动地理空间数据分析任务编程的发展提供了宝贵的见解。 |
2024-10-24 | PRACT: Optimizing Principled Reasoning and Acting of LLM Agent | Zhiwei Liu et.al. | 2410.18528 | null | 我们介绍了Principled Reasoning and Acting (PRAct)框架,这是一种新颖的方法,可以从轨迹数据中学习和执行行动原则。我们的方法的核心是使用来自反思和优化引擎的文本梯度来推导这些行动原则。为了使行动原则适应特定任务要求,我们提出了一种新的优化框架,称为Reflective Principle Optimization (RPO)。在执行后,RPO使用反思器来批评当前的行动原则,并使用优化器相应地更新它们。我们在两种场景下开发了RPO框架:Reward-RPO,它使用环境奖励进行反思;以及Self-RPO,它在没有外部奖励的情况下进行自我反思。此外,我们还介绍了两种RPO方法,RPO-Traj和RPO-Batch,以适应不同的设置。实验结果表明,在四个环境中,利用RPO框架的PRAct代理能够有效学习并应用行动原则以提高性能。 |
2024-10-23 | GraphTeam: Facilitating Large Language Model-based Graph Analysis via Multi-Agent Collaboration | Xin Li et.al. | 2410.18032 | link | 图在现实世界场景中,如社交网络和城市计算中被广泛用于建模关系数据。现有的基于大型语言模型(LLM)的图分析方法要么集成了特定机器学习任务的图神经网络(GNN),限制了其可迁移性,要么完全依赖于LLM自身的推理能力,导致性能不佳。为了解决这些局限性,我们利用了LLM基代理的最新进展,这些代理展示了利用外部知识或工具解决问题的能力。通过模拟人类的问题解决策略,如类比和协作,我们提出了一种基于LLM的多代理系统,称为GraphTeam,用于图分析。GraphTeam由三个模块中的五个LLM基代理组成,具有不同专长的代理可以相互协作以解决复杂问题。具体来说,(1)输入-输出规范化模块:问题代理从原始问题中提取并提炼出四个关键参数,便于理解问题,答案代理则将结果组织成符合输出要求的形式;(2)外部知识检索模块:我们首先构建了一个包含相关文档和经验信息的知识库,然后搜索代理为每个问题检索最相关的条目。(3)问题解决模块:给定搜索代理检索到的信息,编码代理使用编程方法生成解决方案;如果编码代理不起作用,推理代理将直接进行计算而无需编程。在六个图分析基准上的大量实验表明,GraphTeam达到了最先进的性能,在准确率方面比最好的基线平均提高了25.85%。代码和数据可在https://github.com/BUPT-GAMMA/GraphTeam 获取。 |
2024-10-25 | MiniFed : Integrating LLM-based Agentic-Workflow for Simulating FOMC Meeting | Sungil Seok et.al. | 2410.18012 | null | 美国联邦基金利率在国内外金融市场中扮演着重要角色。然而,研究主要集中在该利率调整的影响上,而非决策过程本身。最近大型语言模型(LLM)的发展为重建原始的联邦公开市场委员会(FOMC)会议提供了可能,这些会议负责设定联邦基金利率。本文提出了一种五阶段的FOMC会议模拟框架MiniFed,该框架使用LLM代理来模拟现实世界中的FOMC会议成员,并优化FOMC结构。这一框架有效地重新激活了FOMC会议流程,并促进了对联邦基金利率的预测。实验结果表明,我们提出的MiniFed框架在联邦基金利率预测方面达到了高准确度,并且代理的行为与现实世界的对应者保持一致。鉴于目前很少有研究利用LLM代理来模拟大规模的现实世界会议,我们的工作可以作为未来发展的基准。 |
2024-10-22 | SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning | Yizhou Chi et.al. | 2410.17238 | link | 自动化机器学习(AutoML)方法包括传统的优化固定管道以进行模型选择和集成的方法,以及基于最新大语言模型(LLM)的框架,这些框架可以自主构建管道。尽管基于LLM的代理在自动化机器学习任务方面显示出潜力,但它们通常生成低多样性和次优的代码,即使经过多次迭代也是如此。为了克服这些限制,我们引入了树搜索增强型LLM代理(SELA),这是一种创新的代理系统,利用蒙特卡洛树搜索(MCTS)来优化AutoML过程。通过将管道配置表示为树结构,我们的框架使代理能够智能地进行实验,并迭代地优化其策略,从而更有效地探索机器学习解决方案空间。这一新颖的方法允许SELA根据实验反馈发现最优路径,提高解决方案的整体质量。在跨越20个机器学习数据集的广泛评估中,我们比较了传统和基于代理的AutoML方法的性能,结果表明,在所有数据集中,SELA相对于每个基线的胜率为65%到80%。这些结果强调了基于代理策略在AutoML中的巨大潜力,为解决复杂的机器学习挑战提供了新的视角。 |
2024-10-22 | EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI | Tomoyuki Kagaya et.al. | 2410.16919 | null | 近年来,大型语言模型(LLMs)在推理能力方面表现出色,引起了广泛关注,尤其是在各种决策过程中的应用。LLM代理的一个特别有前景的应用是机器人操作。最近的研究表明,LLMs可以为机器人生成文本规划或控制代码,提供了极大的灵活性和交互能力。然而,这些方法在灵活性和跨不同环境的适用性方面仍面临挑战,限制了它们自主适应的能力。目前的方法通常分为两类:一类依赖于特定环境的策略训练,这限制了其可移植性;另一类基于固定提示生成代码动作,在面对新环境时性能会下降。这些局限性显著制约了代理在机器人操作中的通用性。为了解决这些局限性,我们提出了一种名为EnvBridge的新方法。这种方法涉及从源环境保留和转移成功的机器人控制代码到目标环境。EnvBridge通过利用多个环境的见解,增强了代理在多样化设置中的适应性和性能。值得注意的是,我们的方法缓解了环境约束,提供了一个更灵活和通用的机器人操作任务解决方案。我们使用机器人操作基准测试RLBench、MetaWorld和CALVIN验证了该方法的有效性。实验结果表明,LLM代理能够成功利用多样化的知识来源解决复杂任务。因此,我们的方法显著提高了机器人操作代理在多样化环境中规划的适应性和鲁棒性。 |
2024-10-22 | CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing | Chen Yang et.al. | 2410.16670 | link | 在代理系统中,基于大型语言模型(LLMs)的顺序推理已经取得了显著进展,但现有方法仍面临一些限制。反思驱动的推理完全依赖于预训练模型中的知识,这在新颖场景中的表现往往受限;而经验辅助的推理则常常依赖外部经验,并且缺乏选择代表性经验的明确原则。我们通过提出CoPS(跨任务经验共享)算法来解决这些限制,这是一种能够通过跨任务经验共享和选择来增强顺序推理的通用算法。具体来说,CoPS利用代理在先前任务中的经验,通过一种基于悲观策略的方法选择分布匹配的经验,以最大化效用并最小化因分布变化带来的风险。在Alfworld、Webshop和HotPotQA等基准测试中进行的广泛实验结果表明,CoPS始终优于最先进的基线方法,并具有适用于资源受限场景的优越样本效率。从理论上讲,我们的算法性能取决于预训练LLM的质量以及代理的任务相关试验分布与LLM生成分布之间的匹配度。我们的工作填补了现有顺序推理范式之间的空白,并验证了利用跨任务经验的有效性,这为提高代理在多样化任务中的泛化能力和适应性提供了潜在途径。我们的代码可在https://github.com/uclaml/COPS获取。 |
2024-10-22 | Adsorb-Agent: Autonomous Identification of Stable Adsorption Configurations via Large Language Model Agent | Janghoon Ock et.al. | 2410.16658 | link | 吸附能是催化中的一个重要反应描述符,能够实现潜在催化剂的高效筛选。然而,确定吸附能需要比较多种吸附物-催化剂构型的能量,由于可能的构型数量庞大,这在计算上非常耗时。当前的算法方法通常会枚举吸附位点和构型,而不会利用理论见解来指导初始设置。在这项工作中,我们介绍了一种名为Adsorb-Agent的大语言模型(LLM)代理,旨在以最小的人工干预高效地推导出系统特定的稳定吸附构型。Adsorb-Agent利用内置知识和新兴推理能力,显著减少了所需的初始构型数量,同时提高了预测最低吸附能的准确性。我们通过两个实例系统NNH-CuPd3(111)和NNH-Mo3Pd(111),用于氮还原反应(NRR),这是一种可持续替代哈伯-博施工艺的方法,展示了其性能。Adsorb-Agent通过识别能量更低且初始设置更少的构型,优于传统的“启发式”和“随机”算法,从而降低了计算成本并提高了准确性。这凸显了它加速催化剂发现的潜力。 |
2024-10-23 | IBGP: Imperfect Byzantine Generals Problem for Zero-Shot Robustness in Communicative Multi-Agent Systems | Yihuan Mao et.al. | 2410.16237 | null | 随着大型语言模型(LLM)代理越来越多地集成到我们的基础设施中,它们的稳健协调和消息同步变得至关重要。拜占庭将军问题(BGP)是构建在对抗性攻击下具有弹性的多智能体系统(MAS)的关键模型。该问题描述了一种情景,其中系统内存在恶意代理且这些代理的身份未知——在我们的情境中,这种情况可能是由LLM代理的幻觉或外部攻击引起的。在BGP中,整个系统的目的是就采取的行动达成共识。传统的BGP需要所有代理之间的全局共识;然而,在实际场景中,全局共识并非总是必要,甚至可能效率低下。因此,迫切需要探索一种与MAS中观察到的局部协调模式相一致的改进版BGP。我们在研究中将这种改进版称为不完美BGP(IBGP),旨在解决这一差异。为了解决这个问题,我们提出了一种框架,该框架利用了一般MAS环境中的共识协议,提供了对通信攻击的可证明弹性以及适应不断变化的环境的能力,并通过实证结果进行了验证。此外,我们还提供了一个传感器网络环境中的案例研究,以说明我们协议的实际应用。 |
2024-10-21 | NetSafe: Exploring the Topological Safety of Multi-agent Networks | Miao Yu et.al. | 2410.15686 | null | 大型语言模型(LLMs)已经赋予了多智能体网络中的节点以智能,这些模型在学术界和工业界的应用日益广泛。然而,如何防止这些网络生成恶意信息仍然是一个未被充分探索的问题,以前关于单个LLM安全性的研究难以直接转移应用。本文从拓扑学的角度关注多智能体网络的安全性,探讨哪些拓扑特性有助于更安全的网络。为此,我们提出了一种通用框架NetSafe以及一种迭代RelCom交互,以统一现有的各种基于LLM的代理框架,为一般化的拓扑安全性研究奠定基础。我们发现当多智能体网络受到涉及虚假信息、偏见和有害信息的攻击时,会出现几种关键现象,称为代理幻觉和聚合安全性。此外,我们发现高度连接的网络更容易受到对抗性攻击的影响,在星形图拓扑结构下任务性能下降了29.7%。此外,我们提出的静态度量比传统的图论度量更接近现实世界的动态评估,表明距离攻击者平均距离更大的网络表现出更高的安全性。总之,我们的工作引入了一个新的视角来探讨基于LLM的多智能体网络的安全性,并发现了几个未报道的现象,为未来探索此类网络的安全性铺平了道路。 |
2024-10-20 | Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game | Ruiqi Dong et.al. | 2410.15311 | null | 大型语言模型(LLMs)在复杂任务中扮演着关键的AI角色,但在复杂场景中的开放式决策问题中仍面临挑战。为此,我们使用语言逻辑游戏“谁是卧底?”(WIU)作为实验平台,提出了多视角团队战术(MPTT)框架。MPTT旨在培养LLMs在复杂场景中的人类语言表达逻辑、多维思维和自我感知。通过交替进行发言和投票环节,并结合自我视角、身份确定、自我反思、自我总结和多轮找队友等技术,LLM代理通过策略性隐藏和沟通作出理性决策,促进人类信任的形成。初步结果显示,MPTT结合WIU利用了LLMs的认知能力,创建了一个可以模拟真实社会的决策框架。该框架有助于少数群体的沟通与表达,促进了决策过程中的公平性和多样性。此外,我们的“人在回路”实验表明,LLMs可以通过互动学习并适应人类行为,这表明它们有潜力积极参与社会决策。 |
2024-10-20 | When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? | Shang Wang et.al. | 2410.15267 | null | 大型语言模型(LLMs)如ChatGPT和Gemini的部署展示了它们强大的自然语言生成能力。然而,在训练过程中,这些模型可能会无意中学到并保留敏感信息和有害内容,这引发了重大的伦理和法律问题。为了解决这些问题,提出了机器遗忘作为潜在解决方案。尽管现有的遗忘方法考虑了LLMs的具体特性,但它们通常面临高计算需求、有限适用性或灾难性遗忘的风险。为了应对这些局限性,我们提出了一种基于检索增强生成(RAG)技术的轻量级遗忘框架。通过修改RAG的外部知识库,我们在不直接与未学习的LLM交互的情况下模拟遗忘的效果。我们将构建遗忘知识视为一个约束优化问题,并推导出两个关键组件,以支持基于RAG的遗忘的有效性。这种基于RAG的方法对于闭源LLMs特别有效,而现有遗忘方法往往在这些模型上失效。我们通过广泛的实验对我们的框架进行了评估,包括在开源和闭源模型上进行测试,涵盖了ChatGPT、Gemini、Llama-2-7b-chat-hf和PaLM 2。结果显示,我们的方法满足了五个关键的遗忘标准:有效性、通用性、无害性、简单性和鲁棒性。此外,该方法可以扩展到多模态大语言模型和基于LLM的代理。 |
2024-10-19 | SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation | Jingxuan Chen et.al. | 2410.15164 | link | 智能手机代理在帮助用户高效控制设备方面变得越来越重要,多模态大型语言模型(MLLM)方法成为关键的竞争者。然而,公平比较这些代理既重要又具有挑战性,需要多样化的任务范围、集成不同实现方式的代理以及通用的评估管道来评估它们的优势和劣势。本文介绍了SPA-Bench,这是一个综合的智能手机代理基准测试,旨在评估基于(M)LLM的代理在一个模拟现实世界条件的交互环境中。SPA-Bench有三个主要贡献:(1)涵盖系统应用和第三方应用的任务集,包括英语和中文,重点是日常生活中常用的功能;(2)一个即插即用框架,支持与Android设备的实时交互,集成了超过十个代理,并且可以灵活添加更多代理;(3)一种新颖的评估管道,自动从多个维度评估代理性能,包括七个与任务完成和资源消耗相关的指标。我们通过广泛的实验揭示了这些代理在解释移动用户界面、动作定位、记忆保留和执行成本等方面面临的挑战。我们提出了未来的研究方向以缓解这些问题,从而更接近实际的智能手机代理应用。 |
2024-10-22 | Imprompter: Tricking LLM Agents into Improper Tool Use | Xiaohan Fu et.al. | 2410.14923 | link | 大型语言模型(LLM)代理是一种新兴的计算范式,它结合了生成式机器学习与代码解释器、网页浏览、电子邮件等工具,以及更广泛的外部资源。这些基于代理的系统代表了个人计算领域的一个新兴转变。我们为基于代理系统的安全基础做出贡献,并提出了新的自动计算的对抗性提示攻击,这些攻击侵犯了用户资源的机密性和完整性。我们展示了如何在给定模型权重的情况下,利用提示优化技术自动生成这样的提示。我们证明这种攻击可以转移到生产级别的代理上。例如,我们展示了对Mistral的LeChat代理的信息窃取攻击,该攻击分析用户的对话,挑选出个人身份信息,并将其格式化为有效的markdown命令,从而将这些数据泄露到攻击者的服务器上。这种攻击在端到端评估中显示出了近80%的成功率。我们进行了一系列实验来表征这些攻击的有效性,并发现它们在新兴的基于代理的系统如Mistral的LeChat、ChatGLM和Meta的Llama中都能可靠地工作。这些攻击是多模态的,我们在文本和图像领域展示了不同的变体。 |
2024-10-18 | When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs | Hanna Kim et.al. | 2410.14569 | null | 近年来,大型语言模型(LLMs)的发展使其成为能够规划和与各种工具交互的自主系统。这些LLM代理通常与基于网络的工具结合使用,从而能够访问多样化的信息源和实时数据。尽管这些进展在各种应用中带来了显著的好处,但它们也增加了恶意使用的风险,特别是在涉及个人隐私信息的网络攻击中。在这项工作中,我们调查了LLM代理在涉及个人数据的网络攻击中的误用风险。具体而言,我们旨在了解:1)当指导LLM代理进行网络攻击时,其潜在的能力;2)基于网络的工具如何增强网络攻击;以及3)利用LLM代理发起网络攻击变得多么经济实惠和容易。我们考察了三种攻击场景:收集个人身份信息(PII)、生成冒充帖子和创建定向钓鱼邮件。我们的实验揭示了LLM代理在这类攻击中的有效性:LLM代理在收集PII方面的准确率高达95.9%,由LLM代理生成的冒充帖子中有高达93.9%被评估为真实,而由LLM代理创建的定向钓鱼邮件中的链接点击率达到了46.67%。此外,我们的研究还强调了现有商业LLM中的安全防护措施的局限性,强调了迫切需要更强大的安全措施来防止LLM代理的误用。 |
2024-10-18 | Do LLMs "know" internally when they follow instructions? | Juyeon Heo et.al. | 2410.14516 | null | 指令跟随对于构建具有大型语言模型(LLMs)的AI代理至关重要,因为这些模型必须严格遵循用户提供的约束和指南。然而,LLMs经常无法遵循即使是简单且明确的指令。为了提高指令跟随的成功率并防止不期望的输出,需要更深入地理解LLMs的内部状态与这些结果之间的关系。我们对LLM的内部状态进行分析,发现输入嵌入空间中存在一个维度,与成功的指令跟随相关联。我们证明,沿着这个维度修改表示可以提高指令跟随的成功率,而不会损害响应质量。进一步研究显示,这个维度与提示的措辞关系更为密切,而不是任务或指令的固有难度。这一发现还解释了为什么LLMs有时无法遵循清晰的指令,以及为什么即使内容基本不变,提示工程往往有效的原因。这项工作揭示了LLMs指令跟随的内部机制,为可靠LLM代理的开发铺平了道路。 |
2024-10-18 | CoMAL: Collaborative Multi-Agent Large Language Models for Mixed-Autonomy Traffic | Huaiyuan Yao et.al. | 2410.14368 | link | 在城市交通中引入自动驾驶车辆具有巨大的潜力,可以通过减少拥堵和系统地优化交通流量来提高效率。本文介绍了一种名为CoMAL(协作多智能体大语言模型)的框架,旨在通过自动驾驶车辆之间的协作解决混合自主交通问题,从而优化交通流量。CoMAL基于大型语言模型,在交互式交通仿真环境中运行。它利用感知模块观察周围代理,并使用记忆模块存储每个代理的策略。整体工作流程包括一个协作模块,鼓励自动驾驶车辆讨论有效的策略并分配角色,一个推理引擎根据分配的角色确定最优行为,以及一个执行模块使用结合了基于规则模型的混合方法控制车辆动作。实验结果表明,CoMAL在Flow基准测试中表现出色。此外,我们评估了不同语言模型的影响,并将其框架与强化学习方法进行了比较。这突显了LLM代理的强大合作能力,并提出了一个有前景的解决方案来应对混合自主交通挑战。代码可在https://github.com/Hyan-Yao/CoMAL获取。 |
2024-10-18 | Good Parenting is all you need -- Multi-agentic LLM Hallucination Mitigation | Edward et.al. | 2410.14262 | null | 本研究探讨了大型语言模型(LLM)代理检测和纠正AI生成内容中幻觉现象的能力。一个主要代理被任务创建一篇关于一位虚构的丹麦艺术家Flipfloppidy的博客,然后由另一个代理进行审查以识别事实性错误。大多数LLM模型幻化出了这位艺术家的存在。在涉及各种主代理和审查代理组合的4900次测试运行中,先进的AI模型如Llama3-70b和GPT-4变体在识别幻觉方面几乎达到了完美的准确率,并且在收到反馈后成功修正了输出内容的85%到100%。这些发现强调了先进AI模型在显著提高生成内容的准确性和可靠性方面的潜力,为改进AI工作流编排提供了一种有前景的方法。 |
2024-10-18 | Agents4PLC: Automating Closed-loop PLC Code Generation and Verification in Industrial Control Systems using LLM-based Agents | Zihan Liu et.al. | 2410.14209 | link | 在工业控制系统中,可编程逻辑控制器(PLC)代码的生成和验证对于确保运行效率和安全性至关重要。尽管大型语言模型(LLM)在自动化代码生成方面取得了进展,但它们通常无法提供正确性保证,并且缺乏对PLC编程的专业支持。为了解决这些挑战,本文介绍了一种名为Agents4PLC的新框架,该框架不仅实现了PLC代码的自动化生成,还通过基于LLM的多代理系统进行了代码级别的验证。我们首先建立了一个全面的基准,用于可验证的PLC代码生成领域,从自然语言需求过渡到人工编写和验证的形式化规范和参考PLC代码。此外,我们通过结合检索增强生成(RAG)、先进的提示工程技术和链式思维策略,进一步增强了针对工业控制系统的“代理”。评估表明,Agents4PLC显著优于先前的方法,在一系列日益严格的指标上均取得了优异的结果。这项研究不仅解决了PLC编程中的关键挑战,还展示了我们的框架生成适用于实际工业应用的可验证代码的潜力。 |
2024-10-18 | Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs | SeongYeub Chu et.al. | 2410.14202 | null | 现有的自动作文评分(AES)仅依赖于作文文本,而未使用解释性理由分数,因此错失了以细粒度方式捕捉评分标准中特定评估方面的机会。本文介绍了一种名为基于论据的多特征评分(RMTS)的新方法,该方法结合了基于提示的大语言模型(LLMs)和使用较小的大语言模型(S-LLM)的微调式作文评分模型。RMTS 使用基于LLM的特征论据生成系统,其中单独的LLM代理根据评分标准指南生成特征特定的理由,评分模型利用这些理由准确预测多特征分数。在基准数据集(包括ASAP、ASAP++和Feedback Prize)上的广泛实验表明,RMTS 在特征特定评分方面显著优于最先进的模型和普通的S-LLM。通过辅助定量评估以提供细粒度的定性理由,RMTS 提高了特征评分的可靠性,并提供了关于作文的部分解释。 |
2024-10-18 | SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent | Jiarui Ji et.al. | 2410.14152 | link | 公共稀缺资源配置在经济学中扮演着至关重要的角色,因为它直接影响到社会的效率和公平性。传统研究方法,包括基于理论模型、基于实证研究和基于仿真的方法,由于存在理想化的完全信息和个体理性的假设以及有限可用数据的限制,面临着局限性。在这项工作中,我们提出了一种创新框架SRAP-Agent(使用基于大语言模型的智能体模拟和优化稀缺资源配置政策),该框架将大型语言模型(LLMs)集成到经济仿真中,旨在弥合理论模型与现实动态之间的差距。以公共住房分配场景作为案例研究,我们进行了广泛的政策仿真实验来验证SRAP-Agent的可行性和有效性,并采用具有特定优化目标的政策优化算法。源代码可以在https://github.com/jijiarui-cather/SRAPAgent_Framework找到。 |
2024-10-17 | From Barriers to Tactics: A Behavioral Science-Informed Agentic Workflow for Personalized Nutrition Coaching | Eric Yang et.al. | 2410.14041 | null | 有效的管理心脏代谢状况需要持续的积极营养习惯,但这些习惯往往受到复杂且个体化的障碍影响。直接的人类管理难以扩展,而之前的尝试旨在自动化营养辅导,但缺乏解决这些多样化挑战所需的个性化。本文介绍了一种新颖的基于大型语言模型(LLM)的主动工作流程,旨在通过直接针对并缓解患者特定的障碍来提供个性化的营养辅导。该工作流程基于行为科学原则,利用了与相应循证策略相关的全面营养相关障碍映射。一个专门的LLM代理有意探查并识别患者在饮食方面的根本问题。随后,另一个LLM代理提供量身定制的策略,以克服这些特定障碍,并结合患者的具体情况。我们通过一项涉及心脏代谢疾病患者的用户研究来设计和验证我们的方法,证明了该系统能够准确识别障碍并提供个性化指导。此外,我们还通过大规模模拟研究来评估系统的性能,该研究基于真实的患者案例和专家验证的指标,在广泛的情景中进行了评估。我们的研究结果表明,这种基于LLM的主动工作流程有可能通过提供个性化、可扩展且基于行为的干预措施来改善营养辅导。 |
2024-10-17 | AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents | Ke Yang et.al. | 2410.13825 | null | 通过使用大型语言模型(LLMs)的代理实现自主性,可以提升人类在个性化和标准化任务中的效率。自动化网络任务(例如在预算内预订酒店)的需求日益增加。满足实际需求的同时,网络代理也作为各种代理接地场景的重要概念证明示例,其成功预示着许多未来应用的进步。先前的研究通常手工设计网络代理策略(例如提示模板、多代理系统、搜索方法等),这些方法可能无法在所有现实世界场景中普遍适用。另一方面,关于网络代理的观察/动作表示与基于LLM的预训练数据之间不匹配的研究有限。这种差异尤其明显,因为LLM主要针对语言完成进行训练,而不是涉及具身导航动作和符号化网络元素的任务。我们的研究通过简单地优化观察和动作空间来增强基于LLM的网络代理,使其更好地符合LLM的能力。这种方法使我们基础代理AgentOccam在各种网络任务上显著超越之前的方法。具体来说,在WebArena基准测试中,一个包含通用网络交互任务的基准,我们的代理AgentOccam比前最先进的方法和同期工作分别高出9.8(+29.4%)和5.9(+15.8%)个百分点,并且成功率达到26.6点(+161%),超过了具有相同观察和动作空间对齐的普通网络代理。我们实现了这一目标,而没有使用上下文示例、新代理角色、在线反馈或搜索策略。AgentOccam的简洁设计突显了LLMs在网页任务上的零样本性能,并强调了精心调整观察和动作空间对于基于LLM的代理的关键作用。 |
2024-10-17 | Rapid and Automated Alloy Design with Graph Neural Network-Powered LLM-Driven Multi-Agent Systems | Alireza Ghafarollahi et.al. | 2410.13768 | null | 一个多智能体AI模型被用于自动化发现新的金属合金,该模型整合了多模态数据和外部知识,包括通过原子模拟获得的物理见解。我们的多智能体系统具有三个关键组件:(a) 一组大型语言模型(LLMs)负责推理和规划等任务,(b) 一群具有不同角色和专业知识的AI代理动态协作,以及(c) 一种新开发的图神经网络(GNN)模型,用于快速检索关键物理属性。一组由LLM驱动的AI代理合作自动化探索MPEAs(高熵合金)的巨大设计空间,并通过GNN的预测进行引导。我们专注于NbMoTa系列体心立方(bcc)合金,这些合金使用基于机器学习的原子间势进行建模,并针对两个关键性质:Peierls势垒和固溶体/螺位错相互作用能。我们的GNN模型准确地预测了这些原子尺度的性质,提供了一种比昂贵的暴力计算更快的替代方法,并减轻了多智能体系统在物理检索上的计算负担。这个AI系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性,革新了材料的发现过程。通过协同GNN的预测能力和LLM代理的动态协作,系统自主导航巨大的合金设计空间,识别原子尺度材料性质的趋势,并预测宏观尺度的机械强度,如若干个计算实验所展示的那样。这种方法加速了先进合金的发现,并有望在其他复杂系统中有更广泛的应用,标志着自动化材料设计领域的一大进步。 |
2024-10-17 | MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling | Yakun Zhu et.al. | 2410.13610 | null | 在大型语言模型(LLMs)中集成工具已经促进了其广泛应用。然而,在专门的下游任务场景中,仅依赖工具不足以完全解决现实世界的复杂性,这尤其限制了LLMs在医学等领域的有效部署。本文专注于医学计算器的下游任务,这些任务使用标准化测试来评估个人的健康状况。我们介绍了MeNTi,这是一种为LLMs设计的通用代理架构。MeNTi集成了专业的医学工具包,并采用元工具和嵌套调用机制以增强LLMs对工具的利用。具体来说,它实现了灵活的工具选择和嵌套工具调用来应对复杂的医学场景中的实际问题,包括计算器选择、插槽填充和单位转换。为了评估LLMs在整个临床过程中的计算器场景下的定量评估能力,我们引入了CalcQA基准。该基准要求LLMs使用医学计算器进行计算并评估患者的健康状况。CalcQA由专业医生构建,包含100个案例-计算器对,并附带一个包含281种医学工具的工具包。实验结果表明,我们的框架显著提升了性能。本研究为在医学的高需求场景中应用LLMs开辟了新的方向。 |
2024-10-17 | Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents | Long Li et.al. | 2410.13185 | link | 有效的研究创意构思是科学研究的关键步骤。然而,科学文献的指数增长使得研究人员难以跟上最新的进展并确定有意义的研究方向。最近大型语言模型(LLMs)的发展表明,自动化生成新颖的研究创意是一个有前景的途径。然而,现有的创意生成方法要么简单地提示LLMs,要么直接向LLMs暴露大量文献而没有指示有用的信息。受到人类研究人员研究过程的启发,我们提出了一种称为Chain-of-Ideas(CoI)代理的方法,这是一种基于LLM的代理,它以链式结构组织相关文献,有效反映了研究领域的渐进发展。这种组织方式使LLMs能够捕捉当前的研究进展,从而增强其创意生成能力。此外,我们还提出了Idea Arena评估协议,可以从不同角度全面评估创意生成方法,与人类研究人员的偏好紧密对齐。实验结果表明,CoI代理在创意生成方面始终优于其他方法,并且其质量可与人类媲美。此外,我们的CoI代理成本低廉,生成一个候选创意及其相应实验设计的最低成本仅为0.50美元。 |
2024-10-16 | Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving | Sihao Wu et.al. | 2410.12568 | null | 大型语言模型(LLMs)在自动驾驶系统中的集成展示了强大的常识和推理能力,有效地解决了纯数据驱动方法的缺陷。当前基于LLM的代理需要较长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的开放性问题是,我们能否有效利用LLM的知识来训练一个高效且鲁棒的强化学习(RL)代理。本文介绍了一种新颖的RAPID框架,即鲁棒自适应策略注入与蒸馏框架,该框架使用由基于LLM的驾驶代理生成的数据来训练专门的混合策略RL代理,并进行在线适应。RAPID具有三个关键设计:1)利用从LLM代理收集的离线数据来蒸馏专家知识到RL策略中,以加快实时推理速度;2)引入鲁棒蒸馏到RL中,以继承LLM基础教师的表现和鲁棒性;3)采用混合策略方法,通过策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID减少了LLM知识的遗忘,同时保持了对不同任务的适应性。广泛的实验表明,RAPID能够以高效、适应性强和鲁棒的方式将LLM知识有效地整合到规模化的RL策略中。代码和检查点将在接受后公开提供。 |
2024-10-16 | SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling | Loris Gaven et.al. | 2410.12481 | null | 近年来,大规模语言模型(LLMs)不仅作为生成模型,还作为解决文本序列决策任务的代理取得了显著进展。当面对复杂环境,其零样本能力不足时,最近的研究表明,可以使用在线强化学习(RL)让这些LLM代理通过交互式方式发现和学习高效的策略。然而,大多数先前的工作仅限于采用策略梯度算法,这大大限制了这些代理在探索和利用方面可以使用的各种方法,例如经验重放和事后重标记。然而,这些方法对于LLM学习代理来说可能是关键的,尤其是在设计自主内在动机代理时,这些代理会根据自己的目标进行采样和追求(即自目的性代理)。本文提出并研究了一种适应软演员-评论家算法和事后重标记的LLM代理方法。我们的方法不仅为设计在线学习的自目的性LLM代理铺平了道路,还可以在更经典的多目标RL环境中超越策略梯度方法。 |
2024-10-16 | Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance | Yaxi Lu et.al. | 2410.12361 | link | 基于大型语言模型的代理在解决复杂任务方面已经展示了显著的能力。然而,大多数代理系统仍然是反应式的,这限制了它们在需要预见性和自主决策的情景中的有效性。在这篇论文中,我们致力于开发能够预见并主动发起任务的代理,而无需明确的人类指令。我们提出了一种新颖的数据驱动方法来解决这个问题。首先,我们收集真实世界的人类活动以生成主动任务预测。这些预测由人类标注者标记为接受或拒绝。标注后的数据被用于训练一个奖励模型,该模型模拟人类判断,并作为LLM代理主动性的自动评估器。在此基础上,我们开发了一个全面的数据生成管道,创建了一个包含6,790个事件的多样化数据集ProactiveBench。最后,我们证明通过使用所提出的ProactiveBench对模型进行微调可以显著激发LLM代理的主动性。实验结果表明,我们的微调模型在主动提供帮助方面的F1得分达到了66.47%,优于所有开源和闭源模型。这些结果突显了我们方法在创造更主动和有效的代理系统方面的潜力,为未来的人机协作进步铺平了道路。 |
2024-10-16 | Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay | Yuyang Chen et.al. | 2410.12236 | null | 如今,针对代码生成任务的Transformer基大规模语言模型(LLM)通常应用采样和过滤管道。由于代码生成任务中的稀疏奖励问题,即一个令牌的不正确性会导致Transformer模型采样冗余程序直到找到正确的程序,这导致了低效率。为了解决这一挑战,我们在微调阶段引入了经验回放(ER),其中产生的代码和程序会被存储并重放,以使LLM代理有机会从过去的经验中学习。基于ER的精神,我们介绍了一种称为BTP管道的新方法,该方法由三个阶段组成:束搜索采样、测试阶段和优先级经验回放阶段。该方法利用代码模型收集的失败程序,并从回放缓冲区中重放具有高可能性和通过率优先值(P2Value)的程序,以提高效率。P2Value综合考虑了Transformer输出的可能性和通过率,并可以利用大多数由LLMs收集的程序未能通过任何测试而导致的冗余资源。我们实证地将我们的方法应用于几种LLM中,证明它提升了它们在代码生成任务中的性能,并超越了现有的基线。 |
2024-10-15 | Empowering Users in Digital Privacy Management through Interactive LLM-Based Agents | Bolun Sun et.al. | 2410.11906 | null | 本文介绍了一种将大型语言模型(LLMs)应用于增强用户对隐私政策的理解的新方法,通过交互式对话代理实现。我们展示了LLMs在数据实践识别、选择识别、政策总结和隐私问答等任务中的表现显著优于传统模型,为隐私政策分析设立了新的基准。基于这些发现,我们引入了一种创新的基于LLM的代理,该代理作为处理网站隐私政策的专家系统,能够在不需用户提供特定问题的情况下引导用户理解复杂的法律语言。一项涉及100名参与者的用户研究表明,使用该代理的用户具有更高的理解水平(平均分2.6/3,而对照组为1.8),更低的认知负荷(任务难度评分为3.2/10,而对照组为7.8),更高的隐私管理信心,并且完成任务所需时间更短(5.5分钟vs.15.8分钟)。这项工作突显了基于LLM的代理在改变用户与隐私政策互动方面的潜力,有助于获得更加知情的同意,并在数字服务领域赋予用户更多权力。 |
2024-10-15 | HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications | Weijie Xu et.al. | 2410.11239 | null | 近年来,大型语言模型(LLM)的发展在教育和金融等多个领域带来了诸多益处,但在人力资源领域,仍有许多重复性的流程未被解决,例如访问请求、医疗报销和请假申请等。我们希望将这些任务与LLM代理相关联,该代理已经在诸如写作辅助和客户服务等领域取得了成效。我们提出了HR-Agent,这是一种高效、保密且专门针对人力资源领域的基于LLM的任务导向对话系统,旨在自动化处理如医疗报销和访问请求等重复性的人力资源流程。由于在推理过程中不会将对话数据发送给LLM,因此能够保持人力资源相关任务所需的机密性。 |
2024-10-14 | Denial-of-Service Poisoning Attacks against Large Language Models | Kuofeng Gao et.al. | 2410.10760 | link | 近期的研究表明,大型语言模型(LLMs)容易受到拒绝服务(DoS)攻击,例如通过拼写错误或非语义提示的对抗性输入可以触发无限输出,而不会生成[EOS]终止符。这些攻击可能导致高延迟,并使LLM服务对其他用户或任务不可用。然而,在存在语音到文本接口(如机器人语音命令)的情况下,执行此类DoS攻击变得具有挑战性,因为通过语音很难引入拼写错误或非语义提示。一种简单的DoS攻击方式是指示模型“不断重复‘Hello’”,但我们观察到仅依靠自然指令会限制输出长度,该长度受最大长度限制,这是大型语言模型在有监督微调(SFT)数据中的上限。为了解决这一限制,我们提出了针对LLMs的投毒型DoS(P-DoS)攻击,证明注入一个专门设计用于DoS目的的中毒样本可以打破输出长度限制。例如,一个中毒样本成功攻击了GPT-4o和GPT-4o mini(通过OpenAI的微调API),使用不到1美元的成本,导致输出重复直至达到最大推理长度(16K个token,相比之下未中毒前为0.5K)。此外,我们在开源LLMs上进行了全面的消融研究,并将方法扩展到LLM代理,其中攻击者可以控制微调数据集和算法。我们的研究结果强调了急需防御P-DoS攻击以确保LLMs安全的迫切需求。我们的代码可以在https://github.com/sail-sg/P-DoS找到。 |
2024-10-14 | FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas | Yu Lei et.al. | 2410.10398 | null | AI对齐是关乎AI控制和安全的关键问题。它不仅应考虑价值中立的人类偏好,还应考虑道德和伦理方面的考量。在这项研究中,我们介绍了FairMindSim,通过一系列不公平的情景来模拟道德困境。我们使用LLM代理来模拟人类行为,在各个阶段确保对齐。为了探索驱动人类和LLM代理作为旁观者在涉及他人的不公正情况下干预的各种社会经济动机,即我们所称的信念,并探讨这些信念如何相互作用以影响个体行为,我们将相关社会学领域的知识纳入其中,并基于递归奖励模型(RRM)提出了信念-奖励对齐行为进化模型(BREM)。我们的研究结果表明,从行为角度来看,GPT-4o表现出更强的社会正义感,而人类则展现出更丰富的情感。此外,我们还讨论了情绪对行为的潜在影响。本研究为LLM与利他价值观对齐的应用提供了理论基础。 |
2024-10-14 | Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations | Garima Agrawal et.al. | 2410.10136 | null | 在客户联络中心,人工客服经常面临较长的平均处理时间(AHT),因为他们需要手动解析查询并检索相关的知识库(KB)文章。虽然使用大型语言模型(LLM)的检索增强生成(RAG)系统已被广泛应用于行业以协助此类任务,但在实时对话中,RAG系统面临着诸如查询公式不准确和频繁问题重复检索等问题。为了解决这些局限性,我们提出了一种决策支持系统,该系统可以超越RAG,在实时识别客户问题。如果查询匹配常见问题解答(FAQ),系统直接从FAQ数据库中检索答案;否则,通过RAG生成答案。我们的方法减少了对人工查询的依赖,使得响应能够在2秒内提供给客服人员。此系统部署在Minerva CQ的人工智能辅助解决方案中,提高了效率,缩短了AHT,并降低了运营成本。我们还引入了一个自动化的LLM代理工作流,当没有预定义的FAQ时,可以从历史记录中识别FAQ。 |
2024-10-13 | Adaptive Reasoning and Acting in Medical Language Agents | Abhishek Dutta et.al. | 2410.10020 | null | 本文提出了一种创新的大型语言模型(LLM)代理框架,用于提升在模拟临床环境中的诊断准确性,并使用AgentClinic基准进行评估。所提出的自动校正机制使得医生代理能够在错误诊断后迭代地优化其推理和行为,从而随着时间推移提高决策能力。实验表明,采用自适应LLM基础医生代理能够通过与模拟患者的动态互动实现正确的诊断。评估结果突显了自主代理在复杂医疗场景中适应和改进的能力。未来的工作将集中在完善算法并扩大其在更广泛任务和不同大型语言模型中的适用性。 |
2024-10-13 | Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation | Jiarui Ji et.al. | 2410.09824 | link | 图生成是社会、技术和科学研究中广泛研究的基本任务。在建模动态图演化过程时,传统的基于规则的方法难以捕捉图中的社区结构,而深度学习方法仅关注拟合训练图。这限制了现有的图生成器只能生成符合预定义规则或与训练数据集高度相似的图,在动态图生成方面表现不佳。鉴于图是从人类活动中成对交互产生的抽象表示,对人类行为的真实模拟可以更深入地洞察图演化机制。随着大型语言模型(LLMs)在模拟人类行为方面的日益认可,我们引入了一种新的基于仿真框架——GraphAgent-Generator(GAG),用于动态图生成。无需对LLM进行训练或微调,我们的框架有效复制了已建立的网络科学理论中的七个宏观结构特征,同时在特定评估指标上比现有基线在图扩展任务中提高了31%。通过节点分类任务,我们验证了GAG能够有效保留真实世界网络的节点级文本特征在生成的文本丰富的图中。此外,通过并行加速,GAG支持通过基于大规模LLM的代理仿真生成最多接近10万个节点或1000万条边的图,最小加速比为90.4%。源代码可在https://anonymous.4open.science/r/GraphAgent-2206获取。 |
2024-10-13 | Agentic Information Retrieval | Weinan Zhang et.al. | 2410.09713 | null | 自20世纪70年代以来,用户访问相关信息一直依赖于特定领域的信息检索(IR)架构。在过去二十年中,现代IR系统(包括网络搜索引擎和个人化推荐系统)的出现极大地提高了从大量数据集中检索相关信息的效率。然而,这些IR系统的内核范式仍然基本不变,依赖于筛选预定的一组候选项目。自2022年以来,大型语言模型(LLM)的突破开始改变信息访问的方式,建立了一种新的技术范式。在本文献综述中,我们介绍了由LLM代理能力塑造的新IR范式——主动式信息检索(Agentic IR)。Agentic IR扩展了可访问任务的范围,并利用一系列新技术重新定义信息检索。我们讨论了三种前沿应用以及面临的挑战。我们认为,主动式信息检索有望产生创新的应用,可能成为未来数字生态系统中的核心信息入口。 |
2024-10-12 | LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection | Zhiyuan Wei et.al. | 2410.09381 | link | 区块链技术的不变性质虽然革命性,但也引入了显著的安全挑战,特别是在智能合约方面。这些安全问题可能导致巨大的财务损失。当前工具和方法通常专注于特定类型的漏洞。然而,缺乏一种能够广泛检测多种漏洞且具有高准确性的综合工具。本文介绍了一种名为LLM-SmartAudit的新框架,该框架利用大型语言模型(LLMs)的先进能力来检测和分析智能合约中的漏洞。通过多代理对话方法,LLM-SmartAudit采用协作系统与专业代理合作以增强审计过程。为了评估LLM-SmartAudit的有效性,我们编制了两个不同的数据集:一个用于与传统工具进行基准测试的标记数据集,以及一个用于评估实际应用的现实世界数据集。实验结果表明,我们的解决方案在所有传统智能合约审计工具之上,提供了更高的准确性和更大的效率。此外,我们的框架可以检测复杂逻辑漏洞,而传统工具之前未曾发现这些漏洞。我们的研究结果表明,利用LLM代理提供了一种非常有效的自动化智能合约审计方法。 |
2024-10-11 | PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents | Xiangyu Yin et.al. | 2410.09034 | link | 叠层成像是在X射线和电子显微镜中的一种先进的计算成像技术。它已被广泛应用于物理、化学、生物和材料科学等科研领域,以及半导体表征等工业应用中。实际上,获得高质量的叠层图像需要同时优化许多实验和算法参数。传统上,参数选择往往依赖于试错法,导致低吞吐量的工作流程和潜在的人类偏见。在这项工作中,我们开发了“叠层实验与分析机器人”(PEAR),这是一个利用大型语言模型(LLM)自动化叠层成像数据分析的框架。为了确保高鲁棒性和准确性,PEAR使用多个LLM代理执行任务,包括知识检索、代码生成、参数推荐和图像推理。我们的研究表明,PEAR的多代理设计显著提高了工作流程的成功率,即使使用较小的开源权重模型如LLaMA 3.1 8B。PEAR还支持各种自动化级别,并且设计为可以与定制的本地知识库一起工作,确保在不同研究环境中的灵活性和适应性。 |
2024-10-14 | AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents | Maksym Andriushchenko et.al. | 2410.09024 | null | 对于语言大模型(LLMs)在面对越狱攻击时的鲁棒性研究,主要集中在它们作为简单的聊天机器人时的情况。然而,能够使用外部工具并执行多阶段任务的语言模型代理可能带来更大的风险,但其鲁棒性仍缺乏充分探索。为了促进对语言模型代理滥用的研究,我们提出了一种新的基准测试——AgentHarm。该基准测试包括110个明确恶意的代理任务(通过增强后达到440个),涵盖了欺诈、网络犯罪和骚扰等11类危害。除了衡量模型是否拒绝有害的代理请求外,要在AgentHarm上取得高分还需要被越狱的代理能够在遭受攻击后维持其能力以完成多步任务。我们评估了一系列领先的LLMs,发现(1)领先的LLMs在没有越狱的情况下会出乎意料地服从恶意代理请求,(2)简单的通用越狱模板可以有效越狱代理,(3)这些越狱能够使连贯且恶意的多步代理行为得以实现,并保留模型的能力。为了便于对基于LLM的代理进行简单可靠的攻击和防御评估,我们公开发布了AgentHarm,网址是https://huggingface.co/datasets/ai-safety-institute/AgentHarm。 |
2024-10-11 | The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points | Ariel Flint Ashery et.al. | 2410.08948 | null | 社会惯例是社会和经济生活的基础。随着越来越多的AI代理与彼此以及人类进行互动,它们形成共享惯例的能力将决定它们协调行为、融入社会并影响社会的效果。本文通过模拟交互研究了大型语言模型(LLM)代理群体内部惯例的动力学。首先,我们展示了全球接受的社会惯例可以自发地从相互交流的LLM之间产生。其次,我们演示了在这一过程中即使是个体代理看似无偏见的情况下,强烈的集体偏见也可能会出现。第三,我们考察了少数群体中的坚定LLM如何推动社会变革,通过建立新的社会惯例。我们发现,一旦这些少数群体达到临界规模,它们就能够持续颠覆已建立的行为模式。在所有情况下,将实验结果与一个最小化多代理模型的预测进行对比,使我们能够隔离LLM代理的具体作用。我们的研究结果阐明了AI系统可以在没有明确编程的情况下自主发展规范,并对设计与人类价值观和社会目标相一致的AI系统具有启示意义。 |
2024-10-10 | Benchmarking Agentic Workflow Generation | Shuofei Qiao et.al. | 2410.07869 | link | 大型语言模型(LLMs)凭借其在处理广泛任务方面的出色能力,推动了推理和规划任务的显著进步。在这一过程中,将复杂问题分解为可执行的工作流是关键步骤。现有的工作流评估框架要么仅关注整体性能,要么存在限制,如场景覆盖范围有限、工作流结构过于简单以及评价标准宽松等问题。因此,我们引入了WorFBench,这是一个具有多维场景和复杂图工作流结构的统一工作流生成基准。同时,我们提出了一套系统性的评估协议——WorFEval,利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。 通过不同类型的LLM进行全面评估,我们发现LLM代理在序列规划能力和图规划能力之间存在明显的差距,即使是GPT-4也显示出约15%的差距。我们还训练了两个开源模型,并在保留任务上评估它们的一般化能力。此外,我们观察到生成的工作流能够增强下游任务,使得这些任务在推理时能够取得更好的性能并节省时间。所有相关代码和数据集将在https://github.com/zjunlp/WorFBench公开提供。 |
2024-10-10 | AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories | Yifan Song et.al. | 2410.07706 | null | 在这项工作中,我们引入了AgentBank,这是迄今为止最大的用于开放源代码大型语言模型(LLM)的agent-environment交互轨迹调优数据集,包含超过5万条多样化的高质量交互轨迹,涉及16个任务和五个不同的agent技能维度。通过新颖的注释流程,我们能够规模化地标注轨迹并生成了一个难度偏差最小化的轨迹数据集。进一步地,我们对AgentBank进行调优,得到了一系列的agent模型——Samoyed。我们的比较实验表明,通过扩展交互轨迹数据来获取通用的agent能力的有效性。额外的研究还揭示了一些关于轨迹调优和agent技能泛化的关键观察结果。 |
2024-10-11 | WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents | Siyu Zhou et.al. | 2410.07484 | link | 大型语言模型(LLM)是否可以直接作为模型驱动代理的强大世界模型?虽然LLM的先验知识与指定环境动态之间的差距确实存在,但我们的研究揭示了可以通过使LLM与其部署环境对齐来弥合这些差距,这种“世界对齐”可以通过在LLM上进行规则学习来高效实现。考虑到LLM丰富的先验知识,仅需少量额外规则即可使LLM预测与指定环境动力学相匹配。为此,我们提出了一种神经符号方法,通过LLM以梯度无的学习方式来学习这些规则,通过基于探索轨迹与世界模型预测的比较来诱导、更新和修剪规则。结果的世界模型由LLM和学习到的规则组成。我们构建的实体化LLM代理“WALL-E”基于模型预测控制(MPC)。通过基于精确世界模型优化前瞻行动,MPC显著提高了探索和学习效率。与现有LLM代理相比,“WALL-E”的推理仅需要少量主要规则,而不需要包含在LLM输入中的大量缓冲轨迹。在Minecraft和ALFWorld的开放世界挑战中,WALL-E的成功率高于现有方法,规划时间和推理所需的令牌数量更低。在Minecraft中,WALL-E比基线高出15%-30%,成功率为95%,仅花费6次迭代。 |
2024-10-09 | I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy | Gian Maria Campedelli et.al. | 2410.07109 | link | 随着大型语言模型(LLM)驱动的代理日益自主并在彼此间自由互动,研究它们之间的交互变得至关重要,以预见可能出现的现象并识别潜在风险。受到斯坦福监狱实验的启发,我们在此领域做出贡献,通过在具有严格社会等级特征的情境下研究LLM代理的交互模式。我们特别关注两种现象:说服和反社会行为,在涉及看守和寻求特定目标(例如获得更多户外活动时间或逃离监狱)囚犯的模拟场景中进行研究。利用200个实验场景和总共2000次机器对机器对话,涉及五种流行的LLM,我们提供了一系列值得关注的发现。 首先,我们记录了某些模型如何在具有权力动态作用的多代理设置中持续失败的对话。然后,对于能够成功互动的模型,我们实证地展示了目标对代理的说服力影响主要,而对代理的反社会行为影响则微乎其微。第三,我们强调了代理个性,特别是看守的性格,如何驱动囚犯成功的说服可能性和反社会行为的出现。第四,我们表明,即使没有明确提示特定个性,仅通过分配代理角色,反社会行为也会自然浮现。这些结果对LLM代理的发展以及对其社会影响的辩论有重要意义。 |
2024-10-09 | Reproducing and Extending Experiments in Behavioral Strategy with Large Language Models | Daniel Albert et.al. | 2410.06932 | null | 在这项研究中,我们提出了一种新型方法——利用大型语言模型(LLM)代理在行为策略研究领域,以补充模拟和实验室实验,从而深化对决策过程中认知过程的理解。具体来说,我们复现了一个人类实验室实验中的行为策略,并使用LLM生成的代理与观察到的人类行为进行对比。我们的结果表明,LLM代理能够有效地重现搜索行为以及与人类相似的决策制定过程。 进一步地,我们分析了LLM代理的“思想”模拟,发现更前瞻性的思想与倾向于利用而非探索以最大化财富的行为相关联。我们展示了这一新方法在行为策略研究领域的应用潜力,并探讨了其可能存在的局限性。 |
2024-10-08 | AgentSquare: Automatic LLM Agent Search in Modular Design Space | Yu Shang et.al. | 2410.06153 | link | 近期大型语言模型(LLM)的进展推动了能够处理复杂任务的智能体系统的快速成长。然而,当前的研究主要依赖于基于手动、任务特定设计的方法,这限制了它们在新任务上的适应性。本文提出了一项新的研究问题:模块化语言模型智能体搜索(MoLAS)。我们提出了一个模块化的设计空间,将现有的LLM智能体设计抽象为四个基本模块,并保持统一的输入输出接口:规划、推理、工具使用和记忆。在此基础上,我们介绍了一个名为AgentSquare的新智能体搜索框架,它引入了两个核心机制:模块进化和重组,以高效地搜索优化的LLM智能体。为了进一步加速这一过程,我们设计了一个性能预测器,利用上下文相关模型作为代理设计的近似模型,从而跳过无前景的代理设计。在六个基准测试中进行了广泛实验,涵盖了网络应用、实体交互、工具使用和游戏等不同场景,结果表明,AgentSquare显著优于手工设计的智能体,平均性能提高了17.2%,与人类最佳设计相比。此外,AgentSquare还能生成可解释的设计洞察,有助于深入理解智能体架构及其对任务性能的影响。我们认为,模块化设计空间和AgentSquare搜索框架提供了一个平台,用于充分利用先前成功设计的潜力,并整合研究社区的努力。代码仓库可访问于https://github.com/tsinghua-fib-lab/AgentSquare。 |
2024-10-08 | Conversate: Supporting Reflective Learning in Interview Practice Through Interactive Simulation and Dialogic Feedback | Taufiq Daryanto et.al. | 2410.05570 | null | 求职面试在塑造个人职业生涯方面起着关键作用,然而,缺乏人类教练或同行提供反馈的环境使面试技能训练变得颇具挑战。近期,大型语言模型(LLM)的发展为提升面试练习体验提供了机会。遗憾的是,目前的研究鲜有探讨此类系统的效果及其用户感知,以及利用LLM进行面试练习所涉及的益处与挑战。尽管先前的工作和最近的商业工具已经展示了人工智能辅助面试练习的潜力,它们通常仅提供单向反馈,即用户只能从他们的表现中获取信息。相比之下,对话式反馈,一个在学习科学领域发展起来的概念,是一种双向互动反馈过程,允许用户通过对话进一步参与并从提供的反馈中学习。本文介绍了一款名为Conversate的基于网络的应用程序,它利用大型语言模型(LLM)支持反思性学习,以促进求职面试练习。用户通过提供职位标题(如入门级软件工程师)来启动面试会话。然后,系统中的LLM代理将开始面试模拟,通过向用户提出开场面试问题,并根据用户的回答精心设计后续问题来启动。面试结束后,系统的后端LLM框架将分析用户的回答,指出需要改进的地方。用户可以通过选择特定段落并撰写自我反思来注释转录。最后,用户可以与系统进行对话式反馈交互,与LLM代理对话,根据代理的指导逐步完善自己的答案。 |
2024-10-07 | Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback | Sanjiban Choudhury et.al. | 2410.05434 | null | 大型语言模型(LLM)在决策制定方面展现出令人印象深刻的能力,但当前的方法缺乏从任务执行期间错误中自动自我改进的机制。我们提出了LEAP,一种迭代细调框架,通过从AI专家教师获取反馈来持续提升LLM代理。我们的关键洞察是为专家教师提供一个特权状态——仅在训练期间可用但在测试时隐藏的信息。这使得即使是最弱的专家也能提供精确指导,显著提高学生代理在不访问测试时的特权信息情况下的性能。我们在多种决策制定基准上评估了LEAP,包括基于文本的游戏(ALFWorld)、网络导航(WebShop)和交互式编码(Intercode Bash)。我们的实验表明,LEAP(1)优于行为克隆和ReAct基线(2)使较弱的学生模型(如Llama3-8B)超过强大教师模型(GPT4-o)的表现,并且(3)允许较弱的模型使用自己特权版本的自我提升。我们也提供了理论分析,显示LEAP的成功取决于平衡特权信息与学生的可实现性,我们通过实验证实了这一观点。我们的代码可在https://leap-llm.github.io 获取。 |
2024-10-07 | GLEE: A Unified Framework and Benchmark for Language-based Economic Environments | Eilam Shapira et.al. | 2410.05254 | link | 大型语言模型(LLMs)在经济和战略互动领域展现出显著潜力,因为自然语言通信在此类场景中通常占主导地位。这引发了一系列关键问题:LLMs是否表现出理性?它们能否模仿人类行为?它们是否倾向于达到高效且公平的结果?自然语言在战略互动中的角色是什么?经济环境的特性如何影响这些动态?对于将基于LLM的代理集成到现实世界的数据驱动系统(如在线零售平台和推荐系统)中时的经济和社会影响而言,这些问题至关重要。 尽管机器学习社区已经探索了LLMs在多代理设置中的潜在应用,但不同研究之间在假设、设计选择和评估标准上的差异使得难以得出稳健且有意义的结论。为解决这一问题,我们引入了一个基准,以标准化对基于语言的双人、序列游戏的研究。借鉴经济学文献,我们定义了三个基类游戏家族,具有一致的参数化、自由度以及用于评估代理性能(自我收益)以及游戏结果(效率与公平性)的经济衡量指标。 我们开发了一个开源框架进行交互模拟与分析,并利用该框架收集了LLM与LVM之间的多个游戏配置以及额外的人类与LVM交互数据集。通过大量实验,我们的框架和数据集可以用于:(i) 比较基于LLM的代理与人类玩家在各种经济背景下的行为;(ii) 从个体和集体绩效角度评估代理;(iii) 定量分析经济环境特性对代理行为的影响。 |
2024-10-09 | GenSim: A General Social Simulation Platform with Large Language Model based Agents | Jiakai Tang et.al. | 2410.04360 | link | 近年来,随着大型语言模型(LLM)的迅速发展,利用基于LLM的代理来模拟人类社会行为的研究取得了许多有前景的成果。尽管先前的工作在特定场景下展示了巨大的潜力,并且涉及有限数量的代理,但它们大多缺乏在模拟过程中出现错误时进行适应的能力。为了克服这些局限性,我们提出了一种名为\textit{GenSim}的新颖的基于LLM的仿真平台:(1)\textbf{抽象了一组通用功能},简化了定制社会场景的仿真;(2)\textbf{支持一百万个代理},以更好地模拟现实世界情境中的大规模人群;(3)\textbf{整合了错误纠正机制},确保更可靠和长期的仿真。为了评估我们的平台,我们评估了大规模代理仿真效率以及错误纠正机制的有效性。据我们所知,GenSim代表了基于LLM代理的通用、大规模和可校正的社会仿真平台的初步步骤,有望进一步推动社会科学领域的发展。 |
2024-10-04 | Permissive Information-Flow Analysis for Large Language Models | Shoaib Ahmed Siddiqui et.al. | 2410.03055 | null | 大型语言模型(LLM)正在快速成为更大软件系统中的通用组件。这引发了一系列自然的安全和隐私问题:从一个组件获取的污染数据可以改变模型的行为并破坏整个系统,包括使模型在不可信组件间传播机密数据。一种有前景的方法是在系统层面上通过动态信息流跟踪(即污点跟踪)来解决这些问题。不幸的是,传统方法将最严格的输入标签传播到输出过于保守,不适合LLM在来自不同来源的输入上操作的应用场景。本文提出了一种新颖的、更宽松的方法来在LLM查询中传播信息流标签。我们的方法的核心思想是仅传播生成模型输出时起作用的样本的标签,并消除不必要的输入标签。 我们实现了并研究了两种这种方法的变体,基于(i)提示增强检索和(ii)基于 |
2024-10-03 | AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML | Patara Trirat et.al. | 2410.02958 | null | 本文提出了一种全新的多代理框架——AutoML-Agent,专为全管道自动化机器学习(AutoML)设计,涵盖了从数据检索到模型部署的整个过程。AutoML-Agent通过接受用户的任务描述、促进专门语言模型代理之间的协作,并交付可部署的模型,从而提供了一个自然语言接口,以简化非专家用户构建数据驱动解决方案的过程。与现有工作不同,本文引入了一种基于检索增强的规划策略来提高探索性,以便在搜索更优解的过程中进行探索。我们还通过并行执行来分解每个计划为子任务(例如数据预处理和神经网络设计),每个子任务由我们通过提示构建的专门代理解决,这使得搜索过程更加高效。此外,我们提出了一个多阶段验证方法来验证执行结果,并指导代码生成语言模型实现成功的解决方案。在七个下游任务上使用十四组数据集进行的大量实验表明,AutoML-Agent在自动化全AutoML流程方面取得了更高的成功率,且系统在整个多样化领域中的性能均表现出色。 |
2024-10-03 | Grounding Large Language Models In Embodied Environment With Imperfect World Models | Haolan Liu et.al. | 2410.02742 | null | 尽管大型语言模型(LLMs)在各种应用中取得了广泛的成功,但在处理基本物理推理或执行机器人任务时,它们经常遇到问题,这是因为它们缺乏对现实世界物理细微之处的直接经验。为了应对这些问题,我们提出了一种名为Grounding Large Language Model with Imperfect World MOdel (GLIMO)的方法,该方法利用代理世界模型,如模拟器,来收集和合成训练数据。GLIMO集成了一个基于LLM的自动数据生成器,用于创建高质量且多样化的指令数据集。生成器包括一个迭代自我精炼模块,用于时间上一致的经验采样,一个多样化的问答指令种子集合,以及一个反射性增强生成模块,用于反映先前的经验。 全面的实验表明,我们的方法能够提高强开源LLMs,如LLaMA-3,在三个不同基准上的性能提升分别为2.04倍、1.54倍和1.82倍,分别。这种性能能够与或超越它们更大的同辈,如GPT-4。 |
2024-10-03 | Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents | Hanrong Zhang et.al. | 2410.02644 | link | 为了填补现有文献在全面评估基于大型语言模型(LLM)的代理攻击与防御策略方面的空白,我们提出了一种名为“代理安全基准”(Agent Security Benchmark, ASB)的综合框架。该框架旨在正式化、标准化并评估基于LLM的代理的安全问题,涵盖了10个应用场景(如电子商务、自动驾驶、金融)、10个针对这些场景的代理、超过400种工具、23类不同的攻击与防御方法以及8个评价指标。基于ASB,我们对10种提示注入攻击、一种记忆污染攻击、一种新颖的计划-思维后门攻击、一种混合攻击以及针对这10种攻击的10种相应防御措施,在13个LLM架构下进行了全面的基准测试,总共产生了近9万个测试案例。我们的基准测试结果揭示了代理操作不同阶段中的关键安全漏洞,包括系统提示、用户提示处理、工具使用和记忆检索,其中最高平均攻击成功率达到了84.30%,但当前的防御措施的有效性有限,这表明社区在代理安全方面仍有许多工作要做。有关此研究的代码可在https://github.com/agiresearch/ASB获取。 |
2024-10-03 | ColaCare: Enhancing Electronic Health Record Modeling through Large Language Model-Driven Multi-Agent Collaboration | Zixiang Wang et.al. | 2410.02551 | null | 我们引入了ColaCare框架,该框架通过大型语言模型(LLM)驱动的多代理协作增强了电子健康记录(EHR)建模。我们的方法无缝地将领域特定的专业模型与LLM结合,以弥合结构化EHR数据与基于文本的推理之间的差距。受临床咨询的启发,ColaCare采用了两种类型的代理:医生代理和元代理,它们协同分析患者数据。专家模型处理并从数值EHR数据生成预测,而LLM代理在协作咨询框架内产生推理参考和决策报告。我们还通过检索增强生成(RAG)模块将默克诊断与治疗手册(MSD)医疗指导整合进来,提供权威证据支持。在四个不同的EHR数据集上进行的大量实验证明了ColaCare在死亡率预测任务中的优越性能,这强调了其在临床决策支持系统和推进个性化精准医学方面的潜力。有关代码、完整提示模板、更多案例研究等的更多信息,请访问匿名链接:https://colacare.netlify.app。 |
2024-10-03 | ELLMA-T: an Embodied LLM-agent for Supporting English Language Learning in Social VR | Mengxu Pan et.al. | 2410.02406 | null | 许多人在学习新语言时会遇到困难,传统的工具在提供针对每个学习者需求的上下文化学习方面存在不足。最近,大型语言模型(LLMs)和在社交虚拟现实(VR)中的具身对话代理(ECAs)的发展,提供了以一种考虑到学习者的语言水平和需求的方式进行上下文化且自然的语言学习的新机会。为了探索这一可能性,我们开发了ELLMA-T,一个利用GPT-4和基于情境学习框架来支持社交VR(VRChat)中英语语言学习的具身对话代理。通过12次的质性访谈,我们揭示了ELLMA-T在VR中为学习者与代理之间的互动生成真实、可信和上下文特定的角色扮演的潜力,以及LLM在为学习者提供初始语言评估和持续反馈方面的能力。我们提供了对于未来开发基于LLM的语言代理在社交VR中的五个设计启示。 |
2024-10-03 | A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization | Yucheng Chu et.al. | 2410.02165 | null | 在学习分析(LA)的背景下,开放式短答问题(SAG)被广泛认为是深入了解学习者响应的强大工具。然而,在实践中,SAG经常面临高评分工作量和评估一致性担忧的挑战。随着自然语言处理(NLP)的最新进展,自动短答评分(ASAG)为解决这些挑战提供了有前景的解决方案。尽管如此,当前的ASAG算法往往在泛化能力上有限,并倾向于针对特定问题进行定制。为此,本文提出了一种统一的多代理ASAG框架GradeOpt,利用大型语言模型(LLMs)作为SAG的评分员。更重要的是,GradeOpt引入了两个基于LLM的额外代理——反射器和细化器——到多代理系统中。这使得GradeOpt能够通过对其错误进行自我反思来自动优化原始评分指南。在对具有挑战性的ASAG任务进行实验,即对教学内容知识(PCK)和内容知识(CK)问题进行评分时,GradeOpt在评分准确性和与人工评分员行为的一致性方面均表现出优于代表基线的性能。最后,全面的消融研究证实了GradeOpt中设计的各个组件的有效性。 |
2024-10-02 | Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics | Yuan Zhou et.al. | 2410.02026 | null | 本文介绍了一种名为ZODIAC的大型语言模型(LLM)框架,旨在通过心脏病专家级别的专业素养,辅助心脏病学诊断。ZODIAC能够从患者数据中提取临床相关特征、检测重要的心律失常,并生成初步报告供心脏病专家审查和细化。为了实现心脏病专家级别的专业素养,ZODIAC构建了一个多代理协作框架,允许对多模态患者数据进行处理。每个LLM代理均通过心脏病专家裁定的真实世界患者数据进行精细调优,以此强化模型的专业素养。 ZODIAC经过了严格的临床验证,由独立的心脏病专家评估,涵盖八个指标,衡量临床效果并解决安全问题。结果显示,ZODIAC在性能上超越了行业领先的模型,包括OpenAI的GPT-4o、Meta的Llama-3.1-405B和Google的Gemini-pro,以及专门针对医疗领域的LLM如微软的BioGPT。这表明了专门设计的LLM在医疗保健领域的潜力,能够提供符合医疗实践严格要求的领域特定解决方案。 值得注意的是,ZODIAC已成功集成到心电图(ECG)设备中,展示了将LLM嵌入软件作为医疗设备(SaMD)的趋势日益增长。 |
2024-10-02 | Moral Alignment for LLM Agents | Elizaveta Tennant et.al. | 2410.01639 | null | 基于大型语言模型(LLM)的决策代理正越来越多地在人类活动的不同领域部署。虽然它们的应用目前较为专业化,但已有研究努力开发更通用的代理。随着LLM系统变得更加自主,它们对人类活动的影响将增加,并且透明度会降低。因此,发展有效的方法来使它们符合人类价值观至关重要。 现有的对齐方法通常依赖于人类偏好数据(例如,在RLHF或DPO中),其中价值观是隐含的,并且本质上是从不同模型输出的相对偏好中推断出来的。与此相反,我们在这项工作中提出了一种设计奖励函数的方法,这些函数明确编码了核心的人类价值观,用于强化学习(RL)方式微调基础代理模型。具体来说,我们使用内在奖励来实现LLM代理的道德对齐。 我们通过传统的哲学框架——德ontology伦理和功利主义来评估我们的方法,量化了在迭代囚徒困境(IPD)环境中代理的道德奖励,基于其行为及其后果。我们还展示了如何通过道德微调使代理能够放弃之前开发的自私策略。最后,我们发现某些在IPD游戏中学习的道德策略能够推广到多个矩阵游戏环境。总之,我们证明了使用内在奖励进行微调是将LLM代理与人类价值观对齐的有前景的一般解决方案,并且可能代表了当前主流对齐技术更加透明和成本效益更高的替代方案。 |
2024-10-03 | RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance | Haolin Jin et.al. | 2410.01242 | link | 大型语言模型(LLM)在代码生成任务上展现出了巨大的潜力,并且最近的提示工程研究进一步增强了LLM对文本信息的理解。然而,确保生成代码的准确性通常需要程序员进行大量的测试和验证。尽管LLM能够基于任务描述生成代码,但在复杂任务上的准确度仍然有限,特别是对于那些需要更深入理解问题陈述和代码生成过程的任务。这一限制主要源于LLM同时需要理解和生成语法和语义上正确的代码,而没有能力自动优化代码的能力。在实际的软件开发中,程序员很少能在仅凭任务描述的情况下一次就生成完美的代码,他们依赖于迭代反馈和调试来完善他们的程序。受此过程启发,我们引入了一种基于LLM的多智能体架构用于代码生成和自动调试:改进与指导调试(RGD)。RGD框架是一个利用三种不同LLM代理(引导代理、调试代理和反馈代理)的多智能体调试器,它将代码生成任务分解为多个步骤,确保了清晰的工作流程,并允许基于自我反思和反馈的代码迭代细化。实验结果表明,RGD在代码生成能力上表现出色,分别在HumanEval数据集和MBPP数据集上相比最先进的方法和传统直接提示方法实现了9.8%和16.2%的性能提升。我们强调了RGD框架在增强LLM自主生成和优化代码能力方面的有效性。 |
2024-10-01 | Dynamic Planning for LLM-based Graphical User Interface Automation | Shaoqing Zhang et.al. | 2410.00467 | link | 大型语言模型(LLM)的兴起激发了对自主LLM基代理进行创新性发展的兴趣,尤其是在智能手机图形用户界面(GUI)中的应用。当面对任务目标时,这些代理通常会模仿人类在GUI环境中的操作直至任务完成。然而,一个关键挑战在于如何有效地制定计划以指导GUI任务中的动作预测,尽管规划已被广泛认为是分解复杂任务的有效方式。具体而言,在执行动作后GUI环境的动态性质意味着需要根据环境反馈和动作历史动态调整计划。 我们发现广受欢迎的ReAct方法失败了,原因在于其过于依赖过长的历史对话。为了解决这一挑战,我们提出了一种名为动态思维规划(D-PoT)的新方法,用于基于LLM的GUI代理。D-PoT涉及根据环境反馈和执行历史动态调整规划的过程。实验结果表明,提出的D-PoT方法在准确性上显著超越了强大的GPT-4V基线,提高了12.7%(从34.66%提高到47.36%)。分析揭示了动态规划在不同基础LLM中的通用性,以及在处理未见过的任务时减少幻觉并适应的能力。代码已发布在https://github.com/sqzhang-lazy/D-PoT。 |
2024-09-30 | MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants | Zeyu Zhang et.al. | 2409.20163 | link | 本文提出了一种名为MemSim的贝叶斯模拟器,用于从生成的用户消息自动构建可靠的问题与答案(Q&A),同时保持其多样性和可扩展性。具体来说,我们引入了贝叶斯关系网络(BRNet)和因果生成机制,以减轻大型语言模型(LLM)幻觉对事实信息的影响,从而促进自动构建评估数据集。基于MemSim,我们在日常生活中生成了一个名为MemDaily的数据集,并进行了广泛的实验,以评估我们方法的有效性。我们还提供了使用MemDaily数据集评估LLM基智能体不同记忆机制的基准。为了惠及研究社区,我们已经在https://github.com/nuster1128/MemSim上发布了我们的项目。 |
2024-10-01 | TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation | Zhiqiang Yuan et.al. | 2409.19894 | null | 本文提出了一种名为TRANSAGENT的新型基于大型语言模型(LLM)的多代理系统,以增强基于LLM的代码翻译过程,并通过四个基于LLM的代理协同工作修复语法错误和语义错误。这四个代理分别是初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT的核心洞察是首先根据目标程序与源程序之间的执行对齐定位目标程序中的错误代码块,这种方法可以缩小修复范围并降低修复难度。 为了评估TRANSAGENT,我们首先从最近的编程任务构建了一个新的基准,以减轻潜在的数据泄露问题。在我们的基准上,TRANSAGENT在翻译效果和效率方面都优于最新的LLM基代码翻译技术UniTrans;此外,在不同LLM上的评估显示了TRANSAGENT的一般性,并且我们的消融研究揭示了每个代理的贡献。 |
2024-09-26 | From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection | Xinlei Wang et.al. | 2409.17515 | link | 本文提出了一种新颖的方法,旨在通过大型语言模型(LLMs)和生成代理来增强时间序列预测。以语言作为媒介,我们的方法适应性地将各种社会事件整合进预测模型中,将新闻内容与时间序列波动对齐,从而提供丰富洞察。具体而言,我们利用基于语言模型的代理进行迭代筛选,去除无关新闻,并采用类似人类的推理和反思来评估预测结果。这使得我们的模型能够分析复杂事件,如意外事件和社会行为转变,并不断优化选择逻辑以及代理输出的稳健性。通过结合精选新闻和时间序列数据,我们对预训练的LLaMa2模型进行微调。结果显示,在准确性方面有显著提升,这表明通过有效利用非结构化新闻数据,可能在时间序列预测领域实现范式转变。 |
2024-09-25 | AAPM: Large Language Model Agent-based Asset Pricing Models | Junyan Cheng et.al. | 2409.17266 | link | 本文提出了一种新型的资产定价方法——基于LLM代理的资产定价模型(AAPM)。该方法将LLM代理的定性主观投资分析与定量手动金融经济因素融合,以预测超额资产回报。实验结果表明,我们的方法在组合优化和资产定价误差方面均优于基于机器学习的资产定价基准。具体而言,异常资产组合的夏普比率和平均α值分别提高了9.6%和10.8%。此外,我们还对模型进行了广泛的消融研究,并对数据进行了深入分析,以揭示提出方法的更多见解。 |
2024-09-25 | Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents | Junting Lu et.al. | 2409.17140 | null | 在多模态大型语言模型(MLLMs)的帮助下,语言模型驱动的代理可以直接与应用用户界面(UI)进行交互,从而在复杂任务中提升代理性能。然而,这些代理常常因为涉及大量顺序UI交互而导致高延迟和低可靠性。为了应对这一问题,我们提出了AXIS,一个新颖的基于语言模型的代理框架,通过应用程序接口(APIs)优先于UI动作来优化代理行为。此外,该框架还通过自动化探索应用以创建和扩展API,促进了API的生成和应用范围的扩展。 我们的实验在Word办公软件上显示,与人类相比,AXIS在完成任务的时间上减少了65%-70%,认知负荷降低了38%-53%,同时保持了97%-98%的准确性。我们的工作为人类-代理-计算机交互(HACI)框架和应用提供者在LLMs时代设计新UI原则提供了贡献,并探讨了将每一个应用转化为代理的可能性,为迈向以代理为中心的操作系统(Agent OS)铺平了道路。 |
2024-09-24 | MultiTalk: Introspective and Extrospective Dialogue for Human-Environment-LLM Alignment | Venkata Naren Devarakonda et.al. | 2409.16455 | null | 本文提出了一种名为MultiTalk的基于大语言模型(LLM)的任务规划方法。通过引入内省和外省对话循环框架,该方法旨在解决LLM在任务规划中可能遇到的问题,如幻觉、用户指令中的歧义、环境约束以及执行代理能力的局限性。这些问题可能导致生成的计划出现错误或不完整。 MultiTalk方法通过特定系统来提取和预测与任务相关的状态,并标记出人、LLM代理和环境之间的不匹配或偏差。有效的反馈路径促进人与LLM之间的有意义对话。这种方法在机器人操作任务的应用中得到了验证。实验和消融分析展示了MultiTalk方法的稳健性和可靠性,与基线方法的比较进一步证明了其在实体代理任务规划方面的优势。 总之,MultiTalk提供了一种通过增强LLM与环境、执行者和用户之间的一致性和沟通来改进任务规划过程的方法,从而提高规划的有效性和效率。 |
2024-09-23 | Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality | Yiwen Xu et.al. | 2409.15623 | null | 本文介绍了一种名为Safe Guard的LLM代理,用于检测社交VR(VRChat)中的语音交互中的仇恨言论。我们的系统利用了Open AI GPT和音频特征提取技术,实现了实时语音交互的检测功能。我们贡献了一个系统设计以及对该系统的评估,这些都证明了我们方法在检测仇恨言论方面的有效性,并且相比现有方法显著降低了误报率。我们的结果表明基于LLM的代理在创建更安全的虚拟环境方面具有潜力,并为进一步发展基于LLM的管理方法奠定了基础。 |
2024-09-20 | ControlMath: Controllable Data Generation Promotes Math Generalist Models | Nuo Chen et.al. | 2409.15376 | null | 利用大型语言模型(LLM)进行数据增强在数学推理方面取得了令人鼓舞的结果。然而,这些方法在问题多样性方面存在限制,可能仅局限于特定领域的数据生成。为此,我们提出了一种名为ControlMath的迭代方法,该方法包含一个方程式生成模块和两个基于LLM的代理。该模块产生多样化的方程,问题创造者代理随后将其转化为数学文字问题。逆向代理则筛选并选择高质量的数据,遵循“少即是多”的原则,使用更少的数据点就能实现更好的结果。这种方法能够生成多样化的数学问题,不受特定领域或分布的限制。 因此,我们收集了ControlMathQA数据集,包含19万个数学文字问题。广泛的实验结果证明,将我们的数据集与GSM8K等内部领域数据集结合,可以帮助提高模型在数学推理方面的泛化能力,从而在特定领域内以及超出特定领域时都能取得更好的性能。 |
2024-09-25 | Towards a Realistic Long-Term Benchmark for Open-Web Research Agents | Peter Mühlbacher et.al. | 2409.14913 | null | 我们提出了一项即将推出的基准测试,用于评估大型语言模型(LLM)代理在经济价值高的白领任务上的表现。我们对金融和咨询领域常规进行的、现实世界中的“杂乱”开放网络研究任务进行了评估。这样做,我们为建立一个LLM代理评估套件奠定了基础,在该套件中,良好的性能直接对应着巨大的经济和社会影响。我们构建并测试了多个代理架构,包括o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1(405b)以及GPT-4o-mini。平均而言,使用Claude-3.5 Sonnet和o1-preview的LLM代理在性能上明显优于使用GPT-4o的代理,而基于Llama 3.1(405b)和GPT-4o-mini的代理则落后很多。在所有LLM中,具有委托子任务给子代理能力的ReAct架构表现最佳。除了定量评估之外,我们还通过检查代理的追踪记录和反思它们的观察结果,对代理的能力进行了定性评估。我们的评估代表了首次深入评估代理在真实开放网络上执行具有挑战性的、经济上有价值的分析师式研究的能力。 |
2024-09-23 | Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents | Zechang Sun et.al. | 2409.14807 | null | 本文展示了大型语言模型为基础的智能体如何加速天文学研究流程,通过模仿人类推理来解释多波段星系观测数据。我们提出了mephisto框架,它能够与CIGALE代码库协作,后者包含了用于解释观测数据的光谱能量分布(SED)模型。在开放世界环境中,mephisto通过自我游戏经验学习、执行树搜索并积累动态更新的知识基础。作为概念验证,我们将mephisto应用于詹姆斯韦伯太空望远镜的最新数据集。结果表明,mephisto在推理星系物理场景方面达到了接近人类的专业水平,甚至在处理新发现的“小红点”星系时也是如此。这是智能体进行天文学研究的首次展示,朝着通过大型语言模型代理实现端到端研究的方向迈进,可能有助于加快天文发现的速度。 |
2024-09-22 | Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks | Ruoyu Song et.al. | 2409.14488 | null | 随着大型语言模型(LLM)与自动驾驶(AD)系统集成的日益增长的兴趣,AD系统面临着攻击其对象检测与追踪(ODT)功能的风险。我们的评估表明,针对四个近期提出的LLM代理的ODT攻击成功率达到63.26%,导致它们崩溃或违反交通规则,原因在于误导性记忆模块提供的过往经验、提示在识别不一致性方面的局限性以及对地面实况感知数据的依赖。为此,我们提出了一种名为Hudson的驾驶推理代理,它扩展了先前基于LLM的驾驶系统,旨在在感知攻击期间实现更安全的决策制定,同时在正常条件下保持有效性。 Hudson通过首先对AD软件进行仪器化收集实时感知结果和驾驶场景的上下文信息来实现这一目标。这些数据随后被转化为领域特定语言(DSL)。为了引导LLM在ODT攻击期间检测并做出安全控制决策,Hudson将DSL转换为自然语言,并附带一组自定义的攻击检测指令。执行查询后,Hudson分析LLM的控制决策以理解其因果推理过程。 我们使用私有LLM(GPT-4)、两个开源LLM(Llama和Gemma)和各种对抗性驾驶情景对Hudson的有效性进行了评估。GPT-4、Llama和Gemma在平均情况下实现了83.3%、63.6%和73.6%的攻击检测准确率。因此,在86.4%、73.9%和80%的攻击中,它们做出了安全控制决策。随着将LLM集成到AD系统中的兴趣增长,我们的结果强调了LLM的优势及其在检测和缓解ODT攻击方面的潜力。 |
2024-09-20 | Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection | Md Nakhla Rafi et.al. | 2409.13642 | null | 在软件开发过程中,定位和修复软件故障是一个耗时且资源密集型的任务。传统的故障定位方法,如基于频谱的故障定位(SBFL),依赖于测试覆盖率数据的统计分析,但往往准确性较低。基于学习的技术虽然更有效,但需要大量的训练数据,并且计算成本高昂。最近,大型语言模型(LLMs)的进步为改善故障定位提供了有前景的方法,通过增强代码理解和推理来提升性能。然而,这些LLM基线技术仍然面临挑战,包括令牌限制、长输入性能下降以及处理涉及多个相互作用组件的复杂系统时的困难。 为了解决这些问题,我们提出了一种名为LLM4FL的创新性LLM代理基线故障定位方法,它结合了SBFL排名与分而治之策略。通过将大规模覆盖数据分解为可管理的组,并利用多个LLM代理通过提示链式调用,LLM4FL有效地导航代码库并定位故障。该方法还整合了自我反思和链式思考推理,使代理能够迭代生成修复并重新排名可疑方法。我们使用Defects4J(V2.0.0)基准进行评估,其中包括来自14个开源Java项目的675个真实世界故障。结果显示,LLM4FL在Top-1准确率上比AutoFL高出19.27%,并且优于最先进的监督技术,如DeepFL和Grace,所有这些都无需特定任务的培训。此外,我们强调了覆盖拆分和提示链对故障定位性能的影响,并展示了不同的方法排序可以提高Top-1准确率高达22%。 |
2024-09-23 | AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit | Mohanna Hoveyda et.al. | 2409.13447 | null | 在问答(QA)领域,不同的问题可能需要不同的回答策略来有效解决。一些问题可以通过简单的查找来解决,而另一些则需要复杂的、多步骤的推理。这一观察结果激发了开发一种动态方法,该方法能够为每个问题适当地选择最合适的QA策略,从而构建更高效、更有效的系统,能够处理更广泛类型的问题。为了实现这一目标,我们基于多个大型语言模型(LLMs)的集成最新进展,并将适应性QA定义为一个动态编排挑战。我们将此视为一个上下文多臂老虎机问题,其中上下文由进入问题的特性定义,而动作空间包括潜在的LLM代理之间的通信图配置。然后,我们训练了一个线性上界信心边界模型,以学习不同问题类型与其对应的最佳多LLM通信图表示之间的最优映射。我们的实验表明,提出的解决方案适用于适应性的LLM集成问答系统的编排,它结合了更复杂策略的优越性能,同时避免了在简单策略足以的情况下使用这些策略的成本。 |
2024-09-24 | Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models | Hao Ding et.al. | 2409.13107 | null | 本文提出了一种基于数字孪生的机器感知方法,旨在利用近期视觉基础模型的令人信服的表现和开箱即用的泛化能力。该方法通过结合数字孪生的场景表示和大型语言模型(LLM)代理进行规划,与dVRK平台集成,从而开发出一个具有强大任务性能和在不同环境设置下通用性的实体智能系统。在执行穿针移位和纱布检索任务时,我们的方法显示出强大的任务性能和通用性。 尽管表现出令人信服的表现,但本文的工作仅仅是对基于数字孪生的场景表示集成的第一步。为了实现全面的数字孪生框架以改善手术领域实体智能的可解释性和通用性,未来的研究是必要的。 |
2024-09-17 | LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents | Amine B. Hassouna et.al. | 2409.11393 | null | 本文通过提出一个统一框架——LLM-Agent-UMF(基于语言模型的代理统一建模框架),解决了集成工具到语言模型(LLM)驱动的代理以及在多个前沿工作中提出的改进措施所导致的软件架构非统一性问题。传统上,这些技术的结合及后续工作侧重于功能实现而非定义组件边界,导致了研究人员之间的术语和架构上的混淆。 该框架明确了代理的不同组件,包括LLM、工具以及新引入的核心代理概念,其作用是代理的中央协调者,由规划、记忆、个人资料、行动和安全五个模块组成。核心代理的内部结构差异促使我们将其分类为被动型和主动型两种类型。基于此分类,我们提出了结合不同个体代理独特特性的多种多核心代理架构。 为了验证框架的有效性,我们将该框架应用于一系列前沿代理,并展示其与功能的一致性,同时澄清了先前被忽视的架构方面。此外,我们对四个提出的架构进行了详尽评估,通过整合具有不同特性的代理到混合主动/被动核心代理系统中,这一过程提供了对特定代理组合可能带来的改进和面临的挑战的清晰见解。 |
2024-09-17 | Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments | Maria Rigaki et.al. | 2409.11276 | null | 本篇论文探讨了在网络安全环境中使用本地微调的大型语言模型(LLM)作为红队代理的可能性。考虑到商业云基LLM的隐私问题、成本和网络连接限制,我们提出了Hackphyr——一个本地微调的70亿参数模型,旨在用于网络安全环境中的红队任务。我们的模型能够在单个GPU卡上运行,并且在性能上与更大更强大的商业模型如GPT-4相媲美。 Hackphyr在复杂、前所未见的场景中显著优于其他模型,包括GPT-3.5-turbo以及Q-learning代理等基线模型。为了实现这一性能提升,我们构建了一个专门针对网络安全任务的新数据集,以增强基础模型的能力。最后,我们对代理行为进行了全面分析,提供了关于此类基于LLM的代理在网络安全上下文中的规划能力和潜在局限性的见解,从而为更广泛地理解此类代理在网络安全领域的应用提供了参考。 |
2024-09-14 | On the limits of agency in agent-based models | Ayush Chopra et.al. | 2409.10568 | link | 本文介绍了一种名为AgentTorch的框架,旨在通过使用大型语言模型(LLMs)作为具有适应性行为的代理,将基于个体的模型(ABM)扩展到数百万个代理的规模。这一框架旨在在模拟复杂系统的行为时,既捕捉到真实环境动态和适应性代理行为,又保持对庞大人口群体高效模拟的能力。大型语言模型的最新进展为增强ABM提供了机会,但使用LLMs进行大规模代理的计算可行性限制了其广泛应用。 我们通过实验评估了使用LLMs作为ABM代理的实用性,探索了模拟规模与单个代理行为细节之间的权衡。以COVID-19大流行为例,我们展示了AgentTorch如何模拟840万个代表纽约市的代理,以捕捉隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式方法和LLMs的不同代理架构在预测疾病浪潮和失业率方面的性能。 此外,我们展示了AgentTorch在回顾性、假设性和前瞻性分析中的能力,强调了适应性代理行为如何帮助克服历史数据在政策设计中的局限性。AgentTorch是一个开源项目,目前正被全球用于政策制定和科学发现。该框架可在此获取:github.com/AgentTorch/AgentTorch。 |
2024-09-19 | Instigating Cooperation among LLM Agents Using Adaptive Information Modulation | Qiliang Chen et.al. | 2409.10372 | null | 本文提出了一种新颖的框架,将大型语言模型(LLM)代理作为人类战略行为的代理,并结合强化学习(RL)让这些代理在团队环境中进行不断演化的战略互动。我们的方法扩展了传统的基于代理的模拟,通过使用策略性大型语言模型(SLA)以及引入动态和适应性的治理,通过促进社会行为的强化学习代理(PPA),该代理调节网络中代理之间的信息访问,以优化社会福利并促进亲社会行为。通过在迭代游戏中验证,包括囚徒困境,我们展示了SLA代理表现出复杂的战略调整。PPA代理有效地学习调整信息透明度,导致合作率显著提高。这一框架提供了对人工智能驱动的社会动力学的重要见解,为在实际团队环境中部署AI做出了贡献。 |
2024-09-17 | Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition | Chao-Han Huck Yang et.al. | 2409.09785 | null | 在近期生成式人工智能技术的推动下,大型语言模型(LLMs)如何增强基于文本解码的自动语音识别(ASR)模型在声学建模任务中的应用成为了一个关键问题。为了探索语言建模在语音处理领域的潜在新能力,本文提出了一项名为“生成性语音转录错误修正”(GenSEC)的挑战。该挑战包含了三个针对后ASR语言模型的任务:(i)后ASR转录修正、(ii)说话者标签化以及(iii)情感识别。这些任务旨在模拟未来基于语言模型的语音界面代理处理工作时的场景,并通过使用开源预训练语言模型或基于代理的API来保持对广泛受众的可访问性。此外,本文还讨论了基准评估的结果以及设计未来评估时应汲取的经验教训。 |
2024-09-15 | RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation | Qingyao Li et.al. | 2409.09584 | null | 本文针对LLM(大型语言模型)代理与树搜索算法在代码生成任务中的应用进行了深入研究。当前的搜索算法在这一领域存在低搜索质量的问题,主要源于以下三个原因:1)对代码生成任务高推理要求的搜索空间设计不合理;2)未能充分结合代码反馈优化搜索过程;3)处理负反馈时效率低下,导致搜索质量和效率降低。 为解决这些问题,我们提出了一种新的方法——RethinkMCTS(反思蒙特卡洛树搜索)。该方法通过在生成代码之前进行多层次的思考搜索,探索更广泛的策略选项。更重要的是,RethinkMCTS利用细粒度的代码执行反馈构建口头反馈,以修正搜索过程中出现的错误思路。这种机制确保了搜索沿着正确的推理路径前进,从而提高整个搜索树的整体质量。 实验结果表明,与之前的基于搜索和反馈的代码生成基准相比,RethinkMCTS取得了显著的性能提升。在HumanEval数据集上,RethinkMCTS将GPT-3.5-turbo的pass@1指标从70.12提高到了89.02,将GPT-4o-mini的pass@1指标从87.20提升至94.51。通过深入的探索和改进整个搜索树的质量,RethinkMCTS有效地增强了搜索过程的全面性和深度。 |
2024-09-14 | Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models | Yuanzhao Zhai et.al. | 2409.09345 | null | 本文提出了一种利用任务相关Q值模型来指导行动选择的方法,以增强大型语言模型(LLM)代理在多步决策任务中的性能。具体地,我们首先通过蒙特卡洛树搜索(MCTS)收集了标注有步骤级Q值的决策轨迹,并构建了偏好数据集。接着,我们使用另一个LLM通过步骤级直接策略优化(DPO)拟合这些偏好,从而形成Q值模型。在推理过程中,对于每个决策步骤,LLM代理都会选择具有最高Q值的动作,然后再与环境进行交互。我们将该方法应用于多个开源和API集成的LLM代理上,结果显示,引入Q值模型显著提高了它们的性能。特别值得注意的是,构建于Phi-3-mini-4k-instruct的代理在WebShop任务上的性能提升了103%,在HotPotQA任务上提升了75%,甚至超越了GPT-4o-mini。此外,Q值模型还具备几个优势,如对不同LLM代理的泛化能力和与现有提示策略无缝集成的能力。 |
2024-09-14 | Python Symbolic Execution with LLM-powered Code Generation | Wenhan Wang et.al. | 2409.09271 | null | 本文提出了一种利用大型语言模型(LLM)增强的代理工具——LLM-Sym。该工具旨在解决使用符号执行技术在动态类型语言如Python中遇到的主要挑战。通过自动调用SMT求解器Z3来解决执行路径约束,LLM-Sym能够扩展基础的符号执行引擎,使其支持包含复杂数据类型list 的程序。 LLM-Sym的核心贡献在于将复杂的Python路径约束转化为Z3代码的能力。为了实现准确的路径到Z3代码的转换,我们设计了一个多步骤的代码生成管道,包括类型推断、检索和自我精炼等环节。 实验结果表明,LLM-Sym能够解决具有复杂控制流和列表数据结构的LeetCode问题中的路径约束,这是基础符号执行引擎无法做到的。这一方法为LLM与符号求解器推理能力的结合开辟了道路,并为LLM辅助测试用例生成提供了新的机遇。 |
2024-09-23 | Agents in Software Engineering: Survey, Landscape, and Vision | Yanlin Wang et.al. | 2409.09030 | link | 近年来,大型语言模型(LLMs)在各种下游任务中取得了显著成功,并在软件工程(SE)领域广泛应用。我们发现许多结合LLMs与SE的研究工作明确或隐含地采用了代理概念。然而,缺乏对现有工作的深度综述,以整理其发展背景、分析如何结合LLMs代理技术优化各类任务以及阐明SE中的LLMs代理框架。本文开展首次针对结合LLMs代理与SE的研究综述,并提出SE中LLMs代理的框架,包括感知、记忆和行动三个关键模块。同时,总结了两个领域结合时面临的问题,并针对现有挑战提出了未来机遇。我们维护了一个包含相关论文的GitHub仓库:https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。 |
2024-09-13 | AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents | Zhe Su et.al. | 2409.09013 | null | 为了安全和成功地部署,语言模型(LLMs)必须同时满足真实性和实用性目标。然而,这两个目标往往在冲突中,例如AI助手帮助二手车销售员销售有瑕疵的汽车。这种冲突部分归因于模糊或误导性的用户指令。我们提出了一种名为AI-LieDar的框架,以研究在多轮交互设置中,基于LLM的代理如何处理实用性和真实性的冲突。 我们设计了一系列现实场景,其中语言代理被指示实现与多轮对话中的真实性冲突的目标。为了大规模评估真实性,我们开发了一个基于心理学文献的可信度检测器,用于评估代理的回答。我们的实验表明,所有模型的真实回答比例不到50%,尽管达到目标(实用性)和真实性的比例在不同模型中有所差异。我们进一步测试了LLM的可引导性,发现模型会遵循恶意指令来欺骗,即使经过引导使其趋向真实的模型也仍然可能说谎。 这些发现揭示了LLM中真实性的复杂性,并强调了确保LLM和AI代理的安全可靠部署需要进一步研究的重要性。 |
2024-09-13 | Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance | Lucio La Cava et.al. | 2409.08963 | null | 确保内容遵守社区准则对于维护健康的在线社交环境至关重要。然而,传统基于人工的合规检查在处理用户生成内容的日益增加量以及有限的管理员数量时,面临着难以扩展的问题。大型语言模型在自然语言理解方面的新进展为自动内容合规验证提供了新的机遇。本工作评估了六个基于Open-LLMs构建的AI代理,用于去中心化社交网络中的自动化规则遵循检查,在这种具有挑战性的环境中,由于社区范围和规则的异质性,这一任务尤为困难。通过分析来自数百个Mastodon服务器的超过50,000条帖子,我们发现AI代理能够有效地检测不合规的内容、理解语言的细微差别,并适应多样的社区上下文。大多数代理还表现出高度的一致性和一致性评分解释与合规建议。基于领域专家的人类评估确认了代理的可靠性和实用性,表明它们是半自动化或人机协作内容管理系统的有前景的工具。 |
2024-09-13 | Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents | Junchi Yao et.al. | 2409.08717 | null | 在社交媒体日益成为社会运动形成公众意见的重要平台的背景下,准确模拟和预测用户意见动态对于理解社会现象、政策制定以及引导公众意见至关重要。然而,现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临着挑战。针对这一问题,本文提出了一种创新的社交媒体用户意见动态模拟方法——FDE-LLM算法,该算法结合了意见动态与流行病模型,有效约束了大型语言模型(LLM)的行为和意见演化过程,使其更加符合现实网络世界。特别地,FDE-LLM将用户分为意见领袖和跟随者两大类。意见领袖基于LLM角色扮演,并受细胞自动机(CA)模型约束,而意见跟随者则融入了一个结合CA模型与SIR模型的动态系统。这种创新设计显著提高了模拟的准确性和效率。 实验在四个真实微博数据集上进行,并使用开源模型ChatGLM进行了验证。结果表明,相较于传统基于代理的模型(ABM)意见动态算法和基于LLM的意见传播算法,我们的FDE-LLM算法在准确性与可解释性方面表现更优。 |
2024-09-10 | MAGDA: Multi-agent guideline-driven diagnostic assistance | David Bani-Harouni et.al. | 2409.06351 | null | 在紧急护理部门、偏远医院或发展中国家的诊所中,临床医生经常缺乏由训练有素的放射科医生快速分析影像的能力,这会对病人的健康护理产生不利影响。大型语言模型(LLMs)有可能通过提供有助于他们决策的见解来缓解这些临床医生的压力。尽管这些LLM在展示其理论医学知识的医学考试上取得了高分,但它们往往不遵循医学指南。为此项工作,我们引入了一种新的零样本指南驱动决策支持方法。我们构建了一个由多个LLM代理组成的系统,这些代理配备了对比视觉-语言模型,以协作方式达成患者诊断。在向这些代理提供简单的诊断指南后,它们会合成提示并根据这些指南筛选图像以寻找发现。最后,它们提供一个可理解的推理链路来解释其诊断结果,并自我精炼以考虑疾病之间的相互依赖性。由于我们的方法是零样本的,因此适用于罕见疾病场景,在这些场景中训练数据有限,但专家设计的疾病描述可用。我们在两个胸部X射线数据集CheXpert和ChestX-ray 14 Longtail上评估了我们的方法,展示了与现有零样本方法相比的性能提升,并且能够应用于罕见疾病的泛化。 |
2024-09-08 | A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement | Huan Zhang et.al. | 2409.05001 | link | 在代码生成领域,大型语言模型(LLM)展现出了令人瞩目的性能。尽管先前的研究通过提示技术及代码精炼对LLM进行了增强,但它们在处理复杂编程问题时仍面临挑战,因为这些问题往往具有僵化的解决方案计划。本文提出了一种名为PairCoder的新型LLM基框架,旨在模仿双人协作编程实践,以解决这一问题。 PairCoder由两个协作的LLM代理组成:导航员(Navigator)和驾驶员(Driver)。导航员负责提出有前景的解决方案计划、选择当前最佳计划,并根据执行反馈指导下一轮迭代。驾驶员则遵循导航员的指引,进行初始代码生成、代码测试和优化。 这种交替和迭代的工作流程包括多计划探索和基于反馈的细化,模拟了双人程序员的合作方式。我们使用开源和闭源的LLM,在多种代码生成基准上对PairCoder进行了评估。实验结果表明,PairCoder在准确性方面显著优于直接使用提示的LLM,相对pass@1提高了12.00%-162.43%。 |
2024-09-06 | Sparse Rewards Can Self-Train Dialogue Agents | Barrett Martin Lattimer et.al. | 2409.04617 | link | 本文探讨了在多轮对话任务中,大型语言模型(LLM)代理的最新进展主要由监督微调和高质量的人类反馈驱动。然而,随着基础LLM模型性能的持续提升,获取有意义的人类反馈变得越来越困难且成本高昂。在某些领域中,基础LLM可能最终超越人类能力,使得传统的基于反馈的方法变得不切实际。因此,本文提出了一种新的自我改进范式,允许LLM代理在没有外部人类反馈的情况下自主提高其性能。 我们引入了一种名为“对比结果为模拟收获”(JOSH)的自我对齐算法,该算法利用稀疏奖励模拟环境来提取理想行为,并进一步训练LLM以自身输出进行训练。我们从MultiWOZ中构建了一个用于工具调用的稀疏奖励仿真环境,称为ToolWOZ。实验结果显示,使用JOSH训练的模型(无论是小型还是前沿模型),在基于工具的交互上显著提高了表现,同时保持了在各种基准测试中的广泛模型能力。 我们的代码和数据已在GitHub上公开提供。 |
2024-09-06 | LLM-based multi-agent poetry generation in non-cooperative environments | Ran Zhang et.al. | 2409.03659 | link | 尽管大型语言模型在自动诗歌生成方面取得了显著进步,但生成的诗歌缺乏多样性,而训练过程与人类学习大相径庭。基于这样的理念,即诗歌生成系统的学习过程应更加人性化,并且其输出更加多样和新颖,我们引入了一种基于社会学习的框架,在此框架中,我们强调除了合作互动之外的非合作互动,以鼓励多样性。我们的实验是首次尝试在非合作环境中利用基于训练的代理(GPT-2)和基于提示的代理(GPT-3和GPT-4)进行诗歌生成的大型语言模型多代理系统。 根据对生成的96,000首诗的评估,我们的框架对基于训练的代理的诗歌生成过程带来了好处,导致n-gram多样性增加了3.0-3.7个百分点,新颖性增加了5.6-11.3个百分点。基于训练的代理生成的诗歌在词汇、风格和语义上表现出群体分化。在我们的框架中,基于提示的代理也从非合作环境中受益,并且具有非同质代理的更多样化的模型集合有可能进一步提高多样性,我们的实验结果显示多样性增加了7.0-17.5个百分点。然而,基于提示的代理显示出随着时间推移,词汇多样性减少,并且没有表现出预期的群体分化意图的社会网络。我们的论文主张,在自动诗歌生成等创意任务中,需要将社会学习过程(通过基于大型语言模型的代理建模)纳入考虑范围,以模仿人类的交互方式。 |
2024-09-05 | Rx Strategist: Prescription Verification using LLM Agents System | Phuc Phan Van et.al. | 2409.03440 | null | 为了保障患者安全,现代药物复杂性要求严格处方验证。我们提出了一种新的方法——Rx Strategist,它利用知识图谱和不同的搜索策略,结合代理框架中的大型语言模型(LLMs),以增强其能力。这种多维度的技术允许构建一个多阶段的LLM管道,并从自定义活性成分数据库中可靠地检索信息。该管道覆盖了处方验证的不同方面,如适应症、剂量和可能的药物相互作用,每个阶段都包含了这些方面的内容。 通过在这些阶段分散推理,我们缓解了单一LLM技术的缺点,提高了正确性和可靠性,同时减少了内存需求。我们的研究结果表明,Rx Strategist超越了许多当前的LLMs,其性能与经验丰富的临床药师相当。在现代药物的复杂世界中,将LLMs与组织化知识和高级搜索方法相结合,提供了一条减少处方错误并提高患者结果的可行途径。 |
2024-09-05 | GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding | Yukun Cao et.al. | 2409.03258 | null | 虽然大型语言模型(LLMs)在处理图方面展现出潜力,但在通过描述序列的图说明来理解图形结构信息时,尤其是在图的大小增加时,它们遇到了挑战。我们归因于LLMs在图描述序列的不同位置上存在不均匀的记忆性能,即所谓的“位置偏见”。为了应对这一挑战,我们提出了GraphInsight,一个旨在提高LLMs对宏观和微观图形信息理解的新框架。GraphInsight基于两个关键策略:1)将关键图形信息放置在LLMs表现出更强记忆性能的位置;2)对于记忆性能较弱的区域,探索使用轻量级外部知识库,灵感来自于检索增强生成(RAG)。此外,GraphInsight还探索了将这两种策略集成到LLM代理流程中,以解决需要多步推理的复合图任务。广泛的基准实验表明,在不同大小的图形结构理解任务上,GraphInsight显著超越了所有其他图描述方法(例如提示技术、重新排序策略等)。 |
2024-09-04 | Large Language Model-Based Agents for Software Engineering: A Survey | Junwei Liu et.al. | 2409.02977 | link | 本文提供了一篇全面且系统的关于大型语言模型(LLM)在软件工程(SE)中的应用的综述。我们收集了106篇论文,并从两个角度进行分类,即软件工程视角和代理视角。此外,我们还讨论了该领域面临的关键挑战以及未来的发展方向。此综述的仓库地址为:https://github.com/FudanSELab/Agent4SE-Paper-List。 |
2024-09-02 | Evolution of Social Norms in LLM Agents using Natural Language | Ilya Horiguchi et.al. | 2409.00993 | null | 大型语言模型(LLM)的最新进展激发了利用这些模型进行游戏理论模拟的兴趣,在这些模拟中,LLM充当个体代理,进行社会互动。本文研究了通过自然语言对话使LLM代理自发生成并遵守规范策略的可能性,以此为基础,探索了对Axelrod的元规范游戏工作的进一步发展。我们的实验表明,通过对话,LLM代理能够仅通过自然语言交互形成复杂的社交规范,如元规范——规范惩罚不惩罚作弊行为的规范。结果证实了使用LLM代理模拟社会互动和理解通过自然语言演化出复杂策略与规范的有效性。未来的工作可能通过扩展到更广泛的场景和代理特征,揭示更多关于社会规范形成的微妙机制。 |
2024-09-02 | Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces | Jiapeng Yu et.al. | 2409.00985 | link | 基于大型语言模型的在线问答系统从娱乐用途逐渐转向专业领域应用。本文提出了一种名为“代码学习(Co-Learning)社区”的多代理框架,结合环境强化学习(E-RL),旨在帮助初学者独立修正代码错误。该系统通过一个包含702个错误代码的原始数据集评估了多个大型语言模型的表现,并将其作为E-RL奖励或惩罚的标准。通过分析当前代理输入的错误代码,选择合适的基于大型语言模型的代理以实现最佳的错误修正准确率并减少修正时间。 实验结果表明,与无E-RL方法相比,该方法在精确度得分上提高了3%,在时间成本上降低了15%。我们的源代码可访问:https://github.com/yuqian2003/Co_Learning |
2024-08-29 | HoneyComb: A Flexible LLM-Based Agent System for Materials Science | Huan Zhang et.al. | 2409.00135 | null | 为了应对材料科学任务中的复杂性并解决大型语言模型(LLM)在这一领域应用时所面临的问题,如依赖过时的隐性知识导致的准确性下降和幻觉现象,我们提出了HoneyComb——首个专门针对材料科学领域的LLM代理系统。HoneyComb通过利用一个基于可靠文献的高质量材料科学知识库(MatSciKB)和一种创新的工具集(ToolHub),增强其针对材料科学特有的推理与计算能力。 MatSciKB是一个经过精心编纂、结构化的知识集合,旨在涵盖材料科学领域的关键信息。而ToolHub则采用了一种归纳式工具构建方法,用于生成、分解和优化适用于材料科学的API工具,从而极大地提高了系统的实用性。此外,HoneyComb还配备了一个检索模块,该模块能够根据特定任务智能选择最合适的知识来源或工具,确保了答案的准确性和相关性。 实验结果表明,HoneyComb在材料科学领域的各种任务上均表现出显著优于基线模型的能力,成功地弥合了当前LLM技术与材料科学特定需求之间的差距。更为重要的是,我们的可扩展框架易于扩展至其他科学领域,展示了其在推动科学研究和应用发展方面具有广泛的应用潜力。 |
2024-08-30 | Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios | Zhongyuan Wang et.al. | 2408.16991 | null | 本文提出了一种基于工具辅助的代理框架,用于SQL检查和改进,旨在提升大型语言模型(LLM)处理现实世界查询的能力。该框架通过为LLM代理配备两个专门工具——检索器和检测器,以诊断并修正SQL查询中的数据库不匹配问题。这些工具能够增强LLM处理真实场景中出现的条件不匹配和严格约束不匹配等数据库不匹配问题的能力。 我们还引入了Spider-Mismatch,这是一个专门为反映现实世界中遇到的条件不匹配问题而构建的新数据集。实验结果表明,在少量示例设置下,我们的方法在Spider和Spider-Realistic数据集上的平均表现最佳,并且显著优于基线方法,在更具有现实性的数据集Spider-Mismatch上也表现出更好的性能。 |
2024-08-28 | EPO: Hierarchical LLM Agents with Environment Preference Optimization | Qi Zhao et.al. | 2408.16090 | link | 本文提出了一种分层框架,用于解决复杂任务分解为可管理子目标的问题。框架使用了独立的语言模型进行子目标预测和低级动作生成。针对无标注数据集的训练信号创建挑战,我们开发了一个奖励模型,利用环境多模态反馈自动生成奖励信号。我们引入了环境偏好优化(EPO)方法,该方法从环境反馈中生成偏好信号,并利用这些信号训练基于语言模型的代理。ALFRED实验结果表明,我们的框架在性能上处于领先地位,首次登上了ALFRED公开排行榜,并展示了其在不同环境中的长期决策制定能力的提升潜力。 |
2024-09-05 | LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models | Jiayi Gui et.al. | 2408.15778 | link | 本文介绍了一个名为LogicGame的新基准,旨在评估大型语言模型(LLMs)在规则理解和执行、多步规划方面的全面能力。不同于传统的基准测试,LogicGame提供了多种游戏,其中包含一系列规则以及初始状态,要求模型理解并应用预定义规则来解决问题。我们创建了模拟情景,让模型执行或规划操作以达到特定目标。这些游戏场景专门设计以区分逻辑推理与仅依赖知识的能力,完全依赖于预设规则。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果,还考虑中间步骤,提供模型性能的全面评估。此外,这些中间步骤是确定性的,并且可以自动验证。LogicGame定义了从简单规则应用到复杂推理链的不同难度级别的游戏场景,以精确评估模型在规则理解和多步执行上的性能。通过使用LogicGame,我们测试了各种LLM,并发现了它们在基于规则的逻辑推理能力方面的显著不足。 |
2024-08-27 | AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems | Chi-Min Chan et.al. | 2408.14972 | link | 快速发展的大型语言模型(LLM)推动了基于LLM的代理兴起。近期研究发现,在多代理系统(MAS)中,每个代理执行特定角色时,其性能通常优于单一LLM。然而,配置MAS以完成任务仍然具有挑战性,因为任务表现仅在执行后才能观察到。受到LLM开发中的规模法则启发,我们探索是否能在任务执行前预测MAS的性能。为此,我们引入了AgentMonitor框架,该框架在代理层级集成,用于捕获输入和输出信息,并将这些信息转换为统计数据,用于训练回归模型预测任务性能。此外,AgentMonitor还能够实时对可能由恶意代理引发的安全风险进行纠正,从而减轻负面影响并增强MAS的安全性。 实验结果表明,使用XGBoost模型在领域内场景下达到0.89的斯皮尔曼相关系数,在更具挑战性的场景下达到0.58。通过应用AgentMonitor,有害内容减少了6.2%,有益内容平均增加了1.8%,这显著提高了安全性和可靠性。相关的代码已开源在https://github.com/chanchimin/AgentMonitor。 |
2024-08-26 | LLM-3D Print: Large Language Models To Monitor and Control 3D Printing | Yayati Jadhav et.al. | 2408.14307 | null | 行业4.0通过推动数字化进程并转向增材制造(AM),彻底改变了制造业。熔融沉积建模(FDM)作为关键的AM技术之一,通过逐层挤出方式创建高度定制、成本效益高且材料浪费极小的产品,对传统减材方法构成了重大挑战。然而,材料挤出技术的易错性往往需要专家介入来检测和缓解可能严重损害产品质量的缺陷。虽然已存在自动化错误检测和机器学习模型,但它们在不同3D打印机设置、固件和传感器之间的通用性有限,并且深度学习方法需要大量的标记数据集,这限制了其规模性和适应性。 为了解决这些挑战,我们提出了一种利用大型语言模型(LLMs)与3D打印技术相结合的过程监控和控制框架,旨在检测和解决打印缺陷。该LLM通过分析每层或打印段之后捕获的图像来评估打印质量,识别故障模式,并向打印机查询相关参数。然后,它生成并执行纠正措施计划。我们通过将提出的框架的有效性与一组具有不同AM专业知识的工程师进行了比较,以验证识别缺陷的能力。我们的评估表明,基于LLM的代理不仅准确识别常见的3D打印错误,如不一致的挤出、丝状堆积、翘曲和层粘合问题,而且还能有效确定导致这些失败的参数,并自主地进行修正,无需任何人工干预。 |
2024-09-02 | MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents | Ruochen Li et.al. | 2408.14033 | link | 机器学习研究对于技术进步和创新至关重要,但常常面临复杂性高、实验周期长以及需要专业知识等挑战。为了应对这些挑战,我们提出了一种新的系统框架——自主机器学习研究与大型语言模型(MLR-Copilot),旨在通过利用大型语言模型(LLM)代理自动生成并实施研究想法来提高机器学习研究的生产力。该框架包含三个阶段:研究想法生成、实验实现和执行。首先,通过基于LLM的IdeaAgent利用现有研究论文生成假设和实验计划。接下来,在实现生成阶段,将这些计划转化为可执行代码,使用ExperimentAgent完成此过程。此阶段利用检索到的原型代码,并根据需要检索候选模型和数据。最后,在执行阶段,也由ExperimentAgent管理,涉及运行实验,并通过人类反馈和迭代调试机制,以增加实现可执行研究成果的可能性。我们对五个机器学习研究任务进行了评估,实验结果表明了该框架促进研究进展和创新的潜力。 |
2024-08-26 | AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework | Jie Feng et.al. | 2408.13986 | link | 人类移动性预测在各种实际应用中扮演着关键角色。尽管深度学习模型在过去十年中显示出有希望的结果,但它们对用于训练的大量私人移动数据的依赖以及无法进行零启动预测的能力,阻碍了进一步的发展。最近,有人尝试使用大型语言模型(LLMs)来执行移动性预测任务。然而,他们的性能受限于缺乏系统的设计工作流程。他们直接使用LLMs生成最终输出,这限制了LLMs发现复杂移动模式的潜力,并低估了它们在全球地理空间知识方面的巨大储备。本文提出了一种名为AgentMove的系统性代理预测框架,以实现对任何全球城市的通用移动性预测。在AgentMove中,我们首先将移动性预测任务分解为三个子任务,并设计相应的模块来完成这些子任务,包括个体移动模式挖掘的空间-时间记忆、城市结构效应对模型的影响的全球知识生成器以及捕获人口共享模式的集体知识提取器。最后,我们将三个模块的结果结合起来,并执行推理步骤以生成最终预测。在来自两个来源的12个城市的数据上进行的广泛实验表明,与最佳基线相比,AgentMove在各种指标上的性能提高了超过8%,并且在不同城市中显示出了稳健的预测结果,且使用不同基础的LLM时也能表现出色,且具有较低的地理偏见。代码和数据可以在https://github.com/tsinghua-fib-lab/AgentMove找到。 |
2024-08-23 | Optimizing Collaboration of LLM based Agents for Finite Element Analysis | Chuan Tian et.al. | 2408.13406 | null | 本文探讨了大型语言模型(LLM)在编程和编码任务中的多代理交互。我们利用AutoGen框架促进代理之间的沟通,并基于每种设置的40次随机运行的成功率评估不同的配置。研究重点在于开发一个灵活的自动化框架,用于将有限元方法应用于解决线性弹性问题。我们的发现强调了优化代理角色及其明确职责的重要性,而不仅仅是增加代理数量。代理间的有效协作被证明对于解决有限元方法的一般挑战至关重要。这项研究展示了LLM多代理系统增强计算自动化在模拟方法学中的潜力,为工程和人工智能的未来进展铺平道路。 |
2024-09-01 | Can LLMs Understand Social Norms in Autonomous Driving Games? | Boxuan Wang et.al. | 2408.12680 | null | 本文探讨了大型语言模型(LLM)在理解与模拟自主驾驶游戏中社会规范的应用。通过将LLM集成到自主驾驶游戏中的智能代理角色中,我们基于文本提示让这些代理按照相关环境设定和观察信息做出决策。我们的框架涉及LLM驱动的代理在多代理系统(MAS)中进行马尔科夫游戏,以此研究个体代理之间社会规范的形成。 我们设计实验,利用OpenAI聊天API(由GPT-4.0提供动力)在无信号交叉口游戏与高速公路车队游戏两种场景下模拟交互并评估LLM驱动代理的表现。结果显示,LLM驱动的代理能够处理马尔科夫游戏中的动态环境变化,并且在两个场景中,代理间形成了社会规范。 在交叉口游戏中,当面临潜在车祸时,LLM驱动的代理倾向于采取保守的驾驶策略。LLM驱动代理在游戏中的优势在于其操作灵活性和可分析性,这有助于实验设计。 |
2024-08-22 | MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents | Congchi Yin et.al. | 2408.12142 | link | 在大多数精神疾病诊断中,临床医生与患者的对话是主要的诊断依据。创建这样的诊断对话数据集有望推动AI精神健康护理领域的发展。然而,直接在实际诊断场景中收集对话极为困难,原因在于隐私和伦理考虑的严格限制。为解决这一问题,我们尝试通过利用易于获取的匿名患者案例来合成诊断对话。具体而言,我们设计了一个神经符号多代理框架,使用大型语言模型合成精神障碍的诊断对话。该框架以患者案例作为输入,并能够生成针对单个患者案例的多个多样化的对话,其基本过程涉及医生代理与患者代理之间的互动,并通过工具代理实现基于符号控制的文本生成,借助动态诊断树。通过应用提出的方法,我们开发了包含1000个清洗过的实际患者案例、与一家领先的精神病医院合作构建的中国最大精神障碍诊断数据集MDD-5k,该数据集包含了5000个高质量的长对话及其诊断结果标签。据我们所知,这是第一个包含中文精神障碍诊断结果的标记数据集。人类评估表明,提出的MDD-5k数据集成功模拟了精神障碍的诊断过程。数据集和代码将在https://github.com/lemonsis/MDD-5k公开提供。 |
2024-08-20 | FLAME: Learning to Navigate with Multimodal LLM in Urban Environments | Yunzhe Xu et.al. | 2408.11051 | link | 大型语言模型(LLM)在视觉与语言导航(VLN)任务中展现出了潜在能力,但当前的应用仍面临挑战。虽然LLM在通用对话场景中表现出色,但在专门的导航任务上却表现不佳,相较于专为VLN设计的模型,其性能较差。为此,我们提出了一种名为FLAME(FLAMingo架构化实体代理)的新颖多模态LLM基元体和架构,旨在解决城市VLN任务,并有效处理多个观察结果。我们的方法采用了三阶段调优技术以适应导航任务,包括单感知调整以描述街景、多感知调整以总结轨迹以及在VLN数据集上进行端到端训练。合成的数据集是自动生成的。实验结果显示,FLAME在Touchdown数据集上的任务完成率优于现有方法,提高了7.3%。这项工作展示了多模态LLM在复杂导航任务中的潜力,并代表了迈向实际应用中多模态LLM于实体AI领域的进步。项目页面:https://flame-sjtu.github.io |
2024-08-20 | Athena: Safe Autonomous Agents with Verbal Contrastive Learning | Tanmana Sadhu et.al. | 2408.11021 | null | 由于新兴能力的加持,大型语言模型(LLMs)被用作基于语言的代理,执行各种任务并作出日益自主的决策。这些自主代理能够理解高级指令、与环境互动,并使用可用工具集执行复杂任务。随着代理能力的扩展,确保其安全性和可信度变得愈发重要。本研究引入了Athena框架,利用了“口头对比学习”的概念,通过将过去的安全和不安全轨迹作为上下文(对比)示例来指导代理在完成给定任务的同时确保安全。该框架还整合了一种批判机制,以指导代理在每一步防止风险行为。此外,鉴于缺乏现有基准来评估基于LLM的代理的安全推理能力,我们收集了80个工具包,覆盖8个类别,共计180个场景,提供了一个安全评估基准。我们的实验评估显示,口头对比学习和交互级批判显著提高了安全性率。 |
2024-08-24 | IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction | Kaiyu He et.al. | 2408.10455 | link | 本文提出了一项名为RULEARN的新基准,旨在评估大型语言模型(LLMs)在交互环境中的归纳推理能力。在RULEARN中,代理通过与环境互动收集观察,并从中推断模式,以此解决问题。为了增强LLM代理在该基准上的归纳推理能力,我们引入了IDEA代理,它结合了归纳、演绎和溯因三种推理过程。IDEA代理通过结构化推理序列提升这一方法:首先通过溯因生成假设,然后通过演绎验证这些假设,最后根据反馈进行适应性修正。这种序列使代理能够动态建立并应用规则,模仿人类的推理过程。通过对五种代表性LLM的评估显示,尽管这些模型能够生成合理的初始假设,但在环境内的战略互动、有效整合反馈以及假设的适应性修正方面存在困难。而IDEA代理在RULEARN基准上表现出显著的性能提升,为我们开发能在现实世界场景中实现类似人类规则学习能力的代理提供了宝贵见解。我们将会发布我们的代码和数据。 |
2024-08-20 | MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems | Qian Wang et.al. | 2408.09955 | null | 随着大型语言模型(LLM)的兴起,LLM驱动的多智能体系统(LLM-MA系统)被提出以应对实际任务。然而,这些系统的智能体大多遵循在整体交互过程中保持不变的预定义标准操作程序(SOP),缺乏自主性和可扩展性。此外,当前解决方案往往忽视了有效智能体合作的必要性。为了克服上述限制,我们提出了MegaAgent,一个旨在促进大规模LLM智能体系统中自主合作的实用框架。MegaAgent利用智能体的自主性动态生成基于任务需求的智能体,集成了任务自动划分、智能体活动系统级规划与监控以及并发操作管理等功能。此外,MegaAgent采用层次结构设计,并利用系统级并行性来提升性能和增强通信效率。 我们通过围棋游戏开发展示了MegaAgent的有效性,证明它在性能上超越了流行的LLM-MA系统;并通过国家政策模拟验证了其高自主性和快速扩展至590个智能体的能力,同时确保了它们之间的有效合作。我们的结果表明,MegaAgent是首个无预定义SOP、高效且具有高可扩展性的大规模LLM-MA系统,为该领域的进一步研究铺平了道路。我们的代码位于https://anonymous.4open.science/r/MegaAgent-81F3。 |
2024-08-19 | GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making | Arsham Gholamzadeh Khoee et.al. | 2408.09785 | null | 在汽车行业中,传统软件部署决策方法通常依赖于对表格化测试数据的手动分析。这些方法往往导致更高的成本和软件发布周期的延迟,主要是由于它们的劳动密集型特性。大型语言模型(LLM)为解决这些问题提供了有前景的解决方案。然而,它们的应用通常需要多轮的人工驱动提示工程,这限制了其在工业最终用户中的实际部署,特别是那些需要可靠和高效结果的用户。本文提出了一种名为GoNoGo的LLM代理系统,旨在简化汽车软件部署过程,同时满足功能要求和工业约束。与以往系统不同,GoNoGo特别针对特定领域和风险敏感系统进行了定制。我们使用来自工业实践的零次和少量次示例来评估GoNoGo在不同任务难度下的性能。结果显示,GoNoGo在难度不超过二级的3次示例任务中实现了100%的成功率,并且即使对于更复杂的任务也能保持高绩效。我们发现,GoNoGo有效地自动化了较简单任务的决策过程,显著减少了手动干预的需求。总之,GoNoGo代表了一个目前在我们的工业合作伙伴公司中被用于协助软件发布决策的高效且用户友好的LLM基解决方案,支持了风险敏感车辆系统发布过程中的更加明智和及时的决策。 |
2024-08-18 | HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model | Mengkang Hu et.al. | 2408.09559 | link | 大型语言模型(LLM)驱动的代理在各个领域展现出巨大潜力,作为能够处理环境观察并生成执行动作以完成目标任务的交互系统。这些代理的有效性很大程度上受到其记忆机制的影响,该机制通过记录历史经验来形成一系列动作-观察对序列。我们将记忆分为两类:跨试记忆,积累于多次尝试中;以及单试记忆(工作记忆),积累于单一尝试内。尽管关于跨试记忆优化的研究已取得显著进展,但如何通过提升工作记忆利用效率来增强代理性能的探索仍相对不足。现有方法往往直接将整个历史动作-观察对输入到LLM中,导致在长期任务中存在冗余问题。受人类解决问题策略的启发,本文提出了一种名为HiAgent的框架,旨在通过将子目标作为记忆块来对LLM驱动的代理的工作记忆进行层次化管理。具体来说,HiAgent促使LLM在生成执行动作前先制定子目标,并允许LLM主动决定替换之前的子目标,仅保留与当前子目标相关的动作-观察对。在五个长期任务上的实验结果表明,HiAgent的成功率提高了两倍,平均步骤数减少了3.8个。此外,我们的分析显示,HiAgent在整个步骤中均能持续改善性能,这凸显了其稳健性和泛用性。 项目页面:https://github.com/HiAgent2024/HiAgent |
2024-08-15 | EmBARDiment: an Embodied AI Agent for Productivity in XR | Riccardo Bovo et.al. | 2408.08158 | null | XR设备搭载由大型语言模型(LLMs)驱动的聊天机器人具有巨大的潜力,可以作为始终在线的代理,从而实现更高效的工作流程。然而,基于屏幕的聊天机器人并未充分利用XR所提供的全面自然输入,包括内部面向的传感器数据,而是过度依赖明确的声音或文本提示,有时还会与作为查询的一部分投射的多模态数据配对。我们提出了一种解决方案,利用注意力框架从用户行为、注视点和XR环境中的上下文记忆中隐式地推导出背景信息,从而最小化对工程化明确提示的需求,促进基于现实世界且直观的交互,这些交互能够洞察用户的见解并为聊天机器人提供信息。我们的用户研究展示了我们方法的可行性和在XR中与聊天机器人进行交互的潜在变革性,同时也为未来XR-实体LLM代理的设计提供了见解。 |
2024-08-15 | Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework | Changyu Du et.al. | 2408.08054 | null | 传统的建筑信息模型(BIM)创建过程通常要求设计师掌握复杂且繁琐的建模命令,以在BIM创建工具中实现其设计意图。这种额外的认知负担使设计过程变得复杂,并阻碍了建筑、工程和施工(AEC)行业对BIM和基于模型的设计的采用。 为了更直观地表达设计意图,我们提出了一种基于大型语言模型(LLM)的多代理框架——Text2BIM。该框架能够从自然语言指令生成3D建筑模型。它通过协调多个LLM代理协作并推理,将文本用户输入转换为调用BIM创建工具API的指令代码,从而在软件中生成具有内部布局、外部外壳和语义信息的可编辑BIM模型。此外,引入了一种基于规则的模型检查器,利用预定义的领域知识指导LLM代理解决生成模型中的问题,并迭代改进模型质量。 进行了大量实验来比较和分析在提议框架下三种不同LLM的表现。评估结果表明,我们的方法能够有效地生成高质量、结构合理且与用户输入指定的抽象概念相一致的建筑模型。 最后,开发了一个交互式软件原型,将该框架集成到BIM创建软件Vectorworks中,展示了通过聊天进行建模的潜力。 |
2024-08-13 | Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents | Pranav Putta et.al. | 2408.07199 | null | 大型语言模型(LLM)在需要复杂推理的自然语言任务上展现了惊人的能力,但在交互环境中进行自主代理的多步骤推理应用仍然是一个挑战。传统的基于静态数据集的监督预训练不足以使自主代理具备在动态设置如网络导航中执行复杂决策所需的自主能力。以往通过监督微调来填补这一差距的方法往往面临累积错误和探索数据有限的问题,导致政策结果不佳。为了克服这些挑战,我们提出了一种框架,结合了引导式蒙特卡洛树搜索(MCTS)搜索与自我批判机制,并使用离策略变体的直接偏好优化(DPO)算法对代理互动进行迭代微调。这种方法允许LLM代理从成功和失败的轨迹中有效学习,从而在复杂、多步骤推理任务中提高其泛化能力。我们在WebShop环境(一个模拟电子商务平台)中验证了我们的方法,该环境在与行为克隆和强化微调基线相比时表现出色,并在配备在线搜索能力的情况下击败了平均人类性能。在实际预订场景中,我们的方法提高了Llama-3 70B模型的零射成功率从18.6%增加到81.7%(相对增加了340%),并在一天的数据收集后进一步增加到95.4%,并且通过在线搜索。我们认为这标志着自主代理能力的一个重大进步,在现实世界环境中实现更高级和可靠决策的道路。 |
2024-08-13 | Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents | Kexun Zhang et.al. | 2408.07060 | null | 大型语言模型(LLM)代理在解决实际世界软件工程(SWE)问题方面展现出巨大的潜力。最先进开源的SWE代理能够解决SWE-Bench Lite中超过27%的实际GitHub问题。然而,这些复杂的代理框架在表现上存在差异,有的在特定任务中表现出色,在其他任务中则表现不佳。为了充分利用这些代理的多样性,我们提出了DEI(多元化智能),一个旨在利用其独特专长的框架。DEI作为现有SWE代理框架之上的元模块,管理代理集体以实现增强的问题解决能力。 实验结果显示,通过DEI指导的代理委员会能够显著超越单个代理的最佳性能。例如,一组开源SWE代理,其最高个体解决率在SWE-Bench Lite中为27.3%,在应用了DEI后,能够达到34.3%的解决率,实现了25%的改进,并击败了许多闭源解决方案。我们的最佳表现团队以55%的解决率在SWE-Bench Lite中取得最高排名。我们的研究结果对合作AI系统的研究领域做出了贡献,揭示了它们在解决复杂软件工程挑战方面的潜力。 |
2024-08-12 | Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning | Chuanneng Sun et.al. | 2408.06520 | null | 大型语言模型(LLM)在各种语言任务上表现出惊人的能力,这使它们成为机器人决策的有希望候选者。受到层次强化学习(HRL)的启发,我们提出了一种新颖框架——在上下文中进行层次化的强化学习(HCRL)。该框架通过LLM基高层策略分解复杂任务,即通过在执行时动态分解复杂任务为子任务,从而利用高阶策略来定义目标,这些目标由子任务组成,并分配给低阶策略以完成。一旦LLM代理确定目标已完成,则会提出新的目标。 为了提高多轮执行中的代理性能,我们提出了事后模块化反思(HMR),其中,代理不是对完整轨迹进行反思,而是将任务目标替换为中间目标,并让代理对较短的轨迹进行反思,以提高反思效率。我们在三个基准环境中评估了所提出的HCRL的决策能力——ALFWorld、Webshop和HotpotQA。结果表明,与强大的上下文学习基线相比,在五轮执行中,HCRL可实现9%、42%和10%的性能提升。 |
2024-08-12 | Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example | Yanan Chen et.al. | 2408.06318 | null | 本文旨在填补大型语言模型(LLM)在自主代理与人工通用智能(AGI)接近过程中研究的空白。尽管LLM展现出出色的泛化能力和涌现能力,但目前缺乏对LLM驱动的代理行为、潜在失败原因以及如何提升其性能的研究,尤其是在具有挑战性的现实世界规划任务中的表现。为了填补这一缺口,我们利用了一个名为TravelPlanner的真实基准,其中的代理必须满足多个约束以生成准确的计划。通过TravelPlanner基准,我们针对四个关键研究问题进行了全面的实验:(1)LLM代理在处理长篇和嘈杂上下文时,对于推理和规划的鲁棒性是否足够?(2)少量提示是否会损害LLM代理在长上下文场景下的性能?(3)我们能否依赖细化来改进计划?(4)对LLM进行正负反馈结合的微调是否能带来进一步的提升? 实验结果表明:首先,尽管LLM能够处理大量的参考信息和少量示例,它们在关注长上下文中关键部分的能力上仍然存在不足;其次,它们在分析长计划方面仍面临挑战,并且无法提供准确的反馈用于细化;第三,我们提出了Feedback-Aware Fine-Tuning(FAFT),一种利用正负反馈相结合的方法,相较于纯监督微调(SFT),FAFT在性能上取得了显著提升。我们的发现为社区提供了关于现实世界规划应用方面的深入见解。 |
2024-08-13 | DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts | Mohammed Saidul Islam et.al. | 2408.05346 | link | 数据驱动的故事叙述是一种强大的方法,通过结合叙事技巧与可视化和文本,来传达见解。这些故事融合了图表中的突出条形和线条以及解释见解的文本注释。然而,创建这样的故事需要对数据有深入的理解,并且需要精心的叙事规划,通常需要人类的介入,这既耗时又费心。虽然大型语言模型(LLMs)在各种NLP任务上表现出色,但在生成连贯和全面的数据故事方面的潜力仍然未被充分探索。为此,我们引入了一个新的任务——数据故事生成,并提供了一个包含来自不同来源的1,449个故事的基准。为了应对创造连贯数据故事的挑战,我们提出了一种多代理框架,利用两个LLM代理来模仿人类讲故事的过程:一个用于理解并描述数据、生成大纲和叙述,另一个则在每个中间步骤进行验证。尽管我们的代理框架在基于模型和人类评估中通常优于非代理对手,但结果也揭示了数据故事生成的独特挑战。 |
2024-08-08 | Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions | Qingbin Zeng et.al. | 2408.04168 | link | 本文探讨了城市导航场景下的AI代理问题:提供目标位置与知名地标之间的语言描述;仅通过观察周围环境,包括识别地标和道路网络连接,代理需要作出决策以无指示地导航至目标位置。这一挑战性在于,它要求代理建立自身定位并获取复杂城市环境的空间表示,而地标往往不可见。在缺乏导航指令的情况下,这种能力对于代理在长距离城市导航中做出高质量决策至关重要。随着大型语言模型(LLMs)推理能力的涌现,一个吸引人的基础方法是提示LLMs对每次观察做出“反应”并据此作出决策。然而,这种方法的性能非常差,代理经常反复访问相同位置,并作出短视、不一致的决策。为解决这些问题,本文引入了一种新型的代理工作流程,其特征在于感知、反思和规划的能力。具体而言,我们发现经过微调的LLaVA-7B能够准确感知地标的方向和距离,适用于城市导航。此外,通过记忆机制实现反思,即存储过往经验并在当前感知下检索,以进行有效的决策论证。规划则利用反思结果生成长期计划,从而避免长距离导航中的短视决策。实验结果显示,设计的工作流程显著提高了LLM代理的导航能力,相较于最先进的基线方法。 |
2024-08-11 | CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases | Xiangyan Liu et.al. | 2408.03910 | link | 大型语言模型(LLM)在诸如HumanEval和MBPP的独立代码任务中表现出色,但它们在处理整个代码仓库时存在挑战。这促使研究界探索如何在仓库级别上增强LLM与代码库的交互。目前的解决方案依赖于基于相似性的检索或手动工具和API,每种方法都有其显著的缺点。基于相似性的检索在复杂任务中召回率往往较低,而手动工具和API通常针对特定任务,需要专家知识,降低了它们在不同代码任务和实际应用中的通用性。为了缓解这些限制,我们引入了CodexGraph系统,它结合了从代码仓库中提取的图数据库接口与LLM代理。通过利用图数据库的结构特性和图查询语言的灵活性,CodexGraph使LLM代理能够构建并执行查询,从而实现精确的、代码结构意识的上下文检索和代码导航。我们使用三个基准测试CodexGraph:CrossCodeEval、SWE-bench和EvoCodeBench。此外,我们开发了五个真实世界的编码应用。通过使用统一的图数据库模式,CodexGraph在学术和实际环境中都展示了竞争力和潜力,证明了其在软件工程领域的多用途性和有效性。我们的应用演示:https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。 |
2024-08-07 | Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent | Yanhu Wang et.al. | 2408.03631 | null | 传统的基站选址(BSS)方法主要依赖于驾驶测试和用户反馈,这既费时又需要在通信、网络和优化方面具备专业知识的专家。随着大型语言模型(LLMs)及其相关技术的发展,特别是在提示工程和代理工程领域,网络优化将见证一场革命性的转变。这种转变涉及巧妙地使用精心设计的提示来向这些复杂而先进的LLMs注入人类经验和知识,并通过自然语言连接到人类用户,部署自主代理作为通信桥梁。这种集成代表了人工智能(AI)作为一种服务和AI使生活更便捷的未来范式。 作为初步探索,本研究首先开发了一个由LLM驱动的BSS优化框架,并提出了四种潜在的实现策略:基于优化提示的LLM(PoL)、人机交互的LLM(HiLL)、LLM驱动的自主BSS代理(LaBa)以及协同多个LLM驱动的自主BSS代理(CLaBa)。通过在真实数据上的评估,实验表明,借助提示的LLM和基于代理的LLM能够生成更为高效、成本效益高且可靠的网络部署,显著提高了BSS优化的效率并减少了不必要的手动参与。 |
2024-08-05 | Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information | Yauwai Yim et.al. | 2408.02559 | null | Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible. |
2024-08-05 | From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future | Haolin Jin et.al. | 2408.02479 | null | With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research. |
2024-08-07 | SpecRover: Code Intent Extraction via LLMs | Haifeng Ruan et.al. | 2408.02232 | null | 本文探讨了在大型语言模型(LLM)与程序分析能力结合的形式下,通过LLM代理自动执行程序改进和错误修复的高效低耗工作流程。由于程序改进或修复通常需要明确期望的行为规范,因此规范推断对于产生高质量的代码补丁至关重要。本研究旨在通过在软件项目中进行迭代代码搜索并配合规范推断来探索这一领域,从而从项目的结构和行为中推断出意图。捕获的意图将由审查者代理进行审查,以验证补丁的有效性,并提供对验证后补丁信心度量。 我们的方法“SpecRover”(AutoCodeRover-v2)建立在开源的LLM代理AutoCodeRover之上。在使用SWE-Bench完整集评估时,即针对2294个GitHub问题,我们的方法显示了相对于AutoCodeRover超过50%的效率提升。与现有的开源代理相比,我们的工作在解决SWE-Bench lite中的平均GitHub问题时,成本仅为0.65美元。SpecRover生成的解释能够为开发者提供更明确的信号,表明建议的补丁可以被有信心地接受。 此外,我们的工作还强调了即使在LLM时代,自动化程序修复技术中规范推断的重要性。 |
2024-08-03 | The Drama Machine: Simulating Character Development with LLM Agents | Liam Magee et.al. | 2408.01725 | null | 这篇论文探讨了使用多个大型语言模型(LLM)代理来模拟复杂动态角色在戏剧性场景中的应用。我们提出了一种“戏剧机器”框架,该框架协调了扮演不同“自我”和“超我”心理角色的LLM代理之间的互动。在角色扮演模拟中,这种设计允许在相互作用的对话和个体内部独白之间发展平行的交互。 我们将此框架应用于两个戏剧场景——面试和侦探故事,并比较了在有无“超我”影响下角色发展的差异。尽管是初步研究,但结果表明,这种方法能够产生更加细腻、适应性强的故事,这些故事随着一系列对话回合的发展而演变。我们讨论了基于LLM的角色扮演的不同方式以及这可能对AI主体性的概念化意味着什么。论文最后考虑了这一方法如何为思考AI模拟中内在冲突和社会表演性的作用提供了可能性。 |
2024-08-03 | WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization | Liwenhan Xie et.al. | 2408.01703 | null | 大型语言模型(LLM)通过对话式用户界面支持数据分析,以OpenAI的ChatGPT(原名Advanced Data Analysis或Code Interpreter)为代表。本质上,LLM生成代码以完成各种分析任务。然而,直接呈现原始代码可能会使逻辑变得模糊,并妨碍用户验证。为了赋予用户对由LLM执行的数据分析进行增强理解与控制的能力,我们提出了一种新颖的方法来将LLM生成的代码转换为实时交互式的可视化表示。在该方法中,用户可以实时获得清晰、分步的LLM代码可视化,允许他们理解、验证并修改分析中的每个数据操作。我们的设计决策基于一项探索用户实践与挑战的形成性研究(N=8)。此外,我们开发了名为WaitGPT的原型,并进行了一项用户研究(N=12),以评估其可用性和有效性。用户研究的结果表明,WaitGPT有助于监控和引导由LLM执行的数据分析,使参与者能够提高错误检测能力并增加对结果的整体信心。 |
2024-08-03 | Automated Phishing Detection Using URLs and Webpages | Huilin Wang et.al. | 2408.01667 | null | ### 摘要 本文项目聚焦于通过构建利用大型语言模型(LLM)的代理框架,以解决传统基于参考的钓鱼检测方法所面临的局限性。该框架通过主动获取和利用在线信息,提供了一个动态的参考系统,从而实现更精确的钓鱼检测。这一创新避免了依赖静态知识库的需求,显著提升了自动化安全措施的适应性和效率。 ### 项目概述 项目报告首先对现有解决方案进行了初步研究和问题分析,促使我们开发出新的框架。我们以模拟的LLM代理来展示框架,并详细阐述了构建所需的技术,随后提供了完整实施的实例及实验,用于评估新方法相对于同类解决方案的性能。结果显示,我们的方法在准确度上达到了0.945,相比现有解决方案DynaPhish高出0.445个百分点。 ### 性能与局限 实验结果表明,本框架能够显著提高当前基于参考的钓鱼检测方法的有效性,并具有适应实际应用的潜力。同时,我们也讨论了该方法的局限性,并提出了改进策略,旨在进一步提升其效能。 ### 结论 提出的框架为增强现有的基于参考的钓鱼检测手段提供了有效途径,并且具备被应用于实际场景的可能性。 |
2024-08-01 | AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation | Mengkang Hu et.al. | 2408.00764 | link | 大型语言模型(LLM)基于的代理已引起广泛关注并变得越来越流行。此外,规划能力是LLM基于代理的关键组成部分,涉及与环境的交互和执行动作以完成规划任务,通常包括从初始状态达到预期目标的过程。本文研究了通过指令调优增强LLM规划能力的方法,即代理训练。近期的研究表明,利用专家级轨迹对指令调优LLM能有效提升其规划能力。然而,现有工作主要集中在从手动设计的任务和环境中合成轨迹,这导致创建这些环境和任务的劳动密集型,限制了生成足够多样性和广泛性的轨迹。为解决这一限制,本文探索了自动化合成多样化环境以及规划任务的渐进难度范围,从简单到复杂。我们引入了一个框架,名为AgentGen,利用LLM首先生成环境,随后根据这些环境生成规划任务。 具体而言,为了提高环境多样性,我们提出使用包含不同领域特定文本段落的灵感语料库作为合成环境的上下文。此外,为了增加生成规划任务的难度多样性,我们提出了双向演化方法Bi-Evol,该方法从更容易和更难的方向进化规划任务,以合成具有平滑难度曲线的任务集。来自AgentBoard的评估结果显示,AgentGen显著提高了LLM的规划能力,例如,经过AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且,在某些任务中,它甚至超过了GPT-4。 |
2024-08-01 | Jailbreaking Text-to-Image Models with LLM-Based Agents | Yingkai Dong et.al. | 2408.00523 | null | 近期的进展显著提升了基于大型语言模型(LLM)的自主代理在自动任务解决能力方面的表现。然而,大多数基于LLM的代理主要集中在对话、编程或特定领域,这导致了在处理生成式AI安全任务时存在缺口。这些缺口主要是由LLM的幻觉问题以及缺乏明确指导原则所引发的。本文提出了一种名为Atlas的高级LLM基多代理框架,该框架集成了高效模糊化工作流程,专门针对针对文本到图像(T2I)模型的攻击行为,特别是针对具有安全性过滤器的T2I模型的“越狱”攻击。 Atlas利用视觉语言模型(VLM)来评估提示是否触发了T2I模型的安全性过滤器。然后,它通过迭代方式与LLM和VLM协作,生成一个绕过过滤器的替代提示。此外,Atlas通过利用多代理通信、上下文学习(ICL)记忆机制和思维链(COT)方法,增强了LLM在攻击场景中的推理能力。 我们的评估表明,Atlas成功地在无模型设置下对多个最先进的T2I模型进行了“越狱”,这些模型都配备了多模态安全性过滤器。同时,Atlas在查询效率和生成图像质量方面均超越了现有方法。 |
2024-08-01 | Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion | Honglei Miao et.al. | 2408.00352 | null | 文本到动作(Text-to-Motion,T2M)模型通过深度生成模型驱动的人类运动生成,在应用中展现出令人信服的能力。然而,这些模型从文本提示生成真实动作的能力引发了安全问题,尤其是当它们可能被恶意利用时。尽管对T2M的兴趣日益增长,但很少有方法专注于保护这些模型免受对抗性攻击的影响。现有针对文本到图像模型的工作对于独特的动作领域来说并不充分。 在本论文中,我们提出了一种名为ALERT-Motion的自主框架,它利用大型语言模型(LLMs)来构建针对黑盒T2M模型的有针对性的对抗性攻击。与先前的方法通过预定义规则修改提示不同,ALERT-Motion利用LLMs对人类动作的知识,自主生成微妙而强大的对抗性文本描述。该框架包含两个关键模块:一个适应性调度模块,构建了一个基于LLM的代理,以迭代地细化和搜索对抗性提示;以及一个多模态信息对比模块,提取与动作相关的关键语义信息,指导代理的搜索。 通过这一基于LLM的方法,ALERT-Motion能够构造查询受害模型以产生与目标动作高度匹配的输出的对抗性提示,同时避免明显的扰动。在流行的T2M模型上进行的评估显示了ALERT-Motion相对于先前方法的优越性,其对抗成功率更高,并且对抗性提示更加隐蔽。这项关于T2M对抗性攻击的开创性工作强调了随着运动生成技术的发展,开发防御措施的紧迫性,这促使我们进一步研究安全和负责任的部署。 |
2024-07-31 | Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries | Felix Ocker et.al. | 2407.21778 | null | 我们提出了一种名为“tulip代理”的架构,旨在实现基于大型语言模型的自主智能体,具有对工具库中大量工具进行创建、读取、更新和删除的能力。与当前先进实现不同的是,“tulip代理”并不在系统提示中编码所有可用工具的描述,这会占用模型的上下文窗口,或在检索合适工具时嵌入整个提示。相反,“tulip代理”能够递归地在其可扩展的工具库中搜索合适的工具,该工具库作为向量存储实现。这种架构显著降低了推理成本,允许使用大量的工具库,并使代理能够适应并扩展其工具集。 我们通过数学领域中的多个消融研究来评估该架构,并展示了其在机器人领域的通用性应用。参考实现和基准测试可在github.com/HRI-EU/tulip_agent上获取。 |
2024-07-31 | Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent | Shanbo Cheng et.al. | 2407.21646 | link | 在这篇论文中,我们提出了一种高质量且接近人类水平的实时语音翻译系统——跨语言代理——同时口译,简称CLASI。受专业口译员启发,我们采用了创新的数据驱动读写策略来平衡翻译质量和延迟时间。为了应对翻译领域特定术语的挑战,CLASI通过多模态检索模块获取相关资料以增强翻译内容。借助大型语言模型的支持,我们的方法能够考虑输入音频、历史语境以及检索到的信息,生成容错性较高的翻译结果。实验结果显示,我们的系统在各项指标上均显著优于其他系统。 与专业口译员相媲美,我们使用了一个更好的评价指标——有效信息比例(VIP),它衡量了成功传达给听众的信息量。在现实世界场景中,演讲往往不流畅、非正式且模糊不清,CLASI在中英互译方向上的有效信息比例分别达到了81.3%和78.0%,而最先进的商业或开源系统仅分别为35.4%和41.6%。在极度困难的数据集上,当其他系统有效信息比例低于13%时,CLASI仍能实现70%的有效信息比例。 |
2024-07-30 | Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification | Boyang Zhang et.al. | 2407.20859 | null | 近期,基于大型语言模型(LLM)的自主代理在理论研究和实际应用方面均取得了显著进展。这些代理能够通过外部组件扩展基础LLM的能力,在多种方式下增强性能。例如,利用GPT-3.5-Turbo核心构建的代理可能在某些任务上超越更先进的GPT-4模型,关键在于其集成的工具可以使其在现实世界中执行操作,从单纯生成文本转向与环境的互动。鉴于代理在实际应用中的广泛部署及其对环境的直接影响能力,评估潜在漏洞变得至关重要。如果被恶意利用,这些自主系统可能造成的损害远大于单一语言模型。 现有研究已探讨了LLM代理可能引发的有害行为,但我们的研究从一个全新的视角出发,关注于导致系统故障的攻击方式——即误导代理执行重复或无关的操作,从而引发功能紊乱。我们通过采用多样化的攻击方法、场景和属性,进行了全面的评估,旨在揭示这些攻击的脆弱性所在。实验结果表明,在多种情况下,这些攻击能够诱导故障率超过80%。我们进一步在多代理系统中实施并部署了代理,以此突出此类漏洞所引发的现实风险。 为了应对上述攻击,我们提出了自我检查检测方法。然而,我们的研究发现,仅依靠LLM进行有效检测存在困难,这突显了该类漏洞所带来的重大风险。 |
2024-07-28 | The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies | Feng He et.al. | 2407.19354 | null | 受大型语言模型(LLM)快速发展的启发,LLM代理已发展到能够执行复杂任务。这些代理在各个领域广泛应用于处理大量数据以与人类互动并执行任务,这凸显了它们的商业价值。然而,这也暴露了安全和隐私漏洞。目前阶段,对LLM代理的安全性和隐私性进行全面研究至关重要。本文综述旨在全面概述新出现的隐私和安全问题,这些问题由LLM代理面临。 我们首先介绍LLM代理的基本知识,随后对其进行威胁分类和分析。接着讨论这些威胁对人类、环境和其他代理的影响。随后回顾现有防御策略,并最终探索未来趋势。此外,本文通过多种案例研究来促进更易于理解的解释。通过强调这些关键安全和隐私问题,本文旨在激发未来研究,以增强LLM代理的安全性和隐私性,从而在未来应用中提高其可靠性和可信度。 |
2024-07-26 | OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation | Zilong Wang et.al. | 2407.19056 | link | 办公室自动化显著提高了人类的工作效率,通过自动完成工作流程中的常规任务。现有的人工智能文献主要集中在基本信息提取上,而办公室自动化研究应该扩展到更现实的办公室任务,这些任务需要整合办公室系统中的各种信息源,并通过一系列决策过程生成输出。我们引入了OfficeBench,这是第一个用于评估当前大型语言模型(LLM)代理在真实办公流程中处理办公任务能力的办公室自动化基准。 OfficeBench要求LLM代理进行可行的长期规划,高效地在应用程序之间切换,并基于工作流程的上下文需求,在庞大的联合动作空间内准确地定位其行动。通过在每个任务上应用我们的定制评估方法,我们发现GPT-4 Omni的通过率为47.00%,显示出在处理办公任务时具有不错的性能。然而,这仍然远低于实际办公流程所需的人类表现和准确性标准。 进一步观察发现,大多数问题与操作冗余、幻觉以及在多个应用程序之间切换的限制有关,这可能为开发有效的自动化代理框架提供有价值的见解。 |
2024-07-30 | MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains | Guoli Yin et.al. | 2407.18961 | link | 近期大型语言模型(LLM)的发展推动了对全面基准的需求,以评估它们作为类人类代理的能力。现有的基准虽然有用,但往往聚焦于特定的应用场景,强调任务完成而非深入剖析驱动这些结果的底层技能。这种缺乏细节性使得难以精确地识别失败的原因。此外,设置这些环境需要大量的工作,并且在交互式任务中,不一致性与可重复性问题有时会出现。为了应对这些局限性,我们引入了大规模多任务代理理解(MMAU)基准,它通过无需复杂环境设置的全面离线任务来实现。MMAU覆盖了五个领域:工具使用、有向无环图(DAG)问答、数据科学和机器学习编程、竞赛级别的编程和数学,并涵盖了五种关键能力:理解、推理、规划、问题解决和自我修正。总计包括20个精心设计的任务和超过3千个独特的提示,MMAU提供了一个全面框架,用于评估LLM代理的优势和限制。通过对18个代表性模型在MMAU上的测试,我们提供了深入而有洞察力的分析。最终,MMAU不仅揭示了LLM代理的能力和限制,还增强了对其性能的可解释性。MMAU的数据集和评估脚本已发布于https://github.com/apple/axlearn/tree/main/docs/research/mmau。 |
2024-07-29 | PersonaGym: Evaluating Persona Agents and LLMs | Vinay Samuel et.al. | 2407.18416 | null | Persona代理人,一种根据分配的人设行事的LLM代理,在各个应用领域展现出卓越的上下文响应能力。这些代理在教育、医疗保健和娱乐等不同行业中提供了显著的增强,因为模型开发者可以将代理响应与不同的用户需求对齐,从而扩展了代理应用的范围。然而,评估Persona代理性能极为困难,主要是由于在各种相关环境中的自由形式交互中评估人设一致性复杂性的挑战。我们引入了PersonaGym,首个动态评估框架,用于评估Persona代理,并提出了PersonaScore,首个基于决策理论的自动化人类对齐指标,用于全面大规模评估Persona代理。通过使用包含200个人设和10000个问题的基准,对6个开源和闭源的LLM进行评估,我们揭示了在最先进的模型中,Persona代理能力存在巨大的改进空间。例如,Claude 3.5 Sonnet的PersonaScore仅比GPT 3.5提高了2.97%,尽管Claude 3.5 Sonnet是一个更先进的模型。重要的是,我们发现模型大小和复杂性的增加并不一定意味着Persona代理能力的提升,这凸显了忠实和高效Persona代理算法和架构创新的迫切需要。 |
2024-08-03 | PyBench: Evaluating LLM Agent on various real-world coding tasks | Yaolun Zhang et.al. | 2407.16732 | link | 为了填补现有基准在简化任务和复杂特定任务方面的局限性,我们引入了PyBench,一个涵盖五大类真实世界任务的基准。这些任务涉及超过10种类型的文件,旨在全面覆盖日常编码需求。当用户提出高阶查询并提供相关文件时,LLM代理需要通过代码解释器执行Python代码进行多轮推理,最终生成满足用户需求的回答。成功解决PyBench中的任务要求代理具备广泛的Python包理解能力、高级推理能力和从执行代码中获取反馈的能力。 我们的评估表明,当前开源的LLM模型在处理这些任务方面存在挑战。因此,我们对四种数据集进行了分析和实验,证明了解决PyBench所需的是全面的能力。我们精心调优的8B大小模型:PyLlama3,在PyBench上的表现令人兴奋,超越了许多更大规模(33B和70B)的模型。 我们的基准、训练数据集和模型在GitHub上提供:https://github.com/Mercury7353/PyBench |
2024-07-23 | LawLuo: A Chinese Law Firm Co-run by LLM Agents | Jingyun Sun et.al. | 2407.16252 | link | 大型语言模型(LLM)在为非法律背景用户提供法律咨询服务方面展现了巨大的潜力,这主要得益于它们在文本理解和生成方面的卓越能力。然而,现有的中文法律LLM仅限于单个模型与用户之间的对话交互,与律师事务所中多员工共同参与的咨询形式不同。这种限制使得咨询体验不那么真实。此外,现有中文法律LLM存在关键问题:(1)对指导微调数据质量控制不足;(2)由于用户查询的模糊性导致模型产生幻觉;(3)在多轮对话中,模型遵循指令的能力下降。针对这些挑战,我们提出了一种名为“LawLuo”的新型法律对话框架,利用多个LLM代理的协作能力,每个代理负责不同的功能,共同为用户提供全面的法律咨询服务。此外,我们构建了两个高质量的法律对话数据集KINLED和MURLED,并使用ChatGLM-3-6b对数据集进行微调。我们还提出了一个名为ToLC的法律查询澄清算法。实验结果表明,与GPT-4等基线LLM相比,LawLuo在律师风格的语言表达、法律建议的有效性以及法律知识的准确性三个方面均表现出更优性能。我们的代码和数据集可访问于https://github.com/NEFUJing/LawLuo。 |
2024-07-21 | Multi-Agent Causal Discovery Using Large Language Models | Hao Duong Le et.al. | 2407.15073 | null | 大型语言模型(LLM)在利用其从大量文本语料库中获取的广泛专家知识进行因果发现任务方面展示了巨大的潜力。然而,LLM在因果发现中的多代理能力尚未得到充分探索。本文提出了一种通用框架来研究这一潜力。首先,是元代理模型,它完全依赖于LLM代理之间的推理和讨论来进行因果发现。其次,是编码代理模型,它利用代理的规划、编写和执行代码的能力,结合高级统计库进行因果发现。第三,是混合模型,它将元代理模型和编码代理模型的方法相结合,融合了多个代理的统计分析和推理技能。我们的提议框架通过有效地利用LLM的专家知识、推理能力、多代理合作以及统计因果方法,显示出了有希望的结果。通过探索LLM的多代理潜力,我们旨在为利用LLM的多代理解决因果相关问题奠定基础。 |
2024-07-19 | KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models | Kemou Jiang et.al. | 2407.14239 | null | 大型语言模型(LLM)作为自主代理提供了一种通过知识驱动方式解决现实世界挑战的新途径。这些基于LLM的方法在泛化和可解释性方面表现出色。然而,驾驶任务的复杂性往往需要多个异构代理的合作,这凸显了LLM驱动的代理需要进行合作知识共享和认知协同的必要性。尽管LLM充满潜力,但当前的应用主要集中在单个代理场景。 为了拓展知识驱动策略的范围并增强自主代理的一般化能力,我们提出了KoMA框架,该框架包括多代理交互、多步规划、共享内存和基于排名的反思模块,旨在增强复杂驾驶场景下多代理的决策制定能力。根据框架生成的驾驶场景文本描述,多代理交互模块使LLM代理能够分析和推断周围车辆的意图,类似于人类的认知过程。多步规划模块使LLM代理能够逐层分析和获得最终行动决策,确保短期行动决策的一致目标。共享内存模块可以积累集体经验,以做出更优决策,而基于排名的反思模块则用于评估和改进代理行为,以提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶代理的稳健性和适应性,还显著提升了它们在不同场景下的通用能力。实验结果表明,我们的方法在处理复杂的、不可预测的驾驶环境时优于传统方法,特别是在不需要大量重新训练的情况下。 |
2024-07-17 | Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models | Sadegh Mahdavi et.al. | 2407.12979 | null | 大型语言模型(LLM)在各种自然语言任务中表现出卓越的性能,但它们在需要结构化推理的规划问题上往往表现不佳。为了克服这一局限性,将规划问题转化为规划领域定义语言(PDDL)被提出作为一种潜在解决方案,这使得自动化规划器能够应用。然而,生成准确的PDDL文件通常需要人工输入或修正,这既耗时又成本高昂。本文提出了一种新颖的方法,利用LLM和环境反馈自动生成PDDL领域和问题描述文件,而无需人工干预。我们的方法引入了一个迭代细化过程,该过程生成多个问题PDDL候选,并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程,我们开发了探索漫步(EW)度量,它为LLM提供了丰富的反馈信号来更新PDDL文件。我们在PDDL环境中评估了我们的方法,实现了66%的任务解决率,相比之下,使用GPT-4进行内在规划并配合链式思考提示的方法仅实现了29%的任务解决率。我们的工作使使用LLM和环境反馈自动建模规划环境成为可能,消除了在PDDL生成过程中需要人工干预的需求,为LLM代理在挑战性问题上的更可靠应用铺平了道路。 |
2024-07-16 | Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning | Yaswanth Narsupalli et.al. | 2407.12877 | null | 评估自然语言生成(NLG)输出的质量,尤其是大型语言模型(LLMs)产生的输出,面临着巨大的挑战。传统方法要么依赖于资源密集型的人类评估,要么使用自动化指标,这些指标往往与人类判断的相关性较低。这项研究提出了一种名为Review-Feedback-Reason(ReFeR)的创新评估框架,用于利用LLM代理进行NLG评估。我们通过在两个现有的基准数据集上对ReFeR进行严格测试,在多种NLG任务中进行了测试。 ReFeR不仅提高了NLG评估的准确性,相对于之前的基准提高了约20%,而且生成了建设性的反馈,并显著增强了集体推理能力。这种反馈被用于创建指令调优数据集,当这些数据集用于微调较小的模型(如Mistral-7B)时,使它们成为非常优秀的评估者,与人类评估具有更好的相关性,并且性能几乎与GPT-3相当。 我们的方法的有效性通过在三个推理基准上的应用得到了突出,其中ReFeR优于大多数最先进的方法,并且在平均值上分别比GPT-3.5 Turbo和GPT-4在推理能力上高出约11.67%和1%。 |
2024-07-17 | AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases | Zhaorun Chen et.al. | 2407.12784 | link | LLM代理在各种应用中展现了卓越的性能,主要得益于它们在推理、利用外部知识和工具、调用API以及执行操作以与环境互动方面的高级能力。当前的代理通常使用内存模块或检索增强生成(RAG)机制,从知识库中检索过往知识和具有相似嵌入的实例,以指导任务规划和执行。然而,对未经验证的知识库的依赖引发了关于其安全性和可信度的重大担忧。为了揭示这些脆弱性,我们提出了一种新颖的红队方法AgentPoison,这是针对通用和RAG基于的LLM代理的第一个后门攻击,通过污染其长期记忆或知识库来实现这一目标。具体而言,我们将触发器生成过程建模为一个约束优化问题,旨在优化后门触发器,使其将触发实例映射到独特的嵌入空间,从而确保每当用户指令包含优化后的后门触发器时,高概率地从被污染的记忆或知识库中检索到恶意示例。同时,不包含触发器的良性指令仍能保持正常性能。与传统的后门攻击不同,AgentPoison无需额外的模型训练或微调,且优化后的后门触发器展现出优越的迁移性、上下文内连贯性和隐蔽性。广泛的实验结果证明了AgentPoison在对抗三种真实世界的LLM代理:RAG基于的自动驾驶代理、知识密集型问答代理和医疗健康EHRAgent方面的有效性。在每个代理上,AgentPoison平均攻击成功率超过80%,对良性性能的影响最小(低于1%),污染率小于0.1%。 |
2024-07-16 | InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback | Haishuo Fang et.al. | 2407.11843 | null | 在实际应用中部署基于大型语言模型(LLM)的代理的关键要求是对可能引发风险或不可逆错误的鲁棒性。然而,现有研究缺乏对LLM代理执行推理路径的前瞻评估,这导致了确保安全可靠操作方面的缺口。为探索更好的解决方案,本文引入了InferAct,一种新颖的方法,利用了LLM的理论思维能力,主动检测潜在错误,以防止关键行动的执行(例如,在自动在线交易或网络购物中的“立即购买”)。InferAct还能够整合人类反馈,以防止不可逆风险并增强行动代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。提出的解决方案提供了开发可以在涉及关键决策的不同环境安全部署的LLM代理的新方法和具体贡献。 |
2024-07-16 | How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models | Yin Jou Huang et.al. | 2407.11549 | link | 心理证据揭示了个性特质对决策的影响。例如,和善性通常与谈判中的积极结果相关联,而神经质则经常与较少有利的结果联系在一起。本文提出了一种基于大型语言模型(LLM)的仿真框架,该框架包含了具有合成个性特质的仿真代理。这些代理在讨价还价领域内进行谈判,并且拥有可定制的个性和目标。实验结果显示,LLM基座仿真中的行为倾向能够重现人类谈判中观察到的行为模式。 贡献有两个方面。首先,我们提出了一种仿真方法论,以探究语言能力和经济能力在LLM代理之间的匹配程度。其次,我们提供了关于大五个性特质在双边谈判结果策略影响方面的实证见解。我们还提供了一个基于合成讨价还价对话的案例研究,揭示了一些引人入胜的行为,包括欺骗性和妥协性行为。 |
2024-07-16 | Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning | Yulong Wang et.al. | 2407.10718 | link | 基于大型语言模型(LLM)的现有代理展示了强大的问题解决能力,通过整合LLM的内在知识、强大的上下文学习和零样本能力以及人类设计的复杂LLM调用工作流程与工具的结合。然而,这些代理在长期推理方面仍存在局限性,并且未能充分利用现有工具的潜力,导致在复杂的现实世界推理场景中出现明显的缺陷。为了应对这些限制,我们引入了Sibyl,一个简单而强大的基于LLM的代理框架,旨在通过高效利用最少的工具集来解决复杂推理任务。受到全球工作空间理论的启发,Sibyl整合了一个全局工作空间,以增强系统内部的知识和对话历史的管理和共享。此外,根据心智社会理论的指导,Sibyl实施了一个多代理辩论为基础的陪审团,用于自我细化最终答案,确保全面平衡的方法。这一方法旨在减少系统复杂性,同时扩大可解决的问题范围——从人类几分钟内就能解决的问题到需要数小时甚至几天才能解决的问题,从而实现从系统1到系统2思考方式的转变。Sibyl的设计重点在于可扩展性和调试的简便性,通过从一开始就融入函数编程中的重入概念,旨在实现无缝和低努力的集成到其他LLM应用中,以提高其能力。我们的实验结果表明,使用GPT-4实例化的Sibyl代理在GAIA基准测试集上的表现最佳,平均得分为34.55%,超越了基于GPT-4的其他代理。我们希望Sibyl能够激励更多可靠且可复用的基于LLM的代理解决方案,以应对复杂的现实世界推理任务。 |
2024-07-15 | Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning | Daniel Geissler et.al. | 2407.10580 | null | 本文提出了一种利用混合智能以实现可持续和能源意识的机器学习的方法。在机器学习模型开发过程中,人们往往只关注最终模型性能的优化,而忽略了过程本身的效率。此外,在近期,由于复杂和大规模计算过程对环境的巨大影响,能源效率变得同样重要。本工作的贡献在于通过人机交互(Human-in-the-loop,HITL)和大型语言模型(Large Language Model,LLM)代理的集成,强调并进一步解决机器学习开发过程中的低效问题。 简而言之,本文旨在通过结合人类的直觉、经验和AI的高效计算能力,改进机器学习流程的效率和环境友好性。通过引入HITL和LLM作为辅助工具,我们旨在识别和优化机器学习开发过程中的瓶颈,从而减少资源消耗,并促进更加可持续的AI实践。这一方法不仅有助于提高模型的训练速度和效率,还能降低能耗,对环境保护产生积极影响。 |
2024-07-15 | CIBench: Evaluating Your LLMs with a Code Interpreter Plugin | Songyang Zhang et.al. | 2407.10499 | link | 在基于LLM(大型语言模型)的代理取得显著进展的同时,对其能力的基准测试变得具有挑战性,这阻碍了对它们局限性的清晰理解。本文提出了一种交互式评估框架——CIBench,以全面评估LLM在数据科学任务中利用代码解释器的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集通过LLM与人类合作的方式构建,通过连续且互动的IPython会话模拟真实工作流程,从而实现对LLM能力的全面评估。两种评估模式分别考察了在有无人类辅助下,LLM的能力表现。我们进行了大量的实验,分析了24个LLM在CIBench上的表现,并提供了对未来在代码解释器利用方面发展LLM的宝贵见解。 |
2024-07-14 | All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era | Bo Chen et.al. | 2407.10081 | null | 推荐系统(RS)在应对信息过载和提供个性化内容方面至关重要,以满足用户多样化的信息需求。大型语言模型(LLM)的兴起为重新定义推荐系统提供了新的前景,利用其广泛的一般知识和推理能力。站在LLM时代,我们旨在将推荐系统整合到更广阔的框架中,并为未来的研究开辟更全面的解决方案。因此,我们首先提供了一个全面的技术进展概述,特别是针对语言基础模型及其在推荐中的应用。我们识别了现代推荐系统的两条演化路径——基于列表的推荐和对话式推荐。这两条路径最终在具有长期记忆、反思和工具智能优势的LLM代理上交汇。沿着这两条路径,我们指出推荐信息的有效性得到了提高,而用户的获取成本则降低了。我们仔细研究了每个里程碑的技术特性、研究方法论以及内在挑战,从传统的基于列表的推荐到增强的LLM推荐再到带有LLM代理的推荐。最后,我们强调了几个对于未来个性化技术与界面发展至关重要的未解决挑战,并讨论了未来前景。 |
2024-07-14 | Revolutionizing Bridge Operation and maintenance with LLM-based Agents: An Overview of Applications and Insights | Xinyu-Chen et.al. | 2407.10064 | null | 在人类社会发展各工业领域中,人们一直在寻求解放劳动力的方法。构建基于大规模语言模型的代理被视为实现这一目标的高效工具。作为具备感知、规划、决策和行动能力的人类智能实体,代理已经在众多领域创造了显著的生产价值。然而,桥梁维护与管理(O&M)领域相比其他行业,其智能化水平相对较低。尽管如此,该领域已经发展了众多智能检测设备、机器学习算法以及自主评估和决策方法,为本领域的人工智能突破奠定了基础。本研究旨在探讨基于大型语言模型的AI体对桥梁O&M领域的影响,分析它对核心任务可能带来的挑战与机遇。通过深入研究和分析,期望能为理解这一领域智能化应用提供更全面的视角。 |
2024-07-11 | Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility | Yuchen Xia et.al. | 2407.08550 | link | 这篇论文提出了一种新颖的方法,旨在将大型语言模型(LLMs)整合到自动化生产系统中,以提升任务自动化和灵活性。我们根据自动化金字塔构建生产操作的层级结构,将原子操作功能抽象为微服务,并通过专用的数字孪生系统进行调用执行。这为协调生产流程提供了可扩展且灵活的基础。在数字孪生系统中,低层次的、硬件特定的数据被赋予语义,使得LLMs能够理解和处理生产计划与控制任务。当接收到用户请求或识别到触发事件时,LLMs会生成生产流程计划,然后将其分解为一系列微服务,在现实世界的自动化系统中执行。我们在实验室的模块化自动化设施上实现了这一整体方法,通过一个实际案例展示了LLMs如何处理生产规划和控制任务,从而实现了一个直观、自动化程度高且更具灵活性的生产环境。最后,我们指出了实现LLMs在自主系统中的全部潜力所面临的局限性,并强调了其潜在的有益之处。有关此系列研究的演示可在以下链接访问:https://github.com/YuchenXia/GPT4IndustrialAutomation。 |
2024-07-11 | PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models | Ruiqi Wang et.al. | 2407.08213 | null | ## 翻译 偏好驱动的强化学习(PbRL)作为一种新兴的方法,通过人类比较反馈教导机器人,避免了复杂的奖励工程的需求。然而,现有PbRL方法需要大量反馈,往往导致对由脚本教师生成的合成反馈的依赖,这又回到了复杂的奖励设计,并难以适应人类-机器人交互(HRI)场景中用户对同一任务的独特期望。为解决这些问题,我们提出了一种新颖的框架——PrefCLM,它利用大规模语言模型(LLMs)作为模拟教师参与PbRL。我们运用Dempster-Shafer理论在分数级别融合来自多个LLM代理的个人偏好,有效利用它们的多样性和集体智慧。同时,我们引入了一个用户参与的流程,以促进基于用户交互的集体精进。在各种通用强化学习任务中的实验结果显示,PrefCLM在性能上与传统脚本教师相当,并且在促进更自然、高效的机器人行为方面表现出色。一个现实世界的用户研究(N=10)进一步证明了它在个性化用户偏好的能力,显著提高了HRI场景中的用户满意度。 |
2024-07-10 | Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities | Tianjie Ju et.al. | 2407.07791 | link | 随着大型语言模型(LLMs)在多代理系统中的迅速应用,它们在协作问题解决和自主谈判等领域的出色性能引起了关注。然而,这些基于LLM的多代理系统的安全问题尚未得到充分研究,尤其是在知识操纵传播方面。本文通过构建详细的威胁模型和模拟环境,模拟现实世界中的多代理部署在可信平台上,探讨这一关键问题。我们提出了一种新颖的两阶段攻击方法,包括说服性注入和操纵知识注入,来系统地探究在无明确提示操纵的情况下,如何潜在地传播操纵知识(如虚构和有害知识)。我们的方法利用了LLMs处理世界知识固有的漏洞,攻击者可以借此无意识地传播编造的信息。实验结果表明,我们的攻击方法能够成功诱导基于LLM的代理在交流中传播这两种操纵的知识,同时不会显著降低它们的基础功能。此外,我们发现这些操纵会持续存在于流行的检索增强生成框架中,即使交互结束,若干良性代理也可能继续受到操纵聊天记录的影响。我们的发现揭示了LLM基多代理系统中的重大安全风险,强调了对操纵知识传播进行强大防御的迫切需求,例如引入“守护”代理和先进的事实核查工具。 |
2024-07-09 | Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models | Logan Cross et.al. | 2407.07086 | link | 在多智能体强化学习(MARL)方法中,处理多智能体系统的非stationarity并适应在线学习的能力是一个挑战。为此,我们利用大型语言模型构建了一个自主的解决策略。我们的新型智能体“假设心智”(Hypothetical Minds)采用认知启发式架构,包括感知、记忆和两个抽象层次上的分层规划模块。其中的关键部分是“心理理论”模块,它通过自然语言生成对其他智能体策略的假设,并根据这些假设对其他智能体行为的预测进行评估和迭代优化。通过这种方式,假设心智在Melting Pot基准中的多种竞争、混合动机和协作环境中,无论是二元还是群体环境,都显著优于先前的语言模型智能体(LLM-agent)和强化学习基础线。对比实验还显示,假设的评估和精炼对于在复杂场景中取得成功至关重要。 |
2024-07-09 | Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy | Zhenyu Guan et.al. | 2407.06813 | link | ## 背景 在人类社会中,外交是一种极其复杂的活动,涉及众多各方/行动者的互动,需要具备社会推理、谈判技巧和长期策略规划等多方面能力。以往的AI代理已经在处理多步骤游戏和大动作空间的多代理任务上展示了实力。然而,外交所涉及的决策空间范围惊人,特别是在需要谈判的阶段。近期,大型语言模型(LLM)在一些应用中展现出了超越前代的能力,但仍不足以应对复杂多代理环境中长时间的规划。借助尖端的LLM技术,我们首次尝试探索AI在如此全面的多代理使命中的上限,通过整合三个核心且关键的功能,以构建更强的基于LLM的社会性代理:1)具有记忆和反思的策略规划者;2)目标导向的、具备社会推理的谈判者;3)通过自我对弈游戏增强记忆,实现无人工干预的自我进化。 |
2024-07-10 | FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making | Yangyang Yu et.al. | 2407.06567 | null | 大型语言模型(LLMs)在执行复杂任务方面展现出显著潜力,并越来越多地应用于金融领域。然而,高质量的连续投资决策过程仍面临挑战,它需要与不断变化的环境进行多次交互,以最大化回报并管理风险。尽管已经开发出基于LLMs的代理系统,它们能够超越人类团队,实现投资收益,但如何优化多源信息整合和决策结果,通过实时经验改进,仍有待探索。为此,我们提出FinCon,一个专为多样化的金融任务设计的基于LLM的多代理框架,其特点在于概念化口头强化和财务组织结构的运用。 FinCon借鉴现实世界投资公司的组织架构,采用经理-分析师的沟通层次,促进跨职能代理间的协同合作,通过自然语言交流实现目标统一。每个代理都具备比人类更大的记忆容量,这有助于更高效的信息处理。此外,FinCon还引入了一个风险控制组件,定期启动自我批判机制,以更新系统的投资理念。这些概念化的信念作为口头强化,指导未来行为,并可根据需要选择性地传递给需要更新知识的节点,从而减少不必要的信息交流成本,提高性能。 FinCon在单一股票交易和资产管理等不同金融任务上表现出强大的泛化能力,证明了其在实际金融场景中的应用潜力。 |
2024-07-08 | Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning | Yadong Zhang et.al. | 2407.06112 | null | 该论文提出了一个新颖的推理方法——双向决策解放推理(BIDDER),旨在提升语言模型的决策合理性。传统推理方法通常依赖历史信息,采用单向(从左到右)的推理策略,这导致对潜在未来结果的认识不足,以及历史背景的整合不够充分,从而产生次优决策。BIDDER通过融合理性决策的原则,特别是处理不确定性并预测期望效用,弥补了这一短板。其方法包括三个关键步骤:从历史数据中推断隐藏状态,以表示决策过程中的不确定信息;利用这些隐藏状态预测未来的潜在状态和可能结果;结合历史信息(过去情境)和长期结果(未来情境),以指导推理。通过双向推理,BIDDER能够全面考虑过去和未来的情境,从而做出更明智、更理性的决策。我们在扑克(限注德州扑克)和谈判两个明确场景中测试了BIDDER的效果,实验显示它显著提高了语言模型和基于语言模型的代理的决策能力。 |
2024-07-08 | Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation | Jiaqi Chen et.al. | 2407.05890 | null | 基于语言模型的代理在视觉导航(VLN)任务中展现出零样本的强大性能。然而,这些方法仅关注解决高层任务规划,通过选择预定义导航图中的节点进行移动,忽视了现实场景中低层次的控制。为了弥补这一不足,我们提出了AO-Planner,一个新颖的面向可及性规划的连续视觉导航框架。AO-Planner整合多种基础模型,实现面向可及性的运动规划和动作决策,均以零样本的方式执行。具体来说,我们采用了视觉可及性提示(VAP)方法,利用SAM分割可见地面,提供导航可及性信息,从而让语言模型选择潜在的下一个路标,并生成向选定路标的低层次路径规划。此外,我们引入了高级代理PathAgent,识别出最可能的像素级路径,并将其转换为三维坐标,以完成低层次的移动。 在具有挑战性的R2R-CE基准测试上,AO-Planner实现了最先进的零样本性能提升(SPL指标提高5.5%)。我们的方法有效连接了语言模型与三维世界,避免了直接预测世界坐标点的困难,为利用基础模型进行低层次运动控制提供了新的前景。 |
2024-07-05 | VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models | Hang Gao et.al. | 2407.04573 | null | 在大型语言模型(LLMs)快速发展的背景下,向量检索算法对于满足相似度和多样性要求的语义查询至关重要。尽管Maximal Marginal Relevance(MMR)在涉及这两个需求的检索场景中被广泛应用,但其参数λ的变化会导致结果波动,使得向量空间中的优化路径变得模糊。此外,当前缺乏对相似性和多样性在检索过程中约束的坚实理论分析。本文提出了一种新方法,通过查询向量与求和向量之间的关系来刻画这两种约束。这种关系确保了相似性,同时要求求和向量中的各个向量以分散的方式与查询向量对齐,以满足多样性需求。 我们还提出了一个新的组合优化问题:从一组候选向量中选择 |
2024-07-05 | When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions | Jérémy Perez et.al. | 2407.04503 | link | 随着大型语言模型(LLMs)之间的互动增加,它们在线上生成的文本量也随之增多,研究如何信息在从一个LLM传递到另一个LLM的过程中发生变化变得至关重要。尽管对单个LLM的行为已有深入研究,但对迭代交互中集体行为和信息扭曲的探讨相对不足。微小的偏差,在单次输出时可能显得不明显,但在多次交互中可能会被放大,可能导致内容朝着吸引子状态演变。我们通过借鉴人类文化进化学的研究方法——电话游戏实验,设计了一种链式传输模型。在这个过程中,LLM代理接收、生成并传递文本,从一个链中的前一个代理到下一个。我们追踪了文本的毒性、积极度、难度和长度在传输链中的演变,揭示了偏见和吸引子的存在,并研究了它们与初始文本、指令、语言模型和模型规模的关系。例如,我们发现开放性指令比约束性任务更容易引发更强的吸引效应。此外,不同的文本特性对吸引子效应的敏感度不同,毒性的影响通常大于长度。这些发现强调了考虑多步骤传输动态的重要性,为进一步理解LLM的文化动态奠定了基础。 |
2024-07-05 | AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents | Petr Anokhin et.al. | 2407.04363 | link | **随着生成式人工智能的进步,大型语言模型(LLMs)在自主代理的发展中展现出广阔的应用前景。实现真正的自主性需要从与环境的交互中积累和更新知识,并能有效利用这些信息。当前基于LLMs的方法依赖于全历史观察、总结或检索增强,但这些非结构化的记忆表示不利于复杂决策中的推理和规划。我们的研究提出AriGraph,一种新型方法,让代理在探索环境中构建融合语义和情节记忆的记忆图。这种图结构促进关联概念的有效检索,这些概念与代理当前状态和目标相关,从而成为一种有效的环境模型,提升探索和规划能力。 我们设计的Ariadne LLM代理,配备有我们提出的记忆架构以及规划和决策功能,能在零样本基础上处理TextWorld环境中的复杂任务,如First TextWorld Problems竞赛中的烹饪挑战,以及新任务如房屋清洁和寻宝谜题。与全历史� |