# 大语言模型(LLM)顶级论文目录 (2024-2025) ## 概述 本目录整理了2024-2025年大语言模型领域的重要论文,涵盖综述、核心算法、评估方法、应用等方面。 **最后更新**: 2026年2月28日 **整理者**: 东京小海 **目标**: 为权哥提供最新LLM研究概览 --- ## 一、综合综述与调研 ### 1.1 核心综述论文 #### [2402.06196] Large Language Models: A Survey - **标题**: 大语言模型综述 - **作者**: Ray O. Ng, 等 - **年份**: 2024 - **链接**: https://arxiv.org/abs/2402.06196 - **摘要**: 全面回顾了最著名的LLM,包括GPT、LLaMA、PaLM三个流行家族,讨论了它们的特点、贡献和局限性。 - **关键词**: 综述, GPT, LLaMA, PaLM, 模型比较 - **重要性**: ⭐⭐⭐⭐⭐ (必读综述) #### [2303.18223] A Survey of Large Language Models - **标题**: 大语言模型调研 - **作者**: Wayne Xin Zhao, 等 - **年份**: 2023 (2024年仍有重要参考价值) - **链接**: https://arxiv.org/abs/2303.18223 - **摘要**: 从预训练、自适应调优、利用、能力评估四个方面系统回顾LLM进展。 - **关键词**: 预训练, 微调, 评估, 应用 - **重要性**: ⭐⭐⭐⭐⭐ (经典综述) #### [2411.15594] A Survey on LLM-as-a-Judge - **标题**: LLM作为评判者的调研 - **作者**: 多个机构 - **年份**: 2024 - **链接**: https://arxiv.org/abs/2411.15594 - **摘要**: 系统调研了使用LLM作为评判者的方法、应用和挑战。 - **关键词**: LLM-as-a-Judge, 评估, 自动评分 - **重要性**: ⭐⭐⭐⭐ ### 1.2 专题综述 #### [2406.00936] A Survey of Useful LLM Evaluation - **标题**: 有用的LLM评估方法调研 - **作者**: 研究团队 - **年份**: 2024 - **链接**: https://arxiv.org/abs/2406.00936 - **摘要**: 提出了从"核心能力"到"智能体"的两阶段评估框架。 - **关键词**: 评估框架, 核心能力, 智能体评估 - **重要性**: ⭐⭐⭐⭐ #### A Survey on Evaluation of Large Language Models - **标题**: 大语言模型评估方法调研 - **作者**: ACM期刊 - **年份**: 2024 - **链接**: https://dl.acm.org/doi/10.1145/3641289 - **摘要**: 从三个关键角度全面回顾LLM评估方法。 - **关键词**: 评估方法, 基准测试, 性能指标 - **重要性**: ⭐⭐⭐⭐ --- ## 二、顶级会议论文精选 ### 2.1 NeurIPS 2024 (神经信息处理系统大会) #### 会议概况 - **论文总数**: 1022篇与LLM相关 - **特点**: Benchmark和Dataset相关论文占比高(约17%) - **重要趋势**: 多模态LLM安全性评估 #### 重要论文方向 1. **多模态大语言模型安全评估** - 研究MLLMs潜在安全隐患 - 建立全面安全评测基准 2. **视觉语言模型训练后量化** - 提出用于LVLM的训练后量化框架 - 使用熵作为指标划分块,优化搜索空间 3. **VisionLLMv2** - 端到端通用多模态大语言模型 - 适用于数百个视觉语言任务 ### 2.2 ICML 2024 (国际机器学习大会) #### 会议概况 - **论文总数**: 507篇与LLM相关 - **研究重点**: - Efficient LLM (模型压缩、加速训练、加速推理) - 安全性和价值对齐(AI Safety) - 低比特量化、图数据理解 #### 热门研究方向 1. **高效LLM研究** (最多) - 模型压缩 - 加速训练和微调 - 加速推理 - 高效架构设计 2. **时间序列预测** - LLM在时间序列任务中的应用增加 3. **序列决策任务优化** ### 2.3 ICLR 2025 (国际学习表征会议) #### 会议亮点 - **杰出论文奖**: 6篇获奖论文 - **关注点**: 表征学习前沿 - **与NeurIPS、ICML并称**: 机器学习三大顶会 #### 重要趋势 - 持续学习方法克服灾难性遗忘 - 低秩适应(LoRA)在持续学习中的应用 - 新知识积累机制 --- ## 三、关键技术论文 ### 3.1 模型架构与训练 #### WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild - **会议**: 2024年6月 - **特点**: 使用真实用户查询的自动评估框架 - **数据**: 1,024个具有挑战性的现实世界查询 - **意义**: 更贴近实际应用的评估基准 ### 3.2 模型压缩与优化 #### 低比特量化技术 - **应用场景**: 移动端部署、边缘计算 - **技术特点**: 4-bit、8-bit量化 - **目标**: 减少模型大小,提升推理速度 #### KV Cache优化 - **问题**: 长上下文处理中的内存瓶颈 - **解决方案**: 优化键值缓存机制 - **效果**: 提升长文本处理效率 ### 3.3 推理优化 #### Early Exit技术 - **原理**: 简单样本提前退出计算 - **优势**: 减少计算量,提升推理速度 - **应用**: 实时对话系统 #### Parallel Decoding/Sampling - **技术**: 并行解码和采样 - **目标**: 加速生成过程 - **适用**: 批量文本生成任务 --- ## 四、应用领域论文 ### 4.1 医疗健康领域 #### 放射学报告生成 - **会议**: AAAI 2024 - **应用**: 自动生成医学影像报告 - **优势**: 提高诊断效率,减少医生负担 ### 4.2 对话系统 #### 自动对话评估 - **技术**: 使用LLM评估对话质量 - **应用**: 客服系统、聊天机器人优化 - **指标**: 相关性、连贯性、有用性 ### 4.3 代码生成与理解 #### 编程助手 - **模型**: Codex, Code Llama, StarCoder - **能力**: 代码补全、bug修复、代码解释 - **应用**: 开发工具集成 --- ## 五、数据集与基准测试 ### 5.1 重要基准 #### MassSpecGym - **领域**: 分子发现和识别 - **特点**: 标准化评估框架 - **应用**: 药物发现、材料科学 ### 5.2 数据集开发实践 #### NeurIPS数据集与基准测试专题 - **论文数量**: 175篇(占LLM论文17%) - **关注点**: 数据集质量、可重复性、伦理问题 - **趋势**: 更加注重数据集的规范性和透明度 --- ## 六、重要资源链接 ### 6.1 论文集合 1. **NeurIPS 2024论文列表** - https://nips.cc/virtual/2024/papers.html 2. **ICML 2024论文列表** - https://icml.cc/virtual/2024/papers.html 3. **AAAI 2024 LLM论文总结** - https://cloud.tencent.com/developer/article/2466812 ### 6.2 社区资源 1. **知乎专栏**: 2024年30篇大语言模型的论文推荐 - https://blog.csdn.net/2401_84204207/article/details/144224863 2. **RLChina社区**: 顶会论文整理 - http://rlchina.org/topic/946 (ICML 2024) - http://rlchina.org/topic/972 (NeurIPS 2024) 3. **腾讯云开发者社区** - 多个顶会论文总结和解读 ### 6.3 学术机构 1. **南京大学大模型研究协同创新中心** - NeurIPS 2025录用论文简介 2. **上海人工智能实验室** - NeurIPS 2024入选成果速览 --- ## 七、研究趋势总结 ### 7.1 当前热点 (2024-2025) 1. **多模态扩展** - 视觉-语言模型融合 - 音频、视频等多模态理解 2. **效率优化** - 模型压缩与量化 - 推理加速技术 - 高效微调方法(LoRA等) 3. **安全与对齐** - AI安全性评估 - 价值观对齐 - 可解释性研究 4. **评估体系完善** - 更全面的评估基准 - 现实场景测试 - 自动化评估工具 ### 7.2 未来方向 1. **持续学习能力** - 克服灾难性遗忘 - 终身学习机制 2. **推理能力提升** - 复杂问题解决 - 数学推理、逻辑推理 3. **具身智能** - 与物理世界交互 - 机器人控制应用 4. **专业化发展** - 领域特定LLM - 医疗、法律、教育等垂直应用 --- ## 八、下载与整理计划 ### 8.1 已收集资源 - [x] 核心综述论文链接 - [x] 顶会论文分类整理 - [x] 技术方向梳理 - [x] 重要资源链接 ### 8.2 待完成工作 - [ ] 下载关键论文PDF - [ ] 创建论文摘要数据库 - [ ] 整理引用关系图 - [ ] 建立定期更新机制 ### 8.3 自动化工具 - arXiv API自动抓取 - 论文摘要自动生成 - 关键词自动提取 - 趋势分析可视化 --- ## 更新日志 ### 2026-02-28 - 创建初始目录结构 - 整理2024-2025年核心论文 - 添加重要会议和综述 - 建立资源链接库 ### 计划更新 - 每周检查arXiv最新论文 - 每月更新顶会录用情况 - 季度总结研究趋势变化 --- **备注**: 本目录将持续更新,保持与最新研究同步。建议定期查看arXiv和相关顶会网站获取最新信息。