# 大语言模型（LLM）顶级论文目录 (2024-2025)

## 概述
本目录整理了2024-2025年大语言模型领域的重要论文，涵盖综述、核心算法、评估方法、应用等方面。

**最后更新**: 2026年2月28日  
**整理者**: 东京小海  
**目标**: 为权哥提供最新LLM研究概览

---

## 一、综合综述与调研

### 1.1 核心综述论文

#### [2402.06196] Large Language Models: A Survey
- **标题**: 大语言模型综述
- **作者**: Ray O. Ng, 等
- **年份**: 2024
- **链接**: https://arxiv.org/abs/2402.06196
- **摘要**: 全面回顾了最著名的LLM，包括GPT、LLaMA、PaLM三个流行家族，讨论了它们的特点、贡献和局限性。
- **关键词**: 综述, GPT, LLaMA, PaLM, 模型比较
- **重要性**: ⭐⭐⭐⭐⭐ (必读综述)

#### [2303.18223] A Survey of Large Language Models
- **标题**: 大语言模型调研
- **作者**: Wayne Xin Zhao, 等
- **年份**: 2023 (2024年仍有重要参考价值)
- **链接**: https://arxiv.org/abs/2303.18223
- **摘要**: 从预训练、自适应调优、利用、能力评估四个方面系统回顾LLM进展。
- **关键词**: 预训练, 微调, 评估, 应用
- **重要性**: ⭐⭐⭐⭐⭐ (经典综述)

#### [2411.15594] A Survey on LLM-as-a-Judge
- **标题**: LLM作为评判者的调研
- **作者**: 多个机构
- **年份**: 2024
- **链接**: https://arxiv.org/abs/2411.15594
- **摘要**: 系统调研了使用LLM作为评判者的方法、应用和挑战。
- **关键词**: LLM-as-a-Judge, 评估, 自动评分
- **重要性**: ⭐⭐⭐⭐

### 1.2 专题综述

#### [2406.00936] A Survey of Useful LLM Evaluation
- **标题**: 有用的LLM评估方法调研
- **作者**: 研究团队
- **年份**: 2024
- **链接**: https://arxiv.org/abs/2406.00936
- **摘要**: 提出了从"核心能力"到"智能体"的两阶段评估框架。
- **关键词**: 评估框架, 核心能力, 智能体评估
- **重要性**: ⭐⭐⭐⭐

#### A Survey on Evaluation of Large Language Models
- **标题**: 大语言模型评估方法调研
- **作者**: ACM期刊
- **年份**: 2024
- **链接**: https://dl.acm.org/doi/10.1145/3641289
- **摘要**: 从三个关键角度全面回顾LLM评估方法。
- **关键词**: 评估方法, 基准测试, 性能指标
- **重要性**: ⭐⭐⭐⭐

---

## 二、顶级会议论文精选

### 2.1 NeurIPS 2024 (神经信息处理系统大会)

#### 会议概况
- **论文总数**: 1022篇与LLM相关
- **特点**: Benchmark和Dataset相关论文占比高(约17%)
- **重要趋势**: 多模态LLM安全性评估

#### 重要论文方向
1. **多模态大语言模型安全评估**
   - 研究MLLMs潜在安全隐患
   - 建立全面安全评测基准

2. **视觉语言模型训练后量化**
   - 提出用于LVLM的训练后量化框架
   - 使用熵作为指标划分块，优化搜索空间

3. **VisionLLMv2**
   - 端到端通用多模态大语言模型
   - 适用于数百个视觉语言任务

### 2.2 ICML 2024 (国际机器学习大会)

#### 会议概况
- **论文总数**: 507篇与LLM相关
- **研究重点**: 
  - Efficient LLM (模型压缩、加速训练、加速推理)
  - 安全性和价值对齐(AI Safety)
  - 低比特量化、图数据理解

#### 热门研究方向
1. **高效LLM研究** (最多)
   - 模型压缩
   - 加速训练和微调
   - 加速推理
   - 高效架构设计

2. **时间序列预测**
   - LLM在时间序列任务中的应用增加

3. **序列决策任务优化**

### 2.3 ICLR 2025 (国际学习表征会议)

#### 会议亮点
- **杰出论文奖**: 6篇获奖论文
- **关注点**: 表征学习前沿
- **与NeurIPS、ICML并称**: 机器学习三大顶会

#### 重要趋势
- 持续学习方法克服灾难性遗忘
- 低秩适应(LoRA)在持续学习中的应用
- 新知识积累机制

---

## 三、关键技术论文

### 3.1 模型架构与训练

#### WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- **会议**: 2024年6月
- **特点**: 使用真实用户查询的自动评估框架
- **数据**: 1,024个具有挑战性的现实世界查询
- **意义**: 更贴近实际应用的评估基准

### 3.2 模型压缩与优化

#### 低比特量化技术
- **应用场景**: 移动端部署、边缘计算
- **技术特点**: 4-bit、8-bit量化
- **目标**: 减少模型大小，提升推理速度

#### KV Cache优化
- **问题**: 长上下文处理中的内存瓶颈
- **解决方案**: 优化键值缓存机制
- **效果**: 提升长文本处理效率

### 3.3 推理优化

#### Early Exit技术
- **原理**: 简单样本提前退出计算
- **优势**: 减少计算量，提升推理速度
- **应用**: 实时对话系统

#### Parallel Decoding/Sampling
- **技术**: 并行解码和采样
- **目标**: 加速生成过程
- **适用**: 批量文本生成任务

---

## 四、应用领域论文

### 4.1 医疗健康领域

#### 放射学报告生成
- **会议**: AAAI 2024
- **应用**: 自动生成医学影像报告
- **优势**: 提高诊断效率，减少医生负担

### 4.2 对话系统

#### 自动对话评估
- **技术**: 使用LLM评估对话质量
- **应用**: 客服系统、聊天机器人优化
- **指标**: 相关性、连贯性、有用性

### 4.3 代码生成与理解

#### 编程助手
- **模型**: Codex, Code Llama, StarCoder
- **能力**: 代码补全、bug修复、代码解释
- **应用**: 开发工具集成

---

## 五、数据集与基准测试

### 5.1 重要基准

#### MassSpecGym
- **领域**: 分子发现和识别
- **特点**: 标准化评估框架
- **应用**: 药物发现、材料科学

### 5.2 数据集开发实践

#### NeurIPS数据集与基准测试专题
- **论文数量**: 175篇(占LLM论文17%)
- **关注点**: 数据集质量、可重复性、伦理问题
- **趋势**: 更加注重数据集的规范性和透明度

---

## 六、重要资源链接

### 6.1 论文集合

1. **NeurIPS 2024论文列表**
   - https://nips.cc/virtual/2024/papers.html

2. **ICML 2024论文列表**
   - https://icml.cc/virtual/2024/papers.html

3. **AAAI 2024 LLM论文总结**
   - https://cloud.tencent.com/developer/article/2466812

### 6.2 社区资源

1. **知乎专栏**: 2024年30篇大语言模型的论文推荐
   - https://blog.csdn.net/2401_84204207/article/details/144224863

2. **RLChina社区**: 顶会论文整理
   - http://rlchina.org/topic/946 (ICML 2024)
   - http://rlchina.org/topic/972 (NeurIPS 2024)

3. **腾讯云开发者社区**
   - 多个顶会论文总结和解读

### 6.3 学术机构

1. **南京大学大模型研究协同创新中心**
   - NeurIPS 2025录用论文简介

2. **上海人工智能实验室**
   - NeurIPS 2024入选成果速览

---

## 七、研究趋势总结

### 7.1 当前热点 (2024-2025)

1. **多模态扩展**
   - 视觉-语言模型融合
   - 音频、视频等多模态理解

2. **效率优化**
   - 模型压缩与量化
   - 推理加速技术
   - 高效微调方法(LoRA等)

3. **安全与对齐**
   - AI安全性评估
   - 价值观对齐
   - 可解释性研究

4. **评估体系完善**
   - 更全面的评估基准
   - 现实场景测试
   - 自动化评估工具

### 7.2 未来方向

1. **持续学习能力**
   - 克服灾难性遗忘
   - 终身学习机制

2. **推理能力提升**
   - 复杂问题解决
   - 数学推理、逻辑推理

3. **具身智能**
   - 与物理世界交互
   - 机器人控制应用

4. **专业化发展**
   - 领域特定LLM
   - 医疗、法律、教育等垂直应用

---

## 八、下载与整理计划

### 8.1 已收集资源
- [x] 核心综述论文链接
- [x] 顶会论文分类整理
- [x] 技术方向梳理
- [x] 重要资源链接

### 8.2 待完成工作
- [ ] 下载关键论文PDF
- [ ] 创建论文摘要数据库
- [ ] 整理引用关系图
- [ ] 建立定期更新机制

### 8.3 自动化工具
- arXiv API自动抓取
- 论文摘要自动生成
- 关键词自动提取
- 趋势分析可视化

---

## 更新日志

### 2026-02-28
- 创建初始目录结构
- 整理2024-2025年核心论文
- 添加重要会议和综述
- 建立资源链接库

### 计划更新
- 每周检查arXiv最新论文
- 每月更新顶会录用情况
- 季度总结研究趋势变化

---

**备注**: 本目录将持续更新，保持与最新研究同步。建议定期查看arXiv和相关顶会网站获取最新信息。