📌 论文阅读小结置顶

2025-07-05

LLM

本文持续更新,记录阅读的LLM相关论文及技术总结。

OCR模型

2025-11-26

LLM
OCR

本文对比了MonkeyOCR的SRR高效解析范式、PaddleOCR 3.0的轻量级模块化架构、DeepSeek-OCR的视觉压缩机制及HunyuanOCR的RL驱动端到端方案。分析表明，当前OCR技术正从单纯文字提取向结构化解析、视觉语言压缩及强化学习优化方向演进，高质量合成数据与架构创新成为关键驱动力。

后训练-强化学习RL

2025-11-03

LLM
RL

本文阐述了强化学习从对齐工具向推理能力放大器的范式转变。通过解构PPO至GRPO等无Critic算法的演进，揭示了群体博弈与可验证奖励（RLVR）如何激发长链推理（CoT）。结合AutoThink框架，RL正推动模型从“模仿人类”向“自主深度思考”跨越。

Code LLM

2025-10-30

由于工作原因，对 RTL LLM（硬件描述语言大模型）进行了相关探索，本文梳理了代码智能从统计模型向大模型与智能体（Agent）演进的全过程。通用代码模型通过架构迭代（如Decoder-Only）、MoE及RLVR技术，重塑了软件工程范式。针对硬件设计（RTL）领域，文章揭示了其在数据稀缺与并发逻辑下的独特挑战，并指出合成数据与多智能体仿真反馈是关键突破口。两者正殊途同归，通过“推理-...

优化器解析：从 SGD 到 Muon 的演进之路

2025-10-12

深度学习的崛起，本质上是算力、数据与优化算法三者共振的结果。本文将穷尽式地梳理从早期的随机梯度下降（SGD）到如今专为大语言模型（LLM）设计的 Muon 算法的演进过程，揭示优化器从”标量微积分”向”高维几何控制”的认知革命。

激活函数解析：从 Sigmoid 到 SwiGLU 的演进

2025-10-12

激活函数 (Activation Function) 作为人工神经网络中引入非线性的核心组件，是将线性运算转化为能够拟合任意复杂函数的高维表达的关键。从 1950 年代受生物神经元启发的二值阈值函数，到深度学习时代的整流线性单元 (ReLU)，再到如今大语言模型 (LLM) 广泛采用的门控线性单元 (GLU) 变体，激活函数的演进史也是一部人工智能攻克优化瓶颈、追求表达能力与计算效率平...

Embedding微调-对齐下游检索

2025-10-08

NLP

本文介绍了通过LoRA微调Qwen3-Embedding模型以解决垂直领域检索适配不足的问题。核心策略在于利用BM25筛选“难负样本”与“易负样本”构建高质量数据集，并结合MultiNegTripletLoss进行对比学习训练。实验结果显示，微调后的模型在高阈值区间表现显著优于基座模型，有效提升了特定场景下的语义区分能力与检索可靠性。

📌 论文阅读小结 置顶

OCR模型

后训练-强化学习RL

Code LLM

优化器解析：从 SGD 到 Muon 的演进之路

激活函数解析：从 Sigmoid 到 SwiGLU 的演进

Embedding微调-对齐下游检索

📌 论文阅读小结置顶