本文持续更新,记录阅读的LLM相关论文及技术总结。
OCR模型
本文对比了MonkeyOCR的SRR高效解析范式、PaddleOCR 3.0的轻量级模块化架构、DeepSeek-OCR的视觉压缩机制及HunyuanOCR的RL驱动端到端方案。分析表明,当前OCR技术正从单纯文字提取向结构化解析、视觉语言压缩及强化学习优化方向演进,高质量合成数据与架构创新成为关键驱动力。
后训练-强化学习RL
本文阐述了强化学习从对齐工具向推理能力放大器的范式转变。通过解构PPO至GRPO等无Critic算法的演进,揭示了群体博弈与可验证奖励(RLVR)如何激发长链推理(CoT)。结合AutoThink框架,RL正推动模型从“模仿人类”向“自主深度思考”跨越。
Code LLM
由于工作原因,对 RTL LLM(硬件描述语言大模型)进行了相关探索,本文梳理了代码智能从统计模型向大模型与智能体(Agent)演进的全过程。通用代码模型通过架构迭代(如Decoder-Only)、MoE及RLVR技术,重塑了软件工程范式。针对硬件设计(RTL)领域,文章揭示了其在数据稀缺与并发逻辑下的独特挑战,并指出合成数据与多智能体仿真反馈是关键突破口。两者正殊途同归,通过“推理-...
优化器解析:从 SGD 到 Muon 的演进之路
深度学习的崛起,本质上是算力、数据与优化算法三者共振的结果。本文将穷尽式地梳理从早期的随机梯度下降(SGD)到如今专为大语言模型(LLM)设计的 Muon 算法的演进过程,揭示优化器从”标量微积分”向”高维几何控制”的认知革命。
激活函数解析:从 Sigmoid 到 SwiGLU 的演进
激活函数 (Activation Function) 作为人工神经网络中引入非线性的核心组件,是将线性运算转化为能够拟合任意复杂函数的高维表达的关键。从 1950 年代受生物神经元启发的二值阈值函数,到深度学习时代的整流线性单元 (ReLU),再到如今大语言模型 (LLM) 广泛采用的门控线性单元 (GLU) 变体,激活函数的演进史也是一部人工智能攻克优化瓶颈、追求表达能力与计算效率平...
Embedding微调-对齐下游检索
本文介绍了通过LoRA微调Qwen3-Embedding模型以解决垂直领域检索适配不足的问题。核心策略在于利用BM25筛选“难负样本”与“易负样本”构建高质量数据集,并结合MultiNegTripletLoss进行对比学习训练。实验结果显示,微调后的模型在高阈值区间表现显著优于基座模型,有效提升了特定场景下的语义区分能力与检索可靠性。
