OCR模型

    2025-11-26

    本文对比了MonkeyOCR的SRR高效解析范式、PaddleOCR 3.0的轻量级模块化架构、DeepSeek-OCR的视觉压缩机制及HunyuanOCR的RL驱动端到端方案。分析表明,当前OCR技术正从单纯文字提取向结构化解析、视觉语言压缩及强化学习优化方向演进,高质量合成数据与架构创新成为关键驱动力。


    Read More

    后训练-强化学习RL

    2025-11-03

    本文阐述了强化学习从对齐工具向推理能力放大器的范式转变。通过解构PPO至GRPO等无Critic算法的演进,揭示了群体博弈与可验证奖励(RLVR)如何激发长链推理(CoT)。结合AutoThink框架,RL正推动模型从“模仿人类”向“自主深度思考”跨越。


    Read More

    Code LLM

    由于工作原因,对 RTL LLM(硬件描述语言大模型)进行了相关探索,本文梳理了代码智能从统计模型向大模型与智能体(Agent)演进的全过程。通用代码模型通过架构迭代(如Decoder-Only)、MoE及RLVR技术,重塑了软件工程范式。针对硬件设计(RTL)领域,文章揭示了其在数据稀缺与并发逻辑下的独特挑战,并指出合成数据与多智能体仿真反馈是关键突破口。两者正殊途同归,通过“推理-...

    Read More

    激活函数解析:从 Sigmoid 到 SwiGLU 的演进

    激活函数 (Activation Function) 作为人工神经网络中引入非线性的核心组件,是将线性运算转化为能够拟合任意复杂函数的高维表达的关键。从 1950 年代受生物神经元启发的二值阈值函数,到深度学习时代的整流线性单元 (ReLU),再到如今大语言模型 (LLM) 广泛采用的门控线性单元 (GLU) 变体,激活函数的演进史也是一部人工智能攻克优化瓶颈、追求表达能力与计算效率平...

    Read More

    Embedding微调-对齐下游检索

    2025-10-08

    本文介绍了通过LoRA微调Qwen3-Embedding模型以解决垂直领域检索适配不足的问题。核心策略在于利用BM25筛选“难负样本”与“易负样本”构建高质量数据集,并结合MultiNegTripletLoss进行对比学习训练。实验结果显示,微调后的模型在高阈值区间表现显著优于基座模型,有效提升了特定场景下的语义区分能力与检索可靠性。


    Read More
    View: User: