Embedding-传统词频到预训练语义表示

    2025-10-07

    本文系统梳理了文本表示技术从统计模型到预训练语义表示的演进。涵盖了TF-IDF与BM25等传统算法及Word2Vec静态向量,重点解析了基于Transformer的BERT与Qwen3模型,详细展示了双塔召回与单塔精排的代码实现。实验表明,Qwen3系列模型在语义理解与检索准确性上显著优于传统方法,展示了其在RAG场景中的核心价值。


    Read More

    GPT和Qwen系列

    2025-10-02

    本文解析了GPT与Qwen系列的演进历程。GPT系列确立了预训练范式与Scaling Law,引领了从文本生成到多模态推理的突破;Qwen系列作为开源先锋,凭借MoE架构、海量数据及“思维预算”机制,在效率与逻辑推理上实现飞跃。两者共同推动了LLM向通用人工智能的加速迈进。


    Read More

    基于文本的违禁词分类挑战赛

    该方案针对违禁词分类的不均衡样本挑战,基于Chinese-RoBERTa-wwm-ext模型,采用了FGM对抗训练、多层输出拼接及Focal Loss/Rdrop等组合损失策略。通过五折交叉验证与基于置信度的二阶段多模型融合机制,有效提升了长尾类别识别效果。


    Read More

    Transformer解析

    2025-07-10

    Transformer架构通过摒弃递归与卷积,仅依赖注意力机制,成功解决了序列建模中的并行计算与长距离依赖难题。其核心组件包含多头注意力、位置编码及前馈网络。作为现代大语言模型(LLM)的基石,它凭借极强的通用性与扩展性,通过RoPE、SwiGLU等技术演进,彻底重塑了NLP领域的技术范式。


    Read More
    View: User: