添加 登录

评论

只有登录用户才可以评论

本书计划按月更新,发布链接:https://github.com/ZJU-LLMs/Foundations-of-LLMs

瓦白 2025-02-18 13:10:39
  1. 语言模型基础
    • 基于统计方法的语言模型:n - grams语言模型基于马尔可夫假设和离散变量极大似然估计,通过统计语料库中词序列出现的频率预测语言符号概率,对未知序列有一定泛化性,但存在“零概率”问题。
    • 基于神经网络的语言模型:循环神经网络(RNN)通过环路结构考虑历史信息,但训练中易出现梯度衰减或爆炸问题。基于RNN的语言模型据此预测下一个词出现的概率。Transformer基于注意力机制,能并行计算,包含注意力模块和全连接前馈模块等。基于Transformer的语言模型可设计多种预训练任务,在文本生成等任务中表现出色。
    • 语言模型的采样方法:概率最大化方法通过贪心搜索或波束搜索生成可能性最高的文本,但可能导致文本平庸、缺乏多样性。随机采样方法如Top - K采样和Top - P采样通过增加随机性提升文本新颖度,还可引入Temperature机制调节随机性。
    • 语言模型的评测:内在评测通过计算困惑度衡量语言模型对测试文本的“困惑”程度;外在评测通过具体任务评估模型处理任务的能力,包括基于统计指标(如BLEU、ROUGE)和基于语言模型(如BERTScore、G - EVAL)的评测方法。
  2. 大语言模型架构
    • 大数据与大模型的作用:大数据和大模型相结合,促进了模型能力的增强和扩展,催生了上下文学习、常识推理等涌现能力,但也带来了可解释性、信息安全等挑战。
    • 主流模型架构:基于Transformer框架演化出Encoder - only、Encoder - Decoder和Decoder - only三种主流架构。Encoder - only架构适用于自然语言理解任务;Encoder - Decoder架构适合处理复杂的有条件生成任务;Decoder - only架构在无条件文本生成任务中表现出色。
    • 典型模型:介绍了各架构的典型模型,如基于Encoder - only架构的BERT及其衍生模型,基于Encoder - Decoder架构的T5、BART,基于Decoder - only架构的GPT系列和LLaMA系列。
    • 非Transformer架构:为解决Transformer在长序列处理中的瓶颈问题,介绍了状态空间模型(SSM)和训练时更新(TTT)等非Transformer架构,以及基于SSM范式的RWKV和Mamba模型。
  3. Prompt工程
    • 基本概念:Prompt是指导模型执行任务的输入指令,Prompt工程是设计和优化Prompt的过程,通过精心设计Prompt可激发大语言模型的潜力,避免繁琐微调。
    • 关键技术:包括上下文学习、思维链等。上下文学习通过构造包含示例的Prompt让模型学习任务逻辑;思维链通过模拟人类思考过程,引导模型逐步推理,提升复杂任务处理能力。
    • 实用技巧:规范编写Prompt,合理归纳提问,适时使用思维链,善用心理暗示(角色扮演和情景代入),可提升大语言模型的交互效率和输出质量。
    • 应用领域:广泛应用于构建Agent、数据合成、Text - to - SQL转换以及设计个性化的GPTs等场景,提升大语言模型在不同任务中的表现。
  4. 参数高效微调
    • 下游任务适配方法:上下文学习通过设计Prompt驱动模型完成任务,但性能与微调存在差距;指令微调通过构建指令数据集进行监督微调,可提升模型指令遵循能力,但计算资源消耗大。
    • 参数高效微调技术:旨在减少微调参数数量和计算开销,包括参数附加方法、参数选择方法和低秩适配方法,每种方法都有其代表性算法和优势。
    • 实践与应用:介绍了HF - PEFT框架的使用方法和技巧,并展示了PEFT技术在表格数据查询和分析等垂直领域的应用案例,有效提升了大模型在特定任务上的性能。
  5. 模型编辑
    • 基本概念:旨在精准、高效地修正大语言模型中的特定知识点,目标是使模型输出期望结果,同时不影响其他无关输出,具有准确性、泛化性、可迁移性、局部性和高效性等性质。
    • 经典方法:分为外部拓展法和内部修改法。外部拓展法包括知识缓存法和附加参数法,通过在外部存储新知识来修改模型输出;内部修改法包括元学习法和定位编辑法,通过调整模型内部特定层或神经元来实现对模型输出的精确控制。
    • 应用场景:可用于精准模型更新、保护被遗忘权、提升模型安全等,有助于解决大语言模型存在的偏见、毒性、知识错误等问题。
  6. 检索增强生成:检索增强生成通过检索相关信息来增强文本生成的质量,介绍了其架构、知识检索和生成增强的方法,以及在搭建简单RAG系统等方面的实践与应用。
瓦白 2025-02-18 13:10:08