[{"data":1,"prerenderedAt":2963},["ShallowReactive",2],{"search-docs":3,"doc-\u002Fai\u002Fllm\u002Ftransformer":886},[4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,159,162,165,169,172,175,178,182,186,190,194,198,202,206,210,214,218,222,226,230,234,238,242,246,250,254,258,262,266,269,273,277,281,285,288,291,294,298,301,304,307,310,313,316,319,322,325,329,332,336,340,344,348,352,356,359,362,365,368,371,374,377,380,383,386,389,393,396,399,402,405,408,411,414,417,420,424,428,432,435,438,442,446,450,454,458,462,466,470,474,477,480,483,487,491,494,497,500,504,507,511,515,518,521,524,527,530,533,536,539,542,545,548,551,554,557,560,563,566,569,572,575,579,583,587,591,595,599,603,606,610,614,617,620,623,626,629,633,637,640,643,646,649,652,655,658,661,664,667,670,673,676,679,682,685,688,691,694,697,700,703,706,709,712,716,720,724,728,732,736,740,744,748,752,756,760,764,768,772,775,779,783,787,790,793,796,799,802,805,808,811,814,818,822,825,829,832,835,838,841,844,848,851,854,858,862,865,869,873,876,879,882],{"path":5,"title":6,"description":7},"\u002Fabout\u002Fauthor","作者相关","只想纯粹的做一个程序员...",{"path":9,"title":10,"description":11},"\u002Fabout\u002Fjourney","心路历程","",{"path":13,"title":14,"description":15},"\u002Fai\u002Fagent\u002Fframeworks","Agent 框架","主流 Agent 框架：LangChain、LlamaIndex、AutoGen、CrewAI",{"path":17,"title":18,"description":19},"\u002Fai\u002Fagent\u002Fhooks","Agent Hooks 与自动化","Claude Agent 的 Hooks 生命周期、事件类型、典型自动化场景",{"path":21,"title":22,"description":23},"\u002Fai\u002Fagent\u002Fintroduction","AI Agent 概述","AI Agent 核心概念：感知、规划、执行、记忆",{"path":25,"title":26,"description":27},"\u002Fai\u002Fagent\u002Fpractice","Agent 实战","AI Agent 实战：构建自主任务执行系统",{"path":29,"title":30,"description":31},"\u002Fai\u002Fagent\u002Fsdk","Claude Agent SDK 开发","使用 Claude Agent SDK 构建自定义 AI Agent：架构、API、生命周期",{"path":33,"title":34,"description":35},"\u002Fai\u002Fagent\u002Fsubagents","Subagents 子代理","用 Subagents 分解复杂任务、并发执行、隔离上下文",{"path":37,"title":38,"description":39},"\u002Fai\u002Fagent\u002Ftool-use","工具调用","AI Agent 工具调用：Function Calling、Tool Use 原理与实践",{"path":41,"title":42,"description":43},"\u002Fai\u002Ffundamentals\u002Fdeep-learning","深度学习入门","深度学习基础知识：前向传播、反向传播、损失函数、优化器",{"path":45,"title":46,"description":47},"\u002Fai\u002Ffundamentals\u002Fml-basics","机器学习基础","机器学习核心概念：监督学习、无监督学习、强化学习",{"path":49,"title":50,"description":51},"\u002Fai\u002Ffundamentals\u002Fneural-networks","神经网络原理","神经网络架构：CNN、RNN、注意力机制",{"path":53,"title":54,"description":55},"\u002Fai\u002Fgetting-started","AI 学习路线","AI 技术学习路线图，从基础到实战的完整指南",{"path":57,"title":58,"description":59},"\u002Fai\u002Fllm\u002Ffine-tuning","模型微调","大模型微调技术：LoRA、QLoRA、全量微调、RLHF",{"path":61,"title":62,"description":63},"\u002Fai\u002Fllm\u002Fintroduction","大模型概述","大语言模型发展历程、核心能力与主流模型对比",{"path":65,"title":66,"description":67},"\u002Fai\u002Fllm\u002Flocal-deploy","本地部署","大模型本地部署：Ollama、vLLM、llama.cpp",{"path":69,"title":70,"description":71},"\u002Fai\u002Fllm\u002Ftransformer","Transformer 架构","Transformer 架构详解：自注意力机制、位置编码、多头注意力",{"path":73,"title":74,"description":75},"\u002Fai\u002Fmcp\u002Fclient","MCP Client 开发","MCP Client 开发指南：连接、调用、集成",{"path":77,"title":78,"description":79},"\u002Fai\u002Fmcp\u002Fdebugging","MCP 调试与排错","MCP Server 开发与集成过程中的常见问题、日志分析、诊断工具",{"path":81,"title":82,"description":83},"\u002Fai\u002Fmcp\u002Fintroduction","MCP 概述","Model Context Protocol 协议概述：架构、核心概念、应用场景",{"path":85,"title":86,"description":87},"\u002Fai\u002Fmcp\u002Fserver","MCP Server 开发","MCP Server 开发指南：资源、工具、提示词的实现",{"path":89,"title":90,"description":91},"\u002Fai\u002Fmcp\u002Ftools","MCP Tools 深入","深入理解 MCP Tools：与 Resources\u002FPrompts 的差异、Schema 设计、Annotations 与权限控制",{"path":93,"title":94,"description":95},"\u002Fai\u002Fprompt\u002Fadvanced","高级 Prompt 模式","高级 Prompt 设计模式：Tree-of-Thought、自我反思、多轮对话策略",{"path":97,"title":98,"description":99},"\u002Fai\u002Fprompt\u002Fbasics","Prompt 基础","Prompt Engineering 入门：基本概念、角色设定、输出格式控制",{"path":101,"title":102,"description":103},"\u002Fai\u002Fprompt\u002Ftechniques","提示词技巧","常用提示词技巧：Few-shot、Chain-of-Thought、ReAct",{"path":105,"title":106,"description":107},"\u002Fai\u002Frag\u002Fembedding","文本嵌入","文本嵌入模型：Embedding 原理、模型选择、相似度计算",{"path":109,"title":110,"description":111},"\u002Fai\u002Frag\u002Fintroduction","RAG 概述","检索增强生成（RAG）架构原理、优势与应用场景",{"path":113,"title":114,"description":115},"\u002Fai\u002Frag\u002Fpractice","RAG 实战","RAG 应用实战：文档问答系统、知识库搭建",{"path":117,"title":118,"description":119},"\u002Fai\u002Frag\u002Fvector-database","向量数据库","主流向量数据库对比：Milvus、Pinecone、Chroma、Weaviate",{"path":121,"title":122,"description":123},"\u002Fai\u002Fskills\u002Fbest-practices","Skill 最佳实践","编写高质量 Skill 的设计原则、常见陷阱与优化技巧",{"path":125,"title":126,"description":127},"\u002Fai\u002Fskills\u002Fcreating","创建自定义 Skill","从零编写一个可被 Agent 自动发现和调用的 Skill",{"path":129,"title":130,"description":131},"\u002Fai\u002Fskills\u002Fintroduction","Agent Skills 概述","Claude Agent Skills 概念、工作原理、与 Tools\u002FMCP 的区别",{"path":133,"title":134,"description":135},"\u002Fgolang\u002Fadvanced\u002Fconcurrency","Go - 并发深入","深入理解 Go 并发编程的核心机制。",{"path":137,"title":138,"description":139},"\u002Fgolang\u002Fadvanced\u002Fgc","Go - 垃圾回收","理解 Go 的垃圾回收机制，掌握 GC 调优方法。",{"path":141,"title":142,"description":143},"\u002Fgolang\u002Fadvanced\u002Fgmp","Go - GMP 调度模型","GMP 是 Go 运行时调度器的核心模型，理解它对于编写高性能 Go 程序至关重要。",{"path":145,"title":146,"description":147},"\u002Fgolang\u002Fadvanced\u002Fgo-concurrency","Go - 并发编程","Go 的并发是其核心特性之一，通过 Goroutine 和 Channel 实现。",{"path":149,"title":150,"description":151},"\u002Fgolang\u002Fadvanced\u002Fmemory","Go - 内存模型","理解 Go 的内存分配机制和内存模型。",{"path":153,"title":154,"description":155},"\u002Fgolang\u002Fadvanced\u002Fprofiling","Go - 性能分析","掌握 Go 的性能分析工具：pprof、trace、benchmark。",{"path":157,"title":158,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-basic","Go - 基础语法",{"path":160,"title":161,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-composite","Go - 复合类型",{"path":163,"title":164,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-control","Go - 流程控制",{"path":166,"title":167,"description":168},"\u002Fgolang\u002Fcore\u002Fgo-error","Go - 错误处理","Go 使用显式的错误返回值来处理错误，而不是异常机制。",{"path":170,"title":171,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-function","Go - 函数",{"path":173,"title":174,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-install","Go - 环境搭建",{"path":176,"title":177,"description":11},"\u002Fgolang\u002Fcore\u002Fgo-interface","Go - 接口",{"path":179,"title":180,"description":181},"\u002Fgolang\u002Fcore\u002Fgo-module","Go - 包管理","Go Modules 是 Go 1.11 引入的官方依赖管理方案，Go 1.16 后成为默认模式。",{"path":183,"title":184,"description":185},"\u002Fgolang\u002Fdistributed\u002Fgrpc","Go - gRPC","gRPC 是 Google 开发的高性能 RPC 框架，使用 Protocol Buffers 作为序列化协议。",{"path":187,"title":188,"description":189},"\u002Fgolang\u002Fdistributed\u002Fmicroservice","Go - 微服务","微服务架构的核心组件：服务发现、负载均衡、熔断降级。",{"path":191,"title":192,"description":193},"\u002Fgolang\u002Fdistributed\u002Fmq","Go - 消息队列","使用 Go 操作 Kafka 和 RabbitMQ。",{"path":195,"title":196,"description":197},"\u002Fgolang\u002Fdistributed\u002Fredis","Go - Redis","使用 go-redis 操作 Redis，实现缓存、分布式锁等功能。",{"path":199,"title":200,"description":201},"\u002Fgolang\u002Fengineering\u002Fconfig","Go - 配置管理","使用 viper 进行配置管理，支持多种配置格式和配置中心。",{"path":203,"title":204,"description":205},"\u002Fgolang\u002Fengineering\u002Fdocker","Go - Docker 部署","使用 Docker 容器化部署 Go 应用。",{"path":207,"title":208,"description":209},"\u002Fgolang\u002Fengineering\u002Fkubernetes","Go - Kubernetes 部署","在 Kubernetes 上部署和管理 Go 应用。",{"path":211,"title":212,"description":213},"\u002Fgolang\u002Fengineering\u002Flogging","Go - 日志系统","使用 zap 和 logrus 构建高性能结构化日志系统。",{"path":215,"title":216,"description":217},"\u002Fgolang\u002Fengineering\u002Ftesting","Go - 单元测试","Go 内置了强大的测试框架，掌握测试是编写高质量代码的基础。",{"path":219,"title":220,"description":221},"\u002Fgolang\u002Fstdlib\u002Fbufio","bufio","在 Go 语言中，bufio 包提供了带缓冲的 I\u002FO 操作，能够提高读写性能。以下是一些常用的 bufio 包 API 及其详细说明：",{"path":223,"title":224,"description":225},"\u002Fgolang\u002Fstdlib\u002Fcontainer","container","在Go语言标准库中，container 包提供了几种常用的数据结构实现，这些数据结构对于高效地管理和操作数据非常有用。以下是 container 包中主要的数据结构：",{"path":227,"title":228,"description":229},"\u002Fgolang\u002Fstdlib\u002Fcrypto","crypto","在 Go 语言中，crypto 包提供了一组用于加密和解密的功能。以下是一些常用的 crypto 包及其子包的 API 及其详细说明：",{"path":231,"title":232,"description":233},"\u002Fgolang\u002Fstdlib\u002Fencoding-csv","encoding\u002Fcsv","在 Go 语言中，encoding\u002Fcsv 包提供了对 CSV（逗号分隔值）文件进行读写的功能。以下是一些常用的 encoding\u002Fcsv 包的 API 及其详细说明：",{"path":235,"title":236,"description":237},"\u002Fgolang\u002Fstdlib\u002Fencoding-json","encoding\u002Fjson","在 Go 语言中，encoding\u002Fjson 包提供了对 JSON 数据进行编码和解码的功能。以下是一些常用的 encoding\u002Fjson 包的 API 及其详细说明：",{"path":239,"title":240,"description":241},"\u002Fgolang\u002Fstdlib\u002Fencoding-xml","encoding\u002Fxml","在 Go 语言中，encoding\u002Fxml 包提供了对 XML 数据进行编码和解码的功能。以下是一些常用的 encoding\u002Fxml 包的 API 及其详细说明：",{"path":243,"title":244,"description":245},"\u002Fgolang\u002Fstdlib\u002Fflag","flag","在Go语言中，flag 包是用于处理命令行参数的标准库，它提供了一种简单而直接的方式来解析和使用命令行参数。下面是关于 flag 包的一些基本介绍和常用功能：",{"path":247,"title":248,"description":249},"\u002Fgolang\u002Fstdlib\u002Ffmt","fmt","在 Go 语言的标准库中，fmt 包是非常重要的，它提供了处理格式化输入和输出的基本工具。以下是一些 fmt 包内常用的API：",{"path":251,"title":252,"description":253},"\u002Fgolang\u002Fstdlib\u002Fhttp","net\u002Fhttp","在 Go 语言中，net\u002Fhttp 包提供了用于构建 HTTP 客户端和服务器的强大工具。以下是一些常用的 net\u002Fhttp 包的 API 及其详细说明：",{"path":255,"title":256,"description":257},"\u002Fgolang\u002Fstdlib\u002Fio","io","在 Go 语言中，io 包提供了基本的输入输出功能。以下是一些常用的 io 包的 API 及其详细说明：",{"path":259,"title":260,"description":261},"\u002Fgolang\u002Fstdlib\u002Flog","log","在 Go 语言中，log 包提供了简单的日志记录功能。以下是一些常用的 log 包的 API 及其详细说明：",{"path":263,"title":264,"description":265},"\u002Fgolang\u002Fstdlib\u002Fmath","math","在 Go 语言中，math 包提供了基本的数学函数和常量。以下是一些常用的 math 包的 API 及其详细说明：",{"path":267,"title":268,"description":11},"\u002Fgolang\u002Fstdlib\u002Fnet","net",{"path":270,"title":271,"description":272},"\u002Fgolang\u002Fstdlib\u002Fos","os","在Go语言中，os 包是一个非常重要且常用的标准库，它提供了与操作系统交互的功能，包括文件操作、环境变量管理、进程管理等。下面是一些 os 包中常用的功能和API：",{"path":274,"title":275,"description":276},"\u002Fgolang\u002Fstdlib\u002Fsort","order","在 Go 语言中，sort 包提供了对切片和用户定义的集合进行排序的函数。它实现了常见的排序算法，如快速排序（Quicksort）和堆排序（Heapsort），并且为自定义集合提供了接口，使得用户可以根据特定的需求进行排序。",{"path":278,"title":279,"description":280},"\u002Fgolang\u002Fstdlib\u002Fstrconv","strconv","在 Go 语言中，strconv 包提供了字符串和基本数据类型之间的转换函数，例如将整数转换为字符串、字符串转换为整数，以及其他类型之间的转换。这些功能非常有用，特别是在处理用户输入或从外部数据源读取数据时。",{"path":282,"title":283,"description":284},"\u002Fgolang\u002Fstdlib\u002Ftime","time","在 Go 语言中，time 包提供了处理时间和日期的功能。以下是一些常用的 time 包的 API 及其详细说明：",{"path":286,"title":287,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Ferror","Gin - 错误处理",{"path":289,"title":290,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Ffile","Gin - 文件处理",{"path":292,"title":293,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Fmiddleware","Gin - 中间件",{"path":295,"title":296,"description":297},"\u002Fgolang\u002Fweb\u002Fgin\u002Fquickstart","Gin - 快速开始","Gin 是目前最流行的 Go Web 框架，以高性能和简洁 API 著称。",{"path":299,"title":300,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Frequest","Gin - 请求处理",{"path":302,"title":303,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Fresponse","Gin - 响应处理",{"path":305,"title":306,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Frouter","Gin - 路由",{"path":308,"title":309,"description":11},"\u002Fgolang\u002Fweb\u002Fgin\u002Fvalidation","Gin - 参数校验",{"path":311,"title":312,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fassociation","GORM - 关联关系",{"path":314,"title":315,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fcrud","GORM - CRUD 操作",{"path":317,"title":318,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fmodel","GORM - 模型定义",{"path":320,"title":321,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fperformance","GORM - 日志与性能",{"path":323,"title":324,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fquery","GORM - 高级查询",{"path":326,"title":327,"description":328},"\u002Fgolang\u002Fweb\u002Fgorm\u002Fquickstart","GORM - 快速开始","GORM 是 Go 语言最流行的 ORM 库，功能强大，使用简单。",{"path":330,"title":331,"description":11},"\u002Fgolang\u002Fweb\u002Fgorm\u002Ftransaction","GORM - 事务与 Hook",{"path":333,"title":334,"description":335},"\u002Finterview\u002Fbasic","计算机基础面经","本章节汇总了面试中常见的通用技术概念，不局限于特定语言或数据库，是考察技术内功的关键考点。",{"path":337,"title":338,"description":339},"\u002Finterview\u002Fgolang","Golang 面试题","Go 语言面试高频考点，覆盖基础语法、数据结构、并发编程、内存管理、GC、调度器等核心知识。",{"path":341,"title":342,"description":343},"\u002Finterview\u002Fk8s","Kubernetes 面试题","Kubernetes（K8s）面试高频考点，覆盖架构原理、核心资源、网络存储、调度策略、运维监控等核心知识。",{"path":345,"title":346,"description":347},"\u002Finterview\u002Fmysql","MySQL 面试题","MySQL 数据库面试高频考点，覆盖索引、事务、锁、优化、主从复制等核心知识。",{"path":349,"title":350,"description":351},"\u002Finterview\u002Fredis","Redis 面试题","Redis 面试高频考点，覆盖数据结构、持久化、集群、缓存一致性、性能优化等核心知识。",{"path":353,"title":354,"description":355},"\u002Finterview\u002Frocketmq","RocketMQ 面试题","RocketMQ 面试高频考点，覆盖消息模型、可靠性、顺序消息、事务消息、存储与高可用等核心知识。",{"path":357,"title":358,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Flist-arraylist","List - ArrayList 源码解析",{"path":360,"title":361,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Flist-linkedlist","List - LinkedList 源码解析",{"path":363,"title":364,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Flist-stack","List - Satck源码解析",{"path":366,"title":367,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Flist-vectore","List - Vector 源码解析",{"path":369,"title":370,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fmap-hashmap","Map - HashMap 源码解析",{"path":372,"title":373,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fmap-linkedhashmap","Map - LinkedHashMap 源码解析",{"path":375,"title":376,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fmap-treemap","Map - TreeMap 源码解析",{"path":378,"title":379,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fqueue-deque","Queue - Deque 接口解析",{"path":381,"title":382,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fqueue-queue","Queue - Queue 接口解析",{"path":384,"title":385,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fset-hashset","Set - HashSet源码解析",{"path":387,"title":388,"description":11},"\u002Fother\u002Fjava\u002Fcollection\u002Fset-linkedhashset","Set - LinkedHashSet 源码解析",{"path":390,"title":391,"description":392},"\u002Fother\u002Fjava\u002Fcollection\u002Fset-treeset","Set - TreeSet源码解析","TreeSet 是一个 Set 集合接口的实现类，与 HashSet 类似，其底层也是通过维护了一个 TreeMap 对象来封装了一些实现方法，故本篇不再对 TreeSet 的底层原理进行详细说明，仅对常用 API 做简单介绍，如需了解 TreeMap 的底层实现原理，请移步 Map - HashMap 源码解析",{"path":394,"title":395,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fannotation","Java核心 - 注解",{"path":397,"title":398,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fbasic-grammar","Java核心 - 基础语法",{"path":400,"title":401,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fclass-and-object","Java核心 - 面向对象",{"path":403,"title":404,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fcommon-classes","Java核心 - 常用类",{"path":406,"title":407,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fexception","Java核心 - 异常处理",{"path":409,"title":410,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fgenerics","Java核心 - 泛型",{"path":412,"title":413,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fjdk-env-path","Java核心 - 环境搭建",{"path":415,"title":416,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Freflection","Java核心 - 反射",{"path":418,"title":419,"description":11},"\u002Fother\u002Fjava\u002Fcore\u002Fstring","Java核心 - String 字符串",{"path":421,"title":422,"description":423},"\u002Fother\u002Fjava\u002Fio\u002Fbuffer-stream","Java IO - 缓冲流","缓冲流是对基本流的包装，通过内置缓冲区减少系统调用次数，大幅提升读写效率。",{"path":425,"title":426,"description":427},"\u002Fother\u002Fjava\u002Fio\u002Fbyte-stream","Java IO - 字节流","字节流是 Java IO 中最基本的流类型，以字节（byte）为单位进行数据读写，可以处理任意类型的文件。",{"path":429,"title":430,"description":431},"\u002Fother\u002Fjava\u002Fio\u002Fchar-stream","Java IO - 字符流","字符流以字符为单位进行读写，专门用于处理文本文件。相比字节流，字符流能够正确处理字符编码，避免中文乱码问题。",{"path":433,"title":434,"description":11},"\u002Fother\u002Fjava\u002Fio\u002Ffile","Java IO - File 类",{"path":436,"title":437,"description":11},"\u002Fother\u002Fjava\u002Fio\u002Fio-stream-system","Java IO - IO流概述",{"path":439,"title":440,"description":441},"\u002Fother\u002Fjava\u002Fio\u002Fnio","Java IO - NIO","NIO（New IO）是 JDK 1.4 引入的新 IO 模型，提供了更高效的 IO 操作方式，支持非阻塞 IO 和多路复用。",{"path":443,"title":444,"description":445},"\u002Fother\u002Fjava\u002Fjvm\u002Fclass-loading","类加载机制","类加载机制是 JVM 将 .class 文件加载到内存，并对数据进行校验、转换解析和初始化，最终形成可被 JVM 直接使用的 Java 类型的过程。",{"path":447,"title":448,"description":449},"\u002Fother\u002Fjava\u002Fjvm\u002Fgarbage-collection","垃圾回收","垃圾回收（Garbage Collection，GC）是 JVM 自动管理内存的机制，负责回收不再使用的对象所占用的内存。",{"path":451,"title":452,"description":453},"\u002Fother\u002Fjava\u002Fjvm\u002Fjvm-memory","JVM 内存结构","JVM 在执行 Java 程序时，会把它管理的内存划分为若干个不同的数据区域。这些区域有各自的用途、创建和销毁时间。",{"path":455,"title":456,"description":457},"\u002Fother\u002Fjava\u002Fjvm\u002Fjvm-tuning","JVM 调优","JVM 调优是优化 Java 应用性能的重要手段，主要包括参数配置、性能监控和问题排查。",{"path":459,"title":460,"description":461},"\u002Fother\u002Fjava\u002Fthread\u002Fatomic","原子类","Java 原子类（Atomic Classes）提供了一种无锁的线程安全方式，基于 CAS（Compare-And-Swap）操作实现。",{"path":463,"title":464,"description":465},"\u002Fother\u002Fjava\u002Fthread\u002Fcompletable-future","CompletableFuture","CompletableFuture 是 JDK 8 引入的异步编程工具，实现了 Future 和 CompletionStage 接口，支持函数式编程和链式调用。",{"path":467,"title":468,"description":469},"\u002Fother\u002Fjava\u002Fthread\u002Fconcurrent-collections","并发集合","Java 并发包提供了多种线程安全的集合类，用于替代传统的同步集合（如 Collections.synchronizedList）。",{"path":471,"title":472,"description":473},"\u002Fother\u002Fjava\u002Fthread\u002Fconcurrent-utils","并发工具类","Java 并发包提供了多种实用的并发工具类，用于控制线程之间的协调与同步。",{"path":475,"title":476,"description":11},"\u002Fother\u002Fjava\u002Fthread\u002Fsynchronized-lock","同步机制",{"path":478,"title":479,"description":11},"\u002Fother\u002Fjava\u002Fthread\u002Fthread-basic","线程基础",{"path":481,"title":482,"description":11},"\u002Fother\u002Fjava\u002Fthread\u002Fthread-pool","线程池",{"path":484,"title":485,"description":486},"\u002Fother\u002Fspring-series\u002Fspring\u002Fannotations-beans","Spring - 基于注解管理Bean","从 Java 5 开始，Java 增加了对注解（Annotation）的支持，它是代码中的一种特殊标记，可以在编译、类加载和运行时被读取，执行相应的处理。开发人员可以通过注解在不改变原有代码和逻辑的情况下，在源代码中嵌入补充信息。",{"path":488,"title":489,"description":490},"\u002Fother\u002Fspring-series\u002Fspring\u002Fimplement-ioc","Spring - 原理手写IoC","Spring 框架的 IOC 是基于 Java 反射机制实现的，在学习手写 IoC 之前，你需要具备一定的 Java 反射相关的知识，参考本站内的 Java 教程。",{"path":492,"title":493,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fintroduction-case","Spring - 入门案例",{"path":495,"title":496,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-aop","Spring - 面向切面AOP",{"path":498,"title":499,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-aot","Spring - AOT提前编译",{"path":501,"title":502,"description":503},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-data-validation","Spring - 数据校验","在开发中，我们经常遇到参数校验的需求，比如用户注册的时候，要校验用户名不能为空、用户名长度不超过20个字符、手机号是合法的手机号格式等等。如果使用普通方式，我们会把校验的代码和真正的业务处理逻辑耦合在一起，而且如果未来要新增一种校验逻辑也需要在修改多个地方。而spring validation允许通过注解的方式来定义对象校验规则，把校验和业务逻辑分离开，让代码编写更加方便。Spring Validation其实就是对Hibernate Validator进一步的封装，方便在Spring中使用。",{"path":505,"title":506,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-i18n","Spring - 国际化i18n",{"path":508,"title":509,"description":510},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-ioc","Spring - IOC容器","IoC 是 Inversion of Control 的简写，译为“控制反转”，它不是一门技术，而是一种设计思想，是一个重要的面向对象编程法则，能够指导我们如何设计出松耦合、更优良的程序。",{"path":512,"title":513,"description":514},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-junit","Spring - 单元测试JUnit","在之前的测试方法中，几乎都能看到以下的两行代码：",{"path":516,"title":517,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-resources","Spring - 资源操作",{"path":519,"title":520,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-summarize","Spring - Spring概述",{"path":522,"title":523,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fspring-transaction","Spring - 事务",{"path":525,"title":526,"description":11},"\u002Fother\u002Fspring-series\u002Fspring\u002Fxml-beans","Spring - 基于XML管理Bean",{"path":528,"title":529,"description":11},"\u002Fother\u002Fspring-series\u002Fspringboot\u002Fspringboot-config","SpringBoot - 配置详解",{"path":531,"title":532,"description":11},"\u002Fother\u002Fspring-series\u002Fspringboot\u002Fspringboot-data","SpringBoot - 数据访问",{"path":534,"title":535,"description":11},"\u002Fother\u002Fspring-series\u002Fspringboot\u002Fspringboot-quickstart","SpringBoot - 快速入门",{"path":537,"title":538,"description":11},"\u002Fother\u002Fspring-series\u002Fspringboot\u002Fspringboot-web","SpringBoot - Web 开发",{"path":540,"title":541,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-config","SpringCloud - 配置中心",{"path":543,"title":544,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-discovery","SpringCloud - 服务注册与发现",{"path":546,"title":547,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-feign","SpringCloud - 服务调用",{"path":549,"title":550,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-gateway","SpringCloud - 服务网关",{"path":552,"title":553,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-introduction","SpringCloud - 微服务概述",{"path":555,"title":556,"description":11},"\u002Fother\u002Fspring-series\u002Fspringcloud\u002Fspringcloud-sentinel","SpringCloud - 服务保护",{"path":558,"title":559,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-databind","SpringMVC - 数据绑定与转换",{"path":561,"title":562,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-exception","SpringMVC - 异常处理",{"path":564,"title":565,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-interceptor","SpringMVC - 拦截器",{"path":567,"title":568,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-introduction","SpringMVC - 简介与环境搭建",{"path":570,"title":571,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-request","SpringMVC - 请求处理",{"path":573,"title":574,"description":11},"\u002Fother\u002Fspring-series\u002Fspringmvc\u002Fspringmvc-response","SpringMVC - 响应处理",{"path":576,"title":577,"description":578},"\u002Fproject\u002Frocket-leaf\u002Farchitecture","项目架构","Rocket-Leaf 的目录结构、模块划分、数据流向，以及各层之间的依赖关系。",{"path":580,"title":581,"description":582},"\u002Fproject\u002Frocket-leaf\u002Fbackend-layers","后端分层设计","Rocket-Leaf 的 model \u002F rocketmq \u002F service 三层结构，以及服务之间的依赖关系与设计取舍。",{"path":584,"title":585,"description":586},"\u002Fproject\u002Frocket-leaf\u002Fclient-manager","RocketMQ 客户端管理器","AdminClientManager 的多客户端池、默认连接懒加载、自动重连重试的设计与实现。",{"path":588,"title":589,"description":590},"\u002Fproject\u002Frocket-leaf\u002Fencryption","连接信息加密存储","AES-256-GCM + SHA-256 字段级派生密钥的实现，以及如何在不破坏兼容性的前提下为历史明文数据做透明迁移。",{"path":592,"title":593,"description":594},"\u002Fproject\u002Frocket-leaf\u002Ffrontend","前端结构与类型绑定","React + Vite 目录组织、自动生成的 Wails 绑定、api 薄封装与自定义 hooks 的职责划分。",{"path":596,"title":597,"description":598},"\u002Fproject\u002Frocket-leaf","项目简介","Rocket-Leaf 是一款基于 Wails v3 构建的跨平台 RocketMQ 桌面管理客户端，Go 后端 + React 前端。本文档系列拆解它的架构与关键实现。",{"path":600,"title":601,"description":602},"\u002Fproject\u002Frocket-leaf\u002Fwails-v3","Wails v3 入门","Wails v3 的核心概念、Service 绑定机制，以及 Rocket-Leaf 是如何用它把 Go 后端和 React 前端打通的。",{"path":604,"title":605,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-basic","Docker - 入门基础",{"path":607,"title":608,"description":609},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-compose","Docker - Compose","在部署应用时，常常使用到不止一个容器，那么在部署容器的时候就需要一个一个进行部署，这样的部署过程也相对来说比较繁琐复杂，也容易出问题，那么有没有一种更为简单的方法呢？",{"path":611,"title":612,"description":613},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-container-connection","Docker - 容器互联","在上一个章节中我们学习了 Docker 容器的端口映射，可以将 Docker 容器和本地以及网络中的端口进行连接起来。",{"path":615,"title":616,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-dockerfile","Docker - Dockerfile",{"path":618,"title":619,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-helloworld","Docker - HelloWorld",{"path":621,"title":622,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-install","Docker - 安装",{"path":624,"title":625,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-introduce","Docker - 简介",{"path":627,"title":628,"description":11},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-object","Docker - 镜像、容器、仓库",{"path":630,"title":631,"description":632},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-warehouse","Docker - 仓库管理","仓库是集中存放资源的地方，代码仓库是存放代码的，那么Docker 中的仓库就是存放 Docker 镜像的。",{"path":634,"title":635,"description":636},"\u002Ftutorials\u002Fcloud\u002Fdocker\u002Fdocker-web-containers","Docker - WEB应用实例","在之前的章节中，仅对普通容器进行了演示，但在实际中常常使用到 Docker 容器中的 WEB 应用程序。",{"path":638,"title":639,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-config","Kubernetes - ConfigMap 与 Secret",{"path":641,"title":642,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-helm","Kubernetes - Helm 包管理",{"path":644,"title":645,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-install","Kubernetes - 集群安装",{"path":647,"title":648,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-introduction","Kubernetes - 简介与架构",{"path":650,"title":651,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-kubectl","Kubernetes - kubectl 命令行工具",{"path":653,"title":654,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-monitoring","Kubernetes - 监控与日志",{"path":656,"title":657,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-network-security","Kubernetes - 网络与安全",{"path":659,"title":660,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-service","Kubernetes - Service 与 Ingress",{"path":662,"title":663,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-storage","Kubernetes - 持久化存储",{"path":665,"title":666,"description":11},"\u002Ftutorials\u002Fcloud\u002Fkubernetes\u002Fk8s-workload","Kubernetes - 工作负载资源",{"path":668,"title":669,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-bash","Linux - Bash 基础语法",{"path":671,"title":672,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-file-directory","Linux - 文件与目录操作",{"path":674,"title":675,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-network","Linux - 网络配置",{"path":677,"title":678,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-package","Linux - 软件包管理",{"path":680,"title":681,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-process","Linux - 进程管理",{"path":683,"title":684,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-scripts","Linux - 常用脚本示例",{"path":686,"title":687,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-service","Linux - 服务管理",{"path":689,"title":690,"description":11},"\u002Ftutorials\u002Fcloud\u002Flinux\u002Flinux-user-permission","Linux - 用户与权限管理",{"path":692,"title":693,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-https","Nginx - HTTPS 配置",{"path":695,"title":696,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-install","Nginx - 安装与配置",{"path":698,"title":699,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-loadbalance","Nginx - 负载均衡",{"path":701,"title":702,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-optimization","Nginx - 性能优化",{"path":704,"title":705,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-proxy","Nginx - 反向代理",{"path":707,"title":708,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-static","Nginx - 静态资源服务",{"path":710,"title":711,"description":11},"\u002Ftutorials\u002Fcloud\u002Fnginx\u002Fnginx-vhost","Nginx - 虚拟主机配置",{"path":713,"title":714,"description":715},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fmysql-architecture","MySQL 高可用架构","主从复制、读写分离、分库分表。",{"path":717,"title":718,"description":719},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fmysql-index","MySQL 索引","索引是帮助 MySQL 高效获取数据的有序数据结构。",{"path":721,"title":722,"description":723},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fmysql-lock","MySQL 锁","锁用于解决并发访问时的数据一致性问题。",{"path":725,"title":726,"description":727},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fmysql-optimize","MySQL 性能优化","SQL 优化是后端开发必备技能。",{"path":729,"title":730,"description":731},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fmysql-transaction","MySQL 事务","事务是一组不可分割的操作，要么全部成功，要么全部失败。",{"path":733,"title":734,"description":735},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fsql-advanced","SQL 进阶","多表查询、子查询、函数、视图、存储过程。",{"path":737,"title":738,"description":739},"\u002Ftutorials\u002Fdatabase\u002Fmysql\u002Fsql-basic","SQL 基础","SQL（Structured Query Language）是操作关系型数据库的标准语言。",{"path":741,"title":742,"description":743},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-advanced","Redis 进阶功能","事务、发布订阅、Lua 脚本、Pipeline。",{"path":745,"title":746,"description":747},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-basic","Redis 基础","Redis 安装配置与基本命令。",{"path":749,"title":750,"description":751},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-cluster","Redis 高可用","主从复制、哨兵、Cluster 集群。",{"path":753,"title":754,"description":755},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-datatype","Redis 数据类型","Redis 5 种基本数据类型 + 4 种特殊类型。",{"path":757,"title":758,"description":759},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-optimize","Redis 性能优化","内存优化、缓存问题、最佳实践。",{"path":761,"title":762,"description":763},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-persistence","Redis 持久化","Redis 提供 RDB 和 AOF 两种持久化方式。",{"path":765,"title":766,"description":767},"\u002Ftutorials\u002Fdatabase\u002Fredis\u002Fredis-principle","Redis 底层原理","数据结构、线程模型、网络模型。",{"path":769,"title":770,"description":771},"\u002Ftutorials\u002Fdev-idea\u002Fdesign-patterns\u002Fbehaiver-patterns\u002Fobserver-pattern","观察者模式","观察者模式属于行为型模式，定义了对象之间的一对多的依赖关系，在这种模式中，当一个对象的状态发生变化时，所有依赖于它的对象都会得到通知，并且执行相关操作。观察者模式又被成为“发布—订阅模式”，即发布者发生改变后，会通知所有订阅者。",{"path":773,"title":774,"description":11},"\u002Ftutorials\u002Fdev-idea\u002Fdesign-patterns\u002Fcreate-patterns\u002Ffactory-pattern","工厂模式",{"path":776,"title":777,"description":778},"\u002Ftutorials\u002Fdev-idea\u002Fdesign-patterns\u002Fcreate-patterns\u002Fsingleton-pattern","单例模式","单例模式是最常用的设计模式之一，他可以保证在整个应用中，某个类只存在一个实例化对象，即全局使用到该类的只有一个对象，这种模式在需要限制某些类的实例数量时非常有用，通常全局只需要一个该对象即可，如一些配置文件映射对象、数据库连接对象等。",{"path":780,"title":781,"description":782},"\u002Ftutorials\u002Fdev-idea\u002Fdesign-patterns\u002Fstructural-patterns\u002Fadapter-pattern","适配器模式","适配器模式是一种结构型模式，可以将一个类的接口转换成客户端所期望的另一种接口，适配器模式可以帮助开发人员在不修改现有代码的情况下，将不兼容的类组合在一起。",{"path":784,"title":785,"description":786},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-basic-operations","Git 创建版本库","在 Git 上创建版本库有两种方式，一种是直接拷贝远程 Git 仓库到本地，另外一种是我们自己创建本地的版本库。",{"path":788,"title":789,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-branch-manage","Git 分支管理",{"path":791,"title":792,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-content-operations","Git 仓库内容操作",{"path":794,"title":795,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-introduce-install","Git 介绍和安装",{"path":797,"title":798,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-remote-manage","Git 远程管理",{"path":800,"title":801,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fgit\u002Fgit-workspace-index-repo","Git 工作原理",{"path":803,"title":804,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fhomebrew","HomeBrew 教程",{"path":806,"title":807,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fidea\u002Fshortcuts","快捷键",{"path":809,"title":810,"description":11},"\u002Ftutorials\u002Fdev-tools\u002Fmaven\u002Fintroduce-install-config","Maven - 介绍、安装、配置",{"path":812,"title":813,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fbasic-knowledge","2. 基础知识",{"path":815,"title":816,"description":817},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fcomponent-communication","9. 组件通信","在前面的章节内，介绍了 Vue 中最核心的内容——组件的介绍和使用，和 Java 等编程语言相反，组件并不近似于这些变成语言中的类，类可以通过类或者其实例化的对象来相互交互，但 Vue 组件之间的作用域是相互独立的，这就意味着不同组件之间的数据无法相互引用。",{"path":819,"title":820,"description":821},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fcomputed","4. 计算属性","虽然直接在模板中使用表达式方便，但是如果在模板中添加很多逻辑，会让模板变的臃肿且难维护，耦合度较高。有没有一种简单的方式来实现呢？答案是有的。",{"path":823,"title":824,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fcreate-vue-project","1. 环境搭建及安装",{"path":826,"title":827,"description":828},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Flife-cycle","6. 生命周期","生命周期是指组件从创建、挂载、更新到销毁的整个过程中所经历的一系列阶段。在 Vue 中，每个组件都有自己的生命周期，可以通过生命周期钩子函数来监听和处理组件在不同阶段的行为和状态。",{"path":830,"title":831,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fother-api","10. 其他 API",{"path":833,"title":834,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fpinia","8. Pinia",{"path":836,"title":837,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Frouter","7. 路由",{"path":839,"title":840,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Ftemplate-grammar","3. 指令及模板语法",{"path":842,"title":843,"description":11},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fvue3-new-component","11. Vue3 新组件",{"path":845,"title":846,"description":847},"\u002Ftutorials\u002Ffront-end\u002Fvue3\u002Fwatch","5. 监视","Watch 是 Vue 提供的一个用于监视响应式数据变化并执行相应操作的 API，能够对响应式数据的变化做出一些操作的功能。Vue3 中的 Watch 支持多种用法，包括监视响应式对象、ref 对象、数组、函数等。",{"path":849,"title":850,"description":11},"\u002Ftutorials\u002Fmq\u002Fkafka\u002Fkafka-introduction","Kafka 简介与安装",{"path":852,"title":853,"description":11},"\u002Ftutorials\u002Fmq\u002Fkafka\u002Fkafka-producer-consumer","Kafka 生产者与消费者",{"path":855,"title":856,"description":857},"\u002Ftutorials\u002Fmq\u002Fkafka\u002Fkafka-springboot","Spring Boot 整合 Kafka","Spring Kafka 提供了对 Apache Kafka 的便捷集成。",{"path":859,"title":860,"description":861},"\u002Ftutorials\u002Fmq\u002Frabbitmq\u002Frabbitmq-exchange","RabbitMQ Exchange 详解","Exchange（交换机）是 RabbitMQ 的核心组件，负责接收生产者发送的消息，并根据规则将消息路由到一个或多个队列。",{"path":863,"title":864,"description":11},"\u002Ftutorials\u002Fmq\u002Frabbitmq\u002Frabbitmq-introduction","RabbitMQ 简介与安装",{"path":866,"title":867,"description":868},"\u002Ftutorials\u002Fmq\u002Frabbitmq\u002Frabbitmq-reliability","RabbitMQ 消息可靠性","消息可靠性是消息队列的核心要求，RabbitMQ 提供了多种机制来保证消息不丢失。",{"path":870,"title":871,"description":872},"\u002Ftutorials\u002Fmq\u002Frabbitmq\u002Frabbitmq-springboot","Spring Boot 整合 RabbitMQ","Spring AMQP 提供了对 RabbitMQ 的便捷集成，大大简化了开发工作。",{"path":874,"title":875,"description":11},"\u002Ftutorials\u002Fmq\u002Frocketmq\u002Frocketmq-client","RocketMQ 客户端使用",{"path":877,"title":878,"description":11},"\u002Ftutorials\u002Fmq\u002Frocketmq\u002Frocketmq-concepts","RocketMQ 核心概念",{"path":880,"title":881,"description":11},"\u002Ftutorials\u002Fmq\u002Frocketmq\u002Frocketmq-installation","RocketMQ 安装部署",{"path":883,"title":884,"description":885},"\u002Ftutorials\u002Fmq\u002Frocketmq\u002Frocketmq-message-type","RocketMQ 消息类型","RocketMQ 支持多种消息类型，满足不同业务场景需求。",{"id":887,"title":70,"body":888,"description":71,"extension":2958,"meta":2959,"navigation":1207,"path":69,"seo":2960,"stem":2961,"__hash__":2962},"docs\u002Fai\u002Fllm\u002Ftransformer.md",{"type":889,"value":890,"toc":2932},"minimark",[891,896,900,923,931,935,938,945,956,959,965,968,1024,1028,1031,1035,1046,1051,1054,1060,1065,1068,1074,1077,1082,1085,1091,1096,1099,1105,1108,1114,1117,1120,1140,1143,1147,1581,1585,1588,1591,1597,1600,1620,1624,1627,2058,2062,2065,2068,2071,2077,2088,2091,2102,2106,2109,2226,2229,2232,2236,2239,2245,2248,2389,2408,2412,2415,2421,2424,2428,2434,2437,2583,2587,2590,2596,2599,2610,2614,2621,2687,2690,2694,2698,2701,2730,2733,2736,2741,2811,2814,2881,2884,2887,2890,2928],[892,893,895],"h2",{"id":894},"为什么需要-transformer","为什么需要 Transformer",[897,898,899],"p",{},"在 Transformer 出现之前，自然语言处理主要依赖 RNN（循环神经网络）及其变体 LSTM、GRU。这些模型存在几个关键问题：",[901,902,903,911,917],"ul",{},[904,905,906,910],"li",{},[907,908,909],"strong",{},"顺序计算瓶颈","：RNN 必须按时间步逐个处理序列中的 Token，无法并行化，训练速度慢",[904,912,913,916],{},[907,914,915],{},"长距离依赖困难","：即使有 LSTM 的门控机制，当序列很长时，模型仍然难以捕捉首尾之间的依赖关系",[904,918,919,922],{},[907,920,921],{},"梯度消失\u002F爆炸","：在反向传播过程中，梯度经过多步传递后容易变得极小或极大",[897,924,925,926,930],{},"2017 年，Google 的研究团队在论文 ",[927,928,929],"em",{},"\"Attention is All You Need\""," 中提出了 Transformer 架构，完全抛弃了循环结构，仅依靠注意力机制来建模序列中的依赖关系。",[932,933,934],"note",{},"\nTransformer 的核心创新在于：通过自注意力机制让序列中的每个位置都能直接关注到其他所有位置，从而彻底解决了长距离依赖问题，同时实现了高度并行化计算。\n",[892,936,937],{"id":937},"整体架构",[897,939,940,941,944],{},"Transformer 采用经典的 ",[907,942,943],{},"Encoder-Decoder（编码器-解码器）"," 结构：",[946,947,953],"pre",{"className":948,"code":950,"language":951,"meta":952},[949],"language-text","flowchart LR\n    In[\"输入序列\"] --> Enc[\"Encoder × N\"] --> Repr[\"编码表示\"] --> Dec[\"Decoder × N\"] --> Out[\"输出序列\"]\n","text","mermaid",[954,955,950],"code",{"__ignoreMap":11},[897,957,958],{},"架构示意图：",[946,960,963],{"className":961,"code":962,"language":951,"meta":952},[949],"flowchart TD\n    Emb[\"Input Embedding + Positional Encoding\"]\n    subgraph EncoderN[\"Encoder × N\"]\n        ESA[\"Self-Attention\"] --> EFFN[\"Feed-Forward Network\"]\n    end\n    subgraph DecoderN[\"Decoder × N\"]\n        DMSA[\"Masked Self-Attention\"] --> DCA[\"Cross-Attention\u003Cbr\u002F>#40;Q from Decoder, K,V from Encoder#41;\"]\n        DCA --> DFFN[\"Feed-Forward Network\"]\n    end\n    Emb --> EncoderN --> DecoderN\n",[954,964,962],{"__ignoreMap":11},[897,966,967],{},"在原始论文中，Encoder 和 Decoder 各由 6 层堆叠而成。不过，现代大语言模型大多只使用 Decoder 部分（如 GPT 系列），或只使用 Encoder 部分（如 BERT）。",[969,970,971,987],"table",{},[972,973,974],"thead",{},[975,976,977,981,984],"tr",{},[978,979,980],"th",{},"架构类型",[978,982,983],{},"代表模型",[978,985,986],{},"适用场景",[988,989,990,1002,1013],"tbody",{},[975,991,992,996,999],{},[993,994,995],"td",{},"Encoder-only",[993,997,998],{},"BERT, RoBERTa",[993,1000,1001],{},"文本分类、NER、语义理解",[975,1003,1004,1007,1010],{},[993,1005,1006],{},"Decoder-only",[993,1008,1009],{},"GPT, Claude, Llama",[993,1011,1012],{},"文本生成、对话、代码",[975,1014,1015,1018,1021],{},[993,1016,1017],{},"Encoder-Decoder",[993,1019,1020],{},"T5, BART",[993,1022,1023],{},"翻译、摘要",[892,1025,1027],{"id":1026},"自注意力机制self-attention","自注意力机制（Self-Attention）",[897,1029,1030],{},"自注意力机制是 Transformer 的核心组件，它让序列中的每个 Token 都能\"关注\"到序列中所有其他 Token。",[1032,1033,1034],"h3",{"id":1034},"计算过程",[897,1036,1037,1038,1041,1042,1045],{},"给定输入序列的嵌入矩阵 ",[907,1039,1040],{},"X","（形状为 ",[954,1043,1044],{},"[seq_len, d_model]","），自注意力的计算步骤如下：",[897,1047,1048],{},[907,1049,1050],{},"第一步：生成 Q、K、V 矩阵",[897,1052,1053],{},"通过三个可学习的线性变换，将输入映射为 Query（查询）、Key（键）和 Value（值）：",[946,1055,1058],{"className":1056,"code":1057,"language":951},[949],"Q = X × W_Q    # Query 矩阵\nK = X × W_K    # Key 矩阵\nV = X × W_V    # Value 矩阵\n",[954,1059,1057],{"__ignoreMap":11},[897,1061,1062],{},[907,1063,1064],{},"第二步：计算注意力分数",[897,1066,1067],{},"使用 Q 和 K 的点积计算相似度，然后除以缩放因子 √d_k：",[946,1069,1072],{"className":1070,"code":1071,"language":951},[949],"Attention Score = (Q × K^T) \u002F √d_k\n",[954,1073,1071],{"__ignoreMap":11},[897,1075,1076],{},"这里 d_k 是 Key 的维度。除以 √d_k 的目的是防止点积值过大导致 Softmax 梯度消失。",[897,1078,1079],{},[907,1080,1081],{},"第三步：应用 Softmax",[897,1083,1084],{},"对注意力分数进行 Softmax 归一化，得到注意力权重：",[946,1086,1089],{"className":1087,"code":1088,"language":951},[949],"Attention Weights = Softmax(Attention Score)\n",[954,1090,1088],{"__ignoreMap":11},[897,1092,1093],{},[907,1094,1095],{},"第四步：加权求和",[897,1097,1098],{},"用注意力权重对 V 进行加权求和：",[946,1100,1103],{"className":1101,"code":1102,"language":951},[949],"Output = Attention Weights × V\n",[954,1104,1102],{"__ignoreMap":11},[897,1106,1107],{},"完整的公式可以写成：",[946,1109,1112],{"className":1110,"code":1111,"language":951},[949],"Attention(Q, K, V) = Softmax(Q × K^T \u002F √d_k) × V\n",[954,1113,1111],{"__ignoreMap":11},[1032,1115,1116],{"id":1116},"直觉理解",[897,1118,1119],{},"可以用一个类比来理解 Q、K、V：",[901,1121,1122,1128,1134],{},[904,1123,1124,1127],{},[907,1125,1126],{},"Query（查询）","：相当于\"我在找什么信息\"",[904,1129,1130,1133],{},[907,1131,1132],{},"Key（键）","：相当于\"我有什么信息可以提供\"",[904,1135,1136,1139],{},[907,1137,1138],{},"Value（值）","：相当于\"我实际的信息内容\"",[897,1141,1142],{},"注意力分数就是 Query 和 Key 的匹配程度，分数越高，对应的 Value 在输出中占的比重就越大。",[1032,1144,1146],{"id":1145},"pytorch-实现","PyTorch 实现",[946,1148,1152],{"className":1149,"code":1150,"language":1151,"meta":11,"style":11},"language-python shiki shiki-themes github-light github-light github-dark","import torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport math\n\nclass SelfAttention(nn.Module):\n    def __init__(self, d_model):\n        super().__init__()\n        self.d_model = d_model\n        self.W_Q = nn.Linear(d_model, d_model)\n        self.W_K = nn.Linear(d_model, d_model)\n        self.W_V = nn.Linear(d_model, d_model)\n\n    def forward(self, x, mask=None):\n        # x: [batch_size, seq_len, d_model]\n        Q = self.W_Q(x)\n        K = self.W_K(x)\n        V = self.W_V(x)\n\n        # 计算注意力分数\n        d_k = Q.size(-1)\n        scores = torch.matmul(Q, K.transpose(-2, -1)) \u002F math.sqrt(d_k)\n\n        # 可选：应用掩码（用于 Decoder 的因果注意力）\n        if mask is not None:\n            scores = scores.masked_fill(mask == 0, float('-inf'))\n\n        # Softmax 归一化\n        attn_weights = F.softmax(scores, dim=-1)\n\n        # 加权求和\n        output = torch.matmul(attn_weights, V)\n        return output\n","python",[954,1153,1154,1167,1181,1194,1202,1209,1234,1247,1262,1277,1293,1307,1321,1326,1344,1351,1365,1378,1391,1396,1402,1422,1454,1459,1465,1486,1517,1522,1528,1550,1555,1561,1572],{"__ignoreMap":11},[1155,1156,1159,1163],"span",{"class":1157,"line":1158},"line",1,[1155,1160,1162],{"class":1161},"s8jYJ","import",[1155,1164,1166],{"class":1165},"sxrX7"," torch\n",[1155,1168,1170,1172,1175,1178],{"class":1157,"line":1169},2,[1155,1171,1162],{"class":1161},[1155,1173,1174],{"class":1165}," torch.nn ",[1155,1176,1177],{"class":1161},"as",[1155,1179,1180],{"class":1165}," nn\n",[1155,1182,1184,1186,1189,1191],{"class":1157,"line":1183},3,[1155,1185,1162],{"class":1161},[1155,1187,1188],{"class":1165}," torch.nn.functional ",[1155,1190,1177],{"class":1161},[1155,1192,1193],{"class":1165}," F\n",[1155,1195,1197,1199],{"class":1157,"line":1196},4,[1155,1198,1162],{"class":1161},[1155,1200,1201],{"class":1165}," math\n",[1155,1203,1205],{"class":1157,"line":1204},5,[1155,1206,1208],{"emptyLinePlaceholder":1207},true,"\n",[1155,1210,1212,1215,1219,1222,1225,1228,1231],{"class":1157,"line":1211},6,[1155,1213,1214],{"class":1161},"class",[1155,1216,1218],{"class":1217},"snPdu"," SelfAttention",[1155,1220,1221],{"class":1165},"(",[1155,1223,1224],{"class":1217},"nn",[1155,1226,1227],{"class":1165},".",[1155,1229,1230],{"class":1217},"Module",[1155,1232,1233],{"class":1165},"):\n",[1155,1235,1237,1240,1244],{"class":1157,"line":1236},7,[1155,1238,1239],{"class":1161},"    def",[1155,1241,1243],{"class":1242},"sBjJW"," __init__",[1155,1245,1246],{"class":1165},"(self, d_model):\n",[1155,1248,1250,1253,1256,1259],{"class":1157,"line":1249},8,[1155,1251,1252],{"class":1242},"        super",[1155,1254,1255],{"class":1165},"().",[1155,1257,1258],{"class":1242},"__init__",[1155,1260,1261],{"class":1165},"()\n",[1155,1263,1265,1268,1271,1274],{"class":1157,"line":1264},9,[1155,1266,1267],{"class":1242},"        self",[1155,1269,1270],{"class":1165},".d_model ",[1155,1272,1273],{"class":1161},"=",[1155,1275,1276],{"class":1165}," d_model\n",[1155,1278,1280,1282,1284,1287,1290],{"class":1157,"line":1279},10,[1155,1281,1267],{"class":1242},[1155,1283,1227],{"class":1165},[1155,1285,1286],{"class":1242},"W_Q",[1155,1288,1289],{"class":1161}," =",[1155,1291,1292],{"class":1165}," nn.Linear(d_model, d_model)\n",[1155,1294,1296,1298,1300,1303,1305],{"class":1157,"line":1295},11,[1155,1297,1267],{"class":1242},[1155,1299,1227],{"class":1165},[1155,1301,1302],{"class":1242},"W_K",[1155,1304,1289],{"class":1161},[1155,1306,1292],{"class":1165},[1155,1308,1310,1312,1314,1317,1319],{"class":1157,"line":1309},12,[1155,1311,1267],{"class":1242},[1155,1313,1227],{"class":1165},[1155,1315,1316],{"class":1242},"W_V",[1155,1318,1289],{"class":1161},[1155,1320,1292],{"class":1165},[1155,1322,1324],{"class":1157,"line":1323},13,[1155,1325,1208],{"emptyLinePlaceholder":1207},[1155,1327,1329,1331,1334,1337,1339,1342],{"class":1157,"line":1328},14,[1155,1330,1239],{"class":1161},[1155,1332,1333],{"class":1217}," forward",[1155,1335,1336],{"class":1165},"(self, x, mask",[1155,1338,1273],{"class":1161},[1155,1340,1341],{"class":1242},"None",[1155,1343,1233],{"class":1165},[1155,1345,1347],{"class":1157,"line":1346},15,[1155,1348,1350],{"class":1349},"sCsY4","        # x: [batch_size, seq_len, d_model]\n",[1155,1352,1354,1357,1359,1362],{"class":1157,"line":1353},16,[1155,1355,1356],{"class":1165},"        Q ",[1155,1358,1273],{"class":1161},[1155,1360,1361],{"class":1242}," self",[1155,1363,1364],{"class":1165},".W_Q(x)\n",[1155,1366,1368,1371,1373,1375],{"class":1157,"line":1367},17,[1155,1369,1370],{"class":1165},"        K ",[1155,1372,1273],{"class":1161},[1155,1374,1361],{"class":1242},[1155,1376,1377],{"class":1165},".W_K(x)\n",[1155,1379,1381,1384,1386,1388],{"class":1157,"line":1380},18,[1155,1382,1383],{"class":1165},"        V ",[1155,1385,1273],{"class":1161},[1155,1387,1361],{"class":1242},[1155,1389,1390],{"class":1165},".W_V(x)\n",[1155,1392,1394],{"class":1157,"line":1393},19,[1155,1395,1208],{"emptyLinePlaceholder":1207},[1155,1397,1399],{"class":1157,"line":1398},20,[1155,1400,1401],{"class":1349},"        # 计算注意力分数\n",[1155,1403,1405,1408,1410,1413,1416,1419],{"class":1157,"line":1404},21,[1155,1406,1407],{"class":1165},"        d_k ",[1155,1409,1273],{"class":1161},[1155,1411,1412],{"class":1165}," Q.size(",[1155,1414,1415],{"class":1161},"-",[1155,1417,1418],{"class":1242},"1",[1155,1420,1421],{"class":1165},")\n",[1155,1423,1425,1428,1430,1433,1435,1438,1441,1443,1445,1448,1451],{"class":1157,"line":1424},22,[1155,1426,1427],{"class":1165},"        scores ",[1155,1429,1273],{"class":1161},[1155,1431,1432],{"class":1165}," torch.matmul(Q, K.transpose(",[1155,1434,1415],{"class":1161},[1155,1436,1437],{"class":1242},"2",[1155,1439,1440],{"class":1165},", ",[1155,1442,1415],{"class":1161},[1155,1444,1418],{"class":1242},[1155,1446,1447],{"class":1165},")) ",[1155,1449,1450],{"class":1161},"\u002F",[1155,1452,1453],{"class":1165}," math.sqrt(d_k)\n",[1155,1455,1457],{"class":1157,"line":1456},23,[1155,1458,1208],{"emptyLinePlaceholder":1207},[1155,1460,1462],{"class":1157,"line":1461},24,[1155,1463,1464],{"class":1349},"        # 可选：应用掩码（用于 Decoder 的因果注意力）\n",[1155,1466,1468,1471,1474,1477,1480,1483],{"class":1157,"line":1467},25,[1155,1469,1470],{"class":1161},"        if",[1155,1472,1473],{"class":1165}," mask ",[1155,1475,1476],{"class":1161},"is",[1155,1478,1479],{"class":1161}," not",[1155,1481,1482],{"class":1242}," None",[1155,1484,1485],{"class":1165},":\n",[1155,1487,1489,1492,1494,1497,1500,1503,1505,1508,1510,1514],{"class":1157,"line":1488},26,[1155,1490,1491],{"class":1165},"            scores ",[1155,1493,1273],{"class":1161},[1155,1495,1496],{"class":1165}," scores.masked_fill(mask ",[1155,1498,1499],{"class":1161},"==",[1155,1501,1502],{"class":1242}," 0",[1155,1504,1440],{"class":1165},[1155,1506,1507],{"class":1242},"float",[1155,1509,1221],{"class":1165},[1155,1511,1513],{"class":1512},"sIIMD","'-inf'",[1155,1515,1516],{"class":1165},"))\n",[1155,1518,1520],{"class":1157,"line":1519},27,[1155,1521,1208],{"emptyLinePlaceholder":1207},[1155,1523,1525],{"class":1157,"line":1524},28,[1155,1526,1527],{"class":1349},"        # Softmax 归一化\n",[1155,1529,1531,1534,1536,1539,1543,1546,1548],{"class":1157,"line":1530},29,[1155,1532,1533],{"class":1165},"        attn_weights ",[1155,1535,1273],{"class":1161},[1155,1537,1538],{"class":1165}," F.softmax(scores, ",[1155,1540,1542],{"class":1541},"sP4rz","dim",[1155,1544,1545],{"class":1161},"=-",[1155,1547,1418],{"class":1242},[1155,1549,1421],{"class":1165},[1155,1551,1553],{"class":1157,"line":1552},30,[1155,1554,1208],{"emptyLinePlaceholder":1207},[1155,1556,1558],{"class":1157,"line":1557},31,[1155,1559,1560],{"class":1349},"        # 加权求和\n",[1155,1562,1564,1567,1569],{"class":1157,"line":1563},32,[1155,1565,1566],{"class":1165},"        output ",[1155,1568,1273],{"class":1161},[1155,1570,1571],{"class":1165}," torch.matmul(attn_weights, V)\n",[1155,1573,1575,1578],{"class":1157,"line":1574},33,[1155,1576,1577],{"class":1161},"        return",[1155,1579,1580],{"class":1165}," output\n",[892,1582,1584],{"id":1583},"多头注意力multi-head-attention","多头注意力（Multi-Head Attention）",[897,1586,1587],{},"单个注意力头只能关注一种模式的依赖关系。多头注意力通过并行运行多个注意力头，让模型同时学习不同类型的注意力模式。",[1032,1589,1590],{"id":1590},"工作原理",[946,1592,1595],{"className":1593,"code":1594,"language":951},[949],"MultiHead(Q, K, V) = Concat(head_1, head_2, ..., head_h) × W_O\n\n其中 head_i = Attention(Q × W_Q_i, K × W_K_i, V × W_V_i)\n",[954,1596,1594],{"__ignoreMap":11},[897,1598,1599],{},"例如，在原始 Transformer 中：",[901,1601,1602,1608,1614],{},[904,1603,1604,1607],{},[954,1605,1606],{},"d_model = 512","（模型维度）",[904,1609,1610,1613],{},[954,1611,1612],{},"h = 8","（注意力头数）",[904,1615,1616,1619],{},[954,1617,1618],{},"d_k = d_v = d_model \u002F h = 64","（每个头的维度）",[1621,1622,1623],"tip",{},"\n不同的注意力头可以学习关注不同的语言特征：有的头关注语法结构，有的头关注语义关系，有的头关注位置关系。这种分工使模型的表达能力大大增强。\n",[1032,1625,1146],{"id":1626},"pytorch-实现-1",[946,1628,1630],{"className":1149,"code":1629,"language":1151,"meta":11,"style":11},"class MultiHeadAttention(nn.Module):\n    def __init__(self, d_model, num_heads):\n        super().__init__()\n        assert d_model % num_heads == 0\n\n        self.d_model = d_model\n        self.num_heads = num_heads\n        self.d_k = d_model \u002F\u002F num_heads\n\n        self.W_Q = nn.Linear(d_model, d_model)\n        self.W_K = nn.Linear(d_model, d_model)\n        self.W_V = nn.Linear(d_model, d_model)\n        self.W_O = nn.Linear(d_model, d_model)\n\n    def forward(self, x, mask=None):\n        batch_size, seq_len, _ = x.size()\n\n        # 线性变换后拆分为多头\n        Q = self.W_Q(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2)\n        K = self.W_K(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2)\n        V = self.W_V(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2)\n        # 形状: [batch_size, num_heads, seq_len, d_k]\n\n        # 计算注意力\n        scores = torch.matmul(Q, K.transpose(-2, -1)) \u002F math.sqrt(self.d_k)\n        if mask is not None:\n            scores = scores.masked_fill(mask == 0, float('-inf'))\n        attn_weights = F.softmax(scores, dim=-1)\n        context = torch.matmul(attn_weights, V)\n\n        # 合并多头\n        context = context.transpose(1, 2).contiguous().view(batch_size, seq_len, self.d_model)\n        output = self.W_O(context)\n        return output\n",[954,1631,1632,1649,1658,1668,1687,1691,1701,1713,1729,1733,1745,1757,1769,1782,1786,1800,1810,1814,1819,1849,1876,1903,1908,1912,1917,1947,1961,1983,1999,2008,2012,2017,2040,2051],{"__ignoreMap":11},[1155,1633,1634,1636,1639,1641,1643,1645,1647],{"class":1157,"line":1158},[1155,1635,1214],{"class":1161},[1155,1637,1638],{"class":1217}," MultiHeadAttention",[1155,1640,1221],{"class":1165},[1155,1642,1224],{"class":1217},[1155,1644,1227],{"class":1165},[1155,1646,1230],{"class":1217},[1155,1648,1233],{"class":1165},[1155,1650,1651,1653,1655],{"class":1157,"line":1169},[1155,1652,1239],{"class":1161},[1155,1654,1243],{"class":1242},[1155,1656,1657],{"class":1165},"(self, d_model, num_heads):\n",[1155,1659,1660,1662,1664,1666],{"class":1157,"line":1183},[1155,1661,1252],{"class":1242},[1155,1663,1255],{"class":1165},[1155,1665,1258],{"class":1242},[1155,1667,1261],{"class":1165},[1155,1669,1670,1673,1676,1679,1682,1684],{"class":1157,"line":1196},[1155,1671,1672],{"class":1161},"        assert",[1155,1674,1675],{"class":1165}," d_model ",[1155,1677,1678],{"class":1161},"%",[1155,1680,1681],{"class":1165}," num_heads ",[1155,1683,1499],{"class":1161},[1155,1685,1686],{"class":1242}," 0\n",[1155,1688,1689],{"class":1157,"line":1204},[1155,1690,1208],{"emptyLinePlaceholder":1207},[1155,1692,1693,1695,1697,1699],{"class":1157,"line":1211},[1155,1694,1267],{"class":1242},[1155,1696,1270],{"class":1165},[1155,1698,1273],{"class":1161},[1155,1700,1276],{"class":1165},[1155,1702,1703,1705,1708,1710],{"class":1157,"line":1236},[1155,1704,1267],{"class":1242},[1155,1706,1707],{"class":1165},".num_heads ",[1155,1709,1273],{"class":1161},[1155,1711,1712],{"class":1165}," num_heads\n",[1155,1714,1715,1717,1720,1722,1724,1727],{"class":1157,"line":1249},[1155,1716,1267],{"class":1242},[1155,1718,1719],{"class":1165},".d_k ",[1155,1721,1273],{"class":1161},[1155,1723,1675],{"class":1165},[1155,1725,1726],{"class":1161},"\u002F\u002F",[1155,1728,1712],{"class":1165},[1155,1730,1731],{"class":1157,"line":1264},[1155,1732,1208],{"emptyLinePlaceholder":1207},[1155,1734,1735,1737,1739,1741,1743],{"class":1157,"line":1279},[1155,1736,1267],{"class":1242},[1155,1738,1227],{"class":1165},[1155,1740,1286],{"class":1242},[1155,1742,1289],{"class":1161},[1155,1744,1292],{"class":1165},[1155,1746,1747,1749,1751,1753,1755],{"class":1157,"line":1295},[1155,1748,1267],{"class":1242},[1155,1750,1227],{"class":1165},[1155,1752,1302],{"class":1242},[1155,1754,1289],{"class":1161},[1155,1756,1292],{"class":1165},[1155,1758,1759,1761,1763,1765,1767],{"class":1157,"line":1309},[1155,1760,1267],{"class":1242},[1155,1762,1227],{"class":1165},[1155,1764,1316],{"class":1242},[1155,1766,1289],{"class":1161},[1155,1768,1292],{"class":1165},[1155,1770,1771,1773,1775,1778,1780],{"class":1157,"line":1323},[1155,1772,1267],{"class":1242},[1155,1774,1227],{"class":1165},[1155,1776,1777],{"class":1242},"W_O",[1155,1779,1289],{"class":1161},[1155,1781,1292],{"class":1165},[1155,1783,1784],{"class":1157,"line":1328},[1155,1785,1208],{"emptyLinePlaceholder":1207},[1155,1787,1788,1790,1792,1794,1796,1798],{"class":1157,"line":1346},[1155,1789,1239],{"class":1161},[1155,1791,1333],{"class":1217},[1155,1793,1336],{"class":1165},[1155,1795,1273],{"class":1161},[1155,1797,1341],{"class":1242},[1155,1799,1233],{"class":1165},[1155,1801,1802,1805,1807],{"class":1157,"line":1353},[1155,1803,1804],{"class":1165},"        batch_size, seq_len, _ ",[1155,1806,1273],{"class":1161},[1155,1808,1809],{"class":1165}," x.size()\n",[1155,1811,1812],{"class":1157,"line":1367},[1155,1813,1208],{"emptyLinePlaceholder":1207},[1155,1815,1816],{"class":1157,"line":1380},[1155,1817,1818],{"class":1349},"        # 线性变换后拆分为多头\n",[1155,1820,1821,1823,1825,1827,1830,1833,1836,1838,1841,1843,1845,1847],{"class":1157,"line":1393},[1155,1822,1356],{"class":1165},[1155,1824,1273],{"class":1161},[1155,1826,1361],{"class":1242},[1155,1828,1829],{"class":1165},".W_Q(x).view(batch_size, seq_len, ",[1155,1831,1832],{"class":1242},"self",[1155,1834,1835],{"class":1165},".num_heads, ",[1155,1837,1832],{"class":1242},[1155,1839,1840],{"class":1165},".d_k).transpose(",[1155,1842,1418],{"class":1242},[1155,1844,1440],{"class":1165},[1155,1846,1437],{"class":1242},[1155,1848,1421],{"class":1165},[1155,1850,1851,1853,1855,1857,1860,1862,1864,1866,1868,1870,1872,1874],{"class":1157,"line":1398},[1155,1852,1370],{"class":1165},[1155,1854,1273],{"class":1161},[1155,1856,1361],{"class":1242},[1155,1858,1859],{"class":1165},".W_K(x).view(batch_size, seq_len, ",[1155,1861,1832],{"class":1242},[1155,1863,1835],{"class":1165},[1155,1865,1832],{"class":1242},[1155,1867,1840],{"class":1165},[1155,1869,1418],{"class":1242},[1155,1871,1440],{"class":1165},[1155,1873,1437],{"class":1242},[1155,1875,1421],{"class":1165},[1155,1877,1878,1880,1882,1884,1887,1889,1891,1893,1895,1897,1899,1901],{"class":1157,"line":1404},[1155,1879,1383],{"class":1165},[1155,1881,1273],{"class":1161},[1155,1883,1361],{"class":1242},[1155,1885,1886],{"class":1165},".W_V(x).view(batch_size, seq_len, ",[1155,1888,1832],{"class":1242},[1155,1890,1835],{"class":1165},[1155,1892,1832],{"class":1242},[1155,1894,1840],{"class":1165},[1155,1896,1418],{"class":1242},[1155,1898,1440],{"class":1165},[1155,1900,1437],{"class":1242},[1155,1902,1421],{"class":1165},[1155,1904,1905],{"class":1157,"line":1424},[1155,1906,1907],{"class":1349},"        # 形状: [batch_size, num_heads, seq_len, d_k]\n",[1155,1909,1910],{"class":1157,"line":1456},[1155,1911,1208],{"emptyLinePlaceholder":1207},[1155,1913,1914],{"class":1157,"line":1461},[1155,1915,1916],{"class":1349},"        # 计算注意力\n",[1155,1918,1919,1921,1923,1925,1927,1929,1931,1933,1935,1937,1939,1942,1944],{"class":1157,"line":1467},[1155,1920,1427],{"class":1165},[1155,1922,1273],{"class":1161},[1155,1924,1432],{"class":1165},[1155,1926,1415],{"class":1161},[1155,1928,1437],{"class":1242},[1155,1930,1440],{"class":1165},[1155,1932,1415],{"class":1161},[1155,1934,1418],{"class":1242},[1155,1936,1447],{"class":1165},[1155,1938,1450],{"class":1161},[1155,1940,1941],{"class":1165}," math.sqrt(",[1155,1943,1832],{"class":1242},[1155,1945,1946],{"class":1165},".d_k)\n",[1155,1948,1949,1951,1953,1955,1957,1959],{"class":1157,"line":1488},[1155,1950,1470],{"class":1161},[1155,1952,1473],{"class":1165},[1155,1954,1476],{"class":1161},[1155,1956,1479],{"class":1161},[1155,1958,1482],{"class":1242},[1155,1960,1485],{"class":1165},[1155,1962,1963,1965,1967,1969,1971,1973,1975,1977,1979,1981],{"class":1157,"line":1519},[1155,1964,1491],{"class":1165},[1155,1966,1273],{"class":1161},[1155,1968,1496],{"class":1165},[1155,1970,1499],{"class":1161},[1155,1972,1502],{"class":1242},[1155,1974,1440],{"class":1165},[1155,1976,1507],{"class":1242},[1155,1978,1221],{"class":1165},[1155,1980,1513],{"class":1512},[1155,1982,1516],{"class":1165},[1155,1984,1985,1987,1989,1991,1993,1995,1997],{"class":1157,"line":1524},[1155,1986,1533],{"class":1165},[1155,1988,1273],{"class":1161},[1155,1990,1538],{"class":1165},[1155,1992,1542],{"class":1541},[1155,1994,1545],{"class":1161},[1155,1996,1418],{"class":1242},[1155,1998,1421],{"class":1165},[1155,2000,2001,2004,2006],{"class":1157,"line":1530},[1155,2002,2003],{"class":1165},"        context ",[1155,2005,1273],{"class":1161},[1155,2007,1571],{"class":1165},[1155,2009,2010],{"class":1157,"line":1552},[1155,2011,1208],{"emptyLinePlaceholder":1207},[1155,2013,2014],{"class":1157,"line":1557},[1155,2015,2016],{"class":1349},"        # 合并多头\n",[1155,2018,2019,2021,2023,2026,2028,2030,2032,2035,2037],{"class":1157,"line":1563},[1155,2020,2003],{"class":1165},[1155,2022,1273],{"class":1161},[1155,2024,2025],{"class":1165}," context.transpose(",[1155,2027,1418],{"class":1242},[1155,2029,1440],{"class":1165},[1155,2031,1437],{"class":1242},[1155,2033,2034],{"class":1165},").contiguous().view(batch_size, seq_len, ",[1155,2036,1832],{"class":1242},[1155,2038,2039],{"class":1165},".d_model)\n",[1155,2041,2042,2044,2046,2048],{"class":1157,"line":1574},[1155,2043,1566],{"class":1165},[1155,2045,1273],{"class":1161},[1155,2047,1361],{"class":1242},[1155,2049,2050],{"class":1165},".W_O(context)\n",[1155,2052,2054,2056],{"class":1157,"line":2053},34,[1155,2055,1577],{"class":1161},[1155,2057,1580],{"class":1165},[892,2059,2061],{"id":2060},"位置编码positional-encoding","位置编码（Positional Encoding）",[897,2063,2064],{},"由于自注意力机制本身不包含位置信息（它对 Token 的顺序不敏感），Transformer 需要额外注入位置信息。",[1032,2066,2067],{"id":2067},"正弦位置编码",[897,2069,2070],{},"原始论文使用固定的正弦和余弦函数来生成位置编码：",[946,2072,2075],{"className":2073,"code":2074,"language":951},[949],"PE(pos, 2i)   = sin(pos \u002F 10000^(2i\u002Fd_model))\nPE(pos, 2i+1) = cos(pos \u002F 10000^(2i\u002Fd_model))\n",[954,2076,2074],{"__ignoreMap":11},[897,2078,2079,2080,2083,2084,2087],{},"其中 ",[954,2081,2082],{},"pos"," 是位置索引，",[954,2085,2086],{},"i"," 是维度索引。",[897,2089,2090],{},"这种编码的优点：",[901,2092,2093,2096,2099],{},[904,2094,2095],{},"每个位置都有唯一的编码",[904,2097,2098],{},"可以表达相对位置关系（通过三角函数的性质）",[904,2100,2101],{},"理论上可以扩展到任意长度",[1032,2103,2105],{"id":2104},"旋转位置编码rope","旋转位置编码（RoPE）",[897,2107,2108],{},"现代大模型普遍采用旋转位置编码（Rotary Position Embedding），由苏剑林提出。RoPE 将位置信息融入到注意力计算中，通过对 Q 和 K 向量进行旋转变换来编码位置：",[946,2110,2112],{"className":1149,"code":2111,"language":1151,"meta":11,"style":11},"def apply_rope(x, cos, sin):\n    \"\"\"应用旋转位置编码\"\"\"\n    # x: [batch_size, seq_len, num_heads, d_k]\n    x1, x2 = x[..., ::2], x[..., 1::2]  # 拆分为奇偶维度\n    # 旋转变换\n    rotated = torch.cat([-x2, x1], dim=-1)\n    return x * cos + rotated * sin\n",[954,2113,2114,2125,2130,2135,2173,2178,2201],{"__ignoreMap":11},[1155,2115,2116,2119,2122],{"class":1157,"line":1158},[1155,2117,2118],{"class":1161},"def",[1155,2120,2121],{"class":1217}," apply_rope",[1155,2123,2124],{"class":1165},"(x, cos, sin):\n",[1155,2126,2127],{"class":1157,"line":1169},[1155,2128,2129],{"class":1512},"    \"\"\"应用旋转位置编码\"\"\"\n",[1155,2131,2132],{"class":1157,"line":1183},[1155,2133,2134],{"class":1349},"    # x: [batch_size, seq_len, num_heads, d_k]\n",[1155,2136,2137,2140,2142,2145,2148,2151,2153,2156,2158,2160,2162,2165,2167,2170],{"class":1157,"line":1196},[1155,2138,2139],{"class":1165},"    x1, x2 ",[1155,2141,1273],{"class":1161},[1155,2143,2144],{"class":1165}," x[",[1155,2146,2147],{"class":1242},"...",[1155,2149,2150],{"class":1165},", ::",[1155,2152,1437],{"class":1242},[1155,2154,2155],{"class":1165},"], x[",[1155,2157,2147],{"class":1242},[1155,2159,1440],{"class":1165},[1155,2161,1418],{"class":1242},[1155,2163,2164],{"class":1165},"::",[1155,2166,1437],{"class":1242},[1155,2168,2169],{"class":1165},"]  ",[1155,2171,2172],{"class":1349},"# 拆分为奇偶维度\n",[1155,2174,2175],{"class":1157,"line":1204},[1155,2176,2177],{"class":1349},"    # 旋转变换\n",[1155,2179,2180,2183,2185,2188,2190,2193,2195,2197,2199],{"class":1157,"line":1211},[1155,2181,2182],{"class":1165},"    rotated ",[1155,2184,1273],{"class":1161},[1155,2186,2187],{"class":1165}," torch.cat([",[1155,2189,1415],{"class":1161},[1155,2191,2192],{"class":1165},"x2, x1], ",[1155,2194,1542],{"class":1541},[1155,2196,1545],{"class":1161},[1155,2198,1418],{"class":1242},[1155,2200,1421],{"class":1165},[1155,2202,2203,2206,2209,2212,2215,2218,2221,2223],{"class":1157,"line":1236},[1155,2204,2205],{"class":1161},"    return",[1155,2207,2208],{"class":1165}," x ",[1155,2210,2211],{"class":1161},"*",[1155,2213,2214],{"class":1165}," cos ",[1155,2216,2217],{"class":1161},"+",[1155,2219,2220],{"class":1165}," rotated ",[1155,2222,2211],{"class":1161},[1155,2224,2225],{"class":1165}," sin\n",[897,2227,2228],{},"RoPE 的优势在于它天然支持相对位置编码，且在外推长度（处理比训练时更长的序列）方面表现更好。Llama、Qwen、DeepSeek 等主流开源模型都使用了 RoPE。",[932,2230,2231],{},"\n位置编码的选择直接影响模型处理长序列的能力。许多扩展上下文窗口的技术（如 ALiBi、YaRN、NTK-aware 插值）本质上都是对位置编码的改进。\n",[892,2233,2235],{"id":2234},"前馈神经网络feed-forward-network","前馈神经网络（Feed-Forward Network）",[897,2237,2238],{},"Transformer 的每一层都包含一个前馈神经网络（FFN），位于注意力层之后：",[946,2240,2243],{"className":2241,"code":2242,"language":951},[949],"FFN(x) = W_2 × Activation(W_1 × x + b_1) + b_2\n",[954,2244,2242],{"__ignoreMap":11},[897,2246,2247],{},"原始 Transformer 使用 ReLU 激活函数，现代模型通常使用 SwiGLU 或 GELU：",[946,2249,2251],{"className":1149,"code":2250,"language":1151,"meta":11,"style":11},"# SwiGLU FFN（LLaMA、Qwen 等使用）\nclass SwiGLU_FFN(nn.Module):\n    def __init__(self, d_model, d_ff):\n        super().__init__()\n        self.w1 = nn.Linear(d_model, d_ff, bias=False)\n        self.w2 = nn.Linear(d_ff, d_model, bias=False)\n        self.w3 = nn.Linear(d_model, d_ff, bias=False)\n\n    def forward(self, x):\n        return self.w2(F.silu(self.w1(x)) * self.w3(x))\n",[954,2252,2253,2258,2275,2284,2294,2316,2336,2355,2359,2368],{"__ignoreMap":11},[1155,2254,2255],{"class":1157,"line":1158},[1155,2256,2257],{"class":1349},"# SwiGLU FFN（LLaMA、Qwen 等使用）\n",[1155,2259,2260,2262,2265,2267,2269,2271,2273],{"class":1157,"line":1169},[1155,2261,1214],{"class":1161},[1155,2263,2264],{"class":1217}," SwiGLU_FFN",[1155,2266,1221],{"class":1165},[1155,2268,1224],{"class":1217},[1155,2270,1227],{"class":1165},[1155,2272,1230],{"class":1217},[1155,2274,1233],{"class":1165},[1155,2276,2277,2279,2281],{"class":1157,"line":1183},[1155,2278,1239],{"class":1161},[1155,2280,1243],{"class":1242},[1155,2282,2283],{"class":1165},"(self, d_model, d_ff):\n",[1155,2285,2286,2288,2290,2292],{"class":1157,"line":1196},[1155,2287,1252],{"class":1242},[1155,2289,1255],{"class":1165},[1155,2291,1258],{"class":1242},[1155,2293,1261],{"class":1165},[1155,2295,2296,2298,2301,2303,2306,2309,2311,2314],{"class":1157,"line":1204},[1155,2297,1267],{"class":1242},[1155,2299,2300],{"class":1165},".w1 ",[1155,2302,1273],{"class":1161},[1155,2304,2305],{"class":1165}," nn.Linear(d_model, d_ff, ",[1155,2307,2308],{"class":1541},"bias",[1155,2310,1273],{"class":1161},[1155,2312,2313],{"class":1242},"False",[1155,2315,1421],{"class":1165},[1155,2317,2318,2320,2323,2325,2328,2330,2332,2334],{"class":1157,"line":1211},[1155,2319,1267],{"class":1242},[1155,2321,2322],{"class":1165},".w2 ",[1155,2324,1273],{"class":1161},[1155,2326,2327],{"class":1165}," nn.Linear(d_ff, d_model, ",[1155,2329,2308],{"class":1541},[1155,2331,1273],{"class":1161},[1155,2333,2313],{"class":1242},[1155,2335,1421],{"class":1165},[1155,2337,2338,2340,2343,2345,2347,2349,2351,2353],{"class":1157,"line":1236},[1155,2339,1267],{"class":1242},[1155,2341,2342],{"class":1165},".w3 ",[1155,2344,1273],{"class":1161},[1155,2346,2305],{"class":1165},[1155,2348,2308],{"class":1541},[1155,2350,1273],{"class":1161},[1155,2352,2313],{"class":1242},[1155,2354,1421],{"class":1165},[1155,2356,2357],{"class":1157,"line":1249},[1155,2358,1208],{"emptyLinePlaceholder":1207},[1155,2360,2361,2363,2365],{"class":1157,"line":1264},[1155,2362,1239],{"class":1161},[1155,2364,1333],{"class":1217},[1155,2366,2367],{"class":1165},"(self, x):\n",[1155,2369,2370,2372,2374,2377,2379,2382,2384,2386],{"class":1157,"line":1279},[1155,2371,1577],{"class":1161},[1155,2373,1361],{"class":1242},[1155,2375,2376],{"class":1165},".w2(F.silu(",[1155,2378,1832],{"class":1242},[1155,2380,2381],{"class":1165},".w1(x)) ",[1155,2383,2211],{"class":1161},[1155,2385,1361],{"class":1242},[1155,2387,2388],{"class":1165},".w3(x))\n",[897,2390,2391,2392,2395,2396,2399,2400,2403,2404,2407],{},"FFN 的中间维度 ",[954,2393,2394],{},"d_ff"," 通常是 ",[954,2397,2398],{},"d_model"," 的 4 倍（原始论文中 ",[954,2401,2402],{},"d_model=512","，",[954,2405,2406],{},"d_ff=2048","）。FFN 被认为是模型存储\"知识\"的主要组件。",[892,2409,2411],{"id":2410},"layer-normalization","Layer Normalization",[897,2413,2414],{},"Layer Normalization（层归一化）用于稳定训练过程，加速收敛。它对每个样本的每一层独立进行归一化：",[946,2416,2419],{"className":2417,"code":2418,"language":951},[949],"LayerNorm(x) = γ × (x - μ) \u002F (σ + ε) + β\n",[954,2420,2418],{"__ignoreMap":11},[897,2422,2423],{},"其中 μ 和 σ 分别是均值和标准差，γ 和 β 是可学习参数。",[1032,2425,2427],{"id":2426},"pre-norm-vs-post-norm","Pre-Norm vs Post-Norm",[946,2429,2432],{"className":2430,"code":2431,"language":951},[949],"# Post-Norm（原始 Transformer）\nx = LayerNorm(x + Sublayer(x))\n\n# Pre-Norm（现代大模型主流选择）\nx = x + Sublayer(LayerNorm(x))\n",[954,2433,2431],{"__ignoreMap":11},[897,2435,2436],{},"现代大模型几乎都采用 Pre-Norm 方案，因为它在训练大模型时更稳定。部分模型（如 Llama）使用 RMSNorm 替代 LayerNorm，计算更高效：",[946,2438,2440],{"className":1149,"code":2439,"language":1151,"meta":11,"style":11},"class RMSNorm(nn.Module):\n    def __init__(self, d_model, eps=1e-6):\n        super().__init__()\n        self.weight = nn.Parameter(torch.ones(d_model))\n        self.eps = eps\n\n    def forward(self, x):\n        rms = torch.sqrt(torch.mean(x ** 2, dim=-1, keepdim=True) + self.eps)\n        return x \u002F rms * self.weight\n",[954,2441,2442,2459,2475,2485,2497,2509,2513,2521,2565],{"__ignoreMap":11},[1155,2443,2444,2446,2449,2451,2453,2455,2457],{"class":1157,"line":1158},[1155,2445,1214],{"class":1161},[1155,2447,2448],{"class":1217}," RMSNorm",[1155,2450,1221],{"class":1165},[1155,2452,1224],{"class":1217},[1155,2454,1227],{"class":1165},[1155,2456,1230],{"class":1217},[1155,2458,1233],{"class":1165},[1155,2460,2461,2463,2465,2468,2470,2473],{"class":1157,"line":1169},[1155,2462,1239],{"class":1161},[1155,2464,1243],{"class":1242},[1155,2466,2467],{"class":1165},"(self, d_model, eps",[1155,2469,1273],{"class":1161},[1155,2471,2472],{"class":1242},"1e-6",[1155,2474,1233],{"class":1165},[1155,2476,2477,2479,2481,2483],{"class":1157,"line":1183},[1155,2478,1252],{"class":1242},[1155,2480,1255],{"class":1165},[1155,2482,1258],{"class":1242},[1155,2484,1261],{"class":1165},[1155,2486,2487,2489,2492,2494],{"class":1157,"line":1196},[1155,2488,1267],{"class":1242},[1155,2490,2491],{"class":1165},".weight ",[1155,2493,1273],{"class":1161},[1155,2495,2496],{"class":1165}," nn.Parameter(torch.ones(d_model))\n",[1155,2498,2499,2501,2504,2506],{"class":1157,"line":1204},[1155,2500,1267],{"class":1242},[1155,2502,2503],{"class":1165},".eps ",[1155,2505,1273],{"class":1161},[1155,2507,2508],{"class":1165}," eps\n",[1155,2510,2511],{"class":1157,"line":1211},[1155,2512,1208],{"emptyLinePlaceholder":1207},[1155,2514,2515,2517,2519],{"class":1157,"line":1236},[1155,2516,1239],{"class":1161},[1155,2518,1333],{"class":1217},[1155,2520,2367],{"class":1165},[1155,2522,2523,2526,2528,2531,2534,2537,2539,2541,2543,2545,2547,2550,2552,2555,2558,2560,2562],{"class":1157,"line":1249},[1155,2524,2525],{"class":1165},"        rms ",[1155,2527,1273],{"class":1161},[1155,2529,2530],{"class":1165}," torch.sqrt(torch.mean(x ",[1155,2532,2533],{"class":1161},"**",[1155,2535,2536],{"class":1242}," 2",[1155,2538,1440],{"class":1165},[1155,2540,1542],{"class":1541},[1155,2542,1545],{"class":1161},[1155,2544,1418],{"class":1242},[1155,2546,1440],{"class":1165},[1155,2548,2549],{"class":1541},"keepdim",[1155,2551,1273],{"class":1161},[1155,2553,2554],{"class":1242},"True",[1155,2556,2557],{"class":1165},") ",[1155,2559,2217],{"class":1161},[1155,2561,1361],{"class":1242},[1155,2563,2564],{"class":1165},".eps)\n",[1155,2566,2567,2569,2571,2573,2576,2578,2580],{"class":1157,"line":1264},[1155,2568,1577],{"class":1161},[1155,2570,2208],{"class":1165},[1155,2572,1450],{"class":1161},[1155,2574,2575],{"class":1165}," rms ",[1155,2577,2211],{"class":1161},[1155,2579,1361],{"class":1242},[1155,2581,2582],{"class":1165},".weight\n",[892,2584,2586],{"id":2585},"残差连接residual-connection","残差连接（Residual Connection）",[897,2588,2589],{},"每个子层（注意力层和 FFN）都使用残差连接，将输入直接加到输出上：",[946,2591,2594],{"className":2592,"code":2593,"language":951},[949],"output = x + Sublayer(x)\n",[954,2595,2593],{"__ignoreMap":11},[897,2597,2598],{},"残差连接的作用：",[901,2600,2601,2604,2607],{},[904,2602,2603],{},"缓解深层网络的梯度消失问题",[904,2605,2606],{},"允许信息直接跳过某些层传递",[904,2608,2609],{},"使得训练非常深的网络成为可能（现代大模型可达 80+ 层）",[892,2611,2613],{"id":2612},"decoder-的因果掩码","Decoder 的因果掩码",[897,2615,2616,2617,2620],{},"在 Decoder-only 的 LLM 中，一个关键设计是",[907,2618,2619],{},"因果掩码（Causal Mask）","。它确保在生成第 t 个 Token 时，模型只能看到位置 1 到 t-1 的 Token，而看不到未来的 Token：",[946,2622,2624],{"className":1149,"code":2623,"language":1151,"meta":11,"style":11},"def create_causal_mask(seq_len):\n    \"\"\"创建因果掩码（下三角矩阵）\"\"\"\n    mask = torch.tril(torch.ones(seq_len, seq_len))\n    return mask\n\n# 示例：seq_len=4\n# [[1, 0, 0, 0],\n#  [1, 1, 0, 0],\n#  [1, 1, 1, 0],\n#  [1, 1, 1, 1]]\n",[954,2625,2626,2636,2641,2651,2658,2662,2667,2672,2677,2682],{"__ignoreMap":11},[1155,2627,2628,2630,2633],{"class":1157,"line":1158},[1155,2629,2118],{"class":1161},[1155,2631,2632],{"class":1217}," create_causal_mask",[1155,2634,2635],{"class":1165},"(seq_len):\n",[1155,2637,2638],{"class":1157,"line":1169},[1155,2639,2640],{"class":1512},"    \"\"\"创建因果掩码（下三角矩阵）\"\"\"\n",[1155,2642,2643,2646,2648],{"class":1157,"line":1183},[1155,2644,2645],{"class":1165},"    mask ",[1155,2647,1273],{"class":1161},[1155,2649,2650],{"class":1165}," torch.tril(torch.ones(seq_len, seq_len))\n",[1155,2652,2653,2655],{"class":1157,"line":1196},[1155,2654,2205],{"class":1161},[1155,2656,2657],{"class":1165}," mask\n",[1155,2659,2660],{"class":1157,"line":1204},[1155,2661,1208],{"emptyLinePlaceholder":1207},[1155,2663,2664],{"class":1157,"line":1211},[1155,2665,2666],{"class":1349},"# 示例：seq_len=4\n",[1155,2668,2669],{"class":1157,"line":1236},[1155,2670,2671],{"class":1349},"# [[1, 0, 0, 0],\n",[1155,2673,2674],{"class":1157,"line":1249},[1155,2675,2676],{"class":1349},"#  [1, 1, 0, 0],\n",[1155,2678,2679],{"class":1157,"line":1264},[1155,2680,2681],{"class":1349},"#  [1, 1, 1, 0],\n",[1155,2683,2684],{"class":1157,"line":1279},[1155,2685,2686],{"class":1349},"#  [1, 1, 1, 1]]\n",[897,2688,2689],{},"在计算注意力分数时，被掩码位置的值设为负无穷，经过 Softmax 后变为 0，从而实现\"看不到未来\"的效果。",[2691,2692,2693],"warning",{},"\n因果掩码是 LLM 自回归生成的基础。如果在训练中错误地暴露了未来信息（即数据泄露），模型会学到\"作弊\"的捷径，导致生成质量严重下降。\n",[892,2695,2697],{"id":2696},"kv-cache-优化","KV Cache 优化",[897,2699,2700],{},"在自回归生成过程中，每生成一个新 Token，都需要重新计算整个序列的注意力。KV Cache 通过缓存已计算过的 Key 和 Value 矩阵来避免重复计算：",[946,2702,2704],{"className":1149,"code":2703,"language":1151,"meta":11,"style":11},"# 无 KV Cache：每步都重算所有 Token 的 K、V\n# 生成第 t 个 Token 时，计算量 = O(t × d_model)\n\n# 有 KV Cache：只计算新 Token 的 K、V，复用之前的缓存\n# 生成第 t 个 Token 时，计算量 = O(d_model)，但需要 O(t) 的内存\n",[954,2705,2706,2711,2716,2720,2725],{"__ignoreMap":11},[1155,2707,2708],{"class":1157,"line":1158},[1155,2709,2710],{"class":1349},"# 无 KV Cache：每步都重算所有 Token 的 K、V\n",[1155,2712,2713],{"class":1157,"line":1169},[1155,2714,2715],{"class":1349},"# 生成第 t 个 Token 时，计算量 = O(t × d_model)\n",[1155,2717,2718],{"class":1157,"line":1183},[1155,2719,1208],{"emptyLinePlaceholder":1207},[1155,2721,2722],{"class":1157,"line":1196},[1155,2723,2724],{"class":1349},"# 有 KV Cache：只计算新 Token 的 K、V，复用之前的缓存\n",[1155,2726,2727],{"class":1157,"line":1204},[1155,2728,2729],{"class":1349},"# 生成第 t 个 Token 时，计算量 = O(d_model)，但需要 O(t) 的内存\n",[897,2731,2732],{},"KV Cache 是现代 LLM 推理中最重要的优化之一，但它也带来了显存占用的挑战，尤其是在长上下文场景下。GQA（Grouped-Query Attention）和 MQA（Multi-Query Attention）等技术通过减少 KV 头数来降低缓存开销。",[892,2734,2735],{"id":2735},"从论文到实践",[897,2737,2738,2740],{},[927,2739,929],{}," 论文中的关键超参数：",[969,2742,2743,2756],{},[972,2744,2745],{},[975,2746,2747,2750,2753],{},[978,2748,2749],{},"参数",[978,2751,2752],{},"值",[978,2754,2755],{},"说明",[988,2757,2758,2768,2778,2789,2800],{},[975,2759,2760,2762,2765],{},[993,2761,2398],{},[993,2763,2764],{},"512",[993,2766,2767],{},"模型维度",[975,2769,2770,2772,2775],{},[993,2771,2394],{},[993,2773,2774],{},"2048",[993,2776,2777],{},"FFN 中间维度",[975,2779,2780,2783,2786],{},[993,2781,2782],{},"h",[993,2784,2785],{},"8",[993,2787,2788],{},"注意力头数",[975,2790,2791,2794,2797],{},[993,2792,2793],{},"N",[993,2795,2796],{},"6",[993,2798,2799],{},"Encoder\u002FDecoder 层数",[975,2801,2802,2805,2808],{},[993,2803,2804],{},"d_k = d_v",[993,2806,2807],{},"64",[993,2809,2810],{},"每个头的维度",[897,2812,2813],{},"而现代大模型的规模已经远超原始论文：",[969,2815,2816,2833],{},[972,2817,2818],{},[975,2819,2820,2823,2825,2828,2830],{},[978,2821,2822],{},"模型",[978,2824,2398],{},[978,2826,2827],{},"层数",[978,2829,2788],{},[978,2831,2832],{},"参数量",[988,2834,2835,2851,2867],{},[975,2836,2837,2840,2843,2846,2848],{},[993,2838,2839],{},"GPT-3",[993,2841,2842],{},"12288",[993,2844,2845],{},"96",[993,2847,2845],{},[993,2849,2850],{},"175B",[975,2852,2853,2856,2859,2862,2864],{},[993,2854,2855],{},"Llama 3 70B",[993,2857,2858],{},"8192",[993,2860,2861],{},"80",[993,2863,2807],{},[993,2865,2866],{},"70B",[975,2868,2869,2872,2874,2876,2878],{},[993,2870,2871],{},"Qwen2.5 72B",[993,2873,2858],{},[993,2875,2861],{},[993,2877,2807],{},[993,2879,2880],{},"72B",[892,2882,2883],{"id":2883},"小结",[897,2885,2886],{},"Transformer 架构是现代所有大语言模型的基石。理解自注意力机制、多头注意力、位置编码等核心组件，有助于深入理解模型的工作原理，也为后续的模型微调和部署优化打下理论基础。",[897,2888,2889],{},"核心要点回顾：",[901,2891,2892,2898,2904,2910,2916,2922],{},[904,2893,2894,2897],{},[907,2895,2896],{},"自注意力机制","：让每个 Token 能关注序列中的所有其他 Token",[904,2899,2900,2903],{},[907,2901,2902],{},"多头注意力","：并行学习多种注意力模式",[904,2905,2906,2909],{},[907,2907,2908],{},"位置编码","：注入序列的位置信息",[904,2911,2912,2915],{},[907,2913,2914],{},"FFN","：存储知识的主要组件",[904,2917,2918,2921],{},[907,2919,2920],{},"残差连接 + Layer Norm","：保证深层网络的稳定训练",[904,2923,2924,2927],{},[907,2925,2926],{},"因果掩码","：实现自回归生成",[2929,2930,2931],"style",{},"html pre.shiki code .s8jYJ, html code.shiki .s8jYJ{--shiki-light:#D73A49;--shiki-default:#D73A49;--shiki-dark:#F97583}html pre.shiki code .sxrX7, html code.shiki .sxrX7{--shiki-light:#24292E;--shiki-default:#24292E;--shiki-dark:#E1E4E8}html pre.shiki code .snPdu, html code.shiki .snPdu{--shiki-light:#6F42C1;--shiki-default:#6F42C1;--shiki-dark:#B392F0}html pre.shiki code .sBjJW, html code.shiki .sBjJW{--shiki-light:#005CC5;--shiki-default:#005CC5;--shiki-dark:#79B8FF}html pre.shiki code .sCsY4, html code.shiki .sCsY4{--shiki-light:#6A737D;--shiki-default:#6A737D;--shiki-dark:#6A737D}html pre.shiki code .sIIMD, html code.shiki .sIIMD{--shiki-light:#032F62;--shiki-default:#032F62;--shiki-dark:#9ECBFF}html pre.shiki code .sP4rz, html code.shiki .sP4rz{--shiki-light:#E36209;--shiki-default:#E36209;--shiki-dark:#FFAB70}html .light .shiki span {color: var(--shiki-light);background: var(--shiki-light-bg);font-style: var(--shiki-light-font-style);font-weight: var(--shiki-light-font-weight);text-decoration: var(--shiki-light-text-decoration);}html.light .shiki span {color: var(--shiki-light);background: var(--shiki-light-bg);font-style: var(--shiki-light-font-style);font-weight: var(--shiki-light-font-weight);text-decoration: var(--shiki-light-text-decoration);}html .default .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}html.dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}",{"title":11,"searchDepth":1169,"depth":1169,"links":2933},[2934,2935,2936,2941,2945,2949,2950,2953,2954,2955,2956,2957],{"id":894,"depth":1169,"text":895},{"id":937,"depth":1169,"text":937},{"id":1026,"depth":1169,"text":1027,"children":2937},[2938,2939,2940],{"id":1034,"depth":1183,"text":1034},{"id":1116,"depth":1183,"text":1116},{"id":1145,"depth":1183,"text":1146},{"id":1583,"depth":1169,"text":1584,"children":2942},[2943,2944],{"id":1590,"depth":1183,"text":1590},{"id":1626,"depth":1183,"text":1146},{"id":2060,"depth":1169,"text":2061,"children":2946},[2947,2948],{"id":2067,"depth":1183,"text":2067},{"id":2104,"depth":1183,"text":2105},{"id":2234,"depth":1169,"text":2235},{"id":2410,"depth":1169,"text":2411,"children":2951},[2952],{"id":2426,"depth":1183,"text":2427},{"id":2585,"depth":1169,"text":2586},{"id":2612,"depth":1169,"text":2613},{"id":2696,"depth":1169,"text":2697},{"id":2735,"depth":1169,"text":2735},{"id":2883,"depth":1169,"text":2883},"md",{},{"title":70,"description":71},"ai\u002Fllm\u002Ftransformer","iTcnPxOjn8tmbEL2sgz4AKw17HA3q_NLulHSvTTy4us",1775474634722]