展开全部

主编推荐语

本书系统阐述了构建私有化大语言模型(LLM)应用系统的完整流程。

内容简介

全书分为3部分,共10章。首先,深入讲解模型格式、推理引擎、多GPU部署与嵌入生成技术;随后,围绕RAG系统构建、向量数据库、API接口封装、前端交互设计与私有化安全机制展开介绍;最后,通过项目案例,演示模型部署与知识库搭建的全流程。

读者可通过本书系统掌握LLaMA、Qwen、Baichuan等主流模型的部署方式,理解vLLM、TGI等推理引擎的性能调优手段,并掌握向量化表示、FAISS/Milvus索引构建及RAG问答系统的完整流程。

书中还特别强调私有部署中的安全合规、权限控制与攻击防御机制,并提供法律问答与企业助手两个实战案例,具备较强的可复用性与工程价值。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 本书源码下载
  • 第1部分 大模型私有化部署基础与技术生态
  • 第1章 大模型私有化部署概述
  • 1.1 大模型私有化部署核心流程简介
  • 1.1.1 大模型训练、推理及部署基本概念详解
  • 1.大模型训练的基本过程
  • 2.大模型推理的核心原理
  • 3.大模型部署的系统构成
  • 4.训练、推理与部署之间的逻辑关系
  • 1.1.2 模型即服务
  • 1.MaaS的基本定义与体系结构
  • 2.主流MaaS平台与代表性方案
  • 1.1.3 云服务的局限性
  • 1.1.4 面向企业的私有化部署应用案例
  • 1.某大型法务机构的法规问答系统
  • 2.某高科技制造企业的内部知识助理系统
  • 1.1.5 为何需要大模型私有化部署
  • 1.数据安全与合规要求的根本保障
  • 2.系统响应效率与服务稳定性的核心支撑
  • 3.模型微调与功能定制的必要前提
  • 4.成本可控性与资源复用的长期保障
  • 1.2 大模型技术生态
  • 1.2.1 LLaMA、Qwen、Baichuan等主流开源模型
  • 1.LLaMA系列模型:结构简洁、生态广泛的开源基线
  • 2.Qwen系列模型:多语言优化与能力均衡的国产方案
  • 3.Baichuan系列模型:参数密度与生成质量的权衡代表
  • 4.对比分析与选型建议
  • 1.2.2 模型量化框架:HuggingFace Transformers、GGUF、GGML、ONNX
  • 1.HuggingFace Transformers:原生格式的兼容基线
  • 2.GGUF格式:统一推理接口下的轻量部署
  • 3.GGML引擎:结构紧凑的C++量化推理库
  • 4.ONNX格式:跨平台中间表示的工业标准
  • 5.选型建议与工程应用参考
  • 1.2.3 推理引擎:vLLM、TGI、llama.cpp、FasterTransformer
  • 1.vLLM:高并发场景下的主流解决方案
  • 2.TGI:官方标准化推理框架
  • 3.llama.cpp:边缘部署的轻量级方案
  • 4.FasterTransformer:面向极致性能的深度优化引擎
  • 1.2.4 工程构建框架:LangChain、LlamaIndex、Flowise
  • 1.LangChain:链式编排与工具融合的主流平台
  • 2.LlamaIndex:知识融合与文档索引驱动的轻量框架
  • 3.Flowise:低代码可视化的RAG系统开发平台
  • 1.2.5 模型互联协议:MCP、Agent-to-Agent
  • 1.MCP
  • 2.Agent-to-Agent(A2A)协议
  • 1.3 私有化知识库搭建
  • 1.3.1 检索增强生成(RAG)
  • 1.RAG的核心思想与流程结构
  • 2.RAG的关键技术模块与实现要点
  • 3.RAG在私有化部署中的工程价值
  • 1.3.2 知识库系统架构分层设计:Embedding、索引、查询、融合
  • 1.Embedding层:文本转向量的语义表示模块
  • 2.索引层:向量存储与相似度检索模块
  • 3.查询层:用户问题解析与向量比对模块
  • 4.融合层:提示词构造与语言生成模块
  • 1.3.3 数据流与提示词模板构造方式
  • 1.3.4 用户接口、缓存机制与资源调用
  • 1.4 技术栈选型与整合
  • 1.4.1 开发生态:FastAPI、uvicorn、gradio
  • 1.FastAPI:高性能Web服务框架
  • 2.uvicorn:异步ASGI服务运行器
  • 3.gradio:低代码可视化前端框架
  • 1.4.2 向量数据库:FAISS、Milvus、Weaviate
  • 1.FAISS:轻量高效的本地向量检索库
  • 2.Milvus:企业级分布式向量数据库
  • 3.Weaviate:集AI服务于一体的语义数据库
  • 1.4.3 前端开发工具链
  • 1.4.4 云边协同部署
  • 1.5 本章小结
  • 第2章 模型格式与推理引擎详解
  • 2.1 模型格式结构与存储优化
  • 2.1.1 Transformers原始格式结构
  • 1.模型权重文件(*.bin或*.ckpt)
  • 2.配置文件(config.json)
  • 3.分词器与词汇表(tokenizer.json / vocab.txt)
  • 4.原始格式的优势与局限
  • 2.1.2 HuggingFace safetensors与Tokenizer机制
  • 1.safetensors格式:为部署而优化的张量封装结构
  • 2.Tokenizer机制:模型理解的第一道关口
  • 3.部署视角下的整合建议
  • 2.1.3 GGUF模型结构与KV缓存
  • 1.GGUF格式的设计目标与结构特点
  • 2.KV缓存机制:大模型高效推理的核心支撑
  • 3.GGUF+KV缓存的工程落地价值
  • 4.常见工具与推荐实践
  • 2.1.4 模型量化机制与存储空间压缩
  • 1.量化机制的基本原理
  • 2.常见的量化位宽与策略
  • 3.主流格式中的压缩实现
  • 4.存储空间压缩与推理效率提升分析
  • 5.注意事项与精度保障机制
  • 2.2 主流推理引擎深度解析
  • 2.2.1 vLLM:高并发KV缓存、预填充加速
  • 1.PagedAttention机制:重构KV缓存以支持并发上下文
  • 2.预填充优化:构建Prompt缓存以加速首次响应
  • 3.工程实现与部署特性
  • 4.在高并发场景中的实际价值
  • 2.2.2 TGI:多模型热加载与队列式服务
  • 1.多模型热加载机制
  • 2.队列式服务调度:构建高并发请求响应控制体系
  • 3.部署方式与运行参数
  • 4.在私有化部署中的应用场景价值
  • 2.2.3 llama.cpp:基于CPU侧部署的高效执行引擎
  • 1.架构设计与运行机制
  • 2.多种量化格式与模型压缩支持
  • 3.线程优化与多核心并行策略
  • 4.典型应用场景与扩展框架
  • 2.2.4 DeepSpeed-Inference与TensorRT推理优化实战
  • 2.3 多GPU部署与分布式推理策略
  • 2.3.1 张量并行与模型切片技术
  • 2.3.2 Flash-Attention
  • 2.3.3 Pipeline并行与批量推理调度
  • 2.3.4 Triton部署模型组服务
  • 2.4 本地推理环境配置与性能调优
  • 2.4.1 CUDA与cuDNN
  • 1.CUDA简介
  • 2.cuDNN简介
  • 2.4.2 Docker容器封装与环境隔离
  • 2.4.3 动态Batch Size与Token限额控制
  • 2.4.4 日志监控、超时回收与异常处理机制
  • 2.5 本章小结
  • 第3章 向量模型与文本嵌入技术
  • 3.1 向量表示的基本原理与应用场景
  • 3.1.1 语义搜索中的向量化建模
  • 3.1.2 词向量与句向量对比
  • 3.1.3 向量维度与精度权衡
  • 3.1.4 常见评估指标:余弦相似度、L2距离与recall@k
  • 3.2 主流Embedding模型分析
  • 3.2.1 中文向量模型:bge-large-zh、text2vec-base
  • 3.2.2 OpenAI Embedding与API调用
  • 3.2.3 multilingual-e5模型跨语种能力
  • 3.2.4 SimCSE、Cohere等多场景向量模型
  • 3.3 向量生成服务的部署与封装
  • 3.3.1 本地化部署embedding模型服务
  • 3.3.2 使用FastAPI封装Embedding API
  • 3.3.3 向量缓存策略
  • 3.4 嵌入质量优化与向量归一化
  • 3.4.1 嵌入输出分布的规范化处理
  • 3.4.2 Mean Pooling与CLS Token提取
  • 3.4.3 使用向量均值中心化增强相似性表现
  • 3.4.4 向量漂移与训练域偏移现象
  • 1.向量漂移现象
  • 2.训练域偏移现象
  • 3.5 本章小结
  • 第4章向量数据库构建与检索系统
  • 4.1 向量数据库选型对比与性能评估
  • 4.1.1 FAISS:轻量化CPU、单机方案
  • 4.1.2 Milvus:企业级向量检索平台
  • 4.1.3 Weaviate、Chroma等新兴方案
  • 4.1.4 Benchmark指标:插入吞吐率、检索查准率、召回速度
  • 4.2 FAISS索引构建技术详解
  • 4.2.1 IndexFlatL2、IVF、HNSW的原理与适用场景
  • 4.2.2 建立分层索引与量化索引机制
  • 4.2.3 批量向量入库与索引持久化处理
  • 4.2.4 搜索参数调优:nprobe、topk、efSearch
  • 4.3 数据切片与文档分块策略
  • 4.3.1 滑动窗口切分与句子分割
  • 4.3.2 段落间语义保持与断点延续
  • 4.3.3 基于Token长度的自动分块算法
  • 4.3.4 文档元信息绑定与索引注解
  • 4.4 检索接口构建
  • 4.4.1 使用FastAPI提供RAG检索服务
  • 4.4.2 支持多语言查询向量化与转换
  • 4.5 本章小结
  • 第2部分 大模型应用系统核心与性能优化
  • 第5章 检索增强生成系统实现
  • 5.1 RAG系统的核心机制
  • 5.1.1 用户查询向量化与预处理实现
  • 5.1.2 Top-K语义检索与相关片段融合
  • 5.1.3 提示词构建中的上下文拼接策略
  • 5.1.4 输出后处理与精简回答逻辑
  • 5.2 提示词模板的设计与注入方式
  • 5.2.1 静态模板与动态填充模式
  • 5.2.2 插入位置对生成效果的影响(前置、后置、嵌套)
  • 5.2.3 基于角色设定的提示词构造技巧
  • 5.2.4 格式化指令与高置信度答案控制
  • 5.3 多轮对话中的上下文管理
  • 5.3.1 查询与历史会话的窗口控制策略
  • 5.3.2 Conversation Memory的持久化方案
  • 5.3.3 提示词Token的溢出处理与摘要压缩
  • 5.3.4 多用户对话状态隔离机制设计
  • 5.4 RAG系统的评估与优化路径
  • 5.4.1 问答准确率、上下文覆盖率、响应延迟
  • 5.4.2 检索质量对生成质量的非线性影响
  • 5.4.3 引入Re-Ranking模型提升召回效果
  • 5.4.4 加入外部知识来源与候选缓存增强
  • 5.5 本章小结
  • 第6章本地化API服务与系统接口封装
  • 6.1 基于FastAPI的推理服务构建
  • 6.1.1 路由设计与请求体结构约定
  • 6.1.2 多模型切换支持与动态加载机制
  • 6.1.3 异步任务与并发调度实现
  • 6.2 多模块服务组合与调用链路管理
  • 6.2.1 查询转Embedding服务封装
  • 6.2.2 向量检索与文档召回接口
  • 6.3 服务性能优化与压测工具应用
  • 6.3.1 使用locust或wrk进行QPS压测
  • 6.3.2 多线程/多进程服务架构优化
  • 6.4 接口安全机制与权限控制
  • 6.4.1 接口Token验证机制
  • 6.4.2 基于IP地址/账号的访问权限控制
  • 6.4.3 API限流与恶意请求拦截方案
  • 6.5 本章小结
  • 第7章 知识库构建与多源异构数据处理
  • 7.1 文档采集与清洗的标准流程
  • 7.1.1 支持格式:PDF、Word、Excel、HTML
  • 1.PDF格式解析
  • 2.Word格式(.docx)解析
  • 3.Excel格式(.xls/.xlsx)解析
  • 4.HTML格式解析
  • 7.1.2 接入OCR技术
  • 7.1.3 正文提取与噪声过滤机制
  • 7.1.4 文件批处理流水线的调度设计
  • 7.2 分块策略与语义断句方法
  • 7.2.1 Sliding Window与自适应分句模型
  • 7.2.2 多语种文档分块兼容性设计
  • 7.2.3 固定Token分块与语义切分对比
  • 7.2.4 分块编号与上下文定位注解设计
  • 7.3 本章小结
  • 第3部分大模型平台落地与业务场景集成
  • 第8章 交互系统集成
  • 8.1 多平台交互系统构建
  • 8.1.1 基于Gradio构建轻量交互系统
  • 8.1.2 使用Streamlit构建文档问答工具
  • 8.1.3 使用Next.js打造企业级Web交互系统
  • 8.1.4 支持接入HTML5移动页面与微信小程序
  • 8.2 Chat交互系统核心组件开发实战
  • 8.2.1 消息流管理与历史对话加载
  • 8.2.2 问答标注与知识引用定位功能
  • 8.2.3 问题反馈与点赞机制的实现
  • 8.3 本章小结
  • 第9章 私有化部署实战
  • 9.1 私有化部署环境构建与运维基础
  • 9.1.1 GPU服务器与网络架构部署方案
  • 9.1.2 离线环境的依赖缓存与封包策略
  • 1.依赖缓存策略
  • 2.封包与版本控制机制
  • 3.校验与维护机制
  • 9.1.3 基于Docker Compose的模块化部署
  • 9.2 数据保护与脱敏机制设计
  • 9.2.1 输入/输出内容中的PII识别模型
  • 9.2.2 文档内容脱敏与可逆替换策略
  • 9.2.3 加密传输与静态加密文件系统集成
  • 9.3 模型与知识隔离机制
  • 9.3.1 多租户数据访问隔离
  • 9.3.2 不同领域知识子库隔离检索
  • 9.3.3 临时会话缓存数据自动销毁机制
  • 9.4 攻击面识别与防护策略
  • 9.4.1 提示词注入攻击检测机制
  • 9.4.2 对抗式输入与提示词污染防御
  • 9.5 本章小结
  • 第10章知识库构建实战与系统集成
  • 10.1 私有化法律问答系统构建案例
  • 10.1.1 法律条文PDF采集与结构化抽取
  • 1.PDF内容解析原理
  • 2.法律条文抽取演示(基于pdfplumber)
  • 3.构建基于Qwen 3.0的大模型知识库系统
  • 10.1.2 法规条款向量化策略设计
  • 1.向量化基本原理
  • 2.向量化代码示例
  • 3.法规条文向量化与索引构建代码(FAISS)
  • 4.接入Qwen 3.0推理服务(调用API)
  • 10.1.3 多轮问答与法规引用机制实现
  • 1.基本原理
  • 2.多轮对话+法规引用代码实现
  • 3.API调用示例
  • 10.1.4 本地化部署与知识库搭建完整流程
  • 1.系统结构总览
  • 2.部署流程详解
  • 3.启动与调用
  • 4.打包为GitHub项目并实现脚本化启动工具
  • 10.2 企业级知识助手集成方案
  • 10.2.1 接入OA系统与企业目录服务
  • 1.技术实现要点
  • 2.OAuth2统一登录实现代码(FastAPI)
  • 3.LDAP组织结构同步代码示例(基于ldap3)
  • 4.组织感知型问答上下文构造代码示例(结合Qwen 3.0)
  • 10.2.2 工作流嵌入式问答组件封装
  • 10.2.3 文档上传、版本迭代及云服务平台接入
  • 10.3 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。