展开全部

主编推荐语

本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。

内容简介

全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。

在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1章 大模型技术原理
  • 1.1 大模型技术的起源、思想
  • 1.2 基于Transformer的预训练语言模型
  • 1.2.1 编码预训练语言模型
  • 1.2.2 解码预训练语言模型
  • 1.2.3 基于编解码架构的预训练语言模型
  • 1.3 提示学习与指令微调
  • 1.3.1 提示学习
  • 1.3.2 指令微调
  • 1.4 人类反馈强化学习
  • 1.4.1 强化学习
  • 1.4.2 PPO算法
  • 1.4.3 大模型人类反馈强化学习对齐
  • 1.5 GPT智能涌现原理与AGI通用人工智能
  • 1.5.1 什么是智能涌现
  • 1.5.2 思维链
  • 1.5.3 上下文学习能力
  • 1.5.4 指令理解
  • 1.5.5 通用人工智能
  • 第2章 大模型训练及微调
  • 2.1 大模型训练概述
  • 2.2 分布式训练的并行策略
  • 2.2.1 数据并行
  • 2.2.2 模型并行
  • 2.2.3 混合并行
  • 2.2.4 并行计算框架
  • 2.3 预训练模型的压缩
  • 2.3.1 模型压缩方案概述
  • 2.3.2 结构化模型压缩策略
  • 2.3.3 非结构化模型压缩策略
  • 2.3.4 8位/4位量化压缩实战
  • 2.4 大模型微调方法
  • 2.4.1 Prefix Tuning微调
  • 2.4.2 P-Tuning V1微调
  • 2.4.3 P-Tuning V2微调
  • 2.4.4 LoRA微调
  • 2.4.5 QLoRA微调
  • 2.5 基于旋转位置编码RoPE的长文本理解
  • 2.5.1 RoPE技术原理
  • 2.5.2 RoPE关键特性
  • 第3章 主流大模型
  • 3.1 国内大模型
  • 3.1.1 智谱清言ChatGLM
  • 3.1.2 百川智能
  • 3.1.3 百度文心一言
  • 3.1.4 阿里巴巴通义千问
  • 3.1.5 腾讯混元
  • 3.1.6 华为盘古
  • 3.1.7 360智脑
  • 3.1.8 科大讯飞星火
  • 3.1.9 智源悟道大模型
  • 3.1.10 月之暗面Kimi
  • 3.1.11 复旦大学MOSS
  • 3.1.12 零一万物
  • 3.1.13 字节跳动豆包大模型
  • 3.2 国外大模型
  • 3.2.1 OpenAI GPT-4o
  • 3.2.2 Meta LLaMA
  • 3.2.3 Anthropic Claude
  • 3.2.4 谷歌Gemini和开源Gemma
  • 3.2.5 Mistral Large
  • 3.2.6 xAI Grok
  • 3.3 垂直类大模型
  • 3.3.1 HuatuoGPT
  • 3.3.2 BianQue
  • 3.3.3 BenTsao
  • 3.3.4 XrayGLM
  • 3.3.5 DoctorGLM
  • 3.3.6 ChatMed
  • 3.3.7 度小满轩辕
  • 3.3.8 BloombergGPT
  • 3.3.9 LawGPT
  • 3.3.10 LexiLaw
  • 3.3.11 Lawyer LLaMA
  • 3.3.12 ChatLaw
  • 3.3.13 ChatGLM-Math
  • 第4章 LangChain技术原理与实践
  • 4.1 LangChain技术原理
  • 4.2 LangChain六大核心模块
  • 4.2.1 模型I/O
  • 4.2.2 数据增强模块
  • 4.2.3 链模块
  • 4.2.4 记忆模块
  • 4.2.5 Agent模块
  • 4.2.6 回调处理器
  • 第5章 RAG检索增强生成
  • 5.1 RAG技术原理
  • 5.1.1 RAG的概念与应用
  • 5.1.2 RAG技术架构
  • 5.1.3 分块和向量化
  • 5.1.4 搜索索引
  • 5.1.5 重新排序和过滤
  • 5.1.6 查询转换与路由
  • 5.1.7 RAG中的Agent智能体
  • 5.1.8 响应合成器
  • 5.1.9 大模型微调和RAG优劣势对比
  • 5.2 文本向量模型
  • 5.2.1 Embedding模型、Reranker模型及ColBERT模型
  • 5.2.2 阿里巴巴GTE向量模型
  • 5.2.3 中文acge_text_embedding模型
  • 5.2.4 智源中英文语义向量模型BGE
  • 5.2.5 Moka开源文本嵌入模型M3E
  • 5.2.6 OpenAI的text-embedding模型
  • 5.3 向量数据库
  • 5.3.1 Faiss
  • 5.3.2 Milvus
  • 5.3.3 Pinecone
  • 5.3.4 Chroma
  • 5.4 RAG应用实践
  • 5.4.1 基于大模型构建企业私有数据的知识问答
  • 5.4.2 应对大模型落地挑战的优化策略
  • 第6章 多模态大模型
  • 6.1 多模态基础模型
  • 6.1.1 多模态对齐、融合和表示
  • 6.1.2 CLIP
  • 6.1.3 BLIP
  • 6.1.4 BLIP-2
  • 6.1.5 InstructBLIP和X-InstructBLIP
  • 6.1.6 SAM
  • 6.1.7 OpenFlamingo
  • 6.1.8 VideoChat
  • 6.1.9 PaLM-E
  • 6.2 OpenAI多模态大模型DALL·E 3、GPT-4V、GPT-4o、Sora
  • 6.2.1 文生图多模态大模型DALL·E 3
  • 6.2.2 GPT-4V
  • 6.2.3 端到端训练多模态大模型GPT-4o技术原理
  • 6.2.4 文生视频多模态大模型Sora
  • 6.3 通义千问多模态大模型
  • 6.3.1 开源Qwen-VL和Qwen-VL-Chat
  • 6.3.2 Qwen-VL-Plus和Qwen-VL-Max
  • 6.4 开源端到端训练多模态大模型LLaVA
  • 6.4.1 LLaVA
  • 6.4.2 LLaVA-1.5
  • 6.4.3 LLaVA-1.6
  • 6.4.4 MoE-LLaVA
  • 6.4.5 LLaVA-Plus
  • 6.4.6 Video-LLaVA和LLaVA-NeXT-Video
  • 6.5 零一万物多模态大模型Yi-VL系列
  • 6.5.1 Yi-VL系列模型架构
  • 6.5.2 Yi-VL系列模型训练微调及推理
  • 6.6 清华系多模态大模型
  • 6.6.1 VisualGLM-6B
  • 6.6.2 CogVLM2
  • 6.6.3 CogAgent
  • 6.6.4 CogView、CogVideo和CogVideoX
  • 6.6.5 CogCoM
  • 6.6.6 GLM-4V-9B
  • 第7章 AI Agent智能体
  • 7.1 AI Agent智能体介绍和原理
  • 7.1.1 AI Agent的定义与角色
  • 7.1.2 AI Agent技术原理
  • 7.2 主流大模型Agent框架
  • 7.2.1 AutoGPT
  • 7.2.2 MetaGPT
  • 7.2.3 ChatDev
  • 7.2.4 AutoGen
  • 7.2.5 FastGPT
  • 7.2.6 XAgent
  • 7.2.7 GPT-Engineer
  • 7.2.8 BabyAGI
  • 7.2.9 SuperAGI
  • 第8章 大模型在企业应用中落地
  • 8.1 基于大模型的对话式推荐系统
  • 8.1.1 基于大模型的对话式推荐系统技术架构设计
  • 8.1.2 推荐AI Agent智能体
  • 8.1.3 面向推荐的语言表达模型
  • 8.1.4 知识插件
  • 8.1.5 基于大模型的推荐解释
  • 8.1.6 对话式推荐系统的新型评测方法
  • 8.2 多模态搜索
  • 8.2.1 多模态搜索技术架构设计
  • 8.2.2 多模态搜索关键技术
  • 8.2.3 多模态实时搜索与个性化推荐
  • 8.3 基于自然语言交互的NL2SQL数据即席查询
  • 8.3.1 NL2SQL数据即席查询技术原理
  • 8.3.2 NL2SQL应用实践
  • 8.4 基于大模型的智能客服对话机器人
  • 8.4.1 大模型智能客服对话机器人技术原理
  • 8.4.2 AI大模型赋能提升智能客服解决率新策略
  • 8.4.3 基于大模型的智能客服对话机器人系统搭建
  • 8.5 多模态数字人
  • 8.5.1 多模态数字人技术原理
  • 8.5.2 三维建模与三维重建
  • 8.5.3 声音克隆与形象克隆
  • 8.5.4 唇形同步算法
  • 8.5.5 NeRF、ER-NeRF与RAD-NeRF模型
  • 8.5.6 数字人项目实践
  • 8.6 多模态具身智能
  • 8.6.1 多模态具身智能概念及技术路线
  • 8.6.2 多模态感知与场景理解
  • 8.6.3 视觉导航
  • 8.6.4 世界模型
  • 8.6.5 具身智能模拟器
  • 8.6.6 多模态多感官交互具身智能大模型
  • 8.6.7 端到端强化学习人形机器人
  • 8.6.8 多模态通才具身智能体
  • 图书推荐
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。