互联网
类型
可以朗读
语音朗读
141千字
字数
2025-11-01
发行日期
展开全部
主编推荐语
本书聚焦AIGC与智能体编程开发实战,围绕开源大模型与API调用展开。
内容简介
本书分为10章,从基础理论到实际开发,全面讲解基于开源大模型与Serverless API的智能应用开发。
第1~3章介绍Serverless API、大模型应用架构和开发环境搭建;第4~6章以流行的开源模型(如DeepSeek、Stable Diffusion、Whisper 等)为基础,逐步指导读者掌握文本生成、图像生成、语音处理的API开发技能;第7、8章深入多模态应用开发,如视频生成与跨模态交互;第9、10章讲述AI Agent、检索增强生成(RAG)与微调技术的高阶实践,以及企业案例与未来趋势。
目录
- 版权信息
- 内容提要
- 推荐序一
- 推荐序二
- 前言 驾驭开源力量,重塑智能版图
- 资源与支持
- 第1章 快速入门AIGC与Serverless API开发
- 1.1 AIGC演进与开源大模型生态
- 1.1.1 AIGC:智能时代的内容生产革命
- 1.1.2 AIGC的发展历程
- 1.1.3 AIGC/UGC/PGC三类常见内容生成对比分析
- 1.1.4 主流AIGC技术类别与典型大模型简介
- 1.1.5 部署开源大模型及输出API对开发者的意义
- 1.2 Serverless API和OpenAI兼容API的概念
- 1.2.1 Serverless的定义与特征剖析
- 1.2.2 Serverless API与传统架构的对比分析
- 1.2.3 OpenAI兼容API的定义与核心要素
- 1.2.4 OpenAI兼容API的典型落地路径
- 1.3 开源大模型与Serverless API架构融合的实际意义
- 1.3.1 Serverless API架构解决开源大模型部署难题
- 1.3.2 开源生态与Serverless API的协同效应
- 1.3.3 国内外主流开源大模型Token/API服务平台
- 1.4 基于API调用开发在大模型编程开发中的层级
- 1.4.1 大模型应用开发的层次架构
- 1.4.2 API层级调用架构在应用开发场景中的对比图示
- 1.4.3 API调用开发的平台和入口
- 1.5 本章小结
- 第2章 快速理解AIGC与API开发的基础技术栈
- 2.1 快速入门HTTP协议中的RESTful API
- 2.1.1 RESTful API和CRUD(增删改查)的对应关系
- 2.1.2 HTTP requests库和兼容OpenAI SDK调用方式对比
- 2.2 标准化的API调用流程以及简单错误快速处理
- 2.2.1 API调用的基础规范与流程
- 2.2.2 API调用简单代码示例
- 2.2.3 常见API错误与快速排错技巧
- 2.3 常见AIGC API的调用参数讲解
- 2.3.1 API调用请求常用参数快速解析
- 2.3.2 常见API响应数据基础字段介绍
- 2.4 AI辅助开发工具与平台快速认知
- 2.4.1 AI辅助开发工具和平台的作用
- 2.4.2 AI辅助编码类工具
- 2.4.3 AI辅助平台类工具
- 2.5 本章小结
- 第3章 初步设置和使用API之实战入门
- 3.1 注册与登录以及如何获得API Key
- 3.1.1 Gitee AI平台介绍
- 3.1.2 注册Gitee AI账号
- 3.1.3 创建API密钥
- 3.1.4 使用API密钥获取Token
- 3.2 开始使用Serverless API
- 3.2.1 选择模型和创建访问令牌
- 3.2.2 测试模型API
- 3.2.3 查看API文档和示例代码
- 3.2.4 cURL命令行工具的常见用法举例
- 3.3 常见问题与解决方案
- 3.3.1 账号和访问问题
- 3.3.2 算力券和资源包问题
- 3.4 本章小结
- 第4章 基于Serverless API实现大模型编程初步
- 4.1 目标:调用模型接口,得到返回的交互结果
- 4.2 步骤:配置环境、安装库与获取API Key
- 4.2.1 创建项目并安装依赖
- 4.2.2 获取Gitee Serverless API的API Key
- 4.2.3 API Key的3种管理方式
- 4.3 过程:核心代码(包括错误示例)详解
- 4.4 成功:正确示例及代码演示
- 4.5 改进:生成中文响应结果
- 4.6 精进:简练中文回馈内容
- 4.7 本章小结
- 第5章 多种模态API原子能力初级实战
- 5.1 开发环境配置与依赖库安装
- 5.1.1 Python环境配置
- 5.1.2 安装必要的依赖库
- 5.1.3 配置API访问凭证
- 5.2 实现Instruct与Chat的文本生成Hello World
- 5.2.1 Instruct模型与Chat模型的区别
- 5.2.2 使用Instruct模型生成Hello World
- 5.2.3 使用Chat模型生成Hello World
- 5.2.4 Instruct与Chat模型的选择建议
- 5.3 实现Stable Diffusion的文生图Hello World
- 5.3.1 Gitee AI平台的Stable Diffusion模型简介
- 5.3.2 配置Stable Diffusion API
- 5.3.3 使用Stable Diffusion生成第一张图像
- 5.3.4 调整生成参数提升图像质量
- 5.4 实现Whisper的语音识别Hello World
- 5.4.1 Gitee AI平台的Whisper模型简介
- 5.4.2 配置语音识别API
- 5.4.3 使用Gitee AI平台的Whisper API进行语音识别
- 5.4.4 使用本地音频文件进行语音识别
- 5.4.5 实时语音识别
- 5.5 本章小结
- 第6章 多种模态API调用及编排进阶实战
- 6.1 实现DeepSeek+Stable Diffusion的图像生成优化
- 6.1.1 DeepSeek模型优化机制
- 6.1.2 API编排实现协同AIGC图像生成
- 6.1.3 参数优化与问题排查
- 6.2 实现Wan2.1-T2V的文生视频
- 6.2.1 视频生成模型简介
- 6.2.2 使用Wan2.1-T2V生成视频
- 6.2.3 视频生成参数调优
- 6.3 实现Hunyuan3D-2的图生3D
- 6.3.1 Hunyuan 3D生成模型简介
- 6.3.2 使用Hunyuan3D-2生成3D模型
- 6.3.3 使用Open3D查看和处理3D模型
- 6.4 API调用常见错误与调试进阶
- 6.4.1 常见错误类型
- 6.4.2 API调用调试技巧
- 6.4.3 实现请求重试和错误处理
- 6.4.4 API调用性能优化
- 6.5 本章小结
- 第7章 辅助生成代码、打造多种形态及践行Vibe Coding
- 7.1 主流开源代码辅助生成大模型
- 7.1.1 回顾开源大语言模型的发展与意义
- 7.1.2 DeepSeek-V3/R1模型回顾
- 7.1.3 CodeGeeX模型详解
- 7.1.4 新一代开源Coder与数学/证明模型的发展
- 7.1.5 模型性能对比与选择建议
- 7.2 用文本/代码生成大模型API构建不同生成形态的工具
- 7.2.1 文本/代码生成工具的基本架构
- 7.2.2 智能对话工具的实现(命令行)
- 7.2.3 文本摘要工具的实现(Web网页端)
- 7.2.4 文本续写工具的实现(API)
- 7.3 AI代码辅助工具实战
- 7.3.1 AI代码辅助工具概述
- 7.3.2 GitHub Copilot使用实战
- 7.3.3 Cline AI代码助手使用实战
- 7.3.4 Trae AI代码助手使用实战
- 7.3.5 Cursor编译器使用实战
- 7.3.6 通义灵码代码助手使用实战
- 7.4 AI Coding中VSCode+Cline+Gitee.AI的配置与实践
- 7.4.1 VSCode中AI编程助手的选择
- 7.4.2 VSCode中配置Cline第三方API的详细步骤
- 7.4.3 实用VSCode扩展组合推荐
- 7.4.4 常见问题与解决方案
- 7.5 如何提升AI代码生成的质量
- 7.5.1 面向代码生成的提示词工程技巧
- 7.5.2 行业案例分析
- 7.6 本章小结
- 第8章 图像生成与视觉识别API开发进阶实战
- 8.1 图像生成、图像识别、图像理解、图像处理技术简介
- 8.1.1 图像生成技术简介
- 8.1.2 图像识别技术简介
- 8.1.3 图像描述/理解和视觉问答技术简介
- 8.1.4 图像增强及图像超分技术简介
- 8.2 基于Gitee平台的Serverless API实现图片生成及风格迁移
- 8.2.1 Serverless架构在图像处理中的应用
- 8.2.2 基于Gitee平台Stable Diffusion的图像生成API实现
- 8.2.3 Kolors中文图像生成API实现
- 8.2.4 基于Kolors的图像风格迁移API实现
- 8.3 通过图像识别和图像理解技术构建应用
- 8.3.1 InternVL图像理解
- 8.3.2 3个AI 1.0时代的图像识别开源项目
- 8.4 Real-ESRGAN图像超分模型与传统PIL构建应用
- 8.4.1 两者在实现和解决问题上的差别和关系
- 8.4.2 用Real-ESRGAN大模型实现超分的应用
- 8.4.3 传统基于PIL实现的图像处理开源项目
- 8.5 本章小结
- 第9章 音频处理与视频生成API进阶开发实战
- 9.1 音频识别模型和语音合成模型解析
- 9.1.1 音频识别技术的发展与原理
- 9.1.2 Whisper语音识别模型解析
- 9.1.3 Fish Speech语音合成模型解析
- 9.1.4 ChatT TS语音合成模型解析
- 9.1.5 语音识别、语音合成模型对比与选择建议
- 9.2 Serverless API实现音频识别与语音合成
- 9.2.1 Serverless架构在音频处理中的应用
- 9.2.2 基于Whisper的音频识别API实现
- 9.2.3 基于ChatT TS、Fish Speech的语音合成API实现
- 9.3 视频生成模型解析与API实现
- 9.3.1 视频生成技术的发展与原理
- 9.3.2 Wan2.1-T2V模型解释
- 9.3.3 基于Wan2.1-T2V的视频生成API实现
- 9.4 音视频API的实际应用案例
- 9.4.1 基于录音+Whisper+GUI实现实时会议转录系统
- 9.4.2 基于Whisper+ChatT TS/Fish Speech实现多语言配音系统
- 9.4.3 基于Wan2.1-T2V实现节日祝福语视频生成器
- 9.5 本章小结
- 第10章 跨模态开发与应用集成实战
- 10.1 多模态大模型概述
- 10.1.1 多模态大模型定义和特点
- 10.1.2 多模态大模型的主要架构
- 10.1.3 主流多模态大模型对比
- 10.2 跨模态数据处理与融合技术
- 10.2.1 跨模态数据处理的关键技术
- 10.2.2 Python实现跨模态数据处理与融合
- 10.3 基于跨模态大模型的应用开发
- 10.3.1 跨模态应用场景分析
- 10.3.2 多模态RAG系统
- 10.3.3 应用开发实战案例
- 10.4 多模态大模型应用的挑战与展望
- 10.4.1 当前面临的挑战
- 10.4.2 未来发展趋势
- 10.4.3 实践建议
- 10.5 本章小结
- 附录A “兴智杯”全国人工智能创新应用大赛参赛报名及算力获取
- A1 获取和兑换“兴智杯”大赛算力券
- A1.1 “兴智杯”大赛简介
- A1.2 算力券的获取方式
- A1.3 算力券的兑换流程
- A2 “兴智杯”大赛使用算力券购买Serverless API
- A2.1 沐曦模型资源包介绍
- A2.2 购买沐曦模型资源包的详细步骤
- A2.3 查看购买记录和资源使用情况
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
