展开全部

主编推荐语

本书聚焦AIGC与智能体编程开发实战,围绕开源大模型与API调用展开。

内容简介

本书分为10章,从基础理论到实际开发,全面讲解基于开源大模型与Serverless API的智能应用开发。

第1~3章介绍Serverless API、大模型应用架构和开发环境搭建;第4~6章以流行的开源模型(如DeepSeek、Stable Diffusion、Whisper 等)为基础,逐步指导读者掌握文本生成、图像生成、语音处理的API开发技能;第7、8章深入多模态应用开发,如视频生成与跨模态交互;第9、10章讲述AI Agent、检索增强生成(RAG)与微调技术的高阶实践,以及企业案例与未来趋势。

目录

  • 版权信息
  • 内容提要
  • 推荐序一
  • 推荐序二
  • 前言 驾驭开源力量,重塑智能版图
  • 资源与支持
  • 第1章 快速入门AIGC与Serverless API开发
  • 1.1 AIGC演进与开源大模型生态
  • 1.1.1 AIGC:智能时代的内容生产革命
  • 1.1.2 AIGC的发展历程
  • 1.1.3 AIGC/UGC/PGC三类常见内容生成对比分析
  • 1.1.4 主流AIGC技术类别与典型大模型简介
  • 1.1.5 部署开源大模型及输出API对开发者的意义
  • 1.2 Serverless API和OpenAI兼容API的概念
  • 1.2.1 Serverless的定义与特征剖析
  • 1.2.2 Serverless API与传统架构的对比分析
  • 1.2.3 OpenAI兼容API的定义与核心要素
  • 1.2.4 OpenAI兼容API的典型落地路径
  • 1.3 开源大模型与Serverless API架构融合的实际意义
  • 1.3.1 Serverless API架构解决开源大模型部署难题
  • 1.3.2 开源生态与Serverless API的协同效应
  • 1.3.3 国内外主流开源大模型Token/API服务平台
  • 1.4 基于API调用开发在大模型编程开发中的层级
  • 1.4.1 大模型应用开发的层次架构
  • 1.4.2 API层级调用架构在应用开发场景中的对比图示
  • 1.4.3 API调用开发的平台和入口
  • 1.5 本章小结
  • 第2章 快速理解AIGC与API开发的基础技术栈
  • 2.1 快速入门HTTP协议中的RESTful API
  • 2.1.1 RESTful API和CRUD(增删改查)的对应关系
  • 2.1.2 HTTP requests库和兼容OpenAI SDK调用方式对比
  • 2.2 标准化的API调用流程以及简单错误快速处理
  • 2.2.1 API调用的基础规范与流程
  • 2.2.2 API调用简单代码示例
  • 2.2.3 常见API错误与快速排错技巧
  • 2.3 常见AIGC API的调用参数讲解
  • 2.3.1 API调用请求常用参数快速解析
  • 2.3.2 常见API响应数据基础字段介绍
  • 2.4 AI辅助开发工具与平台快速认知
  • 2.4.1 AI辅助开发工具和平台的作用
  • 2.4.2 AI辅助编码类工具
  • 2.4.3 AI辅助平台类工具
  • 2.5 本章小结
  • 第3章 初步设置和使用API之实战入门
  • 3.1 注册与登录以及如何获得API Key
  • 3.1.1 Gitee AI平台介绍
  • 3.1.2 注册Gitee AI账号
  • 3.1.3 创建API密钥
  • 3.1.4 使用API密钥获取Token
  • 3.2 开始使用Serverless API
  • 3.2.1 选择模型和创建访问令牌
  • 3.2.2 测试模型API
  • 3.2.3 查看API文档和示例代码
  • 3.2.4 cURL命令行工具的常见用法举例
  • 3.3 常见问题与解决方案
  • 3.3.1 账号和访问问题
  • 3.3.2 算力券和资源包问题
  • 3.4 本章小结
  • 第4章 基于Serverless API实现大模型编程初步
  • 4.1 目标:调用模型接口,得到返回的交互结果
  • 4.2 步骤:配置环境、安装库与获取API Key
  • 4.2.1 创建项目并安装依赖
  • 4.2.2 获取Gitee Serverless API的API Key
  • 4.2.3 API Key的3种管理方式
  • 4.3 过程:核心代码(包括错误示例)详解
  • 4.4 成功:正确示例及代码演示
  • 4.5 改进:生成中文响应结果
  • 4.6 精进:简练中文回馈内容
  • 4.7 本章小结
  • 第5章 多种模态API原子能力初级实战
  • 5.1 开发环境配置与依赖库安装
  • 5.1.1 Python环境配置
  • 5.1.2 安装必要的依赖库
  • 5.1.3 配置API访问凭证
  • 5.2 实现Instruct与Chat的文本生成Hello World
  • 5.2.1 Instruct模型与Chat模型的区别
  • 5.2.2 使用Instruct模型生成Hello World
  • 5.2.3 使用Chat模型生成Hello World
  • 5.2.4 Instruct与Chat模型的选择建议
  • 5.3 实现Stable Diffusion的文生图Hello World
  • 5.3.1 Gitee AI平台的Stable Diffusion模型简介
  • 5.3.2 配置Stable Diffusion API
  • 5.3.3 使用Stable Diffusion生成第一张图像
  • 5.3.4 调整生成参数提升图像质量
  • 5.4 实现Whisper的语音识别Hello World
  • 5.4.1 Gitee AI平台的Whisper模型简介
  • 5.4.2 配置语音识别API
  • 5.4.3 使用Gitee AI平台的Whisper API进行语音识别
  • 5.4.4 使用本地音频文件进行语音识别
  • 5.4.5 实时语音识别
  • 5.5 本章小结
  • 第6章 多种模态API调用及编排进阶实战
  • 6.1 实现DeepSeek+Stable Diffusion的图像生成优化
  • 6.1.1 DeepSeek模型优化机制
  • 6.1.2 API编排实现协同AIGC图像生成
  • 6.1.3 参数优化与问题排查
  • 6.2 实现Wan2.1-T2V的文生视频
  • 6.2.1 视频生成模型简介
  • 6.2.2 使用Wan2.1-T2V生成视频
  • 6.2.3 视频生成参数调优
  • 6.3 实现Hunyuan3D-2的图生3D
  • 6.3.1 Hunyuan 3D生成模型简介
  • 6.3.2 使用Hunyuan3D-2生成3D模型
  • 6.3.3 使用Open3D查看和处理3D模型
  • 6.4 API调用常见错误与调试进阶
  • 6.4.1 常见错误类型
  • 6.4.2 API调用调试技巧
  • 6.4.3 实现请求重试和错误处理
  • 6.4.4 API调用性能优化
  • 6.5 本章小结
  • 第7章 辅助生成代码、打造多种形态及践行Vibe Coding
  • 7.1 主流开源代码辅助生成大模型
  • 7.1.1 回顾开源大语言模型的发展与意义
  • 7.1.2 DeepSeek-V3/R1模型回顾
  • 7.1.3 CodeGeeX模型详解
  • 7.1.4 新一代开源Coder与数学/证明模型的发展
  • 7.1.5 模型性能对比与选择建议
  • 7.2 用文本/代码生成大模型API构建不同生成形态的工具
  • 7.2.1 文本/代码生成工具的基本架构
  • 7.2.2 智能对话工具的实现(命令行)
  • 7.2.3 文本摘要工具的实现(Web网页端)
  • 7.2.4 文本续写工具的实现(API)
  • 7.3 AI代码辅助工具实战
  • 7.3.1 AI代码辅助工具概述
  • 7.3.2 GitHub Copilot使用实战
  • 7.3.3 Cline AI代码助手使用实战
  • 7.3.4 Trae AI代码助手使用实战
  • 7.3.5 Cursor编译器使用实战
  • 7.3.6 通义灵码代码助手使用实战
  • 7.4 AI Coding中VSCode+Cline+Gitee.AI的配置与实践
  • 7.4.1 VSCode中AI编程助手的选择
  • 7.4.2 VSCode中配置Cline第三方API的详细步骤
  • 7.4.3 实用VSCode扩展组合推荐
  • 7.4.4 常见问题与解决方案
  • 7.5 如何提升AI代码生成的质量
  • 7.5.1 面向代码生成的提示词工程技巧
  • 7.5.2 行业案例分析
  • 7.6 本章小结
  • 第8章 图像生成与视觉识别API开发进阶实战
  • 8.1 图像生成、图像识别、图像理解、图像处理技术简介
  • 8.1.1 图像生成技术简介
  • 8.1.2 图像识别技术简介
  • 8.1.3 图像描述/理解和视觉问答技术简介
  • 8.1.4 图像增强及图像超分技术简介
  • 8.2 基于Gitee平台的Serverless API实现图片生成及风格迁移
  • 8.2.1 Serverless架构在图像处理中的应用
  • 8.2.2 基于Gitee平台Stable Diffusion的图像生成API实现
  • 8.2.3 Kolors中文图像生成API实现
  • 8.2.4 基于Kolors的图像风格迁移API实现
  • 8.3 通过图像识别和图像理解技术构建应用
  • 8.3.1 InternVL图像理解
  • 8.3.2 3个AI 1.0时代的图像识别开源项目
  • 8.4 Real-ESRGAN图像超分模型与传统PIL构建应用
  • 8.4.1 两者在实现和解决问题上的差别和关系
  • 8.4.2 用Real-ESRGAN大模型实现超分的应用
  • 8.4.3 传统基于PIL实现的图像处理开源项目
  • 8.5 本章小结
  • 第9章 音频处理与视频生成API进阶开发实战
  • 9.1 音频识别模型和语音合成模型解析
  • 9.1.1 音频识别技术的发展与原理
  • 9.1.2 Whisper语音识别模型解析
  • 9.1.3 Fish Speech语音合成模型解析
  • 9.1.4 ChatT TS语音合成模型解析
  • 9.1.5 语音识别、语音合成模型对比与选择建议
  • 9.2 Serverless API实现音频识别与语音合成
  • 9.2.1 Serverless架构在音频处理中的应用
  • 9.2.2 基于Whisper的音频识别API实现
  • 9.2.3 基于ChatT TS、Fish Speech的语音合成API实现
  • 9.3 视频生成模型解析与API实现
  • 9.3.1 视频生成技术的发展与原理
  • 9.3.2 Wan2.1-T2V模型解释
  • 9.3.3 基于Wan2.1-T2V的视频生成API实现
  • 9.4 音视频API的实际应用案例
  • 9.4.1 基于录音+Whisper+GUI实现实时会议转录系统
  • 9.4.2 基于Whisper+ChatT TS/Fish Speech实现多语言配音系统
  • 9.4.3 基于Wan2.1-T2V实现节日祝福语视频生成器
  • 9.5 本章小结
  • 第10章 跨模态开发与应用集成实战
  • 10.1 多模态大模型概述
  • 10.1.1 多模态大模型定义和特点
  • 10.1.2 多模态大模型的主要架构
  • 10.1.3 主流多模态大模型对比
  • 10.2 跨模态数据处理与融合技术
  • 10.2.1 跨模态数据处理的关键技术
  • 10.2.2 Python实现跨模态数据处理与融合
  • 10.3 基于跨模态大模型的应用开发
  • 10.3.1 跨模态应用场景分析
  • 10.3.2 多模态RAG系统
  • 10.3.3 应用开发实战案例
  • 10.4 多模态大模型应用的挑战与展望
  • 10.4.1 当前面临的挑战
  • 10.4.2 未来发展趋势
  • 10.4.3 实践建议
  • 10.5 本章小结
  • 附录A “兴智杯”全国人工智能创新应用大赛参赛报名及算力获取
  • A1 获取和兑换“兴智杯”大赛算力券
  • A1.1 “兴智杯”大赛简介
  • A1.2 算力券的获取方式
  • A1.3 算力券的兑换流程
  • A2 “兴智杯”大赛使用算力券购买Serverless API
  • A2.1 沐曦模型资源包介绍
  • A2.2 购买沐曦模型资源包的详细步骤
  • A2.3 查看购买记录和资源使用情况
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。