展开全部

主编推荐语

资深云计算专家十余年经验结晶,全方位介绍大规模分布式系统的设计和运营。

内容简介

本书分为两个部分——设计和运营。

第一部分捕捉我们在大规模、复杂、基于云的分布式计算系统设计上的想法。在引言之后,我们从底向上逐层介绍设计的每个要素。我们从系统管理员(而非计算机科学家)的角度介绍分布式系统,要运营一个系统就必须理解其内部原理。

第二部分描述如何运营这些系统。前面几章介绍最基本的问题。后面几章深入更为复杂的技术活动,然后是概要规划和将以上要素组合起来的战略。

目录

  • 版权信息
  • 译者序
  • 前言
  • 作者简介
  • 引言
  • 第一部分 设计:构建系统
  • 第1章 分布式世界中的设计
  • 1.1 大规模的可见性
  • 1.2 简单的重要性
  • 1.3 构成
  • 1.4 分布状态
  • 1.5 CAP原则
  • 1.6 松散耦合系统
  • 1.7 速度
  • 1.8 小结
  • 练习
  • 第2章 为运营而设计
  • 2.1 运营需求
  • 2.2 为运营实现设计
  • 2.3 改善模型
  • 2.4 小结
  • 练习
  • 第3章 选择服务平台
  • 3.1 服务抽象水平
  • 3.2 机器的类型
  • 3.3 资源共享水平
  • 3.4 主机托管
  • 3.5 选择策略
  • 3.6 小结
  • 练习
  • 第4章 应用程序架构
  • 4.1 单机Web服务器
  • 4.2 三层Web服务
  • 4.3 四层Web服务
  • 4.4 反向代理服务
  • 4.5 云规模服务
  • 4.6 消息总线架构
  • 4.7 面向服务的架构
  • 4.8 小结
  • 练习
  • 第5章 伸缩性设计模式
  • 5.1 总体战略
  • 5.2 纵向扩展
  • 5.3 AKF伸缩立方体
  • 5.4 缓存
  • 5.5 数据分片
  • 5.6 线程处理
  • 5.7 队列
  • 5.8 内容分发网络
  • 5.9 小结
  • 练习
  • 第6章 弹性设计模式
  • 6.1 软件弹性胜过硬件可靠性
  • 6.2 所有东西最终都会失灵
  • 6.3 通过备用容量实现弹性
  • 6.4 故障域
  • 6.5 软件故障
  • 6.6 物理故障
  • 6.7 超载故障
  • 6.8 人为错误
  • 6.9 小结
  • 练习
  • 第二部分 运营:运行系统
  • 第7章 分布式世界中的运营
  • 7.1 分布式系统运营
  • 7.2 服务生命周期
  • 7.3 运营团队组织策略
  • 7.4 虚拟办公室
  • 7.5 小结
  • 练习
  • 第8章 DevOps文化
  • 8.1 什么是DevOps
  • 8.2 DevOps的3条道路
  • 8.3 DevOps的历史
  • 8.4 DevOps价值观和原则
  • 8.5 向DevOps转化
  • 8.6 敏捷和持续交付
  • 8.7 小结
  • 练习
  • 第9章 服务交付:构建阶段
  • 9.1 服务交付策略
  • 9.2 高质量的良性循环
  • 9.3 构建阶段的步骤
  • 9.4 构建控制台
  • 9.5 持续集成
  • 9.6 以软件包作为移交接口
  • 9.7 小结
  • 练习
  • 第10章 服务交付:部署阶段
  • 10.1 部署阶段的步骤
  • 10.2 测试和批准
  • 10.3 运营控制台
  • 10.4 基础设施自动化策略
  • 10.5 持续交付
  • 10.6 基础设施即代码
  • 10.7 其他平台服务
  • 10.8 小结
  • 练习
  • 第11章 升级运行中的服务
  • 11.1 卸下服务进行升级
  • 11.2 滚动升级
  • 11.3 “金丝雀”
  • 11.4 分阶段试运行
  • 11.5 按比例分片
  • 11.6 蓝-绿部署
  • 11.7 功能切换
  • 11.8 在线模式更改
  • 11.9 在线代码更改
  • 11.10 持续部署
  • 11.11 处理失败的代码推送
  • 11.12 发行原子性
  • 11.13 小结
  • 练习
  • 第12章 自动化
  • 12.1 自动化方法
  • 12.2 工具建设与自动化的对比
  • 12.3 自动化的目标
  • 12.4 创建自动化系统
  • 12.5 如何自动化
  • 12.6 语言工具
  • 12.7 软件工程工具和技术
  • 12.8 多租户系统
  • 12.9 小结
  • 练习
  • 第13章 设计文档
  • 13.1 设计文档概述
  • 13.2 设计文档剖析
  • 13.3 模板
  • 13.4 文档存档
  • 13.5 审核工作流程
  • 13.6 采用设计文档
  • 13.7 小结
  • 练习
  • 第14章 随时待命
  • 14.1 设计值班
  • 14.2 当值
  • 14.3 两次当值之间
  • 14.4 警报的定期审核
  • 14.5 收到太多传呼
  • 14.6 小结
  • 练习
  • 第15章 灾难准备
  • 15.1 心态
  • 15.2 个人培训:灾祸之轮
  • 15.3 团队培训:应急演练
  • 15.4 组织培训:游戏日/DiRT
  • 15.5 事故指挥系统
  • 15.6 小结
  • 练习
  • 第16章 监控基础知识
  • 16.1 概述
  • 16.2 监控信息的消费者
  • 16.3 监控的内容
  • 16.4 留存期
  • 16.5 元监控
  • 16.6 日志
  • 16.7 小结
  • 练习
  • 第17章 监控架构与实践
  • 17.1 传感与计量
  • 17.2 收集
  • 17.3 分析和计算
  • 17.4 警报和升级管理器
  • 17.5 可视化
  • 17.6 存储
  • 17.7 配置
  • 17.8 小结
  • 练习
  • 第18章 容量规划
  • 18.1 标准容量规划
  • 18.2 高级容量规划
  • 18.3 资源回归
  • 18.4 发布新服务
  • 18.5 缩短配给时间
  • 18.6 小结
  • 练习
  • 第19章 建立KPI
  • 19.1 什么是KPI
  • 19.2 创建KPI
  • 19.3 KPI示例:机器分配
  • 19.4 案例研究:错误预算
  • 19.5 小结
  • 练习
  • 第20章 卓越运营
  • 20.1 卓越运营是什么样子的
  • 20.2 如何计量卓越的程度
  • 20.3 评估方法论
  • 20.4 服务评估
  • 20.5 组织评估
  • 20.6 提高级别
  • 20.7 开始着手
  • 20.8 小结
  • 练习
  • 第三部分 附录
  • 附录A 评估
  • 附录B 分布式计算和云的起源及未来
  • 附录C 伸缩性术语和概念
  • 附录D 模板和示例
  • 附录E 推荐读物
  • 后记
  • 参考文献
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    5.0

    本书是几位供职于全球最大规模技术公司的专家的力作,全方位地介绍了大规模分布式系统的设计和运营,内容十分充实,不仅介绍了有关分布式系统架构、应用和设计原则的理论知识,更有 GoogleFacebook 等公司的成功案例分析,在附录中还介绍了分布式系统的由来以及成熟度模型、设计文档等模板。

      转发
      评论
      用户头像
      给这本书评了
      5.0
      这是一个起点

      写给运维团队的实践指导和建议,团队中的其他角色读完也能受益颇丰。给我的启发里,有一条是帮助我更多地关注软件部署和运营中可能存在的问题,结合自己的实际工作,对软件工程的整体实施理解更全更广,我们设计、开发、测试、部署、运营,其实终极目的在最后的运营,如果每一个阶段都朝着最后的目标努力,那真的会高效而美好。

        转发
        评论

      出版方

      机械工业出版社有限公司

      机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。