展开全部

主编推荐语

运维圣经,来自谷歌的完整站点可靠性工程解决方案。

内容简介

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。

本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。

本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

目录

  • 版权信息
  • 内容简介
  • 推荐序1
  • 推荐序2
  • 推荐序3
  • 关于作者
  • 作者致谢
  • 关于审查者
  • 前言
  • 这本书适合谁
  • 这本书涵盖了哪些内容
  • 本书配套资源
  • 本书使用的约定
  • 1 简介
  • SRE简史
  • SRE是什么
  • 关于这本书
  • 以SRE作为新项目的框架
  • 小结
  • 2 监控
  • 为什么要监控
  • 检测应用程序
  • 度量什么
  • SLI、SLO和错误预算简介
  • 错误预算
  • 收集和保存监控数据
  • 轮询应用程序
  • 推送应用程序
  • 展示监控信息
  • 任意查询
  • 图表
  • 仪表板
  • 聊天机器人
  • 管理和维护监控数据
  • 沟通
  • 他们知道有监控吗
  • 小结
  • 参考资料
  • 3 事敀响应
  • 什么是事故
  • 什么是事故响应
  • 警报
  • 什么时候发起警报
  • 怎么发出警报
  • 向谁发出警报
  • 随时待命
  • 沟通
  • 事故指挥系统
  • 在哪里沟通
  • 恢复系统
  • 警报解除
  • 小结
  • 4 事后回顾
  • 什么是事后回顾
  • 为什么写事后回顾报告
  • 何时写事后回顾报告
  • 开展事故分析
  • 如何写事后回顾报告
  • 总结
  • 影响
  • 时间
  • 根本原因
  • 行动项
  • 附录
  • 停止事后指责
  • 举行事后回顾会议
  • 分析以往的事后回顾报告
  • MTTR与MTBF
  • 警报疲劳
  • 讨论过去的服务中断
  • 小结
  • 参考资料
  • 5 测试和収布
  • 测试
  • 测试内容
  • 发布
  • 何时发布
  • 回滚
  • 自动化
  • 持续
  • 小结
  • 6 容量规划
  • 企业财务简介
  • 为什么需要规划
  • 风险管理与期望管理
  • 定义一个规划
  • 当前的容量是多少
  • 何时达到容量极限
  • 应该如何更改容量
  • 执行规划
  • 架构——性能变化的根源
  • 技术作为利润中心和采购
  • 小结
  • 7 构建工具
  • 寻找项目
  • 定义项目
  • RDD
  • 设计文档
  • 项目计划
  • 例子
  • 回顾会与站会
  • 工作分配
  • 构建项目
  • 关于编写代码的建议
  • 关注点分离
  • 长期工作
  • 笔记本
  • 文档与维护项目
  • 小结
  • 8 用户体验
  • 设计和用户体验简介
  • 现实世界的交互设计
  • 用户测试
  • 挑选一种体验
  • 设计测试
  • 寻找要测试的人
  • 开发者体验
  • 工具经验
  • 绩效预算
  • 安全性
  • 身份认证
  • 授权
  • 风险概况
  • 网络钓鱼
  • ACM道德准则
  • 小结
  • 参考资料
  • 9 网络基础
  • 互联网
  • 发送一个HTTP请求
  • DNS
  • 以太网和TCP/IP
  • HTTP
  • curl与wget
  • 网络监控工具
  • netstat
  • nc
  • tcpdump
  • 小结
  • 参考资料
  • 10 Linux和云基础
  • Linux基础
  • 一切皆是文件
  • 进程是什么
  • syscalls
  • 构建自己的工具
  • 云基础
  • 虚拟机
  • 容器
  • 负载均衡
  • 自动伸缩
  • 存储
  • 队列与发布/订阅
  • 伸缩单元
  • 架构面试示例
  • 小结
  • 参考资料
展开全部

评分及书评

4.3
3个评分
  • 用户头像
    给这本书评了
    5.0

    站点可靠性工程(Site Reliability Engineering,简称 SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于 SRE 的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。

      转发
      评论
      用户头像
      给这本书评了
      5.0
      SRE入门必读经典

      类似 DevOpsSRE 是一种实践方案,更是一种生存之道,中文译名《生存指南》很是切中概要。较为适合初入运维 / 软件工程领域的同学,补充了《SRE 运维解密》中缺少的基础部分的指引。对有一定功力 / 积累的同学来着,本书明线讲述的技术深度、方法框架较为 “浅显、简单”,但暗线 - 围绕 “可靠性层次” 金字塔展开的工程设计思路,才是最为宝贵的收获。本书章节框架围绕 Mikey Dickerson 的 “可靠性层次” 金字塔展开讲解。可按序逐章阅读,也可跳跃到指定层次乱序阅读。软件工程越来越复杂的当下,团队工程能力成熟度才是 IT 组织的核心竞争力。简单留给用户,复杂留给代码,最后,开卷有益!

        转发
        评论

      出版方

      电子工业出版社

      电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。