展开全部

主编推荐语

阿里巴巴集团荣耀背后的技术血泪史。

内容简介

全书通过分享业务运行过程中各个领域发生的典型“踩坑”案例,帮助大家快速提升自我及团队协作,学习到宝贵的处理经验及实践方案,为互联网生产系统的稳定共同努力。从基础架构、中间件、数据库、云计算、大数据等技术领域中不断积累经验,颠覆技术瓶颈,不断创新以适应不断增长的需求。 本书主要面向互联网技术从业人员和在校师生,使读者能够通过此书基本了解阿里在各技术领域的能力,学习在如此规模下可能出现的问题以及解决方案的探讨和沉淀分享。

目录

  • 版权信息
  • 内容简介
  • 本书编委会
  • 自序
  • 推荐序1
  • 一、做好顶层设计
  • 二、坚持技术创新
  • 三、组织管理创新
  • 推荐序2
  • 第1章 基础架构高可用
  • 1.1 明察秋毫,域名解析排查技巧
  • 背景
  • 域名解析的过程
  • 如何判断是否是解析异常
  • 解析异常的排查分析
  • 正常的迭代查询结果
  • 域名不存在或域名被Hold
  • 被阻断
  • 缓存DNS劫持
  • CNAME值无法解析
  • 部分解析异常
  • 更换DNS但尚未完全生效
  • resolv.conf配置不当
  • 小结
  • 1.2 智能定位,网络端到端静默丢包点迅速锁定
  • 背景
  • 异常表现
  • 原因分析
  • 故障发现
  • 故障定位和处理
  • 小结
  • 1.3 灵活调度,对接运营商网络流量的容灾策略
  • 引子
  • 背景
  • 原因分析
  • 业务自身调度
  • 阿里巴巴网络的区域出口容灾调度
  • 阿里巴巴网络的精细化容灾调度
  • 小结
  • 1.4 抽丝剥茧,深挖云盘挂起背后的真相
  • 引子
  • 背景
  • 原因定位
  • 细节分析
  • 解决方案
  • 短期方案
  • 长期方案
  • 小结
  • 1.5 存储的底线,SSD数据不一致
  • 背景
  • 问题排查
  • 深入分析
  • 相关知识点
  • 小结
  • 第2章 中间件使用常见隐患与预防
  • 2.1 高并发“热点”缓存数据快速“退火”
  • 背景
  • 缓存问题分析与解决过程
  • 预防“缓存被击穿”总结
  • 更多思考
  • 2.2 自我保护,让系统坚如磐石
  • 背景
  • VIPServer容灾体系
  • 导火索
  • 连锁反应
  • 细节分析
  • 解决方案
  • 小结
  • 2.3 机房容灾,VIPServer软负载流量调度实例
  • 引子
  • 背景
  • 硬负载与软负载
  • 接入层与软负载
  • 实战案例
  • 问题现象
  • 疑问:流量从哪里来的?
  • 排查调用发起方app-gateway-mgt
  • 设置机房归组
  • 小结
  • 2.4 山洪暴发,高流量触发Tomcat bug引起集群崩溃
  • 背景
  • NIO模式背景介绍
  • 一个典型的请求处理过程
  • 原因定位
  • 细节分析
  • 解决方案
  • 小结
  • 第3章 数据库常见问题
  • 3.1 性能杀手,SQL执行计划
  • 背景
  • 解决过程
  • 深入分析
  • 小结
  • 3.2 波谲云诡,数据库延迟
  • 背景
  • 问题分析
  • 日志分析
  • 抓包分析
  • 什么是DRC?
  • MySQL线程池
  • 小结
  • 3.3 风暴来袭,AliSQL连接池调优
  • 原因分析
  • 初步分析
  • 验证推理
  • 解决方案
  • 小结
  • 3.4 防患于未然,ORM规约变更案例
  • 背景
  • 问题排查过程
  • 解决过程及原因
  • 总结
  • 3.5 云数据库,SQL优化经典案例
  • 背景
  • 案例扩展
  • 索引篇
  • 隐式转换案例一
  • 隐式转换案例二
  • 隐式转换案例三
  • 两个索引的常见误区
  • 最佳实践
  • SQL改写篇
  • 参数优化篇
  • 优化器篇
  • 优化器参数
  • 统计信息
  • 小结
  • 第4章 业务研发经典案例
  • 4.1 幂等控制,分布式锁超时情况和业务重试的并发
  • 背景说明
  • 数据库记录分析
  • 过程逆推
  • 深入分析
  • 思考
  • 方案一:调整超时时间
  • 方案二:增加幂等控制(推荐)
  • 小结
  • 4.2 另类解法,分布式一致性
  • 背景
  • 问题原因及分析
  • 解决过程
  • 小结
  • 4.3 大道至简,从故障模型的边界状态切换到原始状态
  • 背景
  • 调查
  • 讨论&解决
  • 小结
  • 4.4 疑案追踪,JSON序列化不一致
  • 背景
  • 原因定位
  • 细节分析
  • 解决方案
  • 小结
  • 4.5 从现象到本质,不保证顺序的Class.getMethodsJVM实现
  • 背景
  • 解决方案
  • JVM里为什么不保证顺序
  • JVM为什么要对方法排序
  • 小结
  • 4.6 破解超时迷局,浅析启动初期load飙高问题
  • 背景
  • 原因定位
  • 细节分析
  • 解决方案思考
  • 具体实施方案
  • 小结
  • 4.7 洞悉千丝万缕,浅谈JIT编译优化的误区
  • 背景
  • 原因定位
  • 详细分析
  • 解决方案
  • 小结
  • 第5章 运行管理域稳定性建设
  • 5.1 洞若观火,让故障无处遁形
  • 背景
  • 阿里应急体系
  • 故障发现
  • 业务监控
  • 故障发现渠道
  • 应急响应
  • 响应优先级划分
  • CMDB建设及运营
  • 应急响应流程线上化
  • 快速恢复
  • 故障复盘及改进
  • 故障复盘
  • 故障防范
  • 小结
  • 5.2 体系化思考,高效解决运营商问题
  • 背景
  • 问题现象
  • 问题剖析
  • 解决方案
  • 小结
  • 5.3 以战养兵,以故障演练提升系统稳定性
  • 背景
  • 一次生产环境故障复现的案例
  • 故障画像分析和演练模型设计
  • 故障演练的一些实践
  • 小结
展开全部

评分及书评

评分不足
2个评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。