南京北大青鸟

南京北大青鸟电话

南京北大青鸟学校南京北大青鸟 > 新闻中心 >

盘点史上八大MySQL事故-我们从中学到什么经验

发布时间:2019-09-25 14:06  发布人:南京北大青鸟  发布来源:南京北大青鸟  浏览人数:180

前言:中博君导读: 本文列举了史上八大MySQL宕机事件原因、影响以及人们从中学到的经验,文中用地震级数来类比宕机事件的严重性和后果,排在严重层级前两位的是由于亚马逊AWS宕机故

中博君导读:

  本文列举了史上八大MySQL宕机事件原因、影响以及人们从中学到的经验,文中用地震级数来类比宕机事件的严重性和后果,排在严重层级前两位的是由于亚马逊AWS宕机故障(相当于地震十级和九级)。中博君建议学子们都了解这些MySQL事故,包括事故产生的影响以及事故后的解决方案。

一、Percona网站宕机事件

  震级:3

  发生时长:2011年7月11日

  持续时长:数日

  地点:加州Pleasanton(幸福屯)

  宕机原因:Percona网站主服务器上的3块硬盘损坏,同时因为人员变更,导致未能如预期地恢复,多个网站资产因此下线数小时到数天不等,影响其软件下载及交易。

  经验:备份不一定永远正常,不应该对其抱有过多期待。

二、GitHub服务中断

  震级:4

  发生时间:2012年9月10-11日

  持续时长:1:46小时

  地点:加州圣弗朗西斯科

  宕机原因:GitHub将一对古老的、基于DRBD的MySQL服务器替换成一个拥有3个节点的集群。在合并到新系统时,“活动的”数据库自动出现了多个故障转移(failover),同时又因为集群管理软件的错误操作导致性能下降,终造成网站宕机。

  经验:GitHub修改了Pacemaker配置来保证故障转移仅仅可以被运维人员控制。

三、Journal Space所有数据丢失及网站关闭

  震级:5

  发生时间:2009年1月5日

  持续时长:无限期

  宕机原因:Journal Space是一个拥有6年历史的博客平台,基于MySQL开发,其唯一的数据库备份机器由RAID系统维护。终网站的数据因前员工的报复行为被重写,终导致所有用户数据丢失以及网站关闭。

  经验:永远不要把驱动器镜像当做备份——它能防范物理故障带来的问题,但是不提供时间点恢复功能。

四、PHPFog共享数据库运行中断

  震级:6

  发生时间:2012年10月8日

  持续时长:8小时

  地点:俄勒冈州波特兰

  宕机原因:PHPFog将用户数据合并到一个新的共享数据库服务上,但是在合并过程中遭受过多的堆叠连接,终共享数据库停止响应,因此在共享数据库从快照中恢复前一直处于服务不稳定状态。从问题发生到解决一共历时8小时。

  经验:这一事件后,PHPFog加速Amazon RDS用户迁移活动。

五、Couch Surfing因MySQL数据库故障导致服务关闭

  震级:7

  发生时间:2006年6月

  地点:加州圣弗朗西斯科

  持续时长:1个月

  宕机原因:流行社交网站Couch Surfing曾拥有90000名用户,在2006年遭遇了一场严重的硬盘问题,在试图恢复数据时发现数据库增值备份遭遇问题。其MySQL数据库以及应用关键部分丢失,因此创始人终关闭了这项服务,随后用户社区又将它重启。

  经验:任何MySQL系统必须有一个以上备份服务器;每天都必须验证MySQL备份进程。

六、magnolia因丢失主数据库和备份导致终无法完全恢复

  震级:7

  发生时间:2009年1月30日

  地点:加州圣弗朗西斯科

  持续时长:无限期

  宕机原因:Magnolia和Delicious一样,是一个流行的书签服务,基于MySQL数据库。该服务在由于硬盘损坏以及备份系统的错误,丢失了主数据库和备份,终无法完全恢复。

  经验:确保硬件的可靠性非常重要;备份系统是否可行必须得到充分的验证。

七、Amazon RDS宕机事件

  震级:9

  发生时间:2012年6月29日

  持续时长:3小时

  地点:弗吉尼亚州北部

  用户影响:亚马逊EC2云计算服务以及包括Netflix公司、Heroku、Pinterest、 Quora、HootSuite和Instagram等。

  宕机原因:一个被称为derecho的强雷暴天气系统通过弗吉尼亚州北部,使得亚马逊在该地区的设施失去了动力,发电机不能正常运行,消耗应急电源的不间断电源(电源)系统,从而导致运行在Amazon RDS上的大概上千个MySQL数据库宕机。

  经验:扩大7X24小时工程师支持团队规模,发生电源系统故障、UPS启动之前完全支持手动操作开启发电机开关。

八、Amazon RDS宕机事件

  震级:10

  发生时间:2011年4月21日

  持续时长:48小时

  地点:弗吉尼亚州北部

  用户影响:导致使用AWS平台的Reddit、Foursquare、Hootsuite、Quora以及其他多家社交网络服务商成为“受害者” 。

  宕机原因:亚马逊修改网络设置,同时在对主网络升级扩容过程中,工程师不慎将主网数据全部切换到从网,由于从网带宽较小,而它的设计目的并非用于主网容灾或备份,因此导致网络堵塞,所有EBS(Elastic Block Store)节点通信全部中断,导致存储着数据和日志的MySQL数据库宕机,其中运行在一个可用区域里41%的MySQL数据库宕机24小时,14.6%宕机48小时。

  经验:亚马逊重新审计了网络设置修改流程、增强自动化运维手段以及容灾架构设计。

版权声明:本文盘点史上八大MySQL事故-我们从中学到什么经验: http://www.nj-test.com/news/301.html 禁止一切方式转载、抄袭!

更多人关注:

「大数据培训」在南京北大青鸟学完大数     在信息社会,IT行业中的高薪岗位还是比较多的,特别...
北大青鸟招生热门课程有哪些?发展前景好 北大青鸟招生热门课程有哪些?发展前景好不好?动漫类、影视类...
「软件开发工程师」怎么样才能成为优秀   现在很多的企业都需要软件开发工程师,所以这一岗位也成...
初中生年龄小适合学习java培训吗 现在的大学生已经从稀缺资源变成常规资源了,大学生因为缺乏...

抢免费试听名额

名额仅剩66名

教育改变生活

WE CHANGE LIVES

南京总校区:南京市雨花台区小行路16号,江苏警官学院内
文鼎分校区:
徐州分校区:徐州市解放南路181号(六中斜对面 )
矿大分校区:徐州市解放南路中国矿业大学(文昌校区西校区)
安徽分校区:合肥市包河区金中环广场B座15楼

© CopyRight南京中博职业技能培训学校2018      苏ICP备2023001897号