导读:网络安全提供商 CrowdStrike 的错误更新是造成全球性中断的原因,微软无辜被躺枪。
今天,数以千计的 Windows 机器在启动时遇到蓝屏死机 (BSOD) 问题,影响了全球的银行、航空公司、电视台、超市和许多其他企业。
有确定的消息是网络安全提供商 CrowdStrike 的一次错误更新导致受影响的 PC 和服务器离线,迫使它们进入恢复启动循环,因此机器无法正常启动。
这家 CrowdStrike 公司是被全球许多企业广泛用于管理 Windows PC 和服务器的安全巨头。
随着数千台机器开始离线,澳大利亚的银行、航空公司和电视广播公司率先发出警报。在欧洲企业刚刚开始上班的时候,问题便迅速蔓延开来。
天空新闻网 Sky News 今天早上数小时无法播放早间新闻简报,并显示一条消息,对“此次广播中断”表示道歉。欧洲最大的航空公司之一瑞安航空也表示,它遇到了“第三方”的 IT 问题,影响了航班起飞。
美国联邦航空管理局 (FAA) 表示,由于通讯问题,该局正在协助达美航空、联合航空和美国航空等航空公司。FAA 的发言人 Jeannie Shiffer 表示:“FAA 正在密切关注影响美国航空公司 IT 系统的技术问题。”“几家航空公司已请求 FAA 协助其机队停飞,直至问题得到解决。”
德国柏林机场还警告称,由于“技术问题”,航班可能会延误。美国阿拉斯加的许多 911 紧急呼叫中心也受到了这些问题的影响。由于出现故障,印度一家航空公司甚至开始使用手写登机牌。
CrowdStrike 的首席执行官乔治·库尔茨 (George Kurtz) 在X 平台上表示:“CrowdStrike 正在积极与受 Windows 主机单个内容更新中发现的缺陷影响的客户合作。Mac 和 Linux 服务器不受影响。这并不是安全事件或网络攻击。”
CrowdStrike 表示,问题已经确定,并已经部署好修复程序,但修复这些机器对 IT 管理员来说并不简单。原因大概是属于是 CrowdStrike 用于保护 Windows 机器的内核级驱动程序更新。
在 Reddit 上,数百名 IT 管理员报告了普遍存在的问题,解决方法包括将受影响的 Windows 计算机启动到安全模式,然后导航到 CrowdStrike 目录并删除系统文件。这对于某些基于云的服务器,甚至对于远程部署和使用的 Windows 笔记本电脑来说会很麻烦。
一位用户发帖说:“我们整个公司都离线了”,而另一位发帖者说他们 70% 的笔记本都坏掉了,卡在循环启动中。一位发帖者不无调侃说:“星期五快乐!”看来,对于全球 IT 管理员来说,这将是漫长的一天。
在另一起中断事件中,微软还在从其 Microsoft 365 应用和服务的几个问题中恢复。这些问题的根本原因是“我们 Azure 后端工作负载的一部分配置发生了变化”。
美国联邦航空管理局 (FAA) 已下令停飞大部分航空公司,直至另行通知。其中包括联合航空、达美航空和美国航空,而英国人首选的廉价航空公司瑞安航空也遭遇了停飞。
瑞安航空的一份声明称:“受影响的乘客将收到通知,7 月 19 日星期五乘坐该航班的乘客应查看瑞安航空应用程序,了解航班的最新动态。我们建议乘客提前 3 小时到达机场,以避免任何干扰。”
“我们对该第三方 IT 问题给乘客带来的不便深表歉意,该问题超出了瑞安航空的控制范围,并且影响了整个网络运营的所有航空公司。”
从地区来看,爱丁堡机场的候机时间因 CrowdStrike 事件而延长,有更多报道称整个机场的出发公告板都瘫痪了。柏林机场的登机服务也受到了影响。
其他已确认受到影响的机场包括:希思罗机场、盖特威克机场、曼彻斯特机场、斯坦斯特德机场、卢顿机场、西班牙各地的机场以及瑞士国际空港。
医疗服务也受重大影响
英国的医疗服务在最近几周已经受到足够的打击。而今天早上,某位知名人士个人写信给英国广播公司第四电台的《今日》节目,称他们无法在当地全科医生 (GP) 办公室预约医生。
位于伦敦西部的普特尼米德全科医生诊所已更新网站,称其核心医疗管理系统受到影响,在线请求受到限制。而且电话线路也暂时中断,但诊所仍在正常营业。
美国国家医疗服务体系 (NHS) 在一份声明中解释说,IT 问题已经影响到全国各地诊所使用的 EMIS 系统。
“NHS 意识到全球 IT 中断和 EMIS(预约和患者记录系统)存在问题,这导致大多数全科医生的诊疗工作中断,”它表示。
“NHS 长期以来一直采取措施应对这种干扰,包括使用纸质病历和手写处方,以及使用常规电话系统联系全科医生。
“目前尚未发现对 999 或紧急服务造成影响,因此人们应该像往常一样使用这些服务。
“除非另有指示,否则患者应按时就诊。只有在紧急情况下才联系您的全科医生,否则请在线拨打 111 或拨打 111。”
火车高铁线路出现故障
说到关键性服务,在英国的多条火车线路都出现了中断,尤其是由英国最大的铁路特许经营公司 Govia Thameslink 运营的线路,该公司运营泰晤士河线、南线、盖特威克快线和大北线。
该公司的一位发言人表示:“我们为今天早上乘客遇到的不便向他们表示歉意。这是由于全球 IT 问题影响了多家公司和行业。我们建议乘客在出行前查看我们的网站以获取最新的旅行信息。”
受影响的其他火车线路包括:Avanti West Coast、Great Western Railway、Hull Trains、Lumo、TransPennine 和 West Midlands Rail。
在美国,有报道称一些州的 911 市政紧急服务也遭遇中断。到目前为止,据信俄亥俄州、阿拉斯加州、亚利桑那州、明尼苏达州、印第安纳州和新罕布什尔州都受到了影响。“这确实太可怕了”,人们不无惊恐的说。
此外还有那些无法访问新闻服务的投资银行家们。伦敦证券交易所 (LSE) 的交易倒是一切正常,不用担心,但其监管新闻服务 (RNS) 也瘫痪了,因此公司甚至无法将数据泄露报告隐藏在今日头条新闻的背后。
是 CrowdStrike 出了错,不是微软的问题
系统中断的原因尚未完全查清,但一种通用的解释是,CrowdStrike Falcon中的“错误通道文件”被认为是罪魁祸首。
CrowdStrike 的托管服务 OverWatch 的主管 Brody Nisbet 表示,可疑文件与内容更新已被撤销。
这意味着以后不会再出现新的蓝屏(BSOD),但无法挽回已经造成的损害——这将是 IT 管理员的工作,他们肯定会在周五度过最糟糕的一天。
CrowdStrike 尚未回应我们要求提供更多信息的请求,但 Nisbet 通过该供应商的专用 Reddit 发布了一种解决方法,该帖子的回复中充斥着愤怒的客户们。
然而,这种解决方法并不适用于每个客户。Nisbet 表示,并称这种情况“一团糟”,该公司仍在努力解决这一系列问题。
英国国家网络安全中心前首席执行官 Ciaran Martin 今天接受 BBC 第四电台采访时,认同目前对此次中断的解释。
“CrowdStrike在其称为 Falcon 的品牌下拥有一系列产品,而他们的 Falcon 传感器更新(很多公司会使用它来检测威胁等)配置出错,从而破坏了 Windows系统。
“因此,如果一家公司同时使用 CrowdStrike 和 Windows 作为操作系统,他们就会遇到业内人士所说的蓝屏死机,Windows 无法工作,这就是为什么航空公司无法处理,大概也是为什么 Sky News 无法播出的原因。
“这些复杂的系统总是相互依赖地运行,但是网络安全要发挥作用,网络安全工具仍然必须能够与 Windows 交互,因此公司在这个等式的两边花费了大量的时间、金钱和精力,确保在部署这些东西时是兼容的。你必须确保不会破坏网络其他部分的稳定性,而且大多数时候这样做是有效的。偶尔情况并非如此——似乎并非如此。今天这种情况很少发生。”
很多媒体组织的早期报道错误地将 IT 问题归咎于微软,而微软几个小时前在其 Azure 云平台上也遇到了中断,但这似乎与导致全球广泛 IT 问题的问题无关。
微软的一个特殊 Azure 问题影响了 Microsoft 365 订阅服务,但在中断破坏全球系统时已经完成了修复。
微软今天做出了简短的回应,一位发言人表示:“我们注意到第三方软件平台的更新导致 Windows 设备出现问题。我们预计将很快得到解决。”
作者:万能的大雄
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。