关于2021年1月12日永续合约系统故障的说明

发布于 2021年1月15日

1. 故障说明:
欧易OKX的永续合约交易服务在2021年1月12日出现了2次交易暂停事件,分别发生在15:19:00 HKT与17:36:00 HKT。
经调查:
第一次停机:按照14:30:00 HKT升级计划,永续合约执行系统升级后,由于配置错误,永续合约TBT频道未推送深度数据,触发了交易系统紧急响应机制,导致用户交易暂停事件发生。
第二次停机:按照17:00:00 HKT升级计划,WebSocket推送系统升级后,推送系统和永续合约交易系统之间的共用组件出现异常,导致永续服务处理事务中断,导致用户交易暂停事件发生。
第一次停机发生过程应对摘要:
截至2021-01-12 14:30:00 HKT,按照升级升级计划执行永续合约升级。
截至2021-01-12 14:41:00 HKT,完成永续合约升级,并恢复交易。
截至2021-01-12 14:42:00 HKT,我们的检测系统发现,由于配置信息错误,永续合约TBT频道未推送深度数据,启动事件响应程序,紧急进行修复。
截至2021-01-12 15:19:00 HKT,停止交易,进行永续合约系统临时维护。
截至2021-01-12 15:39:00 HKT,系统维护完成,并成功恢复交易。
第二次停机发生过程应对摘要:
截至2021-01-12 17:00:00 HKT,按照升级升级计划执行WebSocket系统升级。
截至2021-01-12 17:32:00 HKT,完成WebSocket系统升级。
截至2021-01-12 17:33:00 HKT,我们的检测系统发现永续合约系统出现异常,启动事件响应程序,紧急进行修复。
截至2021-01-12 17:36:00 HKT,停止交易,进行永续合约系统临时维护。
截至2021-01-12 18:10:00 HKT,系统维护完成,并成功恢复交易。

2. 我们通过做哪些工作保证欧易OKX平台的稳定性?
欧易OKX提供7*24全天候的交易服务,我们致力于为所有用户提供一个稳定、不间断的交易服务平台。但是由于高性能交易系统非常复杂,各种异常情况非常多,与所有交易系统一样,我们无法保证系统100%稳定运行。但是我们一直在从各个方面努力,提升系统稳定性,最大程度的减少停机出现的概率,包括:

1). 加强工程质量保证,优化测试体系;新功能代码在模拟盘稳定运行一段时间后才能上线
2). 架构升级,正在实现多机和多地域高可用,减少硬件、软件造成的宕机时间
3). 实现热更新,无状态逻辑实现热更新,减少升级对用户交易的影响

3. 如何获取系统更新?

1).在发生故障之后,我们会在Status页面发布故障说明。
2).当有新的系统升级事件时,我们会在Status页面发布通知;并通过市场和社群的渠道(API用户社群+普通用户社群)及时通知广大用户;同时API用户可以通过订阅system/status频道来实时获取通知。