タイトル: 大規模データセンターにおける運用ノウハウ共有による障害再発防止方式の提案
著者: 西野, 博之
坂下, 幸徳
敷田, 幹文
キーワード: ノウハウ共有
Sharing Know-How
Failure Reason
Large-scale Servers
Root Cause Analysis (RCA)
System Management
発行日: 2013-12-05
出版者: 情報処理学会
誌名: インターネットと運用技術シンポジウム2013論文集
巻: 2013
開始ページ: 87
終了ページ: 94
抄録: 仮想化技術の普及に伴い,今日のデータセンターは大規模化複雑化が進んでいる.サーバやストレージ,ネットワークといった複数分野の機器を同時に運用することが求められる一方で,それらの運用管理を行う人材の不足は深刻化し,担当者の不在等により普段の担当とは違う分野の運用に携わる機会が増えている.担当外の管理者が設定変更操作を行った際,把握しきれていない他の設定や仕様との連携により予期せぬ障害が生じる事がある.管理者は実際の運用業務を通して複雑なシステムの構成を理解しなくてはならないが,実際の障害時になぜその障害が発生したかを判断するためには経験や勘を要する.そのため,担当外の管理者だけで復旧作業を行い,経験や勘をノウハウとして習得することは困難である.復旧作業を支援する障害原因解析を行う様々な手法が提案されているが,なぜ障害が生じたのかを類推する部分に関しては熟練管理者依存となっている.そこで,本研究では管理者の操作履歴を用い,操作によって障害が発生した理由を明確化する.また,それらの理由を該当操作時にノウハウ情報として提示することで,担当外の管理者のノウハウ形成を支援し,操作による障害再発を抑制する手法を提案する. : Due to the development of virtualization technologies data centers are more and more becoming huge. Therefore Keeping the plural apparatuses like servers, storages and routers in good working order is needed. On the other hand, shortage of server managers is serious. This is the reason why the opportunity for server managers to operate outside machines of their expertise are increasing. Those managers are likely to cause unexpected obstacles when they operate outside machines of their expertise. Although the managers must understand system configuration while maintaining servers, empirical intuition are needed to specify the cause of obstacles when obstacles happen. On this account, It is hard to do the repair work and learn know-how only in managers who do not have expertise about where applicable. As a technique to support repair work, there are some RCA methods. However it depends on the skilled managers to estimate why the obstacle happened. This proposal method supports managers who is outside of his/her area of expertise with using operation logs as a know-how-information. it can finally inhibit operation mistakes.
URI: http://hdl.handle.net/10119/12252
