概要
1クラスSVMの特集号。まず、冒頭の「特集に当たって」(香田 正人先生)の1クラスSVMの説明が本質を的確に表現していると思う。
1クラスSVMの名を筆者が1999年に最初に耳にした時,本質的に2クラス分類手法であるSVMとは概念矛盾だと違和感を覚えた.1クラスならばクラス・ラベルを必要とせず,クラスタリングに他ならないからである.その後,サボートベクターを拡張した近傍サポート(Support Neighbor)の概念を聞くに及び,密度推定や領域判別としての側面が理解できた気になった.すなわち,1クラスSVMはデータ分布の高密度領域と,周辺部の残り(外れ値)とを近傍サポートを介して識別するものであり,この意味で密度推定や領域判別と等価である.具体的には,SVMの準(半)学習スキームとして定式化され,特徴空間における原点を第2のクラスと見なして,データ・クラス(特徴ベクター)との2分類を行う.
個人的に興味を惹かれたのは以下の3記事。
1クラスSVMと近傍サポートによる領域判別(高畠 泰斗,香田 正人)
1クラスSVMの概説。主に高密度領域の推定に[math]\mu[/math]-SVMを適用した場合について解説。特にガウシアンカーネルを用いると
- すべてのサンプルは半径1の超球の四分球面上に写像される
- 高密度領域の推定は写像先の空間でほとんどすべてのサンプルを含む最小の超球を求める問題になる
- 多くのサンプルが原点と反対側にあることを維持しながらマージンを最大化する判別超平面を求める問題(SVM)として定式化可能
とSVMを用いて高密度領域の推定を定式化することができる。
One-Class SVMに基づく水力発電所におけるリスクマネジメント(小野田 崇)
九州電力における水力発電の保守に適用した事例紹介。
水車・発電機軸振動に関連するセンサ情報値の組合せデータを
- 起動時
- 並列時
- 解列時
- 停止時
の4フェーズにわけ(対応付けは経験則で実施)、起動時~解列時のデータにおける「例外状態」をOne-class SVMで抽出。また、発電設備は異常事例が生じる事例が極めて稀なため正常状態から外れた例外状態を異常予兆状態として抽出を行っている。
実際にOne-class SVMで異常予兆状態を抽出したところ
- 起動時: 本来は並列時データとすべきデータが混入(経験則の誤り)していたのを検出。
- 並列時:通常運転とは異なる「作業運転時」(これも非常に稀な現象とのこと)を検出
- 解列時:「作業運転時」を検出
と通常状態とは異なる状態のデータが例外状態として抽出された。
ラプラシアンカーネルを用いたOne-Class SVMとそのマーケティングへの応用(矢島 安敏,矢田 佳久)
ある商品を購買してくれた人のデータからある人がその商品を購入してくれそうかどうかを推定するのにOne-class SVMを利用。
- 特定の属性をもった人が商品が買いやすいと想定
- 買ってくれた人の高密度領域を推定する問題として定式化
- 類似性を表すデータ構造としてBase similarity行列が考えられるが、半正定値ではないので工夫が必要
- ラプラシアンカーネルを用いることで半正定値かつ効率的なSVM解法を構築できる
- 保険に加入する人の予測に適用し利用店舗数だけを用いたベースモデルよりも2倍の精度がでることを確認