0. 論文
Liu, F. T., Ting, K. M., & Zhou, Z. H. (2008, December). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining (pp. 413-422). IEEE.
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
1. どんなもの?
本稿では、正常なインスタンスをプロファイルするのではなく、異常を明示的に分離する異なるタイプのモデルベースの方法を提案している.
本稿では、あらゆる単一インスタンスを分離するためにツリー構造を効果的に構築できることを示している.
2. 先行研究と比べてどこがすごい?
現在の論文では,分離の概念を研究されていない.
分離の利用は既存手法では実現不可能な範囲へサブサンプリングを行う提案手法を可能とする.
区別する先行研究
既存のモデルベースの方法[11,2,5]
距離ベースの方法[6]
密度ベースの方法[4]
通常よりも異常を木の根元に近いところで分離する.
低い定数と低いメモリ容量だけで機能する.
高効率で異常を検知できる.
3. 技術や手法のキモはどこ?
2つの異なる量的特性を利用した.
(1) 少数の実体からなる少数派
(2) 通常のインスタンスとは非常に異なる属性値
効率的なモデルを作るために,トレーニングデータセットの一部だけを利用する.
4. どうやって有効だと検証した?
大規模なデータセットにおいて,LOFとランダムフォレストよりも優れていることを示した.
大規模なデータセットにおいて,ORCA,LOF,RFと比較して,AUC,処理時間共にiForestが良いことで有効だと検証した.
AUCは1に近いほど,高い判別制度だと言える.
5. 議論はある?
インスタンスinstanceって何?ー例,事例
再帰的に分割するとは?
調和数とは?→https://users.encs.concordia.ca/~chvatal/notes/harmonic.html
Ψが2^8,256で本当にいいの?
異常スコアの求め方は?
6. 次に読むべき論文は?
異常スコアの出し方
[7] D. E. Knuth. Art of Computer Programming, Volume 3: Sorting and Searching (2nd Edition). Addison-Wesley Pro- fessional, April 1998.
(1)統計的手法
[11] P.J.RousseeuwandK.V.Driessen.Afastalgorithmforthe minimum covariance determinant estimator. Technometrics, 41(3):212–223, 1999.
(2)分類ベースの手法
[1] N. Abe, B. Zadrozny, and J. Langford. Outlier detection by active learning. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 504–509. ACM Press, 2006.
(3)クラスタリングベースの手法
[5] Z. He, X. Xu, and S. Deng. Discovering cluster-based local outliers. Pattern Recogn. Lett., 24(9-10):1641–1650, 2003.
(1),(2),(3)は,正常なインスタンスのプロファイルを構築し、次に正常なプロファイルに適合しないインスタンスを異常として識別するアプローチをとる.
LOF:密度ベースの手法
[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.
7. メモ
異常は、通常のインスタンスとは異なるデータ特性を持つデータパターンのこと.
(1)統計的手法
[11] P.J.RousseeuwandK.V.Driessen.Afastalgorithmforthe minimum covariance determinant estimator. Technometrics, 41(3):212–223, 1999.
(2)分類ベースの手法
[1] N. Abe, B. Zadrozny, and J. Langford. Outlier detection by active learning. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 504–509. ACM Press, 2006.
(3)クラスタリングベースの手法
[5] Z. He, X. Xu, and S. Deng. Discovering cluster-based local outliers. Pattern Recogn. Lett., 24(9-10):1641–1650, 2003.
(1),(2),(3)は,正常なインスタンスのプロファイルを構築し、次に正常なプロファイルに適合しないインスタンスを異常として識別するアプローチをとる.
(4)[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.
(5)[4] M. M. Breunig, H.-P. Kriegel, R. T. Ng, and J. Sander. LOF: identifying density-based local outliers. ACM SIG- MOD Record, 29(2):93–104, 2000.
上の(1)~(5)とは区別しなければいけない.
iTreeとは,データを再帰的に分割する.
異常検出のタスクは、異常の程度を反映したランク付けを提供することです。
したがって、異常を検出する1つの方法は、パス長または異常スコアに従ってデータポイントをソートすること.
異常スコアで降順に並べたときに,上位が異常とみなせる.