コサイン類似度

コサイン類似度（コサインるいじど、Cosine similarity）はデータ分析において、内積空間で定義される二つの非零ベクトル間の類似度の尺度（英語版）である。

解説

コサイン類似度は、二つのベクトルのなす角度のコサイン値である。つまり、二つのベクトルのドット積をその大きさの積で割ったものであり、コサイン類似度はベクトルの大きさには依存せず、なす角度にのみ依存する。コサイン類似度は常に区間 $[-1,1]$ の値をとる。例えば、二つの比例関係にあるベクトルのコサイン類似度は1であり、直交するベクトルの類似度は0、反対を向くベクトルの類似度は-1である。ベクトルの成分が負の値になり得ない状況においては、コサイン類似度は $[0,1]$ の値を取る。

情報検索やテキストマイニングの文脈においては、各単語に異なる座標を割り当て、文書をその文書内での各単語の出現回数のベクトルで表す。コサイン類似度は二つの文書が、文書の長さに関わらず、その主題についてどの程度類似しているかについての有用な尺度を与える^[1]。

この技術は、データマイニングの分野においてクラスタ内の凝集度を測定するためにも使用される^[2]。

コサイン類似度の利点の一つとしては、計算複雑性が低く、特に疎なベクトルについてはゼロでない属性についてのみ考慮すれば良いという点が挙げられる。

コサイン類似度の別名としては、Orchini類似度や、Tucker合同係数などがあり、大塚-落合類似度はバイナリデータに対して適用されるコサイン類似度である。　

定義

プロパティ

脚注

^ Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
^ P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.