Jaccard、Cosine TF、Levenshteinの3つの方法で2つのテキストを比較 — 単語の重複、頻度、類似度スコアを視覚化
はい、PivaBoxのテキスト類似度比較は完全に無料でご利用いただけます。すべての計算はブラウザ内でローカルに実行され、テキストがデバイスから外部に送信されることはありません。
Jaccard類似度は単語の有無のみを考慮し、すべての単語を同等に扱います。Cosine TF類似度は単語の頻度を使用するため、両方のテキストに10回出現する単語は1回しか出現しない単語よりもスコアに大きく貢献します。Cosine TFは意味的類似度をより良く近似します。
Levenshtein距離は、ある文字列を別の文字列に変更するために必要な最小の単一文字編集回数(挿入、削除、置換)をカウントします。単語を認識せず、生のテキストを文字シーケンスとして比較するため、タイプミス、小さな書き換え、ほぼ重複する文字列の検出に理想的です。