使用 Jaccard、Cosine TF 和 Levenshtein 三種方法比較兩段文字 — 視覺化詞語重疊、詞頻和相似度得分
是的,PivaBox 文字相似度比較完全免費使用。所有計算均在瀏覽器本機執行 — 您的文字不會離開您的裝置。
Jaccard 相似度只考慮詞語是否出現(有/無),對所有詞語一視同仁。Cosine TF 相似度使用詞頻資訊,因此在兩段文字中都出現 10 次的詞語比只出現 1 次的詞語貢獻更大的得分。Cosine TF 更好地近似語義相似度。
Levenshtein 距離計算將一個字串轉換為另一個字串所需的最少單字元編輯次數(插入、刪除、替換)。它不理解詞語 — 將原始文字作為字元序列進行比較,非常適合捕捉拼寫錯誤、細微重寫和近似重複的字串。