使用 Jaccard、Cosine TF 和 Levenshtein 三种方法比较两段文本 — 可视化词语重叠、词频和相似度得分
是的,PivaBox 文本相似度比较完全免费使用。所有计算均在浏览器本地运行 — 您的文本不会离开您的设备。
Jaccard 相似度只考虑词语是否出现(有/无),对所有词语一视同仁。Cosine TF 相似度使用词频信息,因此在两段文本中都出现 10 次的词语比只出现 1 次的词语贡献更大的得分。Cosine TF 更好地近似语义相似度。
Levenshtein 距离计算将一个字符串转换为另一个字符串所需的最少单字符编辑次数(插入、删除、替换)。它不理解词语 — 将原始文本作为字符序列进行比较,非常适合捕捉拼写错误、细微重写和近似重复的字符串。