文本相似度比较 - Free Online Tool | PivaBox

使用 Jaccard、Cosine TF 和 Levenshtein 三种方法比较两段文本 — 可视化词语重叠、词频和相似度得分

如何使用文本相似度比较

  1. 将第一段文本粘贴或输入到文本 A,第二段文本粘贴或输入到文本 B
  2. 点击计算相似度计算 Jaccard 重叠、Cosine TF 相似度和 Levenshtein 比率得分
  3. 探索词语重叠可视化、词频图表和高亮的共有词语,了解两段文本之间的关系

Frequently Asked Questions

文本相似度比较是免费的吗?

是的,PivaBox 文本相似度比较完全免费使用。所有计算均在浏览器本地运行 — 您的文本不会离开您的设备。

Cosine TF 与 Jaccard 有何不同?

Jaccard 相似度只考虑词语是否出现(有/无),对所有词语一视同仁。Cosine TF 相似度使用词频信息,因此在两段文本中都出现 10 次的词语比只出现 1 次的词语贡献更大的得分。Cosine TF 更好地近似语义相似度。

为什么 Levenshtein 在字符级别工作?

Levenshtein 距离计算将一个字符串转换为另一个字符串所需的最少单字符编辑次数(插入、删除、替换)。它不理解词语 — 将原始文本作为字符序列进行比较,非常适合捕捉拼写错误、细微重写和近似重复的字符串。