Jaccard, Cosine TF, Levenshtein 세 가지 방법으로 두 텍스트 비교 — 단어 중복, 빈도, 유사도 점수 시각화
네, PivaBox 텍스트 유사도 비교는 완전히 무료로 사용할 수 있습니다. 모든 계산은 브라우저에서 로컬로 실행되며 텍스트가 기기를 떠나지 않습니다.
Jaccard 유사도는 단어의 존재 여부(있음/없음)만 고려하여 모든 단어를 동등하게 취급합니다. Cosine TF 유사도는 단어 빈도를 사용하므로 두 텍스트에 10번 나타나는 단어가 1번 나타나는 단어보다 점수에 더 크게 기여합니다. Cosine TF는 의미적 유사성을 더 잘 근사합니다.
Levenshtein 거리는 한 문자열을 다른 문자열로 변경하는 데 필요한 최소 단일 문자 편집 횟수(삽입, 삭제, 대체)를 계산합니다. 단어를 인식하지 않고 원시 텍스트를 문자 시퀀스로 비교하므로 오타, 사소한 재작성, 거의 중복된 문자열을 감지하는 데 이상적입니다.