はい、完全に無料です。長さ制限なしで無制限のテキストをクリーニングできます。短い文字列から小説全文規模のドキュメントまで、すべて処理できます。
いいえ。すべてのテキスト処理はブラウザ内でローカルに行われます。あなたのコンテンツはプライバシーが保たれます。
テキストクリーニングは実世界でのデータ品質の問題を解決します。(1) 余分な空白(複数のスペース、末尾のスペース、タブとスペースの混在)— PDF、メール、またはWebサイトからのコピーでよく見られます。(2) 一貫性のない改行(CR、LF、CRLFの混在)— 異なるOSのファイルは異なる改行コードを使用します。お使いのプラットフォームの標準に正規化します。(3) 空行 — データエクスポートには空白の区切り行が含まれることがよくあります。これらを削除してデータを圧縮します。(4) スクレイピングされたテキスト内のHTMLタグ — Webスクレイピングでは<p>、<br>、<div>タグが残ることがあります。これらを除去してクリーンなプレーンテキストを取得します。(5) スマートクォートと特殊文字 — ワードプロセッサはストレートクォートを「スマート」なカーブクォートに置き換えます。これがコードやCSVの解析を壊すことがあります。ASCII相当文字に変換します。(6) Unicodeの正規化 — 一部の文字には複数のUnicode表現があります(例:éは単一文字U+00E9、またはe+結合アクセントU+0065 U+0301)。NFCまたはNFD形式に正規化します。データベースへのインポート、NLPパイプラインでの処理、またはバージョン管理へのコミット前にテキストをクリーニングしてください。