はい、完全に無料です。チャンク数や処理量に制限なく、任意の長さのテキストをチャンキングできます。
いいえ。すべてのチャンキングはブラウザ内でローカルに実行されます。ドキュメントはお客様のデバイス上でプライベートなまま保持されます。
テキストチャンキングは、コンテキスト制限のあるシステムで処理するために、大規模なドキュメントを小さくオーバーラップするセグメントに分割します。主なユースケース:(1) RAG(検索拡張生成)— ドキュメントを512~1024トークンのセグメントに分割し、10~20%のオーバーラップを持たせてベクターデータベースに埋め込みます。チャンクは検索可能なユニットとなり、ユーザーが質問すると、関連するチャンクが取得され、コンテキストとしてLLMに提供されます。(2) LLMのコンテキストウィンドウ — モデルにはトークン制限(8K、32K、128K)があるため、長いドキュメントをチャンク化してバッチ処理します。(3) ドキュメント処理パイプライン — 大規模なPDFやWebスクレイピングしたコンテンツを分割して並列処理します。(4) 翻訳 — 文字数制限のある翻訳APIに送信する前に、長文をチャンク化します。ベストプラクティス:埋め込みモデルの最適な入力長(例:text-embedding-ada-002の場合は512トークン)に基づいてチャンクサイズを選択し、重要な概念がチャンク間で分断されるのを防ぐために常にオーバーラップ(10~20%)を使用し、セマンティックユニットを維持するために生の文字数制限よりも文/段落の境界を優先し、追跡可能性のために各チャンクにメタデータ(ソースドキュメント、位置、ページ番号)を保持します。