文本分割器 - Free Online Tool | PivaBox

将文本切分为块用于 RAG 预处理

文本分块器 — 将长文本拆分为易于管理的块，适用于 AI 和数据处理

将长文本粘贴到输入区域。该分块器专为处理大型文档而设计，包括文章、转录稿、文档或任何超出 AI 模型上下文窗口限制或需要分段处理的文本。
配置分块策略：按字符数、字数、句子边界或段落边界进行拆分。设置分块大小和重叠量。重叠分块可防止边界处的上下文丢失，这对于 RAG（检索增强生成）和语义搜索应用至关重要。
查看生成的分块，逐个复制或下载所有分块为单独的文件。每个分块都已编号并显示字符数，方便快速参考。

Frequently Asked Questions

文本分块器是免费的吗？

是的，完全免费。可对任意长度的文本进行分块，且对分块数量或处理量没有任何限制。

我的文本会被上传到任何地方吗？

不会。所有分块操作均在您的浏览器本地执行。您的文档在您的设备上保持私密。

什么是文本分块？为什么它对 AI 和 LLM 应用很重要？

文本分块将大型文档拆分为更小、有重叠的片段，以便受上下文限制的系统进行处理。主要用例：(1) RAG（检索增强生成）— 将文档拆分为 512–1024 个 token 的片段，并有 10–20% 的重叠，以便嵌入向量数据库。分块成为可搜索的单元；当用户提问时，系统会检索相关分块并将其作为上下文提供给 LLM。(2) LLM 上下文窗口 — 模型有 token 限制（8K、32K、128K）；将较长文档分块以便批量处理。(3) 文档处理管道 — 拆分大型 PDF 或网络抓取内容以进行并行处理。(4) 翻译 — 在发送到有字符限制的翻译 API 之前对长文本进行分块。最佳实践：根据嵌入模型的最佳输入长度选择分块大小（例如 text-embedding-ada-002 为 512 个 token），始终使用重叠（10–20%）以避免将关键概念拆分到不同分块中，优先使用句子/段落边界而非纯字符限制以保持语义单元的完整性，并为每个分块保留元数据（源文档、位置、页码）以便追踪。