文本分割器 - Free Online Tool | PivaBox

将文本切分为块用于 RAG 预处理

文本分块器 — 将长文本拆分为易于管理的块,适用于 AI 和数据处理

  1. 将长文本粘贴到输入区域。该分块器专为处理大型文档而设计,包括文章、转录稿、文档或任何超出 AI 模型上下文窗口限制或需要分段处理的文本。
  2. 配置分块策略:按字符数、字数、句子边界或段落边界进行拆分。设置分块大小和重叠量。重叠分块可防止边界处的上下文丢失,这对于 RAG(检索增强生成)和语义搜索应用至关重要。
  3. 查看生成的分块,逐个复制或下载所有分块为单独的文件。每个分块都已编号并显示字符数,方便快速参考。

Frequently Asked Questions

文本分块器是免费的吗?

是的,完全免费。可对任意长度的文本进行分块,且对分块数量或处理量没有任何限制。

我的文本会被上传到任何地方吗?

不会。所有分块操作均在您的浏览器本地执行。您的文档在您的设备上保持私密。

什么是文本分块?为什么它对 AI 和 LLM 应用很重要?

文本分块将大型文档拆分为更小、有重叠的片段,以便受上下文限制的系统进行处理。主要用例:(1) RAG(检索增强生成)— 将文档拆分为 512–1024 个 token 的片段,并有 10–20% 的重叠,以便嵌入向量数据库。分块成为可搜索的单元;当用户提问时,系统会检索相关分块并将其作为上下文提供给 LLM。(2) LLM 上下文窗口 — 模型有 token 限制(8K、32K、128K);将较长文档分块以便批量处理。(3) 文档处理管道 — 拆分大型 PDF 或网络抓取内容以进行并行处理。(4) 翻译 — 在发送到有字符限制的翻译 API 之前对长文本进行分块。最佳实践:根据嵌入模型的最佳输入长度选择分块大小(例如 text-embedding-ada-002 为 512 个 token),始终使用重叠(10–20%)以避免将关键概念拆分到不同分块中,优先使用句子/段落边界而非纯字符限制以保持语义单元的完整性,并为每个分块保留元数据(源文档、位置、页码)以便追踪。