将文本切分为块用于 RAG 预处理
是的,完全免费。可对任意长度的文本进行分块,且对分块数量或处理量没有任何限制。
不会。所有分块操作均在您的浏览器本地执行。您的文档在您的设备上保持私密。
文本分块将大型文档拆分为更小、有重叠的片段,以便受上下文限制的系统进行处理。主要用例:(1) RAG(检索增强生成)— 将文档拆分为 512–1024 个 token 的片段,并有 10–20% 的重叠,以便嵌入向量数据库。分块成为可搜索的单元;当用户提问时,系统会检索相关分块并将其作为上下文提供给 LLM。(2) LLM 上下文窗口 — 模型有 token 限制(8K、32K、128K);将较长文档分块以便批量处理。(3) 文档处理管道 — 拆分大型 PDF 或网络抓取内容以进行并行处理。(4) 翻译 — 在发送到有字符限制的翻译 API 之前对长文本进行分块。最佳实践:根据嵌入模型的最佳输入长度选择分块大小(例如 text-embedding-ada-002 为 512 个 token),始终使用重叠(10–20%)以避免将关键概念拆分到不同分块中,优先使用句子/段落边界而非纯字符限制以保持语义单元的完整性,并为每个分块保留元数据(源文档、位置、页码)以便追踪。