是的,完全免費。可對任意長度的文字進行分塊,且對分塊數量或處理量沒有任何限制。
不會。所有分塊操作均在您的瀏覽器本機執行。您的文件在您的裝置上保持私密。
文字分塊將大型文件分割為更小、有重疊的片段,以便受上下文限制的系統進行處理。主要用例:(1) RAG(檢索增強生成)— 將文件分割為 512–1024 個 token 的片段,並有 10–20% 的重疊,以便嵌入向量資料庫。分塊成為可搜尋的單元;當使用者提問時,系統會檢索相關分塊並將其作為上下文提供給 LLM。(2) LLM 上下文視窗 — 模型有 token 限制(8K、32K、128K);將較長文件分塊以便批次處理。(3) 文件處理管線 — 分割大型 PDF 或網路擷取內容以進行平行處理。(4) 翻譯 — 在傳送到有字元限制的翻譯 API 之前對長文字進行分塊。最佳實踐:根據嵌入模型的最佳輸入長度選擇分塊大小(例如 text-embedding-ada-002 為 512 個 token),始終使用重疊(10–20%)以避免將關鍵概念分割到不同分塊中,優先使用句子/段落邊界而非純字元限制以保持語意單元的完整性,並為每個分塊保留中繼資料(來源文件、位置、頁碼)以便追蹤。