分析字符串长度、字数、字符类别、Unicode编码等信息
F0 9F 98 8A?)到数 MB 的日志文件(想查看字符类型分布并识别编码异常?)。实时分析随您输入更新,非常适合交互式探索。U+XXXX 十六进制码位和 Unicode 字符名称(如 U+4E2D CJK UNIFIED IDEOGRAPH-4E2D 对应"中"字)。这对调试编码问题极为宝贵——如果看到意外的 U+FFFD(REPLACEMENT CHARACTER 替换字符),您就知道发生了编码损坏。UTF-8 字节表示——精确查看文本如何编码为字节,高亮多字节序列(2 字节、3 字节、4 字节 UTF-8 序列)。字符频率——排序的频率分布显示哪些字符出现最频繁,带有水平条形图进行视觉比较——用于文本取证、语言检测和数据画像。所有分析在浏览器中进行——您的文本即使包含敏感数据、密码、API 密钥或专有内容,也永不离开您的设备。字符计数器回答"有多长?"——字符串分析器回答"这到底是什么?"主要使用场景:(1) <strong>Unicode 调试</strong>——看起来相同的文本可能包含不同的底层字符。'А'(西里尔 U+0410)和 'A'(拉丁 U+0041)在大多数字体中看起来相同但完全是不同的字符——分析器揭示实际码位,捕获同形异义字攻击和编码混淆。(2) <strong>编码验证</strong>——在应用程序之间复制粘贴文本后,可能引入不可见控制字符或字节顺序标记(BOM,U+FEFF)——分析器将其暴露。(3) <strong>数据画像</strong>——分析 CSV 列检查意外字符类型(应该是逗号分隔的内容中有制表符吗?"干净"文本中有不可打印字符吗?)。(4) <strong>无障碍性</strong>——检查文本使用正确的 Unicode 字符而非 ASCII 近似(正确引号 '' '' vs 直引号 '',正确破折号 — vs 连字符 -)。(5) <strong>安全研究</strong>——识别可用于文本隐写或水印的零宽字符(U+200B ZERO WIDTH SPACE)。PivaBox 字符串分析器所有分析在客户端执行——您的字符串包括密码和 API 密钥永不离开浏览器。
UTF-8 是 Web 上的主导字符编码(约 98% 网站使用),但其可变长度特性导致微妙 bug。UTF-8 使用 1-4 字节编码每个 Unicode 码位:ASCII 字符(U+0000–U+007F)使用 1 字节(<code>0xxxxxxx</code>);拉丁扩展、希腊文、西里尔文、阿拉伯文、希伯来文(U+0080–U+07FF)使用 2 字节(<code>110xxxxx 10xxxxxx</code>);CJK 字符和大多数其他文字(U+0800–U+FFFF)使用 3 字节(<code>1110xxxx 10xxxxxx 10xxxxxx</code>);补充字符包括 emoji 和罕见 CJK(U+10000–U+10FFFF)使用 4 字节(<code>11110xxx 10xxxxxx 10xxxxxx 10xxxxxx</code>)。字节表示视图精确显示每个字符编码为哪些字节,帮助调试:(1) <strong>截断 bug</strong>——在 N 字节后切割字符串可能分割多字节字符产生无效 UTF-8;分析器显示字节边界。(2) <strong>双重编码</strong>——常见 bug 将 UTF-8 字节当作 Latin-1 处理并重新编码为 UTF-8,产生乱码(Mojibake);字节视图使其可见。(3) <strong>数据库列大小</strong>——MySQL 的 <code>VARCHAR(255)</code> 在 utf8mb4 中容纳 255 个字符,但在旧 utf8(最多 3 字节 UTF-8)中仅容纳 255 字节;字节数帮助验证数据是否适合。
字符频率分析虽然最闻名的应用是破解古典密码,但具有现代实用应用。(1) <strong>语言检测</strong>——不同语言具有不同的字符频率特征:英语以 'e'(~12.7%)、't'(~9.1%)、'a'(~8.2%)为主;德语有额外的变音频率;CJK 文本显示完全不同的分布模式,数千种可能字符。频率视图帮助识别混合语言文本的主要语言。(2) <strong>编码损坏检测</strong>——如果最频繁的"字符"是 U+FFFD(REPLACEMENT CHARACTER),您的文本经历了编码损坏。如果 U+0020(空格)异常占主导,可能有空白填充问题。(3) <strong>数据质量评估</strong>——在"干净名称"字段中,发现高频率数字或标点表明数据质量问题。(4) <strong>隐写检测</strong>——异常高的零宽字符或变体选择器频率可能表明隐藏水印。(5) <strong>文本作者分析</strong>——文体学使用字符和词频模式(以及其他特征)识别或验证作者。PivaBox 字符串分析器在浏览器中免费提供所有这些分析。