输入 普通文本 或 &#xxxx;
处理结果

使用说明与 HTML Entity 知识点

什么是 这种格式?

  • 这种以 &# 开头,以 ; 结尾的编码方式叫做 HTML Entity (实体编码),在 Java 中常被称为 Native2Ascii
  • 它主要用于在网页中安全地显示一些可能引起解析冲突的字符,或者用来在不支持非ASCII字符(如中文)的环境中传输文本数据。
  • 十进制: 例如 ,代表“这”字的 Unicode 码点的十进制数值是 36825。
  • 十六进制: 例如 ,代表同一个“这”字,其中的 x 表示后面的 9079 是十六进制的 Unicode 码点。

常见应用场景

  • 防止乱码: 早期很多服务器或数据库只支持 ASCII 编码,存储中文字符会变成 ???。将其转为纯英文数字的 &#xxxxx; 格式即可安全存储。
  • 爬虫逆向: 许多网站为了防止爬虫直接抓取内容,会故意将网页中的中文转码为这种 HTML Entity 实体。浏览器能自动将其渲染回中文,但爬虫抓取到的源码则是 &#...;。使用本工具的“解码还原”功能即可一键还原真实文本。