输入 普通文本 或 xxx;
处理结果
使用说明与 HTML Entity 知识点
什么是 这 这种格式?
- 这种以
开头,以;结尾的编码方式叫做 HTML Entity (实体编码),在 Java 中常被称为 Native2Ascii。 - 它主要用于在网页中安全地显示一些可能引起解析冲突的字符,或者用来在不支持非ASCII字符(如中文)的环境中传输文本数据。
- 十进制: 例如
这,代表“这”字的 Unicode 码点的十进制数值是 36825。 - 十六进制: 例如
遹,代表同一个“这”字,其中的x表示后面的9079是十六进制的 Unicode 码点。
常见应用场景
- 防止乱码: 早期很多服务器或数据库只支持 ASCII 编码,存储中文字符会变成
???。将其转为纯英文数字的xxxx;格式即可安全存储。 - 爬虫逆向: 许多网站为了防止爬虫直接抓取内容,会故意将网页中的中文转码为这种 HTML Entity 实体。浏览器能自动将其渲染回中文,但爬虫抓取到的源码则是
...;。使用本工具的“解码还原”功能即可一键还原真实文本。
