URL编码及解码原理

2022年7月7日12:16:29

URL编码和Base64编码是不一样的,URL编码有专门的标准,目前Java11中使用的是RFC2396(参考:https://www.ietf.org/rfc/rfc2396.txt)。

在 java.net.URLEncoder 类的静态代码块中有如下代码:

dontNeedEncoding=newBitSet(256);int i;for(i='a'; i<='z'; i++){
    dontNeedEncoding.set(i);}for(i='A'; i<='Z'; i++){
    dontNeedEncoding.set(i);}for(i='0'; i<='9'; i++){
    dontNeedEncoding.set(i);}
dontNeedEncoding.set(' ');/* encoding a space to a + is done
                            * in the encode() method */
dontNeedEncoding.set('-');
dontNeedEncoding.set('_');
dontNeedEncoding.set('.');
dontNeedEncoding.set('*');

可以发现,除了 a-z、A-Z、0-9、-、_、.、*,不被编码外,其它的都得需要编码,其中空格会被替换为“+”号。

如果采用 UTF-8 编码的话,剩余的字符会转为字符对应的 UTF-8 编码的十六进制,然后在十六进制的每个字节前面添加一个“%”,比如“吴”的UTF-8编码十六进制是“E590B4”,一共占三个字节,所以,”吴“的URL编码是”%E5%90%B4“。

  • 作者:蜗牛大师
  • 原文链接:https://blog.csdn.net/weixin_39090337/article/details/121323568
    更新时间:2022年7月7日12:16:29 ,共 662 字。