网页编码自动获取(完整版)

时间:2010年04月12日 点击:421
网页编码的自动获取一直是个头疼的问题,到网上搜索无数,得到的结果都差不多,不完美
后来参考Unicode-4的标准才发现,原来自己真傻啊,,下面贴出来给大海捞针的朋友看看
<转载请注明:来源www.zdexe.com智动软件>
以下是原文:  
  1. An   HTTP   "charset"   parameter   in   a   "Content-Type"   field.    
  example:  
  Content-Type:   text/html;   charset=EUC-JP  
   
  2. A   META   declaration   with   "http-equiv"   set   to   "Content-Type"   and   a   value   set   for   "charset".    
  example:  
  <META   http-equiv="Content-Type"   content="text/html;   charset=EUC-JP">  
   
  3. The   charset   attribute   set   on   an   element   that   designates   an   external   resource.    
  example:  
  <A   href="http://www.w3.org/"   charset="ISO-8859-1">W3C   Web   site</A>  

第三种就不介绍了,介绍前两种方法:
1:通过获取HTTP头中Content-Type头中的charset,判断编码
2:通过获取网页内容中META标签的Content-Type类型属性charset,判断编码
3:还可以通过开头字节判断的方法来判断,这三种加起来,自动判断编码应该非常准确了
另外FIREFOX源码中也有判断编码的算法,有兴趣的可以去研究研究..
智动软件

赞助商链接

热门内容

相关内容

联系我们

联系方式