广州明生医药有限公司


python 采集中文乱码问题的完美解决方法

网络编程 python 采集中文乱码问题的完美解决方法 06-22

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持积木网~

Python黑帽编程 3.4 跨越VLAN详解
VLAN(VirtualLocalAreaNetwork),是基于以太网交互技术构建的虚拟网络,既可以将同一物理网络划分成多个VALN,也可以跨越物理网络障碍,将不同子网中的用

Python三级目录展示的实现方法
要求:1、三级菜单2、可依次选择进入各子菜单,选择序号进入目录3、输入b返回上级目录,q退出更改目录代码实现:#!/bin/envpython#!--*--coding:utf-8--*--#--

一些常用的Python爬虫技巧汇总
Python爬虫:一些常用的爬虫技巧总结爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法importurllib2url"ht


编辑:广州明生医药有限公司

标签:爬虫,字符,网页,目录,方式