本站分享:大数据、数据分析师考试认证培训,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训广告位

python实现并行爬虫_python实现爬虫

python培训 cdadata 417℃ 0评论

python实现并行爬虫

 关键词:python实现爬虫,python实现网络爬虫, python爬虫

问题背景:指定爬虫depth、线程数, Python实现并行爬虫
思路:    单线程 实现爬虫类Fetcher
多线程 threading.Thread去调Fetcher

方法:Fetcher 中,用urllib.urlopen打开指定url,读取信息:

response = urllib.urlopen(self.url)
content = response.read()

但是这样有问题, 比如对于www.sina.com来说,读出来的content是乱码的:

  1. >>> content[0:100]
  2. ‘\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec\xbdk\x93\x1c\xd7u \xf8\x99\x8c\xd0\x7fH\x14W\xe8*t=2\xeb\xd5\xd5]H`\x014@4\x88\x97\x00\xf0%\x10\xea\xc8\xaa\xca\xeeN\xa0\xba\xb2X\x99\x85\x06X\xa8\x1fCj\x1c\xb6ly-\x92\x06\xf5 %\xca”E\xf1!R\x94\xa8\x87C3\x9e\xf1\xd8#\x87\xbd;\x8e\xd8\x99\x8d\xb1\x1d\xf2’

 

于是用了python第三方工具chardet,通过

chardet.detect(content)

进行content中字符集的检测:

  1. >>> chardet.detect(content)
  2. {‘confidence’: 0.99, ‘encoding’: ‘GB2312’}

好,问题解决了:

  1. >>> import urllib
  2. >>> url = ‘http://www.sina.com’
  3. >>> response = urllib.urlopen(url)
  4. >>> content = response.read()
  5. >>> chardet.detect(content)
  6. {‘confidence’: 0.99, ‘encoding’: ‘GB2312’}

 

但是我们想高效爬虫的时候需要设置urlopen的timeout时间,这在urllib中没有实现,而在urllib2中有实现:

response = urllib2.urlopen(self.url, timeout = self.timeout)

但是这时候再用chardet出现的字符集结果与上次不同:

  1. >>> import urllib
  2. >>> url = ‘http://www.sina.com’
  3. >>> response = urllib2.urlopen(url, timeout=1)
  4. >>> content = response.read()
  5. >>> chardet.detect(content)
  6. {‘confidence’: 0.0, ‘encoding’: None}

 

这是怎么回事? 原来是这个页面的编码问题, 该页面返回的是gzip编码,参考<python urllib2 returns garbage – Stack Overflow>

实际上每次应该判断页面信息的’Content-Encoding’是否为’gzip’。

urllib支持gzip页面自动解压而urllib2不支持。 所以对于这种页面, 先解压再read:

try:
    response = urllib2.urlopen(self.url, timeout = self.timeout)
    if response.info().get('Content-Encoding', "") == 'gzip':  #e.g www.sina.com.cn
        buf = StringIO.StringIO(response.read())
        f = gzip.GzipFile(fileobj=buf)
        content = f.read()
    else:
        content = response.read()
    content = self.enc_dec(content)
    return content
except socket.timeout:
    log.warn("Timeout in fetching %s" % self.url)

 

到这里,大家是不是都以为我只是个标题党。。。?

*******************************************************************************

那么,就把调通的整个spider文件share一下吧,

python实现并行爬虫_python实现爬虫

程序支持多线程爬虫,主文件为spider.py, testSpider.py为单测(不保证覆盖率)。

程序地址:http://download.csdn.net/detail/abcjennifer/9086751

转载请注明:数据分析 » python实现并行爬虫_python实现爬虫

喜欢 (0)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址