xml地图|网站地图|网站标签 [设为首页] [加入收藏]

用python爬博客

时间:2020-01-04 21:39来源:计算机
用python爬博客 用python爬博客 by 伍雪颖 以爬王垠的博客为例: import reimport urllib2def getHtmlCode(url): return urllib2.urlopen(url).read()def findTitleUrl(htmlString): regTitleUrl = re.compile("href="(.+?)"") return reg

用python爬博客

用python爬博客

by 伍雪颖
以爬王垠的博客为例:

import re
import urllib2

def getHtmlCode(url):
 return urllib2.urlopen(url).read()

def findTitleUrl(htmlString):
    regTitleUrl = re.compile("href="(.+?)"")
    return regTitleUrl.findall(htmlString)

def findTitleContent(htmlString):
 regTitleContent = re.compile("">(.+?)")
 return regTitleContent.findall(htmlString)

htmlCode = getHtmlCode('http://www.yinwang.org/')
titleContent = findTitleContent(htmlCode)
titleUrl = findTitleUrl(htmlCode)
for i in range(0, len(titleUrl)):
 print titleContent[i+3]
 print titleUrl[i+8]
 htmlPage = getHtmlCode(titleUrl[i+8])
 f = open("%s.html"%(titleContent[i+3]),'wb')
 f.write(htmlPage)
 f.close

用python爬博客 by 伍雪颖 以爬王垠的博客为例: import reimport urllib2def getHtmlCode(url):return urllib2.urlopen(url).read()def findTitleUrl(htmlS...

编辑:计算机 本文来源:用python爬博客

关键词: