利用python写爬虫程序的方法:
1、先分析网站内容,红色部分即是网站文章内容div。
2、随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有什么有用的信息,而注意红色部分我勾画出的地方,可以知道,它是指向文章的地址的超链接,那么爬虫只要捕捉到这个地址就可以了。
3、接下来在一个问题就是翻页问题,可以看到,这和大多数网站不同,底部没有页数标签,而是查看更多。
4、不过在查看源文件时有一个超链接,经测试它指向下一页,那么通过改变其最后的数值,就可以定位到相应的页数上。
代码如下:
看下这个,用requests写的,比urllib代码简单点。其次就是正则表达式,匹配到自己想要抓取的内容
http://blog.csdn.net/tangdou5682/article/details/52596863
这里有比较详细的介绍
http://blog.csdn.net/column/details/why-bug.html