如何利用python写爬虫程序

2024-11-05 21:44:45

推荐回答（3个）

回答（1）：

利用python写爬虫程序的方法：

1、先分析网站内容，红色部分即是网站文章内容div。

2、随便打开一个div来看，可以看到，蓝色部分除了一个文章标题以外没有什么有用的信息，而注意红色部分我勾画出的地方，可以知道，它是指向文章的地址的超链接，那么爬虫只要捕捉到这个地址就可以了。

3、接下来在一个问题就是翻页问题，可以看到，这和大多数网站不同，底部没有页数标签，而是查看更多。

4、不过在查看源文件时有一个超链接，经测试它指向下一页，那么通过改变其最后的数值，就可以定位到相应的页数上。

代码如下：

回答（2）：

看下这个，用requests写的，比urllib代码简单点。其次就是正则表达式，匹配到自己想要抓取的内容
http://blog.csdn.net/tangdou5682/article/details/52596863

回答（3）：

这里有比较详细的介绍

http://blog.csdn.net/column/details/why-bug.html