首页

58问答库 > 如何用Python抓取动态页面信息

如何用Python抓取动态页面信息

2024-12-05 00:07:19

推荐回答（1个）

回答（1）：

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

复制代码代码如下:

import urllib2
url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"
up=urllib2.urlopen(url)#打开目标页面，存入变量up
cont=up.read()#从up中读入该HTML文件
key1='pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx

但是，在动态页面中，所显示的内容往往不是通过HTML页面呈现的，而是通过调用js等方式从数据库中得到数据，回显到网页上。以发改委网站上的“备案信息”（http://beian.hndrc.gov.cn/）为例，要抓取此页面中的某些备案项目。例如“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”。
那么，在浏览器中打开此页面：

相关信息都显示的很全了，但是如果按照之前的办法：

复制代码代码如下:

up=urllib2.urlopen(url)
cont=up.read()

如何用Python抓取动态页面信息

如何用python抓取动态页面信息

python如何抓取动态页面中的数据

如何用python爬取js动态生成内容的页面

如何用Python爬取动态加载的网页数据

如何用Python抓取动态页面信息

python爬虫怎么获取动态的网页源码

如何用Python抓取动态页面信息

最新问答

如何用Python抓取动态页面信息

我是商务领航总机服务套餐（c)的用户，请问如何使用上网套餐，需要开通吗？ -湖北

各银行的纸黄金手续费是多少啊？用哪个银行的比较合适一些呢？

淋巴结肿大钼靶显示腋淋巴结，原因是什么？

基于单片机的温度数据采集系统设计

从西直门到延庆火车站北广场怎么坐公交车，最快需要

问：我与前夫离婚有一个孩子，现在又认识了一个男朋友，认识一年多了，他对我很好，他也有个孩子我和他的

我只要一天不给相亲对象发信息第二天在给她发就说哎呦怎么给我发信息了浓浓的怨念掌控是不是

古代人对年龄的称呼有什么？

2017年三级残疾人补贴