python scrapy如何爬取今日头条的文章

2025-03-25 08:56:40

推荐回答（1个）

回答（1）：

这位大神写的很详细，不过现在api这个接口有点变化，多了一个参数

经过测试，这个参数可以固定！

start_urls=[

'ao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']

请求头

加密算法和js 感谢！

加密的js没找到，直接用大神写的解密方式

从redis获取数据重组

json数据

解析json数据

一开始使用的是，抽取"source_url"的数据，然后301重定向可以访问详细页，跑了几遍之后会有一些奇怪的url，最后发现这样的方式不行，然后重组url。

获取下一部分

下一部分，只使用10次

3.详细页解析

不是我们熟悉的html呈现，而是js的形式

解析：正则！！====>解析正文部分。

可以看到有'<>'的html里面的大于小于号

一开始是，把这些符号用正则替换

最后运行几次，有个别文章匹配方式跟这种有点不同，达不到通用，换方案！

这一段的正文，在浏览器上呈现，可以看到是一段html文字，所以想到转换，

etree呈现出来之后，我们可以提取出来，再次etree

解析

这种方式，目前运行正常

在这里只是提供一种方法，也许不是最好的，只要能达到目的就行！

也希望大家能有新的方法！