ython从零开始爬虫五——初遇json爬取某宝商品信息ython从零开始爬虫|获取网页的json文件_在线阅读

能看到这里说明快进入动态网页爬取了，在这之前还有一两个知识点要了解，就如本文要讲的json及其数据提取

json是轻量级的文本数据交换格式，符合json的格式的字符串叫json字符串，其格式就像python中字符串化后的字典，有时字典中还杂着列表字典，但是里面的数据都被双引号包着，下面是一个例子

有时F12源码中能看到完整的信息，request回来后就残缺到没有价值，这就说明网页使用了动态或者ajax技术，而这些技术所加载的信息，就有json的身影。为了顺利爬取目标，我们需要找到json数据。

JSON是JavaScript原生格式，亲生无误，所以在JavaScript中处理JSON数据不需要任何特殊的API或工具包。像python这样连的远亲，当然不能直接一把捉走别人的孩子，至少要带根棒棒糖来引诱一下呀，而这根棒棒糖就是json模块，python自带。

json 模块提供了一种很简单的方式来编码和解码JSON数据，实现了JSON数据(字符串)和python对象(字典)的相互转换。主要两个方法及常用参数：

爬虫领域内json的知识知道这些就行，那么马上来个实战了解一下怎样提取json中的数据，加深对json的认识吧，正好可以拿某宝来试手，商品的json数据直接出在对原链接request的结果中，不用捉包。（然而大多数json数据不会这样出现，这里选择某宝方便展示）

重要，但这也是要培养的能力，在这里只详细讲一次思路，以后靠自己分析

构造链接的原则是尽可能多的相关参数，尽可能少的无关参数，网址中?之后用&连起来的赋值关系就是那些参数，这些参数会传到服务器中，服务器根据它们来返回数据。爬虫中，页数，排序，日期等这类的参数是关键。我们要动态的修改这些参数来构造链接，观察能力很重要。还有构造链接时要多requests下来测试哪些是相关参数，哪些参数是无关紧要的，不是只看浏览器就行的

先进入官网搜索一件商品，这里以GTX1060为例，第一次出现的链接如下，

很长是吧，能大约的看到日期，商品名之类的参数，但是大部分参数都看不懂，我们假设部分参数是不影响爬取结果的，于是我们来继续按下看看有什么变化，当再次按下搜索键

链接变短了,在按多几下都是这个链接了

为了确保泛用性，我们换个商品再搜索，发现链接除q参数（商品名）改变外，其他一模一样，由此我们初步确定了链接结构，q参数是商品名，initiative_id是当天日期，其他不用变但我们的还要有翻页和排序的功能没实现，链接里也看不到和它们有关的参数，因此我们要继续按来引相关参数出来，点击排序那排按钮

发现又多了一个sort参数，不同的排序方式对应不同的值，有default（默认综合排序），sale-desc（按销量），renqi-desc（按人气）等

按下一页，又多了bcoffset，p4ppushleft，s三个参数，经测试只有s参数有用，其他两个都不影响爬取结果（直接去掉），s是页数相关参数，值是44的倍数（因为每页加载44件商品），第一页0，第二页44，第三页88……

剩下的就是整合到循环进行多页爬取了，代码最后贴上，下面在看看json数据怎样提取。

THE END

ython从零开始爬虫五——初遇json爬取某宝商品信息ython从零开始爬虫

ython从零开始爬虫五——初遇json爬取某宝商品信息ython从零开始爬虫

python爬取json文件python爬取json网页lazihuman的技术博客

python如何从网页获取json数据库–ingode

python获取网页的json数据库python爬取json网页colddawn的技术博客

labview获取网页数据

傻瓜式下载“喜马拉雅”音频文件aby

html分割上传实现超大文件无插件网页上传控件proer松鼠

总结工作中常用的代码浮尘微光

点击网页，轻松获取数据！ythonimport