博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy入门_2爬取豆瓣军事类图书(2)
阅读量:5939 次
发布时间:2019-06-19

本文共 569 字,大约阅读时间需要 1 分钟。

前言

上回讲到,爬取了的第一页内容,本回主要实现爬取剩余页面的内容,实现思路均参照

代码实现

def parse(self, response):        #####省略#####        #查看页面源码,找到”后一页“的链接        next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()        print("&&&&&&",next_page)        if next_page is not None:            yield response.follow(next_page,self.parse)

找到页面中”后一页“的链接的内容,只需解析出该内容,然后调用follow函数即可了

编译执行

按照说的,执行命令scrapy crawl dbbook -o junshibook89-1.json将结果存入json文件

但是!爬虫值爬了start_urls,并未爬取剩余页面内容
只需将开头allowed_domains = ['https://book.douban.com/tag/军事']注释掉或者删掉即可
重新执行,查看生成的junshibook89-1.json文件

git地址:

转载地址:http://rdttx.baihongyu.com/

你可能感兴趣的文章
请听一个故事------>讲述一段失败的创业经历 ,希望你能从中受到启发
查看>>
详解连接SQL Server数据库的方法,并使用Statement接口实现对数据库的增删改操作...
查看>>
js组成之dom_dom对象样式操作及运用
查看>>
jquery_jquery动态创建元素及应用
查看>>
[转载]Windows 2012 R2安装SharePoint 2013 手动安装工具软件
查看>>
Filter学习(三)Filter(过滤器)常见应用
查看>>
Algs4-2.1.20希尔排序的最好情况
查看>>
a letter and a number
查看>>
图解HTTPS
查看>>
哇哦!恍然大悟般的“share”功能的实现!
查看>>
Java MVC设计模式
查看>>
ASP.NET文件下载详细步骤
查看>>
数据分析的能力体系和进阶路线
查看>>
深度探索区块链/基于数字证书的成员管理服务(8)
查看>>
求和问题(DFS)
查看>>
hdu 亲和串(kmp)
查看>>
HTML基础知识笔记(二)
查看>>
Sim Module Profile
查看>>
Python--关于 join 和 split
查看>>
javascript 取后台值
查看>>