scrapy入门_2爬取豆瓣军事类图书（2）-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

scrapy入门_2爬取豆瓣军事类图书（2）

阅读量：5939 次

发布时间：2019-06-19

本文共 569 字，大约阅读时间需要 1 分钟。

前言

上回讲到，爬取了的第一页内容，本回主要实现爬取剩余页面的内容，实现思路均参照

代码实现

def parse(self, response):        #####省略#####        #查看页面源码，找到”后一页“的链接        next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()        print("&&&&&&",next_page)        if next_page is not None:            yield response.follow(next_page,self.parse)

找到页面中”后一页“的链接的内容，只需解析出该内容，然后调用follow函数即可了

编译执行

按照说的，执行命令scrapy crawl dbbook -o junshibook89-1.json将结果存入json文件

但是！爬虫值爬了start_urls,并未爬取剩余页面内容

只需将开头allowed_domains = ['https://book.douban.com/tag/军事']注释掉或者删掉即可

重新执行，查看生成的junshibook89-1.json文件

git地址：

转载地址：http://rdttx.baihongyu.com/

你可能感兴趣的文章

请听一个故事------>讲述一段失败的创业经历，希望你能从中受到启发

详解连接SQL Server数据库的方法，并使用Statement接口实现对数据库的增删改操作...

js组成之dom_dom对象样式操作及运用

jquery_jquery动态创建元素及应用

[转载]Windows 2012 R2安装SharePoint 2013 手动安装工具软件

Filter学习（三）Filter(过滤器)常见应用

Algs4-2.1.20希尔排序的最好情况

a letter and a number

哇哦！恍然大悟般的“share”功能的实现！

Java MVC设计模式

ASP.NET文件下载详细步骤

数据分析的能力体系和进阶路线

深度探索区块链/基于数字证书的成员管理服务（8）

求和问题(DFS)

hdu 亲和串(kmp)

HTML基础知识笔记(二)

Sim Module Profile

Python--关于 join 和 split

javascript 取后台值

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-28 13:22:18 当前IP: 13.58.77.244 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我