【调试】在Pycharm中调试scrapy爬虫的两种方法

当前位置: 首页 >> Python >> 【调试】在Pycharm中调试scrapy爬虫的两种方法 >> 正文

【调试】在Pycharm中调试scrapy爬虫的两种方法

2020年03月16日 20:42:17 作者:Jiaozn 分类:Python 评论(0)

通常，运行scrapy爬虫的方式是在命令行输入scrapy crawl <spider_name>,调试的常用方式是在命令行输入scrapy shell <url_name>。总的来说，调试方法比较单一。其实，还有两种调试方法，可以在pycharm中实现调试。

1.使用scrapy.cmdline的execute方法

首先，在项目文件scrapy.cfg的同级建立main.py文件（注意，必须是同级建立），在其中键入如下代码：

from scrapy.cmdline import execute
import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(['scrapy', 'crawl', 'spider_name'])  # 你需要将此处的spider_name替换为你自己的爬虫名称

在其余爬虫文件中设置断点后，运行main.py,即可实现在pycharm中的调试。

2.使用scrapy的CrawlerProcess方法

在项目文件scrapy.cfg的同级建立main.py文件（注意，必须是同级建立），在其中键入如下代码：

from scrapy.crawler import CrawlerProcessfrom scrapy.utils.project import get_project_settingsif __name__ == '__main__':
    process = CrawlerProcess(get_project_settings())
    process.crawl('spider_name')    #  你需要将此处的spider_name替换为你自己的爬虫名称
    process.start()

在其余爬虫文件中设置断点后，运行main.py,即可实现在pycharm中的调试。
两种方式都很简单实用，值得掌握。

除非注明，发表在“Jiaozn的博客”的文章『【调试】在Pycharm中调试scrapy爬虫的两种方法』版权归Jiaozn所有。转载请注明出处为“本文转载于『Jiaozn的博客』原地址https://www.jiaozn.com/reed/565.html”

上一篇:【修复】ubuntu黑屏无法进入系统，Recovery救援模式

下一篇:【磁盘】挂载磁盘报错“Structure needs cleaning”

发表评论