The multisite-python-crawler from chandrasekharan98

Not getting any content output

I am not getting any scrapped content output in the file , could you please help me what am i missing ?

Command line command used :
scrapy crawl mySpider -a url=https://en.wikipedia.org/wiki/Jimmy_Wales -a domain=en.wikipedia.org
or
scrapy crawl mySpider -a url=https://en.wikipedia.org/wiki/Jimmy_Wales -a domain=en.wikipedia.org -o crawloutput.json

Logs detail
2021-01-21 13:48:43 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scraper)
2021-01-21 13:48:43 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.9.1 (tags/v3.9.1:1e5d33e, Dec 7 2020, 17:08:21) [MSC v.1927 64 bit (AMD64)], pyOpenSSL 20.0.1 (OpenSSL 1.1.1i 8 Dec 2020), cryptography 3.3.1, Platform Windows-10-10.0.18362-SP0
2021-01-21 13:48:43 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-01-21 13:48:43 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'scraper',
'FEED_EXPORT_ENCODING': 'utf-8',
'FEED_EXPORT_FIELDS': ['page', 'content'],
'LOG_FILE': 'crawlLog.log',
'NEWSPIDER_MODULE': 'scraper.spiders',
'ROBOTSTXT_OBEY': True,
'SPIDER_MODULES': ['scraper.spiders']}
2021-01-21 13:48:43 [scrapy.extensions.telnet] INFO: Telnet Password: ca69516842f716a0
2021-01-21 13:48:43 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.feedexport.FeedExporter',
'scrapy.extensions.logstats.LogStats']
2021-01-21 13:48:44 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2021-01-21 13:48:44 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2021-01-21 13:48:44 [scrapy.middleware] INFO: Enabled item pipelines:
['scraper.pipelines.JsonPipeline']
2021-01-21 13:48:44 [scrapy.core.engine] INFO: Spider opened
2021-01-21 13:48:44 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2021-01-21 13:48:44 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2021-01-21 13:48:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://en.wikipedia.org/robots.txt> (referer: None)
2021-01-21 13:48:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://en.wikipedia.org/wiki/Jimmy_Wales> (referer: None)
2021-01-21 13:48:46 [scrapy.core.engine] INFO: Closing spider (finished)
2021-01-21 13:48:46 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 566,
'downloader/request_count': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 108265,
'downloader/response_count': 2,
'downloader/response_status_count/200': 2,
'elapsed_time_seconds': 2.110344,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2021, 1, 21, 8, 18, 46, 168404),
'log_count/DEBUG': 2,
'log_count/INFO': 10,
'response_received_count': 2,
'robotstxt/request_count': 1,
'robotstxt/response_count': 1,
'robotstxt/response_status_count/200': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2021, 1, 21, 8, 18, 44, 58060)}
2021-01-21 13:48:46 [scrapy.core.engine] INFO: Spider closed (finished)

chandrasekharan98 / multisite-python-crawler Goto Github PK

multisite-python-crawler's People

Contributors

Stargazers

Watchers

Forkers

multisite-python-crawler's Issues

Not getting any content output

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent