Scrapy печатает поля, но не заполняет файл XML

У меня проблема, когда он правильно печатает файлы XML, но не заполняет файл XML каким-либо содержимым.

Вывод в терминале такой:

[u'Tove'] [u'Jani'] [u'Reminder'] [u"Don't forget me this weekend!"]

Однако вывод site_products.xml приводит к следующему (что неверно, нет данных):

<?xml version="1.0" encoding="utf-8"?>
<items></items>

паук.py

from scrapy.contrib.spiders import XMLFeedSpider
from crawler.items import CrawlerItem

class SiteSpider(XMLFeedSpider):
    name = 'site'
    allowed_domains = ['www.w3schools.com']
    start_urls = ['http://www.w3schools.com/xml/note.xml']
    itertag = 'note'

    def parse_node(self, response, selector):
        to = selector.xpath('//to/text()').extract()
        who = selector.xpath('//from/text()').extract()
        heading = selector.xpath('//heading/text()').extract()
        body = selector.xpath('//body/text()').extract()
        return item

трубопроводы.py

from scrapy import signals
from scrapy.contrib.exporter import XmlItemExporter

class XmlExportPipeline(object):

    def __init__(self):
        self.files = {}

    @classmethod
    def from_crawler(cls, crawler):
         pipeline = cls()
         crawler.signals.connect(pipeline.spider_opened, signals.spider_opened)
         crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
         return pipeline

    def spider_opened(self, spider):
        file = open('%s_products.xml' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = XmlItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

элементы.py

import scrapy                                                                                           


class CrawlerItem(scrapy.Item):
    to = scrapy.Field()
    who = scrapy.Field()
    heading = scrapy.Field()
    body = scrapy.Field()
    pass

settings.py

BOT_NAME = 'crawler'                                                                                                                                                                                           
SPIDER_MODULES = ['crawler.spiders']                                                                    
NEWSPIDER_MODULE = 'crawler.spiders'
ITEM_PIPELINES = {'crawler.pipelines.XmlExportPipeline': 300,}

Любая помощь в этом будет очень признательна.


person J.Zil    schedule 24.04.2015    source источник
comment
Ваш паук не заполняет поля в вашем элементе (где вы вообще определяете item)?   -  person Blender    schedule 25.04.2015
comment
@Blender Я не знаю, как это сделать. Раньше у меня был элемент «Возврат», но это не сработало, когда я попробовал. Любая помощь будет оценена по достоинству.   -  person J.Zil    schedule 25.04.2015


Ответы (1)


Вам нужно создать экземпляр CrawlerItem в методе parse_node():

def parse_node(self, response, selector):
    item = CrawlerItem()
    item['to'] = selector.xpath('//to/text()').extract()
    item['who'] = selector.xpath('//from/text()').extract()
    item['heading'] = selector.xpath('//heading/text()').extract()
    item['body'] = selector.xpath('//body/text()').extract()
    return item
person alecxe    schedule 24.04.2015