你懂Scrapy嗎？Scrapy大型爬蟲框架講解【一】

摘要：這是Scrapy爬蟲框架的第一篇，本系列專題將包含以下內容： 1.介紹Scrapy框架的主體以及各個組件的意義；2.舉實例講解其具體應用。

作者：蚍蜉撼大樹

這是Scrapy爬蟲框架的第一篇，本系列專題將包含以下內容：

介紹Scrapy框架的主體以及各個組件的意義；
舉實例講解其具體應用。

開始第一節：介紹Scrapy框架的主體以及各個組件的意義。

Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

其最初是為了頁面抓取(更確切來說, 網絡抓取)所設計的，也可以應用在獲取API所返回的數據(例如Amazon Associates Web Services ) 或者通用的網絡爬蟲。

安裝Scrapy需要一些依賴：

Python
Python Package: pip and setuptools. 現在pip 依賴setuptools ，如果未安裝，則會自動安裝setuptools 。
lxml.大多數Linux發行版自帶了lxml。如果缺失，請查看Installing lxml
OpenSSL. 除了Windows(請查看平台安裝指南)之外的系統都已經提供。

當安裝好這些依賴之後，只需要運行pip install Scrapy，即可安裝完Scrapy。

然後運行：

scrapy startproject tutorial

即可自動創建官方標準的代碼目錄。

tutorial/
    scrapy.cfg
    tutorial/
        __init__. py 
        items . py 
        pipelines. py 
        settings. py
        spiders/
            __init__. py 
            ...

其中：

tutorial/: 該項目的python總模塊。
tutorial/items.py: 項目中的item文件，編寫爬取的字段名稱等；
tutorial/pipelines.py: 項目中的pipelines文件；
tutorial/settings.py: 項目的設置文件，較為重要；
tutorial/spiders/: 放置spider代碼的主目錄；

Scrapy整體架構神圖：

Scrapy中的數據流由執行引擎控制，其過程如下:

引擎打開一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。
引擎從Spider中獲取到第一個要爬取的URL並在調度器(Scheduler)以Request調度。
引擎向調度器請求下一個要爬取的URL。
調度器返回下一個要爬取的URL給引擎，引擎將URL通過下載中間件(請求(request)方向)轉發給下載器(Downloader)。
一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中間件(返回(response)方向)發送給引擎。
引擎從下載器中接收到Response並通過Spider中間件(輸入方向)發送給Spider處理。
Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。
引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給調度器。
(從第二步)重複直到調度器中沒有更多地request，引擎關閉該網站。

以上是老生常談，下面談一些經驗：

如果需要大批量分佈式爬取，建議採用Redis數據庫存儲，可安裝scrapy-redis，使用redis數據庫來替換scrapy原本使用的隊列結構（deque），並配合其它數據庫存儲，例如MySQL或者MongoDB，爬取效率將會極大提高。並且其自帶的dupefilter.py負責執行requst的去重，使用redis的set數據結構，通過settings文件正確設置後，即便停止scrapy爬蟲，當下次重新開始後也能自動去重。原因就是在redis已經存儲了request的信息。
當涉及到代理IP，Headers頭中間請求信息處理的時候，可以通過中間件Middleware來實現。Spider中間件是介入到Scrapy的spider處理機制的鉤子框架，可以添加代碼來處理髮送給Spiders的response及spider產生的item和request。
合理設置settings文件，需要熟練掌握settings 的各種設置。
可以重新定義def start_requests(self)函數來加載cookie信息，form信息的提交用scrapy.FormRequest以及scrapy.FormRequest.from_response這兩個函數，scrapy.FormRequest.from_response能實現自動提交form數據。
採用Scrapy+phantomJS，。downloadMiddleware 對從scheduler 送來的Request 對像在請求之前進行預處理，可以實現添加headers， user_agent，還有cookie 等功能。但也可以通過中間件直接返回HtmlResponse 對象，略過請求的模塊，直接扔給response 的回調函數處理。

class  CustomMetaMiddleware (object) : 
    def  process_request (self,request,spider) :
        dcap = dict(DesiredCapabilities.PHANTOMJS)     
        dcap[ "phantomjs.page.settings.loadImages" ] = False   
        dcap[ "phantomjs.page.settings.resourceTimeout" ] = 10 
        driver = webdriver.PhantomJS( "D:xx\xx" ,desired_capabilities=dcap)
        driver.get(request.url)
        body = driver.page_source.encode( 'utf8' )
        url = driver.current_url
        driver.quit()
        return HtmlResponse(request.url,body=body)

綜上，是對Scrapy的各個組件一些個人的經驗總結。

via：知乎

End.

轉貼自： 36大數據

訪客 - Lori
回報固定連結

http://cera-tlusta-pielegnacja.pl/kategorie/pielegnacja/ natychmiast

約 7 年前 http://maps.google.com/maps?z=15&q=,

0 讚分享短網址: Facebook Twitter 回覆
訪客 - Raul
回報固定連結

błyskawicznie nisko http://pl.richevon.com/czy-naturalny-krem-przeciwzmarszczkowy-da-sobie-rade.php

約 7 年前 http://maps.google.com/maps?z=15&q=,

0 讚分享短網址: Facebook Twitter 回覆
訪客 - Chris
回報固定連結

Denotation that the full digit of deaths in the analyse was too shaky to rule unserviceable that the results could be in arrears to chance. https://klub.charaktery.eu/czlonkowie/istrefa/

約 7 年前 http://maps.google.com/maps?z=15&q=,

0 讚分享短網址: Facebook Twitter 回覆

你懂Scrapy嗎？Scrapy大型爬蟲框架講解【一】

摘要：這是Scrapy爬蟲框架的第一篇，本系列專題將包含以下內容： 1.介紹Scrapy框架的主體以及各個組件的意義；2.舉實例講解其具體應用。

留下你的回應

以訪客張貼回應

在此對話中的人們

回應 (3)

訪客 - Lori

訪客 - Raul

訪客 - Chris

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

	今日	701
	昨日	1341
	本週	701
	本月	21013
	總訪客量	2767047

摘要： 這是Scrapy爬蟲框架的第一篇，本系列專題將包含以下內容： 1.介紹Scrapy框架的主體以及各個組件的意義；2.舉實例講解其具體應用。

留下你的回應

以訪客張貼回應

在此對話中的人們

回應 (3)

訪客 - Lori

訪客 - Raul

訪客 - Chris

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

摘要：這是Scrapy爬蟲框架的第一篇，本系列專題將包含以下內容： 1.介紹Scrapy框架的主體以及各個組件的意義；2.舉實例講解其具體應用。