摘要: 大數據,無論是從產業上,還是從技術上來看,都是目前的發展熱點。在中國,政府控制著80%的數據,剩下的多由“BAT”這樣的大公司擁有,中小企業如何構建自己的大數據系統?其他企業如何建設自己的大數據系統? 推薦兩大應用最廣泛、國人認知最多的Apache開源大數據框架系統:Spark Hadoop......

摘要: 隨著用戶使用天數的增加,不管你的業務是擴大還是縮減了,為什麼你的大數據中心架構保持線性增長的趨勢?很明顯需要一個穩定的基本架構來保障你的業務線。當你的客戶處在休眠期,或者你的業務處在淡季,你增加的計算資源就處在浪費階段;相對應地,當你的業務在旺季期,或者每週一每個人對上週的數據進行查詢分析,有多少次你忒想擁有額外的計算資源。......

摘要: 如果你夢想成為一名數據科學家,或者已然是數據科學家的你想擴展自己的工具庫,那麼,你找對地方啦。 本文旨在為做數據分析的Python人提供一條全方位的學習之路,完整講述運用Python進行數據分析的所有步驟......

摘要: Apache Spark是一個為速度和通用目標設計的集群計算平台。從速度的角度看,Spark從流行的MapReduce模型繼承而來,可以更有效地支持多種類型的計算,如交互式......

 

前面幾篇[Python][教學] 網路爬蟲(crawler)實務(上)–網頁元件解析[Python][教學] 網路爬蟲(crawler)實務(下)–爬蟲策略以及設定介紹了撰寫爬蟲程式基本的觀察以及實作方式.這樣的方式爬一兩個小網站還可以,但是如果要爬比較複雜或是多個網站就比較難維護.因此實務上比較常使用Scrapy這個爬蟲框架來處理,這次將介紹更進階的使用方法給各位.

 今年部落格最受歡迎文章:[Python] 現學現賣之網路爬蟲(Crawler)--以抓本BLOG為例是我剛學python時寫的程式,內容其實也都是照著老師的課程講義來做,很多細節也是矇懞懂懂.至今過了半年,爬網的經驗也多了一點,比較有內容可以跟大家分享.爬網有很多種用途,對比起搜尋引擎的全頁抓取,更多時候是抓取特定網站的特定內容,這時候除了爬蟲程式本身之外,對於網站欄位的解析更為重要.

Scrapy是python上很受歡迎的爬網框架,官方網站為:http://doc.scrapy.org/en/latest/index.html.介紹Scrapy的網站很多,官網自己就寫得很清楚,一些中文化的資料可參考像是http://www.addbook.cn/book/scrapy中文手册等資料.今天主要介紹的是爬網之後的動作.爬網並不是單純爬文而已,而是為了提供之後進一步的分析,所以資料都必須儲存下來,儲存的方式有很多種,可以單純是個file,再由分析軟體來處理資料,或是把資料放在資料庫中,做進一步的分析.

熱門標籤雲

每月文章