在資訊爆炸的今天,以往的巨量資料大部分是拿數據型資料做分析,例如銷售及顧客資料分析出啤酒與尿布的關聯,數據型分析已經日趨成熟,接下來將會是非結構化資料,也就是自然語言處理以及機器學習的時代,相信在不久的將來,電腦與人類的真實對話將會出現在你我眼前。

Scrapy是python上很受歡迎的爬網框架,官方網站為:http://doc.scrapy.org/en/latest/index.html.介紹Scrapy的網站很多,官網自己就寫得很清楚,一些中文化的資料可參考像是http://www.addbook.cn/book/scrapy中文手册等資料.今天主要介紹的是爬網之後的動作.爬網並不是單純爬文而已,而是為了提供之後進一步的分析,所以資料都必須儲存下來,儲存的方式有很多種,可以單純是個file,再由分析軟體來處理資料,或是把資料放在資料庫中,做進一步的分析.

熱門標籤雲

每月文章