online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 Python 爬蟲的工具列表附Github代碼下載鏈接

摘要: 這個列表包含與網頁抓取和數據處理的Python庫 (1) 網路 (2) 網路爬蟲...

這個列表包含與網頁抓取和數據處理的Python庫

網路

  • 通用
    • urllib -網路庫(stdlib)。
    • requests -網路庫。
    • grab – 網路庫(基於pycurl)。
    • pycurl – 網路庫(綁定libcurl)。
    • urllib3 – Python HTTP庫,安全連接池、支持檔post、可用性高。
    • httplib2 – 網路庫。
    • RoboBrowser – 一個簡單的、極具Python風格的Python庫,無需獨立的流覽器即可流覽網頁。
    • MechanicalSoup -一個與網站自動交互Python庫。
    • mechanize -有狀態、可程式設計的Web流覽庫。
    • socket – 底層網路介面(stdlib)。
    • Unirest for Python – Unirest是一套可用於多種語言的羽量級的HTTP庫。
    • hyper – Python的HTTP/2用戶端。
    • PySocks – SocksiPy更新並積極維護的版本,包括錯誤修復和一些其他的特徵。作為socket模組的直接替換。
  • 非同步
    • treq – 類似於requests的API(基於twisted)。
    • aiohttp – asyncio的HTTP用戶端/伺服器(PEP-3156)。

網路爬蟲框架

  • 功能齊全的爬蟲
    • grab – 網路爬蟲框架(基於pycurl/multicur)。
    • scrapy – 網路爬蟲框架(基於twisted),不支援Python3。
    • pyspider – 一個強大的爬蟲系統。
    • cola – 一個分散式爬蟲框架。
  • 其他
    • portia – 基於Scrapy的視覺化爬蟲。
    • restkit – Python的HTTP資源工具包。它可以讓你輕鬆地訪問HTTP資源,並圍繞它建立的物件。
    • demiurge – 基於PyQuery的爬蟲微框架。

HTML/XML解析器

  • 通用
    • lxml – C語言編寫高效HTML/ XML處理庫。支持XPath。
    • cssselect – 解析DOM樹和CSS選擇器。
    • pyquery – 解析DOM樹和jQuery選擇器。
    • BeautifulSoup – 低效HTML/ XML處理庫,純Python實現。
    • html5lib – 根據WHATWG規範生成HTML/ XML文檔的DOM。該規範被用在現在所有的流覽器上。
    • feedparser – 解析RSS/ATOM feeds。
    • MarkupSafe – 為XML/HTML/XHTML提供了安全轉義的字串。
    • xmltodict – 一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模組。
    • xhtml2pdf – 將HTML/CSS轉換為PDF。
    • untangle – 輕鬆實現將XML檔轉換為Python物件。
  • 清理
    • Bleach – 清理HTML(需要html5lib)。
    • sanitize – 為混亂的資料世界帶來清明。

文本處理

用於解析和操作簡單文本的庫。

  • 通用
  • difflib – (Python標準庫)幫助進行差異化比較。
  • Levenshtein – 快速計算Levenshtein距離和字串相似度。
  • fuzzywuzzy – 模糊字串匹配。
  • esmre – 規則運算式加速器。
  • ftfy – 自動整理Unicode文本,減少碎片化。
  • 轉換
  • unidecode – 將Unicode文本轉為ASCII。
  • 字元編碼
  • uniout – 列印可讀字元,而不是被轉義的字串。
  • chardet – 相容 Python的2/3的字元編碼器。
  • xpinyin – 一個將中國漢字轉為拼音的庫。
  • pangu.py – 格式化文字中CJK和字母數位的間距。
  • Slug化
  • awesome-slugify – 一個可以保留unicode的Python slugify庫。
  • python-slugify – 一個可以將Unicode轉為ASCII的Python slugify庫。
  • unicode-slugify – 一個可以將生成Unicode slugs的工具。
  • pytils – 處理俄語字串的簡單工具(包括pytils.translit.slugify)。
  • 通用解析器
  • PLY – lex和yacc解析工具的Python實現。
  • pyparsing – 一個通用框架的生成語法分析器。
  • 人的名字
  • 電話號碼
  • phonenumbers -解析,格式化,存儲和驗證國際電話號碼。
  • 使用者代理字串

特定格式檔處理

解析和處理特定文本格式的庫。

  • 通用
  • tablib – 一個把資料匯出為XLS、CSV、JSON、YAML等格式的模組。
  • textract – 從各種檔中提取文本,比如 Word、PowerPoint、PDF等。
  • messytables – 解析混亂的表格資料的工具。
  • rows – 一個常用資料介面,支援的格式很多(目前支援CSV,HTML,XLS,TXT – 將來還會提供更多!)。
  • Office
  • python-docx – 讀取,查詢和修改的Microsoft Word2007/2008的docx檔。
  • xlwt / xlrd – 從Excel檔讀取寫入資料和格式資訊。
  • XlsxWriter – 一個創建Excel.xlsx檔的Python模組。
  • xlwings – 一個BSD許可的庫,可以很容易地在Excel中調用Python,反之亦然。
  • openpyxl – 一個用於讀取和寫入的Excel2010 XLSX/ XLSM/ xltx/ XLTM檔的庫。
  • Marmir – 提取Python資料結構並將其轉換為試算表。
  • PDF
  • PDFMiner – 一個從PDF文檔中提取資訊的工具。
  • PyPDF2 – 一個能夠分割、合併和轉換PDF頁面的庫。
  • ReportLab – 允許快速創建豐富的PDF文檔。
  • pdftables – 直接從PDF檔中提取表格。
  • Markdown
  • Python-Markdown – 一個用Python實現的John Gruber的Markdown。
  • Mistune – 速度最快,功能全面的Markdown純Python解析器。
  • markdown2 – 一個完全用Python實現的快速的Markdown。
  • YAML
  • PyYAML – 一個Python的YAML解析器。
  • CSS
  • cssutils – 一個Python的CSS庫。
  • ATOM/RSS
  • SQL
  • sqlparse – 一個非驗證的SQL語句分析器。
  • HTTP
  • HTTP
  • http-parser – C語言實現的HTTP請求/回應訊息解析器。
  • 微格式
  • opengraph – 一個用來解析Open Graph協定標籤的Python模組。
  • 可移植的執行體
  • pefile – 一個多平臺的用於解析和處理可移植執行體(即PE)檔的模組。
  • PSD
  • psd-tools – 將Adobe Photoshop PSD(即PE)檔讀取到Python資料結構。

自然語言處理

處理人類語言問題的庫。

  • NLTK -編寫Python程式來處理人類語言資料的最好平臺。
  • Pattern – Python的網路挖掘模組。他有自然語言處理工具,機器學習以及其它。
  • TextBlob – 為深入自然語言處理任務提供了一致的API。是基於NLTK以及Pattern的巨人之肩上發展的。
  • jieba – 中文分詞工具。
  • SnowNLP – 中文文本處理庫。
  • loso – 另一個中文分詞庫。
  • genius – 基於條件隨機域的中文分詞。
  • langid.py – 獨立的語言識別系統。
  • Korean – 一個韓文形態庫。
  • pymorphy2 – 俄語形態分析器(詞性標注+詞形變化引擎)。
  • PyPLN  – 用Python編寫的分散式自然語言處理通道。這個專案的目標是創建一種簡單的方法使用NLTK通過網路介面處理大語言庫。

流覽器自動化與模擬

  • selenium – 自動化真正的流覽器(Chrome流覽器,火狐流覽器,Opera流覽器,IE流覽器)。
  • Ghost.py – 對PyQt的webkit的封裝(需要PyQT)。
  • Spynner – 對PyQt的webkit的封裝(需要PyQT)。
  • Splinter – 通用API流覽器模擬器(selenium web驅動,Django用戶端,Zope)。

多重處理

  • threading – Python標準庫的執行緒運行。對於I/O密集型任務很有效。對於CPU綁定的任務沒用,因為python GIL。
  • multiprocessing – 標準的Python庫運行多進程。
  • celery – 基於分散式消息傳遞的非同步任務佇列/作業佇列。
  • concurrent-futures – concurrent-futures 模組為調用非同步執行提供了一個高層次的介面。

非同步

非同步網路程式設計庫

  • asyncio – (在Python 3.4 +版本以上的 Python標準庫)非同步I/O,時間迴圈,協同程式和任務。
  • Twisted – 基於事件驅動的網路引擎框架。
  • Tornado – 一個網路框架和非同步網路庫。
  • pulsar – Python事件驅動的併發框架。
  • diesel – Python的基於綠色事件的I/O框架。
  • gevent – 一個使用greenlet 的基於協程的Python網路庫。
  • eventlet – 有WSGI支援的非同步框架。
  • Tomorrow – 非同步代碼的奇妙的修飾語法。

佇列

  • celery – 基於分散式消息傳遞的非同步任務佇列/作業佇列。
  • huey – 小型多執行緒任務佇列。
  • mrq – Mr. Queue – 使用redis & Gevent 的Python分散式工作任務佇列。
  • RQ – 基於Redis的羽量級任務佇列管理器。
  • simpleq – 一個簡單的,可無限擴展,基於Amazon SQS的佇列。
  • python-gearman – Gearman的Python API。

雲計算

  • picloud – 雲端執行Python代碼。
  • dominoup.com – 雲端執行R,Python和matlab代碼。

電子郵件

電子郵件解析庫

  • flanker – 電子郵寄地址和Mime解析庫。
  • Talon – Mailgun庫用於提取消息的報價和簽名。

網址和網路位址操作

解析/修改網址和網路位址庫。

  • URL
    • furl – 一個小的Python庫,使得操縱URL簡單化。
    • purl – 一個簡單的不可改變的URL以及一個乾淨的用於調試和操作的API。
    • urllib.parse – 用於打破統一資源定位器(URL)的字串在元件(定址方案,網路位置,路徑等)之間的隔斷,為了結合元件到一個URL字串,並將“相對URL”轉化為一個絕對URL,稱之為“基本URL”。
    • tldextract – 從URL的註冊域和子域中準確分離TLD,使用公共尾碼列表。
  • 網路位址
    • netaddr – 用於顯示和操縱網路位址的Python庫。

 

網頁內容提取

提取網頁內容的庫。

  • HTML頁面的文本和中繼資料
    • newspaper – 用Python進行新聞提取、文章提取和內容策展。
    • html2text – 將HTML轉為Markdown格式文本。
    • python-goose – HTML內容/文章提取器。
    • lassie – 人性化的網頁內容檢索工具
    • micawber – 一個從網址中提取豐富內容的小庫。
    • sumy -一個自動匯總文字檔和HTML網頁的模組
    • Haul – 一個可擴展的圖像爬蟲。
    • python-readability – arc90 readability工具的快速Python介面。
    • scrapely – 從HTML網頁中提取結構化資料的庫。給出了一些Web頁面和資料提取的示例,scrapely為所有類似的網頁構建一個分析器。
  • 視頻
    • youtube-dl – 一個從YouTube下載視頻的小命令列程式。
    • you-get – Python3的YouTube、優酷/ Niconico視頻下載器。
  • 維琪
    • WikiTeam – 下載和保存wikis的工具。

WebSocket

用於WebSocket的庫。

  • Crossbar – 開源的應用消息傳遞路由器(Python實現的用於Autobahn的WebSocket和WAMP)。
  • AutobahnPython – 提供了WebSocket協定和WAMP協定的Python實現並且開源。
  • WebSocket-for-Python – Python 2和3以及PyPy的WebSocket用戶端和伺服器庫。

DNS解析

  • dnsyo – 在全球超過1500個的DNS伺服器上檢查你的DNS。
  • pycares – c-ares的介面。c-ares是進行DNS請求和非同步名稱決議的C語言庫。

電腦視覺

  • OpenCV – 開源電腦視覺庫。
  • SimpleCV – 用於照相機、影像處理、特徵提取、格式轉換的簡介,可讀性強的介面(基於OpenCV)。
  • mahotas – 快速電腦影像處理演算法(完全使用 C++ 實現),完全基於 numpy 的陣列作為它的資料類型。

代理伺服器

  • shadowsocks – 一個快速隧道代理,可幫你穿透防火牆(支援TCP和UDP,TFO,多用戶和平滑重啟,目的IP黑名單)。
  • tproxy – tproxy是一個簡單的TCP路由代理(第7層),基於Gevent,用Python進行配置。

其他Python工具列表

轉貼自: 36大數據


留下你的回應

以訪客張貼回應

0

在此對話中的人們

YOU MAY BE INTERESTED