摘要: 線上百科全書維基百科為政治研究提供了極其豐富但尚未開發的資源。在本教程中提供了實用回顧,以展示這些平台如何為公眾關注動態,政策,政治和其他事件,政治精英和政黨提供研究信息等等。
利用維基百科研究政治
維基百科擁有多種類型的數據。這些內容包括文章內容以及位元信息,例如綜合瀏覽量,點擊流,鏈接和反向鏈接,或編輯和修訂歷史記錄,維基百科為(比較)政治研究提供了巨大的潛力。
在下文中,我們將介紹各種R的套件,包括WikipediR,WikidataR和pageviews。在此過程中,我們將展示如何連接到維基百科和維基數據API,如何有效地訪問和解析內容,以及如何處理檢索到的數據以解決各種實質性問題。我們還將提供legislatoR包的概述,這是一個完全關係的個人層面的數據包,其中包含來自各種統一民主國家的民選政治家的政治,社會人口統計學和維基百科相關數據。
使用Pageviews衡量公眾注意力
下面演示如何使用pageviews包收集和圖形顯示綜合瀏覽量數據。我們使用命令article_pageviews(),其中參數project =“en.wikipedia”指定我們要從英語維基百科收集article =“Donald Trump”的綜合瀏覽量。我們只能將查詢限制在給定的語言版本中;無法將查詢限制為來自特定國家/地區的綜合瀏覽量。我們還指定了參數user_type =“user”,這可以確保我們排除機器人生成的綜合瀏覽量。最後,start和 end 定義我們想要收集網頁瀏覽數據的時間段:2015年7月到2017年5月。我們類似地進行文章=“Hillary Clinton”。
使用文章鏈接創建德國國會議員的網絡圖
WikipediR包是MediaWiki API的包裝器,可用於檢索頁面內容以及文章和類別的元數據,例如:有關用戶或頁面編輯歷史的信息。該軟件包的功能包括:
page_content():檢索當前文章版本(HTML和wikitext作為可能的輸出格式)
revision_content():檢索文章的舊版本;這還包括有關修訂歷史的元數據
page_links():從頁面內容中檢索外發鏈接(頁面鏈接到哪些維基百科文章?)
page_backlinks():檢索傳入鏈接(哪些維基百科文章鏈接到該頁面?)
page_external_links():檢索指向外部站點的外發鏈接
page_info():頁面元數據
categories_in_page():給定頁面中是屬於哪些類別?
pages_in_category():給定類別中有哪些頁面?
對於我們的應用程序,我們使用page_links()函數來提取2017-2021德國聯邦議院成員的文章之間的相互推薦。然後,我們可以使用此信息創建當前德國議員的網絡圖。首先,我們使用legislatoR包來檢索2017-2021德國聯邦議院的所有德國議員名單,包括他們在德語維基百科中的頁面ID和頁面標題的信息。使用此信息,我們然後在每個MP的維基百科文章中提取所有page_links()。第三步確定鏈接到另一個當前MP的維基百科文章的每個MP的鏈接子集。
…
詳見全文: Methods Bites
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應