online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 用數據解讀時事政治對《政府工作報告》進行文本挖掘

摘要: 2016年3月2日,中國進入“兩會”時間。政協第十二屆四次會議與人大十二屆四次會議的開幕對於中國經濟發展決勝開局具有至關重要的意義。3月5日上午,十二屆全國人大四次會議開幕,國務院總理李克強作政府工作報告,系統總結了2015年政府工作,並為轉型期的中國經濟發展提出了新的方向。分析《政府工作報告》成為社會各界關注兩會的重要視角。......

 


▲(來源:36大數據)

為了更好地理解《政府工作報告》,本文對自1954年以來的47次《政府工作報告》的文本進行自動化分析。首先,我們對2016年《政府工作報告》的文本通過提取關鍵詞的方式進行分析。對文本進行分詞、統計詞頻後,即可通過詞云的方式展示。比如2016年政府工作報告的關鍵詞如下(如圖1所示):

發展(139)、 建設(68)、 經濟(67)、 改革(62)、 推進(62)、 創新(56)、 加快(42)、 加強(41)、 政府(40)、 促進(37)、實施(36)、 增長(36)、 企業(35)、 政策(35)、 推動(34)、 社會(34)、 中國(32)、 提高(31)、 我們(30)、 全面(28)、完善(27)、 擴大(26)、 工作(26)、 制度(26)、 實現(25)、 就業(24)、 人民(24)、 支持(24)、 堅持(23)、 我國(22)、國家(21)、 一批(21)、 創業(21)、 安全(21)、 農村(20)、 合作(20)、 國際(20)、 繼續(19)、 地方(19)、 服務(19) 、 投資(19)、 積極(19)、 取得(19)、 基本(18)、 落實(18)、 加大(18)、 機制(18)、 今年(18)、 地區(17)、 問題(17 )

一、 圖示如下

 

 

與單純計算詞頻的衡量方法相比,詞與詞之間的距離和關係也需要考慮。為此,我們採用了兩種測量方法(tfidf和textrank),以保證測量的準確性。採用tfidf方法,排名前五十的詞語依次是: 發展、推進、改革、建設、創新、加快、經濟、加強、促進、實施、政府、推動、完善、政策、全面、增長、社會、就業、企業、提高、創業、擴大、制度、堅持、一批、深化、人民、落實、支持、農村、試點、實現、安全、合作、工作、我國、動能、機制、加大、服務業、城鎮、我們、服務、取得、依法、積極、中國、深入、結構性、民生

採用textrank的測量方法,排名前五十的詞語依次是: 發展、建設、經濟、改革、推進、創新、加強、加快、政府、推動、促進、實施、企業、政策、社會、制度、中國、提高、完善、全面、增長、擴大、支持、實現、工作、機制、創業、人民、服務、農村、試點、地方、堅持、國家、國際、繼續、就業、合作、基本、加大、農業、投資、保護、問題、地區、依法、工程、取得、鼓勵、建立

可見,這兩種算法得到的結果基本一致。為了更好的比較這兩個結果,我們將其繪製在同一張圖上,見圖2所示。各個關鍵詞基本分佈在一條直線上證明兩種算法具有一致性。這兩種算法也有區別,tfidf劃分出的詞語的重要性分佈在0到0.07之間,而textrank計算的詞語重要性分佈範圍更廣,在0到1之間。無論採用哪一種算法,重要的詞語佔少數,多數詞語的重要性較低,因而在圖2當中聚集在一起。但是這些重要性得分低的詞語雖然處於長尾分佈上,卻對我們正確理解《政府工作報告》的細節具有很大的作用,我們將在後​​文具體分析。

二、 圖示如下

 

 

先來看一下重要性最大的詞語。由圖2可以顯著地發現“發展”是2016年的最強音,處於第一個重要性台階上;建設、改革、推進、創新則處於第二個重要性台階上;“加強”、“加快”、“經濟”則位於第三個重要性的台階上;其它的詞語則位於第四個台階上。此外,分析詞語重要性隨著時間的變化可以給我們帶來更多洞見。例如,根據人民網報導,2016年政府工作報告59次提“創新” 達前兩年之和。可見“創新”是2016年政府工作的重中之重。為此我們將以上討論的詞語(“發展”、“經濟”、“改革”、“創新”)的重要性隨時間變化的情況繪製出來,如下圖3所示。

三、 圖示如下

 

 

由圖3我們可以發現,其實“發展”在過去40多年來的一直非常高,這體現了中國歷次《政府工作報告》對於“發展”的高度重視,只有少數年份存在波動,比如1990年和2007年。 與之相比,其它重要關鍵詞則遠沒有如此穩定,根據每年的施政目標不同而呈現波動情況。例如,在過去四十年裡面,“改革”經歷了從劇烈起伏到小幅度波動的變化,但其五年滑動平均值維持在0.6左右;而“經濟”一詞在歷次《政府工作報告》中則呈現穩定下降的趨勢。這與中國經濟在過去幾十年裡持續增長的情況相關,因為經濟情況的持續改善,國家和人民對於生活其他方面的需求不斷增加。例如,人民網就2016兩會熱點進行了調查,388萬人次參與了網絡投票,數據顯示的主要議題排名為:社會保障(507289票)、居民收入(475184票)、醫療改革(435342票)、打虎拍蠅(435342票)、教育公平(413165票)、住房(387930票)、環境保護(356641票)、司法改革(283129票)。這充分顯示了公眾對於社會福利、公平正義的強烈追求。......

轉貼自: 36大數據

 


留下你的回應

以訪客張貼回應

0
  • 找不到回應