【CSR x Data】文字探勘CSR@天下歷年文章

CSR@天下是由《天下雜誌》所創立,以企業社會責任為主軸的交流平台,提供國際趨勢的報導、專家學者的剖析、經典案例的分享等,引進最前瞻的觀念與做法,為CSR從業人員掌握產業動態及標竿案例的最佳平台之一。
為了觀察台灣近年的CSR發展脈絡,Sustaihub永訊智庫與CSR@天下共同合作,分析平台上1,703篇文章,搭配AI人工智慧及自然語言處理(Natural Language Processing, NLP)技術,進行資料清理、數據轉換、探勘並萃取資訊,解析所有文章的內容脈絡。同時,應用資料視覺化(Data visualization)概念,將龐雜的資料轉化為易於理解的簡明圖表,也幫助讀者回顧過去的經典CSR相關文章。
首先,我們先以最直覺的呈現方式分享文本探勘的結果,也就是文字雲(Word Cloud)。藉由統計分析CSR@天下所有文章的關鍵字詞,越常提到的關鍵字,在文字雲中的字體則越大,顯示出重要關鍵字的程度差異。協助讀者可以在不閱讀所有文章的前提下,快速聚焦在大批文章中的主要探討的議題。
從文字雲中可以觀察到,前十名的字詞為:企業社會責任、永續發展、氣候變遷、社會企業、再生能源、非營利組織、公司治理、天下企業公民獎、社會責任、循環經濟,顯示出CSR@天下的文章內文遵循著初衷,探討的議題皆圍繞在CSR與永續發展上。
從中也可以觀察到一些時事字詞,包括新冠肺炎、能源轉型、地方創生、塑膠吸管、大學社會責任等,代表在不同時間點上,CSR@天下的文章探討的主題也有所差異。因此,我們整理出2017年1月至2020年6月,每個月的關鍵字資料,搭配以下的動態橫條圖,可以觀察到各月份探討的主要議題分別是哪些。
以下表單依照每年各季度,整理出CSR@天下主要探討的文章類型。
以上的關鍵字都是透過統計演算法,自動產出的分析結果。由此可見,藉由文本探勘方式,可以有效的觀察出媒體平台、新聞報導或社群網站等,有哪些潛在的議題正在發酵。Sustaihub永訊智庫也將擴大應用文本探勘技術,協助企業可以即時掌握CSR領域的輿情分析,進行潛在風險管理。
為了更精準的呈現CSR@天下的文章類別與熱門程度,我們也分析文章頻道(CSR@天下平台的網站分類)及瀏覽次數等資料,期望瞭解讀者主要有興趣的文章類型是哪些。
CSR@天下的文章頻道分為兩個層次,以環境永續(第一層)為例,底下(第二層)包含減塑減廢、節能減碳、永續生態、循環經濟、環境短訊、再生能源、氣候變遷、綠色金融。藉由層次結構的雷達圖(Radial Hierarchy Diagram),可以很清楚的觀察到各階層之間的關係,而第二層的柱狀體,則代表著該類別下,所有文章的總瀏覽次數。
柱狀體越高,代表該類別越多人瀏覽。因此,在環境永續下最熱門的文章類型是「減塑減廢」、CSR專題則是「愛台灣的外國人」、永續治理是「企業承諾」、社會參與為「公益慈善」、社會責任是「CSR新知」。
此外,也可以從中觀察到在所有第二層的類別中,最多人瀏覽的前三名類別為「減塑減廢」、「名家專欄」、「愛台灣的外國人」。
以下表單整理出2017年至2020年6月的熱門文章:
透過以上列表可以發現熱門文章的類型,主要是專訪(愛台灣的外國人、專題策展)、減塑減廢、企業或國際案例等;在2020年則是因為疫情關係,使新冠肺炎相關的文章成為讀者關注的重點。
以下簡要分享Sustaihub永訊智庫處理文本資料的方式。
應用NLP自然語言處理的主要目的,在於讓電腦擁有理解人類語言的能力,藉以實現各種文本分析的自動化作業,例如:語言翻譯、輿情分析、偵測詐騙郵件、文章分類或摘要大綱等。
在本篇文章中,主要是應用於文本資訊提取,找出每篇文章主要探討的關鍵字議題,方便讀者從大量的文章中快速瞭解主軸內容。這個資料處理過程稱為中文斷詞,也是NLP自然語言處理的關鍵基礎之一。
中文斷詞的目的,是要從一句話裡面拆解出有意義的詞彙。
舉例來說,由電腦對「呼應國際推動永續發展目標的趨勢」這一句話進行斷詞作業:
- 沒有意義的斷詞:呼/應/國/際/推/動/永/續/發/展/目/標/的/趨/勢
- 有意義的斷詞:呼應/國際/推動/永續發展目標/的/趨勢
透過有意義的斷詞結果,搭配詞性的標注,將語言轉化為電腦容易處理及計算的格式,可以幫助電腦理解更清楚的理解語意。
比較特別的是,以「永續發展目標」為例,這在CSR領域是常用的專有名詞,但在一般的情況下,是可以分開為三個獨立詞彙:永續、發展、目標,因為這些字詞都具備獨立的語意。為了讓電腦自動學習「永續發展目標」是一個專有名詞,以及其他CSR領域的專有名詞,我們應用TF-IDF(Term Frequency - Inverted Document Frequency, 詞頻 - 逆向文件頻率)和Trie Tree(字典樹)來協助判斷。
電腦會不斷的計算詞跟詞之間的前後關係,轉換為特徵向量和機率值。分析完所有的CSR相關文章之後,電腦會發現永續、發展、目標這三個詞,經常排列在ㄧ起,那這就有相對較高的機率是一個專有名詞。
特徵向量如同上圖所示,每一個字詞都會有一組向量矩陣。為了方便視覺呈現,可以把這個向量投射到二維度的平面空間上,即可觀察到詞跟詞之間的「距離」關係。距離越靠近,代表相關性越高。
例如,「溫室氣體」和「排放」經常同時出現在同一句話裡,或排列在前後文,因此經過模型持續訓練後,電腦會不斷校正與更新向量,最後根據詞向量的結果,發現這兩個字詞的距離是比較近的;而「溫室氣體」和「回收」則較少出現在同一句話裡面,所以這兩個字詞之間的距離就相對較遠。
其實,在斷詞過程中,中文資料的處理難度比英文更高。英文有空格將每個字單獨分開,可以很直接的判斷字詞的語意;但是中文的語意會因為斷詞的位置,而產生不同的語意。例如,「在地上等冬粉」,很多人會誤以為是「在/地上/等冬粉」,但實際上卻是「在地/上等/冬粉」;要可以正確的斷詞,並沒有那麼簡單。
因此,需要準備大量的文本資料來持續訓練電腦,透過統計機率的方式,計算詞與詞之間的組合關係,判斷哪些詞彙經常是配對在一起,藉以讓電腦不斷更新CSR領域的字詞庫。把各種可能的詞彙蒐集彙整,確保在進行中文斷詞時,可以更精準且更有意義。
建立CSR領域的字詞庫還有另一個重要目的,我們期望可以讓AI自動判斷一本CSR報告的重大議題,以及符合哪些GRI指標或SDGs永續發展目標,協助利害關係人可以更快速的瞭解企業的永續發展主軸。
然而,若要實現以上想法,首先必須要解決「一義多詞」的問題。
舉例來說,要讓AI判斷CSR報告中是否有呼應SDGs第13項氣候行動的目標時,除了判斷內容是否有提到「氣候行動」之外,「氣候變遷」、「極端氣候」、「溫室氣體管理」、「碳排放」等字詞都跟氣候行動有相關,要如何有效的全面性檢測氣候行動相關的關鍵字,必須要應用AI人工智慧的深度學習技術。
上圖也是詞向量空間的示意圖,不過這個模型裡面的每一個詞向量的維度為250,為了方便視覺呈現與理解,降至3維度(x, y, z軸)的立體空間,裡面每一個點都代表一個字詞。
搜尋「氣候」兩個字詞時,可以看到周邊跟氣候相關的字詞即顯示出來;同時,可以用距離作為篩選依據,距離越大,涵蓋的相關字詞越多,但也相關性也會逐漸降低。
因此,可以透過此演算法篩選出跟「氣候行動」的相關字詞,搭配搜尋引擎的匹配演算法,協助判斷一本CSR報告中,呼應氣候行動的可能性高低。藉以減少初期使用大量人力,逐一檢視每本CSR報告內容中,是否有提及SDGs各項目標的分析成本。
當電腦做完初步的分析之後,即可從大量的CSR報告中,篩選出有呼應SDGs的報告名單,以及各項目標的相對應頁數位置,這時再搭配人力分析方式進行內容的績效評估,才能更有效率的評估企業的永續發展程度。
最後,也預告下一篇分析文章,我們以TCFD(Task Force on Climate-related Financial Disclosures, 氣候相關財務揭露建議報告)為研究標的,分析目前在CSR報告中有揭露TCFD的相關資訊,作為評估導入TCFD依據或產業的參考案例。
文章連結:永訊智庫:AI認證 CSR@天下是最關注永續發展與企業社會責任的內容平台
Powered by Froala Editor