新聞稿

馬晶博士:對抗假新聞之戰

2021.6.10

香港浸會大學計算機科學系助理教授馬晶博士

上圖擷取自馬博士最近發表的研究報告《用 Tree Transformer 揭穿推特上的謠言》。資料來源:https://www.aclweb.org/anthology/2020.coling-main.476/


近年網絡錯誤信息(假新聞、謠言、虛假信息等)暴增,成為日益嚴峻的社會問題。為了尋求解決方法,身兼香港浸會大學計算機科學系助理教授及系統健康研究實驗室成員的馬晶博士在近期發表了的兩篇學術文章中,探討以多重平台進行事實驗證及建立用於偵測謠言的模型。

多平台事實和語言驗證

事實驗證有助互聯網用戶鑑別某件事件或某個主題的真實性。現行的一些事實驗證方法,基本上從大規模語料庫中採集謠言指示信號,從中識別貼文回應的主流意見。然而,當某件事件同時在多個平台或媒體上、並透過多種語言來傳播時,事實驗證就會變得更加複雜和具挑戰性。這些挑戰包括:

  1. 網上信息的特性(例如在多平台上傳播的用戶意見、語言風格可以是五花八門)
  2. 語言/知識的差距可能產生誤譯或誤解的情況,導致事實被扭曲
  3. 過往並沒有相關工作或數據集試圖在多平台和多語言的情況下進行事實驗證

馬博士的團隊開發了一種新方法推敲來自不同平台的證據,從而推斷特定事件的真實性。例如來自不同網上媒體(平台)的文件或網絡摘錄報導的相同(虛假)陳述—「吸煙、甲醇或可卡因可以治愈冠狀病毒」將構成故事情節。這些故事情節其實是通過互相比較和配對相關內容,自動生成。比較不同平台的信息內容之能力,將對網上信息的質素和可用性產生重要和積極的影響,同時有助於偵測前後矛盾和遺漏的內容,從而打擊散佈錯誤信息的活動。

此外,當信息從一種語言被轉換成另一種語言時,可能會因誤譯而被曲解。馬博士的團隊現正開發一套翻譯系統,期望進一步改善不同語言之間的信息流,藉以解決語言差距,幫助人們在進行事實核查時,可及早發現可疑的內容。「這項研究的一個重要部分,是評估有關新冠病毒大流行的雙語假新聞。」馬博士表示。「這項工作對香港這樣的大型雙語環境尤為重要。」

謠言偵測模型

如前所述,在社交媒體上散播謠言會嚴重削弱互聯網內容的可信性。因此,自動揭穿謠言對於保持社交媒體環境健康非常重要。面對可疑內容時,人們經常會在貼文中表達懷疑,當中包含了各種質疑其真實性的線索,這些線索可以形成具有長距離依賴關係的有用證據。馬博士的團隊試圖透過追蹤微博貼文的非順序傳播結構,尋找貼文內容中的歧視特徵,從中梳理出更強大的表徵來識別謠言。這項研究揭示要有效偵測謠言,便需尋找可作為證據的相關貼文,尤其是那些對某種說法的真偽表達明確態度的貼文。馬博士的研究結果證實:

  1. 這些模型較其他先進的方法更能有效偵測謠言和作出分類
  2. 專注留意證據貼文的機制可提高由團隊研發的方法的表現
  3. 此方法在早期偵測謠言表現卓越

讀者如有興趣,可按閱覽研究報告的詳細內容。

馬博士於 2020 年獲得香港中文大學系統工程與工程管理學系博士學位。在此之前,她分別在2013年和2016年獲得北京郵電大學獲得學士學位和碩士學位。她的研究興趣包括自然語言處理、社交網絡分析和挖掘、謠言偵測和事實驗證。

來源:浸大研究