2023.5.31 第3班テキストマイニング研修会

 2023年5月31日に京都大学文学研究科南谷研究室にて、名古屋大学の鄭弯弯先生を講師として迎え、「テキストマイニング研修会」を実施しました。

 主催である南谷先生(京都大学)をはじめとして、和泉悠先生(南山大学)、鳥山定嗣先生(京都大学)、南谷研究室のオフィスアシスタント(OA)加藤柚月さん(京都大学 文学研究科 修士課程 英語学英米文学専修)の5名が参加し、テキストマイニングソフトMTMineRの使い方に関する研修会を受けました。はじめに参加者同士でそれぞれの研究課題を交換し、その後操作上不明な点を鄭先生に質問しながら、各々の分析内容に沿ってMTMineRを操作しました。

 今回は、南谷先生のテキストマイニング研究を補佐するリサーチアシスタント(RA)として私は本研修会に参加しました。20世紀英国の作家ヴァージニア・ウルフを研究対象とするため、ウルフの中長篇作品11篇をコーパスとして、MTMineRの初歩的な操作を学びました。準備段階としてのテキスト整形の方法から、特徴的な語彙を視覚的に表示するワードクラウド、使用される語彙の豊富さ、多次元のデータを低次元に圧縮した主成分分析などMTMineRの多様な機能を習得することができました。

例えば図1と図2はウルフ作品における各動詞の出現頻度上位の相関係数行列を用いた主成分分析の散布図です。A Room of One’s Own (1929, ARoOO) と Three Guineas (1938)のエッセイ2篇が左辺に、その他のフィクションは右辺に寄っているのが目につきます。小説作品が集まる右辺には動きを表すような動詞(go, move, sit, stand)が多くプロットされているようにも見えます。また、Voyage Out (1915)と Night and Day (1919)の初期長篇小説2篇は、後期のモダニズム的手法が前面に出た作品群から離れて重なり合うようにプロットされています。

 また図3は、名詞の出現頻度上位による作品ごとのヒートマップです。細かくてやや見にくいですが、エッセイ2篇が woman/man の2語の使用で顕著に区別されています。フェミニズムの古典ともされるこれら2篇において、男女のジェンダーに大きな関心が向けられていることが語彙の観点からも示されていると言えるのかもしれません。

 このように本研修会では、鄭先生の丁寧な指導を通じて、MTMineRの基本的な操作について多くを学ぶことができました。今後もRAの業務内でテキストマイニング技術を習熟させていく予定です。(文責:京都大学文学研究科 博士後期課程 英語学英米文学専修 平井尚生)