MTMineR(Multilingual Text Miner with R;エム・ティ・マイナー)は,元同志社大学教授金明哲により2000年から開発し続けてきたテキスト型データをさまざまな方法で構造化し、統計分析や機械学習を行う高機能のテキストマイニングおよびテキストアナリティクスツールである。テキスト型データを構造化して集計し,Rを用いて統計的に分析する自然言語処理ツールであり,MLTPを高機能化したバージョンです.これにより,文学作品・アンケートの自由記述・新聞記事などさまざまなテキストを処理し,データを集計することができます.テキストの統計的解析を勉強する方々のため,無償で本ツールを公開します.ただし,著作権を放棄することを意味するものではありません.
このソフトはテキストデータを前処理し,集計したうえで,主成分分析,クラスター分析,ワードクラウド,トピックモデルなどの分析法のみならず,サポートベクターマシーンやランダムフォレストにいたる最新の機械学習アルゴリズムを実装しています.これにより,統計学などの専門的知識がなくても,さまざまな分析法を簡便に用いることを実現します.
機能と操作の説明ページ:MTMineR (a3hsn.org)
扱う言語
日本語,中国語,韓国語,英語,ドイツ語,フランス語,イタリア語,ラテン語,古典ギリシア語
機能
– テキスト前処理:文字コード変更,地の文・会話文抽出,ストップワード指定,一括変換,タグ情報の再定義,文のランダムサンプリングなど
– 検索:キーワード検索,特定文字・記号の前後の文字検索など
– データ集計:テキストの基本統計量(文字数,文の数,漢字の数など),単語・文・段落の長さ,特定語句の出現頻度,n-gram,文節,複合語など
– 分析:
・データの変換:相対頻度,標準化,行列転置,TF-IDFなど
・語彙の豊富さ:総語数,異なり語数,TTR,Yule,Guiraud,Sichelなど
・グラフ:WordCloud,共起ネットワークなど
・特徴語抽出:カイ二乗統計量,尤度検定統計量,マハラノビス距離,Informain Gain,Boruta,RandomForestの中のMeanDecreaseAccuracy・MeanDecreaseGiniなど
・教師なし方法:主成分分析,対応分析,クラスター分析,階層的クラスター分析,t-SNE,UMAP,NMF,ヒートマップ
・半教師あり方法:トピックモデルLDA,構造的トピックモデルSTM
・教師あり方法:判別分析,K近傍法,決定木,C50,ランダムフォレスト,サポートベクターマシン,一般化線形モデル(LASSO,Ridge,Elastic net)
(順次機能が追加され更新され続けています)
ダウンロード
– SHIFT-JIS version:文字コードSHIFT-JISのテキストを処理する
– UTF-8 version:文字コードUTF-8のテキストを処理する
**扱うテキストが,韓国語,中国語,西欧語テキストの場合は,どちらのバージョンでもOKです.
日本語テキストの場合,テキスト形式に応じて,どちらかをダウンロードして下さい.
事前準備
パソコンのOS:Windows
関連資料:
– 事前準備マニュアル
– 操作マニュアル
– データ集計:形態素解析・構文解析
– Rによる分析:教師なし・教師あり
– TreeTagger (パラメータファイルを含む)
– 品詞体系