pub:2015.9.3/upd:2016.8.3

【要約】 テキストマイニングハンドブック

情報爆発に挑む

まだ読み途中(´・ω・`)

なぜテキストマイニングか?

  • 発見のためのマイニング
  • 検索のためのマイニング
  • 分析のためのマイニング

発見や検索のためのマイニングでは意味空間の構造化が重要となる。

テキストマイニング4STEP

テキストマイニングハンドブック

  • 文章集合の前処理
  • 中間表現の保管
  • 中間表現の分析
  • 結果の可視化

文章集合の前処理

非構造化データの構造化、分割と基礎的なメタデータの付与を行う工程である。主に以下のような操作が行われる。

  • テキスト分類 (4章)
  • 自然言語処理技術による情報抽出 (6章)
  • リンク解析技術による情報抽出 (11章)
  • 確率モデルによる情報抽出 (6章)
  • 複合的統計モデルによる情報抽出 (7章)
  • 用語抽出

中間表現の保管

  • DB

中間表現の分析

解析のこと

  • 分散分析
  • 概念共起
  • クラスタリング (5章)
  • 傾向分析
  • 相関ルール
  • オントロジによる分析
  • 意味空間
  • 概念のタクソノミ
  • 同定・名寄せ

結果の表示

可視化のこと

  • 検索 (9章)
  • ビジュアライゼーション (10章)
  • ナビゲーション
  • アクセス権限管理

テキストマイニングの定義

てきすとマイニングの世界では文章を素性の集合体とみなす。素性は高次性をもつ。
素性の有無をバイナリ化して保持したときに1の割合が計算効率に影響を与える。 (これをどのように設計するのか?)

素性のまばらさ(スパースネス)。

抽出する素性を、既存の解析結果やオントロジなどの知識ベースを用いてあらかじめ定義しておく方法 => ゴールドスタンダート法
フィードバックによって素性をのものを変化させる。

素性の例

  • 文字
  • 単語
  • ターム(用語)
  • 概念

テキストマイニングの中核技術

以下の概念を理解する必要ですがある。

  • 分布
  • 頻出度・近接頻出
  • 相関

テキストをフィールドにする場合と素性をフィールドにする場合がある
これらの要素を使って評価する目的は3つある。

  • 通常の傾向の算出
  • 「通常の傾向」と「予想されていたモデル」の乖離を算出(意外性の発見)
  • 「通常の傾向」と「直近の傾向」の乖離を算出(トレンドの変化)

分布

素性の時間的、空間的な分布。

頻出度・近接頻出

素性の共起として現れる。
文脈グラフなど。

相関

素性の共起分析。

テキストマイニングの前処理技術

トークン分割 -> 品詞タグ付け -> 構文解析 -> 情報抽出

テキスト分類

2つのアプローチ

  • 知識工学的なアプローチ
    現時点では機械学習アプローチを上回る
    手作業による分類ルールの精緻化
  • 機械学習アプローチ
    分類器(classfier)を作成する。
    分類器は意図した分類を高い再現性で実行することで評価される

テキスト分類の実際

  • テキストの索引づけ
    制限語彙を用いたメタデータの自動抽出

  • 文章の仕分け

  • 分類

知識工学的なアプローチ

教師あり学習について。いかが代表的な手法である。
深いので後でフォローしよう。

  • 確率
  • ベイジアンロジスティック回帰
  • 決定木
  • 決定ルール
  • 回帰
  • Rocchioの方法
  • ニューラルネット(NN) 好評
  • 事例ベース
  • サポートベクタマシン(SVM) 好評

コミッティを形成することも。

  • バギング
    多数決1人一票とは限らない
  • ブースティング
    直列につなぐことで予測精度を高める

  • REFERENCE

    Leave a Reply

    Your email address will not be published.