前回に続いての第2回です。前のメインは感情って色々あってムズイよねぇということをつらつら書いていきましたが、今回は「どうやって機械で感情を分析するの?」というところの概要を書きます。結論的には
1.テキストの電子化
2.クリーニング
3.加工
4.データ抽出
5.データ分析
です。順に見ていきましょう。
テキストの電子化
兎にも角にも機械学習には電子化が必須。電子化しないと「怒った」という単語はいくつ出てくるのか?ということすらちゃんと分からないので。
現場では既に電子化されたものしか来ないですが、最近では手書きの文書や音声でも秒で電子に落とし込めるので最近はここがネックになる事はないでしょう。
クリーニング
文書には結構分析に必要ないものは多いです。句読点は代表的ですが、@とか「」も基本的には除いていきます。
加工
クリーニングが終われば
単語はいくつあるの?
品詞は?
文書同士の関係は?
なんていうことに答えが出せるようになります。この試みを総じて加工を呼びます。
データ分析
ここまできて、いざ分析。単語通しの近さを見たり、文書で何が重要な話なのか分析したりやっていくことで施策に対するインサイトが見えてきます。
終わりに
というわけで今回は感情分析の手順について簡単に書きました。次回以降で各論を色々書いていこうかと思います。