伊藤 智彦さんの履歴書に戻る伊藤 智彦さんの履歴書に戻る
01月11日(金)の学び
【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは 単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。