TRUNK - 実践的な教育カリキュラムで働くまでをサポート!
伊藤 智彦さんの履歴書に戻る

01月11日(金)の学び

【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは 単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。

この学びにいいねした人

  • Thumb 6eff152a 1c71 4a92 b9e3 66707ec08aeb  1
  • Picture?type=large
  • Thumb img tpwvs2
伊藤 智彦さんの履歴書に戻る