TRUNK - 実践的な教育カリキュラムで働くまでをサポート！

01月11日(金)の学び

【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。

この学びにいいねした人

tweet
share
line
hatena

伊藤智彦さんの履歴書に戻る

2019年1月11日(金) の学び

01月11日(金)の学び