学び投稿
【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは 単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。
いいね数:
【機械学習】
不均衡データの問題点として計算量があるが、例えば異常検知において正常なデータが大量にあっても、実はあまり性能には寄与しない。
性能の向上に寄与しやすいのは、識別境界の近くにあるデータであるため、境界から遠いデータをダウンサンプリングするとよい。
いいね数:
【自然言語処理】
低頻度語は文字や部分文字列にフォールバックするアプローチがサブワードであり、これを元にさらに単語分割の手間を省いたのがSentencepieceである。
Sentencepieceはテキストを少ないパラメータで表現し、結果として翻訳精度の向上に貢献した。
これまで良いと考えられてきた基準「文法的に正しい分割」「語彙のサイズ」は重要ではないことがわかった。
いいね数:
【ディープラーニング】
RNNやCNNを使ってテキスト分類などのタスクを解いて、作成されたモデルの中間層(Embedding layer)を取り出すことで文章の分散表現が得られる。
いいね数:
【機械学習】
2値分類問題の精度指標にはaccuracy, precision, recall, f-measureがあるが、
多クラス分類問題の精度指標にはmicroとmacroという考え方があり、microとmacroそれぞれで計算したaccuracy, precision, recall, f-measureがあるため8種類の指標があることになる。
いいね数:
【機械学習】
ナイーブベイズを用いたテキスト分類では各単語の出現回数が0回にならないようにスムージングをするが、学習データが偏っていると、αが大きすぎる場合に意図しない学習がされてしまう。これを解決するためには語彙数と各カテゴリーの数からαの上限を計算するとよい。
いいね数:
機械学習でモデルが思うように学習しないときの原因の一つとして学習用のデータセットが汚染されていることがある。データセットの中身をよくよく見て見たら闇を垣間見てしまうなんてことも。。。
いいね数: