TRUNK - 実践的な教育カリキュラムで働くまでをサポート!

学び投稿

失敗からの学び
05月23日(木)

確率密度関数は-∞から∞まで積分したら1になるに決まってるだろ!(戒め)

いいね数:

3

成功からの学び
01月11日(金)

【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは 単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。

いいね数:

3

メディアからの学び
01月08日(火)

【機械学習】
不均衡データの問題点として計算量があるが、例えば異常検知において正常なデータが大量にあっても、実はあまり性能には寄与しない。
性能の向上に寄与しやすいのは、識別境界の近くにあるデータであるため、境界から遠いデータをダウンサンプリングするとよい。

いいね数:

4

メディアからの学び
12月25日(火)

【自然言語処理】
低頻度語は文字や部分文字列にフォールバックするアプローチがサブワードであり、これを元にさらに単語分割の手間を省いたのがSentencepieceである。
Sentencepieceはテキストを少ないパラメータで表現し、結果として翻訳精度の向上に貢献した。
これまで良いと考えられてきた基準「文法的に正しい分割」「語彙のサイズ」は重要ではないことがわかった。

いいね数:

2

メディアからの学び
12月04日(火)

【ディープラーニング】
RNNやCNNを使ってテキスト分類などのタスクを解いて、作成されたモデルの中間層(Embedding layer)を取り出すことで文章の分散表現が得られる。

いいね数:

2

メディアからの学び
11月06日(火)

【自然言語処理】perplexityのlogを取るとcross entropyになる。

いいね数:

2

メディアからの学び
09月24日(月)

【線形代数】
numpyのlinalg.eig()で行列の固有値と固有ベクトルを求めることができる。これはとても便利。

いいね数:

2

メディアからの学び
09月20日(木)

【機械学習】
2値分類問題の精度指標にはaccuracy, precision, recall, f-measureがあるが、
多クラス分類問題の精度指標にはmicroとmacroという考え方があり、microとmacroそれぞれで計算したaccuracy, precision, recall, f-measureがあるため8種類の指標があることになる。

いいね数:

5

メディアからの学び
09月14日(金)

【機械学習】
ナイーブベイズを用いたテキスト分類では各単語の出現回数が0回にならないようにスムージングをするが、学習データが偏っていると、αが大きすぎる場合に意図しない学習がされてしまう。これを解決するためには語彙数と各カテゴリーの数からαの上限を計算するとよい。

いいね数:

3

失敗からの学び
08月30日(木)

機械学習でモデルが思うように学習しないときの原因の一つとして学習用のデータセットが汚染されていることがある。データセットの中身をよくよく見て見たら闇を垣間見てしまうなんてことも。。。

いいね数:

4