伊藤 智彦

SDGs × Data

2021年卒業予定

在学中の学部

情報工学

東京都在住 (東京都出身)

  • 英検準一級, TOEIC930点

TRUNK SCORE
453
  • プロジェクト登録数:5
  • スキルタグ登録数:21
  • 経験社数:3
  • トレーニング参加数:18
  • 学び投稿数:10
スコアの上げ方
TRUNK RESUME

SKILL

  • C
  • java
  • Photoshop
  • Cubase8
  • AVIUTL
  • python
  • Tensorflow
  • C++
  • Keras
  • OpenCV
  • 機械学習
  • scikit-learn
  • 自然言語処理
  • deeplearning
  • Flask
  • 情報理論
  • 信号処理
  • 最適化
  • 微積
  • 線形代数
  • コンピュータサイエンス

PROFILE

興味のある職種

WEBバックエンドエンジニア
WEBフロントエンドエンジニア
データサイエンティスト
AIエンジニア

私について

▽自己紹介
早稲田大学4年 基幹理工学部 情報通信学科 次世代ネットワーク研究室所属(修士課程推薦進学)

▽個人資質
16personalitiesだとINTJです。エニアグラムはタイプ5です。
強み:向学心/好奇心/知的柔軟性
弱み:社会的知性/慎み深さ/リーダーシップ
スキル:スキルタグに登録してある通り、機械学習プログラミングが得意です。趣味で音源編集, 動画作成, ビラのデザインなどを行いました。学びへのフットワークが軽い方です。

▽最後に
ごはんたべさせてください:D

これまで頑張ってきたこと

TRIGGER2015運営 広報局(大学1年)
アイセック早稲田大学委員会 副委員長 Marketing&Communications (大学2年)
TRUNK 機械学習エンジニアインターン
JX通信社 機械学習エンジニアインターン

これからやってみたいこと

# 機械学習
大学の授業+独学で学び、一通りの機械学習アルゴリズムの実装ができます。
特に自然言語処理に興味があり、短文のカテゴリー分類、文章のベクトル化、ディープラーニングを使った自動生成などに取り組みました。インターン先では自然言語処理の他にデータマイニングも行っています。
# SDGs
持続可能な開発目標(SDGs)の目指す世界が好きで、特に教育・ジェンダー・安全な水・エネルギーの4つの問題に興味があります。

職歴

  • TRUNK株式会社

    2018.05 - 2019.12

    機械学習エンジニアインターン。 自然言語処理。

    株式会社JX通信社

    2018.08 - 2019.12

    機械学習エンジニアインターン。自然言語処理。

    Covalent株式会社

    2018.07 - 2018.09

    建設系ベンチャー企業動向調査

学び投稿

成功からの学び
0111日(金)

【自然言語処理】
トピックモデル(LDA)は単語の集合からその文書の潜在的トピックを推定する教師なし学習の手法である。文書をトピック数次元ベクトルとして表現することができる。
Pythonでの流れは 単語分割→特徴語辞書作成→BoWで各文章の特徴ベクトル作成→fitting であり、比較的学習に時間がかかる。
単語ベースの手法であるため、単語分割の精度に左右される欠点がある。学習データにも寄るが、トピック数は100次元以上に設定するとよさそう。

いいね数:

2

メディアからの学び
0108日(火)

【機械学習】
不均衡データの問題点として計算量があるが、例えば異常検知において正常なデータが大量にあっても、実はあまり性能には寄与しない。
性能の向上に寄与しやすいのは、識別境界の近くにあるデータであるため、境界から遠いデータをダウンサンプリングするとよい。

いいね数:

4

メディアからの学び
1225日(火)

【自然言語処理】
低頻度語は文字や部分文字列にフォールバックするアプローチがサブワードであり、これを元にさらに単語分割の手間を省いたのがSentencepieceである。
Sentencepieceはテキストを少ないパラメータで表現し、結果として翻訳精度の向上に貢献した。
これまで良いと考えられてきた基準「文法的に正しい分割」「語彙のサイズ」は重要ではないことがわかった。

いいね数:

2

メディアからの学び
1204日(火)

【ディープラーニング】
RNNやCNNを使ってテキスト分類などのタスクを解いて、作成されたモデルの中間層(Embedding layer)を取り出すことで文章の分散表現が得られる。

いいね数:

2

メディアからの学び
1106日(火)

【自然言語処理】perplexityのlogを取るとcross entropyになる。

いいね数:

2

メディアからの学び
0924日(月)

【線形代数】
numpyのlinalg.eig()で行列の固有値と固有ベクトルを求めることができる。これはとても便利。

いいね数:

2

メディアからの学び
0920日(木)

【機械学習】
2値分類問題の精度指標にはaccuracy, precision, recall, f-measureがあるが、
多クラス分類問題の精度指標にはmicroとmacroという考え方があり、microとmacroそれぞれで計算したaccuracy, precision, recall, f-measureがあるため8種類の指標があることになる。

いいね数:

5

メディアからの学び
0914日(金)

【機械学習】
ナイーブベイズを用いたテキスト分類では各単語の出現回数が0回にならないようにスムージングをするが、学習データが偏っていると、αが大きすぎる場合に意図しない学習がされてしまう。これを解決するためには語彙数と各カテゴリーの数からαの上限を計算するとよい。

いいね数:

3

失敗からの学び
0830日(木)

機械学習でモデルが思うように学習しないときの原因の一つとして学習用のデータセットが汚染されていることがある。データセットの中身をよくよく見て見たら闇を垣間見てしまうなんてことも。。。

いいね数:

4

本からの学び
0823日(木)

【量子コンピュータ入門】
量子論理ゲートのパウリX/Y/Zゲートは、ブロッホ球上でのその軸の回転を意味している。
量子論理ゲートを組み合わせればRSA暗号が解けるので現代のセキュリティは秒で破られてしまう。

いいね数:

5