伊藤 智彦さんの履歴書に戻る伊藤 智彦さんの履歴書に戻る
12月25日(火)の学び
【自然言語処理】
低頻度語は文字や部分文字列にフォールバックするアプローチがサブワードであり、これを元にさらに単語分割の手間を省いたのがSentencepieceである。
Sentencepieceはテキストを少ないパラメータで表現し、結果として翻訳精度の向上に貢献した。
これまで良いと考えられてきた基準「文法的に正しい分割」「語彙のサイズ」は重要ではないことがわかった。