2019-12-10

自然言語処理のData Augmentation手法 (Easy Data Augmentation)

自然言語処理 Advent Calendar 2019の10日目です。昨日は、ktr_wtbさんの形態素解析ツールインストール(MeCab,Juman++,Janome,GiNZA)と、plantarumさんの自然言語処理を始める準備でした。

本記事では、以下の論文の概要をまとめます。（技術系の記事が多いのでちょっと気がひけますが）

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [Jason W. Wei, Kai Zou; 2019]

以下、すべての画像はこの論文からの引用です。

TL;DR

英語の5つの文書分類タスクで以下の処理により、Data Augmentationを行った。
- (先行研究あり) 同義語で置換
- (New!) randomな同義語の挿入
- (New!) randomなワードの移動
- (New!) randomなワードの削除
半分程度のデータ量だけ学習させて同等な精度をだせた
convolutionとRNNの両方で効果が出た
著者の実装はこちら

2019-11-06

Pyjuliaによるpythonからjulialangへの型変換まとめ

Julia

データ処理の高速化のためにPyjuliaを使ってpythonからjuliaの関数を使っています。本記事ではpyjuliaによって、pythonのデータ型がどのようなjuliaのデータ型に変換されるか、その対応表をまとめます。

2019-11-03

cosine similarityの重み付けを使った、パーソナライズできるrecommender systemのベースライン

Recommender system

アイテム情報とユーザー情報を組み合わせた、パーソナライズされた推薦を行う基本的なシステムを紹介します。重み付けしたcosine similarity (コサイン類似度)によるシンプルな手法です。いわゆるcontent-basedなrecommendになっています。機械学習を使った推薦システムでは、metric learningやautoencoderなどで高尚な特徴量に変換し、類似度の大きさを指標としたものが派手な話題性の高い手法だと思います。しかし、これらの手法は直感的でないので、うまく学習できないと全く使えないものになると思います。そこで、保守的な、ベースラインとして使う想定の手法を紹介したいと思います。

2019-10-26

pythonの関数の処理時間計測デコレータ

Python

pythonで実行時間を測定するためにはtime ライブラリ、jupyter上では%time などの使用が有名だと思います。コードの中に余計な処理を書き込みたくない人向けに、decoratorを使って関数の定義部分で宣言するだけで、実行後に処理時間を出力するようにかえる方法を紹介します。また、少し分かりにくいdecoratorを解説します。