メモ帳

python, juliaで機械学習をやっていく

Tensorflow Profilerを使って前処理 (tf.data.Dataset API) のパフォーマンスを改善する

Tensorflow Profilerの紹介を行い、tf.data.Dataset APIとtf.kerasで構成された画像分類タスクのパイプラインのパフォーマンス改善を試してみます。

目的は、以下です。

  • Tensorflow Profilerの導入
  • tf.data.Dataset APIの主要な高速化手法の効果を確認
続きを読む

keras tunerでtf.kerasのハイパーパラメータを探索する

keras tuner

2019年10月末にメジャーリリースされたkeras tunerを試してみたいと思います。 github.com

できること

機械学習モデルのハイパーパラメータの探索

続きを読む

ReformerをTrax (tensor2tensorの後継)で使ってみた

本記事の目的

  • Reformerの著者実装 (Trax) を使ってみる!!!
  • Traxで学習・推論するための一連の流れをまとめる

Reformerとは

  • Transformerの大幅な計算効率の向上・省メモリ化に成功
続きを読む

(Part 2) tensorflow 2 でhugging faceのtransformers公式のBERT日本語学習済みモデルを文書分類モデルにfine-tuningする

概要

以下の記事の続編になります。こちらの記事では、hugging faceのtransformersというライブラリを使用してBERTのfine-tuningを試しました。 transformersでの公開済みモデルを使用したfine-tuningの流れを紹介しているので、サポートされていない学習済みモデル(自分で学習させたものなど)を使って転移学習やfine-tuningをしたい場合は前回の記事を参照して頂いた方がいいかと思います。

tksmml.hatenablog.com

本記事では、以下を扱います。

  • 日本語サポートの拡充についてざっくりまとめる
  • 追加された学習済みモデルを使った、前回いまいちだった日本語文書分類モデルの精度の向上 → 飛躍的に精度上がりました!!!
続きを読む

自然言語処理のData Augmentation手法 (Easy Data Augmentation)

自然言語処理 Advent Calendar 2019の10日目です。昨日は、ktr_wtbさん形態素解析ツールインストール(MeCab,Juman++,Janome,GiNZA)と、plantarumさん自然言語処理を始める準備でした。

本記事では、以下の論文の概要をまとめます。(技術系の記事が多いのでちょっと気がひけますが)

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [Jason W. Wei, Kai Zou; 2019]

以下、すべての画像はこの論文からの引用です。

TL;DR

  • 英語の5つの文書分類タスクで以下の処理により、Data Augmentationを行った。
    • (先行研究あり) 同義語で置換
    • (New!) randomな同義語の挿入
    • (New!) randomなワードの移動
    • (New!) randomなワードの削除
  • 半分程度のデータ量だけ学習させて同等な精度をだせた
  • convolutionとRNNの両方で効果が出た
  • 著者の実装はこちら
続きを読む

Pyjuliaによるpythonからjulialangへの型変換まとめ

データ処理の高速化のためにPyjuliaを使ってpythonからjuliaの関数を使っています。本記事ではpyjuliaによって、pythonのデータ型がどのようなjuliaのデータ型に変換されるか、その対応表をまとめます。

続きを読む