メモ帳

python, juliaで機械学習をやっていく

統計検定準1級に合格した (2022年)

統計検定

統計検定準1級に合格しました。合格のためにやったことをまとめます。

最終結果

点数: 67点 (60点以上で合格)
勉強期間: 2週間ちょい (60時間)

でした。統計検定準1級はCBT方式なので短期間で何度でも受け直せます。なので、対策期間を短めにしました。

事前知識

統計検定2級取得 (1年前)。

1冊でマスター大学の統計学

1冊でマスター大学の統計学

作者:石井俊全
技術評論社

と過去問6回分をそれぞれ1周しています。

機械学習エンジニアとして4年間程度の実務経験があります。ただし、ほぼディープラーニング絡みだけなので試験範囲にあるような手法はあまり馴染みがないです。
理学系修士卒です。専攻は物理なので統計学とは関係ないですが、理論系だったので数式いじるのは抵抗ないです。

やったこと

統計学実践ワークブック

日本統計学会公式認定統計検定準1級対応統計学実践ワークブック

日本統計学会公式認定統計検定準1級対応統計学実践ワークブック

学術図書出版社

通読1周、例題・章末問題2周しました。

この1冊をやりこめば合格は十分可能だと思います。過去問や本試験ではここに載っていない項目も出題されているので高得点を狙うならトピックごとに詳しい文献を参照する必要がでてきます。

問題を解くには以下の知識が最低限必要でした。本書の解説は簡素なので別書で先に補っておくと捗ると思います。(厳密さは不要で、計算ができれば十分です):

線形代数: 行列の演算、対角化
微積: 一変数関数の微積、ガウス積分、テイラー展開

また、本書は行間が空いている箇所が多いです。以下の知識があると概ね苦労せずに埋められると思います: (埋めれなくても特に試験には影響しないと思います)

線形代数: 逆行列、行列の微分
微積: 多変数関数の微積

通読では、行間を埋めながら導出や性質の理解を目指しました。ただし、1 ~ 12、16、21章は2級の範囲とほぼかぶっているためほぼ読んでいません。聞き覚えのない単元のみ拾い読みしました。また、公式暗記もしていません。

通読の後、全ての例題と章末問題を2周しました。ここの理解力と計算力でほぼ合否は決まると思います。

過去問

日本統計学会公式認定統計検定準1級公式問題集

日本統計学会公式認定統計検定準1級公式問題集

実務教育出版

6年分を1周しました。

試験時間に余裕がもてるように70分で部分記述・選択問題を解きました。記述問題は見ていません。ただし、ワークブックの問題と被りが多いので初見の問題にしぼってもいいと思います。

電卓: M+の使い方など

時間を有効活用するために、電卓に早めに慣れておくといいと思います。

試験本番

試験時間: 90分
大問: 21問 (小問1 ~ 2問)
形式: 統計検定2級のCBT方式と同じです
難易度: 2017年以前の過去問の部分記述・選択問題と同程度な印象

試験範囲に対して問題数が少ないので問題の当たり外れは大きいはずです。深い理解力や考察力を問われるというよりは、浅く広くワークブックの内容を満遍なく問われている印象を受けました。

おわりに

試験範囲が広くて大変と言われていますが、2級をとっていれば分量はそこまでシビアではないと感じました。

ワークブックは統計検定受験に関係なく統計学概論としてオススメできます。

本記事がなにかの参考になれば幸いです。

2020年やったこと

雑記

2020年の振り返りをしたいと思います。業務で扱った内容については書きません。

2020年は人生初の転職をしたのが一番のビッグイベントです。非情報系の大学院を中退してすぐに未経験MLエンジニアとしてベンチャーに中途採用してもらったのがキャリアのスタートで、そこから2年も経たずに辞めました。世にある転職エントリーと比べると何も考えずに転職に至っています (笑)

アウトプット

今年アウトプットしたものを~~供養します~~まとめます。着手し始めのものも含まれています。

2020年はほとんどGitHubとQiitaにだけ出没していました。

続きを読む

Tensorflow Profilerを使って前処理 (tf.data.Dataset API) のパフォーマンスを改善する

Tensorflow 2.0

Tensorflow Profilerの紹介を行い、tf.data.Dataset APIとtf.kerasで構成された画像分類タスクのパイプラインのパフォーマンス改善を試してみます。

目的は、以下です。

Tensorflow Profilerの導入
tf.data.Dataset APIの主要な高速化手法の効果を確認

続きを読む

keras tunerでtf.kerasのハイパーパラメータを探索する

機械学習 Tensorflow 2.0

keras tuner

2019年10月末にメジャーリリースされたkeras tunerを試してみたいと思います。 github.com

できること

機械学習モデルのハイパーパラメータの探索

続きを読む

ReformerをTrax (tensor2tensorの後継)で使ってみた

機械学習 NLP (自然言語処理) Trax

本記事の目的

Reformerの著者実装 (Trax) を使ってみる！！！
Traxで学習・推論するための一連の流れをまとめる

Reformerとは

Transformerの大幅な計算効率の向上・省メモリ化に成功

続きを読む

2019年にやったこと・2020年にやりたいこと

雑記

2019年にやったことをふりかえる

年末なので、1年の振り返りをしたいと思います。

続きを読む

(Part 2) tensorflow 2 でhugging faceのtransformers公式のBERT日本語学習済みモデルを文書分類モデルにfine-tuningする

NLP (自然言語処理) Tensorflow 2.0 機械学習

概要

以下の記事の続編になります。こちらの記事では、hugging faceのtransformersというライブラリを使用してBERTのfine-tuningを試しました。 transformersでの公開済みモデルを使用したfine-tuningの流れを紹介しているので、サポートされていない学習済みモデル（自分で学習させたものなど）を使って転移学習やfine-tuningをしたい場合は前回の記事を参照して頂いた方がいいかと思います。

tksmml.hatenablog.com

本記事では、以下を扱います。

日本語サポートの拡充についてざっくりまとめる
追加された学習済みモデルを使った、前回いまいちだった日本語文書分類モデルの精度の向上 → 飛躍的に精度上がりました！！！

続きを読む