AWS Certified Machine Learning – Specialty試験に出てきそうな用語とかをまとめる

AWS 認定 機械学習 – 専門知識」の試験対策その2。
分類とかあんまりあってない気がします。


機械学習

機械学習のフロー

教師あり学習(supervised learning)

与えられたデータから、そのデータがどんなパターンになるかを学習し識別・予測する。
教師データ(training data)が必要になる。
過去の売り上げから将来の売り上げを予測したり、画像の中の物体を識別したり、翻訳などに利用できる。

回帰と分類

連続値を予測することを回帰(regression)と呼ぶ。正解データは数値となる。
離散値を予測することを分類(classification)と呼ぶ。正解データは文字列やいくつかの整数になる。

教師なし学習(unsupervised learning)

与えられたデータから、データそのものが持つ構造・特徴を学習する。
ヒューリスティックアプローチ。

クラスタリング(clustering)

特徴量を学習しグループ分けを行う。

次元削減(dimensionality reduction)

高次元空間から低次元空間へのデータの変換。
ざっくりいうとデータの要約。

強化学習(Reinforcement Learning)

エージェントが行動した結果得られる報酬を最大化する方策を求めさせる。
ロボット掃除機のルート決定などに利用させる。

転移学習(Transfer Learning)

機械学習モデルとアルゴリズム

畳み込みニューラルネットワーク(CNN)

再帰的ニューラルネットワーク(RNN)

主成分分析法 (PCA)

教師なし機械学習アルゴリズム。

オートエンコーダ(自己符号化器)

教師なし機械学習アルゴリズム。

k-means法

教師なし機械学習アルゴリズム。
クラスタリングアルゴリズム。

エルボー法

ロジスティック回帰

サポートベクターマシン(support vector machine:SVM)

異常検知

N-gram

Bag of Words

レコメンド

データ前処理

特徴量エンジニアリング

人為的にAIの予測精度を上げるため用いる技術。

外れ値(outlier)

データセットの中で、他の値に比べ明らかに大きすぎたり小さすぎたりする値。

欠損データへの対処

不均衡データへの対処

二項分類(バイナリ分類)

オブジェクトの集合を個々のオブジェクトがある特定の属性を持つかどうかで2種類にグループ分けする分類作業

https://ja.wikipedia.org/wiki/二項分類

ラベルエンコーディング

カテゴリに対して一意の数値を割り振る。

one-hotエンコーディング

ダミー変数を用いた前処理。

tf-idf

モデルの性能改善と評価

過学習(overtraining)

過剰適合(overfitting)とも。
モデルが教師データに過剰に適合してしまうこと。

正則化(regularization)

L1正則化

特定のデータの重みを0にする事で、不要なデータを削除する。

L2正則化

データの大きさに応じて0に近づけて、滑らかなモデルとする。

エポック(epoch)数

一つの訓練データを繰り返して学習させる回数。

Early Stopping

勾配消失

バイナリモデルインサイト

AWSの機械学習

Amazon SageMaker

ビルトインアルゴリズム

https://www.blog.danishi.net/2021/05/25/post-5001/

推論パイプライン

前処理、予測、後処理タスクなどの複数のステップを組み合わせることができる

Amazon Elastic Inference (EI)

SageMakerのインスタンスにGPUをアタッチできる。

Amazon SageMaker Ground Truth

フルマネージド型のデータラベル付けサービス。

AWS AIサービス

Amazon Mechanical Turk

AWS DeepRacer