SVMツール

ツールごとに学習

SVM には、「ツールごとに学習」が用意されています。サンプルワークフローを参照して、このサンプルを含むさまざまなサンプルを Alteryx Designer で直接利用する方法をご確認ください。

サポートベクターマシン (SVM)、またはサポートベクターネットワーク (SVN) は、本来は分類 (カテゴリカルターゲット) の問題のために開発された一連の一般的な教師あり学習アルゴリズムであり、後に回帰 (数値ターゲット) 問題に拡張されました。SVMはメモリ効率がよく、(予測数が予測レコードの数を超えた場合、不適切な適合を提供する可能性がありますが)多数の予測変数を扱うことができるため人気があり、また多数の異なる「カーネル」関数をサポートしているために柔軟に対応できます。

このメソッドの背後にある基本的な考え方は、線 (1 つの予測因子)、平面 (2 つの予測因子)、または超平面 (3 つ以上の予測因子) の最適の方程式を見つけ、距離の測定に基づいて分類された行のグループをターゲット変数ごとに異なるカテゴリに最大限に分離することです。カーネル関数によって、レコードを同じグループまたは異なるグループに配置する要因となる距離を測定し、予測変数の関数を使用して距離メトリックを定義します。

A short video that illustrates how this works can be found

and a very approachable discussion of the topic can be found here. カーネル関数を用いて条件付けでグループが分離される範囲は、最大マージンとして知られています。最後に、グループの分離は完全ではないかもしれませんが、コストパラメーター(推定レコードを「間違った」グループに配置するコスト)も指定することができます。

このツールは、e1071 Rパッケージを使用します。

このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツールで使用されるパッケージをインストールします。予測ツールのダウンロードと使用を参照してください。

入力を接続

対象のターゲットフィールドと 1 つ以上の予測因子フィールドを含む Alteryx データストリームを接続します。

ツールの設定

必須パラメーター

モデル名: 各モデルには後で識別できるように名前が必要です。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド (".") とアンダースコア ( "_") を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲットフィールドを選択: 予測するデータストリームからフィールドを選択します。
予測フィールドを選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
予測したいターゲット変数に基づいて、分類または回帰の メソッド を選択します。一般的に、選択するターゲット変数が文字列型またはブール型のどちらである場合は、おそらく分類問題です。数値型の場合は、おそらく回帰問題です。
- 分類:
  - 基本モデルのサマリー: Rの関数呼び出し、ターゲット、予測因子、関連パラメーター。
  - モデルのパフォーマンス:
    混同行列
    SVM 分類プロット
    レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
- 分類オプション:
  - C 分類: 多少の誤差を許容しながら識別平面を最適化します。
  - NU 分類: C 分類と似ていますが、NU 値 を選択して誤差の大きさを制限できます。
- 回帰:
  - 基本モデルのサマリー: Rの関数呼び出し、ターゲット、予測因子、関連パラメーター。
  - モデルのパフォーマンス:
    二乗平均平方根誤差
    R-二乗
    平均絶対誤差 (MAE)
    中央絶対誤差 (MedAE)
    残差プロット
    残差分布
    レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
- 回帰オプション:
  - イプシロン回帰
  - nu 回帰: イプシロン回帰と似ていますが、nu 値 を選択して誤差の大きさを制限できます。

モデルのカスタマイズ（オプション）

モデルのカスタマイズセクションでは、ユーザーが各カーネルのカーネルタイプと関連するパラメーターを選択します。モデルパラメーターを指定 を選択して、モデルをカスタマイズします。

ユーザーがパラメーターを提供する: 必要なパラメーターを直接設定する場合に選択します。

カーネルタイプ: グループ間の分離を測定するために使用するメトリックを決定します。

線形: クラスと予測間の関係が単純な線、平面、または超平面である場合に役立ちます。
- コスト: レコードの誤ったグループ分けによるコスト。コストの値を低くすると、過学習を避けるために、レコードグループを形成する際に一定のレベルのエラーが発生します。
多項式: 距離は、予測変数の多項式関数を使用して測定されます。
- コスト: レコードの誤ったグループ分けによるコスト。コストの値を低くすると、過学習を避けるために、レコードグループを形成する際に一定のレベルのエラーが発生します。
- 次数: 多項式カーネルの次数。多項式の次数を増やすことで、グループ間のマージンがより柔軟になり、推定サンプルの誤差が少なくなります。しかし、見積もりサンプルに対してモデルが過学習するという代償があります。
- ガンマ: 多項式カーネルの内積項の係数。
- coef0: 多項式の定数項。
ラジアル (既定): 非線形に分離可能なデータに適しています。
- コスト: 過学習を避けるために、特定のレベルの分類エラーを許容します。
- ガンマ: 放射基底関数カーネルにおけるべき乗項の係数。ガンマが大きいほど、特徴空間が豊富になり、トレーニングセットの誤差が小さくなります (ただし、ひどい過学習を引き起こすおそれがあります)。
シグモイド: 主にニューラルネットワークのプロキシとして使用されます。
- ガンマ: トレーニングの例に対する影響を定義します。
- coef0: シグモイドカーネルの定数項。

機械がパラメーターを調節する: 選択すると、パラメーターの範囲が提供され、可能な値のグリッドを検索して最適なパラメーターが算出されます。この場合、複数のパラメーター値でモデルをテストするために 10 倍のクロスバリデーションを実行するため、計算コストが高くなる (したがって時間がかかる) ことにご注意ください。しかし、データにより適したモデルが得られる可能性があります。

この場合に選択する必要があるパラメーターは、「ユーザーがパラメーターを提供する」セクションの場合と同様ですが、次の点が異なります。

候補数: ユーザーがテストしたいパラメーターの値の数 (既定: 5)
カーネルタイプ (グリッド検索): 「ユーザーがパラメーターを提供する」セクションを参照してください。ユーザーは、特定のパラメーターの最小値と最大値を指定します。このモデルでは、「候補数」で設定された特定の数の候補が生成され、10 倍のクロスバリデーションを使用して最適な候補が検索されます。

グラフィックオプション

プロットサイズ: 結果のプロットの幅と高さの寸法をインチまたはセンチメートルのいずれかで設定します。
グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
- 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
- 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
基本フォントサイズ: マクロ生成によるプロットで使用する基本フォントのポイント数

出力の表示

O アンカー: 「O」出力は、シリアル化されたモデルおよびモデル名のテーブルで構成されます。スコアリングツールとテストデータセットは、SVM ツールから出力を取得した後に使用できます。
R アンカー: 「R」出力は、SVM ツールで生成されたレポートスニペットで構成されます。分類と回帰はパフォーマンス評価メソッドが異なるため、レポートはそれぞれ異なります。