クロスバリデーションツールは、Alteryxで生成された1つ以上の予測モデルのパフォーマンスを、クロスバリデーションのプロセスを使用して比較します。すべての分類と回帰モデルをサポートしています。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。
重要
このツールは、Alteryx Designer または R ツールでは自動的にインストールされません。このツールを使用するには、コミュニティGalleryからダウンロードします。
別のテストセットを使用する必要がなく、モデル品質のより強固な推定を生成するため、予測モデラーの間ではクロスバリデーションは他のモデル評価メソッドよりもより好んで用いられます。
すべての分類モデルに対して、ツールは全体的な精度、クラスごとの精度、混同行列のセット(各モデルに1つ)を提供します。さらに、このツールは、二項分類モデルのF1スコアとパフォーマンス診断プロット(リフト曲線、ゲインチャート、適合率−再現率曲線、ROC曲線)のコレクションを報告します。一般的に、回帰モデルの場合にこのツールが提供するのは、各モデルの予測の予測値と実測値の相関、二乗平均平方根誤差(RMSE)、平均絶対誤差(MAE)、平均誤差率(MPE)、および平均絶対パーセント誤差(MAPE)です。しかし、少なくとも1つの目標値が0に近い場合、MPEとMAPEは定義されません。その場合、MPEは実測値の合計に対する誤差の合計で置き換えられ、絶対誤差の合計を実測値の合計で除算した値(つまり、加重絶対パーセント誤差)がMAPEに置き換わります。さらに、このツールは、回帰の場合に実際の値と予測値のプロットを常に提供します。
クロスバリデーションツールには、次の2つの入力が必要です。
Mアンカー: Alteryxで生成された単一の予測モデル、または2つ以上のモデルの組み合わせ。これらのモデルは、すべて同じデータセットを使用して生成されている必要があります。
D アンカー: 上記のモデルの生成に使用したデータセット。
Number of trials (試行回数) : クロスバリデーションを繰り返す回数を入力します。試行回数を少なくすると、ツールのスピードが上がります。回数を多くすると、その分モデルの品質の予測が正確になります。
Number of folds (フォールド数) : データを分割するサブセットの数を入力します。フォールド数についても、試行回数 と同様のトレードオフが存在します。
Type of model (モデルのタイプ) を選択します。
Classification (分類) : これらのモデルは、はい/いいえのようなカテゴリを予測します。
Regression (回帰) : これらのモデルは、売上合計のような数量を予測します。
階層化された(Stratified)クロスバリデーションを使用する必要がある場合: 階層化されたクロスバリデーションは特別なタイプのクロスバリデーションで、より大きなデータセットと同じ確率分布のフォールドを作成します。例えば、ターゲット値の80%が「いいえ」で、20%が「はい」のデータセットでは、各フォールドで約80%が「いいえ」、約20%が「はい」という結果になります。ターゲット変数が不均衡な場合は、階層化されたクロスバリデーションがしばしば推奨されます。
Name of the positive class (正のクラス名) : (オプション) この設定オプションは、二項 (2クラス) 分類にのみ関連します。F1スコアをはじめ、二項分類で報告される測定値の中には、正のクラス(例えば「はい」)と負のクラス(例えば「いいえ」)の区別が必要なものがあります。ただし、この設定オプションは必須ではありません。二項分類モデルでツールを使用するときに空白のままにすると、ツールはクラスの1つを正のクラスとして選択します。
Value of seed (シードの値) : 再現可能な結果を作成するために、乱数ジェネレータが使用するシードを選択して、どのレコードをどのフォールドにソートするかを指定することができます。シードを変更すると、フォールドの組成が変更されます。
D アンカー: この出力は、実測値と予測値を提供します。
F アンカー: この出力は、モデルのタイプに応じてさまざまなモデル適合指標を報告します。
R アンカー: 試行ごとの平均適合度指標を含むサマリーレポートと、モデルごとに 1 つの曲線が表示されるグラフを表示します。