ランダムフォレストツール
ツールごとに学習
ランダムフォレストには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、このサンプルを含むさまざまなサンプルを Alteryx Designer で直接利用する方法をご確認ください。
ランダムフォレストツールは1つ以上の予測変数に基づいて、ターゲット変数を予測する決定木モデルのセットで構築される単一のモデルを作成します。異なるモデルは、元のデータの無作為のサンプル、すなわちブートストラップと呼ばれる手順を使用して構築されます。さらに、ツリースプリットごとに限られた数の変数しか考慮されず、決定された数はRによって自動的に設定されるか、またはユーザーによって設定されます。詳細については、ランダムフォレスト を参照してください。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。詳細については、予測ツールのダウンロードと使用 を参照してください。
標準処理のためのツール設定
入力を接続
対象となるターゲットフィールドのほかに、予測フィールドの候補となるフィールドを 1 つ以上含む Alteryx データストリームまたは XDF メタデータストリームを接続します。
入力データが Alteryx データストリームに由来する場合、オープンソース R randomForest 関数 (randomForest パッケージ) がモデル推定に使用されます。
入力データが XDF 出力ツール または XDF 入力ツール に由来する場合、RevoScaleR rxDForest 関数がモデル推定に使用されます。RevoScaleR ベースの関数を使用するメリットは、より大きな (メモリ不足の) データセットを分析できることですが、XDF ファイルを作成するための余分なオーバーヘッドができるというデメリットもあり、データ上でより多くのパスを作成する必要のあるアルゴリズムを使用して、オープンソースの randomForest 関数よりも (ずっと遅くなりうる) アンサンブル内にそれぞれのツリーを作成します。その結果、アンサンブル内のツリー数をデフォルトの500ツリーから減らすことを強くお勧めします。
必須パラメーター
モデル名: モデルが他のツールで参照されているとき、そのモデルを識別するモデル名を入力します。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド (".") とアンダースコア ( "_") を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータを選択します。ターゲット変数は、応答変数または従属変数とも呼ばれます。
予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。予測変数は、機能または独立変数とも呼ばれます。任意の数の予測変数を選択できますが、ターゲット変数は予測変数にしてはなりません。各カテゴリの予測変数は、最大32のクラスを持つことができます。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
使用するツリーの数: フォレストに含めるツリーモデルの数を入力します。規定値は、Breimanの発見に基づいて500になっています。モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
各分割間で選択する特定の変数の数を選択する: このチェックボックスにチェックを入れ、分割ごとに考慮する変数の数を入力します。
[モデルのカスタマイズ] を選択してモデル設定を変更します。
モデルのカスタマイズ
各モデルツリーの全体サイズを直接制限する:
ツリー内の許容ノードの合計: オープンソースの randomForest モデルを使用するモデルの場合に選択します。
モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルの場合に選択します。
ツリーノードで許容されるレコードの最小数: 値を入力するか、上下の矢印キーを使用して、各アンサンブルツリーで許容されるターミナルノードの最小サイズを制御します。この数を増やすと、各ツリーのノードの総数が減少します。
置き換えにより各モデルの作成のためのレコードを選択する: このチェックボックスにチェックを入れ、ブートストラップの複製を完全な推定サンプルから置換ありで抽出するか、置換なしで抽出するかを制御します。
各ツリーを作成するためにサンプリングするデータレコードの割合: 値を入力するか、上下の矢印を使用して、各ブートストラップ複製を形成するために、推定サンプル全体のうちすべてを使用するのか、一部のみを使用するのかを制御します。
グラフィックオプション
プロットサイズ: グラフのサイズをインチとセンチメートルのどちらにするかを選択します。
グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
O アンカー: 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
R アンカー: サマリーとプロットを含むモデルのサマリーレポートを表示します。
インデータベース処理のためのツール設定
ランダムフォレストツールは、Microsoft SQL Server 2016のインデータベース処理をサポートしています。インデータベースのサポートとツールの詳細については、インデータベースの概要 を参照してください。
ランダムフォレストツールが別のDB内ツールを使用してキャンバスに配置されると、ツールは自動的にIn-DBバージョンに変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。予測インデータベースのサポートの詳細については、 予測分析を参照してください。
入力を接続
関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。
入力が SQL Server または Teradata インデータベースのデータストリームに由来する場合、Microsoft Machine Learning Server の rxDForest 関数 (RevoScaleR パッケージ) がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方が Microsoft Machine Learning Server で設定されている場合、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。
必須パラメーター
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。名前を指定するか、名前を自動的に生成するかを選択できます。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
使用するツリーの数: フォレストに含めるツリーモデルの数を選択します。規定値は、Breimanの発見に基づいて500になっています。モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
各分割間で選択する特定の変数の数を選択: 分割ごとに考慮する変数の数を選択します。
モデル推定にサンプリング重み付けを使用: チェックボックスをクリックしてデータストリームから重み付けフィールドを選択し、サンプリング重み付けを使用するモデルを推定します。フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
モデルのカスタマイズ
各モデルツリーの全体サイズを直接制限する
ツリー内の許容ノードの合計: オープンソースの R randomForest モデルを使用するモデルの場合に選択します。
モデルツリーの最大の深さ: RevoScaleR rxDForest 関数を使用するモデルの場合に選択します。
ツリーノードで許容されるレコードの最小数: 各アンサンブルツリーで許容されるターミナルノードの最小サイズを制御する値を選択します。この数を増やすと、各ツリーのノードの総数が減少します。
置き換えにより各モデルの作成のためのレコードを選択する: ブートストラップの複製を、完全な推定サンプルから置き換えて描画するか置き換えずに描画するかのどちらを制御するかを選択します。
各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップ複製を形成するために、完全な推定サンプルのすべてまたは一部のみのどちらを制御するかを選択します。
グラフィックオプション
プロットサイズ: グラフのサイズをインチとセンチメートルのどちらにするかを選択します。
グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
O アンカー: 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
R アンカー: サマリーとプロットを含むモデルのサマリーレポートを表示します。