Skip to main content

Logistic Regression Icon ロジスティック回帰ツール

ツールごとに学習

ポアソン回帰には、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

[ロジスティック回帰]ツールは、ターゲットバイナリ変数(yes / no、pass / failなど)を1つ以上のプレディクタ変数に関連付けるモデルを作成し、ターゲット変数それぞれに対して2つの可能な応答の推定確率を取得します。 Common logistic regression models include logit, probit, and complementary log-log. ロジスティック回帰を参照してください。

このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。

標準処理のためのツール設定

入力を接続

対象のターゲットフィールドと1つ以上の予測フィールドになり得るフィールドを含む、AlteryxデータストリームまたはXDFメタデータストリームを接続します。

入力データがAlteryxデータストリームからのものである場合、オープンソースR glm関数およびglmnetとcv.glmnet関数( glmnetパッケージ)がモデル推定に使用されます。

入力データが XDF出力ツールまたはXDF入力ツール、RevoScaleR rxLogit関数は、モデル推定に使用されます。Revo ScaleRベースの関数の使用には、大量の(メモリ不足の)データセットを解析することができるというメリットがありますが、XDFファイルを作成するために追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないというデメリットもあり、ロジットリンク関数の使用のみ許可されます。

ツールの設定

  • モデル名: モデルが他のツールで参照されているとき、そのモデルを識別するモデル名を入力します。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。

  • ターゲット変数を選択: 予測するデータを選択します。ターゲット変数は、応答変数または従属変数とも呼ばれます。

  • 予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。予測変数は、機能または独立変数とも呼ばれます。任意の数の予測変数を選択できますが、ターゲット変数は予測変数にしてはなりません。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。

カスタマイズをクリックしてモデル、 クロス確認、および プロット 設定を変更します。

モデルをカスタマイズする

  • 変数を選択して、モデル推定の作成時に各レコードに配置する重要度を決定します。値が予測変数と重み変数の両方として使用されている場合、重み変数は、レポート出力のモデル呼び出しに文字列「Right_」が付加されて表示されます。

  • 誤差の二乗和の同じ最小化と係数のサイズに関するペナルティ項のバランスをとるために選択し、より単純なモデルを生成します。

    • 係数に与えられた強調の量を測定するには、0(隆線回帰)と1(ラッソ)間の値を選択します。

    • 使用するアルゴリズムに基づいて、すべての変数を同じサイズにする場合に選択します。

    • Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters

      • データを分ける折り畳みの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。

      • 係数を決定するモデルのタイプを選択します。

        • より簡易なモデル

        • より低いサンプル標準誤差があるモデル

      • クロス確認の再現性を確実にするために選択し、レコードを折り畳みに割り当てるために使用されるシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。タイムスタンプは正の整数でなければなりません。

  • ターゲット変数を予測するために使用するモデルのタイプを選択します。

    • logit (ロジット)

    • probit (プロビット)

    • cloglog (complementary log-log)

クロス確認のカスタマイズ

  • Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. 一部のメトリックとグラフは静的なR出力に表示され、他のメトリックとグラフは相互作用I出力に表示されます。

  • データを分ける折り畳みの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。

  • クロス確認手順を繰り返す回数を選択します。各試行において折り畳みが異なるように選択され、全体の結果はすべての試行にわたって平均化されます。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。

  • バイナリ分類の場合(真の陽性率など)にツールによって報告される測定値の中には、陽性のクラスを指定する必要があるものがあります。バイナリ分類を実行するには、ターゲット変数の2つの陽性クラスの1つを入力します。空白のままにしておくと、クラスの1つが自動的に陽性クラスとして決定されます。このオプションは、分類モデルでのみ使用できます。

  • 各折り畳みがデータセット全体に存在する各クラスと同じパーセンテージを持つように選択します。このオプションは、分類モデルでのみ使用できます。

  • クロス確認の再現性を確実にするために選択し、レコードを折り畳みに割り当てるために使用されるシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。タイムスタンプは正の整数でなければなりません。

プロットをカスタマイズする

グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)

  • 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。

  • 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • O アンカー: 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。

  • R アンカー: サマリーとプロットを含むモデルのサマリーレポートを表示します。

  • サポートする視覚の相互作用的ダッシュボードを表示し、ズーム、ホバー、クリックすることができます。

インデータベース処理のためのツール設定

[ロジスティック回帰]ツールは、Oracle、Microsoft SQL Server 2016、およびTeradataのインデータベース処理をサポートします。インデータベースのサポートとツールの詳細については、インデータベースの概要 を参照してください。

[ロジスティック回帰]ツールがキャンバス上に別の[In-DB]ツールを使用して配置されると、ツールはDB内バージョンに自動的に変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。予測インデータベースのサポートの詳細については、 予測分析を参照してください。

入力を接続

関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。

入力が SQL Server または Teradata インデータベースのデータストリームに由来する場合、Microsoft Machine Learning Server の rxDForest 関数 (RevoScaleR パッケージ) がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方が Microsoft Machine Learning Server で設定されている場合、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。

入力がOracleのインデータベースデータストリームに由来する場合、( OREモデル パッケージからの)Oracle R Enterpriseのore.lm関数がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方がOracle R Enterpriseで構成されている限り、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。

Oracleデータベースのインデータベースワークフローの場合、[ロジスティック回帰]ツールが[接続(In-DB)]ツールから1つのフルテーブルを選択して直接接続されている場合、または、データベースに推定データテーブルを保存するために[線形回帰]ツールの直前で[書き込みデータ(In-DB)]ツールが使用される場合のみ、結果として生じるモデルオブジェクトダウンストリームの完全な機能が生じます。Oracle R Enterpriseは、予測データ表を使用して、予測間隔の計算などの完全なモデルオブジェクト機能を提供します。

ツールの設定

  • モデル名: 各モデルには後で識別できるように名前を付ける必要があります。名前を指定するか、名前を自動的に生成するかを選択できます。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。

  • ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。

  • 予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。

  • モデルから定数を省略したい場合は、この項目にチェックマークを入れてください。これは相する明示的な理由がある場合に行う必要があります。

  • このオプションを使用すると、Oracleプラットフォームにのみ関連する追加オプションを構成できます。

    • ターゲット変数を予測するために使用するモデルのタイプを選択します。

      • logit (ロジット)

      • probit (プロビット)

      • cloglog (complementary log-log)

    • 推定モデルオブジェクトがデータベースに保管されるようにします。モデルオブジェクトと推定テーブルがOracleデータベースの中央の場所に共存するようにすることをお薦めします。

  • モデル推定にサンプリング重み付けを使用: チェックボックスをクリックしてデータストリームから重み付けフィールドを選択し、サンプリング重み付けを使用するモデルを推定します。フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。

  • Microsoft R Serverは、使用する特定のTeradataプラットフォーム、特にRのバイナリ実行可能ファイルに対するTeradataサーバー上のパス、およびMicrosoft R Serverで使用される一時ファイルが書き込まれる場所に関する追加の構成情報を必要とします。この情報は、Teradataのローカル管理者が提供する必要があります。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • O anchor: Output. 「結果」ウィンドウにオブジェクトのモデル名とサイズを表示します。

  • R アンカー: レポート。要約とプロットを含むモデルの要約レポートを表示します。