ポアソン回帰ツール
ツールごとに学習
ポアソン回帰には、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
ポアソン回帰ツールは、対象となっている負でない整数値 (0、1、2、3 など) のフィールド (ターゲット変数) と、そのターゲット変数に影響を与えると予想される (予測変数と呼ばれることもある) 1 つ以上のフィールドの関係性を表す回帰モデルを作成します。
一般的な使用ケースの例を挙げると、ある人が所定の月に特定のレストランに来店した回数、あるいは特定の携帯電話アカウントに関連付けられた電話番号の数といったものです。これらの使用ケースでは、線形モデルを使用すると偏りのある推定値が得られます。最も有名なモデルとして、ポアソン* と負の二項モデル** の 2 つがあります。ポアソンデータ回帰モデルでは、予測変数を 1 組与えると、予測フィールドを 1 組持つ観測ユニット (例えば、顧客) のイベント予測数 (例えば、店舗訪問回数) の推定値を得ることができます。
ポアソン回帰モデルは、ターゲットフィールドの平均値と分散値の間の関係についての(特にそれらが互いに等しいこと)を強く仮定します。これを説明するために、準ポアソンモデルが開発されています。疑似ポアソンモデルは、平均とは異なるが、情報基準尺度(AICなど)が定義されないことと引き換えに変数を許容するため、疑似ポアソンモデルをステップワイズ変数選択の出発点として使用することはできません。負の二項回帰モデルは、情報基準が明確に定義されており、基礎となる分布の平均と分散の差が許容されているため、通常は優先されます。平均および分散が互いに異なるデータを使用して推定されたポアソン回帰モデルは、互いとは異なる平均と分散が、平均および対応するモデル係数の不偏推定を提供する一方で、統計的有意性の検定には偏りがあることに注意する必要があります。
このツールでは、入力データが通常の Alteryx データストリームに由来する場合は、オープンソースの R glm 関数がモデル推定に使用されます。入力が XDF 入力ツール または XDF 出力ツール のいずれかに由来する場合は、Revo ScaleR rxGlm 関数がモデル推定に使用されます。Revo ScaleR ベースの関数を使用する利点は、より大きな (メモリ不足の) データセットを分析できることですが、XDF ファイルを作成するための追加のオーバーヘッドを犠牲にし、オープンソースの R 関数で利用可能なモデル診断出力の一部を作成できず、ポアソン回帰モデルしか生成できません。
このツールはRツールを使用します。オプション予測ツールのダウンロード に移動し、Alteryx ダウンロードとライセンス ポータルにサインインして、Rツール で使用されるパッケージと Rツールをインストールします。予測ツールのダウンロードと使用 を参照してください。
入力を接続
対象のターゲットフィールドと1つ以上の予測フィールドになり得るフィールドを含む、AlteryxデータストリームまたはXDFメタデータストリームを接続します。
ツールの設定
ポアソン回帰 - [設定] タブ
モデル名: 各モデルには、後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド (".") とアンダースコア ("_") を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
予測変数を選択: ターゲット変数の値が変更される 原因 と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
モデルのタイプ: ポアソン、準ポアソン、または 負の二項 を選択します。負の二項を選択した場合は、シータの値を指定できます (モデルの分散と密接に関連します)。シータの最良値は、デフォルトの "自動" オプションが使用されている場合、データから推定できます。
モデル推定にサンプリングの重み付けを使用しますか? (オプション): チェックボックスを選択し、データストリームから重みフィールドを選択して、サンプリングの重みを使用するモデルを推定します。このオプションは、モデルのタイプとして負の二項を選択し、シータの値を 自動 オプションで決定する場合には機能しませんが、シータの特定の値が指定されている場合には機能します (そうなるかどうかは、サンプリングの重み付けを使用していないモデルを最初に実行したときの状態で決まります)。
[グラフィックオプション] タブ
グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
出力の表示
O アンカー: シリアル化されたモデルのテーブルとそのモデル名で構成されます。
R アンカー: 統計サマリー、逸脱度のタイプII分析 (ANOD)、および基本診断プロットなど、ポアソン回帰ツールが生成するレポートスニペットで構成されます。モデル入力がXDF出力またはXDF入力ツールからのものである場合、逸脱度のタイプII分析テーブルおよび基本診断プロットは生成されません。
en.wikipedia.org/wiki/Poisson_regression
en.wikipedia.org/wiki/Negative_binomial_distribution