単純ベイズ分類器ツール
ツールごとに学習
単純ベイズ分類器には、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
単純ベイズ分類器ツールは、予測変数のセットとカテゴリの目標変数との間の関係のニ項または多項確率的分類モデルを作成します。単純ベイズ分類子は、すべての予測変数が互いに独立していると仮定し、サンプル入力に基づいて、クラスの集合にわたる確率分散を予測し、そのように、ターゲット変数の各クラスに属する確率を計算します。
単純ベイズ分類子の主な利点の1つは、小さなトレーニングセットでもうまく動作することです。このメリットが生じる理由は、各変数が他のすべての変数から独立しており、その平均および分散によって単純ベイズ分類器がパラメーター化されているからです。最大尤度分類問題では、予測確率を推定するために共分散行列が必要となることが多いですが、学習セットが少ない場合は共分散行列のばらつきが大きくなり、ひいては最尤推定量 (MLE) が不安定になる可能性があります。単純ベイズ分類子は各予測の1次元分散の計算しか必要としないため、共分散行列の必要はなく、MLEは小さなトレーニングセットの問題を抱えません。
単純ベイズ分類子は、ターゲットの「クラス」変数に従って観測セットを分類しようとするとき、特に小さなトレーニングセットと少数の予測変数しか使用しない場合に役立ちます。単純ベイズ分類子は、初期トレーニングセットを使用して、所与の観測がターゲット変数の各クラスに属する確率を予測するためのモデルを開発します。
シンプルな例は、新車をリースしている人が、車両の特性 ( たとえば、ピックアップ / セダン / SUV )と顧客の特性 (たとえば、性別、年齢、性別など)の両方に基づいて、リースの終了時にその車両を購入するかどうかを予測することなどです。単純ベイズ分類子は、ユーザがトレーニングセットによって生成されたモデルに従って将来の個体を「スコアリング」することを可能にします。このスコアリングプロセスは、リース契約の終了時に購入する可能性と、リース契約の終了時に購入しない可能性のセットを導き出します。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。
ツールの設定
必須パラメーター
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。このターゲットは文字列型でなければなりません。
予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
ラプラススムージング: 正の値をスムージングパラメーターとして選択します。規定値は0に設定されています。ラプラススムージング機能により、学習セットが全く存在しない場合、または頻度が不十分なために確率がゼロ、あるいは通常より小さいとき (状況による) のクラス/特徴を組み合わせた場合においても、データを「スムージング」できます。これは、母集団の十分に代表的なサンプルではないかもしれない小さな訓練セットを使用して分類モデルを構築しようとするときに有用です。
グラフィックオプション
グラフ解像度 : グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
出力の表示
O アンカー: オブジェクト。シリーズにされたモデルのテーブルとそのモデル名で構成されます。
R アンカー: レポート。単純ベイズ分類器によって生成されたレポートスニペット (基本モデルサマリー、およびターゲット変数の各クラスのおもな効果プロット) で構成されます。