Skip to main content

MB Rules Tool WK-Regeln-Tool

DasWK-Regeln-Tool verwendet Transaktionsdaten und erstellt nach dem Umwandeln der Daten einen Satz mit Assoziationsregeln mithilfe des Apriori-Algorithmus oder häufigen Elementsätzen mithilfe der Apriori- oder Eclat-Algorithmen. Ein Übersichtsbericht wird erstellt, der sowohl die Transaktionsdaten als auch die Regeln/Elementsätze zusammenfasst, sowie ein Modellobjekt, das in einem nachgeschalteten Prozess weiter untersucht werden kann.

Regeln und Elementsätze unterscheiden sich dahingehend, dass Assoziationsregeln eine spezifische, kausale Beziehung zwischen Elementen in einer Gruppe einschließen, während Elementsätze aus Gruppen bestehen, die häufig zusammen in Transaktionen vorkommen. Im Falle von Assoziationsregeln führt das Vorhandensein einiger untergeordneter Elementsätze in einer Transaktion (linksseitige bzw. LHS-Elemente) zur Einbeziehung weiterer Elemente in die Transaktion (rechtsseitige bzw. RHS-Elemente).

Dieses Tool verwendet das R-Tool. Gehen Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Herunterladen und Verwalten von Prognose-Tools.

Tool-Konfiguration

Eingabedatenstruktur

Es sind zwei unterschiedliche Formate für die Eingabedaten möglich. Das erste Format beinhaltet Datensätze, die eine einzelne Elementkennung sowie eine Kennung für die Transaktion beinhalten, in der das Element vorhanden war (ein Satz mit eindeutigen Element-Transaktionspaaren). Das zweite Format besteht aus einem einzelnen Datensatz pro Transaktion, der eine getrennte Liste mit in der Transaktion vorhandenen Elementen enthält.

  1. Ein Element pro Datensatz mit Transaktionsschlüssel: Option entspricht den eindeutigen Element-Transaktionspaaren. Unter dieser Option müssen Sie mithilfe der folgenden Optionen 2 Felder im Datenstrom angeben:

    • Transaktionsschlüsselfeld auswählen: Das Ganzzahl- oder Zeichenfolgen-orientierte Feld, das das Feld mit der Transaktionskennung beinhaltet.

    • Feld mit der Elementkennung auswählen: Das Ganzzahl- oder Zeichenfolgen-orientierte Feld, das die Elementkennungen beinhaltet.

  2. Eine Transaktion pro Datensatz mit allen Elementen in einem einzelnen (intern abgegrenzten) Feld: Diese Option entspricht dem Format, bei dem eine Transaktion in einem einzigen Datensatz enthalten ist. Bei diesem Format müssen Sie mithilfe der folgenden Optionen 2 Felder im Datenstrom angeben:

    • Feld mit den abgegrenzten Transaktionselementen auswählen: Das Zeichenfolgen-orientierte Feld, das die Listen mit den abgegrenzten Transaktionselementen beinhaltet.

    • Trennzeichen zum Separieren der Elemente in einer Transaktion bereitstellen: Das Trennzeichen wie ein Komma.

Zu verwendende Methode

Die 2 am häufigsten verwendeten Algorithmen zum Suchen nach Assoziationsregeln und häufigen Elementsätzen werden bereitgestellt: Apriori und Eclat.

Der Apriori-Algorithmus nutzt eine stufenweise Suche nach 3 Typen häufiger Elementsätze (häufig, maximale Häufigkeit und abgeschlossene Häufigkeit), Assoziationsregeln oder Hyperedgesets für die Zuordnung.

Beim Eclat-Algorithmus kommen einfache Schnittmengenvorgänge für das Clustering von Äquivalenzklassen sowie die Gitterdurchlauf-Methode von unten nach oben zum Einsatz, um die 3 Typen häufiger Elementsätze zu finden. Zusätzlich zur Auswahl der zu verwendenden Methode müssen Sie angeben, wonach gesucht werden soll (z. B. Elementsätze, Regeln oder Hyperedgesets). Die Optionen sind:

  1. Apriori: Diese Option wählt den Apriori-Algorithmus aus. Mit dieser Methode können Sie häufige Elementsätze, Elementsätze mit maximaler Häufigkeit, mit abgeschlossener Häufigkeit, Assoziationsregeln (Standard) oder Hyperedgesets für die Zuordnung suchen.

  2. Eclat: Diese Option wählt den Eclat-Algorithmus zum Suchen nach Elementsätzen aus. Dabei geben Sie an, ob häufige Elementsätze, Elementsätze mit maximaler Häufigkeit oder Elementsätze mit abgeschlossener Häufigkeit gesucht werden sollen.

Steuerungsparameter

Die Steuerungsparameter beeinflussen das Wesen der Assoziationsregeln, häufigen Elementsätze oder Hyperedgesets für die Zuordnung, die aus den Transaktionen extrahiert werden. Diese Parameter sind:

  1. Die zulässige minimale Anzahl an Elementen in einer Regel oder einem Elementsatz: Dieser Parameter begrenzt die zurückgegebenen Regeln oder Elementsätze, sodass sie mindestens die angegebene Anzahl Elemente enthalten. Standardmäßig ist der Wert auf 1 festgelegt (dies ist auch der Minimalwert), er kann jedoch auch auf eine höhere Anzahl festgelegt werden. Die übliche Auswahl für diesen Parameter lautet 1 oder 2.

  2. Die minimal erforderliche Support-Ebene für eine Regel oder einen Elementsatz: Unterstützung ist der Teil der Transaktionen, die die Elemente im Elementsatz oder in der Assoziationsregel enthalten. Der Standardwert für diesen Parameter ist 0,02. Jedoch kann auch ein Wert zwischen 0,002 und 1 festgelegt werden. Generell gilt: Je kleiner der Wert dieses Parameters, desto größer die Anzahl der zurückgegebenen Regeln oder Elementsätze. In einigen Instanzen kann die Anzahl zurückgegebener Regeln oder Elementsätze den verfügbaren Systemspeicher des Benutzers ausschöpfen. Es sollten also keine zu niedrigen Werte verwendet werden.

  3. Die minimal erforderliche Konfidenzstufe für eine Regel oder einen Elementsatz (gilt nur für Apriori): Die Konfidenz ist der Teil der Transaktionen, bei denen sich die RHS-Elemente in den Transaktionen befinden, die auch die LHS-Elemente enthalten. Mit anderen Worten ist dies eine Kennzahl für die Wahrscheinlichkeit, dass sich die RHS-Elemente in der Transaktion befinden, wenn sich auch die LHS-Elemente in der Transaktion befinden. Diese Kennzahl gilt nur für den Apriori-Algorithmus. Genau wie beim Support-Parameter gilt: Je kleiner der Wert dieses Parameters, desto größer die Anzahl der zurückgegebenen Regeln oder Elementsätze. In einigen Instanzen kann die Anzahl zurückgegebener Regeln oder Elementsätze den verfügbaren Systemspeicher des Benutzers ausschöpfen. Es sollten also keine zu niedrigen Werte verwendet werden.