Skip to main content

Importance Weights Tool Icon Ferramenta Pesos de Importância

A ferramenta Pesos de Importância fornece métodos para a seleção de um conjunto de variáveis a serem usadas em um modelo preditivo com base em quão forte é o grau de relação entre cada possível preditor e a variável-alvo de um modelo a ser criado.

O conjunto final selecionado pode se basear na obtenção dos N preditores mais fortemente relacionados ao alvo ou na seleção de um nível de peso de importância de corte, e somente as variáveis que excedem o ponto de corte são incluídas em um modelo.

Uma desvantagem dessa abordagem é que ela analisa apenas a força de um possível preditor no alvo isoladamente e ignora possíveis efeitos de interação e correlação entre preditores. Apesar dessa limitação, esse tipo de método de filtragem de variáveis é usado com frequência na prática.

Há várias medidas diferentes de pesos de importância e a aplicabilidade de um determinado método geralmente depende tanto do tipo de alvo quanto do preditor (numérico ou categórico). Uma desvantagem dessa situação é que as medidas usadas para determinar a importância relativa de diferentes preditores possíveis serão diferentes para variáveis numéricas e categóricas. A exceção é o método Compensação, mas seu desempenho não é tão robusto quanto o de outros métodos que são específicos para um determinado tipo de alvo e combinação de tipo de preditor.

A maioria das medidas é fornecida pelo pacote FSelector do R. Esse pacote utiliza alguns métodos escritos em Java, portanto, para usar essa macro, será necessário ter um ambiente de tempo de execução Java 7 na máquina em que o Alteryx está instalado.

Importante

Essa ferramenta não é instalada automaticamente com o Alteryx Designer, nem com as ferramentas R. Para usá-la, faça o download na Galeria da Comunidade.

Conectar uma entrada

Um fluxo de dados do Alteryx que contém a variável-alvo desejada e um conjunto de variáveis preditoras potenciais que serão usadas para estimar um modelo preditivo.

Configurar a ferramenta

  • Alvo contínuo: selecione essa opção se a variável-alvo que você deseja prever for uma variável numérica. Ao selecionar essa opção, você deverá selecionar o campo da variável-alvo dos dados e se deseja examinar quais possíveis variáveis contínuas (numéricas) ou categóricas (variáveis de cadeia de caracteres com rótulos de categoria) você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para alvo contínuo e preditores contínuos, as medidas disponíveis são:

    • Correlação de Pearson

    • Correlação de Spearman (ordem de classificação)

    • Compensação, que fornece o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.

    • As medidas de pesos de importância disponíveis para um alvo contínuo e preditores categóricos são:

      • Correlação média condicional (Pearson). Essa medida se baseia no cálculo do nível médio da variável-alvo para cada nível (categoria) das variáveis categóricas e, em seguida, no cálculo da correlação de Pearson entre os valores reais e os valores médios

      • Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.

    • Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Alvo categórico: selecione esta opção se a variável-alvo que você deseja prever for uma variável categórica. Ao selecionar essa opção, você deverá selecionar o campo da variável-alvo dos dados e se deseja examinar quais possíveis variáveis contínuas (numéricas) ou categóricas (variáveis de cadeia de caracteres com rótulos de categoria) você deseja considerar. Depois dessa seleção, será necessário selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para alvo contínuo e preditores contínuos, as medidas disponíveis são:

    • Ganho de informação de entropia

    • Taxa de ganho de entropiaTaxa de ganho de entropia

    • Incerteza simétrica de entropia

    • Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.

    • As medidas de pesos de importância disponíveis para um alvo categórico e preditores categóricos são:

      • V de Cramer (qui-quadrado)

      • Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.

Visualizar a saída

  • Âncora D: consiste em uma tabela que fornece o valor do peso de importância selecionada para cada potencial preditor.

  • Âncora R: consiste em fragmentos de relatório que indicam o campo-alvo (e seu tipo) e o tipo dos campos preditores potenciais com a tabela do valor do peso de importância selecionado para cada preditor potencial.