A ferramenta Pesos de Importância fornece métodos para a seleção de um conjunto de variáveis a serem usadas em um modelo preditivo com base em quão forte é o grau de relação entre cada possível preditor e a variável-alvo de um modelo a ser criado.
O conjunto final selecionado pode se basear na obtenção dos N preditores mais fortemente relacionados ao alvo ou na seleção de um nível de peso de importância de corte, e somente as variáveis que excedem o ponto de corte são incluídas em um modelo.
Uma desvantagem dessa abordagem é que ela analisa apenas a força de um possível preditor no alvo isoladamente e ignora possíveis efeitos de interação e correlação entre preditores. Apesar dessa limitação, esse tipo de método de filtragem de variáveis é usado com frequência na prática.
Há várias medidas diferentes de pesos de importância e a aplicabilidade de um determinado método geralmente depende tanto do tipo de alvo quanto do preditor (numérico ou categórico). Uma desvantagem dessa situação é que as medidas usadas para determinar a importância relativa de diferentes preditores possíveis serão diferentes para variáveis numéricas e categóricas. A exceção é o método Compensação, mas seu desempenho não é tão robusto quanto o de outros métodos que são específicos para um determinado tipo de alvo e combinação de tipo de preditor.
A maioria das medidas é fornecida pelo pacote FSelector do R. Esse pacote utiliza alguns métodos escritos em Java, portanto, para usar essa macro, será necessário ter um ambiente de tempo de execução Java 7 na máquina em que o Alteryx está instalado.
Importante
Essa ferramenta não é instalada automaticamente com o Alteryx Designer, nem com as ferramentas R. Para usá-la, faça o download na Galeria da Comunidade.
Um fluxo de dados do Alteryx que contém a variável-alvo desejada e um conjunto de variáveis preditoras potenciais que serão usadas para estimar um modelo preditivo.
Alvo contínuo: selecione essa opção se a variável-alvo que você deseja prever for uma variável numérica. Ao selecionar essa opção, você deverá selecionar o campo da variável-alvo dos dados e se deseja examinar quais possíveis variáveis contínuas (numéricas) ou categóricas (variáveis de cadeia de caracteres com rótulos de categoria) você deseja considerar. Depois de ter feito essa seleção, você precisará selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para alvo contínuo e preditores contínuos, as medidas disponíveis são:
Correlação de Pearson
Correlação de Spearman (ordem de classificação)
Compensação, que fornece o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.
As medidas de pesos de importância disponíveis para um alvo contínuo e preditores categóricos são:
Correlação média condicional (Pearson). Essa medida se baseia no cálculo do nível médio da variável-alvo para cada nível (categoria) das variáveis categóricas e, em seguida, no cálculo da correlação de Pearson entre os valores reais e os valores médios
Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.
Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Alvo categórico: selecione esta opção se a variável-alvo que você deseja prever for uma variável categórica. Ao selecionar essa opção, você deverá selecionar o campo da variável-alvo dos dados e se deseja examinar quais possíveis variáveis contínuas (numéricas) ou categóricas (variáveis de cadeia de caracteres com rótulos de categoria) você deseja considerar. Depois dessa seleção, será necessário selecionar o conjunto de preditores (do tipo selecionado) que você deseja examinar e uma ou mais medidas de comparação. Para alvo contínuo e preditores contínuos, as medidas disponíveis são:
Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.
As medidas de pesos de importância disponíveis para um alvo categórico e preditores categóricos são:
V de Cramer (qui-quadrado)
Compensação, que usa o algoritmo RRELIEFF. O usuário pode selecionar o número de vizinhos próximos (Contagem de vizinhos) e o tamanho da amostra (Tamanho da amostra) usados para calcular a medida RRELIEFF.
Âncora D: consiste em uma tabela que fornece o valor do peso de importância selecionada para cada potencial preditor.
Âncora R: consiste em fragmentos de relatório que indicam o campo-alvo (e seu tipo) e o tipo dos campos preditores potenciais com a tabela do valor do peso de importância selecionado para cada preditor potencial.