Skip to main content

Decision Tree Tool Icon Ferramenta Árvore de Decisão

Fluxo de trabalho de exemplo

A ferramenta Árvore de Decisão possui um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

Utilize a ferramenta Árvore de Decisão para criar um conjunto de regras de divisão "se-então" (if-then) para otimizar os critérios de criação de modelos com base nos métodos de aprendizagem de árvore de decisão. A formação de regras é baseada no tipo de campo-alvo:

  • Se o campo-alvo for membro de um conjunto de categorias, uma árvore de classificação será construída.

  • Se o campo alvo for uma variável contínua, uma árvore de regressão será construída.

Utilize a ferramenta Árvore de Decisão quando o campo-alvo é previsto usando um ou mais campos variáveis, como um problema de classificação ou regressão contínua de alvos.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Conectar uma entrada

A ferramenta Árvore de Decisão requer uma entrada com...

  • Um campo-alvo de interesse

  • Um ou mais campos de preditores

Os pacotes usados na estimativa dos modelos variam de acordo com o fluxo de dados de entrada.

  • Um fluxo de dados do Alteryx utiliza a função de código aberto rpart do R.

  • Um fluxo de metadados XDF, proveniente de uma ferramenta de Entrada XDF ou Saída XDF, utiliza a função RevoScaleR rxDTree.

  • Um fluxo de dados in-DB do SQL Server usa a função rxBTrees.

  • A instalação do Microsoft Machine Learning Server aproveita a função RevoScaleR rxBTrees para seus dados em bancos do SQL Server ou Teradata. Isso requer que a máquina local e o servidor estejam configurados com o Microsoft Machine Learning Server, que permite o processamento no servidor do banco de dados e resulta em uma melhoria significativa no desempenho.

Recursos do RevoScaleR

Em comparação com as funções de código aberto do R, a função baseada em RevoScaleR pode analisar conjuntos de dados muito maiores. No entanto, a função baseada no RevoScaleR deve criar um arquivo XDF, o que aumenta o custo de sobrecarga. Além disso, ela usa um algoritmo que faz mais passagens pelos dados, aumentando o tempo de execução, e não pode criar saídas de diagnóstico para alguns modelos.

Configurar a ferramenta para processamento padrão

Estas opções são necessárias para gerar uma decisão.

  • Tipo de nome do modelo: um nome para o modelo que pode ser referenciado por outras ferramentas. O prefixo ou nome do modelo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). O R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: o campo de dados a ser previsto, também conhecido como resposta ou variável dependente.

  • Selecione as variáveis preditoras: os campos de dados que influenciam o valor da variável-alvo, também conhecidos como recursos ou variáveis independentes. É exigido, no mínimo, um campo preditor, mas não há um limite máximo para o número de campos preditores selecionados. A variável-alvo não deve ser usada para calcular o seu próprio valor, portanto, o campo-alvo não deve ser incluído com os campos preditores. Colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Selecione Personalizar para ajustar configurações adicionais.

Personalizar o modelo

Guia Modelo

As opções que alteram a forma como o modelo avalia os dados e como o mesmo é construído.

Selecionar o algoritmo: seleciona a função rpart ou a função C5.0. As opções seguintes variam dependendo do algoritmo escolhido.

  • rpart: um algoritmo baseado no trabalho de Breiman, Friedman, Olshen e Stone; considerado o padrão. Use o rpart se estiver criando um modelo de regressão ou se precisar de um gráfico de poda.

    • Tipo de modelo e pesos de amostragem: controles para o tipo de modelo com base na variável-alvo e no tratamento de pesos de amostragem.

      • Tipo de modelo: o tipo de modelo usado para prever a variável-alvo.

        • Auto: o tipo de modelo é selecionado automaticamente com base no tipo de variável-alvo.

        • Classificação: o modelo prevê um valor de texto discreto de uma categoria ou de um grupo.

        • Regressão: o modelo prevê valores numéricos contínuos.

      • Usar pesos de amostragem na estimativa do modelo: uma opção que permite selecionar um campo que julga a importância atribuída a cada registro e pondera o registro em conformidade ao criar uma estimativa de modelo.

        Se um campo é usado tanto como um preditor quanto como um peso de amostragem, o campo de variável de peso gerado terá o prefixo "Right_".

    • Critérios de divisão e substitutos: controla como o modelo determina uma divisão e como os substitutos são usados na avaliação de padrões de dados. Os critérios de divisão a serem usados: selecione a maneira como o modelo avalia quando uma árvore deve ser dividida.

      • O critério de divisão ao usar um modelo de regressão é sempre de mínimos quadrados.

        • Coeficiente de Gini

        • A impureza de Gini é usada.

        • Índice de informações

      • Usar substitutos para: seleciona o método para usar substitutos no processo de divisão. Os substitutos são variáveis relacionadas à variável primária que são usadas para determinar o resultado da divisão para um registro com informações ausentes.

        • Omitir observações com valor ausente para regra de divisão primária: o registro sem a variável candidata não é considerado na determinação da divisão.

        • Dividir registros sem a variável candidata: todos os registros sem a variável candidata são distribuídos uniformemente na divisão.

        • Enviar observação na direção da maioria se todos os substitutos estiverem faltando: todos os registros que não possuem a variável candidata são colocados no lado da divisão que contém mais registros.

      • Selecionar a melhor divisão substituta usando: seleciona os critérios para escolher a melhor variável para dividir a partir de um conjunto de variáveis possíveis.

        • Número de classificações corretas para uma variável candidata: escolhe a variável a ser dividida com base no número total de registros que estão classificados corretamente.

        • Porcentagem de classificações corretas para uma variável candidata escolhe a variável a ser dividida com base na porcentagem de registros classificados corretamente.

    • Hiperparâmetros: controles para a distribuição anterior do modelo. Ajusta o processamento com base na distribuição anterior.

      • O número mínimo de registros necessários para permitir uma divisão: define o número de registros que devem existir antes que uma divisão ocorra. Se houver menos registros do que o número mínimo, nenhuma outra divisão será permitida.

      • O número mínimo permitido de registros em um nó terminal: define o número de registros que podem estar em um nó terminal. Um número menor aumenta o número potencial de nós terminais finais no fim da árvore.

      • O número de partições (folds) a serem usadas na validação cruzada para poda da árvore: define o número de grupos (N) em que os dados devem ser divididos ao testar o modelo. O número padrão é 10, mas outros valores comuns são 5 e 20. Um número maior de partições (folds) dá mais acurácia à árvore, mas pode levar mais tempo para ser processado. Quando a árvore é podada utilizando um parâmetro de complexidade, a validação cruzada determina quantas divisões ou ramificações existem na árvore. Na validação cruzada, N - 1 das partições (folds) são utilizadas para criar um modelo e a outra partição é utilizada como amostra para determinar o número de ramificações que melhor se adapta à partição de teste (holdout), de modo a evitar o sobreajuste.

      • A profundidade máxima permitida de qualquer nó na árvore final: define o número de níveis de ramificações permitidos do nó raiz até o nó mais distante da raiz para limitar o tamanho geral da árvore.

      • O número máximo de intervalos (bins) a serem usados para cada variável numérica: insere o número de intervalos a serem usados para cada variável. Por padrão, o valor é calculado com base no número mínimo de registros necessários para permitir uma divisão.

        Somente fluxo de metadados XDF

        Esta opção só se aplica quando a entrada na ferramenta é um fluxo de metadados XDF. A função Revo ScaleR (rxDTree) que implementa a árvore de decisão escalável manipula variáveis numéricas por meio de um processo de agrupamento de intervalos iguais para reduzir a complexidade da computação.

      • Definir parâmetro de complexidade: um valor que controla o tamanho da árvore de decisão. Um valor menor resulta em mais ramificações na árvore e um valor maior resulta em menos ramificações. Se um parâmetro de complexidade não for selecionado, o parâmetro será determinado com base na validação cruzada.

  • C5.0: um algoritmo baseado no trabalho de Quinlan; use C5.0 se seus dados forem classificados em uma de um pequeno número de classes mutuamente exclusivas. As propriedades que podem ser relevantes para a atribuição de classe são fornecidas, embora alguns dados possam ter valores desconhecidos ou não aplicáveis.

    • Opções estruturais: controles para a estrutura do modelo. Por padrão, o modelo é estruturado como uma árvore de decisão.

      • Decomporárvore em modelo baseado em regras: altera a estrutura do algoritmo de saída de uma árvore de decisão para uma coleção de regras simples e não ordenadas do tipo "se-então" (if-then). Selecione Número limite de bandas nas quais agrupar regras para Selecionar um número de bandas nas quais agrupar as regras em que o número definido é o limite da banda.

    • Opções detalhadas: controles para divisões e recursos do modelo.

      • O modelo deve avaliar grupos de preditores discretos para divisões: agrupa variáveis preditoras categóricas. Selecione para reduzir o sobreajuste quando existirem atributos discretos importantes que têm mais de quatro ou cinco valores.

      • Usar a redução de recursos do preditor (ou seja, seleção de recursos): selecione para simplificar o modelo tentando excluir preditores não úteis.

      • Podar árvore: selecione para simplificar a árvore e reduzir o sobreajuste removendo as divisões da árvore.

      • Avaliar divisões avançadas nos dados: selecione para executar avaliações com variáveis secundárias para confirmar qual ramificação é a previsão com mais acurácia.

      • Usar o método de parada para otimizar: selecione para avaliar se as iterações de otimização estão se tornando ineficazes e, em caso afirmativo, parar de otimizar.

    • Hiperparâmetros numéricos: controles para a distribuição anterior do modelo baseados em um valor numérico.

      • Selecionar o número de iterações de otimização: selecione 1 para usar um único modelo.

      • Selecionar o fator de confiança: este é o análogo do parâmetro de complexidade do rpart.

      • Selecionar o número de amostras que devem estar em pelo menos duas divisões: um número maior resulta em uma árvore menor e mais simplificada.

      • Porcentagem de dados mantidos no treinamento para avaliação do modelo: selecione a parte dos dados usada para treinar o modelo. Use o valor padrão 0 para utilizar todos os dados para treinar o modelo. Selecione um valor maior para manter essa porcentagem de dados do treinamento e da avaliação da acurácia do modelo

      • Selecionar semente aleatória para o algoritmo: selecione o valor da semente. O valor deve ser um número inteiro positivo.

Guia Validação cruzada

Controles para personalizar um método de validação com o uso eficiente das informações disponíveis.

Selecione Usar validação cruzada para determinar estimativas de qualidade do modelo para realizar a validação cruzada a fim de obter várias métricas e gráficos de qualidade do modelo. Algumas métricas e gráficos são exibidos na saída R, e outros são exibidos na saída I.

  • Número de partições (folds) de validação cruzada: o número de subamostras em que os dados são divididos para validação ou treinamento. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

  • Número de avaliações de validação cruzada: o número de vezes que o procedimento de validação cruzada é repetido. As partições (folds) são selecionadas de forma diferente em cada avaliação, e os resultados são calculados pela média entre todos as avaliações. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

  • Definir semente para validação cruzada externa: um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e independente dos dados. Use a opção Selecionar o valor da semente aleatória para validação cruzada para selecionar o valor da semente. O valor deve ser um número inteiro positivo.

Guia Gráficos

Selecione e configure os gráficos que aparecem no relatório de saída.

  • Exibir relatório estático: selecione para exibir um relatório sumarizado do modelo a partir da âncora de saída R. Selecionado por padrão.

  • Gráfico de árvore: um gráfico de variáveis e de ramificações da árvore de decisão. Use a opção Exibir gráfico de árvore para incluir um gráfico de variáveis e ramificações da árvore de decisão na saída do relatório do modelo.

    • Distâncias uniformes de ramificação: selecione para exibir as ramificações da árvore com comprimento uniforme ou proporcional à importância relativa de uma divisão na previsão do alvo.

    • Sumário da folha: determina o que é exibido nos nós folha finais no gráfico de árvore. Selecione Contagens se o número de registros for exibido. Selecione Proporções se a porcentagem do total de registros for exibida.

    • Tamanho do gráfico: selecione se o gráfico será exibido em polegadas ou em centímetros.

    • Largura: defina a largura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

    • Altura: defina a altura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

    • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

      • Resoluções mais baixas geram um arquivo menor que é melhor para a visualização em um monitor.

      • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.

    Gráfico de poda: um gráfico simplificado da árvore de decisão.

  • Usar um gráfico de poda no relatório

    • Exibir gráfico de poda: clique para incluir um gráfico simplificado da árvore de decisão na saída do relatório do modelo.

    • Tamanho do gráfico: selecione se o gráfico será exibido em polegadas ou em centímetros.

    • Largura: defina a largura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

    • Altura: defina a altura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

    • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada — 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi). Resoluções mais baixas geram um arquivo menor que é melhor para a visualização em um monitor. Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

    • Tamanho da fonte base (pontos): define o tamanho da fonte para o gráfico.

Configurar a ferramenta para processamento no banco de dados

A ferramenta Árvore de Decisão oferece suporte ao processamento in-DB no Microsoft SQL Server 2016 e no Teradata. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.

Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Árvore de Decisão muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.

Guia "Parâmetros obrigatórios"

  • Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde.

    • Um nome de modelo específico: insira o nome do modelo que você deseja usar. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

    • Gerar automaticamente um nome de modelo: o Designer gera automaticamente um nome de modelo que atende aos parâmetros necessários.

  • Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.

  • Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias substitutas e chaves primárias naturais, não devem ser utilizadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Usar pesos de amostragem na estimativa do modelo (opcional): selecione para escolher um campo do fluxo de dados de entrada a ser usado para o peso de amostragem.

  • Selecionar o campo de pesos de amostragem: selecione um campo de peso no fluxo de dados para estimar o modelo. Um campo é usado como um preditor e como variável de peso. A variável de peso aparece na chamada de modelo na saída com a cadeia de caracteres (string) "right_" prefixada a ela.

Guia "Personalização do modelo"

  • Tipo de modelo: selecione que tipo de modelo será usado.

    • Classificação: um modelo para prever um alvo categórico. Se estiver usando um modelo de classificação, selecione também os critérios de divisão.

      • Coeficiente de Gini

      • Índice de informação baseado em entropia

    • Regressão: um modelo para prever um alvo numérico contínuo.

  • O número mínimo de registros necessários para permitir uma divisão: se ao longo de um conjunto de ramificações de uma árvore houver menos registros do que o número mínimo selecionado, nenhuma outra divisão será permitida.

  • Parâmetro de complexidade: este parâmetro controla como as divisões são realizadas (em outras palavras, o número de ramificações na árvore). O valor deve estar abaixo de 1 e, quanto menor o valor, mais ramificações terá a árvore final. Um valor "Automático" ou a omissão de um valor resultará na seleção do "melhor" parâmetro de complexidade com base na validação cruzada.

  • O número mínimo permitido de registros em um nó terminal: o menor número de registros que devem estar contidos em um nó terminal. Diminuir esse número aumenta o número potencial de nós terminais finais.

  • Usar substituto: este grupo de opções controla como os registros com dados ausentes nas variáveis preditoras em uma divisão específica são abordados. A primeira opção é omitir (remover) um registro com um valor ausente da variável usada na divisão. A segunda é usar divisões "substitutas", nas quais a direção em que um registro será enviado é baseada em divisões alternativas em uma ou mais outras variáveis com resultados quase iguais. A terceira opção é enviar a observação na direção da maioria na divisão.

    • Omitir uma observação com um valor ausente para a regra de divisão primária

    • Usar substitutos para dividir registros com a variável candidata ausente

    • Se todos os substitutos estão ausentes, envie a observação na direção da maioria

    • O número total de classificações corretas para uma variável candidata potencial

    • A porcentagem correta calculada sobre os valores não ausentes de uma variável candidata

  • O número de partições (folds) a serem usadas na validação cruzada para podar a árvore: quando a árvore é podada por meio do uso de um parâmetro de complexidade, a validação cruzada é usada para determinar quantas divisões, ou seja, ramificações, existem na árvore. Isso é feito por meio do uso de validação cruzada, em que N - 1 das partições (folds) são usadas para criar um modelo, e a enésima partição (fold) é usada como uma amostra para determinar o número de ramificações que melhor se ajusta à partição de teste (holdout) e evitar um sobreajuste. Uma coisa que pode ser alterada pelo usuário é o número de grupos (N) nos quais os dados devem ser divididos. O padrão é 10, mas outros valores comuns são 5 e 20.

  • A profundidade máxima permitida de qualquer nó na árvore final: esta opção limita o tamanho geral da árvore indicando quantos níveis são permitidos do nó raiz até o nó mais distante da raiz.

  • O número máximo de intervalos (bins) a serem usados para cada variável numérica: a função Revo ScaleR (rxDTree) que implementa a árvore de decisão escalável manipula variáveis numéricas por meio de um processo de agrupamento de intervalos iguais para reduzir a complexidade da computação. As opções para isso são "Padrão", que usa uma fórmula baseada no número mínimo de registros necessários para permitir uma divisão, mas pode ser definida manualmente pelo usuário. Essa opção só se aplica em casos em que a entrada na ferramenta seja um fluxo de metadados XDF.

Guia "Opções de gráfico"

  • Gráfico de árvore: este conjunto de definições controla uma série de opções associadas à plotagem de uma árvore de decisão.

    • Sumário da folha: a primeira escolha nesta opção é a natureza do resumo da folha. Essa opção controla se as contagens ou as proporções são impressas nos nós folha finais no gráfico de árvore.

      • Contagens

      • Proporções

    • Distâncias uniformes de ramificação: a segunda opção é se distâncias uniformes de ramificação devem ser usadas. Essa opção controla se o comprimento das ramificações da árvore desenhadas reflete a importância relativa de uma divisão na previsão do alvo ou se tem um comprimento uniforme no gráfico da árvore.

  • Tamanho do gráfico: defina as dimensões do gráfico da árvore de saída.

    • Polegadas: defina a Largura e Altura do gráfico.

    • Centímetros: defina a Largura e Altura do gráfico.

    • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

      • Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.

      • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

    • Tamanho da fonte base (pontos): o tamanho da fonte em pontos.

  • Gráfico de poda: selecione para incluir um gráfico simplificado da árvore de decisão na saída do relatório do modelo.

    • Tamanho do gráfico: selecione se o gráfico será exibido em polegadas ou centímetros.

      • Largura: defina a largura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

      • Altura: defina a altura do gráfico usando a unidade selecionada em "Tamanho do gráfico".

    • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

      • Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.

      • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

    • Tamanho da fonte base (pontos): define o tamanho da fonte para o gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (Saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • R (Relatório): exibe um relatório do modelo que inclui um resumo e gráficos.

  • I (Interativo): exibe um painel interativo de recursos visuais de suporte que permite zoom, focalização e cliques.

Comportamento esperado: precisão do gráfico

Ao usar a ferramenta Árvore de Decisão para processamento padrão, a saída "Interativa" mostra maior precisão com valores numéricos do que a saída "Relatório".