Skip to main content

Boosted Model Tool Icon Ferramenta Modelo de Boosting

Fluxo de trabalho de exemplo

A ferramenta Modelo de Boosting tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

Use a ferramenta Modelo de Boosting para criar modelos de regressão otimizados generalizados com base em métodos de gradient boosting. Os modelos são criados por meio da adição em série de árvores de decisão simples a um conjunto de modelos para minimizar uma função de perda apropriada. Esses modelos utilizam um método de aprendizagem estatística que...

  • auto-determina qual subconjunto de campos melhor prevê um campo-alvo.

  • é capaz de capturar relações não lineares e interações entre campos.

  • pode abordar automaticamente uma ampla variedade de problemas de regressão e classificação.

Use a ferramenta Modelo de Boosting para problemas de regressão de alvos contínuos, problemas de classificação e dados de contagem.

Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Conectar uma entrada

A ferramenta Modelo de Boosting requer um fluxo de dados de entrada com...

  • Um campo-alvo de interesse

  • Dois ou mais campos preditores

Os pacotes usados na estimativa dos modelos variam de acordo com o fluxo de dados de entrada.

  • Um fluxo de dados do Alteryx usa a função open-source GBM do R.

  • Um fluxo de metadados XDF, proveniente de uma ferramenta Entrada XDF ou Saída XDF, usa a função RevoScaleR rxBTrees.

  • Um fluxo de dados in-DB do SQL Server usa a função rxBTrees.

  • A instalação do Microsoft Machine Learning Server aproveita a função RevoScaleR rxBTrees para seus dados em bancos do SQL Server ou Teradata. Isso requer que a máquina local e o servidor estejam configurados com o Microsoft Machine Learning Server, que permite o processamento no servidor do banco de dados e resulta em melhorias significativas no desempenho.

Desempenho do algoritmo

Em comparação com as funções open-source do R, a função baseada em RevoScaleR pode analisar conjuntos de dados muito maiores. No entanto, a função baseada no RevoScaleR deve criar um arquivo XDF, o que aumenta o custo de sobrecarga. Além disso, ela usa um algoritmo que faz mais passagens pelos dados, aumentando o tempo de execução, e não pode criar saídas de diagnóstico para alguns modelos.

Configurar a ferramenta para processamento padrão

Guia "Parâmetros obrigatórios"

São os campos básicos necessários para gerar um modelo de boosting. Defina os parâmetros obrigatórios do modelo:

  • Nome do modelo: um nome para referência do modelo por outras ferramentas. O prefixo ou nome do modelo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). R is case-sensitive.

  • Selecione o campo-alvo: o campo de dados a ser previsto, também conhecido como resposta ou variável dependente.

  • Selecione os campos preditores: os campos de dados que influenciam o valor da variável-alvo, também conhecidos como recursos ou variáveis independentes. São exigidos, no mínimo, dois campos preditores, mas não há nenhum limite superior no número de campos preditores selecionados. A variável-alvo não deve ser usada para calcular o seu próprio valor, portanto, o campo-alvo não deve ser incluído com os campos preditores. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Usar pesos de amostragem no treinamento do modelo?: uma opção que permite selecionar um campo que pesa a importância colocada em cada registro ao criar uma estimativa do modelo. Se um campo é usado tanto como um preditor quanto como um peso de amostragem, o campo de variável de peso gerado terá o prefixo "Right_". Use o menu suspenso Selecione o campo de pesos de amostragem para escolher o campo usado para dar peso aos registros.

  • Incluir diagramas de efeito marginal?: uma opção para incluir no relatório diagramas que mostram a relação entre a variável preditora e o alvo, calculando a média sobre o efeito de outros campos preditores. Use O nível mínimo de importância de um campo a ser incluído nos diagramas para definir um valor percentual que indica o poder preditivo mínimo de uma variável a ser incluída nos diagramas de efeito marginal. Uma porcentagem mais elevada reduz o número de diagramas de efeito marginal gerados.

Guia "Personalização do modelo"

Configurações opcionais que personalizam o modelo gerado com base na variável-alvo e a forma como as árvores de decisão são gerenciadas. Essas opções podem ser usadas para modificar as configurações do modelo.

  • Especifique o tipo de variável-alvo e a distribuição da função de perda: a categoria de dados no campo-alvo e a função associada que funciona para otimizar a criação do modelo.

    • Alvo contínuo: uma variável-alvo numérica na qual qualquer valor exclusivo contém uma pequena porcentagem do total de instâncias, como vendas anuais por loja. Para uma variável-alvo contínua, minimize uma função de perda com base em uma destas distribuições:

      • Gaussiano (perda de erro quadrático)

      • Laplace (perda de valor absoluto)

      • Perda de distribuição t

    • Alvo de contagem (número inteiro): uma variável-alvo numérica para a qual a maioria dos valores exclusivos compreende uma grande porcentagem do total de instâncias, como o número de visitas a um consultório médico que uma pessoa faz em um ano. Para um alvo de contagem, minimize uma função de perda com base na distribuição de Poisson.

    • Categórico binário (dois resultados): uma variável-alvo categórica com dois resultados possíveis, como uma categorização sim/não. Para um alvo categórico binário, minimize uma função de perda com base em uma das seguintes distribuições:

      • Bernoulli (regressão logística)

      • AdaBoost (perda exponencial)

    • Categórico multinomial (três ou mais resultados): um campo-alvo categórico com um número limitado de resultados discretos, como categorização A, B ou C. Para um alvo categórico multinomial, minimize uma função de perda com base em uma função de perda logística multinomial, uma generalização multinomial da função de perda de Bernoulli.

  • O número máximo de árvores no modelo: o número de árvores de decisão que o algoritmo pode incluir no modelo final. O valor padrão é 4000. Um número maior de árvores aumenta o tempo de execução.

  • Método para determinar o número final de árvores no modelo: o método usado para determinar o número de árvores de decisão que capturam adequadamente o comportamento preditivo sem causar sobreajuste nos dados de amostra.

    • Validação cruzada: método de validação com uso eficiente das informações disponíveis. Recomendado em casos com dados limitados.

      • Número de partições (folds) de validação cruzada: o número de subamostras em que os dados são divididos para validação ou treinamento. O valor padrão é 5. Valores comuns são 5 e 10. Em um caso com 5 folds, os dados são divididos em 5 subamostras únicas e 5 modelos diferentes são criados, cada um usando dados de 4 das subamostras. A subamostra final não é usada na criação do modelo, mas para testar a acurácia da previsão.

      • Número de núcleos de máquina a serem usados na validação cruzada: o número de núcleos de máquina usados na análise. O valor padrão é 1. O número utilizado deve ser sempre inferior ao número de núcleos disponíveis. Para aumentar a velocidade de computação, aumente o número de núcleos utilizados.

    • Amostra de teste (validação): método de validação que puxa amostras dos dados de treinamento. Recomendado em casos com muitos registros. Use A porcentagem para a amostra de treinamento (estimativa) a fim de definir a porcentagem de registos que devem ser utilizados na amostra de treinamento, com o restante sendo utilizado na amostra de teste. O valor padrão é 50. Valores comuns são 50% e 75%. Se 50% dos registos forem utilizados na amostra de treinamento, os 50% restantes serão utilizados para testar a acurácia da previsão.

    • Out-of-bag: método de validação que usa registros que foram excluídos durante a criação do modelo.

  • A fração das observações usadas na amostra out-of-bag: a porcentagem de amostragem utilizada para definir o número adequado de árvores a serem incluídas no modelo para evitar sobreajuste. O valor padrão é 50%. Valores comuns estão entre 25–50%.

  • Taxa de aprendizado (shrinkage): um valor entre 0 e 1 usado para colocar peso em cada árvore adicionada ao modelo. O valor padrão é 0,0020. Valores menores permitem que mais árvores sejam incluídas no modelo, o que aumenta o tempo de execução. Um valor baixo de shrinkage pode exigir que o número máximo de árvores de decisão definido seja aumentado para garantir um número ideal de árvores.

  • Profundidade de interação: o nível de interação entre campos preditores. Por exemplo, uma interação de três vias indica que um preditor depende de dois outros preditores para determinar o impacto no campo-alvo. O valor padrão é "Linear", supondo que não haja interações entre campos preditores. Aumentar a profundidade aumenta o tempo de execução.

  • Número mínimo de objetos obrigatórios em cada nó de árvore: um parâmetro que verifica se uma árvore de decisão tem tamanho suficiente antes de permitir a adição de outra árvore de decisão. O padrão é 10. Aumentar esse valor resulta em árvores de decisão menores.

  • Valor da semente aleatória: um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e independente dos dados. Altere o valor para mudar a sequência de sorteios aleatórios.

Guia "Opções de gráfico"

As configurações para o gráfico de saída. Os valores padrão são usados caso não seja feita personalização.

  • Tamanho do gráfico: o tamanho do gráfico gerado. Selecione as unidades a serem utilizadas e defina os valores de largura e altura.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): o tamanho da fonte em pontos.

Configurar a ferramenta para processamento no banco de dados

A ferramenta Modelo de Boosting oferece suporte ao processamento in-DB no Microsoft SQL Server 2016. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.

Para acessar a versão in-DB da ferramenta Modelo de Boosting...

  • Arraste uma ferramenta da categoria No Banco de Dados para a tela. A ferramenta Modelo de Boosting muda automaticamente para Modelo de Boosting In-DB.

  • Clique com o botão direito do mouse na ferramenta Modelo de Boosting, aponte para Escolher versão da ferramentae selecione Modelo de Boosting In-DB.

Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.

Guia "Parâmetros obrigatórios"

Os campos básicos necessários para gerar um modelo de boosting.

  • Cada modelo criado requer um nome que pode referenciado por outras ferramentas. O processamento in-DB permite dois métodos para criação do nome do modelo:

    • Nome de modelo específico: o nome do modelo é determinado pelo usuário. O prefixo ou nome do modelo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). R is case-sensitive.

    • Gerar automaticamente um nome de modelo: o nome do modelo é gerado automaticamente.

  • Selecione o campo-alvo: o campo de dados a ser previsto, também conhecido como resposta ou variável dependente.

  • Selecione as variáveis preditoras: os campos de dados que influenciam o valor da variável-alvo, também conhecidos como recursos ou variáveis independentes. São exigidos, no mínimo, dois valores preditores, mas não há nenhum limite superior para o número de valores preditores selecionados. A variável-alvo não deve ser usada para calcular o seu próprio valor, portanto, o campo-alvo não deve ser incluído com os campos preditores. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Usar pesos de amostragem no treinamento do modelo?: uma opção que permite selecionar um campo que pesa a importância colocada em cada registro ao criar uma estimativa do modelo. Se um campo é usado tanto como um preditor quanto como um peso de amostragem, o campo de variável de peso gerado terá o prefixo "Right_". Use o menu suspenso Selecione o campo de pesos de amostragem para escolher o campo usado para dar peso aos registros.

Guia "Personalização do modelo"

Configurações opcionais que personalizam o modelo gerado com base na variável-alvo e a forma como as árvores de decisão são gerenciadas. Essas opções podem ser usadas para modificar as configurações do modelo.

  • Especifique o tipo de variável-alvo e a distribuição da função de perda:

    • Alvo contínuo: uma variável-alvo numérica na qual qualquer valor exclusivo contém uma pequena porcentagem do total de instâncias, como vendas anuais por loja.

      Para uma variável-alvo contínua, minimize uma função de perda com base na distribuição gaussiana.

    • Alvo categórico binário: uma variável-alvo categórica com dois resultados possíveis, como uma categorização sim/não.

      Para um alvo categórico binário, minimize uma função de perda com base nas distribuições de Bernoulli.

    • Alvo categórico multinomial: um campo-alvo categórico com um número limitado de resultados discretos, como categorização A, B ou C.

      Para um alvo categórico multinomial, minimize uma função de perda com base em uma função de perda logística multinomial, uma generalização multinomial da função de perda de Bernoulli.

  • O número máximo de árvores no modelo: o número de árvores de decisão que o algoritmo pode incluir no modelo final. O valor padrão é 4000. Um número maior de árvores aumenta o tempo de execução.

  • A fração das observações usadas na amostra out-of-bag: a porcentagem de amostragem utilizada para definir o número adequado de árvores a serem incluídas com uma avaliação out-of-bag. O valor padrão é 50%. Valores comuns estão entre 25–50%.

  • Taxa de aprendizado (ou shrinkage): um valor entre 0 e 1 usado para colocar peso em cada árvore adicionada ao modelo. O valor padrão é 0,0020. Valores menores permitem que mais árvores sejam incluídas no modelo, o que aumenta o tempo de execução.

    Um valor baixo de shrinkage pode exigir que o número máximo de árvores de decisão definido seja aumentado para garantir um número ideal de árvores.

  • Tamanho da árvore: para reproduzir as configurações de tamanho de árvore na ferramenta Modelo de Boosting comum (não in-DB), use os valores padrão. Para obter mais informações, consulte controles rxBTrees.

    • maxDepth: profundidade máxima de qualquer nó da árvore [1000]

    • minBucket: número mínimo necessário de observações em um nó terminal (ou folha) [10]

    • minSplit: número mínimo de observações que devem existir em um nó antes da tentativa de uma divisão [minBucket * 2]

  • Valor da semente aleatória: um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e independente dos dados. Altere o valor para mudar a sequência de sorteios aleatórios.

Guia "Opções de gráfico"

As configurações para o gráfico de saída. Os valores padrão são usados caso não seja feita personalização.

  • Tamanho do gráfico: selecione as unidades a serem utilizadas e defina os valores de largura e altura.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): o tamanho da fonte em pontos.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • ÂncoraO: exibe o nome e o tamanho do modelo na janela de resultados.

  • ÂncoraR: exibe um relatório do modelo que inclui um resumo e quaisquer gráficos configurados.