Ferramenta Modelo de Floresta
Fluxo de trabalho de exemplo
A ferramenta Modelo de Floresta tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
A ferramenta Modelo de Floresta cria um modelo que constrói um conjunto de modelos de árvore de decisão para prever uma variável-alvo com base em uma ou mais variáveis preditoras. Os diferentes modelos são construídos usando amostras aleatórias dos dados originais, um procedimento conhecido como bootstrap. Além disso, apenas um número limitado de variáveis é considerado em cada divisão da árvore, com o número exato sendo definido pelo usuário ou automaticamente pelo R. Acesse Floresta aleatória para obter mais informações.
Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Acesse Baixar e utilizar ferramentas preditivas para obter mais informações.
Configurar a ferramenta para processamento padrão
Conectar uma entrada
Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.
Se os dados de entrada vierem de um fluxo do Alteryx, será usada a função open-source randomForest do R (pacote randomForest) para o treinamento do modelo.
Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxDForest para o treinamento do modelo. A vantagem de usar a função baseada em RevoScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores (sem memória), mas ela tem custos extras para criar um arquivo XDF e usa um algoritmo que exige mais transferências de dados para criar cada árvore no conjunto (tornando o processo muito mais lento) do que a função open-source randomForest. Por isso, é altamente recomendado reduzir o número de árvores no conjunto (definido por padrão para 500 árvores).
Parâmetros obrigatórios
Nome do modelo: informe um nome para o modelo a fim de identificá-lo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem iniciar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione os dados a serem previstos. A variável-alvo também é chamada de resposta ou variável dependente.
Selecione as variáveis preditoras: selecione os dados que influenciam o valor da variável-alvo. Variáveis preditoras também são conhecidas como recursos ou variáveis independentes. Não há um limite para o número de variáveis preditoras selecionadas, mas a variável-alvo não deve ser usada como variável preditora. Cada variável preditora categórica pode ter no máximo 32 classes. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Número de árvores a serem usadas: insira o número de modelos de árvore de decisão a serem incluídos na floresta. Com base nos estudos de Breiman, o padrão foi definido como 500. Ao utilizar um fluxo de metadados XDF, diminua esse valor caso o tempo para execução do modelo seja uma preocupação.
Selecione um número específico de variáveis a serem consideradas em cada divisão: marque a caixa de seleção e insira o número de variáveis a serem consideradas em cada divisão.
Clique em Personalização do modelo para modificar as configurações do modelo.
Personalização do modelo
Limitar diretamente o tamanho geral de cada árvore do modelo:
O total de nós permitidos em uma árvore: selecione um valor para modelos que usam o modelo open-source randomForest.
A profundidade máxima de uma árvore modelo: selecione um valor para modelos que usam a função RevoScaleR rxDForest.
O número mínimo de registros permitidos em um nó de árvore: insira um valor ou use as setas para cima ou para baixo para controlar o tamanho do menor nó terminal permitido em cada árvore do conjunto. Ao aumentar esse número, você automaticamente diminui o total de nós em cada árvore.
Selecionar os registros para a criação de cada modelo com substituição: marque/desmarque essa caixa de seleção para controlar se as réplicas de bootstrap são extraídas da amostra completa de treinamento com ou sem substituição.
A porcentagem dos registros de dados que devem ser amostrados para criar cada árvore: insira um valor ou use as setas para cima ou para baixo para controlar se toda a amostra de treinamento ou apenas uma parte dela será utilizada para formar cada réplica de bootstrap.
Opções de gráfico
Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.
Visualizar a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
Âncora O: exibe o nome do modelo e o tamanho do objeto na janela de resultados.
Âncora R: exibe um relatório do modelo que inclui um resumo e gráficos.
Configurar a ferramenta para processamento no banco de dados
A ferramenta Modelo de Floresta oferece suporte ao processamento in-DB no Microsoft SQL Server 2016. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.
Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Modelo de Floresta muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.
Conectar uma entrada
Conecte um fluxo de dados in-DB que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.
Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxDForest do Microsoft Machine Learning Server (pacote RevoScaleR) para o treinamento do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.
Parâmetros obrigatórios
Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Você pode informar um nome ou optar por ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Número de árvores a serem usadas: selecione o número de modelos de árvore de decisão a serem incluídos na floresta. Com base nos estudos de Breiman, o padrão foi definido como 500. Ao utilizar um fluxo de metadados XDF, diminua esse valor caso o tempo para execução do modelo seja uma preocupação.
Selecione um número específico de variáveis a serem consideradas em cada divisão: selecione o número de variáveis a serem consideradas em cada divisão.
Usar pesos de amostragem no treinamento do modelo: marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para treinar o modelo. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".
Personalização do modelo
Limitar diretamente o tamanho geral de cada árvore do modelo
O total de nós permitidos em uma árvore: selecione um valor para modelos que usam o modelo open-source randomForest do R.
A profundidade máxima de uma árvore modelo: selecione um valor para modelos que usam a função RevoScaleR rxDForest.
O número mínimo de registros permitidos em um nó de árvore: selecione um valor para controlar o tamanho do menor nó terminal permitido em cada árvore do conjunto. Ao aumentar esse número, você automaticamente diminui o total de nós em cada árvore.
Selecionar os registros para a criação de cada modelo com substituição: marque/desmarque essa caixa de seleção para controlar se as réplicas de bootstrap são extraídas da amostra completa de treinamento com ou sem substituição.
A porcentagem dos registros de dados que devem ser amostrados para criar cada árvore: selecione um valor para controlar se toda a amostra de treinamento ou apenas uma parte dela será utilizada para formar cada réplica de bootstrap.
Opções de gráfico
Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.
Visualizar a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
Âncora O: exibe o nome do modelo e o tamanho do objeto na janela de resultados.
Âncora R: exibe um relatório do modelo que inclui um resumo e gráficos.