Ferramenta Regressão Linear

Requisitos da função de usuário

Função de usuário*	Acesso à ferramenta/ao recurso
Usuário completo	✓
Usuário básico	X

*Aplica-se a clientes do Alteryx OneProfessional e Enterprise Edition nas versões 2025.1 e posteriores do Designer.

A ferramenta Regressão Linear cria um modelo simples para estimar valores ou avaliar relações entre variáveis com base em uma relação linear.

Os dois principais tipos de regressão linear são a não regularizada e a regularizada:

A regressão linear não regularizada produz modelos lineares que minimizam a soma dos erros quadrados entre os valores reais e previstos da variável-alvo dos dados de treinamento.
A regressão linear regularizada equilibra a mesma minimização da soma dos erros quadrados com um termo de penalidade no tamanho dos coeficientes e tende a produzir modelos mais simples que são menos propensos ao sobreajuste.

Importante

Esta ferramenta não é instalada automaticamente com o Designer. Para usá-lo, baixe e instale as ferramentas preditivas do Alteryx para a sua versão do Designer. Dependendo do seu tipo de conta do Alteryx, você tem duas opções de download:

Baixar do Alteryx One
Baixar do Portal de Downloads e Licenças da Alteryx.

Para obter mais informações, acesse Baixar e utilizar ferramentas preditivas.

Fluxo de trabalho de exemplo

Esta ferramenta tem um fluxo de trabalho de exemplo. Acesse Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente no Designer.

Pacotes R usados pela ferramenta Regressão Linear

Pacote R	Tipo	Descrição do pacote
AlteryxPreditivo	Personalizado	Esse pacote fornece funções personalizadas e chama o CRAN e os pacotes R personalizados.
AlteryxRDataX	Personalizado	Esse pacote fornece conectividade entre o Alteryx e o R, além de várias funções para facilitar a interação entre eles.
AlteryxRviz	Personalizado	Este pacote foi descontinuado. Ele fornece funções que impulsionam visualizações interativas para as ferramentas preditivas no Alteryx (série temporal, análise de rede).
flightdeck	Personalizado	Esse pacote facilita a criação de painéis interativos para gerar relatórios de resultados de modelos preditivos.

Configurar a ferramenta para processamento padrão

Conectar uma entrada

Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Nota

XDF é o formato MRC/MMLS.

Se os dados de entrada vierem de um fluxo de dados do Alteryx, a função lm de código aberto do R e as funções glmnet e cv.glmnet (do pacote glmnet) serão usadas para a estimativa do modelo.

Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxLinMod para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores, mas ela tem custos extras para criar um arquivo XDF e não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções de código aberto do R.

Configurar a ferramenta

Nome do modelo: informe um nome para o modelo a fim de identificá-lo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione os dados a serem previstos. A variável-alvo também é chamada de resposta ou variável dependente.
Selecione as variáveis preditoras: selecione os dados que influenciam o valor da variável-alvo. Variáveis preditoras também são conhecidas como recursos ou variáveis independentes. Não há um limite para o número de variáveis preditoras selecionadas, mas a variável-alvo não deve ser usada como variável preditora. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Selecione Personalizar para modificar as configurações de Modelo, Validação cruzada e Gráficos.

Personalizar o modelo

Omitir uma constante do modelo: selecione para omitir uma constante e fazer com que a melhor linha de ajuste passe pela origem.
Usar uma variável de peso para mínimos quadrados ponderados: selecione uma variável para determinar a quantidade de importância a ser atribuída a cada registro ao criar um modelo de mínimos quadrados.
Usar regressão regularizada: selecione para equilibrar a mesma minimização da soma dos erros quadrados com um termo de penalidade no tamanho dos coeficientes e produzir um modelo mais simples.
- Digite o valor de alfa: selecione um valor entre 0 (regressão ridge) e 1 (regressão lasso) para medir a ênfase dada ao coeficiente.
- Padronizar variáveis preditoras: selecione para tornar todas as variáveis do mesmo tamanho com base no algoritmo usado.
- Usar validação cruzada para determinar parâmetros do modelo: selecione para executar validação cruzada e obter vários parâmetros do modelo
  - Número de partições (folds): selecione o número de partições nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.
  - Qual tipo de modelo: selecione o tipo de modelo para determinar os coeficientes.
    Modelo mais simples
    Modelo com menor erro quadrático médio na amostra
  - Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

Personalizar a validação cruzada

Usar validação cruzada para determinar o treinamento da qualidade do modelo: selecione para realizar a validação cruzada e obter várias métricas de qualidade e gráficos do modelo. Algumas métricas e gráficos serão exibidos na saída R estática e outros serão exibidos na saída I interativa.
- Número de partições (folds): selecione o número de partições nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.
- Número de avaliações: selecione o número de vezes para que o procedimento de validação cruzada seja repetido. As partições (folds) são selecionadas de forma diferente em cada avaliação, e os resultados gerais são calculados pela média de todas as avaliações. Um número maior de partições (folds) resulta em treinamentos mais robustos da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.
- Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

Personalizar os gráficos

Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
- Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
- Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Exibir gráficos: selecione para exibir gráficos ao usar a regressão regularizada.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

O (Saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
R (Relatório): exibe um relatório do modelo que inclui um resumo e gráficos.
I (Interativo): exibe um painel de visualizações interativas para dar suporte à descoberta de dados e exploração de modelos.

Configurar a ferramenta para processamento no banco de dados

A ferramenta Regressão Linear oferece suporte ao processamento nos bancos de dados Oracle, Microsoft SQL Server 2016 e Teradata. Para obter mais informações sobre suporte e ferramentas de banco de dados, acesse Visão geral do processamento em banco de dados.

Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Regressão Linear muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Para obter mais informações sobre suporte à análise preditiva no banco de dados, acesse Análise preditiva.

Conectar uma entrada

Conecte um fluxo de dados in-DB que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxLinMod do Microsoft Machine Learning Server (do pacote RevoScaleR) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.

Se a entrada vier de um fluxo de dados no banco de dados Oracle, será usada a função ore.lm do Oracle R Enterprise (pacote OREmodels) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Oracle R Enterprise, podendo resultar em uma melhoria significativa no desempenho.

Para um fluxo de trabalho em um banco de dados Oracle, a funcionalidade completa do objeto do modelo resultante nas etapas seguintes ocorrerá somente se a ferramenta Regressão Linear estiver conectada diretamente a partir de uma ferramenta Conectar In-DB com uma única tabela completa selecionada, ou se uma ferramenta Gravar Dados In-DB for usada imediatamente antes da ferramenta Regressão Linear para salvar a tabela de dados de estimativa no banco de dados. O Oracle R Enterprise usa a tabela de dados de estimativa para fornecer a funcionalidade completa do objeto do modelo, como o cálculo de intervalos de previsão.

Configuração

Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Você pode informar um nome ou optar por ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Omitir uma constante do modelo: marque este item se você quiser omitir uma constante do modelo. A omissão deve ser feita se houver um motivo explícito para isso.
Usar pesos de amostragem para estimativa do modelo: marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para estimar o modelo. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".
Opções específicas do Oracle: esta opção permite a configuração de opções adicionais relevantes apenas para a plataforma Oracle.
- Salvar o modelo no banco de dados: faz o objeto modelo estimado ser salvo no banco de dados. É recomendado para que os objetos modelo e as tabelas de estimativa coexistam em um local centralizado no banco de dados do Oracle.
Configuração específica do Teradata: o Microsoft Machine Learning Server precisa de informações de configuração adicionais sobre a plataforma Teradata específica a ser usada – em particular, os caminhos no servidor do Teradata para os executáveis binários do R e o local onde os arquivos temporários usados pelo Microsoft Machine Learning Server podem ser gravados. Essas informações precisam ser fornecidas por um administrador local do Teradata.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

O (Saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.
R (Relatório): exibe um relatório do modelo que inclui um resumo e gráficos.

Nesta secção:

Ferramenta Regressão Linear

Pacotes R usados pela ferramenta Regressão Linear

Configurar a ferramenta para processamento padrão

Conectar uma entrada

Configurar a ferramenta

Personalizar o modelo

Personalizar a validação cruzada

Personalizar os gráficos

Visualizar a saída

Configurar a ferramenta para processamento no banco de dados

Conectar uma entrada

Configuração

Visualizar a saída

Resultados da procura