Ferramenta Validação Cruzada
Utilize a ferramenta Validação Cruzada para comparar o desempenho de um ou mais modelos preditivos gerados pelo Alteryx usando o processo de validação cruzada. Essa ferramenta oferece suporte a todos os modelos de classificação e regressão.
Essa ferramenta utiliza a ferramenta R. Vá para Opções Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R.
Importante
Essa ferramenta não é instalada automaticamente com o Alteryx Designer, nem com as ferramentas R. Para usá-la, faça o download na Comunidade Alteryx.
Os modeladores preditivos costumam preferir a validação cruzada a outros métodos de avaliação de modelo porque ela não exige o uso de um conjunto de testes separado e gera estimativas mais robustas sobre a qualidade dos modelos.
Para todos os modelos de classificação, a ferramenta fornece a acurácia geral, a acurácia por classe e um conjunto de matrizes de confusão (uma para cada modelo). Além disso, a ferramenta informa a pontuação F1 e uma coleção de gráficos de diagnóstico de desempenho (curva de lift, gráfico de ganho, curvas de precisão vs. recall, e curva ROC) para modelos de classificação binária. Para modelos de regressão, a ferramenta geralmente fornece a correlação entre os valores previstos e os reais, a raiz do erro quadrático médio (RMSE), o. erro médio absoluto (MAE), o erro médio percentual (MPE) e o erro médio percentual absoluto (MAPE) das previsões de cada modelo. No entanto, quando algum valor de alvo se aproxima de 0, o MPE e o MAPE não são definidos. Nesse caso, o MPE é substituído pela soma dos erros dividida pela soma dos valores reais, e o MAPE é substituído pela soma dos erros absolutos dividida pela soma dos valores reais (ou seja, o erro percentual absoluto ponderado). Além disso, a ferramenta sempre fornece um gráfico dos valores reais em relação aos previstos no caso de regressão.
Conectar entradas
A ferramenta Validação Cruzada exige duas entradas:
Âncora M: um único modelo preditivo gerado pelo Alteryx ou a união de dois ou mais desses modelos. Todos esses modelos devem ter sido gerados com o mesmo conjunto de dados.
Âncora D: o conjunto de dados utilizado para gerar os modelos acima.
Configurar a ferramenta
Número de trials: insira o número de vezes que você deseja que o procedimento de validação cruzada seja repetido. Com menos trials, o processo é mais rápido, mas, com um número maior, a ferramenta consegue fornecer uma estimativa mais robusta da qualidade dos modelos.
Número de partições (folds): insira o número de subconjuntos nos quais os dados serão divididos. De maneira similar ao que acontece com o número de trials, há vantagens e desvantagens em incluir mais folds.
Selecione o tipo de modelo.
Classificação: esses modelos preveem categorias, como "Sim" ou "Não".
Regressão: esses modelos preveem quantidades numéricas, como totais de vendas.
A validação cruzada estratificada deve ser utilizada?: a validação cruzada estratificada é um tipo especial de validação cruzada que cria partições com a mesma distribuição de probabilidade do conjunto de dados maior. Por exemplo, em um conjunto de dados em que 80% dos valores-alvo são "Não" e 20% são "Sim", cada partição teria aproximadamente 80% de respostas "Não" e 20% de respostas "Sim". A validação cruzada estratificada costuma ser recomendada quando a variável-alvo está desproporcional.
Nome da classe positiva (opcional): essa opção de configuração só é relevante na classificação binária (duas classes). Algumas das medidas informadas para classificação binária, como a pontuação F1, exigem uma distinção entre uma classe positiva (como "Sim") e uma classe negativa (como "Não"). No entanto, essa opção de configuração não é obrigatória. Se você a deixar em branco ao utilizar a ferramenta com modelos de classificação binária, a ferramenta escolherá uma das classes como a positiva.
Valor da semente: para criar resultados reprodutíveis, é possível selecionar a semente utilizada pelo gerador de números aleatórios que determina quais registros são colocados em quais partições. Se você alterar a semente, a composição das partições também será alterada.
Visualizar a saída
Âncora D: essa saída fornece os valores de dados reais, bem como suas previsões.
Âncora F: essa saída fornece medidas de ajuste do modelo, que variam de acordo com o tipo de modelo.
Âncora R: um relatório resumido que contém as medidas de ajuste médio de cada trial, bem como gráficos nos quais é apresentada uma única curva para cada modelo.