Ferramenta Rede Neural

Fluxo de trabalho de exemplo

A ferramenta Rede Neural tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Rede Neural cria um modelo de rede neural feedforward do tipo perceptron com uma única camada oculta. Os neurônios na camada oculta usam uma função de ativação logística (também conhecida como sigmoide), e a função de ativação de saída depende da natureza do campo-alvo. Mais especificamente, para problemas de classificação binária (por exemplo, a probabilidade de um cliente comprar ou não comprar), a função de ativação de saída usada será logística; para problemas de classificação multinomial (por exemplo, a probabilidade de um cliente escolher a opção A, B ou C), a função de ativação de saída usada será softmax; e para problemas de regressão (em que o alvo é um campo numérico contínuo) será usada uma função de ativação linear.

As redes neurais representam o primeiro algoritmo de aprendizado de máquina (em oposição às abordagens estatísticas tradicionais) para a modelagem preditiva. A motivação por trás do método é a imitação da estrutura dos neurônios cerebrais (o que explica seu nome). A estrutura básica de uma rede neural envolve um conjunto de entradas (campos preditores) que alimentam uma ou mais camadas "ocultas", sendo que cada camada oculta dispõe de um ou mais "nós" (também conhecidos como "neurônios").

Na primeira camada oculta, as entradas são combinadas linearmente (com um peso atribuído a cada entrada em cada nó), e uma "função de ativação" é aplicada à combinação linear ponderada dos preditores. Na segunda camada oculta e nas subsequentes, as saídas dos nós da camada oculta anterior são combinadas linearmente em cada nó da camada oculta (novamente, com pesos atribuídos a cada nó da camada oculta anterior), e uma função de ativação é aplicada à combinação linear ponderada. Por fim, os resultados dos nós da camada oculta final são combinados em uma camada de saída final que usa uma função de ativação consistente com o tipo de alvo.

O treinamento (ou "aprendizagem" no vocabulário da literatura de redes neurais) envolve encontrar o conjunto de pesos para cada entrada ou os valores dos nós da camada anterior que minimizem a função objetiva do modelo. No caso de um campo numérico contínuo, significa minimizar a soma dos erros quadráticos da previsão do modelo final em comparação com os valores reais, enquanto as redes de classificação tentam minimizar uma medida de entropia dos problemas de classificação binária e multinomial. Conforme mencionado acima, a ferramenta Rede Neural (que se baseia no pacote nnet do R) permite uma única camada oculta (que pode ter um número arbitrário de nós) e usa o sempre uma função de transferência logística nos nós da camada oculta. Apesar de suas limitações, nossa pesquisa indica que o nnet é o pacote de rede neural mais robusto disponível no R no momento.

Embora os métodos mais modernos de aprendizagem estatística (como modelos produzidos pelas ferramentas Modelo de Boosting, de Floresta e de Spline) tipicamente proporcionem maior eficácia preditiva em relação aos modelos de rede neural, em algumas aplicações específicas (as quais não podem ser determinadas previamente), os modelos de rede neural superam outros métodos tanto como modelos de classificação como de regressão. Além disso, em certas áreas, como avaliação de risco financeiro, os modelos de rede neural são considerados um método "padrão" amplamente aceito. Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta

Parâmetros obrigatórios

Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever. Esse alvo deve ser uma cadeia de caracteres.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe que causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Usar pesos de amostragem no treinamento do modelo (opcional): marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para treinar o modelo.
Número de nós na camada oculta: o número de nós (neurônios) na camada oculta única do modelo. O padrão é dez.
Incluir diagramas de efeito: se selecionado, serão produzidos diagramas de efeito que mostram graficamente a relação entre a variável preditora e o alvo, calculando a média sobre o efeito de outros campos preditores. O número de diagramas produzidos é controlado por "O nível mínimo de importância de um campo a ser incluído nos diagramas", o que indica que a porcentagem do poder preditivo total do modelo que determinado campo deve contribuir a fim de se obter um diagrama de efeito marginal produzido para o referido campo. Quanto maior o valor dessa seleção, menor o número de diagramas de efeitos marginais produzidos.

Personalização do Modelo

Implantação/normalização personalizada...: os métodos numéricos subjacentes à otimização dos pesos do modelo poderão ser problemáticos se as entradas (campos preditores) estiverem em diferentes escalas (por exemplo, um rendimento que varia de 7 mil a 1 milhão combinado com a quantidade de membros na família, que varia de um a sete).
Nenhum: padrão.
Z-score: todos os campos preditores são escalados a fim de ter uma média de zero e um desvio padrão de um.
Intervalo de unidade: todos os campos preditores são escalados de modo a ter um valor mínimo de zero e um valor máximo de um, com todos os demais valores entre zero e um.
Centralizados em zero: todos os campos preditores são escalados de modo a ter um valor mínimo de menos um, e um valor máximo de um, com todos os demais valores entre menos um e um).
Decaimento de peso: o decaimento de peso limita o movimento nos novos valores do peso em cada iteração (também chamada de "época") do processo de treinamento. O valor do peso de decaimento deve estar entre zero e um. Valores maiores impõem uma restrição maior dos possíveis movimentos dos pesos. Em geral, um valor de decaimento de peso entre 0,01 e 0,2 costuma funcionar bem.
Intervalo +/- dos pesos iniciais (aleatórios) em torno de zero: os pesos dados às variáveis de entrada em cada nó oculto são inicializados usando números aleatórios. Essa opção permite que o usuário defina o intervalo dos números aleatórios utilizados. Em geral, os valores devem estar próximos de 0,5. No entanto, valores menores podem funcionar melhor se todas as variáveis de entrada forem grandes em tamanho. Um valor de 0 é, na realidade, um valor especial que faz a ferramenta encontrar um valor composto adequado conforme os dados de entrada.
Número máximo de pesos permitido no modelo: esta opção se torna relevante quando há uma grande quantidade de campos preditores e de nós na camada oculta. A diminuição do número de pesos acelera o treinamento do modelo e reduz a possibilidade de que o algoritmo encontre um ótimo local (em vez de um ótimo global) para os pesos. Os pesos excluídos do modelo são implicitamente definidos como zero.
Número máximo de iterações para a estimativa do modelo: este valor controla o número de tentativas que o algoritmo pode fazer para tentar encontrar melhorias no conjunto de pesos do modelo em relação ao conjunto de pesos anterior. Se não forem encontradas melhorias nos pesos anteriores ao número máximo de iterações, o algoritmo será encerrado e retornará o melhor conjunto de pesos. Essa opção tem por padrão 100 iterações. Em geral, dado o comportamento do algoritmo, parece fazer sentido aumentar esse valor, se necessário, ao custo do aumento de tempo de execução para a criação do modelo.

Opções de Gráfico

Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
- Resoluções mais baixas geram um arquivo menor e é melhor para visualização em um monitor.
- Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.

Visualizar a Saída

Âncora O: Objeto. Consiste em uma tabela do modelo serializado com o nome correspondente.
Âncora R: Relatório. Consiste em fragmentos de relatório gerados pela ferramenta Rede Neural: um resumo básico do modelo e os principais diagramas de efeito para cada classe da variável-alvo.

_{https://en.wikipedia.org/wiki/Artificial_neural_network}