Skip to main content

Text Classification Tool Icon Classificação de Texto

A ferramenta Classificação de Texto treina e gera um modelo de classificação de texto com base nos seus dados de treinamento. Conecte o modelo à ferramenta Previsão para classificar novos dados de texto.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Suporte a idiomas

A ferramenta Classificação de Texto é compatível com inglês, francês, alemão, italiano, português e espanhol.

Componentes da ferramenta

A ferramenta Classificação de Texto tem quatro âncoras (duas de entrada e duas de saída):

  • Âncora de entrada  T : use a âncora de entrada T para conectar seus dados de treinamento. Os dados de treinamento devem ter uma coluna com o texto e uma coluna com o rótulo do texto.

  • Âncora de entrada V : use a âncora de entrada  V  para conectar texto e rótulos de validação.

  • Âncora de saída M : use a âncora de saída  M  para passar o modelo gerado para as próximas etapas. Use seu modelo com a ferramenta Previsão .

  • Âncora de saída E : use a âncora de saída  E  para coletar métricas de avaliação do seu modelo.

Configurar a ferramenta

  1. Adicione a ferramenta Classificação de Texto à tela.

  2. Conecte a âncora de entrada T aos seus dados de treinamento. Em seguida, defina as configurações para o Texto de treinamento :

    1. Selecione a Coluna com texto que contém os dados de treinamento.

    2. Selecione a Coluna com rótulos que contém os rótulos para os dados de treinamento.

  3. Conecte a âncora de entrada V aos dados de validação. Em seguida, defina as configurações para o Texto de validação :

    1. Selecione a Coluna com texto que contém os dados de validação.

    2. Selecione a Coluna com rótulos que contém os rótulos para os dados de validação.

  4. Configure as Opções avançadas para que correspondam ao seu caso de uso. Consulte a próxima seção para obter detalhes.

  5. Clique no botão para Executar o fluxo de trabalho.

Importante

Observe que suas colunas devem ser de um tipo de dados  de cadeia de caracteres.

Opções avançadas

Escolha o  Algoritmo  que você deseja usar para o seu modelo:

  • Modo automático

  • Naïve Bayes multinomial

  • SVC linear

Modo automático

Procure um modelo ideal entre os algoritmos de modelo disponíveis. A seleção do Modo automático usa os algoritmos Naïve Bayes multinomial e SVC linear. Para cada modelo, uma pesquisa é feita em uma pequena faixa dos parâmetros correspondentes. O Modo automático  gera a combinação ideal de algoritmo e hiperparâmetros. Para ajustar seu modelo, escolha uma das listas suspensas específicas de cada algoritmo.

Naïve Bayes multinomial

O algoritmo Naïve Bayes multinomial é um modelo de classificação probabilística. O classificador de Naïve Bayes cria um modelo que prevê a probabilidade de que um texto pertença a um rótulo. Para criar seu modelo, use dados de treinamento na forma de linhas de texto e seus rótulos associados (também conhecidos como classe ou alvo). O algoritmo pressupõe que todos os recursos são independentes uns dos outros. As vantagens do classificador de Naïve Bayes são que ele é escalável e geralmente tem bom desempenho com um conjunto de treinamento pequeno.

Alpha

Alpha é um parâmetro de suavização aditivo que você pode usar para controlar a complexidade do modelo. Um valor de 0 indica que não há suavização. Um valor superior a 0 pode melhorar seus resultados se uma palavra nos dados de teste não existir nos dados de treinamento.

A ferramenta procura o melhor modelo com base em um intervalo de valores alpha que você define. Para criar esses valores alpha, insira o intervalo que você deseja pesquisar ( De Até ) e o Número de etapas dentro desse intervalo.

Exemplo 1

De = 0, Até = 1, Número de etapas = 5 → cria os seguintes valores alpha para o modelo experimentar: [0; 0,25; 0,5; 0,75; 1].

Exemplo 2

De = 0, Até = 1, Número de etapas = 2 → cria os seguintes valores alpha para o modelo experimentar: [0; 1].

Validação Cruzada

A Validação cruzada é uma técnica de reamostragem que usa diferentes porções (conhecidas como partições ou folds) de seus dados para treinamento e validação do modelo. Escolha quantas partições (folds) usar durante a validação cruzada.

Frequência do termo – Frequência inversa de documentos (TF-IDF)

A necessidade de converter texto bruto em dados numéricos é uma etapa necessária para a classificação de texto. Essa etapa de vetorização permite que o modelo interprete seus dados. Para esta ferramenta, usamos a técnica de vetorização "Frequência do termo – Frequência inversa de documentos (TF-IDF)". Estas são as configurações da TF-IDF:

  • Analisador

  • Escolha criar recursos a partir de palavras ( palavra ) ou caracteres ( caractere ) com base em seu texto de entrada.

  • Mín. Frequência de documentos

  • Insira a frequência mínima para os termos permitidos em seus dados de texto. A ferramenta não adicionará termos abaixo dessa frequência ao vocabulário do algoritmo.

SVC linear

O modelo SVC linear pertence à classe das máquinas de vetores de suporte. Você pode aplicar esse algoritmo a dados com duas (binário) ou mais classes. Uma vez ajustado aos seus dados, o modelo encontra o hiperplano que melhor divide os dados nas categorias corretas. O SVC linear é eficaz em espaços de alta dimensão, como texto. No entanto, ele pode ser lento quando aplicado a um conjunto grande de dados de treinamento.

Penalidade

Escolha a norma usada na penalização. Observe que a norma L2 (também conhecida como norma euclidiana ) é o padrão usado na classificação de vetores de suporte. A norma L1 resulta em vetores de coeficiente esparsos.

Perda

Escolha uma função de perda. Hinge (também conhecida como "perda de articulação") é a escolha padrão para este algoritmo.

C (intervalo de log)

C é um parâmetro de regularização. Deve ser superior a 0. Valores grandes de C correspondem a uma menor regularização e um modelo que tenta se ajustar demais aos dados de treinamento. Em contraste, valores pequenos de C correspondem a uma regularização maior.

A ferramenta procura o melhor modelo com base em um intervalo de valores C que você define. Para criar esses valores C, insira o intervalo de log em que deseja pesquisar ( De Até ) e o Número de etapas dentro desse intervalo.

Exemplo 1

De = -3, Até = 2, Número de etapas = 6 → cria os seguintes valores C para o modelo experimentar: [0,001; 0,01; 0,1; 1; 10; 100].

Exemplo 2

De = 0, Até = 1, Número de etapas = 2 → cria os seguintes valores C para o modelo experimentar: [0; 10].

Validação Cruzada

A Validação cruzada é uma técnica de reamostragem que usa diferentes porções (conhecidas como partições ou folds) de seus dados para treinamento e validação do modelo. Escolha quantas partições (folds) usar durante a validação cruzada.

Frequência do termo – Frequência inversa de documentos (TF-IDF)

A necessidade de converter texto bruto em dados numéricos é uma etapa necessária para a classificação de texto. Essa etapa de vetorização permite que o modelo interprete seus dados. Para esta ferramenta, usamos a técnica de vetorização "Frequência do termo – Frequência inversa de documentos (TF-IDF)". Estas são as configurações da TF-IDF:

  • Analisador

  • Escolha criar recursos a partir de palavras ( palavra ) ou caracteres ( caractere ) com base em seu texto de entrada.

  • Mín. Frequência de documentos

  • Insira a frequência mínima para os termos permitidos em seus dados de texto. A ferramenta não adicionará termos abaixo dessa frequência ao vocabulário do algoritmo.