Classificação de Texto

Requisitos da função de usuário

Função de usuário*	Acesso à ferramenta/ao recurso
Usuário completo	✓
Usuário básico	X

*Aplica-se a clientes do Alteryx OneProfessional e Enterprise Edition nas versões 2025.1 e posteriores do Designer.

A ferramenta Classificação de Texto treina e gera um modelo de classificação de texto com base nos seus dados de treinamento. Conecte o modelo à ferramenta Previsão para classificar novos dados de texto.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite e requer um instalador de add-on para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita.

Suporte a idiomas

A ferramenta Classificação de Texto é compatível com inglês, francês, alemão, italiano, português e espanhol.

Componentes da ferramenta

A ferramenta Classificação de Texto tem quatro âncoras (duas de entrada e duas de saída):

Âncora de entrada T : use a âncora de entrada T para conectar seus dados de treinamento. Os dados de treinamento devem ter uma coluna com o texto e uma coluna com o rótulo do texto.
Âncora de entrada V : use a âncora de entrada V para conectar texto e rótulos de validação.
Âncora de saída M : use a âncora de saída M para passar o modelo gerado para as próximas etapas. Use seu modelo com a ferramenta Previsão .
Âncora de saída E : use a âncora de saída E para coletar métricas de avaliação do seu modelo.

Configurar a ferramenta

Adicione a ferramenta Classificação de Texto à tela.
Conecte a âncora de entrada T aos seus dados de treinamento. Em seguida, defina as configurações para o Texto de treinamento :
1. Selecione a Coluna com texto que contém os dados de treinamento.
2. Selecione a Coluna com rótulos que contém os rótulos para os dados de treinamento.
Conecte a âncora de entrada V aos dados de validação. Em seguida, defina as configurações para o Texto de validação :
1. Selecione a Coluna com texto que contém os dados de validação.
2. Selecione a Coluna com rótulos que contém os rótulos para os dados de validação.
Configure as Opções avançadas para que correspondam ao seu caso de uso. Consulte a próxima seção para obter detalhes.
Clique no botão para Executar o fluxo de trabalho.

Importante

Observe que suas colunas devem ser de um tipo de dados de cadeia de caracteres.

Opções avançadas

Escolha o Algoritmo que você deseja usar para o seu modelo:

Modo automático
Naïve Bayes multinomial
SVC linear

Modo automático

Procure um modelo ideal entre os algoritmos de modelo disponíveis. A seleção do Modo automático usa os algoritmos Naïve Bayes multinomial e SVC linear. Para cada modelo, uma pesquisa é feita em uma pequena faixa dos parâmetros correspondentes. O Modo automático gera a combinação ideal de algoritmo e hiperparâmetros. Para ajustar seu modelo, escolha uma das listas suspensas específicas de cada algoritmo.

Naïve Bayes multinomial

O algoritmo Naïve Bayes multinomial é um modelo de classificação probabilística. O classificador de Naïve Bayes cria um modelo que prevê a probabilidade de que um texto pertença a um rótulo. Para criar seu modelo, use dados de treinamento na forma de linhas de texto e seus rótulos associados (também conhecidos como classe ou alvo). O algoritmo pressupõe que todos os recursos são independentes uns dos outros. As vantagens do classificador de Naïve Bayes são que ele é escalável e geralmente tem bom desempenho com um conjunto de treinamento pequeno.

Alpha

Alpha é um parâmetro de suavização aditivo que você pode usar para controlar a complexidade do modelo. Um valor de 0 indica que não há suavização. Um valor superior a 0 pode melhorar seus resultados se uma palavra nos dados de teste não existir nos dados de treinamento.

A ferramenta procura o melhor modelo com base em um intervalo de valores alpha que você define. Para criar esses valores alpha, insira o intervalo que você deseja pesquisar ( De – Até ) e o Número de etapas dentro desse intervalo.

Exemplo 1

De = 0, Até = 1, Número de etapas = 5 → cria os seguintes valores alpha para o modelo experimentar: [0; 0,25; 0,5; 0,75; 1].

Exemplo 2

De = 0, Até = 1, Número de etapas = 2 → cria os seguintes valores alpha para o modelo experimentar: [0; 1].

Validação Cruzada

A Validação cruzada é uma técnica de reamostragem que usa diferentes porções (conhecidas como partições ou folds) de seus dados para treinamento e validação do modelo. Escolha quantas partições (folds) usar durante a validação cruzada.

Frequência do termo – Frequência inversa de documentos (TF-IDF)

A necessidade de converter texto bruto em dados numéricos é uma etapa necessária para a classificação de texto. Essa etapa de vetorização permite que o modelo interprete seus dados. Para esta ferramenta, usamos a técnica de vetorização "Frequência do termo – Frequência inversa de documentos (TF-IDF)". Estas são as configurações da TF-IDF:

Analisador
Escolha criar recursos a partir de palavras ( palavra ) ou caracteres ( caractere ) com base em seu texto de entrada.
Mín. Frequência de documentos
Insira a frequência mínima para os termos permitidos em seus dados de texto. A ferramenta não adicionará termos abaixo dessa frequência ao vocabulário do algoritmo.

SVC linear

O modelo SVC linear pertence à classe das máquinas de vetores de suporte. Você pode aplicar esse algoritmo a dados com duas (binário) ou mais classes. Uma vez ajustado aos seus dados, o modelo encontra o hiperplano que melhor divide os dados nas categorias corretas. O SVC linear é eficaz em espaços de alta dimensão, como texto. No entanto, ele pode ser lento quando aplicado a um conjunto grande de dados de treinamento.

Penalidade

Escolha a norma usada na penalização. Observe que a norma L2 (também conhecida como norma euclidiana ) é o padrão usado na classificação de vetores de suporte. A norma L1 resulta em vetores de coeficiente esparsos.

Perda

Escolha uma função de perda. Hinge (também conhecida como "perda de articulação") é a escolha padrão para este algoritmo.

C (intervalo de log)

C é um parâmetro de regularização. Deve ser superior a 0. Valores grandes de C correspondem a uma menor regularização e um modelo que tenta se ajustar demais aos dados de treinamento. Em contraste, valores pequenos de C correspondem a uma regularização maior.

A ferramenta procura o melhor modelo com base em um intervalo de valores C que você define. Para criar esses valores C, insira o intervalo de log em que deseja pesquisar ( De – Até ) e o Número de etapas dentro desse intervalo.