Skip to main content

Icon for the Image Recognition Tool Reconocimiento de imagen

Usa la herramienta Reconocimiento de imagen para crear un modelo de aprendizaje automático que pueda clasificar las imágenes por grupo. Puedes utilizar tus propios datos y etiquetas para entrenar un modelo nuevo, o puedes utilizar uno de los modelos previamente entrenados que proporcionamos.

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.

Componentes de la herramienta

La herramienta Reconocimiento de imagen tiene cinco anclas (dos entradas y tres salidas):

  • Ancla de entrada T : utiliza el ancla de entrada T a fin de ingresar los datos que quieres utilizar para el entrenamiento.

  • Ancla de entrada V : utiliza el ancla de entrada V a fin de ingresar los datos que quieres utilizar para la validación.

  • Ancla de salida M : utiliza el ancla de salida M a fin de pasar el modelo creado a herramientas posteriores.

  • Ancla de salida E : usa el ancla de salida  E para ver las métricas de evaluación del modelo. Las métricas incluyen información sobre la precisión, la recuperación y la exactitud de cada etiqueta de clasificación.

  • Ancla de salida R : conecta el ancla de salida  R a la herramienta Examinar para ver el informe del modelo. El informe incluye gráficos de exactitud y pérdida después de cada época. Utiliza estos gráficos para visualizar si la herramienta entrenó lo suficiente el modelo.

Importante

Las imágenes que transmitas a la herramienta Reconocimiento de imagen deben estar en un formato de archivo BLOB.

Configurar la herramienta

Para usar esta herramienta:

  1. Arrastra la herramienta en el lienzo.

  2. Conéctate a los datos ascendentes con las imágenes que quieres que tu modelo reconozca mediante el entrenamiento. Ten en cuenta que el tamaño máximo de imagen es de 512 x 512 píxeles.

  3. Ingresa tus imágenes de entrenamiento especificando el Campo de imagen y las Etiquetas de imagen .

  4. Ingresa tus imágenes de validación especificando el Campo de imagen y las Etiquetas de imagen .

  5. Ejecuta el flujo de trabajo.

Opciones

Una época es un único paso (hacia delante o atrás) de todos los datos de un conjunto de entrenamiento a través de una red neuronal. Las épocas están relacionadas con las iteraciones, pero no son lo mismo. Una iteración es un paso único de todos los datos de un lote de un conjunto de entrenamiento.

Aumentar la cantidad de épocas permite que el modelo aprenda con el conjunto de entrenamiento durante más tiempo. Sin embargo, esto también aumenta el costo computacional.

Puedes aumentar la cantidad de épocas para ayudar a disminuir los errores en el modelo. Sin embargo, en algún momento, la cantidad de reducción de errores podría no justificar el gasto computacional adicional. Además, aumentar demasiado la cantidad de épocas puede generar problemas de sobreajuste, mientras no usar suficientes épocas puede provocar problemas de subajuste.

Los modelos preentrenados son modelos que contienen métodos de extracción de características con parámetros que ya están definidos. Los modelos con más parámetros tienden a ser más exactos, pero más lentos y computacionalmente costosos. En modelos con menos parámetros sucede lo contrario; tienden a ser menos exactos, pero más rápidos y menos computacionalmente costosos.

Aquí se explican los modelos preentrenados que están incluidos en la herramienta. Ten en cuenta que el rendimiento de estos modelos depende sustancialmente de tus datos, por lo que los resúmenes no siempre serán correctos.

  • VGG16 suele ser el más exacto, el más lento y el más computacionalmente costoso. Tamaño mínimo de la imagen: 32 x 32 píxeles.

  • InceptionResNetV2 tiende a equilibrar la exactitud, la velocidad y el costo computacional, con algo de sesgo hacia la exactitud. Tamaño mínimo de la imagen: 75 x 75 píxeles.

  • Resnet50V2 tiende a equilibrar la exactitud, la velocidad y el costo computacional, con algo de sesgo hacia la velocidad y menos costo computacional. Tamaño mínimo de la imagen: 32 x 32 píxeles.

  • InceptionV3 suele ser el menos exacto (aun así es bastante exacto), el más rápido y el menos computacionalmente costoso. Tamaño mínimo de la imagen: 75 x 75 píxeles.

Cada uno de estos modelos fue entrenado con un conjunto de datos que contenía más de 14 millones de imágenes con más de 20 000 etiquetas.

La elección de un modelo preentrenado te permite omitir el entrenamiento de una red neuronal completa con tus propias imágenes. Cuando eliges utilizar un modelo pre-entrenado, es correcto suponer que tus parámetros de entrada coinciden con lo que el modelo pre-entrenado espera, por lo que no necesitas redesarrollar un modelo que haga lo mismo que el modelo pre-entrenado (y que incluso podría tener un rendimiento peor). Debido a que muchas de las características de las imágenes tienden a ser las mismas que aquellas que se utilizaron en los modelos durante el entrenamiento, en general, puedes suponer con seguridad que un modelo preentrenado funcionará con tu entrada.

Utiliza un modelo preentrenado cuando tengas imágenes con características que coincidan con lo que el modelo preentrenado espera y quieras evitar el entrenamiento de tu propio modelo.

Un lote es un subconjunto del conjunto de datos de entrenamiento.

Disminuir el tamaño del lote permite escalonar la cantidad de datos que pasan por una red neuronal en un momento determinado. Esto permite entrenar los modelos sin ocupar tanta memoria como si se pasaran todos los datos por una red neuronal a la vez. A veces, el procesamiento por lotes puede agilizar el entrenamiento. Sin embargo, dividir los datos en lotes también podría aumentar los errores en el modelo.

Separa tus datos en lotes cuando tu máquina no pueda procesar todos los datos a la vez, o si quieres disminuir el tiempo de entrenamiento.