La respuesta es incierta, sobre todo si tenemos en cuenta que hoy en día cualquiera que lo desee puede diseñar sus propias aplicaciones de procesamiento de imágenes basadas en IA, aunque no posea conocimientos especializados sobre inteligencia artificial ni programación de aplicaciones. A ello cabe añadir que la inteligencia artificial puede acelerar muchos procesos de trabajo y minimizar las fuentes de error, y que la llamada "edge computing", o computación en el borde, permite prescindir de los costosos ordenadores industriales y de la compleja infraestructura que se necesita para transmitir información gráfica a alta velocidad.

Nueva y diferente

La inteligencia artificial, o aprendizaje automático (ML), funciona de forma muy diferente al clásico procesamiento de imágenes basado en reglas, con lo que también cambia el enfoque a la hora de abordar las tareas de procesamiento. La calidad de los resultados ya no es el producto de un código de programa desarrollado manualmente por expertos en procesamiento de imágenes, como era el caso hasta ahora, sino que viene determinada por el proceso de aprendizaje de las redes neuronales utilizadas a partir de datos gráficos adecuados. Esto significa que las propiedades relevantes del objeto ya no se especifican a través de reglas predefinidas, sino que se entrena a la IA para que sea capaz de detectar dichas propiedades por sí sola. Y cuanto más variados sean los datos empleados para el entrenamiento, más probabilidades tendrán los algoritmos de ML de reconocer las propiedades relevantes en condiciones reales. Sin embargo, esto que, aparentemente, suena tan sencillo, requiere los conocimientos y la experiencia suficientes para que los resultados sean realmente los deseados. Sin un ojo debidamente entrenado para detectar y procesar los datos de imagen correctos, también aquí se pueden producir fallos. Y es que las competencias clave que se necesitan para trabajar con métodos de aprendizaje automático no son las mismas que las que se necesitan para los sistemas convencionales de procesamiento de imágenes basados en reglas. Adquirir estas competencias de cero, sin embargo, requiere tiempo y recursos, y no todo el mundo dispone de ellos. Cuando aparecen cosas nuevas suele suceder esto, que no siempre se pueden utilizar de entrada de manera productiva. Y si dan buenos resultados sin mucho esfuerzo, pero después estos resultados no se pueden reproducir de forma fiable porque no entendemos cómo hemos llegado a ellos, generan desconfianza.

Compleja e incomprensible

Como animales racionales que somos, siempre nos interesa comprender cómo funcionan las cosas, en este caso, la visión basada en inteligencia artificial. Y para ello, necesitamos explicaciones claras y comprensibles. La confianza en una nueva tecnología se suele generar a partir de las experiencias acumuladas a lo largo de los años, las cuales nos permiten comprender cómo funciona, qué puede hacer, cómo hay que utilizarla y, naturalmente, cómo la podemos controlar. Si además tenemos enfrente un sistema completamente consolidado para el que, durante años, se han creado las condiciones de funcionamiento idóneas a base de datos, informes, documentos, conocimientos, formación, hardware, software y entornos de desarrollo específicos, generar confianza en la nueva tecnología puede resultar complejo. En comparación con los sistemas consolidados, la IA se percibe todavía como una tecnología inmadura que, cuando falla, muchas veces no se sabe por qué, lo cual genera desconfianza a pesar de todas las ventajas y de la elevada precisión que está demostrado que ofrece. El desconocimiento relativo de su forma de funcionar y los resultados inexplicables que de vez en cuando arroja frenan la expansión generalizada de los algoritmos.

Una caja (no precisamente) negra

Por todo ello, las redes neuronales se califican a menudo erróneamente como "cajas negras" cuyas decisiones resultan opacas e incomprensibles. "Aunque los modelos de aprendizaje profundo son indudablemente complejos, no son en absoluto cajas negras. De hecho, sería más exacto llamarlos 'cajas de cristal', porque literalmente podemos mirar dentro y ver todo lo que hace cada componente." [Cita de "The black box metaphor in machine learning"]. Las decisiones inferenciales de las redes neuronales no se basan en la lógica convencional, y puede que las complejas interacciones de sus neuronas artificiales resulten difíciles de comprender para una persona, pero siguen siendo el resultado de un sistema matemático y, por lo tanto, reproducibles y analizables. Para entenderlas, solo necesitamos disponer de las herramientas de ayuda adecuadas. En el ámbito de la inteligencia artificial sigue habiendo mucho margen de mejora. Pero los sistemas de IA disponibles actualmente en el mercado están demostrando que son perfectamente capaces de ayudar al usuario a alcanzar sus objetivos.

Software para comprender la IA

IDS Imaging Development GmbH colabora con diversos institutos y universidades para desarrollar estas herramientas de ayuda. El sistema de cámara inferencial IDS NXT Experience Kit constituye un primer resultado. A través de una serie de análisis estadísticos realizados con ayuda de lo que se conoce como "matriz de confusión", se puede determinar la calidad de una red neuronal entrenada y comprender cómo funciona. Tras el proceso de entrenamiento, la red se puede validar mediante una secuencia de imágenes preestablecida con resultados ya conocidos. Seguidamente, los resultados esperados y los resultados reales generados por la inferencia se contrastan en una tabla comparativa. Esto permite determinar con qué frecuencia se han reconocido correcta o incorrectamente los objetos de prueba para cada clase de objeto entrenado. A partir de estas tasas de acierto se puede determinar la calidad global de la red neuronal convolucional (CNN) entrenada. Además, la matriz muestra claramente en qué casos la precisión es todavía demasiado baja para que se pueda hacer un uso productivo de la tecnología, aunque no es capaz de explicar aún el porqué.

Matriz de confusión de una CNN
Matriz de confusión de una CNN

Esta matriz de confusión de una CNN, que clasifica tornillos, muestra dónde se puede mejorar la calidad de reconocimiento intensificando el entrenamiento con más imágenes.

Aquí es donde entran en juego los llamados "mapas de atención", una especie de imagen térmica que resalta las áreas o contenidos de la imagen a los que más atención presta la red neuronal y que, por tanto, más influyen en sus decisiones. En el proceso de entrenamiento con IDS lighthouse, la creación de esta forma de visualización se activa a partir de las rutas de decisión generadas en el entrenamiento, permitiendo a la red dibujar un mapa de calor de este tipo a partir de cada una de las imágenes analizadas. Esto permite comprender más fácilmente las decisiones críticas o incomprensibles que toma la IA, lo que en última instancia aumenta la aceptación de las redes neuronales en los ámbitos industriales.

Por otra parte, también se pueden detectar y evitar los sesgos de datos (véase la figura "Mapas de atención"), que llevarían a la red neuronal a tomar decisiones igualmente sesgadas durante la inferencia. Y es que una red neuronal no se vuelve inteligente por sí sola: si se alimenta con datos de mala calidad, los resultados también son deficientes. Para reconocer patrones y hacer predicciones, los sistemas de IA se basan en datos de los que puedan aprender el "comportamiento correcto". Si una IA se construye en condiciones de laboratorio con datos que no son representativos de las aplicaciones reales posteriores, o peor aún, si los patrones de datos presentan sesgos, el sistema adoptará esos sesgos.

Mapa de calor
Mapa de calor

Este mapa de calor muestra un clásico sesgo de datos. El mapa de calor muestra un elevado grado de atención en la etiqueta "Chiquita" del plátano y, por tanto, un buen ejemplo de sesgo de datos. A través de imágenes de entrenamiento erróneas o poco representativas de plátanos, la CNN utilizada ha aprendido que esta etiqueta de "Chiquita" va siempre asociada a un plátano.

Con la ayuda de herramientas de software de este tipo, los usuarios pueden rastrear de forma más directa el comportamiento y los resultados del sistema de visión IA para detectar los puntos débiles del conjunto de datos entrenado y corregirlos adecuadamente. De esta forma la IA se vuelve más lógica y comprensible para todos. Y es que, en el fondo, se trata básicamente de matemáticas y estadísticas. Y aunque seguir y comprender los cálculos matemáticos no siempre resulta fácil, la matriz de confusión y los mapas de calor son herramientas excelentes para hacer más transparentes y comprensibles las decisiones de la IA.

La IA no ha hecho más que empezar

Utilizados correctamente, los sistemas de visión basados en inteligencia artificial pueden mejorar sustancialmente el procesamiento de imágenes en muchos aspectos. Limitarse a proporcionar el hardware necesario, sin embargo, no es suficiente para que la industria adopte de forma generalizada la IA. Los fabricantes tienen, por tanto, la misión de ayudar a los usuarios poniendo a su alcance todos sus conocimientos en forma de software intuitivo y procesos integrados. En comparación con los procedimientos consolidados, que han madurado a lo largo de los años y se asientan sobre una base de clientes fieles con abundante documentación, conocimientos y herramientas de software, la IA aún tiene mucho camino por recorrer, aunque, indudablemente, ya ha echado a andar. También se está trabajando en la elaboración de normas y certificaciones para aumentar la aceptación y la explicabilidad de la IA y ponerla en el lugar que se merece. IDS contribuye a ello, entre otros, con su IDS NXT Experience Kit, un sistema de visión embebida basado en IA que presenta un amplio y variado entorno de software muy fácil y rápido de usar como herramienta industrial por cualquier grupo de usuarios, aunque no posea conocimientos expertos en aprendizaje automático, procesamiento de imágenes o programación de aplicaciones.