Este subproyecto tiene como objetivo fundamental dotar a los dispositivos IoT de inteligencia basada en visión artificial con bajo coste energético mediante la integración de capacidades avanzadas de sensado y algorítmica adaptada a dichas capacidades. Actualmente, las redes neuronales convolucionales (CNNs, de sus siglas en inglés) se han convertido en la arquitectura de procesamiento subyacente a multitud de tareas relacionadas con la visión. Aunque su precisión es mucho mayor que la de los algoritmos de visión clásicos basados en extracción de características manualmente diseñadas (de hecho, ésta es la razón principal de la gran relevancia de las CNNs), los recursos hardware y energéticos que requieren son masivos. Esto se debe fundamentalmente a que el flujo de datos de entrada de dichas redes neuronales consiste en una serialización de la información en crudo proporcionada por el sensor (a lo sumo, esta información pasa previamente por un procesador específico para mejora de la imagen: realzado de bordes, mapeo de tonos, etc.).Pretendemos explorar diferentes alternativas para incorporar la visión a plataformas embebidas de una forma mucho más eficiente. Comenzaremos por abordar la problemática de la generación fiable de representaciones de escena en todo tipo de situaciones. Así, estudiaremos técnicas de alto rango dinámico basadas en la operación de los sistemas naturales (en particular la retina) para conseguir acomodar condiciones extremas de iluminación en un rango de señal equivalente a 8 bits. Esto supondrá un alivio computacional desde el mismo inicio de la cadena de señal. A nivel de pixel, buscaremos una operación basada en la interacción de dos diodos que se proporcionarán mutuamente información respecto a la iluminación local y global en la escena en cada instante. Las tareas a realizar irán desde el modelado físico de los fotodiodos, el diseño de circuitos, la implementación de un circuito integrado, y su posterior testado.
También estudiaremos el potencial del aprendizaje compresivo como mecanismo alternativo al sensado convencional basado en frames y posterior inferencia basada en CNNs. Mediante dicho aprendizaje, las muestras compresivas generadas por un chip prototipo quediseñaremos en este subproyecto serán analizadas y clasificadas por un algoritmo (por ejemplo, una support vector machine) co-diseñado con el sensor. Como escenario de aplicación del aprendizaje compresivo trabajaremos en el reconocimiento facial, que es de especial interés para la IoT por la creciente importancia de la privacidad. También estudiaremos cómo modalidades sensoriales emergentes (visión basada en eventos, sensado de profundidad, sensado multi-espectral) pueden conjugarse con las CNNs para incrementar el rendimiento de los sistemas de visión embebidos en métricas clave como el consumo y la precisión de inferencia. Finalmente, aunando los resultados obtenidos en el resto de subproyectos, abordaremos el diseño de un sistema IoT para un escenario de aplicación específico. En concreto, diseñaremos una cámara trampa inteligente para la monitorización remota de especies animales en colaboración con investigadores de la Estación Biológica de Doñana. Esta cámara será capaz de identificar comportamiento animal de interés para conservacionistas en localizaciones remotas, por lo que deberá incorporar conectividad en red y estar caracterizada por una elevada autonomía energética.
Proyecto PID2021-128009OB-C31 financiado por MICIU / AEI / 10.13039/501100011033 / y por FEDER 'Una manera de hacer Europa'.