Soluciones Negocios Futuro / Scene Understanding

Consultor tecnológico

Divisiones

Descripción

Desarrollamos sistemas que  permiten detectar eventos en vídeos sin supervisión humana y/o que catalogan automáticamente los contenidos de un vídeo.

Para ello, trabajamos en la comprensión del entorno basado en el análisis de vídeo mediante visión artificial, detectando características de la escena que permiten su interpretación, como por ejemplo: el reconocimiento de objetos y su seguimiento, el reconocimiento de personas y caras, la detección de movimientos, … Asimismo, aplicamos algoritmos de razonamiento semántico basado en motores de Inteligencia Artificial para poder inferir conclusiones sobre lo que está ocurriendo.

En el ITAINNOVA, hemos desarrollado un sistema completo de catalogación automática capaz de indexar y categorizar grandes volúmenes de contenido multimedia. Para ello, la información se extrae de múltiples fuentes de origen que contemplan audio, vídeo, subtítulos y  documentos de texto.

Nuestro sistema cuenta con múltiples  versiones que se adaptan a la tipología del contenido (ejs. contenido deportivo, institucional, informativos, contenido formativo, etc).

La solución se basa en una arquitectura modular que optimiza el rendimiento y la información extraída en función de las necesidades de cada contenido:

  • Analizador de planos: determina el tipo de plano utilizado en cada punto de la secuencia. Esto nos permite decidir qué otros módulos  debemos aplicar a dicho plano, así como extraer información de lo que sucede en la imagen tras el análisis de la realización utilizada.
  • Detector y reconocedor de caras: localiza las caras presentes en la imagen  y las reconoce trabajando con una base de datos  entrenada previamente.
  • Detector de texto y OCR: detecta la presencia de texto multilenguaje en la imagen (rótulos, texto de presentaciones…) y realiza una transcripción del mismo a texto plano.
  • Detector de eventos de audio y ASR: Extrae la información de eventos acústicos  (pitidos el árbitro en eventos deportivos, bocinas de campo, etc.) y separa  la voz del resto de información. Sobre los segmentos de voz aplica un avanzado sistema ASR que permite obtener su transcripción a texto. Este ASR es multilenguaje, con una versión optimizada para castellano, lo que lo hace un elemento diferencial de nuestro sistema.
  • Módulo lector de subtítulos: extrae la información de subtítulos presentes en cualquier formato de origen.
  • Categorizador : toma la información de salida del resto de módulos y realiza una categorización del contenido basándose en una ontología, que puede ser general u optimizada para un entorno. Nuestro modulo aporta como gran valor añadido su optimización para el lenguaje castellano, donde otros sistemas presentan importantes limitaciones, y la posibilidad de incluir ontologías requeridas por el cliente.
  • Sistema de supervisión: Para aquellos entornos que quieran utilizar el sistema como una catalogación supervisada por usuarios, se proporciona una aplicación  que permite supervisar el resultado e incluir información que permite optimizar el entrenamiento de módulos como el ASR o el reconocedor de caras.
  • Integración con MAM: El resultado de nuestro sistema se puede integrar con el MAM presente en la arquitectura del cliente, para incluir los metadatos generados por el catalogador de forma transparente para el cliente.

Estos sistemas tienen aplicación multisectorial por ejemplo ordenación urbana, seguridad y videovigilancia, defensa, y aquellos sectores en los que la categorización automatizada de contenidos sea un factor relevante. Al tratarse de sistemas automatizados permiten un ahorro en los costes de operación.

Casos de éxito