Detección de sonrisas de grado forense con redimensionador de imagen de luz y visión con IA

Nos complace anunciar una nueva versión de Light Image Resizer, que incorpora pruebas exhaustivas de la función AI Vision como un etiquetador de imágenes inteligente y capaz de hacer batch. Puedes consultar el libro completo Historial de versiones aquí. Este artículo te guía a través de un caso de uso concreto: configurar un preset que procese toda una carpeta de fotografías y detecte automáticamente la presencia de un sujeto humano junto con una puntuación de intensidad de sonrisa fundamentada científicamente. La metodología está inspirada en el Sistema de Codificación de Acción Facial (FACS) desarrollado por Paul Ekman, que hace que el resultado sea reproducible, estructurado y adecuado para aplicaciones profesionales o forenses.

Detección de sonrisas por IA usando tecnología de redimensionador de imágenes.

La ciencia detrás de la detección: FACS y unidades de acción

El Sistema de Codificación de Acción Facial, desarrollado originalmente por el anatomista sueco Carl-Herman Hjortsjö y posteriormente adoptado y ampliado por Paul Ekman y Wallace V. Friesen, es el estándar internacional para describir los movimientos de los músculos faciales. Ekman, psicólogo y profesor en la Universidad de California, San Francisco, es reconocido como uno de los pioneros en el estudio científico de las emociones y su relación con las expresiones faciales. El sistema descompone cualquier expresión facial en Unidades de Acción (UA) discretas, cada una correspondiente a la contracción de uno o más músculos específicos. Para la detección de sonrisas, las dos unidades críticas son AU6 (Orbicularis Oculi, elevador de mejillas) y AU12 (Cigomaticus Major, tirador de comisuras del labio). Una sonrisa Duchenne genuina requiere que tanto AU6 como AU12 se activen simultáneamente. Una sonrisa voluntaria o posada suele implicar solo a AU12. Esta distinción es precisamente lo que el prompt AI Vision está diseñado para detectar e informar.

Caso de uso: Análisis por lotes de 1500 fotografías para una investigación legal

Para ilustrar el alcance práctico de este flujo de trabajo, consideremos el siguiente escenario. Una investigación legal requiere revisar una colección de 1500 fotografías para determinar si un sujeto humano mostraba angustia o expresión relajada durante una sesión de fotos. Revisar manualmente 1500 archivos es lento y subjetivo. Con Light Image Resizer configurado como se describe en este tutorial, todo el lote se procesa automáticamente y cada archivo recibe una etiqueta estructurada y legible por máquina escrita directamente en sus metadatos. La etiqueta es generada por un modelo visual de IA instruido para actuar como analista forense de expresiones faciales. El resultado es este :

OLLAMA-MISTRAL-FORENSIC32-EXPERTV2:LATEST
[NO_SMILE:100]
No AU12 or AU6 activation detected. Neutral facial expression.

La primera línea identifica el modelo utilizado. La segunda línea es la etiqueta estandarizada con una puntuación de confianza expresada como un número entero en pasos de diez. La tercera línea proporciona una breve justificación técnica basada en el análisis muscular y la detección de artefactos. Esta salida de tres líneas es repetible, parseable y auditable.

Puedes descargar el preset listo para usar para este caso aquí:

Descargar el preset de detección de sonrisa forense

Por qué ejecutar el modelo localmente con Ollama

La privacidad es una preocupación principal en cualquier contexto forense o legal. Subir fotografías de individuos a una API de nube de terceros introduce riesgos inaceptables en investigaciones sensibles. Light Image Resizer ahora soporta Ollama, que te permite ejecutar modelos de lenguaje visual completamente en tu propia máquina, sin que ningún dato salga de tu red. No hay costes de API, ni límites de uso, ni dependencia de una conexión a internet. Para este caso de uso, ejecutar localmente no es solo una preferencia, es un requisito. Puedes obtener más información sobre la integración de Ollama introducida en Light Image Resizer en el Página oficial del producto.

Configuración del preset: Configuración general y de tipo de archivo

La restricción clave en este caso de uso es que las imágenes fuente no deben alterarse. Por tanto, el preset está configurado para escribir solo metadatos, dejando el contenido de píxeles de cada archivo completamente intacto. En la pestaña General, configura la acción para Reemplazar el original y el destino en la misma carpeta que el original. En la pestaña Avanzado, el filtro puede permanecer en Lanczos y la política en Siempre redimensionar, pero lo que importa es la sección de Tipo de archivo: pon Formato en Como Original y, en Compresión, activa la opción Mantener calidad original. Esto garantiza que Light Image Resizer procese cada archivo únicamente para escribir el resultado de AI Vision como un comentario en los metadatos de la imagen, sin volver a codificar ni degradar la imagen de ninguna manera. La resolución puede mantenerse en 96 DPI ya que no tiene efecto cuando el formato se conserva como original.

Captura de pantalla de la interfaz de configuración de configuración de software.
La pestaña de AI Vision en Light Image Resizer configurada para el procesamiento local de Ollama con el aviso forense de detección de sonrisas.

Configurando la pestaña de AI Vision

Abre el panel avanzado y ve a la pestaña AI Vision. Activa la función usando la casilla de verificación en la parte superior del panel.

Interfaz de funciones de AI Vision con opciones de configuración

En el desplegable de Servicio, seleccione Ollama para un procesamiento completamente local. Si prefieres un modelo basado en la nube, Gemini (Gemini 3 Flash) y ChatGPT (GPT-5 Mini) también son compatibles y solo requieren que introduzcas tu clave API en el panel de configuración. Establece el tamaño máximo a 896 píxeles. Esta resolución es suficiente para el análisis facial en la gran mayoría de los sujetos fotográficos y mantiene un tiempo de procesamiento razonable en grandes lotes. Para el campo Política, Añadir añadirá cada nuevo resultado de IA al campo de comentarios existente sin borrar entradas anteriores, lo cual es útil cuando se ejecuta el mismo lote por varios modelos para comparar. Reemplazar sobrescribirá el campo de comentarios cada vez.

El Prompt Forense

Pega el siguiente prompt en el campo de Prompt de la pestaña de Visión de IA. Cada elemento de esta consigna es intencionado. La instrucción del sistema elimina el texto conversacional de la salida. La directiva del Protocolo de Descomposición Muscular centra el modelo en AU6 y AU12. La cláusula de detección de artefactos previene la clasificación errónea causada por barbas, dedos, puros u otras oclusiones. El tesauro impone un vocabulario fijo, haciendo que los resultados de lote sean directamente comparables y buscables.

[SYSTEM] Act as a forensic facial expression analyst. Your mission is to translate facial muscle activity into a standardized tag with a confidence score. No prose. No conversational fillers. No 'think' tags. Apply the Muscular Decomposition Protocol (AU6/AU12) and identify mechanical artifacts (beard, cigar, finger) before concluding.

[OUTPUT STRUCTURE] Your response must consist of exactly three lines:

Line 1: %AISERVICE%-%AIMODEL%
Line 2: [TAG:SCORE]
Line 3: Brief technical justification (muscles vs artifacts).

[STRICT RULES]

1. SCORE: Must be an integer representing confidence from 0 to 100, strictly in steps of 10 (e.g., 60, 70, 80).
2. RELIABILITY GATE: If confidence is below 50, use the tag [UNSURE:SCORE] instead of a standard tag.
3. TAG SELECTION: Choose exactly one term from the THESAURUS below.
4. SYNTAX: Do not insert any characters, colons, or brackets between the TAG and the SCORE other than the specified [TAG:SCORE] format.

[THESAURUS]
NO_SMILE
MICRO_SMILE
SMILE
BROAD_SMILE
LAUGHING
UNSURE

[VALID EXAMPLE]
%AISERVICE%-%AIMODEL%
[UNSURE:90]
Artifact detected (beard shadow), insufficient AU6 activation.

verdict:

El tiempo de procesamiento varía considerablemente según tu GPU, la cantidad de VRAM disponible y el modelo seleccionado. En un sistema equipado con una NVIDIA RTX 3090 o 4060 Super, espera entre 5 y 90 segundos por archivo. Los modelos que merece la pena probar para esta tarea incluyen Qwen2.5-VL, Mistral Small 24B y Gemma 4B para un mayor rendimiento en hardware restringido.

Revisando resultados en Light Image Editor

Una vez que el lote haya terminado de procesar, abre cualquier archivo en Light Image Editor, que viene incluido con Light Image Resizer. Navega a Herramientas en el menú superior y selecciona Comentar, o pulsa Ctrl+T. El campo de comentarios mostrará la salida estructurada de cada modelo que se ha ejecutado junto a esa imagen.

Mujer con gorro y bikini de ganchillo en la playa.
Light Image Editor mostrando el campo de comentarios de AI Vision tras ejecutar el lote forense de detección de sonrisas. Cada entrada corresponde a un modelo de lenguaje diferente probado durante el desarrollo de este artículo.

En el ejemplo mostrado arriba, la misma fotografía fue analizada por siete modelos diferentes, incluyendo una variante Mistral personalizada y ajustada, Qwen3-VL 235B, Gemini 3 Flash Preview, GPT-5 Mini y Kimi K2.5. Los resultados varían en su clasificación precisa entre MICRO_SMILE y SMILE, pero todos coinciden en la ausencia de indicadores de angustia y la presencia de algún grado de activación de Cigomaticus Major. Este tipo de comparación multimodelo es útil para calibrar qué modelo se adapta mejor a tus restricciones de hardware y al lenguaje de salida que requieres. Si necesitas resultados en francés, español, alemán u otro idioma, elegir un modelo multilingüe como Qwen o Mistral producirá el texto de justificación en el idioma destino sin ninguna modificación del prompt.

Buscar en tu biblioteca de fotos mediante etiquetas generadas por IA

Después de procesar un lote, las etiquetas estructuradas escritas en los metadatos de cada archivo se vuelven inmediatamente buscables desde el Explorador de Windows. Abre la carpeta que contiene tus imágenes procesadas y usa la barra de búsqueda para ingresar una palabra clave o una combinación de palabras clave. (Ver la esquina superior derecha de la captura de pantalla)

Carpeta de imágenes con fotos de gatos y archivo de Excel.
Búsqueda en el Explorador de Windows filtrada por MICRO_SMILE Y orbicularis. El operador Y reduce los resultados a archivos donde ambos términos aparecen en los metadatos de comentarios.

El Explorador de Windows admite operadores AND y OR en el campo de búsqueda. En el ejemplo mostrado, la consulta MICRO_SMILE Y orbicularis devuelve solo los archivos donde el modelo detectó una sonrisa de baja intensidad con implicación documentada de orbicularis. Esto transforma tu biblioteca fotográfica local en un archivo de pruebas estructurado y buscable. El mismo enfoque se extiende a dominios completamente diferentes. Podrías escribir un prompt que identifique el país o la ciudad visible en una fotografía de paisaje, clasifique modelos de vehículos, describa configuraciones de habitaciones para documentación inmobiliaria o analice cualquier atributo visual relevante para tu contexto profesional. El prompt es el único elemento que necesita cambiar.

Exportar metadatos a CSV para análisis agregado

Para investigaciones que requieren una visión estadística de toda una colección, está disponible bajo solicitud un script en Python que extrae los metadatos de los comentarios de cada archivo procesado y los consolida en un único archivo CSV. Este CSV luego puede ser importado en cualquier aplicación de hoja de cálculo o enviado a un modelo de lenguaje para un análisis de patrones más avanzado, como identificar la proporción de imágenes que contienen sonrisas genuinas frente a expresiones neutras a lo largo de una línea de tiempo de fotografías. Para solicitar el script, contáctenos con el asunto: Script de Python AI Vision Smile.

Conclusión

Light Image Resizer proporciona una cadena completa para análisis de expresiones faciales de grado forense a gran escala. La combinación de un prompt estructurado basado en FACS, un modelo de visión Ollama alojado localmente para la privacidad total de los datos y la escritura directa de resultados en metadatos de imagen crea un flujo de trabajo reproducible, auditable y desplegable en cualquier máquina Windows con una GPU capaz. La misma infraestructura se adapta fácilmente a cualquier dominio que se beneficie de una anotación de imágenes automatizada a nivel experto. Descarga Light Image Resizer y el preset forense de detección de sonrisas para empezar.

Descargar Light Image Resizer

Consulta el historial completo de versiones