Détection de sourire de "niveau judiciaire" avec Light Image Resizer et AI Vision

Nous avons le plaisir d'annoncer une nouvelle version de Light Image Resizer, intégrant des tests approfondis de la fonctionnalité AI Vision en tant qu'étiqueteur d'images intelligent capable de traiter des lots. Vous pouvez consulter l'intégralité Liste des changementsCet article vous guide à travers un cas d'utilisation concret : configurer un preset qui traite un dossier entier de photographies et détecte automatiquement la présence d'un sujet humain, ainsi qu'un score d'intensité de sourire scientifiquement fondé. La méthodologie s'inspire du Facial Action Coding System (FACS) développé par Paul Ekman, ce qui rend le résultat reproductible, structuré et adapté à des applications professionnelles ou médico-légales.

Détection de sourire par IA utilisant la technologie de Light Image Resizer

La science derrière la détection : FACS et unités d'action

Le Système de Codage des Actions Faciales, initialement développé par l’anatomiste suédois Carl-Herman Hjortsjö et plus tard adopté et étendu par Paul Ekman et Wallace V. Friesen, est la norme internationale pour décrire les mouvements des muscles faciaux. Ekman, psychologue et professeur à l’Université de Californie, San Francisco, est reconnu comme l’un des pionniers dans l’étude scientifique des émotions et de leur relation avec les expressions faciales. Le système décompose toute expression faciale en unités d’action (UA) distinctes, chacune correspondant à la contraction d’un ou plusieurs muscles spécifiques. Pour la détection du sourire, les deux unités critiques sont l’UA6 (Orbicularis Oculi, releveur des joues) et l’UA12 (Zygomaticus Major, releveur des commissures des lèvres). Un sourire Duchenne authentique nécessite l’activation simultanée de l’UA6 et de l’UA12. Un sourire volontaire ou posé implique généralement uniquement l’UA12. Cette distinction est précisément ce que l’invite AI Vision est conçue pour détecter et signaler.

Cas d'utilisation : Analyse par lots de 1500 photographies pour une enquête judiciaire

Pour illustrer le champ d'application pratique de ce flux de travail, considérez le scénario suivant. Une enquête juridique nécessite l'examen d'une collection de 1500 photographies afin de déterminer si un sujet humain manifestait de la détresse ou une expression détendue lors d'une séance photo. L'examen manuel de 1500 fichiers est chronophage et subjectif. Avec Light Image Resizer configuré comme décrit dans ce tutoriel, l'ensemble du lot est traité automatiquement, et chaque fichier reçoit une balise structurée, lisible par machine, écrite directement dans ses métadonnées. La balise est générée par un modèle de vision IA chargé de fonctionner comme un analyste forensique d'expressions faciales. Le résultat ressemble à ceci :

OLLAMA-MISTRAL-FORENSIC32-EXPERTV2:LATEST
[NO_SMILE:100]
No AU12 or AU6 activation detected. Neutral facial expression.

La première ligne identifie le modèle utilisé. La deuxième ligne est l'étiquette standardisée avec un score de confiance exprimé en entier par incréments de dix. La troisième ligne fournit une brève justification technique basée sur l'analyse musculaire et la détection d'artefacts. Cette sortie en trois lignes est répétable, analysable et vérifiable.

Vous pouvez télécharger le préréglage prêt à l'emploi pour ce cas d'utilisation ici :

Télécharger le préréglage de détection de sourire judiciaire

Pourquoi exécuter le modèle localement avec Ollama ?

La confidentialité est une préoccupation majeure dans tout contexte judiciaire ou médico-légal. Télécharger des photographies d'individus sur une API cloud tierce introduit des risques inacceptables dans des enquêtes sensibles. Light Image Resizer prend désormais en charge Ollama, ce qui vous permet d'exécuter des modèles de vision et de langage entièrement sur votre propre machine, sans que vos données ne quittent votre réseau. Il n'y a aucun coût d'API, aucune limite d'utilisation et aucune dépendance à une connexion Internet. Pour ce cas d'utilisation, l'exécution locale n'est pas seulement une option — c'est une exigence. Vous pouvez en savoir plus sur l'intégration d'Ollama introduite dans Light Image Resizer sur le page officielle LIR 7.

Configuration du préréglage : paramètres généraux et de type de fichier

La contrainte principale dans ce cas d'utilisation est que les images source ne doivent pas être modifiées. Le preset est donc configuré pour n'écrire que les métadonnées, en laissant le contenu en pixels de chaque fichier entièrement intact. Dans l'onglet Général, définissez l'action sur Remplacer l'original et la destination sur le même dossier que l'original. Dans l'onglet Avancé, le filtre peut rester sur Lanczos et la politique sur Toujours redimensionner, mais ce qui compte est la section Type de fichier : définissez Format sur Comme l'original, et sous Compression, activez l'option Conserver la qualité originale. Cela garantit que Light Image Resizer traite chaque fichier uniquement pour écrire le résultat AI Vision en tant que commentaire dans les métadonnées de l'image, sans ré-encoder ni dégrader l'image d'aucune façon. La résolution peut être laissée à 96 DPI puisqu'elle n'a aucun effet lorsque le format est conservé tel quel.

Capture d'écran de l'interface des paramètres de redimensionnement du logiciel.
L'onglet AI Vision dans Light Image Resizer configuré pour le traitement local Ollama avec l'invite de détection du sourire forensic.

Configuration de l'onglet Vision IA

Ouvrez le panneau Avancé et allez dans l'onglet Vision IA. Activez la fonctionnalité en utilisant la case à cocher en haut du panneau.

Interface de fonctionnalité AI Vision avec options de réglages

Dans le menu déroulant Service, sélectionnez Ollama pour un traitement entièrement local. Si vous préférez un modèle basé sur le cloud, Gemini (Gemini 3 Flash) et ChatGPT (GPT-5 Mini) sont également pris en charge et nécessitent simplement que vous saisissiez votre clé API dans le panneau de configuration. Réglez la taille maximale sur 896 pixels. Cette résolution est suffisante pour l'analyse faciale dans la grande majorité des sujets photographiques et maintient un temps de traitement raisonnable pour de grands lots. Pour le champ Politique, Ajouter ajoutera chaque nouveau résultat de l'IA au champ de commentaire existant sans effacer les entrées précédentes, ce qui est utile lorsque vous exécutez le même lot sur plusieurs modèles pour comparaison. Remplacer écrasera le champ de commentaire à chaque fois.

Le prompt Forensique de détection des émotions

Collez l'invite suivante dans le champ Prompt de l'onglet AI Vision. Chaque élément de cette invite est intentionnel. L'instruction système élimine le texte conversationnel de la sortie. La directive du Protocole de Décomposition Musculaire concentre le modèle sur AU6 et AU12. La clause de détection des artefacts empêche les erreurs de classification causées par les barbes, les doigts, les cigares ou d'autres occultations. Le thésaurus impose un vocabulaire fixe, rendant les résultats par lot directement comparables et consultables.

[SYSTEM] Act as a forensic facial expression analyst. Your mission is to translate facial muscle activity into a standardized tag with a confidence score. No prose. No conversational fillers. No 'think' tags. Apply the Muscular Decomposition Protocol (AU6/AU12) and identify mechanical artifacts (beard, cigar, finger) before concluding.

[OUTPUT STRUCTURE] Your response must consist of exactly three lines:

Line 1: %AISERVICE%-%AIMODEL%
Line 2: [TAG:SCORE]
Line 3: Brief technical justification (muscles vs artifacts).

[STRICT RULES]

1. SCORE: Must be an integer representing confidence from 0 to 100, strictly in steps of 10 (e.g., 60, 70, 80).
2. RELIABILITY GATE: If confidence is below 50, use the tag [UNSURE:SCORE] instead of a standard tag.
3. TAG SELECTION: Choose exactly one term from the THESAURUS below.
4. SYNTAX: Do not insert any characters, colons, or brackets between the TAG and the SCORE other than the specified [TAG:SCORE] format.

[THESAURUS]
NO_SMILE
MICRO_SMILE
SMILE
BROAD_SMILE
LAUGHING
UNSURE

[VALID EXAMPLE]
%AISERVICE%-%AIMODEL%
[UNSURE:90]
Artifact detected (beard shadow), insufficient AU6 activation.

verdict:

Le temps de traitement varie considérablement selon votre GPU, la quantité de VRAM disponible et le modèle sélectionné. Sur un système équipé d'une NVIDIA RTX 3090 ou 4060 Super, prévoyez entre 5 et 90 secondes par fichier. Les modèles qui valent la peine d'être testés pour cette tâche incluent Qwen2.5-VL, Mistral Small 24B, et Gemma 4B pour un débit plus rapide sur du matériel limité.

Examen des résultats dans Light Image Editor

Une fois que le lot a terminé le traitement, ouvrez n'importe quel fichier dans Light Image Editor, qui est inclus avec Light Image Resizer. Allez dans Outils dans le menu supérieur et sélectionnez Commentaire, ou appuyez sur Ctrl+T. Le champ de commentaire affichera la sortie structurée de chaque modèle qui a été exécuté sur cette image.

Femme portant un chapeau en crochet et un bikini sur la plage.
Light Image Editor affichant le champ de commentaire AI Vision après l'exécution du lot de détection de sourire judiciaire. Chaque entrée correspond à un modèle de langage différent testé lors de l'écriture de cet article.

Dans l'exemple ci-dessus, la même photographie a été analysée par sept modèles différents, dont une variante Mistral personnalisée, Qwen3-VL 235B, Gemini 3 Flash Preview, GPT-5 Mini et Kimi K2.5. Les résultats varient dans leur classification précise entre MICRO_SMILE et SMILE, mais tous s'accordent sur l'absence d'indicateurs de détresse et la présence d'un certain degré d'activation du Zygomaticus Major. Ce type de comparaison multimodèle est utile pour calibrer le modèle qui convient le mieux à vos contraintes matérielles et au langage de sortie requis. Si vous avez besoin de résultats en français, espagnol, allemand ou une autre langue, choisir un modèle multilingue tel que Qwen ou Mistral qui aura une meilleur adhérence à la gestion de votre langue, a vous d'adapter le prompt.

Recherche dans votre bibliothèque de photos grâce aux balises générées par l'IA

Après le traitement d'un lot, les balises structurées écrites dans les métadonnées de chaque fichier deviennent immédiatement consultables depuis l'Explorateur Windows. Ouvrez le dossier contenant vos images traitées et utilisez la barre de recherche pour entrer un mot-clé ou une combinaison de mots-clés. (Voir en haut à droite de la capture d'écran)

Dossier d'images avec des photos de chat et fichier Excel.
Recherche dans l'Explorateur Windows filtrée par MICRO_SMILE ET orbicularis. L'opérateur ET réduit les résultats aux fichiers où les deux termes apparaissent dans les métadonnées des commentaires.

Windows Explorer prend en charge les opérateurs AND et OR dans le champ de recherche. Dans l'exemple montré, la requête MICRO_SMILE AND orbicularis ne renvoie que les fichiers où le modèle a détecté un sourire de faible intensité avec une implication documentée de l'orbiculaire. Cela transforme votre bibliothèque photo locale en une archive de preuves structurée et consultable. La même approche peut s'appliquer à des domaines complètement différents. Vous pourriez rédiger un prompt qui identifie le pays ou la ville visible sur une photographie de paysage, classe les modèles de véhicules, décrit les configurations de pièces pour la documentation immobilière ou analyse tout attribut visuel pertinent pour votre contexte professionnel. Le prompt est le seul élément qui doit être modifié.

Exporter les métadonnées vers un CSV pour une analyse agrégée

Pour les enquêtes nécessitant un aperçu statistique d'une collection entière, un script Python est disponible sur demande, qui extrait les métadonnées des commentaires de chaque fichier traité et les consolide dans un seul fichier CSV. Ce CSV peut ensuite être importé dans n'importe quelle application de tableur ou soumis à un modèle linguistique pour une analyse de motifs plus poussée, comme l'identification de la proportion d'images contenant de vrais sourires par rapport à des expressions neutres sur une chronologie de photographies. Pour demander le script, contactez-nous avec le sujet : Script Python AI Vision Smile.

Conclusion

Light Image Resizer fournit un flux de travail complet pour l'analyse des expressions faciales de qualité médico-légale à grande échelle. La combinaison d'une invite structurée basée sur le FACS, d'un modèle de vision Ollama hébergé localement pour une confidentialité totale des données, et de l’écriture directe des résultats dans les métadonnées des images crée un flux de travail reproductible, vérifiable et déployable sur n’importe quel ordinateur Windows avec un GPU performant. La même infrastructure s’adapte facilement à tout domaine qui bénéficie d’une annotation d’images automatisée de niveau expert. Téléchargez Light Image Resizer et le préréglage de détection de sourire médico-légal pour commencer.

Télécharger Light Image Resizer

Voir l'historique complet des versions