Deteção de Sorrisos de Nível Forense com Light Image Resizer e AI Vision
Temos o prazer de anunciar uma nova versão do Light Image Resizer, incorporando testes extensivos da funcionalidade AI Vision como um etiquetador de imagens inteligente e capaz de processamento em lote. Pode consultar o historial completo aqui. Este artigo guia-o por um caso de uso concreto: configurar um pré-definido que processa uma pasta inteira de fotografias e deteta automaticamente a presença de um sujeito humano juntamente com uma pontuação de intensidade de sorriso cientificamente fundamentada. A metodologia é inspirada no Sistema de Codificação de Ação Facial (FACS) desenvolvido por Paul Ekman, que torna o resultado reproduzível, estruturado e adequado para aplicações profissionais ou forenses.
A Ciência por Trás da Deteção: FACS e Unidades de Ação
O Sistema de Codificação de Ação Facial, originalmente desenvolvido pelo anatomista sueco Carl-Herman Hjortsjö e posteriormente adotado e expandido por Paul Ekman e Wallace V. Friesen, é o padrão internacional para descrever movimentos dos músculos faciais. Ekman, psicólogo e professor na Universidade da Califórnia, São Francisco, é reconhecido como um dos pioneiros no estudo científico das emoções e da sua relação com as expressões faciais. O sistema decompõe qualquer expressão facial em Unidades de Ação (UA) discretas, cada uma correspondente à contração de um ou mais músculos específicos. Para a deteção do sorriso, as duas unidades críticas são AU6 (Orbicularis Oculi, elevador da bochecha) e AU12 (Zigomático Maior, puxador de canto do lábio). Um sorriso genuíno Duchenne requer que tanto o AU6 como o AU12 sejam ativados simultaneamente. Um sorriso voluntário ou posado normalmente envolve apenas AU12. Esta distinção é precisamente o que o prompt AI Vision foi concebido para detetar e reportar.
Caso de Uso: Análise em Lote de 1500 Fotografias para uma Investigação Legal
Para ilustrar o âmbito prático deste fluxo de trabalho, considere o seguinte cenário. Uma investigação legal exige a revisão de uma coleção de 1500 fotografias para determinar se um sujeito humano demonstrava angústia ou uma expressão relaxada durante uma sessão fotográfica. Rever manualmente 1500 ficheiros é demorado e subjetivo. Com o Light Image Resizer configurado conforme descrito neste tutorial, todo o lote é processado automaticamente, e cada ficheiro recebe uma etiqueta estruturada e legível por máquina, escrita diretamente nos seus metadados. A etiqueta é gerada por um modelo visual de IA instruído a atuar como um analista forense de expressões faciais. O resultado é o seguinte:
OLLAMA-MISTRAL-FORENSIC32-EXPERTV2:LATEST
[NO_SMILE:100]
No AU12 or AU6 activation detected. Neutral facial expression.
A primeira linha identifica o modelo utilizado. A segunda linha é a etiqueta padronizada com uma pontuação de confiança expressa como um inteiro em passos de dez. A terceira linha fornece uma breve justificação técnica baseada na análise muscular e deteção de artefactos. Esta saída de três linhas é repetível, analisável e auditável.
Pode descarregar o preset pronto a usar para este caso de utilização aqui:
Descarregar o Preset de Detecção Forense de Sorriso
Por que Executar o Modelo Localmente com Ollama
A privacidade é uma preocupação primordial em qualquer contexto forense ou legal. Carregar fotografias de indivíduos para uma API de cloud de terceiros introduz riscos inaceitáveis em investigações sensíveis. Light Image Resizer agora suporta o Ollama, que permite executar modelos de linguagem de visão inteiramente na sua própria máquina, sem que quaisquer dados saiam da sua rede. Não há custos de API, nem limites de utilização, nem dependência de uma ligação à internet. Neste caso de uso, executar localmente não é apenas uma preferência — é um requisito. Pode saber mais sobre a integração Ollama introduzida em Light Image Resizer no Página oficial do produto.
Configuração do Preset: Definições Gerais e de Tipo de Ficheiro
A principal restrição neste caso de uso é que as imagens de origem não devem ser alteradas. O preset está, portanto, configurado para escrever apenas metadados, deixando o conteúdo dos píxeis de cada ficheiro completamente intocado. No separador Geral, defina a ação para Substituir o original e o destino para a mesma pasta do original. No separador Avançado, o filtro pode permanecer em Lanczos e a política em Sempre redimensionar, mas o que importa é a secção do Tipo de Ficheiro: definir Formato como Original e, em Compressão, ativar a opção Manter qualidade original. Isto garante que Light Image Resizer processa cada ficheiro exclusivamente para escrever o resultado do AI Vision como um comentário nos metadados da imagem, sem recodificar ou degradar a imagem de forma alguma. A resolução pode ser mantida em 96 DPI, pois não tem efeito quando o formato é preservado como original.
Configurar o separador AI Vision
Abrir o painel Avançado e navegar até ao separador AI Vision. Ativar a funcionalidade usando a caixa de seleção no topo do painel.
No menu suspenso de Serviço, selecione Ollama para processamento totalmente local. Se preferir um modelo baseado na cloud, o Gemini (Gemini 3 Flash) e o ChatGPT (GPT-5 Mini) também são suportados e exigem apenas que introduza a sua chave API no painel de Configuração. Defina o tamanho máximo para 896 pixels. Esta resolução é suficiente para análise facial na grande maioria dos sujeitos fotográficos e mantém o tempo de processamento razoável em grandes lotes. No campo Política, Append adiciona cada novo resultado de IA ao campo de comentário existente sem apagar entradas anteriores, o que é útil quando executa o mesmo lote por vários modelos para comparação. Substituir irá sobrescrever o campo de comentários cada vez.
O Prompto Forense
Cole o seguinte prompt no campo Prompt do separador AI Vision. Cada elemento deste prompt é intencional. A instrução do sistema elimina o texto conversacional da saída. A diretiva do Protocolo de Decomposição Muscular foca o modelo no AU6 e AU12. A cláusula de deteção de artefactos impede a classificação errada causada por barbas, dedos, charutos ou outras oclusões. O tesauro impõe um vocabulário fixo, tornando os resultados em lote diretamente comparáveis e pesquisáveis.
[SYSTEM] Act as a forensic facial expression analyst. Your mission is to translate facial muscle activity into a standardized tag with a confidence score. No prose. No conversational fillers. No 'think' tags. Apply the Muscular Decomposition Protocol (AU6/AU12) and identify mechanical artifacts (beard, cigar, finger) before concluding.
[OUTPUT STRUCTURE] Your response must consist of exactly three lines:
Line 1: %AISERVICE%-%AIMODEL%
Line 2: [TAG:SCORE]
Line 3: Brief technical justification (muscles vs artifacts).
[STRICT RULES]
1. SCORE: Must be an integer representing confidence from 0 to 100, strictly in steps of 10 (e.g., 60, 70, 80).
2. RELIABILITY GATE: If confidence is below 50, use the tag [UNSURE:SCORE] instead of a standard tag.
3. TAG SELECTION: Choose exactly one term from the THESAURUS below.
4. SYNTAX: Do not insert any characters, colons, or brackets between the TAG and the SCORE other than the specified [TAG:SCORE] format.
[THESAURUS]
NO_SMILE
MICRO_SMILE
SMILE
BROAD_SMILE
LAUGHING
UNSURE
[VALID EXAMPLE]
%AISERVICE%-%AIMODEL%
[UNSURE:90]
Artifact detected (beard shadow), insufficient AU6 activation.
verdict:
O tempo de processamento varia consideravelmente consoante a sua GPU, a quantidade de VRAM disponível e o modelo selecionado. Num sistema equipado com uma NVIDIA RTX 3090 ou 4060 Super, espere entre 5 e 90 segundos por ficheiro. Modelos que valem a pena testar para esta tarefa incluem Qwen2.5-VL, Mistral Small 24B e Gemma 4B para maior throughput em hardware restrito.
Revisão de Resultados no Light Image Editor
Assim que o lote terminar o processamento, abra qualquer ficheiro no Light Image Editor, que está incluído com o Light Image Resizer. Navegue até Ferramentas no menu superior e selecione Comentário, ou pressione Ctrl+T. O campo de comentários irá mostrar a saída estruturada de cada modelo que foi executada em relação a essa imagem.
No exemplo mostrado acima, a mesma fotografia foi analisada por sete modelos diferentes, incluindo uma variante Mistral personalizada e afinada, Qwen3-VL 235B, Gemini 3 Flash Preview, GPT-5 Mini e Kimi K2.5. Os resultados variam na sua classificação precisa entre MICRO_SMILE e SMILE, mas todos concordam na ausência de indicadores de sofrimento e na presença de algum grau de ativação do Zigomático Maior. Este tipo de comparação multi-modelo é valioso para calibrar qual modelo melhor se adequa às suas restrições de hardware e à linguagem de saída necessária. Se precisar de resultados em francês, espanhol, alemão ou noutra língua, escolher um modelo multilingue como Qwen ou Mistral produzirá o texto de justificação na língua alvo sem qualquer modificação do prompt.
Procurar na Sua Biblioteca de Fotos por Etiquetas Geradas por IA
Após processar um lote, as etiquetas estruturadas escritas nos metadados de cada ficheiro tornam-se imediatamente pesquisáveis a partir do Windows Explorer. Abra a pasta que contém as suas imagens processadas e utilize a barra de pesquisa para inserir uma palavra-chave ou uma combinação de palavras-chave. (Veja o canto superior direito do ecrã)
O Windows Explorer suporta operadores AND e OR no campo de pesquisa. No exemplo mostrado, a consulta MICRO_SMILE E orbicularis devolve apenas os ficheiros onde o modelo detetou um sorriso de baixa intensidade com envolvimento documentado do orbicularis. Isto transforma a sua biblioteca fotográfica local num arquivo estruturado e pesquisável de provas. A mesma abordagem estende-se a domínios completamente diferentes. Pode escrever um prompt que identifique o país ou a cidade visível numa fotografia de paisagem, classifique modelos de veículos, descreva configurações de divisões para documentação imobiliária ou analise qualquer atributo visual relevante para o seu contexto profissional. O prompt é o único elemento que precisa de mudar.
Exportação de Metadados para CSV para Análise Agregada
Para investigações que exigem uma visão estatística de toda uma coleção, está disponível, mediante pedido, um script Python que extrai os metadados dos comentários de cada ficheiro processado e os consolida num único ficheiro CSV. Este CSV pode depois ser importado para qualquer aplicação de folhas de cálculo ou submetido a um modelo de linguagem para uma análise de padrões de nível superior, como a identificação da proporção de imagens com sorrisos genuínos versus expressões neutras ao longo de uma cronologia de fotografias. Para solicitar o script, contacte-nos com a linha de assunto: Script Python AI Vision Smile.
Conclusão
Light Image Resizer fornece um pipeline completo para análise de expressões faciais de nível forense em larga escala. A combinação de um prompt estruturado baseado em FACS, um modelo de visão Ollama hospedado localmente para total privacidade de dados e a escrita direta dos resultados nos metadados da imagem cria um fluxo de trabalho reproduzível, auditável e implantável em qualquer máquina Windows com uma GPU capaz. A mesma infraestrutura adapta-se facilmente a qualquer domínio que beneficie de anotação automática de imagens ao nível de especialistas. Descarregue Light Image Resizer e o predefinido forense de deteção de sorriso para começar.
