Forensic-Grade Smile Detection with Light Image Resizer i AI Vision

Z przyjemnością ogłaszamy nową wersję Light Image Resizer, która obejmuje szeroko zakrojone testy funkcji AI Vision jako inteligentnego, partiowego taggera obrazów. Możesz zapoznać się z pełną wersją Historia wersji tutaj. This article walks you through a concrete use case: configuring a preset that processes an entire folder of photographs and automatically detects the presence of a human subject along with a scientifically grounded smile intensity score. The methodology is inspired by the Facial Action Coding System (FACS) developed by Paul Ekman, which makes the output reproducible, structured, and suitable for professional or forensic applications.

AI wykrywanie uśmiechu z wykorzystaniem technologii resizera obrazu.

Nauka stojąca za wykrywaniem: FACS i jednostki działania

System kodowania działań twarzy, pierwotnie opracowany przez szwedzkiego anatoma Carla-Hermana Hjortsjö, a później przyjęty i rozszerzony przez Paula Ekmana i Wallace'a V. Friesena, jest międzynarodowym standardem opisującym ruchy mięśni twarzy. Ekman, psycholog i profesor na Uniwersytecie Kalifornijskim w San Francisco, jest uznawany za jednego z pionierów naukowego badania emocji i ich związku z mimiką twarzy. System rozkłada każdą mimikę na odrębne Jednostki Działania (AU), z których każda odpowiada skurczowi jednego lub więcej konkretnych mięśni. Do wykrywania uśmiechu dwie kluczowe jednostki to AU6 (Orbicularis Oculi, unoszący policzek) oraz AU12 (Zygomaticus Major, wyciągający kąciki warg). Prawdziwy uśmiech Duchenne'a wymaga jednoczesnej aktywacji AU6 i AU12. Dobrowolny lub pozowany uśmiech zazwyczaj dotyczy wyłącznie AU12. To właśnie rozróżnienie jest tym, co prompt AI Vision ma wykryć i raportować.

Przypadek użycia: analiza partii 1500 fotografii do dochodzenia prawnego

Aby zobrazować praktyczny zakres tego procesu, rozważmy następujący scenariusz. Śledztwo prawne wymaga przeanalizowania kolekcji 1500 fotografii, aby ustalić, czy osoba wykazywała niepokój lub zrelaksowany wyraz twarzy podczas sesji zdjęciowej. Ręczne przeglądanie 1500 plików jest czasochłonne i subiektywne. Dzięki skonfigurowaniu Light Image Resizer zgodnie z opisem w tym samouczku, cały pakiet jest przetwarzany automatycznie, a każdy plik otrzymuje ustrukturyzowany, maszynowo czytelny tag zapisany bezpośrednio w metadanych. Tag jest generowany przez model wizualny AI, który ma działać jako analityk mimiki sądowej. Efekt wygląda tak:

OLLAMA-MISTRAL-FORENSIC32-EXPERTV2:LATEST
[NO_SMILE:100]
No AU12 or AU6 activation detected. Neutral facial expression.

Pierwsza linia identyfikuje użyty model. Druga linia to standaryzowany tag z oceną pewności wyrażoną jako liczba całkowita w krokach do dziesięciu. Trzecie zdanie przedstawia krótkie uzasadnienie techniczne oparte na analizie mięśniowej i wykrywaniu artefaktów. Ten trzylinijowy wynik jest powtarzalny, analizowalny i audytowalny.

Możesz pobrać gotowy do użycia preset dla tego przypadku tutaj:

Pobierz Preset Forensic Smile Detection

Why Run the Model locally with Ollama

Prywatność jest podstawową kwestią w każdym kontekście kryminalistycznym lub prawnym. Przesyłanie zdjęć osób do zewnętrznego API chmurowego wprowadza ryzyka nieakceptowalne w wrażliwych dochodzeniach. Light Image Resizer teraz obsługuje Ollama, która pozwala uruchamiać modele językowe wizji całkowicie na własnym komputerze, bez opuszczania sieci danych. Nie ma kosztów API, limitów użycia ani zależności od połączenia internetowego. W tym przypadku uruchomienie lokalnie nie jest tylko preferencją — to wymóg. Więcej o integracji Ollama wprowadzonej w Light Image Resizer możesz dowiedzieć się na Oficjalna strona produktu.

Konfiguracja presetu: Ogólne i ustawienia typu pliku

Kluczowym ograniczeniem w tym przypadku jest to, że obrazy źródłowe nie mogą być zmieniane. Preset jest zatem skonfigurowany tak, aby zapisywać wyłącznie metadane, pozostawiając zawartość pikseli każdego pliku całkowicie nietkniętą. W zakładce Ogólne ustaw akcję na Zamień oryginał, a miejsce docelowe na ten sam folder co oryginał. W zakładce Zaawansowane filtr może pozostać na Lanczos, a polityka na Zawsze zmieniać rozmiar, ale liczy się sekcja Typ pliku: ustaw Format na Oryginalny, a w Kompresji włącz opcję Zachowaj oryginalną jakość. Zapewnia to, że Light Image Resizer przetwarza każdy plik wyłącznie po to, by zapisać wynik AI Vision jako komentarz w metadanych obrazu, bez ponownego kodowania lub degradacji obrazu. Rozdzielczość może pozostać na poziomie 96 DPI, ponieważ nie ma ona wpływu, gdy format jest zachowany jako oryginalny.

Interfejs ustawień zmiany rozmiaru oprogramowania – zrzut ekranu.
Zakładka AI Vision w Light Image Resizer skonfigurowana do lokalnego przetwarzania Ollama z promptem kryminalistycznego wykrywania uśmiechu.

Konfiguracja zakładki AI Vision

Otwórz panel zaawansowany i przejdź do zakładki AI Vision. Włącz tę funkcję za pomocą pola wyboru na górze panelu.

Interfejs funkcji AI Vision z opcjami ustawień

W rozwijanym menu Usługa wybierz Ollama dla pełnego przetwarzania lokalnego. Jeśli wolisz model oparty na chmurze, obsługiwane są także Gemini (Gemini 3 Flash) i ChatGPT (GPT-5 Mini), które wymagają jedynie wpisania klucza API w panelu konfiguracyjnym. Ustaw maksymalny rozmiar na 896 pikseli. Ta rozdzielczość jest wystarczająca do analizy twarzy w zdecydowanej większości fotografowanych obiektów i utrzymuje rozsądny czas przetwarzania przy dużych partiach. W polu Polityka Append doda każdy nowy wynik AI do istniejącego pola komentarza bez usuwania wcześniejszych wpisów, co jest przydatne, gdy ten sam batch przechodzisz przez wiele modeli do porównania. Za każdym razem Replace nadpisuje pole komentarza.

Zadanie sądowe

Wklej poniższy komunikat do pola Prompt zakładki AI Vision. Każdy element tego promptu jest celowy. Instrukcja systemowa eliminuje tekst konwersacyjny z wyjścia. Dyrektywa Protokołu Rozkładu Mięśniowego koncentruje model na AU6 i AU12. Klauzula wykrywania artefaktów zapobiega błędnej klasyfikacji spowodowanej przez brody, palce, cygara lub inne zasłony. Tezaurus wymusza stałe słownictwo, dzięki czemu wyniki partii są bezpośrednio porównywalne i przeszukiwalne.

[SYSTEM] Act as a forensic facial expression analyst. Your mission is to translate facial muscle activity into a standardized tag with a confidence score. No prose. No conversational fillers. No 'think' tags. Apply the Muscular Decomposition Protocol (AU6/AU12) and identify mechanical artifacts (beard, cigar, finger) before concluding.

[OUTPUT STRUCTURE] Your response must consist of exactly three lines:

Line 1: %AISERVICE%-%AIMODEL%
Line 2: [TAG:SCORE]
Line 3: Brief technical justification (muscles vs artifacts).

[STRICT RULES]

1. SCORE: Must be an integer representing confidence from 0 to 100, strictly in steps of 10 (e.g., 60, 70, 80).
2. RELIABILITY GATE: If confidence is below 50, use the tag [UNSURE:SCORE] instead of a standard tag.
3. TAG SELECTION: Choose exactly one term from the THESAURUS below.
4. SYNTAX: Do not insert any characters, colons, or brackets between the TAG and the SCORE other than the specified [TAG:SCORE] format.

[THESAURUS]
NO_SMILE
MICRO_SMILE
SMILE
BROAD_SMILE
LAUGHING
UNSURE

[VALID EXAMPLE]
%AISERVICE%-%AIMODEL%
[UNSURE:90]
Artifact detected (beard shadow), insufficient AU6 activation.

verdict:

Czas przetwarzania znacznie się różni w zależności od Twojej karty graficznej, ilości dostępnej pamięci VRAM oraz wybranego modelu. Na systemie wyposażonym w NVIDIA RTX 3090 lub 4060 Super można spodziewać się od 5 do 90 sekund na plik. Modele warte testowania do tego zadania to Qwen2.5-VL, Mistral Small 24B oraz Gemma 4B dla szybszej przepustowości na ograniczonym sprzęcie.

Przeglądanie wyników w Light Image Editor

Po zakończeniu przetwarzania partii otwórz dowolny plik w Light Image Editor, który jest dołączony do Light Image Resizer. W górnym menu przejdź do Narzędzi i wybierz Komentarz lub naciśnij Ctrl+T. Pole komentarza pokaże uporządkowany wynik każdego modelu, który został uruchomiony względem tego obrazu.

Kobieta w szydełkowej czapce i bikini na plaży.
Light Image Editor wyświetlający pole komentarza AI Vision po uruchomieniu partii wykrywania uśmiechu w sądzie. Każdy wpis odpowiada innemu modelowi językowemu testowanemu podczas tworzenia tego artykułu.

W powyższym przykładzie to samo zdjęcie zostało przeanalizowane przez siedem różnych modeli, w tym specjalnie dopracowany wariant Mistral, Qwen3-VL 235B, Gemini 3 Flash Preview, GPT-5 Mini oraz Kimi K2.5. Wyniki różnią się w precyzyjnej klasyfikacji między MICRO_SMILE a SMILE, ale wszystkie zgadzają się co do braku wskaźników stresu oraz obecności pewnego stopnia aktywacji Zygomaticus Major. Tego typu porównanie wielu modeli jest cenne przy kalibracji, który model najlepiej odpowiada Twoim ograniczeniom sprzętowym i wymaganemu językowi wyjściowemu. Jeśli potrzebujesz wyników w języku francuskim, hiszpańskim, niemieckim lub innym języku, wybór modelu wielojęzycznego, takiego jak Qwen czy Mistral, wygeneruje tekst uzasadniający w języku docelowym bez żadnych zmian w podpowiedzi.

Wyszukiwanie w bibliotece zdjęć za pomocą tagów generowanych przez AI

Po przetworzeniu partii zdjęć, strukturalne tagi zapisane w metadanych każdego pliku stają się natychmiast możliwe do wyszukania w Eksploratorze Windows. Otwórz folder zawierający przetworzone obrazy i użyj paska wyszukiwania, wpisując słowo kluczowe lub kombinację słów kluczowych. (Zobacz prawy górny róg zrzutu ekranu)

Folder ze zdjęciami kotów i plik Excel.
Wyszukiwanie w Eksploratorze Windows filtrowane według MICRO_SMILE ORAZ orbicularis. Operator AND zawęża wyniki do plików, w których oba terminy występują w metadanych komentarza.

Eksplorator Windows obsługuje operatory AND i OR w polu wyszukiwania. W pokazanym przykładzie zapytanie MICRO_SMILE AND orbicularis zwraca tylko pliki, w których model wykrył uśmiech o niskiej intensywności z udokumentowanym udziałem orbicularis. To przekształca Twoją lokalną bibliotekę fotograficzną w uporządkowane, przeszukiwalne archiwum dowodów. To samo podejście dotyczy zupełnie innych dziedzin. Możesz napisać prompt, który identyfikuje kraj lub miasto widoczne na zdjęciu krajobrazu, klasyfikuje modele pojazdów, opisuje konfigurację pomieszczeń do dokumentacji nieruchomości lub analizuje wszelkie wizualne cechy istotne dla Twojego kontekstu zawodowego. Prompt to jedyny element, który wymaga zmiany.

Eksport metadanych do CSV do analizy agregacyjnej

W badaniach wymagających statystycznego przeglądu całej kolekcji dostępny jest skrypt Pythona na żądanie, który wyodrębnia metadane komentarza z każdego przetworzonego pliku i konsoliduje je w jeden plik CSV. Ten CSV można następnie zaimportować do dowolnej aplikacji arkuszowej lub przesłać do modelu językowego do zaawansowanej analizy wzorców, na przykład do identyfikacji proporcji obrazów zawierających prawdziwe uśmiechy w porównaniu z neutralnymi wyrażeniami na osi czasu zdjęć. Aby zamówić scenariusz, skontaktuj się z nami z tematem wiadomości: Skrypt AI Vision Smile w Pythonie.

Podsumowanie

Light Image Resizer zapewnia kompletny pipeline do analizy mimiki twarzy na poziomie kryminalistycznym na dużą skalę. Połączenie uporządkowanego promptu opartego na FACS, lokalnie hostowanego modelu wizji Ollama dla pełnej prywatności danych oraz bezpośredniego zapisu wyników w metadanych obrazowych tworzy workflow, który jest powtarzalny, audytowalny i możliwy do wdrożenia na dowolnym komputerze z Windows z wydajną kartą graficzną. Ta sama infrastruktura łatwo dostosowuje się do każdej dziedziny, która korzysta z automatycznej, eksperckiej adnotacji obrazów. Pobierz Light Image Resizer oraz preset wykrywania uśmiechu sądowego, aby zacząć.

Pobierz Light Image Resizer

Zobacz pełną historię wersji