Funkcja AI Vision – Opisz obraz, aby utworzyć prompt
AI Vision to funkcja umożliwiająca opisanie obrazu i przekształcenie go w prompt. Odbywa się to przy użyciu jednego z popularnych modeli SI, takich jak ChatGPT lub Gemini. Możesz wybrać model, który preferujesz, biorąc pod uwagę wydajność lub koszt.
Dlaczego warto opisywać swoje obrazy?
Znajdowanie odpowiednich słów dla swoich obrazów jest łatwe dzięki funkcji AI Vision w Light Image Resizer. Funkcja AI Vision W Light Image Editor analizuje twoje obrazy na poziomie technicznym, aby automatycznie generować opisy. Aplikacja przygotowuje twój obraz (poprzez konwersję do JPEG i zmianę rozmiaru do rozmiaru takiego jak 1024×1024, który jest regulowany) dla wydajnego przetwarzania AI. Ten krok wstępnej analizy pomaga zapewnić szybsze przetwarzanie i może uczynić funkcję bardziej opłacalną. Pozwól, aby AI opisywała, abyś nie musiał tego robić!
Pobierz Light Image Editor
Pobierz i zainstaluj Light Image Resizer 7
Znajdź Light Image Editor w zasobniku, załaduj obraz i uruchom w głównym menu – Narzędzia – AI Vision.
Uzyskaj klucz API
Funkcja sztucznej inteligencji AI Vision jest obecnie dostępna w aplikacji Light Image Editor, która jest dołączona do pakietu instalacyjnego Light Image ResizerTo lokalna aplikacja tylko na Windows. Będziesz potrzebować klucza API, albo dla Google Gemini, albo ChatGPT od OpenAI. Oznacza to, że będziesz płacić w miarę użycia, brak konieczności abonamentu miesięcznego.
Najpierw uzyskaj klucz API dla modeli wizji.
Uzyskaj klucz API dla Google AI Studio (Gemini)
Uzyskaj klucz API od OpenAI (ChatGPT)
Na razie zalecamy używanie Gemini, tańsze i działa dobrze przy opisywaniu obrazów.
Gdy będziesz mieć klucz (i kredyty), możesz wpisać klucz w opcji AI vision w Light Image Resizer dostępnym w tym menu.
Modele wizji LLM działają dobrze w języku angielskim, francuskim, niemieckim i w popularnych językach, co nie dotyczy niektórych innych popularnych modeli wizji. Ollama może być wspierana później, jeśli uznasz to za interesujące, a dużą zaletą jest to, że dane będą w pełni prywatne i lokalne, i nie będziesz obciążany żadnymi żądaniami ani tokenami. Zobacz modele wizji obsługiwane przez Ollama
Wyłączenie: Aby być w pełni w 100% lokalnym i prywatnym, musisz używać Ollama i modelu lokalnego. W przypadku ChatGPT i Gemini aplikacja zmienia rozmiar obrazu i wysyła go do chmury, ale nie przechowuje żadnej kopii. Jeśli nie chcesz udostępniać swoich zdjęć ani wrażliwych danych (szczególnie treści NSFW), nie korzystaj z modeli chmurowych, a z Ollama.
Jakie rodzaje zadań możesz wykonać?
Oznaczaj swoje zdjęcia, aby znaleźć je za pomocą słów kluczowych. Odgadywanie położenia zdjęcia, gdy nie pamiętasz, gdzie je zrobiłeś. Znajdź inspirację, gdy chcesz opublikować nowy post na Instagramie lub TikToku. To doda ładne ikony, które poprawią Twój marketing.
To wszystko zależy od Twojego polecenia, zobacz kilka przykładów poleceń i jak wpływają na wynik.
Gdy będziesz mieć klucz (i kredyty), możesz wpisać klucz w opcji AI vision w Light Image Resizer dostępnym w tym menu.
Modele wizji LLM działają poprawnie w języku angielskim, francuskim, niemieckim i popularnych językach, czego nie można powiedzieć o niektórych innych popularnych modelach wizji. Ollama może być wspierane później, jeśli uznasz to za interesujące, a dużą zaletą jest to, że dane będą całkowicie prywatne i lokalne, i nie zostaniesz obciążony żadnymi opłatami za żądania ani tokeny. Zobacz modele wizji obsługiwane przez Ollama
Jaka jest różnica między opisaniem obrazu, analizowaniem obrazu a streszczeniem obrazu?
i to może być to samo pytanie o różnicę między obrazem, fotografią a zdjęciem. To w pewnym sensie to samo, ale zależy od tego, co musisz zrobić i kim jesteś. Zobacz kilka możliwych zadań AI Vision:
- Znajdowanie słów kluczowych dla fotografów
- OCR i streszczenie dokumentów dla księgowych
- Automatyczne podpisywanie obrazów
- Inspiracja i wpływ na posty na Instagramie lub TikToku
- Identyfikacja marek i celebrytów
- Moda e-commerce
- Geoguessing – znajdowanie lokalizacji na podstawie zdjęcia
- Diagnostyka naukowa, zdrowotna, astronomiczna
Kilka inspiracji promptów do opisywania obrazu
Słowa kluczowe do fotografii
Zwróć bezpośrednio bez komentarza listę 50 słów kluczowych oddzielonych przecinkiem, aby opisać temat, tło, obiekty, lokalizację i nastrój
Kobieta, kabriolet, samochód, pustynia, wielbłądy, piasek, droga, podróże, turystyka, przygoda, wakacje, stylowe, moda, portret, natura, słonecznie, wiatr, włosy, rude włosy, szalik, biały samochód, skórzane siedzenia, zagłówek, suchy krajobraz, suchy, upał, słońce, modelka, pozowanie, pewność siebie, zrelaksowana, atrakcja turystyczna, horyzont, tło, odległe, rozmyte, nieostre, transport, otwarty dach, wypoczynek, pragnienie podróży, nowoczesność, moda, styl, elegancja, wolność, podróż, odkrywca, odległe, malownicze, destynacyjne, nieformalne, letnie, dzienne, wakacje, ucieczka, przygoda, podróże, podróż samochodem.
Podsumowanie dokumentu OCR
Wykonaj szczegółowy OCR dokumentu, a następnie przetłumacz na język angielski i wyjaśnij w podsumowaniu w 200 słowach, czym jest dokument i ważne elementy.
Ten dokument jest fakturą od “Les Minotiers,” hotel/kwatera (Logis de France) znajdujący się w Mirepoix, Francja. Faktura oznaczona numerem 43197 i datowana na 18 lutego 2014 r. wyszczególnia opłaty za pobyt w pokoju nr 12. Gość przyjechał 17 lutego 2014 roku, a wyjechał 18 lutego 2014 roku. Całkowita kwota do zapłaty wynosi 73,92 euro. Opłaty obejmują cenę pokoju (57,00 euro), opłatę klimatyczną (0,92 euro) i śniadanie (16,00 euro). Faktura rozbija podatek VAT (podatek od wartości dodanej) w wysokości 10% na część opłat. Na fakturze widnieje również równowartość 484,88 w starej walucie francuskiej “Franki”. Dane kontaktowe firmy, identyfikatory biznesowe i podatek VAT
Opis Instagrama
Stwórz opis posta na Instagramie na niedzielę, bądź kreatywny i zabawny, aby uzyskać najlepsze zaangażowanie oraz liczbę polubień lub komentarzy
Niedzielny nastrój: planowanie mojej kolejnej paryskiej przygody. 🥐 Ten klasyczny samochód + widok na rzekę = 💯. Ale prawdziwe pytanie brzmi… brunch z szampanem czy zwiedzanie muzeów? 🤔 Jaka jest TWOJA idealna niedzielna aktywność? Daj znać w komentarzach! 👇 #ParisianVibes #SundayFunday #ClassicCars #StyleInspo #WeekendGetaway #TravelDreams
Nauka & Edukacja
Jako ekspert, proszę przeanalizuj naukowo to zdjęcie i przygotuj opis składający się z 200 słów. Zaproponuj najlepszą specjalizację naukową do diagnozy rozwiązania.
This X-ray image depicts the bones of a human hand and wrist. The carpal bones, metacarpals, and phalanges are all visible. There appears to be a fracture of the proximal phalanx of the fourth digit (ring finger). The fracture appears to be a comminuted fracture, meaning the bone is broken into multiple fragments. There is visible displacement of the fractured bone fragments, indicating the fracture is not stable and may require intervention to ensure proper healing and alignment. No other obvious fractures or dislocations are apparent in the remaining bones of the hand and wrist in this particular projection. The bone density appears normal within the limits of this image.
Fashion & e-commerce
W przypadku strony produktu e-commerce opisz zdjęcie kolorem, kształtem, materiałami, stylem. Opis na 100 słów z efektem marketingowym.
Odważ się być inna w tej oszałamiającej czarnej sukience. Wykonany z miękkiej, przylegającej do ciała dzianiny, ten model ma wyrafinowany golf i podkreślającą sylwetkę sylwetkę, która przechodzi w elegancką długość midi. Dramat tkwi w obszernych mankietach ze sztucznego futra, które dodają odrobinę bogatej faktury i niezaprzeczalnego pazura. Idealna na wieczorne wyjście lub wyrazistą imprezę, ta sukienka jest nowoczesnym arcydziełem. Bez wysiłku szykowny i nieskończenie wszechstronny, przygotuj się, aby przyciągnąć wzrok, gdziekolwiek jesteś. Bądź właścicielem pokoju. Posiadaj swój styl.
GeoGuessing
Zgadnij lokalizację obrazu, zacznij od kraju, obszaru, a następnie miasta. Dodaj 50 słów, aby opisać temat. Zakończ procentem oszacowania dokładności.
Oto moja analiza obrazu:
- Kraj: Francja
- Obszar: Nowa Akwitania
- Miasto: Cap Ferret
Opis tematu: Mała, jaskrawo pomalowana łódź spokojnie unosi się na wodzie, a jej czerwono-kadłub uderzająco kontrastuje z błękitem. Na pierwszym planie wystają drewniane słupki wystające z wody. Za drzewami widoczna jest latarnia morska Arcachon. W oddali rozciąga się piaszczysta plaża.
Oszacowanie dokładności: 85%s
Jeśli masz jakiś przypadek użytkownika, którym chcesz się z nami podzielić, lub jeśli chcesz uzyskać pomoc dotyczącą tej nowej funkcji wizji AI, daj nam znać!
