Funkcja AI Vision – Opisz obraz, aby utworzyć prompt

AI Vision to funkcja umożliwiająca opisanie obrazu i przekształcenie go w prompt. Odbywa się to przy użyciu jednego z popularnych modeli SI, takich jak ChatGPT lub Gemini. Możesz wybrać model, który preferujesz, biorąc pod uwagę wydajność lub koszt.

AI Vision: Ilustracja opisywania obrazów do promptów.

Dlaczego warto opisywać swoje obrazy?

Znajdowanie odpowiednich słów dla swoich obrazów jest łatwe dzięki funkcji AI Vision w Light Image Resizer. Funkcja AI Vision W Light Image Editor analizuje twoje obrazy na poziomie technicznym, aby automatycznie generować opisy. Aplikacja przygotowuje twój obraz (poprzez konwersję do JPEG i zmianę rozmiaru do rozmiaru takiego jak 1024×1024, który jest regulowany) dla wydajnego przetwarzania AI. Ten krok wstępnej analizy pomaga zapewnić szybsze przetwarzanie i może uczynić funkcję bardziej opłacalną. Pozwól, aby AI opisywała, abyś nie musiał tego robić!

Zachód słońca w Wenecji z gondolami i widokiem na Bazylikę.

Pobierz Light Image Editor

Pobierz i zainstaluj Light Image Resizer 7

Znajdź Light Image Editor w zasobniku, załaduj obraz i uruchom w głównym menu – Narzędzia – AI Vision.

Pasek narzędzi z ikoną Light Image Editor

Uzyskaj klucz API

Funkcja sztucznej inteligencji AI Vision jest obecnie dostępna w aplikacji Light Image Editor, która jest dołączona do pakietu instalacyjnego Light Image ResizerTo lokalna aplikacja tylko na Windows. Będziesz potrzebować klucza API, albo dla Google Gemini, albo ChatGPT od OpenAI. Oznacza to, że będziesz płacić w miarę użycia, brak konieczności abonamentu miesięcznego.

Najpierw uzyskaj klucz API dla modeli wizji.

Uzyskaj klucz API dla Google AI Studio (Gemini)

Uzyskaj klucz API od OpenAI (ChatGPT)

Na razie zalecamy używanie Gemini, tańsze i działa dobrze przy opisywaniu obrazów.

Gdy będziesz mieć klucz (i kredyty), możesz wpisać klucz w opcji AI vision w Light Image Resizer dostępnym w tym menu.

Modele wizji LLM działają dobrze w języku angielskim, francuskim, niemieckim i w popularnych językach, co nie dotyczy niektórych innych popularnych modeli wizji. Ollama może być wspierana później, jeśli uznasz to za interesujące, a dużą zaletą jest to, że dane będą w pełni prywatne i lokalne, i nie będziesz obciążany żadnymi żądaniami ani tokenami. Zobacz modele wizji obsługiwane przez Ollama

Jakie rodzaje zadań możesz wykonać?

Oznaczaj swoje zdjęcia, aby znaleźć je za pomocą słów kluczowych. Odgadywanie położenia zdjęcia, gdy nie pamiętasz, gdzie je zrobiłeś. Znajdź inspirację, gdy chcesz opublikować nowy post na Instagramie lub TikToku. To doda ładne ikony, które poprawią Twój marketing.

To wszystko zależy od Twojego polecenia, zobacz kilka przykładów poleceń i jak wpływają na wynik.

Gdy będziesz mieć klucz (i kredyty), możesz wpisać klucz w opcji AI vision w Light Image Resizer dostępnym w tym menu.

Modele wizji LLM działają poprawnie w języku angielskim, francuskim, niemieckim i popularnych językach, czego nie można powiedzieć o niektórych innych popularnych modelach wizji. Ollama może być wspierane później, jeśli uznasz to za interesujące, a dużą zaletą jest to, że dane będą całkowicie prywatne i lokalne, i nie zostaniesz obciążony żadnymi opłatami za żądania ani tokeny. Zobacz modele wizji obsługiwane przez Ollama

Jaka jest różnica między opisaniem obrazu, analizowaniem obrazu a streszczeniem obrazu?

i to może być to samo pytanie o różnicę między obrazem, fotografią a zdjęciem. To w pewnym sensie to samo, ale zależy od tego, co musisz zrobić i kim jesteś. Zobacz kilka możliwych zadań AI Vision:

  • Znajdowanie słów kluczowych dla fotografów
  • OCR i streszczenie dokumentów dla księgowych
  • Automatyczne podpisywanie obrazów
  • Inspiracja i wpływ na posty na Instagramie lub TikToku
  • Identyfikacja marek i celebrytów
  • Moda e-commerce
  • Geoguessing – znajdowanie lokalizacji na podstawie zdjęcia
  • Diagnostyka naukowa, zdrowotna, astronomiczna

Kilka inspiracji promptów do opisywania obrazu

Słowa kluczowe do fotografii

Zwróć bezpośrednio bez komentarza listę 50 słów kluczowych oddzielonych przecinkiem, aby opisać temat, tło, obiekty, lokalizację i nastrój

Kobieta w samochodzie, wielbłądy na pustynnym tle.

Woman, convertible, car, desert, camels, sand, road, travel, tourism, adventure, vacation, stylish, fashion, portrait, outdoors, sunny, wind, hair, red hair, scarf, white car, leather seats, headrest, dry landscape, arid, heat, sunlight, model, posing, confident, relaxed, tourist attraction, horizon, background, faraway, blurred, out of focus, transport, open-top, leisure, wanderlust, modern, trendy, vogue, stylish, elegance, freedom, journey, explorer, remote, scenic, destination, casual, summer, daytime, vacation, escape, adventure, travel, road trip.

OCR Document Summary

Wykonaj szczegółowy OCR dokumentu, a następnie przetłumacz na język angielski i wyjaśnij w podsumowaniu w 200 słowach, czym jest dokument i ważne elementy.

Faktura hotelowa za pokój i usługi.

Ten dokument jest fakturą od “Les Minotiers,” a hotel/lodging (Logis de France) located in Mirepoix, France. The invoice, numbered 43197 and dated February 18, 2014, details the charges for a stay in Room 12. The guest arrived on February 17, 2014, and departed on February 18, 2014. The total amount due is 73.92 Euros. The charges include the room rate (57.00 Euros), tourist tax (0.92 Euros) and breakfast (16.00 Euros). The invoice breaks down the VAT (Value Added Tax) applied at 10% to a portion of the charges. The invoice also mentions an equivalent value of 484.88 in old french currencyFrancs. The company’s contact information, business identifiers, and VAT

Instagram Description

Stwórz opis posta na Instagramie na niedzielę, bądź kreatywny i zabawny, aby uzyskać najlepsze zaangażowanie oraz liczbę polubień lub komentarzy

Mężczyzna stoi przy klasycznym samochodzie pod mostem

Niedzielny nastrój: planowanie mojej kolejnej paryskiej przygody. 🥐 Ten klasyczny samochód + widok na rzekę = 💯. Ale prawdziwe pytanie brzmi… brunch z szampanem czy zwiedzanie muzeów? 🤔 Jaka jest TWOJA idealna niedzielna aktywność? Daj znać w komentarzach! 👇 #ParisianVibes #SundayFunday #ClassicCars #StyleInspo #WeekendGetaway #TravelDreams

Nauka & Edukacja

Jako ekspert, proszę przeanalizuj naukowo to zdjęcie i przygotuj opis składający się z 200 słów. Zaproponuj najlepszą specjalizację naukową do diagnozy rozwiązania.

Zdjęcie rentgenowskie kości ręki i nadgarstka człowieka.

This X-ray image depicts the bones of a human hand and wrist. The carpal bones, metacarpals, and phalanges are all visible. There appears to be a fracture of the proximal phalanx of the fourth digit (ring finger). The fracture appears to be a comminuted fracture, meaning the bone is broken into multiple fragments. There is visible displacement of the fractured bone fragments, indicating the fracture is not stable and may require intervention to ensure proper healing and alignment. No other obvious fractures or dislocations are apparent in the remaining bones of the hand and wrist in this particular projection. The bone density appears normal within the limits of this image.

Fashion & e-commerce

For a ecommerce product page, describe the picture with color, shape, materials, style. 100 words description with marketing impact.

Black dress with fluffy cuffs

Dare to be different in this stunning black dress. Crafted from a soft, body-hugging knit, this piece features a sophisticated turtleneck and a figure-flattering silhouette that falls to a chic midi length. The drama lies in the voluminous, faux-fur cuffs, adding a touch of opulent texture and undeniable edge. Perfect for a night out or a statement-making event, this dress is a modern masterpiece. Effortlessly chic and endlessly versatile, prepare to turn heads wherever you go. Own the room. Own your style.

GeoGuessing

Zgadnij lokalizację obrazu, zacznij od kraju, obszaru, a następnie miasta. Dodaj 50 słów, aby opisać temat. Zakończ procentem oszacowania dokładności.

Łódź na wodzie z odległym widokiem na latarnię morską.

Oto moja analiza obrazu:

  • Kraj: Francja
  • Obszar: Nowa Akwitania
  • Miasto: Cap Ferret

Opis tematu: Mała, jaskrawo pomalowana łódź spokojnie unosi się na wodzie, a jej czerwono-kadłub uderzająco kontrastuje z błękitem. Na pierwszym planie wystają drewniane słupki wystające z wody. Za drzewami widoczna jest latarnia morska Arcachon. W oddali rozciąga się piaszczysta plaża.

Oszacowanie dokładności: 85%s

Jeśli masz jakiś przypadek użytkownika, którym chcesz się z nami podzielić, lub jeśli chcesz uzyskać pomoc dotyczącą tej nowej funkcji wizji AI, daj nam znać!

Kontakt