Funcionalidade de Visão Artificial – Descrever Imagem para Prompt

A Visão Artificial é a funcionalidade para descrever uma imagem e convertê-la num prompt. Isto é feito utilizando um dos modelos de IA populares, como o ChatGPT ou o Gemini. Pode selecionar o modelo que preferir, com base no desempenho ou no custo.

Visão Artificial: Ilustração de descrever imagens para prompts.

Por que descrever as suas imagens?

Encontrar as palavras certas para as suas imagens é fácil com a funcionalidade de Visão Artificial do Light Image Resizer. Funcionalidade de Visão Artificial No Light Image Editor, analisa as suas imagens a nível técnico para gerar descrições automaticamente. A aplicação prepara a sua imagem (convertendo-a para JPEG e redimensionando para um tamanho como 1024×1024, que é ajustável) para um processamento eficiente de IA. Esta etapa de pré-análise ajuda a garantir um processamento mais rápido e pode tornar a funcionalidade mais económica. Deixe a IA fazer a descrição para que você não precise!

Pôr do sol em Veneza com gôndolas e Basílica à vista.

Descarregar Light Image Editor

Descarregar e instalar Light Image Resizer 7

Localize o Light Image Editor no ícone da bandeja, carregue uma imagem e execute no menu principal – Ferramentas – AI Vision.

Barra de ferramentas com o ícone do Light Image Editor

Obter chave API

A funcionalidade de inteligência artificial AI Vision está disponível por enquanto na aplicação Light Image Editor, que vem incluída no pacote de instalação Light Image ResizerÉ uma aplicação local apenas para Windows. Vai precisar de uma chave API, seja para o Google Gemini ou para o ChatGPT da OpenAI. Isto significa que paga conforme o uso, não é necessário uma assinatura mensal.

Primeiro, obtenha a chave API dos modelos de visão.

Obtenha a chave API do Google AI Studio (Gemini)

Obtenha a chave API da OpenAI (ChatGPT)

Por agora, recomendamos usar o Gemini, é mais barato e funciona bem para descrever imagens.

Uma vez que tenha a chave (e créditos), pode inserir a chave na opção de visão AI do Light Image Resizer disponível neste menu.

Os modelos de visão LLM funcionam bem em inglês, francês, alemão e línguas populares, o que não acontece com alguns outros modelos de visão populares. Ollama poderá ser suportado mais tarde se o achar interessante, e a grande vantagem significa que os dados serão totalmente privados e locais, e não será cobrado por quaisquer pedidos ou tokens. Veja os modelos de visão suportados pelo Ollama

Que tipo de tarefas pode realizar?

Anote as suas imagens para as encontrar através de palavras-chave. Adivinhe geograficamente a imagem quando não se lembrar de onde a tirou. Encontre inspiração quando quiser publicar um novo post no Instagram ou TikTok. Irá adicionar alguns ícones agradáveis para melhorar o seu marketing.

Tudo depende do seu prompt, veja alguns exemplos de prompts e como isso impacta o resultado.

Uma vez que tenha a chave (e créditos), pode inserir a chave na opção de visão AI do Light Image Resizer disponível neste menu.

Os modelos de visão LLM funcionam bem em inglês, francês, alemão e outras línguas populares, o que não é o caso de alguns outros modelos de visão populares. O Ollama poderá ser suportado mais tarde se achar interessante, e a grande vantagem é que os dados serão completamente privados e locais, e não será cobrado por qualquer pedido ou tokens. Veja os modelos de visão suportados pelo Ollama

Qual é a diferença entre descrever uma imagem, analisar uma imagem, resumir uma imagem?

e a mesma questão poderia ser feita sobre a diferença entre uma imagem, uma fotografia e uma foto. É ligeiramente a mesma coisa, mas depende do que precisa fazer e de quem você é. Veja algumas tarefas possíveis da Visão de IA:

  • Encontrar palavras-chave para fotógrafos
  • OCR e resumir documentos para contabilistas
  • Gerar legendas automaticamente para imagens
  • Inspiração de conteúdos para Instagram ou TikTok
  • Identificar marcas e celebridades
  • Comércio eletrónico de moda
  • Geolocalização – Encontrar a localização a partir da foto
  • Diagnóstico científico, de saúde ou astronómico

Algumas inspirações de prompts para descrever uma imagem

Palavras-chave para fotografia

Return directly without comment a list of 50 keywords separated by a comma to describe the subject, the background, the objects, location, and mood

Woman in car, camels in desert background.

Mulher, conversível, carro, deserto, camelos, areia, estrada, viagem, turismo, aventura, férias, estiloso, moda, retrato, ao ar livre, ensolarado, vento, cabelo, cabelo vermelho, lenço, carro branco, assentos de couro, encosto de cabeça, paisagem seca, árido, calor, luz solar, modelo, posando, confiante, relaxado, atração turística, horizonte, fundo, longe, borrado, fora de foco, transporte, open-top, lazer, desejo de viajar, moderno, moderno, moda, estilo, elegância, liberdade, viagem, explorador, remoto, cênico, destino, casual, verão, dia, férias, fuga, aventura, viagem, road trip.

OCR Document Summary

Execute um OCR detalhado do documento, depois traduza em inglês e explique em um resumo de 200 palavras o que é o documento e elementos importantes.

Fatura de hotel para quarto e serviços.

Este documento é uma fatura de “Les Minotiers,” a hotel/lodging (Logis de France) located in Mirepoix, France. The invoice, numbered 43197 and dated February 18, 2014, details the charges for a stay in Room 12. The guest arrived on February 17, 2014, and departed on February 18, 2014. The total amount due is 73.92 Euros. The charges include the room rate (57.00 Euros), tourist tax (0.92 Euros) and breakfast (16.00 Euros). The invoice breaks down the VAT (Value Added Tax) applied at 10% to a portion of the charges. The invoice also mentions an equivalent value of 484.88 in old french currencyFrancs”. Informações de contato da empresa, identificadores comerciais e IVA

Descrição do Instagram

Cria uma descrição para um post no Instagram para um domingo, seja criativo e divertido para obter o melhor engajamento e número de gostos ou comentários

Homem em pé junto a um carro vintage debaixo de uma ponte

Mood de domingo: a planear a minha próxima aventura parisiense. 🥐 Este carro clássico + vistas à beira-rio = 💯. Mas a verdadeira questão é… brunch com champanhe ou visita a museus? 🤔 Qual é a tua atividade de domingo ideal? Diz-me nos comentários! 👇 #VibesParisienses #DomingoDivertido #CarrosClássicos #InspiraçãoDeEstilo #FugaDeFimDeSemana #SonhosDeViagem

Ciência & Educação

Como especialista, por favor analisa cientificamente esta imagem e devolve uma descrição de 200 palavras. Sugere a melhor especialidade científica para diagnosticar uma solução.

Raio-X dos ossos da mão e pulso humanos.

This X-ray image depicts the bones of a human hand and wrist. The carpal bones, metacarpals, and phalanges are all visible. There appears to be a fracture of the proximal phalanx of the fourth digit (ring finger). The fracture appears to be a comminuted fracture, meaning the bone is broken into multiple fragments. There is visible displacement of the fractured bone fragments, indicating the fracture is not stable and may require intervention to ensure proper healing and alignment. No other obvious fractures or dislocations are apparent in the remaining bones of the hand and wrist in this particular projection. The bone density appears normal within the limits of this image.

Fashion & e-commerce

For a ecommerce product page, describe the picture with color, shape, materials, style. 100 words description with marketing impact.

Black dress with fluffy cuffs

Dare to be different in this stunning black dress. Crafted from a soft, body-hugging knit, this piece features a sophisticated turtleneck and a figure-flattering silhouette that falls to a chic midi length. The drama lies in the voluminous, faux-fur cuffs, adding a touch of opulent texture and undeniable edge. Perfect for a night out or a statement-making event, this dress is a modern masterpiece. Effortlessly chic and endlessly versatile, prepare to turn heads wherever you go. Own the room. Own your style.

GeoGuessing

Adivinhe a localização da imagem, comece pelo país, região e depois pela cidade. Adicione 50 palavras para descrever o tema. Termine com uma percentagem de estimativa de precisão.

Barco na água com vista para um farol distante.

Aqui está a minha análise da imagem:

  • País: França
  • Região: Nova-Aquitânia
  • Cidade: Cap Ferret

Descrição do Tema: Um pequeno barco pintado de cores vivas flutua calmamente na água, o seu casco vermelho e preto cria um contraste marcante com o azul. Em primeiro plano, há estacas de madeira a sair da água. O farol de Arcachon é visível por detrás das árvores. A praia de areia estende-se ao longe, completando a paisagem pitoresca.

Estimativa de Precisão: 85%

Se tiver algum caso de utilização para partilhar connosco, ou se quiser obter ajuda nesta nova funcionalidade de visão por IA, por favor avise-nos!

Contatos