Funcionalidade de Visão Artificial – Descrever Imagem para Prompt
A Visão Artificial é a funcionalidade para descrever uma imagem e convertê-la num prompt. Isto é feito utilizando um dos modelos de IA populares, como o ChatGPT ou o Gemini. Pode selecionar o modelo que preferir, com base no desempenho ou no custo.
Por que descrever as suas imagens?
Encontrar as palavras certas para as suas imagens é fácil com a funcionalidade de Visão Artificial do Light Image Resizer. Funcionalidade de Visão Artificial No Light Image Editor, analisa as suas imagens a nível técnico para gerar descrições automaticamente. A aplicação prepara a sua imagem (convertendo-a para JPEG e redimensionando para um tamanho como 1024×1024, que é ajustável) para um processamento eficiente de IA. Esta etapa de pré-análise ajuda a garantir um processamento mais rápido e pode tornar a funcionalidade mais económica. Deixe a IA fazer a descrição para que você não precise!
Descarregar Light Image Editor
Descarregar e instalar Light Image Resizer 7
Localize o Light Image Editor no ícone da bandeja, carregue uma imagem e execute no menu principal – Ferramentas – AI Vision.
Obter chave API
A funcionalidade de inteligência artificial AI Vision está disponível por enquanto na aplicação Light Image Editor, que vem incluída no pacote de instalação Light Image ResizerÉ uma aplicação local apenas para Windows. Vai precisar de uma chave API, seja para o Google Gemini ou para o ChatGPT da OpenAI. Isto significa que paga conforme o uso, não é necessário uma assinatura mensal.
Primeiro, obtenha a chave API dos modelos de visão.
Obtenha a chave API do Google AI Studio (Gemini)
Obtenha a chave API da OpenAI (ChatGPT)
Por agora, recomendamos usar o Gemini, é mais barato e funciona bem para descrever imagens.
Uma vez que tenha a chave (e créditos), pode inserir a chave na opção de visão AI do Light Image Resizer disponível neste menu.
Os modelos de visão LLM funcionam bem em inglês, francês, alemão e línguas populares, o que não acontece com alguns outros modelos de visão populares. Ollama poderá ser suportado mais tarde se o achar interessante, e a grande vantagem significa que os dados serão totalmente privados e locais, e não será cobrado por quaisquer pedidos ou tokens. Veja os modelos de visão suportados pelo Ollama
Aviso: Para ser 100% local e privado, é necessário usar o Ollama e um modelo local. Para ChatGPT e Gemini, a aplicação redimensiona e envia a imagem para a cloud, mas não guarda qualquer cópia. Se não quiser partilhar as suas fotos ou dados sensíveis (especialmente conteúdo NSFW), não utilize os modelos na cloud, mas sim o Ollama.
Que tipo de tarefas pode realizar?
Anote as suas imagens para as encontrar através de palavras-chave. Adivinhe geograficamente a imagem quando não se lembrar de onde a tirou. Encontre inspiração quando quiser publicar um novo post no Instagram ou TikTok. Irá adicionar alguns ícones agradáveis para melhorar o seu marketing.
Tudo depende do seu prompt, veja alguns exemplos de prompts e como isso impacta o resultado.
Uma vez que tenha a chave (e créditos), pode inserir a chave na opção de visão AI do Light Image Resizer disponível neste menu.
Os modelos de visão LLM funcionam bem em inglês, francês, alemão e outras línguas populares, o que não é o caso de alguns outros modelos de visão populares. O Ollama poderá ser suportado mais tarde se achar interessante, e a grande vantagem é que os dados serão completamente privados e locais, e não será cobrado por qualquer pedido ou tokens. Veja os modelos de visão suportados pelo Ollama
Qual é a diferença entre descrever uma imagem, analisar uma imagem, resumir uma imagem?
e a mesma questão poderia ser feita sobre a diferença entre uma imagem, uma fotografia e uma foto. É ligeiramente a mesma coisa, mas depende do que precisa fazer e de quem você é. Veja algumas tarefas possíveis da Visão de IA:
- Encontrar palavras-chave para fotógrafos
- OCR e resumir documentos para contabilistas
- Gerar legendas automaticamente para imagens
- Inspiração de conteúdos para Instagram ou TikTok
- Identificar marcas e celebridades
- Comércio eletrónico de moda
- Geolocalização – Encontrar a localização a partir da foto
- Diagnóstico científico, de saúde ou astronómico
Algumas inspirações de prompts para descrever uma imagem
Palavras-chave para fotografia
Devolva diretamente, sem comentário, uma lista de 50 palavras-chave separadas por uma vírgula para descrever o sujeito, o fundo, os objetos, a localização e o estado de espírito
Mulher, conversível, carro, deserto, camelos, areia, estrada, viagem, turismo, aventura, férias, estiloso, moda, retrato, ao ar livre, ensolarado, vento, cabelo, cabelo vermelho, lenço, carro branco, assentos de couro, encosto de cabeça, paisagem seca, árido, calor, luz solar, modelo, posando, confiante, relaxado, atração turística, horizonte, fundo, longe, borrado, fora de foco, transporte, open-top, lazer, desejo de viajar, moderno, moderno, moda, estilo, elegância, liberdade, viagem, explorador, remoto, cênico, destino, casual, verão, dia, férias, fuga, aventura, viagem, road trip.
OCR Document Summary
Execute um OCR detalhado do documento, depois traduza em inglês e explique em um resumo de 200 palavras o que é o documento e elementos importantes.
Este documento é uma fatura de “Les Minotiers,” um hotel/alojamento (Logis de France) localizado em Mirepoix, França. A fatura, numerada 43197 e datada de 18 de fevereiro de 2014, detalha os custos de estadia no Quarto 12. O convidado chegou a 17 de fevereiro de 2014 e partiu a 18 de fevereiro de 2014. O montante total devido é de 73,92 euros. Os custos incluem a tarifa do quarto (57,00 euros), o imposto turístico (0,92 euros) e o pequeno-almoço (16,00 euros). A fatura decompõe o IVA (Imposto sobre o Valor Acrescentado) aplicado a 10% numa parte das taxas. A fatura também menciona um valor equivalente de 484,88 na antiga moeda francesa “Francos”. Informações de contato da empresa, identificadores comerciais e IVA
Descrição do Instagram
Cria uma descrição para um post no Instagram para um domingo, seja criativo e divertido para obter o melhor engajamento e número de gostos ou comentários
Mood de domingo: a planear a minha próxima aventura parisiense. 🥐 Este carro clássico + vistas à beira-rio = 💯. Mas a verdadeira questão é… brunch com champanhe ou visita a museus? 🤔 Qual é a tua atividade de domingo ideal? Diz-me nos comentários! 👇 #VibesParisienses #DomingoDivertido #CarrosClássicos #InspiraçãoDeEstilo #FugaDeFimDeSemana #SonhosDeViagem
Ciência & Educação
Como especialista, por favor analisa cientificamente esta imagem e devolve uma descrição de 200 palavras. Sugere a melhor especialidade científica para diagnosticar uma solução.
Esta imagem de raio-X mostra os ossos de uma mão e do pulso humanos. Os ossos do carpo, metacarpos e falanges são todos visíveis. Parece haver uma fratura da falange proximal do quarto dedo (dedo anelar). A fratura parece ser uma fratura conminuta, ou seja, o osso está partido em múltiplos fragmentos. Existe um deslocamento visível dos fragmentos ósseos fracturados, indicando que a fratura não é estável e pode exigir intervenção para garantir a cicatrização e alinhamento adequados. Não são visíveis outras fraturas ou luxações evidentes nos ossos remanescentes da mão e do pulso nesta projeção em particular. A densidade óssea parece normal dentro dos limites desta imagem.
Moda & Comércio eletrónico
Para uma página de produto de comércio eletrónico, descreva a imagem com cor, forma, materiais e estilo. Descrição de 100 palavras com impacto de marketing.
Ousa ser diferente neste deslumbrante vestido preto. Feita a partir de uma malha macia e justa, esta peça apresenta uma gola alta sofisticada e uma silhueta que valoriza a figura e cai até um comprimento midi elegante. O drama reside nos volumosos punhos de pele sintética, que acrescentam um toque de textura opulenta e um toque inegável de aresta. Perfeito para uma saída à noite ou um evento de destaque, este vestido é uma obra-prima moderna. Naturalmente chique e infinitamente versátil, prepare-se para chamar a atenção onde quer que vá. É dono do quarto. Assume o teu estilo.
GeoAdivinhação
Adivinhe a localização da imagem, comece pelo país, região e depois pela cidade. Adicione 50 palavras para descrever o tema. Termine com uma percentagem de estimativa de precisão.
Aqui está a minha análise da imagem:
- País: França
- Região: Nova-Aquitânia
- Cidade: Cap Ferret
Descrição do Tema: Um pequeno barco pintado de cores vivas flutua calmamente na água, o seu casco vermelho e preto cria um contraste marcante com o azul. Em primeiro plano, há estacas de madeira a sair da água. O farol de Arcachon é visível por detrás das árvores. A praia de areia estende-se ao longe, completando a paisagem pitoresca.
Estimativa de Precisão: 85%
Se tiver algum caso de utilização para partilhar connosco, ou se quiser obter ajuda nesta nova funcionalidade de visão por IA, por favor avise-nos!
