Función de Visión por IA – Describir Imagen a Texto
La visión por IA es la función para describir una imagen y convertirla en un texto. Se realiza utilizando uno de los modelos de IA populares como ChatGPT o Gemini. Puedes seleccionar el modelo que prefieras, según el rendimiento o el costo.
¿Por qué describir tus imágenes?
Encontrar las palabras adecuadas para tus imágenes es fácil con la función de Visión por IA de Light Image Resizer. Función de Visión por IA En Light Image Editor. Analiza tus imágenes a nivel técnico para generar descripciones automáticamente. La aplicación prepara tu imagen (convirtiéndola a JPEG y ajustando el tamaño a algo como 1024×1024, que es ajustable) para un procesamiento eficiente de IA. Este paso de preanálisis ayuda a asegurar un procesamiento más rápido y puede hacer que la función sea más rentable. ¡Deja que la IA haga la descripción para que tú no tengas que hacerlo!
Descargar Light Image Editor
Descargar e instalar Redimensionador de imagen ligera 7
Ubica Light Image Editor en el icono de la bandeja, carga una imagen y ejecútalo desde el menú principal – Herramientas – IA Vision.
Obtener clave API
La función de inteligencia artificial AI Vision está disponible por ahora en la aplicación Light Image Editor, que viene incluida en el paquete de instalación de Light Image Resizer. Es una aplicación local solo para Windows. Necesitará una clave API , ya sea para Google Gemini o ChatGPT de OpenAI. Significa que pagarás sobre la marcha, sin necesidad de una suscripción mensual.
Primero, obtén la clave API de los modelos de visión
Obtén la clave API para Google AI Studio (Gemini)
Obtén la clave API de OpenAI (ChatGPT)
Por ahora, recomendamos usar Gemini, más barato y funciona bien para describir imágenes.
Una vez que tengas la clave (y los créditos), puede ingresar la clave en la opción de visión Light Image Resizer AI disponible en este menú.
Los modelos de visión LLM funcionan bien en inglés, francés, alemán y otros idiomas populares, lo que no ocurre con algunos otros modelos de visión populares. Ollama podría ser compatible más adelante si te resulta interesante, y la gran ventaja es que los datos serán completamente privados y locales, y no se te cobrará por ninguna solicitud ni tokens. Consulta los modelos de visión compatibles con Ollama
Aviso: Para ser totalmente 100% local y privado, necesitas usar Ollama y un modelo local. Para ChatGPT y Gemini, la aplicación redimensiona y envía la imagen a la nube pero no almacena ninguna copia. Si no quieres compartir tus fotos o datos sensibles (especialmente contenido NSFW), no uses los modelos en la nube, sino Ollama.
¿Qué tipo de tareas puedes completar?
Annotate your images to find them by keywords. Geoguessing the picture when you don’t remember where you took them. Find inspiration when you want to publish a new Instagram or TikTok post. It will add some nice icons to make your marketing better.
It all depends on your prompt, see a few samples of prompts and how it impacts the result.
Una vez que tengas la clave (y los créditos), puede ingresar la clave en la opción de visión Light Image Resizer AI disponible en este menú.
The LLM vision models work fine in English, French, German, and popular languages, which is not the case of some other popular vision models. Ollama could be supported later if you find it interesting, and the big advantage is that the data will be completely private and local, and you won’t be charged for any requests and tokens. Consulta los modelos de visión compatibles con Ollama
¿Cuál es la diferencia entre describir una imagen, analizar una imagen y resumir una imagen?
Y podría ser la misma pregunta sobre la diferencia entre una imagen, una fotografía y una foto. Es algo similar, pero depende de lo que necesites hacer y de quién seas. Mira algunas tareas posibles de Visión Artificial:
- Encontrar palabras clave para fotógrafos
- OCR y resumir documentos para contadores
- Subtitular imágenes automáticamente
- Inspiración para publicaciones en Instagram o TikTok
- Identificar marcas y celebridades
- Comercio electrónico de moda
- Geoconocimiento – Encontrar la ubicación a partir de la foto
- Diagnóstico científico, de salud, astronomía
Algunas ideas de prompts para describir una imagen
Palabras clave para fotografía
Return directly without comment a list of 50 keywords separated by a comma to describe the subject, the background, the objects, location, and mood
Mujer, convertible, coche, desierto, camellos, arena, carretera, viajar, turismo, aventura, vacaciones, elegante, moda, retrato, al aire libre, soleado, viento, cabello, pelo rojo, bufanda, coche blanco, asientos de cuero, reposacabezas, paisaje seco, árido, calor, luz del sol, modelo, posando, confiado, relajado, atracción turística, horizonte, fondo, lejano, borroso, desenfocado, transporte, desenfocado, ocio, pasión por los viajes, moderno, de moda, moda, elegante, elegancia, libertad, viaje, explorador, remoto, pintoresco, destino, casual, verano, diurno, vacaciones, escape, aventura, viajes, viaje por carretera.
Resumen de documentos de la OCR
Realice un OCR detallado del documento, luego traduzca al inglés y explique en un resumen de 200 palabras qué es el documento y sus elementos importantes.
Este documento es una factura de “Les Minotiers,” un hotel/alojamiento (Logis de France) ubicado en Mirepoix, Francia. La factura, numerada 43197 y fechada el 18 de febrero de 2014, detalla los cargos por una estadía en la habitación 12. El huésped llegó el 17 de febrero de 2014 y partió el 18 de febrero de 2014. El importe total adeudado es de 73,92 euros. Los cargos incluyen el precio de la habitación (57,00 euros), la tasa turística (0,92 euros) y el desayuno (16,00 euros). La factura desglosa el IVA (Impuesto sobre el Valor Añadido) aplicado al 10% a una parte de los cargos. La factura también menciona un valor equivalente de 484,88 en moneda francesa antigua “Francos”. La información de contacto de la empresa, los identificadores comerciales y el IVA
Descripción de Instagram
Crea una descripción para una publicación de Instagram para un domingo, sé creativo y divertido para obtener la mejor interacción y número de 'me gusta' o comentarios
Estado de ánimo dominical: tramando mi próxima aventura parisina. 🥐 Este coche clásico + vistas junto al río = 💯. Pero la verdadera pregunta es… ¿brunch con champán o recorrido por museos? 🤔 ¿Cuál es tu actividad ideal de domingo? ¡Cuéntamelo en los comentarios! 👇 #ParisianVibes #SundayFunday #ClassicCars #StyleInspo #WeekendGetaway #TravelDreams
Ciencia & Educación
Como experto, analiza científicamente esta imagen y devuelve una descripción de 200 palabras. Sugiere la especialidad científica más adecuada para diagnosticar una solución.
This X-ray image depicts the bones of a human hand and wrist. The carpal bones, metacarpals, and phalanges are all visible. There appears to be a fracture of the proximal phalanx of the fourth digit (ring finger). The fracture appears to be a comminuted fracture, meaning the bone is broken into multiple fragments. There is visible displacement of the fractured bone fragments, indicating the fracture is not stable and may require intervention to ensure proper healing and alignment. No other obvious fractures or dislocations are apparent in the remaining bones of the hand and wrist in this particular projection. The bone density appears normal within the limits of this image.
Fashion & e-commerce
For a ecommerce product page, describe the picture with color, shape, materials, style. 100 words description with marketing impact.
Dare to be different in this stunning black dress. Crafted from a soft, body-hugging knit, this piece features a sophisticated turtleneck and a figure-flattering silhouette that falls to a chic midi length. The drama lies in the voluminous, faux-fur cuffs, adding a touch of opulent texture and undeniable edge. Perfect for a night out or a statement-making event, this dress is a modern masterpiece. Effortlessly chic and endlessly versatile, prepare to turn heads wherever you go. Own the room. Own your style.
GeoGuessing
Adivina la ubicación de la imagen, comienza con el país, luego la región y finalmente la ciudad. Agrega 50 palabras para describir el sujeto. Termina con un porcentaje de estimación de precisión.
Aquí está mi análisis de la imagen:
- País: Francia
- Región: Nueva Aquitania
- Ciudad: Cap Ferret
Descripción del sujeto: Un pequeño bote pintado con colores brillantes flota tranquilamente sobre el agua, su casco rojo y negro crea un contraste llamativo con el azul. En primer plano se observan postes de madera que sobresalen del agua. El faro de Arcachon se ve detrás de los árboles. La playa de arena se extiende a lo lejos.
Estimación de precisión: 85%
Si tienes algún caso de uso que desees compartir con nosotros, o si quieres recibir ayuda sobre esta nueva función de visión AI, ¡por favor háznoslo saber!
