Apple lanza un modelo de inteligencia artificial que puede editar fotografías basándose en comandos de texto

manzana No es uno de los mejores jugadores en el juego de la IA hoy en día, pero el nuevo modelo de IA de código abierto de la compañía para la edición de fotografías muestra lo que puede aportar al campo. El modelo se llama edición de imágenes guiada por MLLM (MGIE), que utiliza modelos de lenguaje grande multimodal (MLLM) para interpretar comandos basados ​​en texto al procesar imágenes. En otras palabras, la herramienta tiene la capacidad de editar imágenes en función del texto que escribe el usuario. Aunque no es la primera herramienta que puede hacer esto, «las instrucciones humanas a veces son demasiado breves para que los métodos existentes las capturen y sigan». Ficha del proyecto (PDF) Leer.

La empresa desarrolló MGIE con investigadores de la Universidad de California en Santa Bárbara. Los MLLM tienen la capacidad de convertir indicaciones de texto simples o ambiguas en instrucciones más detalladas y claras que el propio editor de imágenes puede seguir. Por ejemplo, si un usuario quisiera editar una imagen de una pizza de pepperoni para «hacerla más saludable», los MLLM podrían interpretarlo como «agregar aderezos vegetales» y editar la imagen como tal.

Imágenes de pizza, guepardos, computadoras y personas.

Imágenes de pizza, guepardos, computadoras y personas. (manzana)

Además de realizar cambios significativos en las imágenes, MGIE también puede recortar, cambiar el tamaño y rotar imágenes, así como mejorar su brillo, contraste y equilibrio de color, todo a través de indicaciones de texto. También puede modificar áreas específicas de la imagen, pudiendo, por ejemplo, modificar el cabello, los ojos y la ropa de la persona que aparece en ella, o eliminar objetos del fondo.

READ  Informe de acuerdo australiano: Nintendo Switch Sports

como venturebeat Notas, Apple lanzó el modelo a través de githubpero los interesados ​​también pueden probar un experimental Que actualmente está alojado en Hugging Face Spaces. Apple aún no ha dejado claro si planea utilizar lo aprendido en este proyecto en una herramienta o característica que podría integrar en cualquiera de sus productos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *