MGIE, som står för MLLM-Guided Image Editing, utnyttjar något som kallas multimodala stora språkmodeller (MLLM) för att tolka användarkommandon och sedan redigera på pixelnivå. Resultatet av ett samarbete mellan Apple och University of California, detta skriver Venture Beat.
MGIE bygger på idén att använda MLLMs, som är kraftfulla AI-modeller som kan bearbeta både text och bilder, för att förbättra instruktionsbaserad bildredigering.
MGIE integrerar MLLMs i bildredigering på två sätt: För det första använder den MLLMs för att härleda verbala instruktioner som användarinmatning. Till exempel kan röstkommandot “gör himlen mer blå” betyda “öka mättnaden av himmelregionen med 20 procent.” MGIE klarar flera typer av redigering, allt från enkla färgjusteringar till komplexa objektmanipulationer.
MGIE kan utföra vanliga redigeringar i Photoshop-stil, som att beskära, ändra storlek, rotera och lägga till filter. Modellen kan också tillämpa mer avancerade redigeringar, som att ändra bakgrunden, lägga till eller ta bort objekt och blanda bilder.
MGIE finns tillgängligt som öppen källkod på Github. Du kan också prova MGIE online på Hugging Face Spaces.