Google introducerede det neurale netværk Imagen
Miscellanea / / May 24, 2022
Og den gør det mindst lige så godt som DALL-E 2.
Google annonceret Imagen er et neuralt netværk, der konverterer en tekstforespørgsel til billeder. Det er en direkte konkurrent DALL-E2 fra OpenAI - som fungerer endnu bedre i nogle scenarier.
For at genkende en tekstforespørgsel bruger det neurale netværk store sprogmodeller - naturlig talebehandlingsalgoritmer som GPT-3 er også baseret på dem.
Systemet fungerer i tre trin. Den første tegner et lille billede på 64 x 64 pixel, som forfines, indtil det neurale netværk kan ændre det, så det bedre matcher den oprindelige anmodning. Billedet skaleres derefter op til 256 x 256 pixels, og Imagen forfiner detaljerne. På den tredje fase gentages det samme allerede med lærredet af den endelige størrelse - 1024 x 1024 pixels.
Teksten til undersøgelsen bemærker, at Imagen klarer at forstå komplekse forespørgsler bedre end DALL-E 2. For eksempel, for forespørgslen "Panda laver latte art", returnerede DALL-E 2 udelukkende latte art med pandaer, mens Googles neurale netværk formåede at producere for det meste korrekte resultater:
Men Google indrømmer også, at ingen af disse neurale netværk kunne håndtere forespørgslen "hesteridende astronaut": begge satte stædigt astronauten på hesten og ikke omvendt. Begge har åbenbart plads til at vokse.
Uafhængige seerevalueringsresultater viser, at Imagen overgår DALL-E 2 med hensyn til nøjagtighed og relevans. Og selvom denne sammenligning kan betragtes som subjektiv, er sådanne resultater stadig imponerende, givet det DALL-E 2 har hidtil været et uopnåeligt ideal, som andre neurale netværk af lignende art ikke kunne matche. bestemmelsessted.
Under alle omstændigheder forbliver Imagen et eksperimentelt projekt indtil videre, som almindelige brugere ikke kan få adgang til. Det er ikke klart, hvor lang tid der vil gå, før Google opretter en open access-tjeneste baseret på det.
Læs også🧐
- Nyt neuralt netværk Paint Transformer forvandler et foto til et maleriobjekt
- Fremtidens polaroid: NVIDIAs nye neurale netværk gør 2D-billeder til 3D-modeller
- Sber lancerede det neurale netværk ruDALL-E, som genererer billeder i henhold til beskrivelsen
Ugens bedste tilbud: rabatter fra AliExpress, Lamoda, Mixit og andre butikker