Google muestra un nuevo modelo de ampliación de imagen capaz de aumentar 16 veces la resolución total de la imagen

Google muestra un nuevo modelo de ampliación de imagen capaz de aumentar 16 veces la resolución total de la imagen
Sin comentarios

No es raro ver que Google apueste fuertemente por el desarrollo de la inteligencia artificial en el mundo de la imagen. La californiana tiene un fuerte desarrollo en procesos neuronales que buscan romper cada vez más los límites de la tecnología. El mundo de la imagen computacional es uno de los campos de mayor interés. Por eso, en esta ocasión la compañía nos muestra adelantos sobre su sistema de súper ampliación de imagen.

Ampliación de imagen única

Como se puede ver en el blog de la compañía, el nuevo sistema neuronal de Google es capaz de reescalar imágenes en aproximadamente 16 veces su resolución original. A diferencia de otros modelos donde puede haber artefactos muy notorios o se produce una imagen casi sin textura, el modelo de Google muestra grandes resultados al escalar la imagen. Este resultado lo obtienen con una nueva variante de análisis basada en modelos de difusión de imagen.

Google 001
Resultados generales del modelo. | Cascaded Diffusion Models for High Fidelity Image Generation / Ho, Jonathan and Saharia, Chitwan and Chan, William and Fleet, David J and Norouzi, Mohammad y Salimans, Tim

Los modelos de difusión de imagen trabajan usando un método destructivo y reconstructivo. La imagen es destruida poco a poco con ruido gaussiano, eliminando la mayor cantidad de detalle. Luego, un algoritmo reconstruye esa información mediante un proceso regenerativo que usa la data destructiva, explica DPReview. Mediante este análisis de destrucción y reconstrucción, el modelo puede identificar y predecir variaciones de información, resultando en una mejor obtención de detalle final.

Para lograr la imagen escalada, el proceso de Google arranca con un sistema dual que usa Refinamiento de imagen repetitiva (SR3) y un Modelo de Difusión en Cascada (CMD). Mientras que el modelo SR3 consigue resultados de ‘super-resolución’ muy completos, cuando se mezcla con los datos procesados con CDM para crear una red de imágenes de alta fidelidad los resultados obtienen un porcentaje de puntaje muy superior al de cualquier otro modelo.

Dentro de los modelos comparendos podemos ver el de Pulse, el cual presentamos en junio del año pasado. Aunque PULSE es uno de los más completos, el proceso de reconstrucción de PULSE no es lo suficientemente acertado en el resultado final de la reinterpretación de la imagen. Sin embargo, donde un algoritmo perfecto recibiría 50% de valor de tasa de confusión (como se mide la efectividad de los algoritmos), el modelo de PULSE llega tan solo a un 33.7 % mientras que el de Google llega a una tasa del 47.4%.

¿Dónde lo veremos aplicado?

Como es de esperar de estos desarrollos, verlos aplicados en un software puede ser tema de días, meses o años. Con el Google Pixel 6 y el nuevo procesador Tensor, la californiana aplicará más elementos basados en inteligencia artificial para el desarrollo óptimo de las imágenes y los procesos de los móviles. Es muy probable que esta tecnología de mejora de imagen sea implementada a nivel comercial para ayudar a los límites de resolución y detalle que pueden procesar los móviles de manera nativa.

Google nos ha mostrado que está trabajando en herramientas de mejora de color, reiluminación de las escenas e incluso conocemos cómo funciona el horquillado inteligente que permite la tecnología HDR+ que se puede usar actualmente en la GCam. Así que no sería raro ver que la compañía se centre en mantener cámaras de menor cantidad de MP pero con mejores capacidades de ampliación de resolución usando algoritmos como los que vemos hoy.

Temas
Inicio