Compresión extrema de imágenes
Un uso genial de la IA
Dentro de lo que es mi obsesión por optimizar las cosas, mientras veía un video que comparaba los distintos algoritmos de compresión de imágenes, me quedé pensando en la tremenda diferencia que puede hacer utilizar un algoritmo que, haciendo algunos sacrificios bastante modestos de lo que puede ser la calidad de la imagen o la fidelidad respecto a la imagen original, logra reducir su tamaño de forma drástica.
Y pensé, ¿cuál será la versión más extrema de sacrificio de fidelidad a la imagen original que aún así permita reconocer la imagen original? Con lo que empecé a delirar con algoritmos que de alguna forma omitan ciertos detalles si es que considera que, según la calidad de la imagen, no son visibles al ojo humano, o cosas así, porque al final, si el cielo de la imagen que se está tomando tiene una gradiente de distinta proporción o magnitud, pero transmite la misma información al ojo humano, se podría considerar (en términos estrictamente prácticos) la misma imagen, ¿no?
Cuando se quiere resolver cualquier problema en computación en 2026, para bien o para mal, tarde o temprano se llega a la IA, y aunque me quedé un buen rato pegado en formas más tradicionales de hacer esto, en el momento que la IA pasó por mi cabeza todo se hizo extremadamente claro.
Primera iteración
Y es que los algoritmos de IA hacen ya literalmente eso. Recuerdo la primera vez que vi la explicación de cómo funcionaban los deep fakes, en lo que parece una metodología muy similar. Se entrena un modelo con la cara de una persona, y este tiene que reducir la imagen a un vector que nadie puede explicar qué considera y qué no de la cara, y luego el mismo modelo tiene que redibujar la cara a partir de ese vector. El cómo este algoritmo servía para hacer deep fakes creo que es harina de otro costal, lo importante es que si consideramos que a partir de ese vector, con ese modelo, se podría reconstruir la cara, y de que ese vector pesaba evidentemente menos, y muy probablemente bastante, bastante menos, es completamente razonable catalogar el vector resultante como una versión de la imagen comprimida, ¿no?
Segunda iteración
Luego pensé, acá lo importante es engañar al ojo humano antes que a una función de similitud que probablemente usaba el algoritmo de los deep fakes, por lo que con la recolección de respuestas humanas sobre si dos imágenes son iguales o no, se podría llegar muy lejos en la compresión de lo que sí o lo que no importa cuando apreciamos una foto. Al final esto está hecho solo como compresión en caso de imágenes que queremos guardar con el mero fin de verlas y apreciarlas, nada más.
Reinventando la rueda
Luego de llegar a estas conclusiones pensé “sí o sí esta wea se le ocurrió a otro weón”, y efectivamente, no me tomó mucho toparme con un video en YouTube que no solo comparte casi la misma idea, sino que explica por qué funciona, pone ejemplos, el weón que explica está más rico que yo, y pone en evidencia que esta aventura está ya más que explorada. De todas formas me pareció un tema muy interesante, lo suficientemente interesante como para compartirlo con ustedes e invitar a la reflexión sobre… alguna cosa supongo.
La lección
Es que un chino siempre lo hizo primero. Me pregunto si programando lograré mis ambiciosas metas, o me tendré que volver vtuber, diputado, o algo por el estilo.