Que es VQGAN+CLIP y la Inteligencia Artificial.

in #votame2 years ago
Authored by @Criptocrunch

En este tutorial, le mostraré cómo utilizar la tecnología de generación de imágenes de IA de última generación (VQGAN y CLIP) para crear obras de arte únicas, interesantes y, en muchos casos, alucinantes. No se requieren conocimientos técnicos.
imágenes creadas por criptocrunch.
unas imágenes sobre volcanes echas con este sistema.

volcanes-01.png

volcanes-02.png

volcanes-03.png

volcanes-04.png

volcanes-05.png

volcanes-06.png

volcanes-07.png

volcanes-08.png

volcanes-09.png

volcanes-10.png
Te mostraré dos formas de usar la tecnología. La primera es usar Google Colab, un entorno de programación en línea (no es tan aterrador como parece, no es necesario que sepas código), y la segunda es usar una aplicación llamada NightCafe Creator (descargo de responsabilidad, creé la aplicación) , que es más rápido y más fácil que Google Colab, pero eventualmente requiere pago por uso prolongado. No te preocupes, no tendrás que pagar nada para completar el tutorial.
imágenes sobre una ciudad ciberpunk de criptocrunch.

cibercity.png

cibercity-01.png

cibercity-02.png

cibercity-03.png

cibercity-04.png

cibercity-05.png

cibercity-06.png

Primero, una introducción a VQGAN y CLIP

Siéntete libre de saltar directamente al método 1 o 2 si solo estás aquí para el tutorial.
VQGAN y CLIP son en realidad dos algoritmos de aprendizaje automático separados que se pueden usar juntos para generar imágenes basadas en un mensaje de texto. VQGAN es una red neuronal antagónica generativa que es buena para generar imágenes que se parecen a otras (pero no a partir de un mensaje), y CLIP es otra red neuronal que puede determinar qué tan bien un título (o mensaje) coincide con una imagen.
Los dos algoritmos fueron combinados en varias formas por entusiastas del arte generado por IA como Ryan Murdock y Katherine Crowson . Las implementaciones de VQGAN+CLIP se hicieron públicas en Google Colab, lo que significa que cualquiera podía ejecutar su código para generar su propio arte. Esto pronto resultó en una explosión viral de personas que usaban esta técnica para crear obras de arte increíbles y compartirlas en plataformas como Twitter y Reddit.
Siga leyendo para descubrir cómo hacerlo usted mismo... ¡Recuerde, no se requiere codificación!
imagen del archivo de criptocrunch.

piedra-espacial.png

Método 1. VQGAN+CLIP en Google Colab
Nota: Google Colab está diseñado principalmente para acceder desde una computadora. Si está en su teléfono, probablemente debería pasar al Método 2. NightCafe Creator.
Si en algún momento siente que Colab es demasiado complicado, salte directamente al Método 2. NightCafe Creator.
Google Colaboratory (generalmente conocido como Colab) es un entorno de programación basado en la nube que le permite ejecutar código Python en servidores que tienen acceso a GPU (procesadores rápidos creados originalmente para gráficos). La última parte es importante porque VQGAN+CLIP (y el aprendizaje automático en general) requiere mucha potencia de procesamiento. Tanto es así que no es práctico ejecutarlo en una CPU.
Cuando Katherine Crowson combinó por primera vez VQGAN y CLIP, lo hizo público en un cuaderno de Google Colab (un cuaderno es el nombre de un programa escrito en Colab) para que cualquiera pudiera usarlo. Su implementación original se ha copiado y modificado muchas veces desde entonces, por lo que hay muchas versiones diferentes que puede usar. Aquí hay una lista compilada por el usuario de Reddit u/Wiskkey. Para este tutorial, usaremos esta versión (adelante, ábrala en una nueva pestaña).
Será útil que entiendas un poco cómo funciona Google Colab en general. Recuerde, Colab es un entorno de programación en línea de propósito general, no está hecho específicamente para hacer arte de IA, por lo que hay algunas cosas que pueden parecer innecesarias, y la interfaz es un poco confusa para los recién llegados.
Los cuadernos de Colab se componen de "células". Cada celda ejecuta un bloque de código y puede tener una descripción de texto. Una vez que el programador ha escrito el código, puede ocultarlo y solo mostrar la descripción de texto de lo que hace la celda. Puede ejecutar el código en una celda haciendo clic en el icono "Reproducir".

VQGAN.PNG
Asi es el la pantalla grafica de VQGAN+CLIP.
Entonces, la forma en que ejecuta un cuaderno de Colab es ejecutando cada celda (es decir, haciendo clic en reproducir) una tras otra. El cuaderno que estamos usando tiene 9 celdas. Siga las instrucciones a continuación para completar su primera ejecución. Cada instrucción es para una sola celda, por lo que hay 9 instrucciones.
La licencia. Esta celda no hace nada, y en realidad no tienes que ejecutarla.
Una celda de código con un solo comando: !nvidia-smi. Ejecutar esta celda solo le brinda información sobre la GPU que Colab le ha asignado. Puedes saltarte esto si quieres.
Una celda de código que comienza con . Esta celda descarga e instala algunos paquetes de código externo (como CLIP y el código VQGAN) de los que dependen el resto de celdas. Tienes que ejecutar este, pero solo una vez por sesión. Esta celda tardará un tiempo en ejecutarse porque está descargando una gran cantidad de código.!git clone https://github.com/openai/CLIP
Una celda de texto con información sobre los "modelos" (diferentes versiones de la IA entrenadas en diferentes conjuntos de datos) que puede descargar. No puede ejecutar esta celda, pero debe leerla.
Selección de modelos para descargar : esta celda le permite elegir qué modelos descargar seleccionando las casillas de verificación y luego haciendo clic en el botón Reproducir. Debe ejecutar esta celda, pero solo una vez por sesión , a menos que desee probar un modelo diferente. Recomiendo simplemente marcar la casilla "imagenet_16384" y luego hacer clic en Reproducir. Este tomará un tiempo, porque está descargando un archivo bastante grande.
Cargar bibliotecas y variables : esta celda solo ejecuta código en segundo plano. Ejecútelo y continúe.
Configuraciones para esta ejecución : esta es importante. Aquí es donde puede especificar su mensaje de texto y algunas otras variables antes de realizar la ejecución real. Para su primer intento, le recomiendo simplemente configurar un mensaje de texto, configurar el ancho y la altura en 400 y max_iterations en 300 : esta configuración le dará un resultado bastante bueno en un tiempo relativamente corto . También asegúrese de elegir el modelo vqgan_imagenet_f16_16384 , que es el que descargó en el paso 5. Si desea probar un modelo diferente más adelante, deberá elegirlo en el paso 5 y ejecutar esa celda nuevamente primero para descargarlo. Deje el resto de las opciones en su valor predeterminado por ahora.
Realice la ejecución : esta es la celda que ejecuta VQGAN+CLIP con los parámetros elegidos. Imprimirá cierta información a medida que avanza. Ejecutará el algoritmo para el número max_iterationsque especificó en el paso 7 y mostrará una "imagen de progreso" cada 50 iteraciones (o lo que especifique images_intervalen el paso 7). Tomará un tiempo para que esto se ejecute, ya que requiere mucha potencia de cálculo. Cuando haya terminado, simplemente se detendrá y la última imagen que se muestra es su imagen generada. Tenga en cuenta que puede desplazarse hacia arriba y hacia abajo dentro de esta celda para ver todas las imágenes.
Genere un video con el resultado : este es un paso opcional que puede ejecutar después de que se haya generado su imagen. Creará un video a partir de todas las imágenes de progreso generadas en el proceso de generar su imagen final.
Algunas cosas más para saber
Después de ejecutar todas las celdas una vez, para crear algo nuevo, solo necesitará ejecutar las celdas 7 y 8 nuevamente (y 9 si desea un video). Sin embargo, si desea intentar seleccionar un modelo diferente en la celda 7, primero deberá marcar la casilla correspondiente en la celda 5 y luego ejecutar esa celda nuevamente.
El cuaderno le permite (opcionalmente) usar imágenes de "inicio" y "objetivo". Una imagen de inicio inicializará el algoritmo con su imagen (en lugar de píxeles aleatorios) y una imagen de destino actuará como otro indicador en forma de imagen, dirigiendo el algoritmo hacia una salida que se parece al objetivo. Para usar las imágenes de inicio y de destino en la celda 7, primero debe hacer clic en la pestaña "archivos" (icono de carpeta) en la barra lateral izquierda y luego en el icono "cargar en almacenamiento de sesión". Puede cargar una imagen aquí y luego ingresar su nombre de archivo en los parámetros "imagen de inicio" o "imágenes de destino" en la celda 7.
En esta URL podrás acceder al sistema de colab espero que lo disfruten como lo estoy disfrutando yo.
https://colab.research.google.com/drive/1go6YwMFe5MX6XM9tv-cnQiSTU50N9EeT#scrollTo=g7EDme5RYCrt
la segunda forma ya la abarcare en otra publicación ya que yo uso solo VQGAN+CLIP.
subí el video que cree de los volcanes.


creado por criptocrunch.