Descubre el poder la inteligencia artificial text-to-image a través de Stable Diffusion, una de las herramientas más conocidas del momento. Este es un proyecto open source y gratuito donde cada uno puede generar imágenes de lo que se nos ocurra. En esta publicación te explicaré qué es y generar tu primera imagen.

La importancia de la inteligencia artificial text-to-image

Ya llevo un par de semanas trabajando con la tecnología text-to-image, practicamente esta tipo de inteligencia artificial permite generar imágenes a través una frase textual. Podemos escribir lo que se nos ocurra, combinando estilos, procesos, enfoques, características. Todo esto para lograr una imagen única. 
Para conseguir esto, se entrena una red neuronal que procesa una base de millones imágenes etiquetadas por su descripción, para que de esa forma se pueda combinar atributos cuando escribamos un texto determinado. Combina una serie de ejemplos dentro de esta experiencia.

¿Qué es Stable Diffusion?

Dentro del conjunto de plataformas text-to-image está destacando una. Tanto por su versatilidad, calidad de resultado y por ser open source. Me refiero a Stable Diffusion que a diferencia de otras, podemos generar imágenes de manera gratuita y sin inscribirnos a una lista de espera como Dall-e.     

La otra ventaja de de Stable Diffusion es que es de código abierto por lo que cualquier usuario puede tomarlo, desarrollar una variante y generar una experiencia alternativa, por ejemplo ya lo estamos viendo como plugin dentro de Photoshop y por supuesto están conectando otras tecnologías para lograr resultados más potentes (img2img, Web UI, etc)

Además, se ha convertido en un eje tan relevante para el mundo de la inteligencia artificial que otras plataformas similares como Midjourney la están incorporando para lograr resultados más realistas. Ahora pasemos a crear tu primera imagen.

Instalación de Stable Diffusion – Tutorial Google Colab

  • Primero entramos el Github oficial de Stable Diffusion, lee toda la información para que entiendas mejor.
  • Luego entramos a la cuenta de Google Colab del proyecto. Por cierto, Google Colab es una plataforma que permite a cualquier usuario escribir y ejecutar código de Python en el navegador. Está especialmente adecuado para tareas de aprendizaje automático, análisis de datos y educación. 
  • Copiamos el archivo y lo guardamos en nuestro drive. Este archivo o cuaderno tiene una serie de instrucciones que te permitirán entender cada paso.
  • Revisemos la primera instrucción: SETUP. Le daremos clic al ícono play. Nos saldrá una advertencia que este trabajo requerirá mucha RAM. Realizaremos todos los pasos siguientes.
  • Cuando lleguemos a «Notebook login«, nos pedirán que nos conectemos con nuestra cuenta de Hugging face. Esta página se ha convertido en el depósito central de modelos de aprendizaje automático listos para usar, por eso se ha vuelto tan popular ya que empresas Google o Microsoft la han utilizado.
  • Le hacemos clic al link del cuaderno y nos llevará a loguearnos a Hugging face. Si no tienes cuenta, no te preocupes, creas una, tiene un nivel gratuito que es potente. 
  • Cuando hayas creado tu cuenta dirígete a nuestro Profile, luego clic a editar y entramos «Access token«, creas una.
  • Pegaremos la nueva información en el apartado “token” del cuaderno.
  • Es recomendable entrar al link de stable diffusion y aceptar sus términos y condiciones. De esta manera nos comprometemos a no generar imágenes de contenido adulto o que esté en contra de la licencia de uso.
  • Llegaremos por fin a escribir nuestro primer prompt. Escribimos nuestras ideas y ¡listo!

Este es el resultado

Instala Stable Diffusion en tu computadora (máquina local)

Existen por el momento existen 3 conocidos GUIs (Graphical user interface):

Stable Diffusion Webui: Esta es una interfaz que estará alojada en el navegador pero que corre gracias a la potencia de nuestro computador. Esta es quizá la más completa pues a parte de tener text-to-image, tiene img2img, textual inversion, inpaint y mucho más. El creador es AUTOMATIC1111.

Stable Diffusion GRisk: También es potente y requiere una instalación más compleja pues se debe instalar archivos python y otras herramientas. Su página web siempre está mostrando actualizaciones

NMKD Stable Diffusion GUI: El proceso es super fácil. Entramos a la página web y hacemos clic a instalación. Recuerda que esta herramienta va utilizar el poder de tu computadora, por eso necesitamos un nivel decente de potencia. Revisa sus especificaciones. Con esta tecnología también podemos trabajar completamente sin censura y sin filtrar, así que pórtate bien.

Proyectos relacionados a Stable Diffusion

Existen importante contribuciones a este proyecto Open Source que permite generar experiencias únicas y por supuesto combinar resultados. Te mostraré lamejores:

Deforum Stable Diffusion

Quizá sea una de las experiencias más potentes y atractivas que existe pues Deforum nos permitirá generar videos a través de prompts (text-to-video) de manera potente y efectiva. Varios de los ejemplos que ves en twitter sobre cómo se crean historias que van evolucionando fueron hechas a través de Deforum. Utiliza su google colab Stable Diffusion – Deforum

Tenemos por el momentos 2 tutoriales de cómo usar Deforum Stable Diffusion: Este es el tutorial inicial. Debes seguir este sí o sí para continuar los demás proyectos.

Con este segundo tutorial puedes aprender a utilizar correctamente el modo de animación «video input».

Con este tercer tutorial podrás crear correctamente el modo interpolación para generar animaciones potentes y asombrosas. Sinceramente creo que este modo es una de las más relevantes para crear experiencias de realidad aumentada y de realidad virtual.

Stable DreamFusion

Este es quizá una de las experiencias «nuevas» que existe pues es la fusión de dos proyectos, primero tenemos el proyecto Dreamfusion que genera objetos 3D a través de texto ( una tecnología que recién está empezando a crecer) y luego tenemos a Stable Diffusion que será el puente para utilizar los textos y convertirlos en 3D. Aquí el Google Colab

Stable Diffusion DreamBooth

Una fusión interesante entre Dreambooth, el proyecto que utiliza / entrena un conjunto de fotos para tomarlas como referencia de próximos prompts compuestos, por ejemplo: subes tus fotos con el nombre «emiliusvgs», dreambooth las entrena y las convierte en un archivo que puede ser usado para generar tex-to-image. Ahora tu puedes escribir tu prompt: «emiliusvgs wearing a hat». Utiliza su Google Colab

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.