stMind

about Tech, Computer vision and Machine learning

DALL-E 2, Imagen, Parti

テキストから画像を生成するモデルが話題ですが、代表的なモデルであるDALL-E2とImagen、Partiのアーキテクチャを比較しているTwitterのスレッドを紹介。

以下は、アーキテクチャの構成ブロックの簡単な比較を表にまとめたもの。

DALL-E2 Imagen Parti
Text Encoder CLIP T5-XXL Transformer Encoder
Text Embeddings to Image (64x64 or 256x256) Diffusion Model x 2 (Prior + Decoder) Diffusion Model Transformer Decoder + ViT-VQGAN
Upsample the Image (256x256->1024x1024) Diffusion Model x 2 Diffusion Model x 2 Convolution

それぞれの論文は画像がたくさん含まれてはいますが、DALL-E2が27ページ、Imagenが46ページ、Partiは49ページもあって、読むぞ!とは気軽に言えない分量ですね...