<p>You already know how LLMs work from our popular 20-minute explainer. Now we take it to images. What does Michelangelo have to do with stable diffusion? More than you'd think. Walk away knowing how image generation actually works — and what it has in common with the text models you already understand.</p>
<p><a href="https://fragmentedpodcast.com/episodes/308" rel="noopener noreferrer"><i>Full shownotes at fragmentedpodcast.com</i></a><i>.</i></p>
<h1>Show Notes</h1>
<ul>
 <li><a rel="noopener noreferrer">Episode 303 - How LLMs work in 20 minutes</a> - text generation</li>
 <li>VAE -<br><a href="https://www.ibm.com/think/topics/variational-autoencoder" rel="noopener noreferrer">Variational Autoencoder</a></li>
 <li><a href="https://en.wikipedia.org/wiki/RGB_color_model" rel="noopener noreferrer">RGB Color model</a> - wikipedia</li>
 <li><a href="https://en.wikipedia.org/wiki/Word2vec" rel="noopener noreferrer">Word2Vec technique</a> - wikipedia
  <ul>
   <li><a href="https://arxiv.org/abs/1301.3781" rel="noopener noreferrer">Efficient Estimation of Word Representation</a> -<br>
    original Word2Vec paper by Mikolov et al.</li>
  </ul></li>
 <li><a href="https://arxiv.org/abs/2112.10752" rel="noopener noreferrer">High-Resolution Image Synthesis with Latent Diffusion Models</a> -<br>
  Rombach et al. (2022) — the paper behind Stable Diffusion</li>
 <li>Image Training data
  <ul>
   <li><a href="https://arxiv.org/abs/2210.08402" rel="noopener noreferrer">LAION-5B</a> - 5 billion image-text pairs<br>
    scraped from the web, used to train many image generation models</li>
   <li><a href="https://www.aibase.com/news/15390" rel="noopener noreferrer">WebLI</a> - Google's internal image-text<br>
    dataset</li>
  </ul></li>
 <li><a href="https://www.goodreads.com/quotes/1191114-the-sculpture-is-already-complete-within-the-marble-block-before" rel="noopener noreferrer">Michelangelo</a></li>
</ul>
<h1>Get in touch</h1>
<p>We'd love to hear from you. <a href="mailto:contact@fragmentedpodcast.com" rel="noopener noreferrer">Email</a> is the<br>
 best way to reach us or you can check our <a rel="noopener noreferrer">contact page</a> for other<br>
 ways.</p>
<p>We want to hear all the feedback: what's working, what's not, topics you'd like<br>
 to hear more on.</p>
<ul>
 <li><a href="https://fragmentedpodcast.com/contact" rel="noopener noreferrer">Contact us</a></li>
 <li><a href="https://buttondown.com/fragmentedcast" rel="noopener noreferrer">Newsletter</a></li>
 <li><a href="https://www.youtube.com/@fragmentedpodcast" rel="noopener noreferrer">Youtube</a></li>
 <li><a href="https://fragmentedpodcast.com" rel="noopener noreferrer">Website</a></li>
</ul>
<h2>Co-hosts:</h2>
<ul>
 <li><a href="https://kau.sh/" rel="noopener noreferrer">Kaushik Gopal</a></li>
 <li><a href="https://iurysouza.dev/" rel="noopener noreferrer">Iury Souza</a></li>
</ul>
<blockquote>
 <p>[!fyi] We transitioned from Android development to AI starting with<br><a rel="noopener noreferrer">Ep. #300</a>. Listen to that episode for the full story behind<br>
  our new direction.</p>
</blockquote>


<description>&lt;p&gt;You already know how LLMs work from our popular 20-minute explainer. Now we take it to images. What does Michelangelo have to do with stable diffusion? More than you'd think. Walk away knowing how image generation actually works — and what it has in common with the text models you already understand.&lt;/p&gt;
&lt;p&gt;&lt;a href="https://fragmentedpodcast.com/episodes/308" rel="noopener noreferrer"&gt;&lt;i&gt;Full shownotes at fragmentedpodcast.com&lt;/i&gt;&lt;/a&gt;&lt;i&gt;.&lt;/i&gt;&lt;/p&gt;
&lt;h1&gt;Show Notes&lt;/h1&gt;
&lt;ul&gt;
 &lt;li&gt;&lt;a rel="noopener noreferrer"&gt;Episode 303 - How LLMs work in 20 minutes&lt;/a&gt; - text generation&lt;/li&gt;
 &lt;li&gt;VAE -&lt;br&gt;&lt;a href="https://www.ibm.com/think/topics/variational-autoencoder" rel="noopener noreferrer"&gt;Variational Autoencoder&lt;/a&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://en.wikipedia.org/wiki/RGB_color_model" rel="noopener noreferrer"&gt;RGB Color model&lt;/a&gt; - wikipedia&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://en.wikipedia.org/wiki/Word2vec" rel="noopener noreferrer"&gt;Word2Vec technique&lt;/a&gt; - wikipedia
  &lt;ul&gt;
   &lt;li&gt;&lt;a href="https://arxiv.org/abs/1301.3781" rel="noopener noreferrer"&gt;Efficient Estimation of Word Representation&lt;/a&gt; -&lt;br&gt;
    original Word2Vec paper by Mikolov et al.&lt;/li&gt;
  &lt;/ul&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://arxiv.org/abs/2112.10752" rel="noopener noreferrer"&gt;High-Resolution Image Synthesis with Latent Diffusion Models&lt;/a&gt; -&lt;br&gt;
  Rombach et al. (2022) — the paper behind Stable Diffusion&lt;/li&gt;
 &lt;li&gt;Image Training data
  &lt;ul&gt;
   &lt;li&gt;&lt;a href="https://arxiv.org/abs/2210.08402" rel="noopener noreferrer"&gt;LAION-5B&lt;/a&gt; - 5 billion image-text pairs&lt;br&gt;
    scraped from the web, used to train many image generation models&lt;/li&gt;
   &lt;li&gt;&lt;a href="https://www.aibase.com/news/15390" rel="noopener noreferrer"&gt;WebLI&lt;/a&gt; - Google's internal image-text&lt;br&gt;
    dataset&lt;/li&gt;
  &lt;/ul&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://www.goodreads.com/quotes/1191114-the-sculpture-is-already-complete-within-the-marble-block-before" rel="noopener noreferrer"&gt;Michelangelo&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;Get in touch&lt;/h1&gt;
&lt;p&gt;We'd love to hear from you. &lt;a href="mailto:contact@fragmentedpodcast.com" rel="noopener noreferrer"&gt;Email&lt;/a&gt; is the&lt;br&gt;
 best way to reach us or you can check our &lt;a rel="noopener noreferrer"&gt;contact page&lt;/a&gt; for other&lt;br&gt;
 ways.&lt;/p&gt;
&lt;p&gt;We want to hear all the feedback: what's working, what's not, topics you'd like&lt;br&gt;
 to hear more on.&lt;/p&gt;
&lt;ul&gt;
 &lt;li&gt;&lt;a href="https://fragmentedpodcast.com/contact" rel="noopener noreferrer"&gt;Contact us&lt;/a&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://buttondown.com/fragmentedcast" rel="noopener noreferrer"&gt;Newsletter&lt;/a&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://www.youtube.com/@fragmentedpodcast" rel="noopener noreferrer"&gt;Youtube&lt;/a&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://fragmentedpodcast.com" rel="noopener noreferrer"&gt;Website&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;Co-hosts:&lt;/h2&gt;
&lt;ul&gt;
 &lt;li&gt;&lt;a href="https://kau.sh/" rel="noopener noreferrer"&gt;Kaushik Gopal&lt;/a&gt;&lt;/li&gt;
 &lt;li&gt;&lt;a href="https://iurysouza.dev/" rel="noopener noreferrer"&gt;Iury Souza&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
 &lt;p&gt;[!fyi] We transitioned from Android development to AI starting with&lt;br&gt;&lt;a rel="noopener noreferrer"&gt;Ep. #300&lt;/a&gt;. Listen to that episode for the full story behind&lt;br&gt;
  our new direction.&lt;/p&gt;
&lt;/blockquote&gt;
</description>

You already know how LLMs work from our popular 20-minute explainer. Now we take it to images. What does Michelangelo have to do with stable diffusion? More than you'd think. Walk away knowing how image generation actually works — and what it has in common with the text models you already understand.

Full shownotes at https://fragmentedpodcast.com/episodes/308/

Fragmented - AI Developer Podcast

308 - How Image Diffusion Models Work - the 20 minute explainer

308 - How Image Diffusion Models Work - the 20 minute explainer

Description