پژوهشگران ادعا می‌کنند امکان دارد روزی این فناوری، همه انیمیشن‌ها را براساس یک متن تولید کند. مایکروسافت گفت: این روبات می‌تواند از «صحنه‌های روستایی معمولی» مثل یک پرنده روی شاخه تا صحنه‌های عجیب مانند «یک اتوبوس دو طبقه شناور» تصویر خلق کند. «زیادونگ هی» (Xiaodong He)، پژوهشگر «مرکز فناوری یادگیری عمیق» شرکت مایکروسافت در شهر ردموند واشنگتن گفت: اگر در جست‌وجوگر «بینگ» (Bing)، کلمه پرنده را جست‌وجو کنید، عکسی از پرنده دریافت خواهید کرد اما اینجا تصاویر از ابتدا و پیکسل به پیکسل با رایانه ابداع می‌شوند. ممکن است این پرنده‌ها در دنیای واقعی وجود نداشته و فقط جنبه‌ای از تصور رایانه در مورد پرنده باشند. این هوش مصنوعی برای استفاده از یک مجموعه داده شامل عکس‌های دوتایی و توضیحات متنی، آموزش دیده است که امکان یادگیری در مورد چگونگی انطباق کلمات خاص با تصاویر خاص را فراهم می‌کند.