هوش مصنوعی با شنیدن صدا عکس میسازد
این کلیپها شامل تصاویر ثابت و صداهای محیطی از ویدئوهای یوتیوب مربوط به خیابانهای شهری و حومهای در آمریکای شمالی، آسیا و اروپا بودند. محققان با استفاده از الگوریتمهای یادگیری عمیق نه تنها به سیستم آموزش دادند چه اصواتی به چه آیتمهایی در تصاویر مرتبط است، بلکه چه کیفیت اصواتی با محیطهای بصری مطابقت دارد. پس از تکمیل آموزش به سیستم دستور داده شد تصاویری را فقط براساس صدای محیطی ضبط شده از ۱۰۰ ویدئو چشمانداز خیابان بسازد. این سیستم به ازای هر ویدئو یک عکس ساخت. در مرحله بعد هریک از عکسها همراه دو تصویر تولید شده از خیابانهای دیگر به پنلی از داوران انسانی نشان داده شد و همزمان صدایی که عکسها براساس آن تولید شده بودند نیز پخش شد. هنگامی که از داوران خواسته شد سه عکس مرتبط با صدای شنیده شده را شناسایی کنند، آنها با دقت متوسط ۸۰ درصد این کار را انجام دادند.