В начале 2021 года компания OpenAI, Илона Маска, представил миру нейросетевую программу DALl-E генерации картинок по введённым на английском языке текстовым предложениям. Программа работает на основе текстового генератора GPT-3 (Generative Pre-Training).
Программа может по точному текстовому описанию создать картинку, которая будет точно воплощать текст в изображение при этом создавая уникальную картину.
Во многих странах начали разрабатывать похожую нейросетевую программу. Например, в Китае разработали программу CogView.
нейросеть ruDALL-E
Также в России компания SberAI, SberDevice разработали программу для русского языка, проект выпустили под названием ruDALl-E.
В основе нейросети ruDALl-E работают три алгоритма которые генерируют картинки, подбирает наиболее Релевантное и удачное к запросу изображение, и увеличивают его без потери качества.
Так как компания OpenAI не выставила исходный код на всеобщее обозрение, компания SberDevices и Sber AI создали свой код генерации картинок и обучили свою версию нейронной сети, только уже с запросами на русском языке.
Уникальность запроса
Два запроса с одним текстом "Дом на холме у реки красивый закат" выдал две разные уникальные картинки.
![]() |
![]() |
Разработка
В Sber AI рассказали, что на разработку было затрачено 23 тысячи GPU часов и для обучения нейросети влили 120 миллионов картинок с текстом. Эта модель ruDALL-E XL с 1,3 миллиардами параметров выставлена в открытом доступе и каждый может попробовать сгенерировать изображение по своему запросу. В скором времени компания выложит усовершенствованную нейросеть ruDALL-E 12B, но уже с 12 миллиардами параметров.
На генерацию изображения в среднем уходит 23 секунды, но из-за большого числа запросов, очередь на генерацию приходится ждать больше. В основном картинки получаются в стиле абстракционизма, иногда абсурдным смыслом, но, если запастись терпением, можно увидеть очень даже не плохие картины.
Попробовать приложение можно в открытом демо доступе на сайте rudalle.ru