Новый инструмент ИИ генерирует высококачественные изображения быстрее, чем самые современные подходы

Новый инструмент ИИ генерирует высококачественные изображения быстрее, чем самые современные подходы
06:00, Апрель 3, 2025 Возможность быстрой генерации высококачественных изображений имеет решающее значение для создания реалистичных моделируемых сред, которые можно использовать для обучения беспилотных автомобилей избегать непредсказуемых опасностей, что делает их более безопасными на реальных дорогах. Но генеративные методы ИИ, которые все чаще используются для создания таких изображений, имеют недостатки. Один популярный тип модели, называемый диффузионной моделью, может создавать потрясающе реалистичные изображения, но слишком медленный и требует больших вычислительных затрат для многих приложений. С другой стороны, авторегрессионные модели, которые поддерживают LLM, такие как ChatGPT, намного быстрее, но они создают изображения худшего качества, которые часто изобилуют ошибками. Исследователи из MIT и NVIDIA разработали новый подход, который объединяет лучшее из обоих методов. Их гибридный инструмент генерации изображений использует авторегрессионную модель для быстрого захвата общей картины, а затем малую диффузионную модель для уточнения деталей изображения. Работа опубликована на сервере препринтов arXiv. Их инструмент, известный как HART (сокращение от Hybrid Autoregressive Transformer), может генерировать изображения, которые по качеству соответствуют или превосходят самые современные модели диффузии, но делают это примерно в девять раз быстрее. Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные модели диффузии, что позволяет запускать HART локально на коммерческом ноутбуке или смартфоне. Пользователю нужно только ввести одну подсказку на естественном языке в интерфейс HART, чтобы сгенерировать изображение. HART может иметь широкий спектр применения, например, помогать исследователям обучать роботов выполнять сложные реальные задачи и помогать дизайнерам создавать яркие сцены для видеоигр. «Если вы рисуете пейзаж и просто закрашиваете весь холст один раз, это может выглядеть не очень хорошо. Но если вы рисуете большую картину, а затем дорабатываете изображение более мелкими мазками кисти, ваша картина может выглядеть намного лучше. Это основная идея HART», — говорит Хаотянь Тан, доктор философии, соавтор новой статьи о HART. К нему присоединились соавтор Ечэн У, студент бакалавриата Университета Цинхуа; старший автор Сон Хань, доцент кафедры электротехники и компьютерных наук (EECS), сотрудник лаборатории искусственного интеллекта IBM Watson MIT и выдающийся ученый NVIDIA; а также другие специалисты из Массачусетского технологического института, Университета Цинхуа и NVIDIA. Исследование будет представлено на Международной конференции по обучению репрезентациям. Лучшее из обоих миров Популярные модели диффузии, такие как Stable Diffusion и DALL-E, известны тем, что создают высокодетализированные изображения. Эти модели генерируют изображения посредством итеративного процесса, в котором они предсказывают некоторое количество случайного шума на каждом пикселе, вычитают шум, затем повторяют процесс предсказания и «удаления шума» несколько раз, пока не сгенерируют новое изображение, полностью свободное от шума. Поскольку модель диффузии устраняет шумы со всех пикселей изображения на каждом шаге, а шагов может быть 30 или больше, процесс медленный и затратный в вычислительном отношении. Но поскольку у модели есть несколько шансов исправить детали, в которых она ошиблась, изображения получаются высокого качества. Авторегрессионные модели, обычно используемые для прогнозирования текста, могут генерировать изображения, предсказывая участки изображения последовательно, по несколько пикселей за раз. Они не могут вернуться и исправить свои ошибки, но процесс последовательного прогнозирования намного быстрее, чем диффузия. Эти модели используют представления, известные как токены, для составления прогнозов. Авторегрессионная модель использует автоэнкодер для сжатия необработанных пикселей изображения в дискретные токены, а также для реконструкции изображения из предсказанных токенов. Хотя это повышает скорость модели, потеря информации, которая происходит во время сжатия, приводит к ошибкам, когда модель генерирует новое изображение. С помощью HART исследователи разработали гибридный подход, который использует авторегрессионную модель для прогнозирования сжатых дискретных токенов изображения, а затем малую диффузионную модель для прогнозирования остаточных токенов. Остаточные токены компенсируют потерю информации модели, фиксируя детали, упущенные дискретными токенами. «Мы можем добиться огромного повышения качества реконструкции. Наши остаточные токены изучают высокочастотные детали, такие как края объекта или волосы, глаза или рот человека. Это те места, где дискретные токены могут совершать ошибки», — говорит Тан. Поскольку диффузионная модель предсказывает оставшиеся детали только после того, как авторегрессионная модель выполнила свою работу, она может выполнить задачу за восемь шагов вместо обычных 30 или более, которые требуются стандартной диффузионной модели для создания полного изображения. Минимальные накладные расходы на дополнительную диффузионную модель позволяют HART сохранить преимущество в скорости авторегрессионной модели, значительно расширяя ее возможности по созданию сложных деталей изображения. «Диффузионная модель проще в исполнении, что приводит к большей эффективности», — добавляет он. Превосходит более крупные модели В ходе разработки HART исследователи столкнулись с трудностями в эффективной интеграции модели диффузии для улучшения модели авторегрессии. Они обнаружили, что включение модели диффузии на ранних этапах процесса авторегрессии привело к накоплению ошибок. Вместо этого их окончательный проект применения модели диффузии для прогнозирования только остаточных токенов в качестве последнего шага значительно улучшил качество генерации. Их метод, который использует комбинацию модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной модели диффузии с 37 миллионами параметров, может генерировать изображения того же качества, что и те, которые создаются моделью диффузии с 2 миллиардами параметров, но он делает это примерно в девять раз быстрее. Он использует примерно на 31% меньше вычислений, чем современные модели. Более того, поскольку HART использует авторегрессионную модель для выполнения основной части работы — тот же тип модели, который поддерживает LLM, — он более совместим для интеграции с новым классом унифицированных генеративных моделей языка видения. В будущем можно будет взаимодействовать с унифицированной генеративной моделью языка видения, возможно, попросив ее показать промежуточные шаги, необходимые для сборки предмета мебели. «LLM — это хороший интерфейс для всех видов моделей, таких как мультимодальные модели и модели, которые могут рассуждать. Это способ вывести интеллект на новый уровень. Эффективная модель генерации изображений откроет множество возможностей», — говорит он. В будущем исследователи хотят пойти по этому пути и построить модели языка зрения поверх архитектуры HART. Поскольку HART масштабируется и обобщается на несколько модальностей, они также хотят применить его для задач генерации видео и прогнозирования аудио....
Читать полный текст на android-robot.com  

Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Самые мощные проекторы Panasonic на Олимпиаде в Токио

Самые мощные проекторы Panasonic на Олимпиаде в Токио Десятки лазерных 4K-проекторов Panasonic PT-RQ50КЕ яркостью 50,000 лм приняли участие в оформлении церемоний Олимпиады в Токио Корпорация Panasonic является Официальным Всемирным Партнером Олимпийских и Паралимпийских Игр и дополнительно обладает специальным статусом Партнера Официальных Ц …

Hardware 21:02, Апрель 3, 2025 | allprojectors.ru
Мини-компьютер Mini PC AM01S с 12-ядерным AMD Ryzen от Ayaneo обещает втрое быстрее ChatGPT. Что внутри

Мини-компьютер Mini PC AM01S с 12-ядерным AMD Ryzen от Ayaneo обещает втрое быстрее ChatGPT. Что внутри? Компания Ayaneo анонсировала Retro Mini PC AM01S — мини-ПК с необычным дизайном и расширенной функциональностью. Устройство выделяется 4-дюймовым сенсорным экраном, который крепится на шарнирный механизм с регулировкой угла наклона от 0° до 90°. Это позволяет устанавливать ег …

Наука и Технологии 20:00, Апрель 3, 2025 | ixbt.com
Алмазные диски и коронки: как выбрать инструмент для профессиональной резки

Алмазные диски и коронки: как выбрать инструмент для профессиональной резки Когда дело доходит до резки твердых материалов, таких как бетон, камень и плитка, алмазные диски и коронки являются незаменимыми инструментами, обеспечивающими точность и долговечность. Широко используемые в строительстве, ремонте и специализированных ремеслах, эти инструменты с добавление …

Аналитические Статьи 19:54, Ноябрь 5, 2024 | c-n-n.ru
Электронные поздравления: как найти уникальные изображения для поздравления с Днем рождения

Электронные поздравления: как найти уникальные изображения для поздравления с Днем рождения В современную цифровую эпоху электронные поздравления стали популярным и удобным способом выражения добрых пожеланий по случаю дня рождения и других особых случаев. В отличие от традиционных бумажных открыток, цифровые поздравления можно легко персонализировать и мгновенно распространять н …

Аналитические Статьи 23:32, Январь 27, 2025 | c-n-n.ru
Современные решения для ограждений: преимущества 3D-панелей от Казтор

Современные решения для ограждений: преимущества 3D-панелей от Казтор В современном мире выбор ограждения для участка или территории играет ключевую роль в обеспечении безопасности, эстетики и долговечности. Одним из популярных решений стали 3D-панели, которые сочетают в себе практичность и стильный внешний вид. Компания Казтор, специализирующаяся на произво …

Аналитические Статьи 20:43, Март 18, 2025 | c-n-n.ru
Стеклянные конструкции: современные решения для дома и офиса

Стеклянные конструкции: современные решения для дома и офиса Стекло давно перестало быть просто функциональным материалом — сегодня оно играет ключевую роль в дизайне интерьеров и архитектуре. От стильных перегородок до изысканных зеркальных панелей, такие элементы способны преобразить любое пространство, добавив ему света, простора и элегантности. …

Аналитические Статьи 21:47, Февраль 26, 2025 | c-n-n.ru
Если Steam проигнорирует требования, у властей появится инструмент полностью заблокировать площадку. В России хотят ограничить продажу зарубежных вид

Если Steam проигнорирует требования, у властей появится инструмент полностью заблокировать площадку. В России хотят ограничить продажу зарубежных видеоигр Как выяснил «Коммерсантъ», Минэкономики совместно с Минздравом, Роскомнадзором и Минцифры готовит законопроект, который обяжет маркировать контент в России по возрастным категориям, а также запретит выпуск и продажу видеоигр, которые содержат информацию, запрещенную для распрос …

Наука и Технологии 14:04, Октябрь 26, 2022 | ixbt.com
Технологии и стиль: современные решения для создания неоновых вывесок

Технологии и стиль: современные решения для создания неоновых вывесок Неоновые вывески превратились из функциональной рекламы в увлекательные произведения искусства, определяющие современную эстетику. Их яркое свечение и универсальность делают их излюбленным местом для оформления предприятий, мероприятий и личных помещений. Сегодня технический прогресс значи …

Аналитические Статьи 02:55, Январь 19, 2025 | c-n-n.ru
Современные тенденции в дизайне столов: от минимализма до уникальных авторских решений

Современные тенденции в дизайне столов: от минимализма до уникальных авторских решений За последние годы дизайн столов претерпел значительные изменения, отражающие более широкие изменения в дизайне интерьера и потребительских предпочтениях. Исторически столы были в первую очередь функциональными, рассчитанными на практичность и долговечность. Однако современные тенденции соч …

Аналитические Статьи 18:00, Январь 26, 2025 | c-n-n.ru
Представлен новый кроссовер Honda S7 размером с CR-V

Представлен новый кроссовер Honda S7 размером с CR-V В Китае дебютировал электромобиль, который бросит вызов Tesla Model Y. Новая Honda S7 предложена с задним или полным приводом и единственной тяговой батареей, а комплектации богатые. По габаритам «семёрка» сопоставима с бензиновой Honda CR-V, но электромобиль на 40 процентов дороже: цены н …

Авто / Мото 21:00, Март 9, 2025 | motor.ru
Samsung представил новый 200-мегапиксельный сенсор

Samsung представил новый 200-мегапиксельный сенсор Компания Samsung анонсировала новый 200-мегапиксельный сенсор под названием ISOCELL HP3. Он имеет "самые маленькие в отрасли пиксели" размером всего 0,56 мкм, что на 12% меньше, чем у предшественника. Он обещает более быструю автофокусировку и еще более четкий HDR благодаря новому алгоритм …

Наука и Технологии 04:00, Март 13, 2025 | nanoreview.net
Агентство Москва: Linkin Park регистрирует новый логотип в Роспатенте

Агентство «Москва»: Linkin Park регистрирует новый логотип в Роспатенте Для фанатов Linkin Park отличные новости: знаменитая американская рок-группа решила зарегистрировать свой свежий логотип в России. Заявка уже в Роспатенте, а это значит что? А то, что музыканты готовы возобновить свои выступления в России и продавать здесь свой мерч. Рассказываем, что изве …

Промышленность и Энергетика 21:05, Апрель 3, 2025 | secretmag.ru
НОВЫЙ IT-СЕРВИС ДЛЯ ОРГАНИЗАТОРОВ КОНЦЕРТНОЙ ДЕЯТЕЛЬНОСТИ ПОКАЗАЛ СЕБЯ В ДЕЛЕ

НОВЫЙ IT-СЕРВИС ДЛЯ ОРГАНИЗАТОРОВ КОНЦЕРТНОЙ ДЕЯТЕЛЬНОСТИ ПОКАЗАЛ СЕБЯ В ДЕЛЕ При наличии множества IT-сервисов для компаний и агентств различного профиля, обращает на себя внимание отставание промоутерской и концертной индустрии в области автоматизации рабочих процессов. В этой связи появление российского облачного сервиса FanStat стало приятной неожиданностью. Доп …

Технологии 15:29, Октябрь 26, 2022 | versiya.info
Новый Geely Atlas раскрыт до премьеры: полный редизайн и современный интерьер

Новый Geely Atlas раскрыт до премьеры: полный редизайн и современный интерьер Всего через сутки после выхода первых тизеров, компания Geely опубликовала официальные изображения нового поколения кроссовера Atlas, премьера которого намечена на 9 апреля 2025 года. Теперь перед нами — полностью переработанный автомобиль, в котором изменилось практически всё, от дизайна …

Наука и Технологии 21:02, Апрель 3, 2025 | itzine.ru
Эдгард Запашный: Новый московский цирк позволит создавать уникальные цирковые шоу

Эдгард Запашный: Новый московский цирк позволит создавать уникальные цирковые шоу Он отметил, что цирковое искусство не стоит на месте и требует современных решений, чтобы оставаться конкурентоспособным на мировой арене. Запашный поблагодарил мэра Москвы Сергея Собянина и городские власти за их поддержку и внимание ко мнению профессионалов цирковой индустрии. Он подчерк …

Новости 05:00, Март 17, 2025 | dni.ru
Первый взгляд на Omoda C3: новый доступный кроссовер показали на дизайнерских эскизах

Первый взгляд на Omoda C3: новый доступный кроссовер показали на дизайнерских эскизах Компания Chery раскрыла внешний облик своего самого компактного и потенциально самого доступного кроссовера под брендом Omoda — модели C3. Новинку продемонстрировали на стилизованных дизайнерских скетчах, где автомобиль предстал в кузове кросс-купе с выразительными чертами, характерными дл …

Наука и Технологии 20:00, Апрель 3, 2025 | itzine.ru
В КОМКБ устанавливают новый МРТ и уникальный компьютерный томограф  единственный такой в Курске

В КОМКБ устанавливают новый МРТ и уникальный компьютерный томограф — единственный такой в Курске Роман Старовойт посетил в областной больнице операционный блок. Там на 5 этаже сейчас идет капремонт. С 4 до 6 увеличится число операционных залов. Закуплено новое оборудование для оказания высокотехнологичной хирургической помощи. Общая стоимость работ и оборудования — почти 170 млн …

Новости 15:05, Октябрь 26, 2022 | seyminfo.ru
Новый смартфон Infinix NOTE 50  переход компании в эру развития ИИ технологий для поколения Бета

Новый смартфон Infinix NOTE 50 — переход компании в эру развития ИИ технологий для поколения Бета Infinix, популярный бренд техники среди молодежи, официально представил программу «Infinix AI∞ Beta Plan» одновременно с международным запуском новой серии смартфонов NOTE 50 и семейства AIoT устройств. Данный запуск знаменует собой переход бренда в эпоху технологий для поколения …

Наука и Технологии 11:00, Март 27, 2025 | digimedia.ru
Новый датчик может помочь предотвратить возгорание и взрыв литий-ионных аккумуляторов

Новый датчик может помочь предотвратить возгорание и взрыв литий-ионных аккумуляторов Исследователи разработали новую технологию для обнаружения опасных утечек газа в литий-ионных аккумуляторах С литий-ионными аккумуляторами, питающими все, от смартфонов до электромобилей , безопасность стала серьезной проблемой. Хотя эти аккумуляторы эффективны и долговечны, результаты мог …

Hardware 21:03, Апрель 3, 2025 | android-robot.com
Mercedes-Benz уходит из России. Обслуживать машины теперь будет новый владелец российского завода  Автоdom

Mercedes-Benz уходит из России. Обслуживать машины теперь будет новый владелец российского завода — «Автоdom» Компания Mercedes-Benz действительно уходит из России и продаёт свои доли в российских дочерних компаниях дилерскому холдингу «Автоdom», о чем говорится в опубликованном сообщения пресс-службы Минпромторга. В пресс-службе Mercedes-Benz подвтердили, что компания покинет российск …

Наука и Технологии 14:10, Октябрь 26, 2022 | ixbt.com
Человеческие ткани как основа для вычислений: исследование Университета Осаки открыло новый способ использовать мышцы для машинного обучения

Человеческие ткани как основа для вычислений: исследование Университета Осаки открыло новый способ использовать мышцы для машинного обучения Учёные из Университета Осаки предложили необычный подход к обработке данных — использовать мягкие ткани человека в качестве элемента вычислительных систем. Работа демонстрирует, как биологические материалы, такие как мышцы, могут выполнять функции «живого процессора» за с …

Наука и Технологии 21:03, Апрель 3, 2025 | ixbt.com
Холод придёт на майские, адский зной накроет в июле: метеорологи дали новый прогноз до зимы 2025 года

Холод придёт на майские, адский зной накроет в июле: метеорологи дали новый прогноз до зимы 2025 года Холод придёт на майские, адский зной накроет в июле: метеорологи дали новый прогноз до зимы 2025 годаПохоже, что погода в этом году сыграет в русскую рулетку до зимы. В крайнем случае пока обещают именно так. Тёплый март оказался ловушкой: апрельские дожди, майские заморозки и июльская жар …

Новости 21:00, Апрель 3, 2025 | progorod58.ru
Инструкция: включаем новый дизайн панели Виджеты в Windows 11 Build 22623.746 (Beta) и Build 25217 (Dev)

Инструкция: включаем новый дизайн панели «Виджеты» в Windows 11 Build 22623.746+ (Beta) и Build 25217+ (Dev) В инсайдерской сборке Windows 11 Build 25227 для канала Dev началось тестирование нового дизайна панели «Виджеты», который включает в себя новые интуитивно понятные иконки и новые визуальные эффекты. Стоит отметить, что существует несколько вариантов пользовательского интерфейса «Виджетов» …

Интернет и Игры 16:09, Ноябрь 28, 2024 | c-n-n.ru