Искусственный интеллект запустил свои щупальца на территорию музыкантов. Уже сейчас нейросети позволяют создавать музыкальные произведения в любых жанрах и на любых языках. Особую популярность набирает Suno Al. Значит ли это, что живым музыкантам «пора собираться на пенсию»? В экспертной среде уверены, что ИИ – не вытесняет творчество, а лишь становится помощником. Подробнее об искусственном интеллекте в музыке REX рассказал руководитель проектов Центра цифровых технологий управления Института информационных систем ГУУ Андрей Стариковский.
Ранее на ИА REX: Нейросети научились писать музыку в любых стилях: конец времени композиторов?
Нейронные сети музыкальной индустрии развиваются в нескольких направлениях, что выражается в методах написания музыки.
Первый метод позволяет беспрерывно генерировать музыкальные композиции, используя семплы из библиотеки звуков. Для генерации звуков требуется ввод любых слов на английском языке. Примером такого способа является проект Mubert.
Следующее усложнение для нейросети: это генерация мелодии не только по ключевым произвольным словам, но и по описанию будущей мелодии, к которому может быть отнесено настроение мелодии, жанр и другие характеристики. Примером такой нейросети является проект Soundraw.
Другой пример разработанной нейросети Humtap может считать полноценным помощником любого музыканта, поскольку она генерирует звуки, опираясь на напетую мелодию. Музыканту достаточно напеть несколько элементов крутящейся в голове композиции и нейросеть построит готовую мелодию.
Помимо этого, музыканту могут помочь нейросети, которые стали популярны в Интернете в последнее время, позволяющие онлайн за несколько секунд сгенерировать какие-либо комбинации звуков. Подобные сервисы могут натолкнуть композиторов на новую идею и стать основой для будущего шедевра.
Другая сфера применения музыкальных нейросетей - создание композиций для реклам, видеоигр и фильмов. В этом случае нейросеть может создать трек с нужной эмоциональной окраской с нуля, а также может помочь скорректировать уже готовую мелодию. Таким образом имеется возможность создавать несколько вариаций на одну и ту же песню. Примерами такой нейросети являются программа AIVA, а также облачный сервис Amper Music.
БУДЬТЕ В КУРСЕ
Еще одним примером программ для создания звуков и мелодий является Imaginary Soundscape, которая берет за основу загруженную пользователем картинку. При этом изображение может быть абсолютно любым, включая фон и подложку. Искусственный интеллект сам выбирает конкретные ландшафты и накладывает на них звуки, предлагая пользователям трехмерную экскурсию, сопровождающуюся определёнными звуковыми эффектами.
Второй проект, позволяющий работать с изображениями, называется Image to Music и позволяет загружать картинку и выставлять параметры будущей мелодии, среди которых скорость воспроизведения, длительность и тип композиции. После этого запускается генерация мелодии.
Как известно, для проверки работы систем искусственного интеллекта был придуман тест Тьюринга. Смысл теста заключается в том, чтобы пользователь, задавая вопросы человеку и искусственному интеллекту, сделал предположение с кем именно ведется диалог. Тест считается пройденным при условии, если пользователь не смог отличить нейросеть от человека.
Для тестирования музыкальных нейросетей был придуман специальный музыкальный тест Тьюринга. В тестировании участвовали нейросети, которые могут генерировать ноты и музыку.
И если при тестировании алгоритма DeepBach, который умеет генерировать ноты в стиле Баха еще были пользователи, которым было трудно отличить реального Баха от искусственного, то в области генерации более сложных музыкальных произведений успехи нейросетей не столь впечатляющие… В частности, программа Jukebox позволяет создавать весьма качественную музыку, различающуюся длиной аудио, настройками под определенного исполнителя и жанрами. Несмотря на это, различия между искусственной музыкой и произведениями, созданными людьми, весьма заметны. Программа хоть и генерирует традиционные аккорды и даже впечатляющие соло, но при этом отсутствуют крупные музыкальные структуры, такие как повторяющиеся припевы, помимо этого, в искусственных произведениях слышны шумы, вызванные методами работы моделей. В связи с этим, музыкальный тест Тьюринга такие программы не проходят.
Дальше – больше… Для создания полноценных произведений нужен реалистичный человеческий голос и стихи для песен.
Генерацией реалистичного человеческого голоса занимается компания DeepMind, которая выпустила алгоритм WaveNet, позволяющий очень реалистично преобразовывать текст в голос (Text-To-Speech). Технология доступна для двух языков — английского и китайского. Однако, отличить подобный голос от реального также возможно в связи с особенностями генерации текста, который порой выдает искусственный характер его возникновения.
Для написания стихов также имеются алгоритмы, учитывающие соответствующие сложности, такие как «осмысленность» текста и его ритмическую структуру.
Любую музыкальную нейросеть обучают на большом объеме аудиофайлов, которые собирают в базу и передают искусственному интеллекту на изучение. Звучание становится лучше и лучше по мере обучения нейросети. После того, как нейросеть выучит шаблоны различных композиций, она сможет писать похожие мелодии. В связи с этим, многое зависит от базы данных: если обучить нейросеть на музыке одного исполнителя, то нейросеть будет генерировать только нечто подобное на песни данного исполнителя. Обычно нейросети создают музыку в виде последовательности символов. В таком случае результатом генерации будет партитура — последовательность звуков, нот, аккордов. То есть нейросеть создает визуальную репрезентацию произведения, по которому оно воспроизводится.
Это приводит к другой проблеме искусственных произведений – авторское право. Ведь искусственный интеллект обучается на музыке, принадлежащей реальным исполнителям. Некоторые нейросети уже столкнулись с такой проблемой: против Midjourney и Stable Diffusion подали иски художники, на чьих работах обучили эти сервисы. По этой же причине компания Google не планирует открывать публичный доступ к своему сервису MusicLM из-за возможных проблем с авторским правом.
Приведенные примеры показывают, что человек не перестанет заниматься творчеством по мере развития искусственного интеллекта и алгоритмов нейросетей, но при этом данные программы могут значительно помочь ему в своей деятельности. К данному утверждению присоединяются и разработчики алгоритмов генерации звуков, музыки, стихов и пения, добавляя, что их программы скорее носят ассистивный характер, то есть призваны помогать и дополнять человека. В ближайшем будущем не стоит опасаться подмены естественного искусства искусственным, однако стоит ожидать интересных и интригующих коллабораций человека и машин.
Комментарии читателей (0):