EvoGO: Вычисления на GPU × Генеративное обучение → Новая парадигма эволюционных алгоритмов со сходимостью за 10 поколений

EvoGO: Вычисления на GPU × Генеративное обучение → Новая парадигма эволюционных алгоритмов со сходимостью за 10 поколений

image1

В последние годы методы эволюционной оптимизации на основе данных достигли значительного прогресса. От эволюционных алгоритмов с использованием суррогатных моделей до генеративных эволюционных алгоритмов — эволюционная оптимизация постепенно переходит от традиционных парадигм, управляемых фиксированными операторами, к парадигмам, управляемым обучением. Однако ориентированность на данные в существующих методах остается неполной в трех важных аспектах. Во-первых, координация между генеративным механизмом и эволюционным процессом по-прежнему часто зависит от эвристических правил, созданных вручную. Во-вторых, цели обучения генеративных моделей обычно заимствуются из задач генерации общего назначения и недостаточно согласованы с целями оптимизации. В-третьих, крайне ограниченные, но весьма ценные онлайн-выборки, доступные при оптимизации методом черного ящика, еще не были систематически организованы в обучаемый и переносимый опыт оптимизации. Для решения этих проблем команда EvoX предложила эволюционную генеративную оптимизацию (EvoGO), которая объединяет весь процесс оптимизации в три этапа: подготовка данных, обучение модели и генерация популяции. Цель состоит в том, чтобы позволить алгоритмам оптимизации напрямую изучать закономерности улучшения при переходе от худших решений к лучшим на основе исторических данных. Экспериментальные результаты показывают, что EvoGO демонстрирует стабильные преимущества в трех категориях задач: численной оптимизации, классическом управлении и многомерном управлении роботами, охватывая 25 эталонных тестов и масштабы задач от 10 до 1000 измерений, при этом сходясь в большинстве крупномасштабных задач примерно за 10 поколений. В сложных задачах, в сочетании с параллельным выводом на GPU, EvoGO также демонстрирует значительные практические преимущества во времени выполнения; когда CMA-ES достигает своей сходимости, EvoGO может достичь той же производительности в 134 раза быстрее. Эти результаты указывают на то, что полностью управляемая данными эволюционная оптимизация не только может достичь конкурентоспособных результатов в стандартных эталонных тестах, но и начинает переписывать сам процесс поиска.

Затруднение: Оптимизация на основе данных все еще не сделала последний шаг

В последние годы методы эволюционной оптимизации на основе данных развивались быстрыми темпами. Методы с использованием суррогатных моделей и методы на основе генеративных моделей уже подтолкнули эволюционную оптимизацию от поиска, управляемого фиксированными операторами, к поиску, управляемому обучением. Это означает, что модели обучения начали проникать на несколько этапов конвейера, включая оценку, моделирование и даже генерацию.

Однако эта трансформация все еще не завершена. Существующие методы, возможно, научились «оценивать» или «генерировать» на разных уровнях, но они еще не научились по-настоящему «оптимизировать». С одной стороны, получение следующего поколения потенциальных решений по-прежнему часто зависит от эвристических правил координации, созданных вручную. С другой стороны, цель генерации и цель оптимизации часто недостаточно согласованы. В то же время крайне ограниченные онлайн-выборки, доступные при оптимизации методом черного ящика, еще не были систематически преобразованы в обучаемый и переносимый опыт оптимизации.

Таким образом, сегодня на самом деле не хватает не дополнительных моделей как таковых, а последнего шага: позволить алгоритмам оптимизации напрямую изучать процесс перехода от худших решений к лучшим на основе исторических данных. Именно этот шаг и стремится сделать EvoGO.

Прорыв: Как EvoGO переписывает конвейер оптимизации

Для решения вышеуказанных проблем EvoGO не продолжает идти по традиционному пути улучшения локальных операторов, таких как скрещивание и мутация. Вместо этого он пытается переписать конвейер оптимизации на более целостном уровне. Его основная идея заключается в том, чтобы изъять процесс «как генерировать следующее поколение потенциальных решений» из написанных вручную правил и передать его генеративному механизму на основе данных для обучения. В частности, EvoGO организует весь процесс оптимизации в три объединенных этапа — подготовка данных, обучение модели и генерация популяции — так что организация опыта, направленное обучение и обновление популяции больше не фрагментированы, а интегрированы в единый цикл оптимизации.

image2

На этапе подготовки данных EvoGO сначала отбирает высококачественные выборки из исторических популяций, чтобы создать более надежную основу для обучения. Когда выборок мало, также может использоваться обученная аугментация для смягчения нехватки данных. Что еще более важно, выборки дополнительно делятся на лучшие и худшие решения и организуются в парные отношения. В результате модель изучает уже не просто статическое распределение потенциальных решений, а скорее направленную связь перехода от худших решений к лучшим.

На этапе обучения модели EvoGO использует парную структуру, состоящую из суррогатной модели, прямого генератора и псевдообратного генератора. Суррогатная модель обеспечивает приблизительную характеристику ландшафта целевой функции; прямой генератор изучает отображение от худших решений к лучшим; а псевдообратный генератор поддерживает стабильность обучения с помощью ограничения согласованности реконструкции. В отличие от общих задач генерации, цель обучения здесь состоит не только в том, чтобы соответствовать распределению данных, но и в том, чтобы процесс генерации двигался в сторону лучших областей под руководством ландшафта целевой функции.

На этапе генерации популяции обученная генеративная модель напрямую воздействует на текущую популяцию для параллельного создания нового поколения потенциальных решений. Затем эти решения оцениваются реальной целевой функцией, и состояние популяции обновляется соответствующим образом перед переходом к следующей итерации. В этот момент способ выполнения обновлений популяции фундаментально меняется. Традиционная эволюционная оптимизация в основном полагается на заданные вручную правила скрещивания, мутации и отбора для постепенного исследования пространства поиска, тогда как EvoGO превращает этот процесс в механизм параллельного обновления, управляемый историческими данными и реализуемый генеративной моделью.

Параллелизм EvoGO работает на двух уровнях. С одной стороны, популяция может быть представлена в тензорном виде, что позволяет параллельно выполнять генерацию и оценку особей на GPU. С другой стороны, EvoGO также может одновременно запускать несколько генеративных моделей на одном GPU, обеспечивая параллельную оптимизацию для разных случайных начальных чисел (seeds) или разных экземпляров проблемы. Таким образом, его возможности параллелизма существуют как внутри популяций, так и между несколькими популяциями.

С этой точки зрения, ключевой вклад EvoGO заключается не просто во внедрении генеративной модели, а в объединении организации выборок, согласования целей и обновления популяции в рамках единой методологической структуры. Традиционная эволюционная оптимизация делает упор на поиск, управляемый заранее написанными правилами, тогда как EvoGO идет на шаг дальше, пытаясь позволить системе изучать сам процесс поиска непосредственно из исторических данных.

Валидация: Оценка производительности и анализ механизмов

Чтобы строго оценить эффективность этой новой парадигмы, полностью основанной на данных, в статье основное внимание уделяется трем ключевым вопросам: Достаточно ли мощен и эффективен EvoGO? Какие ключевые конструктивные решения лежат в основе его успеха? Какое интеллектуальное поведение поиска он демонстрирует?

1. Сравнение производительности: «Сходимость за 10 поколений» лидирует в бенчмарках

В статье проводится систематическая оценка трех категорий задач — численной оптимизации, классическом управлении и многомерном управлении роботами — охватывающая 25 эталонных тестов с размерностью задач от 10 до 1000. EvoGO всесторонне сравнивается с байесовской оптимизацией, классическими эволюционными стратегиями, эвристическими методами и передовыми методами с использованием суррогатных моделей.

image3

image4

В целом, EvoGO демонстрирует явные преимущества в большинстве задач. Примечательно, что это преимущество не ограничивается задачами малой размерности или относительно регулярными проблемами. Напротив, по мере увеличения размерности проблемы и сложности задачи преимущество EvoGO часто становится более выраженным. В условиях малой размерности и небольшой выборки некоторые из сильнейших методов с использованием суррогатных моделей остаются весьма конкурентоспособными. Но как только задачи становятся многомерными, сложными и зависимыми от параллельных вычислений, генеративный механизм EvoGO способен раскрыться в полной мере, и в большинстве крупномасштабных задач он может сойтись примерно за 10 поколений. Это говорит о том, что ценность EvoGO заключается не в достижении локального превосходства в одном типе задач, а в том, что он лучше подходит для крупномасштабного использования опыта и параллельного поиска, требуемых сложной оптимизацией методом черного ящика.

image5

Это особенно очевидно в многомерной среде управления роботами Hopper в Brax. При одинаковом бюджете вычислений функции и бюджете времени выполнения EvoGO значительно превосходит традиционные алгоритмы оптимизации, такие как CMA-ES и TPE, а также превосходит алгоритм обучения с подкреплением PPO, который требует онлайн-взаимодействия со средой. Что еще более важно, благодаря вычислительной мощности параллельных вычислений современного оборудования, такого как GPU, EvoGO может достичь высокого уровня вознаграждения примерно за 500 секунд. Когда CMA-ES наконец сходится к своему лучшему уровню производительности, фактическое астрономическое время, необходимое EvoGO для достижения той же производительности, оказывается намного короче — до 134 раз быстрее. Этот результат показывает, что преимущество EvoGO заключается не только в сокращении количества поколений, но и в том, что сам процесс поиска лучше согласован с параллельными вычислительными ресурсами, сжимая действия по оптимизации, которые в противном случае были бы распределены по многим поколениям, в процесс высокопроизводительного генеративного обновления.

2. Исследование абляции: Анализ ключей к успеху

Чтобы проверить необходимость основных компонентов в «полностью управляемом данными» дизайне EvoGO, исследовательская команда провела систематические исследования абляции, сосредоточенные на парной генеративной архитектуре, механизме суррогатного руководства и дизайне целей, ориентированном на оптимизацию. Были созданы пять вариантов: версия с одним генератором, версия без суррогатной модели, версия с состязательной целью, версия с суррогатной моделью MLP и версия с эвристическим руководством.

Экспериментальные результаты показывают, что парная генеративная архитектура, механизм суррогатного руководства и дизайн целей, ориентированный на оптимизацию, имеют решающее значение для эффективности EvoGO. Удаление псевдообратного генератора приводит к заметно худшей стабильности сходимости и снижению разнообразия популяции, что указывает на то, что парная структура, образованная прямой генерацией и обратными ограничениями, необходима для поддержания стабильности обучения и предотвращения коллапса мод. Удаление суррогатной модели или замена исходной цели оптимизации на общую состязательную цель также вызывает значительное снижение производительности, показывая, что суррогатное руководство и согласование целей занимают центральное место в преимуществе метода. Замена гауссовского процесса многослойным перцептроном или эвристическими правилами по-прежнему оставляет метод функциональным, но с небольшим общим снижением, что указывает на то, что EvoGO не зависит от конкретной суррогатной формы, хотя явное моделирование неопределенности более полезно для производительности. В целом, прирост производительности EvoGO происходит не от какого-либо отдельного модуля, а от синергии между парной генеративной архитектурой, механизмом суррогатного руководства и дизайном целей, ориентированным на оптимизацию.

3. Визуализация поведения: Раскрытие динамического процесса, управляемого данными

Для более интуитивного анализа динамики поиска EvoGO в статье представлен эксперимент по визуализации двумерной функции Экли (Ackley), при этом размер популяции установлен на 100. В частности, в разных эволюционных поколениях фиксируются результаты преобразования обученного прямого генератора над входными решениями — то есть отслеживается процесс отображения входных решений в выходные. На рисунке стрелки представляют векторы от входных решений к выходным, а их цвета соответствуют длине векторов. Звездочка отмечает глобальный оптимум, а пунктирные прямоугольники указывают области, покрываемые сгенерированными решениями в разных поколениях. Для ясности настройки перемещения и вращения ландшафта функции опущены в этой визуализации.

image7

Результаты визуализации показывают, что EvoGO изучает не направленные случайные возмущения, а модель обновления, которая адаптируется к этапу поиска. На раннем этапе сгенерированные векторы, как правило, длиннее, что указывает на то, что алгоритм склоняется к глобальному исследованию большой амплитуды. По мере развития эволюции длины векторов постепенно уменьшаются, а генерируемые области продолжают сжиматься, показывая, что поиск смещается в сторону более точной локальной эксплуатации. В то же время векторы в целом собираются в сторону оптимальной области, что указывает на то, что прямой генератор уже извлек практически значимое направление поиска из исторических выборок. На поведенческом уровне это явление подтверждает центральное свойство EvoGO: он изучает не просто распределение потенциальных решений, а закон обновления, который перемещается от текущего состояния к лучшему состоянию.

Применение: Инженерная валидация сверхкритического крыла широкофюзеляжного авиалайнера

Успешная поставка C919 знаменует собой важный шаг для Китая в разработке больших самолетов отечественного производства. Однако, как узкофюзеляжный авиалайнер с одним проходом, C919 в основном обслуживает маршруты малой и средней дальности, и в области широкофюзеляжных авиалайнеров по-прежнему необходимы прорывы. Для удовлетворения потребностей в разработке отечественных широкофюзеляжных самолетов следующего поколения проектирование сверхкритического крыла стало ключевой проблемой в аэродинамической оптимизации, играя важную роль в снижении крейсерского сопротивления, повышении топливной эффективности и улучшении стабильности полета. Поэтому вопрос о том, как добиться эффективной и надежной оптимизации сверхкритического крыла, стал основной технической задачей в процессе разработки китайских широкофюзеляжных самолетов.

image8

Как показано в оригинальной статье, за счет оптимизации геометрических характеристик, таких как большая хорда, более плоская верхняя поверхность и увеличенная кривизна задней кромки, сверхкритическое крыло может регулировать распределение околозвукового давления, подавлять образование ударных волн, уменьшать волновое сопротивление и повышать эффективность подъемной силы. Однако его оптимальное проектирование сталкивается с множеством проблем. С одной стороны, в условиях высоких чисел Рейнольдса широкофюзеляжных самолетов конструкция должна одновременно удовлетворять строгим аэродинамическим ограничениям, таким как аэродинамическое качество, коэффициент подъемной силы и крейсерский угол атаки, что налагает чрезвычайно высокие требования к точности параметров формы. С другой стороны, существует сильно нелинейная связь между геометрией профиля крыла и аэродинамическими характеристиками, которую трудно точно охарактеризовать традиционными методами моделирования. Кроме того, существующий процесс проектирования в значительной степени опирается на опыт, повторные CFD-симуляции и эксперименты в аэродинамической трубе, что приводит к высоким вычислительным затратам, длительным циклам разработки и трудностям в эффективном приближении к глобальному оптимуму в многомерном пространстве проектирования.

image9

Для решения этой проблемы команда EvoX создала интегрированный конвейер проектирования на основе EvoGO, состоящий из оценки производительности, генерации профиля крыла и отбора кандидатов. На основе небольшого количества исторических образцов профилей крыла метод строит модель оценки производительности, модель генерации профиля крыла и модель отбора, и постоянно улучшает конструкцию профиля крыла посредством итеративной эволюции. Суррогатная модель используется для точного прогнозирования ключевых показателей, таких как аэродинамическое качество, коэффициент подъемной силы и крейсерский угол атаки. В то же время внедряется генеративный механизм для замены традиционного эвристического поиска, что позволяет эффективно аппроксимировать оптимум в многомерном пространстве проектирования. В сочетании со стратегией отбора кандидатов этот метод может быстро идентифицировать потенциальные профили крыла, которые удовлетворяют как физическим ограничениям, так и требованиям к аэродинамическим характеристикам, из обширного пространства поиска, тем самым повышая эффективность проектирования.

image10

Используя всего 500 исторических образцов профилей крыла, метод достигает точности прогнозирования более 99,5% по трем ключевым аэродинамическим показателям — аэродинамическому качеству, коэффициенту подъемной силы и крейсерскому углу атаки — а уровень соответствия требованиям автоматически генерируемых профилей крыла превышает 95%. Эти результаты показывают, что методы полностью управляемой данными эволюционной оптимизации, такие как EvoGO, могут не только хорошо работать в стандартных эталонных тестах, но и начинают демонстрировать способность обеспечивать эффективную поддержку проектирования для реальных инженерных задач.

Углубление взгляда: От физики к философии, переосмысление EvoGO

Физическая перспектива: От беспорядочных проб и ошибок к упорядоченной эволюции

С физической точки зрения оптимизацию методом черного ящика можно понимать как процесс постепенного поиска более стабильного состояния в реальном, но не полностью наблюдаемом потенциальном поле. Для оптимизатора целевая функция и ее ландшафт приспособленности объективно существуют в любое время, но в начальный момент система может получить только локальные знания посредством ограниченной выборки и оценки. Поэтому поиск естественным образом несет в себе высокую неопределенность.

Традиционная эволюционная оптимизация больше опирается на локальные возмущения и случайные пробы и ошибки. Хотя она может постепенно приближаться к лучшим областям посредством повторной выборки и отбора, процесс поиска все еще в значительной степени проявляется как локальное исследование с высокой энтропией, и исторический опыт трудно накапливать систематически. Отличие EvoGO заключается в том, что он дополнительно организует исторические выборки в информационную базу, которая кодирует направление и структуру. Суррогатная модель обеспечивает приблизительное понимание локального ландшафта целевой функции; сопряжение лучших и худших решений извлекает направленную информацию о переходе от худших областей к лучшим; а цикл, образованный прямой генерацией и обратными ограничениями, позволяет этому направленному процессу обновления разворачиваться непрерывно, оставаясь при этом стабильным.

С физической точки зрения EvoGO больше похож на процесс, в котором упорядоченная структура постепенно формируется под руководством эффективного потенциального поля. Он не просто ускоряет поиск, но постепенно снижает неопределенность поиска в условиях ограниченной наблюдаемости, превращая обновление популяции из беспорядочных проб и ошибок в организованный эволюционный поток. Скорость — это только результат; более глубокое изменение заключается в том, что исторический опыт начинает трансформироваться в структурную информацию, которую можно накапливать, передавать и использовать повторно.

Философская перспектива: От «Дао рождает все сущее» к генерации законов

С философской точки зрения в EvoGO еще больше заслуживает внимания то, что он воплощает генеративный процесс, движущийся от опыта к порядку, от локального к целому. Этот процесс можно охарактеризовать классической фразой: «Дао рождает Одно, Одно рождает Два, Два рождают Три, а Три рождают все сущее».

«Дао» соответствует объективно существующему, но не полностью постижимому истинному закону целевой проблемы. При оптимизации оптимальное решение не предписывается алгоритмом субъективно; скорее, оно всегда скрыто внутри реальной целевой функции и ее ландшафта приспособленности. Все, что может сделать алгоритм, — это не создать Дао, а лишь постоянно приближаться к нему.

«Одно» соответствует единой структуре, извлеченной из беспорядочного опыта. Исторические выборки изначально являются не чем иным, как разрозненными следами поиска; они не составляют автоматически знания. Только когда эти выборки отсортированы, отфильтрованы и организованы, опыт начинает переходить от беспорядка к обучаемому целому. В этом и заключается смысл «рождения Одного».

«Два» соответствует дифференциации — возникновению направления. Разделение на лучшие и худшие решения не просто отражает различие между хорошим и плохим; что более важно, оно отмечает первый раз, когда система приобретает чувство направления из опыта. Без этой дифференциации опыт просто накапливается; с ней опыт приобретает эволюционное напряжение.

«Три» соответствует замыканию — порождению отношений. Когда объективное познание, прямое продвижение и обратное ограничение совместно образуют самосогласованную систему, оптимизация больше не является коллажем из локальных операций, а начинает обретать форму целостного механизма, способного к самоподдержанию и самокоррекции. В этот момент метод по-настоящему обретает способность непрерывно генерировать новые решения.

«Все сущее», в свою очередь, соответствует новым популяциям и новым потенциальным решениям, которые непрерывно возникают поверх этого генеративного порядка. Они не производятся вслепую, а возникают непрерывно в рамках уже сформированного направления, структуры и ограничений замкнутого цикла. Именно по этой причине EvoGO развивает не просто способность «находить лучшие решения быстрее», а новую способность эволюционной оптимизации генерировать законы из опыта, а затем непрерывно генерировать решения на основе этих законов.

Философское значение EvoGO заключается не в простой замене традиционных операторов. Скорее, оно заключается в том, чтобы более ясно показать, что оптимизацию не обязательно развивать только с помощью заранее написанных правил; через накопление, дифференциацию и организацию опыта она может постепенно формировать свой собственный генеративный порядок.

Заключение и перспективы

В центре внимания EvoGO находится не просто локальное улучшение традиционного конвейера эволюционной оптимизации, а более фундаментальная реконструкция того, как происходит сама оптимизация. Организуя оптимизацию в три объединенных этапа: подготовки данных, обучения модели и генерации популяции, а также внедряя направленное построение данных на основе пар «лучшее-худшее», парную генеративную архитектуру с суррогатным руководством и механизм параллельной генерации популяции, EvoGO демонстрирует стабильные преимущества как в производительности, так и в эффективности на стандартных эталонных тестах. В то же время он также подтвердил свой потенциал для реальных сложных инженерных задач с помощью оптимизации проектирования сверхкритического крыла широкофюзеляжного авиалайнера следующего поколения. На более высоком уровне значение этой работы заключается в том, чтобы показать, что эволюционная оптимизация не обязательно должна оставаться ограниченной вручную заданными эвристическими правилами. Сам процесс оптимизации может постепенно извлекаться из исторического опыта как обучаемый закон.

Открытый исходный код / Сообщество

EvoGO построен поверх фреймворка EvoX. Если вы заинтересованы в EvoX, вы можете ознакомиться со статьями (https://mp.weixin.qq.com/s/uT6qSqiWiqevPRRTAVIusQ) в публичном аккаунте EvoX для получения более подробной информации.