EvoGO: Computação em GPU × Aprendizagem Generativa → Um Novo Paradigma para Algoritmos Evolutivos com Convergência em 10 Gerações

EvoGO: Computação em GPU × Aprendizagem Generativa → Um Novo Paradigma para Algoritmos Evolutivos com Convergência em 10 Gerações

image1

Nos últimos anos, os métodos de otimização evolutiva baseados em dados registaram um progresso notável. Desde algoritmos evolutivos assistidos por modelos substitutos (surrogate) até algoritmos evolutivos generativos, a otimização evolutiva tem mudado gradualmente de paradigmas tradicionais orientados por operadores fixos para paradigmas orientados por aprendizagem. No entanto, a natureza orientada por dados dos métodos existentes continua incompleta em três aspetos importantes. Primeiro, a coordenação entre o mecanismo generativo e o processo evolutivo ainda depende frequentemente de regras heurísticas desenhadas manualmente. Segundo, os objetivos de treino dos modelos generativos são geralmente herdados de tarefas de geração de propósito geral e não estão suficientemente alinhados com os objetivos de otimização. Terceiro, as amostras online extremamente limitadas, mas altamente valiosas, disponíveis na otimização de caixa negra ainda não foram organizadas sistematicamente em experiência de otimização que possa ser aprendida e transferida. Para resolver estes problemas, a equipa EvoX propôs a Otimização Generativa Evolutiva (EvoGO), que organiza todo o processo de otimização em três fases unificadas: preparação de dados, treino do modelo e geração da população. O objetivo é permitir que os algoritmos de otimização aprendam diretamente a lei de melhoria que consiste em passar de soluções inferiores para soluções superiores a partir de dados históricos. Os resultados experimentais mostram que o EvoGO demonstra vantagens estáveis em três categorias de tarefas — otimização numérica, controlo clássico e controlo robótico de alta dimensão — cobrindo 25 testes de referência (benchmarks) e escalas de problemas que variam de 10 a 1000 dimensões, convergindo na maioria das tarefas de larga escala em cerca de 10 gerações. Em tarefas complexas, quando combinado com a inferência paralela em GPU, o EvoGO também mostra vantagens práticas significativas no tempo de execução; quando o CMA-ES atinge o seu desempenho convergente, o EvoGO consegue atingir o mesmo desempenho até 134 vezes mais rápido. Estes resultados indicam que a otimização evolutiva totalmente orientada por dados não só pode alcançar resultados competitivos em testes de referência padrão, mas também começa a reescrever o próprio processo de pesquisa.

O Dilema: A Otimização Orientada por Dados Ainda Não Deu o Último Passo

Nos últimos anos, os métodos de otimização evolutiva baseados em dados desenvolveram-se rapidamente. Os métodos assistidos por substitutos e os métodos baseados em modelos generativos já impulsionaram a otimização evolutiva de uma pesquisa orientada por operadores fixos para uma pesquisa orientada pela aprendizagem. Isto significa que os modelos de aprendizagem começaram a entrar em várias fases do fluxo de trabalho, incluindo a avaliação, a modelação e até a geração.

No entanto, esta transformação ainda está incompleta. Os métodos existentes podem ter aprendido a “avaliar” ou a “gerar” a diferentes níveis, mas ainda não aprenderam verdadeiramente a “otimizar”. Por um lado, a produção da próxima geração de soluções candidatas ainda depende frequentemente de regras heurísticas desenhadas manualmente para coordenação. Por outro lado, o objetivo da geração e o objetivo da otimização estão muitas vezes insuficientemente alinhados. Ao mesmo tempo, as amostras online extremamente limitadas disponíveis na otimização de caixa negra ainda não foram sistematicamente transformadas em experiência de otimização aprendível e transferível.

Portanto, o que verdadeiramente falta hoje não são mais modelos por si só, mas sim o passo final: permitir que os algoritmos de otimização aprendam diretamente o processo de passar de soluções piores para soluções melhores a partir de dados históricos. É exatamente este o passo que o EvoGO procura dar.

A Inovação: Como o EvoGO Reescreve o Fluxo de Otimização

Para abordar os problemas acima referidos, o EvoGO não continua pelo caminho tradicional de melhorar os operadores locais, como o cruzamento e a mutação. Em vez disso, tenta reescrever o fluxo de otimização a um nível mais holístico. A sua ideia central é remover o processo de “como gerar a próxima geração de soluções candidatas” das regras escritas manualmente e entregá-lo a um mecanismo generativo orientado por dados para que este aprenda. Especificamente, o EvoGO organiza todo o processo de otimização em três fases unificadas — preparação de dados, treino do modelo e geração da população — para que a organização da experiência, a aprendizagem direcional e a atualização da população deixem de ser fragmentadas e passem a estar integradas num único ciclo de otimização.

image2

Na fase de preparação de dados, o EvoGO primeiro filtra amostras de alta qualidade de populações históricas para construir uma base de treino mais fiável. Quando as amostras são escassas, o aumento de dados aprendido (learned augmentation) também pode ser usado para mitigar a escassez de dados. Mais importante ainda, as amostras são subdivididas em soluções superiores e inferiores e organizadas em relações emparelhadas. Como resultado, o que o modelo aprende já não é apenas uma distribuição estática de soluções candidatas, mas sim a relação direcional da passagem de soluções inferiores para soluções superiores.

Na fase de treino do modelo, o EvoGO adota uma estrutura emparelhada que consiste num modelo substituto, num gerador direto (forward generator) e num gerador pseudo-inverso. O modelo substituto fornece uma caracterização aproximada do panorama do objetivo (objective landscape); o gerador direto aprende o mapeamento das soluções inferiores para as superiores; e o gerador pseudo-inverso mantém a estabilidade do treino através de uma restrição de consistência de reconstrução. Ao contrário das tarefas gerais de geração, o objetivo do treino aqui não é meramente ajustar-se à distribuição de dados, mas garantir que o processo de geração avance em direção a regiões melhores sob a orientação do panorama do objetivo.

Na fase de geração da população, o modelo generativo treinado atua diretamente sobre a população atual para produzir uma nova geração de soluções candidatas em paralelo. Estas soluções são depois avaliadas pela função objetivo real, e o estado da população é atualizado em conformidade antes de entrar na iteração seguinte. Neste ponto, a forma como as atualizações da população são executadas muda fundamentalmente. A otimização evolutiva tradicional depende principalmente de regras de cruzamento, mutação e seleção especificadas manualmente para explorar gradualmente o espaço de pesquisa, enquanto o EvoGO transforma este processo num mecanismo de atualização paralela impulsionado por dados históricos e implementado por um modelo generativo.

O paralelismo do EvoGO opera a dois níveis. Por um lado, a população pode ser representada numa forma tensorizada, permitindo que a geração e a avaliação de indivíduos sejam executadas em paralelo na GPU. Por outro lado, o EvoGO também pode executar vários modelos generativos simultaneamente numa única GPU, permitindo a otimização paralela através de diferentes sementes aleatórias (random seeds) ou diferentes instâncias de problemas. A sua capacidade paralela, portanto, existe tanto dentro das populações quanto através de múltiplas populações.

Desta perspetiva, a principal contribuição do EvoGO não é simplesmente a introdução de um modelo generativo, mas a unificação da organização de amostras, alinhamento de objetivos e atualização de populações dentro de uma única estrutura metodológica. A otimização evolutiva tradicional enfatiza a pesquisa impulsionada por regras pré-escritas, ao passo que o EvoGO dá um passo em frente ao tentar deixar o sistema aprender o próprio processo de pesquisa diretamente a partir de dados históricos.

Validação: Avaliação de Desempenho e Análise Mecanística

Para avaliar rigorosamente a eficácia deste novo paradigma totalmente baseado em dados, o artigo foca-se em três questões essenciais: O EvoGO é suficientemente poderoso e eficiente? Quais são as escolhas de design cruciais por trás do seu sucesso? Que comportamento de pesquisa inteligente exibe?

1. Comparação de Desempenho: A “Convergência em 10 Gerações” Lidera nos Benchmarks

O artigo realiza uma avaliação sistemática em três categorias de tarefas — otimização numérica, controlo clássico e controlo robótico de alta dimensão — cobrindo 25 testes de referência com dimensões de problemas que variam de 10 a 1000. O EvoGO é comparado de forma abrangente com a otimização bayesiana, estratégias de evolução clássicas, métodos heurísticos e métodos avançados assistidos por substitutos.

image3

image4

No geral, o EvoGO demonstra vantagens claras na maioria das tarefas. Notavelmente, esta vantagem não se restringe a problemas de baixa dimensão ou relativamente regulares. Pelo contrário, à medida que a dimensionalidade do problema e a complexidade da tarefa aumentam, a vantagem do EvoGO torna-se frequentemente mais pronunciada. Sob condições de baixa dimensão e amostras pequenas, alguns dos métodos assistidos por substitutos mais fortes permanecem altamente competitivos. Mas quando os problemas se tornam de alta dimensão, complexos e dependentes de computação paralela, o mecanismo generativo do EvoGO consegue expandir-se mais plenamente, e na maioria das tarefas de larga escala pode convergir em cerca de 10 gerações. Isto sugere que o valor do EvoGO não reside em alcançar a superioridade local num único tipo de problema, mas em estar mais bem adaptado à utilização de experiência em larga escala e à pesquisa paralela exigidas pela otimização complexa de caixa negra.

image5

Isto é especialmente evidente no ambiente de controlo robótico de alta dimensão Hopper no Brax. Com o mesmo orçamento de avaliação de funções e orçamento de tempo de execução, o EvoGO supera significativamente os algoritmos de otimização tradicionais, como o CMA-ES e o TPE, e também supera o algoritmo de aprendizagem por reforço PPO, que requer interação online com o ambiente. Mais importante ainda, graças ao poder de computação paralela de hardware moderno, como GPUs, o EvoGO consegue atingir um nível de recompensa elevado em cerca de 500 segundos. Quando o CMA-ES finalmente converge para o seu melhor nível de desempenho, o tempo real de relógio necessário para o EvoGO atingir o mesmo desempenho é muito mais curto — um aumento de velocidade de até 134 vezes. Este resultado mostra que a vantagem do EvoGO não está apenas na redução do número de gerações, mas no facto de que o seu próprio processo de pesquisa está mais bem ajustado aos recursos de computação paralela, comprimindo ações de otimização que, de outra forma, se espalhariam por muitas gerações num processo de atualização generativa de alto rendimento.

2. Estudo de Ablação: Dissecando as Chaves para o Sucesso

Para verificar a necessidade dos componentes centrais no design “totalmente orientado por dados” do EvoGO, a equipa de investigação conduziu ablações sistemáticas centradas na arquitetura generativa emparelhada, no mecanismo de orientação por substitutos e no design de objetivos orientado para a otimização. Foram construídas cinco variantes: uma versão de gerador único, uma versão sem substituto, uma versão de objetivo adversarial, uma versão de substituto MLP e uma versão de substituto heurístico.

Os resultados experimentais revelam que a arquitetura generativa emparelhada, o mecanismo de orientação por substitutos e o design de objetivos orientado para a otimização são todos cruciais para a eficácia do EvoGO. A remoção do gerador pseudo-inverso leva a uma estabilidade de convergência visivelmente pior e a uma redução da diversidade da população, indicando que a estrutura emparelhada formada pela geração direta e por restrições inversas é necessária para manter a estabilidade do treino e evitar o colapso do modo (mode collapse). A remoção do modelo substituto, ou a substituição do objetivo de otimização original por um objetivo adversarial geral, também causa uma degradação significativa no desempenho, demonstrando que a orientação por substitutos e o alinhamento de objetivos são centrais para a vantagem do método. A substituição do processo Gaussiano por um perceptrão multicamadas (MLP) ou por regras heurísticas ainda deixa o método funcional, mas com um ligeiro declínio geral, indicando que o EvoGO não depende de uma forma específica de substituto, embora a modelação explícita da incerteza seja mais benéfica para o desempenho. Globalmente, os ganhos de desempenho do EvoGO não provêm de um único módulo, mas sim da sinergia entre a arquitetura generativa emparelhada, o mecanismo de orientação por substitutos e o design de objetivos orientado para a otimização.

3. Visualização de Comportamento: Revelando um Processo Dinâmico Orientado por Dados

Para analisar de forma mais intuitiva a dinâmica de pesquisa do EvoGO, o artigo apresenta uma experiência de visualização na função de Ackley bidimensional, com o tamanho da população definido como 100. Especificamente, em diferentes gerações evolutivas, os resultados da transformação do gerador direto treinado nas soluções de entrada são registados — isto é, o processo de mapeamento das soluções de entrada para as soluções de saída é rastreado. Na figura, as setas representam vetores desde as soluções de entrada até às soluções de saída, e as suas cores correspondem aos comprimentos dos vetores. A estrela marca o ótimo global e as caixas tracejadas indicam as regiões cobertas pelas soluções geradas em diferentes gerações. Para maior clareza, as configurações de translação e rotação do panorama da função foram omitidas nesta visualização.

image7

Os resultados da visualização mostram que o que o EvoGO aprende não é uma perturbação aleatória sem direção, mas um padrão de atualização que se adapta à fase de pesquisa. Na fase inicial, os vetores gerados são geralmente mais longos, indicando que o algoritmo tende a uma exploração global de grande amplitude. À medida que a evolução avança, os comprimentos dos vetores diminuem gradualmente e as regiões geradas continuam a contrair-se, demonstrando que a pesquisa se desloca para uma explotação (exploitation) local mais fina. Ao mesmo tempo, os vetores como um todo reúnem-se em direção à região ótima, o que indica que o gerador direto já extraiu uma direção de pesquisa com significado prático a partir de amostras históricas. A nível comportamental, este fenómeno apoia a propriedade central do EvoGO: não aprende meramente a distribuição de soluções candidatas, mas a lei de atualização que passa do estado atual para um estado melhor.

Aplicação: Validação de Engenharia numa Asa Supercrítica de um Avião Comercial de Fuselagem Larga

A entrega bem-sucedida do C919 marca um passo crucial para a China no desenvolvimento de grandes aviões de produção nacional. Contudo, como avião de corredor único (fuselagem estreita), o C919 serve principalmente rotas de curto e médio curso, sendo ainda necessários avanços no domínio dos aviões de fuselagem larga. Para responder às necessidades de desenvolvimento da próxima geração de aviões de fuselagem larga de produção nacional, a conceção de asas supercríticas tornou-se um tema-chave na otimização aerodinâmica, desempenhando um papel importante na redução do arrasto de cruzeiro, na melhoria da eficiência de combustível e no aumento da estabilidade de voo. Por conseguinte, a forma de conseguir uma otimização eficiente e fiável de asas supercríticas tornou-se um desafio técnico central no processo de desenvolvimento de aviões de fuselagem larga da China.

image8

Como demonstrado no artigo original, ao otimizar características geométricas como uma corda mais longa, um extradorso (superfície superior) mais plano e o aumento da curvatura do bordo de fuga, uma asa supercrítica pode regular a distribuição de pressão transónica, suprimir a formação de ondas de choque, reduzir o arrasto de onda e melhorar a eficiência de sustentação. No entanto, o seu desenho ótimo enfrenta vários desafios. Por um lado, sob condições de elevado número de Reynolds em aviões de fuselagem larga, o design tem de satisfazer simultaneamente restrições aerodinâmicas rigorosas, como a relação sustentação/arrasto, o coeficiente de sustentação e o ângulo de ataque de cruzeiro, o que impõe exigências de precisão extremamente elevadas aos parâmetros de forma. Por outro lado, existe uma forte relação de acoplamento não linear entre a geometria do perfil alar e o desempenho aerodinâmico, algo difícil de caracterizar com precisão através de métodos tradicionais de modelação. Além disso, o atual processo de conceção depende fortemente da experiência, de repetidas simulações CFD e de experiências em túnel de vento, conduzindo a elevados custos computacionais, a ciclos de desenvolvimento prolongados e a uma dificuldade em aproximar-se eficazmente do ótimo global num espaço de design de alta dimensão.

image9

Para resolver este problema, a equipa EvoX construiu um fluxo de trabalho de conceção integrado com base no EvoGO, constituído pela avaliação de desempenho, geração de perfis alares e seleção de candidatos. Baseado num pequeno número de amostras históricas de perfis alares, o método constrói um modelo de avaliação de desempenho, um modelo de geração de perfis alares e um modelo de triagem, melhorando continuamente a conceção do perfil alar através da evolução iterativa. Um modelo substituto é utilizado para prever com precisão métricas cruciais, como a relação sustentação/arrasto, o coeficiente de sustentação e o ângulo de ataque de cruzeiro. Paralelamente, é introduzido um mecanismo generativo para substituir a pesquisa heurística tradicional, permitindo uma aproximação eficiente do ótimo num espaço de conceção de alta dimensão. Em conjunto com uma estratégia de triagem de candidatos, este método consegue identificar rapidamente potenciais perfis alares que cumprem simultaneamente as restrições físicas e os requisitos de desempenho aerodinâmico a partir de um vasto espaço de pesquisa, melhorando assim a eficiência da conceção.

image10

Recorrendo a apenas 500 amostras históricas de perfis alares, o método atinge mais de 99,5% de precisão de previsão em três indicadores aerodinâmicos chave — relação sustentação/arrasto, coeficiente de sustentação e ângulo de ataque de cruzeiro — e a taxa de qualificação dos perfis alares gerados automaticamente ultrapassa os 95%. Estes resultados indicam que os métodos de otimização evolutiva totalmente orientados por dados, como o EvoGO, não só podem obter bons resultados em testes de referência (benchmarks) padrão, como também estão a começar a demonstrar capacidade para fornecer apoio eficaz ao design em problemas reais de engenharia.

Aprofundando a Visão: Da Física à Filosofia, Reinterpretando o EvoGO

Perspetiva Física: Do “Tentativa e Erro” Desordenado para a Evolução Ordenada

De uma perspetiva física, a otimização de caixa negra pode ser entendida como um processo de procurar gradualmente um estado mais estável dentro de um campo de potencial real, mas incompletamente observável. Para o otimizador, a função objetivo e o seu panorama de aptidão (fitness landscape) existem objetivamente em todos os momentos, mas no momento inicial o sistema apenas pode obter conhecimento local através de amostragem e avaliação limitadas. A pesquisa acarreta, portanto, naturalmente uma elevada incerteza.

A otimização evolutiva tradicional depende mais de perturbação local e de tentativa e erro aleatória. Embora possa aproximar-se progressivamente de regiões melhores através de amostragem e seleção repetidas, o processo de pesquisa ainda se manifesta grandemente como uma exploração local de alta entropia, e a experiência histórica é difícil de acumular sistematicamente. O que distingue o EvoGO é que vai mais além, organizando amostras históricas numa base de informação que codifica a direção e a estrutura. O modelo substituto fornece uma compreensão aproximada do panorama do objetivo local; o emparelhamento de soluções superiores e inferiores extrai informação direcional sobre a passagem de regiões piores para regiões melhores; e o ciclo formado pela geração direta e restrições inversas permite que este processo de atualização direcional se desenrole continuamente, mantendo-se estável.

Em termos físicos, o EvoGO assemelha-se mais a um processo no qual uma estrutura ordenada se forma gradualmente sob a orientação de um campo de potencial eficaz. O que ele faz não é meramente acelerar a pesquisa, mas sim reduzir de forma progressiva a incerteza da pesquisa sob observabilidade limitada, transformando a atualização da população de tentativa e erro desordenada num fluxo evolutivo organizado. A velocidade é apenas o resultado; a alteração mais profunda reside no facto de que a experiência histórica começa a ser transformada em informação estrutural que pode ser acumulada, transmitida e reutilizada.

Perspetiva Filosófica: Do “Dao Dá Origem a Todas as Coisas” à Geração de Leis

Do ponto de vista filosófico, o que é ainda mais digno de destaque em relação ao EvoGO é que corporiza um processo generativo que avança da experiência para a ordem, e do local para o todo. Este processo pode ser resumido através da frase clássica: “O Dao dá origem ao Um, o Um dá origem ao Dois, o Dois dá origem ao Três e o Três dá origem a todas as coisas.”

O “Dao” corresponde à lei verdadeira, objetivamente existente mas não totalmente apreensível, do problema-alvo. Na otimização, a solução ótima não é prescrita subjetivamente pelo algoritmo; em vez disso, está sempre latente na função objetivo real e no seu panorama de aptidão. O que o algoritmo pode fazer não é criar o Dao, mas apenas aproximar-se continuamente dele.

O “Um” corresponde à estrutura unificada extraída da experiência desordenada. Inicialmente, as amostras históricas não são mais do que vestígios dispersos da pesquisa; não constituem conhecimento de forma automática. Apenas quando estas amostras são ordenadas, filtradas e organizadas é que a experiência começa a evoluir da desordem para um todo passível de ser aprendido. É este o sentido de “dar origem ao Um”.

O “Dois” corresponde à diferenciação — ao surgimento de direção. A divisão entre soluções superiores e inferiores não representa meramente a distinção entre bom e mau; mais importante, assinala a primeira vez que o sistema adquire um sentido de direção através da experiência. Sem esta diferenciação, a experiência é apenas acumulada; com ela, a experiência ganha uma tensão evolutiva.

O “Três” corresponde ao encerramento — à geração de relações. Quando a cognição objetiva, a progressão direta e a restrição de retrocesso formam, em conjunto, um sistema autoconsistente, a otimização deixa de ser uma colagem de operações locais e começa a tomar a forma de um mecanismo integral, capaz de automanutenção e autocorreção. Neste momento, o método adquire verdadeiramente a capacidade de gerar novas soluções de forma contínua.

As “todas as coisas” correspondem então às novas populações e às novas soluções candidatas que emergem de forma ininterrupta sobre esta ordem generativa. Não são produzidas de forma cega, mas surgem continuamente no âmbito de uma direção, estrutura e restrições de ciclo fechado já consolidadas. É precisamente por este motivo que o avanço proporcionado pelo EvoGO não se resume à capacidade de “encontrar soluções melhores com maior rapidez”, mas antes a uma nova aptidão para a otimização evolutiva gerar leis a partir da experiência e, subsequentemente, gerar soluções de forma contínua a partir dessas leis.

O significado filosófico do EvoGO não se encontra na simples substituição dos operadores tradicionais. Em vez disso, reside em demonstrar com maior clareza que o progresso da otimização não tem de ser conduzido apenas por regras preestabelecidas; através da acumulação, diferenciação e organização da experiência, a otimização pode gradualmente formar a sua própria ordem generativa.

Conclusão e Perspetivas

O foco do EvoGO não é apenas uma melhoria local do fluxo tradicional de otimização evolutiva, mas sim uma reconstrução mais fundamental do modo como a própria otimização se concretiza. Ao organizar a otimização nas três fases unificadas de preparação de dados, treino do modelo e geração de população, e ao introduzir a construção de dados direcionais baseada no emparelhamento superior-inferior, uma arquitetura generativa emparelhada guiada por substitutos e um mecanismo paralelo de geração de população, o EvoGO demonstra vantagens consistentes, quer em desempenho, quer em eficiência, em testes de referência padrão. Ao mesmo tempo, validou também o seu potencial para resolver problemas reais e complexos de engenharia, mediante a otimização do design de asas supercríticas para a próxima geração de aviões comerciais de fuselagem larga. Num nível mais elevado, o valor deste trabalho reside em mostrar que a otimização evolutiva não tem necessariamente de se manter confinada a regras heurísticas definidas manualmente. O próprio processo de otimização pode ser progressivamente extraído da experiência histórica como uma lei passível de ser aprendida.

Código Open-Source / Comunidade

O EvoGO é desenvolvido sobre a base da estrutura do EvoX. Se estiver interessado no EvoX, está convidado a consultar os artigos (https://mp.weixin.qq.com/s/uT6qSqiWiqevPRRTAVIusQ) na conta pública do EvoX para obter mais informações.