Jak nowy ewolucyjny algorytm Sakana AI tworzy potężne modele sztucznej inteligencji bez kosztownego ponownego szkolenia

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Nowa technika ewolucyjna opracowana przez japońskie laboratorium sztucznej inteligencji Sakana AI umożliwia programistom rozszerzanie możliwości modeli sztucznej inteligencji bez kosztownego szkolenia i procesów dostrajania. Technika ta, zwana Model Merging of Natural Niches (M2N2), pokonuje ograniczenia innych metod łączenia modeli i pozwala nawet tworzyć nowe modele całkowicie od podstaw.
M2N2 można zastosować do różnych typów modeli uczenia maszynowego, w tym do modeli dużego języka (LLM) i generatorów tekstu do obrazu. Dla przedsiębiorstw, które chcą tworzyć niestandardowe rozwiązania AI, podejście to oferuje potężny i wydajny sposób tworzenia wyspecjalizowanych modeli poprzez połączenie zalet istniejących wariantów open source.
Scalanie modeli to technika integrowania wiedzy z wielu wyspecjalizowanych modeli sztucznej inteligencji (AI) w jeden, bardziej wydajny model. Zamiast precyzyjnego dostrajania, które udoskonala pojedynczy, wstępnie wytrenowany model z wykorzystaniem nowych danych, scalanie łączy parametry kilku modeli jednocześnie. Proces ten pozwala skonsolidować bogactwo wiedzy w jeden zasób bez konieczności kosztownego, opartego na gradiencie szkolenia ani dostępu do oryginalnych danych treningowych.
Dla zespołów korporacyjnych oferuje to szereg praktycznych korzyści w porównaniu z tradycyjnym dostrajaniem. W komentarzu dla VentureBeat, autorzy artykułu stwierdzili, że scalanie modeli to proces bezgradientowy, wymagający jedynie przejść do przodu, co czyni go tańszym obliczeniowo niż dostrajanie, które wiąże się z kosztownymi aktualizacjami gradientów. Scalanie pozwala również uniknąć konieczności starannie zbilansowanych danych treningowych i minimalizuje ryzyko „ katastrofalnego zapominania ”, gdzie model traci swoje pierwotne możliwości po nauczeniu się nowego zadania. Technika ta jest szczególnie skuteczna, gdy dane treningowe dla specjalistycznych modeli nie są dostępne, ponieważ scalanie wymaga jedynie samych wag modelu.
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO
Wczesne podejścia do scalania modeli wymagały znacznego nakładu pracy ręcznej, ponieważ programiści dostosowywali współczynniki metodą prób i błędów, aby znaleźć optymalną kombinację. Ostatnio algorytmy ewolucyjne pomogły zautomatyzować ten proces, wyszukując optymalną kombinację parametrów. Nadal jednak istnieje istotny krok ręczny: programiści muszą ustawić stałe zestawy parametrów, które można scalić, takich jak warstwy. To ograniczenie ogranicza przestrzeń wyszukiwania i może uniemożliwić odkrycie bardziej zaawansowanych kombinacji.
M2N2 rozwiązuje te ograniczenia, czerpiąc inspirację z zasad ewolucji w naturze. Algorytm ma trzy kluczowe cechy, które pozwalają mu eksplorować szerszy zakres możliwości i odkrywać bardziej efektywne kombinacje modeli.

Po pierwsze, M2N2 eliminuje sztywne granice scalania, takie jak bloki czy warstwy. Zamiast grupować parametry według predefiniowanych warstw, algorytm wykorzystuje elastyczne „punkty podziału” i „współczynnik mieszania” do dzielenia i łączenia modeli. Oznacza to, że na przykład algorytm może scalić 30% parametrów z jednej warstwy z Modelu A z 70% parametrów z tej samej warstwy w Modelu B. Proces rozpoczyna się od „archiwum” modeli zalążkowych. Na każdym etapie M2N2 wybiera dwa modele z archiwum, określa współczynnik mieszania i punkt podziału, a następnie je scala. Jeśli wynikowy model działa dobrze, jest dodawany z powrotem do archiwum, zastępując słabszy model. Pozwala to algorytmowi na eksplorację coraz bardziej złożonych kombinacji w czasie. Jak zauważają badacze: „To stopniowe wprowadzanie złożoności zapewnia szerszy zakres możliwości przy jednoczesnym zachowaniu wykonalności obliczeniowej”.
Po drugie, M2N2 zarządza różnorodnością populacji modelu poprzez konkurencję. Aby zrozumieć, dlaczego różnorodność jest kluczowa, badacze proponują prostą analogię: „Wyobraźmy sobie scalanie dwóch arkuszy odpowiedzi na egzamin… Jeśli oba arkusze zawierają dokładnie te same odpowiedzi, ich połączenie nie przyniesie żadnych korzyści. Ale jeśli każdy arkusz zawiera poprawne odpowiedzi na różne pytania, ich połączenie daje znacznie lepszy wynik”. Scalanie modeli działa w ten sam sposób. Wyzwaniem jest jednak zdefiniowanie, jaki rodzaj różnorodności jest cenny. Zamiast polegać na ręcznie tworzonych metrykach, M2N2 symuluje konkurencję o ograniczone zasoby. To inspirowane naturą podejście w naturalny sposób nagradza modele o unikalnych umiejętnościach, ponieważ potrafią one „wykorzystać niekwestionowane zasoby” i rozwiązywać problemy, których inni nie potrafią. Autorzy zauważają, że ci niszowi specjaliści są najbardziej wartościowi w procesie scalania.
Po trzecie, M2N2 wykorzystuje heurystykę zwaną „atrakcją” do parowania modeli do scalania. Zamiast po prostu łączyć modele o najlepszych wynikach, jak w innych algorytmach scalania, paruje je w oparciu o ich uzupełniające się mocne strony. „Wskaźnik atrakcyjności” identyfikuje pary, w których jeden model dobrze radzi sobie w punktach danych, które drugi uznaje za trudne. Poprawia to zarówno efektywność wyszukiwania, jak i jakość finalnego scalonego modelu.
Naukowcy przetestowali M2N2 w trzech różnych domenach, wykazując jego wszechstronność i skuteczność.
Pierwszym z nich był eksperyment na małą skalę, w którym od podstaw opracowano klasyfikatory obrazów oparte na sieciach neuronowych na zbiorze danych MNIST . Metoda M2N2 osiągnęła najwyższą dokładność testu, ze znaczną przewagą w porównaniu z innymi metodami. Wyniki pokazały, że kluczowy był mechanizm zachowania różnorodności, umożliwiający archiwizację modeli o uzupełniających się mocnych stronach, co ułatwiało efektywne scalanie, a jednocześnie systematyczne odrzucanie słabszych rozwiązań.
Następnie zastosowali M2N2 do LLM, łącząc model specjalisty matematycznego (WizardMath-7B) ze specjalistą agentowym (AgentEvol-7B), oba oparte na architekturze Llama 2. Celem było stworzenie jednego agenta, który doskonale radziłby sobie zarówno z problemami matematycznymi (zestaw danych GSM8K), jak i zadaniami internetowymi (zestaw danych WebShop). Powstały model osiągnął wysoką wydajność w obu testach porównawczych, co dowodzi zdolności M2N2 do tworzenia wydajnych modeli o wielu umiejętnościach.

Na koniec zespół połączył modele generowania obrazu oparte na dyfuzji. Połączyli model trenowany na japońskich komunikatach (JSDXL) z trzema modelami stabilnej dyfuzji trenowanymi głównie na komunikatach w języku angielskim. Celem było stworzenie modelu łączącego najlepsze możliwości generowania obrazu każdego modelu źródłowego, przy jednoczesnym zachowaniu zdolności rozumienia języka japońskiego. Połączony model nie tylko generował bardziej fotorealistyczne obrazy z lepszym rozumieniem semantycznym, ale także rozwijał wrodzoną zdolność dwujęzyczną. Mógł generować wysokiej jakości obrazy zarówno z komunikatów w języku angielskim, jak i japońskim, mimo że był zoptymalizowany wyłącznie pod kątem napisów w języku japońskim.
Dla przedsiębiorstw, które opracowały już specjalistyczne modele, uzasadnienie biznesowe dla fuzji jest przekonujące. Autorzy wskazują na nowe, hybrydowe możliwości, które trudno byłoby osiągnąć w inny sposób. Na przykład, połączenie modelu LLM, precyzyjnie dostosowanego do przekonujących prezentacji sprzedażowych, z modelem wizji wyszkolonym w interpretowaniu reakcji klientów, mogłoby stworzyć jednego agenta, który dostosowuje swoją prezentację w czasie rzeczywistym na podstawie informacji wideo na żywo. Uwalnia to połączoną inteligencję wielu modeli, przy kosztach i opóźnieniach związanych z uruchomieniem tylko jednego.
Patrząc w przyszłość, naukowcy postrzegają techniki takie jak M2N2 jako część szerszego trendu w kierunku „fuzji modeli”. Przewidują przyszłość, w której organizacje będą utrzymywać całe ekosystemy modeli AI, które będą stale ewoluować i łączyć się, aby dostosowywać się do nowych wyzwań.
„Można to sobie wyobrazić jako rozwijający się ekosystem, w którym możliwości są łączone w razie potrzeby, zamiast budować jeden gigantyczny monolit od podstaw” – sugerują autorzy.
Naukowcy opublikowali kod M2N2 w serwisie GitHub .
Autorzy uważają, że największą przeszkodą dla tego dynamicznego, samodoskonalącego się ekosystemu AI nie jest kwestia techniczna, lecz organizacyjna. „W świecie rozbudowanego, scalonego modelu, składającego się z komponentów open source, komercyjnych i niestandardowych, zapewnienie prywatności, bezpieczeństwa i zgodności będzie kluczowym problemem”. Dla firm wyzwaniem będzie ustalenie, które modele można bezpiecznie i skutecznie wchłonąć do ich ewoluującego stosu AI.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat