


4 февруари — Лабораторията за изкуствен интелект в Шанхай обяви пускането с отворен код на Intern-S1-Pro, модел на научна мултимодална основа, който описва като най-големия по рода си в глобалната общност с отворен код.
Изграден на базата на архитектурата SAGE на лабораторията за „общоспециализирано синтезиране“, Intern-S1-Pro използва дизайн на Mixture-of-Experts (MoE) с общо един трилион параметри, активирайки само осем експерта – около 22 милиарда параметъра – на извод. Лабораторията твърди, че моделът осигурява значителен напредък в основните научни възможности: той се класира на най-високото ниво в световен мащаб в бенчмарковете AI-for-Science, демонстрира математически разсъждения на ниво златен медал на олимпиада и се нарежда сред водещите модели с отворен код за базирани на агенти работни потоци в реални научни изследвания.
Моделът въвежда и два основополагащи архитектурни пробива. Първо, той включва позиционно кодиране на Фурие и преработен темпорален енкодер, за да обедини разбирането на сигналите от микроскопични до макроскопични мащаби. Второ, той използва ефективен механизъм за маршрутизиране, който преодолява пречките в стабилността и изчислителната ефективност при обучението на MoE модели с трилиони параметри.
Според Shanghai AI Lab, Intern-S1-Pro валидира напълно автономен технологичен стек – от оригиналната архитектура на модела до вътрешно разработената изчислителна инфраструктура.
Източник: IT home
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта
