

На 14 април въплътеният AI стартъп BeingBeyond пусна своя флагмански модел от трето поколение, Being-H0.7. Моделът е обучен на приблизително 200 000 часа човешки видео данни и въвежда нова парадигма на световния модел, базирана на разсъждения в латентно пространство. Според компанията, Being-H0.7 се класира на първо място в шест международни теста, надминавайки четири от тях, с покритие, обхващащо задачи за кръстосано въплъщение, непрекъсната динамика, течности и манипулиране на деформируеми обекти.

Преди това компанията представи Being-H0 и Being-H0.5, обучени съответно на 1000 часа и 10 000 часа човешко видео, изследвайки мащабен подход за въплътено обучение, управлявано от видео. Последната версия значително разширява както мащаба на данните, така и възможностите на модела, като въвежда латентни заявки като междинни променливи в латентното пространство за интегриране на наблюдение и вземане на решения за действие.
Моделът приема архитектура с двоен клон, състояща се от заден клон и предходен клон, който разчита само на текущи наблюдения. Използва се механизъм за кръстосано подравняване, за да се подобри обобщаването в реални среди. В сравнение с традиционните модели vision-language-action (VLA), които директно извеждат действия или модели на света, базирани на генериране на видео на ниво пиксел, Being-H0.7 набляга на разсъжденията и компресираното представяне в латентно пространство.
BeingBeyond заявява, че моделът може да изпълнява задачи за физическо взаимодействие без изрична бъдеща реконструкция на ниво пиксел, демонстрирайки силна производителност при прогнозиране на траекторията, контрол на течности и манипулиране на деформируем обект.
Източник: Synced
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта
