Ускорете времето за прозрения за AI и HPC

Share

Спонсорирана функция И така, най-накрая сте готови да се включите в AI бандата. Имате множество данни, които лежат около вашата компания и сте нетърпеливи да отключите нейната стойност. Но изчакайте малко – вашата инфраструктура готова ли е да се справи с това?

Погледнете внимателно и е вероятно да намерите тесни места, които ще задушат вашите AI тръбопроводи. Поправянето на тези проблеми е жизненоважна част от пътуването на AI.

С настоящия интерес към генеративния AI никога не е имало по-добро време да подготвите инфраструктурата си за натоварвания на AI. През август 2023 г. McKinsey съобщи , че генеративният AI е подтикнал планове от 40 процента от организациите да увеличат общите си инвестиции в AI.

Днес компаниите използват както генеративен, така и негенеративен AI за голямо разнообразие от случаи на корпоративна употреба. На първо място е обслужването на клиенти, според проучване на Forbes Advisor сред 600 собственици на бизнес. На второ място е киберсигурността или управлението на измами, тъй като 51 процента от компаниите проучват използването на машинно обучение за откриване на подозрителна дейност. Използването на AI за корпоративни цифрови асистенти е на трето място, което показва силен интерес към генеративния AI, който все повече е в основата на тези агенти за лична производителност. След това идват CRM, управление на инвентара и производство на съдържание.

Облачните изчисления задвижват много от тези случаи на използване на AI, но често е по-евтино за по-големите компании да се справят с поне част от натоварването на AI в собствените си помещения. Те обаче са изправени пред две основни предизвикателства.

Недостатъци в инфраструктурата на предприятието

Първият е, че тяхната съществуваща инфраструктура често е недостатъчна, за да поддържа уникалните изисквания, открити в работните натоварвания на AI, предупреждава Стив Иланд, глобален продуктов мениджър за HPC/AI съхранение в Lenovo.

„Тъй като много хора започват да разбират какво искат да направят със своето AI решение и да го сглобят, те не разбират къде са тесните места в техните системи“, казва Ейланд. Те се сблъскват с проблеми с производителността, докато се борят да изградят и изпълнят тръбопроводите за данни, които захранват гладни приложения за машинно обучение.

Eiland разделя тези канали за данни на четири основни компонента. Първият е приемането на данни, което обработва филтрирането и буферирането нагоре по веригата. На второ място идва подготовката на данни, при която специалистите по данни почистват, нормализират и обобщават данни за процеса на обучение. Това също е частта от тръбопровода, където човешките оператори ще прилагат метаданни към тези данни, етикетирайки ги за контролирано машинно обучение.

След това идва обучението, интензивният изчислителен процес, в който се създава статистическият модел за извод. Както учените по данни знаят много добре, това е итеративен процес, който често изисква много тренировки, за да отговарят на желаните резултати възможно най-точно. Eiland също така включва архивиране на данни след обучение като част от тръбопровода за данни.

„Вместо да създадат безпроблемна инфраструктура, компаниите разделят всяко парче на сегменти и всяко парче в крайна сметка работи като силоз“, казва Иланд. „Тези силози причиняват проблеми със закъснението и времето и всеки върши собствените си неща в собствения си силоз.“

Изолираната инфраструктура, ограничена от затруднения в производителността, е един от проблемите, които Lenovo се надява да реши със своята стратегия „ИИ за всички“. Той черпи от широкото си портфолио от инфраструктура за данни, за да създаде унифицирани конфигурации от CPU, съхранение, GPU и мрежово оборудване, сертифицирани да работят заедно от край до край. Компанията се фокусира върху вертикали като търговия на дребно, производство, финанси и здравеопазване, като се консултира с клиенти за сглобяване на AI решения, съобразени с техните специфични изисквания.

Софтуерно дефинирано хранилище за AI тръбопроводи

Решението на Lenovo включва съхранение, базирано на софтуерно дефинирани принципи за съхранение. Тази концепция позволява на клиенти с гладни за данни AI работни натоварвания да увеличат капацитета за съхранение, без да жертват производителността, казва Александър Кранц, директор по стратегията в Lenovo.

„Когато погледнете традиционен масив за съхранение, можете лесно да добавите капацитет, но добавянето на производителност често е по-трудно“, казва той. „Способността да се поддържа този линеен растеж с производителност и капацитет е много ценна при тези видове натоварвания.“

За да се отговори на най-големите, най-високопроизводителни набори от данни, често се изисква софтуерно дефинирано решение за съхранение, за да се достави капацитетът и мащабът на производителност за захранване на най-взискателните нужди на AI тръбопровода. Lenovo добави партньорство с WEKA и архитектурни решения, които могат да осигурят единно пространство от имена в инфраструктурата за съхранение, разположена навсякъде, например, включително в облака или съвместими локални системи.

Високопроизводителната файлова система на Lenovo с WEKA Data Platform позволява на клиентите да изградят AI тръбопроводи за данни, извличащи данни от множество места в една софтуерно дефинирана инфраструктура за съхранение. Той помага да се осигури достъп до съответните данни, където и когато са необходими, с минимални разходи за управление, компресирайки сложни канали за данни. Това е критично за клиентите, които се опитват да захранват тези тръбопроводи, казва Кранц.

„Как поддържате тези графични процесори активни и използвани?“ размишлява той. „Често намираме клиенти, които ги купуват, защото смятат, че имат нужда от тях, но нямат готови тръбопроводи за данни, за да управляват тази инфраструктура.“

Корпоративните клиенти с по-малки набори от данни с изкуствен интелект могат да се възползват от масивите за съхранение на Lenovo ThinkSystem DG Series с флаш технология Quad-Level Cell (QLC) за най-добра цена-производителност. Серията Lenovo DG осигурява неструктурирано съхранение на данни от корпоративен клас за корпоративни работни натоварвания с интензивно четене, като предлага по-бърз прием на данни и ускоряване на времето за прозрение.

Поддържа множество модели на внедряване

За натоварвания на AI, глобалното пространство на имена позволява на потребителите да правят копия с нулеви разходи, вместо да копират данни в различни решения за съхранение от силози за данни, казва Кранц.

Кранц признава, че има силен импулс за мнозина да внедряват ИИ в различни конфигурации, а не само в собствените си помещения. Това включва както хибриден облак, така и крайно базирани конфигурации, при които данните се събират на крайни устройства и се обработват локално или се изпращат до централна точка.

Решението Lenovo High Performance File System предоставя лесна опция за клиентите да прехвърлят AI данни към и от облака за обработка, казва той. Решенията ThinkEdge на Lenovo също могат да стоят на ръба и да изпълняват AI натоварвания локално.

„Много от нашите клиенти разполагат с периферни данни, свързани с AI, като сензорни и видео данни. Способността за ефективно преместване на тези данни обратно в ядрото, за да се използват за продължаване на подобряването на AI моделите с течение на времето, е важна“, добавя Кранц.

Кондензиране на мрежа, изчисление и съхранение с HCI

Lenovo също се отличава с хиперконвергирана инфраструктура (HCI), която опростява внедряването на виртуални работни натоварвания, използвани за AI/ML задачи като обучение на модел, чрез намаляване на разходите за управление.

„Нашите системи позволяват тези данни лесно да бъдат преместени обратно и дори можем да използваме редукция на данни, където е подходящо, за да намалим количеството данни, изпращани от периферията към ядрото“, казва Кранц. „Това важи и в обратна посока: изпращане на новите модели, за да работят двигателите за изводи на ръба.“

Изводите често са критична част от процеса, жизненоважна, за да се гарантира, че AI проектите осигуряват бизнес стойност. Това може да е особено за тези, които събират и обработват информация на периферни места. Въпреки че тези набори от данни може да не са особено големи, те могат да бъдат критични за мисията и организациите все още се нуждаят от тях, за да бъдат лесно приспособени, често използвайки променливи комбинации от изчислителни и GPU ресурси. Изводите за сигурност на ръба, например, могат да бъдат не само критични за мисията, но и критични за безопасността в зависимост от конкретното приложение, което означава, че AI може да бъде най-важното работно натоварване в това местоположение.

Софтуерно дефинираният характер на HCI улеснява мащабирането на данни и изчислителни ресурси за AI. Линията ThinkAgile от HCI сървъри обединява мрежа, съхранение и изчисления заедно, използвайки интегрирани единици за обработка на данни (DPU), иначе известни като SmartNIC.

Те обединяват високоскоростни мрежови интерфейси, софтуерно дефинирано управление на съхранение и NVIDIA ускорители в един ASIC. Lenovo, че разтоварването на високоскоростната мрежова функция върху отделен DPU може да освободи 20 процента от времето на процесора, като същевременно премахва пречките за високоскоростен трансфер на данни към AI ускорителя.

Съхранението като услуга

Тъй като все повече предприятия приемат AI, ще са необходими и различни подходи към управлението на данни в зависимост от индивидуалните изисквания както на натоварването, така и на участващата организация. Изискванията за обучение и внедряване на готови AI модели ще бъдат различни от широкомащабните генеративни AI (GenAI) модели или LLMs. Освен това ще има различни изисквания за производителност и RAS в зависимост от конкретния модел и включените данни.

Другото нещо, което Lenovo може да направи, за да помогне на клиентите да отговорят на тези разнообразни изисквания, е да разшири съхранението на данни, от което се нуждаят в техните локални системи. Работните натоварвания на AI често се нуждаят от съхранение с голям капацитет за кратки периоди от време, тъй като те подготвят огромни количества данни за тренировъчни изпълнения. Това поставя клиентите пред труден избор: прекомерно предоставяне на хранилище и изправени пред високи капиталови разходи или недостатъчно предоставяне и гледане на задушаване на натоварването на AI през периоди на голямо търсене. Нито едно от двете не е привлекателно, поради което съхранението като услуга става все по-важно за клиентите.

Решенията за управление на данни TruScale на Lenovo предлагат инсталирано оборудване, което клиентите плащат въз основа на използването. Клиентите могат да увеличат или намалят използването на системите по желание, като плащат само за текущия си капацитет, което прави този модел на ценообразуване за съхранение подобен на публичния облак.

Има друго ниво на обслужване в рамките на този базиран на услуги модел за съхранение: TruScale Infinite Storage. Това включва опресняване на пълен стек на целия хардуер, свързан със съхранение след определен период, включително контролери. Това помага на клиентите да бъдат информирани, докато се стремят да поддържат и подобряват производителността на своите AI тръбопроводи, казва Кранц.

Кранц подчертава и някои други забележителни предимства при управлението на работните натоварвания на AI, използвайки този оптимизиран подход от край до край. Една от тях е сигурността за чувствителни данни, използвани в среди за машинно обучение.

„ИИ разчита на огромен обем неструктурирани данни. Ето защо отвъд нормалното криптиране за данни в покой и в полет, ние също така предлагаме възможност за създаване на неизменни моментни снимки и копия, автоматизирана защита срещу рансъмуер за откриване и предупреждение срещу подозрително поведение и мулти- факторна автентификация, за да се намали рискът от неоторизиран достъп“, казва той.

Lenovo автоматизира възможно най-голяма част от управлението на инфраструктурата, за да увеличи максимално производителността. Например, той предлага функции за качество на услугата, които позволяват на потребителите да предотвратят тесни места чрез задаване на минимални и максимални IOP настройки.

Въпреки очевидния потенциал, все още е много рано, когато става въпрос за корпоративно приемане на AI технология. Тъй като все повече организации възприемат технологията, вероятно ще се появят по-големи обеми от критични работни натоварвания с повишени изисквания относно сигурността.

В крайна сметка AI изглежда ще промени начина, по който работят компаниите, отвътре навън. Ефикасността на тези проекти зависи от много неща, включително изграждането на солидна стратегия, създаването на модел за възвръщаемост на инвестициите и въвеждането на подходящи предпазни мерки. Но нищо от това няма да започне, освен ако данните не текат свободно.

Спонсориран от Lenovo.

Подобни статии

Не пропускайте