Майкрософт се възползва от огледалния ефект вместо от преместването в гамбит за склад за данни

Share

Ignite Microsoft съветва клиентите, които използват нейната платформа Fabric, да копират данни от други складове за данни и системи за анализ в разрез с преобладаващата тенденция в индустрията.

Fabric – която обхваща хранилище за данни, езеро от данни, анализи, BI и машинно обучение – беше пусната на пазара по-рано тази година, обещавайки да отговори на „всеки аспект от нуждите на организацията от анализи“.

По време на конференцията Ignite на софтуерния гигант от Редмънд тази седмица Microsoft обяви нейната обща наличност, както и няколко нови функции.

Получавате копилот и получавате копилот – Майкрософт вече е компанията за копилоти

ПОВЕЧЕ IGNITE

Сред тях е Mirroring – начин за добавяне и управление на съществуващи облачни складове за данни и бази данни в системата Synapse Data Warehouse на Fabric. Microsoft заяви, че Mirroring репликира моментна снимка на външната база данни в OneLake в таблици Delta Parquet и поддържа репликата синхронизирана в „почти реално време“.

Оттам потребителите могат да създават преки пътища, за да позволят на други работни натоварвания на Fabric – конектори, инженеринг на данни, изграждане на модели с изкуствен интелект, складове за данни – да използват данните, без да ги преместват отново. Microsoft обеща, че Azure Cosmos DB и Azure SQL DB ще могат да използват Mirroring за достъп до данни в OneLake, докато клиентите на доставчика на облачни платформи за данни Snowflake и NoSQL базата данни MongoDB ще могат да направят същото.

Този ход донякъде изпълнява тенденция, наблюдавана в областта на складовете за данни и анализите през последните няколко години. Поддържайки формата на таблицата Delta, други съвместими аналитични двигатели ще могат да получават достъп и да използват данните в OneLake, без да ги преместват.

Delta се поддържа от гиганта в областта на приложенията SAP и Databricks.

Но други са възприели друг формат на таблицата – Apache Iceberg – с подобна цел. Сред тях са Snowflake, Cloudera и BigLake на Google.

Iceberg и Delta на практика са слоеве от метаданни върху формата за съхранение на данни Apache Parquet.

Въпреки че и двата формата – както и Apache Hudi – са създадени, за да помогнат на аналитичните двигатели да достигнат до данните, избягвайки разходите за преместването им, Microsoft твърди, че копирането на данни от други източници е необходимо, за да се получи по-добра производителност.

Microsoft Ignite накратко

В разговор с The Register Арун Улаг, главен вицепрезидент на Azure Data, заяви, че идеята на Mirroring е да позволи на клиентите, които имат данни, намиращи се в собствени бази данни и складове за данни, като Snowflake например, да създадат и поддържат реплика на OneLake.

Въпреки че може да се наложи данните да се съхраняват на две места, Улаг твърди, че ще има предимства по отношение на производителността.

„По-голямата част от данните на Snowflake не се намират в Iceberg – каза той, – а в собствената им база данни. Подобно на други данни в патентован формат, единственият начин да се докоснете до данните е да преминете през SQL интерфейс, което увеличава разходите на клиентите. Това също така означава, че има още едно ниво на изпълнение, което забавя производителността.“

Копирането на данните във Fabric Power BI например дори не се налага да се изпращат SQL заявки към Snowflake, тъй като данните се намират в Apache Parquet и Delta Lake, родния формат на OneLake. „Тя просто ще отиде в OneLake и ще ги вмъкне в паметта, когато постъпят заявки“, казва Улаг. „Това ви дава значително ускорение на производителността, защото знаете, че елиминирате цялото изпълнение на SQL.“

Джеймс Малоун, директор по управление на продуктите на Snowflake, заяви пред The Reg: „В Snowflake вярваме в премахването на копията на данни, за да се опрости управлението и да има по-голяма ефективност. Нуждите на нашите клиенти се различават значително, така че нашият подход е да предоставим на клиентите възможности, които съответстват на техните нужди.

„Много клиенти намират голяма стойност в опростяването, сигурността и производителността, като зареждат данни в Snowflake с нашия напълно управляван формат. А някои случаи на употреба дават приоритет на оперативната съвместимост, в който случай поддържаме Iceberg, така че да е напълно отворен и просто да работи в хранилищата на клиентите във всеки от облаците, които Snowflake поддържа, включително Azure“, добави Малоун.

Един експерт от бранша заяви, че Microsoft ще трябва да копира данните, за да получи по-добра производителност на заявките, докато не започне да поддържа Iceberg нативно, което според нея ще стане в бъдеще. Възможно е също така Microsoft да смята, че може да управлява данните по-добре от Snowflake, за да получи по-добра производителност на заявките чрез начина, по който контролира клъстерирането, казаха те.

Хьон Парк, главен изпълнителен директор и главен анализатор в Amalgam Insights, заяви: „Microsoft с удоволствие ще вземе всички Parquet файлове и ще ги постави в езеро от данни на Microsoft и с удоволствие ще вземе всички данни от Snowflake, които може да получи в този процес.“

Но зад кулисите може би има причини, поради които Microsoft засега се фокусира върху Delta, а не върху Iceberg.

„Знаем, че досега има само една голяма компания, която се е фокусирала върху формата Delta Lake, и това е мощният стартъп Databricks“, казва Парк. „Съществува и продукт Azure Databricks, който се справя много добре. Всъщност това може би е най-успешният продукт на Microsoft Azure. Нашите данни показват, че в момента това е бизнес за няколко милиарда долара, когато се разглеждат езерото от данни и свързаните с него аналитични натоварвания и машинно обучение.

„Майкрософт“ не крие, че залага голяма част от краткосрочния си растеж на изкуствения интелект. Това означава, че Майкрософт иска да може да поддържа формата на езерото Делта и да извършва колкото се може по-голяма част от работата сама върху собствената си инфраструктура и ресурси.“

Парк каза, че Microsoft също така има много облачен бизнес с Azure, който е пряко зависим от Databricks, и ще иска да се увери, че прави всичко възможно, за да не загуби този бизнес. „Въпреки че Iceberg е по-разпространеният стандарт за езеро от данни, когато се погледне през ландшафта на ИТ доставчиците, Databricks е много успешен в предоставянето на инфраструктура за машинно обучение на ниво данни“, каза той.

Въпреки това той заяви, че Microsoft в крайна сметка също ще има значителен принос към Iceberg.

На Ignite Microsoft заяви, че ще разшири своя чатбот Copilot до Fabric. Сега в публична предварителна версия този ход обещава да позволи на учените, занимаващи се с данни, да използват естествен език за създаване на потоци от данни и конвейери, да пишат SQL изявления, да изграждат отчети и да разработват модели за машинно обучение. ®

Подобни статии

Не пропускайте