Функция Миналата година беше голяма за анализа на данни и машинното обучение в облака. Двама от най-големите играчи, Microsoft и Databricks, преработиха основно своите платформи, като първият също успя да пусне продукти.
Google, който, както бихте очаквали, е голям играч на пазара за анализ на облачни данни, постигна победи за клиенти с Walmart, HSBC, Vodafone и Home Depot, наред с други през последните няколко години, като в някои случаи измести добре установените на- prem корпоративни системи за съхранение на данни от компании като Teradata.
По отношение на новите технологии, Google направи допълнения и промени в своята гама през 2023 г., вместо основните съобщения за платформа, които видяхме от Microsoft и Databricks . Складът за данни на Google BigQuery получи автоматично мащабиране и компресирано съхранение, заедно с повече избор и гъвкавост при настройване на функции за различни изисквания за натоварване. Клиентите могат също така да смесват издания Standard, Enterprise и Enterprise Plus, за да постигнат предпочитаната от тях цена според натоварването. BigQuery Data Clean Rooms позволи споделянето и съпоставянето на набори от данни между организации, като същевременно зачита поверителността на потребителите и защитава сигурността на данните.
Пионерът на Postgres Майкъл Стоунбрейкър обещава да преобърне базата данни още веднъж
В AlloyDB Omni Google предлага услуги за база данни, съвместими с PostgreSQL, които работят в други облачни хиперскалери, локални и лаптопи за разработчици. Той включва набор от инструменти за автоматизация, които помагат при миграцията от по-стари, добре установени системи за бази данни като Oracle или IBM Db2.
Но по отношение на платформата за данни, където основните играчи обслужват структури и неструктурирани работни натоварвания за BI, анализи и машинно обучение от едно място, възприемайки подозрителната терминология на „езерната къща“, Google вече има това, от което се нуждае, за да се конкурира, Герит Казмайер, veep и генерален мениджър на Google за анализ на данни, разказва The Register .
„Имате големи аналитични системи, които изграждат тези обширни записи на данни. Много е важно те да бъдат не само преплетени, но всъщност безпроблемно интегрирани например, когато дори не репликирате данни направо от една система в друга: BigQuery говори с едни и същи данни на същото място, където базата данни ги записва. Има нулево забавяне, няма нулеви разходи, не е необходимо огледално копиране или репликация, защото по принцип имате достъп навсякъде“, казва Казмайер.
В архитектурата на Google унифициран слой за достъп за сигурност и управление свързва приложения като BI, складиране на данни и ML с бекенд, който се обслужва от BigQuery Managed Storage и Google Cloud Storage и мулти-облачно хранилище от AWS S3 и Azure Storage на Microsoft.
Архитектурата, поне като концепция, е подобна на предложението на Microsoft. Обявен през юни и станал общодостъпен през ноември, Microsoft Fabric също обещава да обслужва различни приложения и работни натоварвания от своята технология OneLake, която съхранява всичко в отворен код, управляван от Linux Foundation Delta табличен формат, който произхожда от Databricks.
Microsoft обяснява, че подходът позволява на приложения като Power BI да изпълняват работни натоварвания в хранилището на данни Synapse, без да изпращат SQL заявки. Вместо това в Onelake се създава виртуално хранилище за данни, което зарежда данните в паметта. Гигантът от Редмънд твърди, че подходът предлага ускорение на производителността, тъй като няма повече SQL ниво в средата на изпълнение на SQL заявки.
Въпреки че има прилики с подхода на Microsoft, архитектурата на Google разчита на табличния формат Iceberg , разработен в Netflix и сега с отворен код чрез Apache Foundation.
Kazmaier казва: „Взехме десетилетия на иновации в BigQuery, по-специално в производителността на заявките, времената за достъп, оптимизацията на заявките и ги доставихме от BigLake по начин, така че клиентите да могат да получат производителност, както и богатството на разработката от общността на Iceberg. По-конкретно имаме много оптимизации от начина, по който осъществяваме достъп и разбираме метаданните от начина, по който осъществяваме достъп до файловете, което води до превъзходна производителност с Iceberg и BigQuery на GCP“, казва той.
Въпреки че всички основни доставчици в пространството казват, че поддържат или ще поддържат всички формати на таблици – Iceberg, Delta и Hudi – изградени на файловия формат Apache Parquet, всеки има своя акцент върху това, което поддържа „изначално“. Тенденцията доведе до разделение в индустрията, като Databricks, Microsoft и SAP подкрепят Delta и Google, Cloudera, Snowflake, AWS и Netezza на IBM, наблягайки на Iceberg.
Казмайер казва, че подкрепата на Google за Iceberg се свежда до силен ангажимент към отворен код. „Айсберг е проект на Apache: управлява се много ясно, не е свързан с нито един доставчик и има широк принос от общността.“
Той казва, че Google реагира на търсенето на клиентите, като избра Iceberg като „основен формат на стратегия за данни“, но също така добави поддръжка за Delta и Hudi, тъй като някои клиенти вече са изградили стек, ориентиран към Databricks.
„Истинският отговор се крие в това колко гъвкави искате да бъдете като клиент. Ако изберете да бъдете най-гъвкави и отворени, Iceberg ви дава най-широкото от тези качества. Ако сте по-загрижени да имате архитектура на Lakehouse от Databricks -центрично разгръщане, Delta е чудесен избор. Виждаме много бързо и широко приемане на Iceberg,“ казва той.
Миналия месец Databricks, компанията за платформа за данни, израснала от езерата от данни на Apache Spark, също обяви основен ремонт на стека си. Обещава нов слой „разузнаване на данни“ върху концепцията „езерна къща“, която стартира в началото на 2020 г., за да комбинира структурирани BI и аналитични натоварвания на складиране на данни с объркания свят на езерата от данни. В съобщение, спестяващо подробности за продукта, компанията каза, че въвежда слоя „разузнаване на данни“ DatabricksIQ, за да „подхранва всички части на нашата платформа“.
Докато запазва унифицирания слой за управление на lakehouse в данни и AI и единна унифицирана машина за заявки, обхващаща ETL, SQL, машинно обучение и BI, компанията иска да продължи да използва технологията, придобита при закупуването на MosaicML за 1,3 милиарда долара, генеративен AI започвам. Идеята е да се използват „AI модели за дълбоко разбиране на семантиката на корпоративните данни“,казва Databricks .
Въпреки че lakehouse на Databricks поддържа SQL заявки, има някои критики относно способността му да поддържа BI работни натоварвания в мащаб на предприятието. През 2021 г. Gartner посочи, че базираните в облак езера от данни може да се борят със SQL заявки от повече от 10 едновременни потребители, въпреки че Databricks оспори твърдението. Миналия месец анализаторът на Ventana Research Матю Аслет каза, че все повече организации осъзнават трудностите, докато се опитват да мащабират езерата от данни и да поддържат корпоративните BI работни натоварвания.
Например Adidas изгради платформа за данни около Databricks, но също така създаде слой за ускоряване с базата данни Exasol в паметта, за да подобри производителността при едновременни работни натоварвания.
Казмайер обяснява, че подходът на Google към паралелността избягва завъртането на повече виртуални машини и вместо това подобрява производителността на единица на ниво подпроцесор. „Той премества тези единици капацитет безпроблемно, така че може да имате заявка, която завършва и освобождава ресурси, която може да бъде преместена незабавно към друга заявка, която може да се възползва от ускорението. Цялата тази микрооптимизация се извършва без системата да се оразмерява. Постоянно ви дава идеалната проекция на капацитета, който използвате за натоварванията, които изпълнявате,” казва той.
Доклад от Gartner по-рано миналата година одобри подхода. „Смесица от модели за резервиране на слотове при поискване и ценообразуване с фиксирана ставка осигурява средствата за разпределяне на капацитет в цялата организация. Въз основа на използвания модел ресурсите на слотове се разпределят на изпратени заявки. Когато търсенето на слот надвишава текущата наличност, допълнителни слотове се поставят на опашка и се задържа за обработка, след като капацитетът е наличен. Този модел на обработка позволява продължителна обработка на едновременни големи натоварвания на заявки“, се казва в него.
Докато Microsoft и Databricks може да са привлекли вниманието на пазара с техните съобщения за пакет от данни за 2023 г., Aslett от Ventana смята, че е имало малко за избор между основните играчи и всяка очевидна технологична преднина може да се дължи на ритъма на пускане.
Гледайки напред към следващата година, Google може да се надява да открадне част от светлината на прожекторите обратно от своите конкуренти. ®