Dlaczego AWS wybrał Iceberg? Nowe podejście do danych w chmurze

1 tydzień temu
Zdjęcie: AWS


Amazon Web Services (AWS) ogłosił przyjęcie formatu otwartych tabel Apache Iceberg jako kluczowego elementu swoich usług związanych z analizą danych, uczeniem maszynowym i przechowywaniem. Decyzja ta wynika z rosnących oczekiwań klientów korzystających z pamięci obiektowej Amazon S3 oraz potrzeby obsługi dużych zestawów danych w sposób wydajny i elastyczny.

Dlaczego AWS wybiera Iceberg?

Apache Iceberg to otwarty format tabel zaprojektowany w 2015 roku przez Netflix, aby rozwiązać problemy związane z używaniem Hive Tables na Amazon S3. Kluczową cechą Iceberga jest dodanie warstwy metadanych, która pozwala na zarządzanie tabelami bez konieczności przetwarzania całego zestawu danych. Dzięki temu użytkownicy mogą wprowadzać zmiany w danych szybciej i bardziej precyzyjnie.

AWS widzi w Icebergu ogromny potencjał do integracji różnych źródeł danych i platform, takich jak Sagemaker oraz Redshift. To właśnie w ramach usługi Redshift format Iceberg został po raz pierwszy zaprezentowany przez AWS w 2023 roku, aby umożliwić zapytania analityczne w zewnętrznych jeziorach danych.

Nowości wprowadzone przez AWS: Tabele S3

Na konferencji re:Invent 2024, AWS zaprezentował funkcję S3 Tables, która wykorzystuje Apache Iceberg do optymalizacji analiz danych. Nowa funkcjonalność oferuje m.in. automatyczne partycjonowanie oraz aktualizacje i optymalizacje danych, co znacząco przyspiesza procesy analityczne. Iceberg współpracuje z popularnymi narzędziami analitycznymi i uczenia maszynowego, co zwiększa jego atrakcyjność dla klientów AWS.

Iceberg kontra Delta Lake: co wybrał AWS?

Decyzja AWS o wsparciu Iceberga zamiast Delta Lake, innego popularnego formatu otwartych tabel, wzbudziła zainteresowanie w branży. Delta Lake, rozwijany przez Databricks, cieszy się popularnością w środowisku Microsoftu, jednak AWS uznał, iż Iceberg lepiej spełnia potrzeby techniczne i operacyjne jego klientów. Format Iceberg zdobył szerokie poparcie wśród technologicznych gigantów, takich jak Google czy Snowflake, co dodatkowo wpłynęło na decyzję AWS.

Przyjęcie Apache Iceberg przez AWS wskazuje na coraz większe znaczenie otwartych standardów w analityce danych i uczeniu maszynowym.

Idź do oryginalnego materiału