Definition

Amazon Athena

Amazon Athena ist ein Service, der es einem Datenanalysten ermöglicht, in der Public Cloud von Amazon Web Services (AWS) Daten Interaktiv abzufragen, die in Amazon Simple Storage Service (S3) gespeichert sind. Da es sich bei Athena um einen serverlosen Abfrageservice handelt, muss ein Analyst keine zugrunde liegende Recheninfrastruktur verwalten, um ihn zu nutzen.

Es ist auch nicht erforderlich, S3-Daten in Amazon Athena zu laden oder sie für die Analyse umzuwandeln, was es für einen Analysten einfacher und schneller macht, Erkenntnisse zu gewinnen. Ein Datenanalyst greift auf Athena entweder über die AWS Management Console, eine Programmierschnittstelle (API) oder einen Java-Database-Connectivity-Treiber zu. Er oder sie definiert dann nur noch das Schema und kann mit der Ausführung von SQL-Abfragen auf S3-Daten beginnen.

Ein Administrator kann den Zugriff auf Athena über AWS-IAM-Richtlinien (Identity and Access Management), Zugriffskontrolllisten und S3-Bucket-Richtlinien verwalten. Ein Athena-Benutzer kann verschlüsselte Daten mit Schlüsseln abfragen, die über den AWS Key Management Service verwaltet werden, und kann auch Abfrageergebnisse verschlüsseln. Athena ermöglicht den kontoübergreifenden Zugriff auf S3-Buckets, die einem anderen Benutzer gehören.

Darüber hinaus verwendet Athena verwaltete Datenkataloge, um Informationen und Schemata im Zusammenhang mit Ihren Abfragen auf Amazon-S3-Daten zu speichern.

Unterstützte Datentypen und Integration

Amazon Athena stützt sich auf die verteilte Open Source SQL-Abfrage-Engine Presto, um sowohl schnelle Ad-hoc-Analysen als auch komplexere Anfragen zu ermöglichen, einschließlich Fensterfunktionen, große Joins und Aggregationen. Athena kann sowohl unstrukturierte als auch strukturierte Datentypen verarbeiten, darunter Formate wie CSV, JSON, ORC, Parquet und Avro. Athena unterstützt auch komprimierte Daten in den Formaten Snappy, Zlib, LZO und GZIP.

Athena lässt sich mit anderen Services im AWS-Portfolio integrieren. Man kann es beispielsweise mit Amazon QuickSight verwenden, um Daten zu visualisieren, oder mit AWS Glue, um anspruchsvollere Datenkatalogfunktionen wie ein Metadaten-Repository, eine automatische Schema- und Partitionserkennung und auf Python basierende Datenpipelines zu aktivieren. Athena selbst verwendet Amazon S3 als Datenspeicher, der für Datenredundanz sorgt.

Amazon Athena versus Redshift versus andere Dienste

Amazon Redshift, der Data-Warehouse-Service von AWS, adressiert andere Anforderungen als Athena. Redshift verarbeitet komplexere, mehrteilige SQL-Abfragen und eignet sich besser für ein Unternehmen, das Daten aus unterschiedlichen Quellen in einem gemeinsamen Format zusammenführen muss. Redshift passt zu Business Intelligence Workloads und Unternehmensberichten, während Athena besser für einfachere Ad-hoc-Abfragen auf S3-Daten geeignet ist.

Amazon Elastic MapReduce (EMR) ermöglicht es Teams, verteilte Datenverarbeitungs-Frameworks wie Hadoop, Spark und Presto auszuführen. EMR geht über Datenabfragen hinaus und eignet sich besser für Projekte, die benutzerdefinierten Code, spezielle Cluster-Konfigurationen oder extrem große Datensätze erfordern. Man kann jedoch Athena verwenden, um von EMR verarbeitete Daten abzufragen, ohne laufende EMR-Jobs zu beeinträchtigen.

Diese Definition wurde zuletzt im Juni 2021 aktualisiert

Erfahren Sie mehr über Cloud Computing