Amazon Elastic MapReduce (Amazon EMR)
Amazon EMR basiert auf Apache Hadoop, einem Java-basierten Open-Source-Framework, dass die Verarbeitung großer Datenmengen auf verteilten Rechenumgebungen unterstützt. MapReduce ist ein Software-Framework, dass es Entwicklern ermöglicht Programme zu schreiben, die große Mengen unstrukturierte Daten parallel in verteilten Clustern oder auf einem einzelnen Computer verarbeiten können. MapReduce wurde von Google für die Indexierung von Webseiten entwickelt und ersetzte 2004 den ursprünglichen Indexierungsalgorithmus.
Amazon EMR verarbeitet die Daten über einen Hadoop-Cluster von virtuellen Servern innerhalb der Amazon Elastic Compute Cloud (EC2). Die Bezeichnung „Elastic“ im Namen von Amazon EMR verweist auf die dynamische Anpassung, die es erlaubt, Ressourcen bei Bedarf zu erhöhen beziehungsweise zu verringern.
Amazon EMR wird zum Beispiel für Log-Analysen, Webindexierung, Data Warehousing, maschinelles Lernen, Finanzanalysen, wissenschaftliche Simulationen und in der Bioinformatik eingesetzt.