Le Big Data dans le cloud est un domaine du marché où Google, Amazon Web Services (AWS) et Azure attirent des startups intéressantes.
AWS propose un large éventail de services de Big Data. Amazon Elastic MapReduce, par exemple, exécute Hadoop et Spark tandis que Kinesis Firehose et Kinesis Streams permettent de diffuser de grands ensembles de données dans AWS. Les utilisateurs peuvent stocker des données dans Redshift, un entrepôt de données à l’échelle du pétaoctet, avec une compression des données pour aider à réduire les coûts. Amazon Elasticsearch est un service permettant de déployer l’outil open source Elasticsearch dans AWS pour des analyses telles que la surveillance des clics et des journaux. Kinesis Analytics complète cela en analysant les flux de données.
Pour l’analyse, Azure dispose de Data Lake Analytics, ainsi que de HDInsight, un service basé sur Hadoop. Il existe également un service Azure Stream Analytics, un catalogue de données qui identifie les actifs de données à l’aide d’un système de métadonnées global, et Data Factory, qui relie les sources de données locales et cloud et gère les pipelines de données.
Le service de données BigQuery de Google utilise une interface de type SQL intuitive pour la plupart des utilisateurs. Il prend en charge les bases de données pétaoctets et peut effectuer un streaming de données à 100 000 lignes par seconde comme alternative à l’exécution de données à partir du stockage en nuage. BigQuery prend également en charge la réplication géographique et les utilisateurs peuvent sélectionner l’emplacement de stockage de leurs données.