AWS Webinar -- Building a Modern Data Architecture on AWS (上)

AWS1.png


 此文章,是整理总结2017年2月9日的一次AWS Webinar -- Building a Modern Data Architecture on AWS。一共分上下两篇。AWS 秉承了自己一贯的灵活、可扩展、易于管理和经济的特点,为大家展现了AWS在大数据方面的实际应用。本文章同时亦是公众号本篇文章的补充,用于添加额外的信息链接。

AWS首先给我们打了个套路广告:为什么选择AWS。

AWS2.png


对于心机想吃热豆腐的小伙伴,提前跟你们说下,这次Webinar的内容包括:Databases Analytics, Flat File Processing, Real-time Pipeline 和 Data Lake. 由于篇幅的原因,这篇包括Databases Analytics 和Real-time Pipeline

4.png


Database Analystics 

​对于大数据来说,AWS主打的数据库是Amazon Redshift, 一个快速简单的PB级数据仓库 (Petabyte-scale data warehouse)。

5.png


他的基本架构,由三个部分组成。Leader Node,Compute Node和Compute Node下属的数据库。Leader Node管理与客户端程序的通信以及下端Compute Nodede全部通信。值得注意的是,Leader Node并不仅仅作用于传送,它自身会分析和制定执行计划来实施数据库的操作。根据执行计划,Leader Node编译代码,将编译后的代码分发给下端的Compute Node, 同时分发部分数据给Compute Node。Compute Node则执行被分发的代码,并将中间结果(intermediate results)返回给上层做最终聚合。每个Compute Node拥有自己的硬件设置,可根据需求逐一定制,从而满足不同的负载需求。

6.png


储存方面,Amazon Redshift单个储存节点可以从160GB扩展到16TB,从而满足PB级数据需求。

7-small.png


整个的数据分析框架,被总结在下面的图里。 

8.1_.png


这里稍微扩展一下,ETL全称 Extract, Transform, Load。对于熟悉数据的小伙伴们来说这个绝非陌生新词。在AWS这边,除了用他们合作伙伴的数据集成方案来转移数据到Redshift(例如Segment,Alooma etc.),AWS自己现在也有了AWS Database Migration Service。https://aws.amazon.com/blogs/a ... vice/

9.png


AWS此次还提供了实际案例Boingo。 让我个人感到AWS强大的是,Boingo原来他们在一年的数据里搜索,需要45分钟,转移到亚马逊之后,同样的任务只需要20-22秒。https://aws.amazon.com/solutio ... less/

11.png


Real-time Pipeline

一个合格的技术人员,应该直面广告的夸大部分,哪怕这个是金主爸爸 。对于即时管道,AWS内部更倾向于称之为Near Real-time Pipeline,因为尽管在快,也会有延迟。

35.png


现在越来越多的设备和服务需要展现即时数据了。适时的,AWS也为这个需求准备好了Amazon Kinesis (https://aws.amazon.com/kinesis/streams/?nc1=h_ls)。 Kinesis可以用来处理实时收集和处理大数据记录流(Streams)。根据项目需求,这个数据可以(近似)实时的导入Amazon EMR,或者更直接的用AWS Lambda以及调用Kinesis Library的自定应用上。

34.png


对于了解AWS的小伙伴来说, Lambda一定不陌生。那么EMR呢?
Amazon EMR (Elastic Map Reduce) 是一个托管群集平台的网页服务,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。
提到Amazon EMR,就不得不说到Elasticsearch。Elasticsearch 是由Elastic 公司研发的分布式RESTful搜索分析引擎。它适用于不停增长的用例。它犹如一个心脏,为框架内其他“器官”输入数据给养。Amazon Elasticsearch Service则为原油Elasticsearch提供了额外支持,从而让部署,操作和扩展变得更轻松,以便尽享日志分析、全份检索和应用程序监控等工作。Amazon Elasticsearch是一项完全托管的服务,具有可用性,可扩展性,以及安全性。此服务集成Kibana、Logstash等服务,从而可以将数据快速转变为分析结果。

36_Elasticsearch.png


根据数据的类别和大小,AWS的实时服务可以将数据上推到S3 Bucket (Logs)同时将适宜数据右推到服务层。在这里,我们又见到了熟悉的Redshift 数据仓库,也有Amazon Elasticsearch提供的dashboard,同时还有EMR machine learning的预测功能。https://aws.amazon.com/blogs/big-data/serving-real-time-machine-learning-predictions-on-amazon-emr/  如果您是新手,想问机器学习的预测功能能干嘛?那么出门左转,看看一些媒体网站根据用户点击定制的推送信息,以及电影推荐之类的。

38.png


对于Real-time Pipeline的商务运用,亚马逊今天给出了Airbnb的SteamAlart来让我们进一步了解这一技术。https://aws.amazon.com/solutio ... Dh_ls
39_Airbnb.png

 
36_Elasticsearch.png

0 个评论

要回复文章请先登录注册