技术人员与非技术人员的沟通问题

职业发展Jeff 回复了问题 • 5 人关注 • 4 个回复 • 67 次浏览 • 2017-02-24 21:39 • 来自相关话题

如果小夫妻吵架,一方明显有过错,那这方的父母应该是啥态度呢?

情感关系JingZhu 回复了问题 • 4 人关注 • 3 个回复 • 44 次浏览 • 2017-02-24 16:56 • 来自相关话题

江湖最终还是变成足迹了吗?

生活JingZhu 回复了问题 • 3 人关注 • 2 个回复 • 53 次浏览 • 2017-02-24 16:50 • 来自相关话题

论项目经理与技术人员的恩恩怨怨

职业发展JingZhu 回复了问题 • 2 人关注 • 1 个回复 • 16 次浏览 • 2017-02-24 16:27 • 来自相关话题

Web developer 如何转型为 Data Engineer/ Data Scientist?

职业发展路达 回复了问题 • 3 人关注 • 2 个回复 • 52 次浏览 • 2017-02-24 15:43 • 来自相关话题

什麽樣的上司才是好上司 - 綫上討論 綫下吐槽

职业发展Wendy 回复了问题 • 3 人关注 • 3 个回复 • 94 次浏览 • 2017-02-17 19:25 • 来自相关话题

假设国内一线城市2环内房子,离婚是要房子,还是要孩子。

情感关系路达 回复了问题 • 2 人关注 • 1 个回复 • 39 次浏览 • 2017-02-15 09:53 • 来自相关话题

家里想搭个NAS系统,平时下下电影,储存一些照片啥的,有什么推荐吗?

技术讨论Julia 回复了问题 • 7 人关注 • 5 个回复 • 146 次浏览 • 2017-02-15 09:35 • 来自相关话题

AWS Webinar -- Building a Modern Data Architecture on AWS (上)

职业发展魏崃Will 发表了文章 • 0 个评论 • 51 次浏览 • 2017-02-10 23:41 • 来自相关话题

 此文章,是整理总结2017年2月9日的一次AWS Webinar -- Building a Modern Data Architecture on AWS。一共分上下两篇。AWS 秉承了自己一贯的灵活、可扩展、易于管理和经济的特点,为大家展现了AWS在大数据方面的实际应用。本文章同时亦是公众号本篇文章的补充,用于添加额外的信息链接。

AWS首先给我们打了个套路广告:为什么选择AWS。






对于心机想吃热豆腐的小伙伴,提前跟你们说下,这次Webinar的内容包括:Databases Analytics, Flat File Processing, Real-time Pipeline 和 Data Lake. 由于篇幅的原因,这篇包括Databases Analytics 和Real-time Pipeline






Database Analystics 

​对于大数据来说,AWS主打的数据库是Amazon Redshift, 一个快速简单的PB级数据仓库 (Petabyte-scale data warehouse)。






他的基本架构,由三个部分组成。Leader Node,Compute Node和Compute Node下属的数据库。Leader Node管理与客户端程序的通信以及下端Compute Nodede全部通信。值得注意的是,Leader Node并不仅仅作用于传送,它自身会分析和制定执行计划来实施数据库的操作。根据执行计划,Leader Node编译代码,将编译后的代码分发给下端的Compute Node, 同时分发部分数据给Compute Node。Compute Node则执行被分发的代码,并将中间结果(intermediate results)返回给上层做最终聚合。每个Compute Node拥有自己的硬件设置,可根据需求逐一定制,从而满足不同的负载需求。






储存方面,Amazon Redshift单个储存节点可以从160GB扩展到16TB,从而满足PB级数据需求。






整个的数据分析框架,被总结在下面的图里。 






这里稍微扩展一下,ETL全称 Extract, Transform, Load。对于熟悉数据的小伙伴们来说这个绝非陌生新词。在AWS这边,除了用他们合作伙伴的数据集成方案来转移数据到Redshift(例如Segment,Alooma etc.),AWS自己现在也有了AWS Database Migration Service。https://aws.amazon.com/blogs/a ... vice/






AWS此次还提供了实际案例Boingo。 让我个人感到AWS强大的是,Boingo原来他们在一年的数据里搜索,需要45分钟,转移到亚马逊之后,同样的任务只需要20-22秒。https://aws.amazon.com/solutio ... less/






Real-time Pipeline

一个合格的技术人员,应该直面广告的夸大部分,哪怕这个是金主爸爸 。对于即时管道,AWS内部更倾向于称之为Near Real-time Pipeline,因为尽管在快,也会有延迟。






现在越来越多的设备和服务需要展现即时数据了。适时的,AWS也为这个需求准备好了Amazon Kinesis (https://aws.amazon.com/kinesis/streams/?nc1=h_ls)。 Kinesis可以用来处理实时收集和处理大数据记录流(Streams)。根据项目需求,这个数据可以(近似)实时的导入Amazon EMR,或者更直接的用AWS Lambda以及调用Kinesis Library的自定应用上。






对于了解AWS的小伙伴来说, Lambda一定不陌生。那么EMR呢?
Amazon EMR (Elastic Map Reduce) 是一个托管群集平台的网页服务,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。
提到Amazon EMR,就不得不说到Elasticsearch。Elasticsearch 是由Elastic 公司研发的分布式RESTful搜索分析引擎。它适用于不停增长的用例。它犹如一个心脏,为框架内其他“器官”输入数据给养。Amazon Elasticsearch Service则为原油Elasticsearch提供了额外支持,从而让部署,操作和扩展变得更轻松,以便尽享日志分析、全份检索和应用程序监控等工作。Amazon Elasticsearch是一项完全托管的服务,具有可用性,可扩展性,以及安全性。此服务集成Kibana、Logstash等服务,从而可以将数据快速转变为分析结果。






根据数据的类别和大小,AWS的实时服务可以将数据上推到S3 Bucket (Logs)同时将适宜数据右推到服务层。在这里,我们又见到了熟悉的Redshift 数据仓库,也有Amazon Elasticsearch提供的dashboard,同时还有EMR machine learning的预测功能。https://aws.amazon.com/blogs/big-data/serving-real-time-machine-learning-predictions-on-amazon-emr/  如果您是新手,想问机器学习的预测功能能干嘛?那么出门左转,看看一些媒体网站根据用户点击定制的推送信息,以及电影推荐之类的。






对于Real-time Pipeline的商务运用,亚马逊今天给出了Airbnb的SteamAlart来让我们进一步了解这一技术。https://aws.amazon.com/solutio ... Dh_ls




  查看全部
AWS1.png


 此文章,是整理总结2017年2月9日的一次AWS Webinar -- Building a Modern Data Architecture on AWS。一共分上下两篇。AWS 秉承了自己一贯的灵活、可扩展、易于管理和经济的特点,为大家展现了AWS在大数据方面的实际应用。本文章同时亦是公众号本篇文章的补充,用于添加额外的信息链接。

AWS首先给我们打了个套路广告:为什么选择AWS。

AWS2.png


对于心机想吃热豆腐的小伙伴,提前跟你们说下,这次Webinar的内容包括:Databases Analytics, Flat File Processing, Real-time Pipeline 和 Data Lake. 由于篇幅的原因,这篇包括Databases Analytics 和Real-time Pipeline

4.png


Database Analystics 

​对于大数据来说,AWS主打的数据库是Amazon Redshift, 一个快速简单的PB级数据仓库 (Petabyte-scale data warehouse)。

5.png


他的基本架构,由三个部分组成。Leader Node,Compute Node和Compute Node下属的数据库。Leader Node管理与客户端程序的通信以及下端Compute Nodede全部通信。值得注意的是,Leader Node并不仅仅作用于传送,它自身会分析和制定执行计划来实施数据库的操作。根据执行计划,Leader Node编译代码,将编译后的代码分发给下端的Compute Node, 同时分发部分数据给Compute Node。Compute Node则执行被分发的代码,并将中间结果(intermediate results)返回给上层做最终聚合。每个Compute Node拥有自己的硬件设置,可根据需求逐一定制,从而满足不同的负载需求。

6.png


储存方面,Amazon Redshift单个储存节点可以从160GB扩展到16TB,从而满足PB级数据需求。

7-small.png


整个的数据分析框架,被总结在下面的图里。 

8.1_.png


这里稍微扩展一下,ETL全称 Extract, Transform, Load。对于熟悉数据的小伙伴们来说这个绝非陌生新词。在AWS这边,除了用他们合作伙伴的数据集成方案来转移数据到Redshift(例如Segment,Alooma etc.),AWS自己现在也有了AWS Database Migration Service。https://aws.amazon.com/blogs/a ... vice/

9.png


AWS此次还提供了实际案例Boingo。 让我个人感到AWS强大的是,Boingo原来他们在一年的数据里搜索,需要45分钟,转移到亚马逊之后,同样的任务只需要20-22秒。https://aws.amazon.com/solutio ... less/

11.png


Real-time Pipeline

一个合格的技术人员,应该直面广告的夸大部分,哪怕这个是金主爸爸 。对于即时管道,AWS内部更倾向于称之为Near Real-time Pipeline,因为尽管在快,也会有延迟。

35.png


现在越来越多的设备和服务需要展现即时数据了。适时的,AWS也为这个需求准备好了Amazon Kinesis (https://aws.amazon.com/kinesis/streams/?nc1=h_ls)。 Kinesis可以用来处理实时收集和处理大数据记录流(Streams)。根据项目需求,这个数据可以(近似)实时的导入Amazon EMR,或者更直接的用AWS Lambda以及调用Kinesis Library的自定应用上。

34.png


对于了解AWS的小伙伴来说, Lambda一定不陌生。那么EMR呢?
Amazon EMR (Elastic Map Reduce) 是一个托管群集平台的网页服务,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。
提到Amazon EMR,就不得不说到Elasticsearch。Elasticsearch 是由Elastic 公司研发的分布式RESTful搜索分析引擎。它适用于不停增长的用例。它犹如一个心脏,为框架内其他“器官”输入数据给养。Amazon Elasticsearch Service则为原油Elasticsearch提供了额外支持,从而让部署,操作和扩展变得更轻松,以便尽享日志分析、全份检索和应用程序监控等工作。Amazon Elasticsearch是一项完全托管的服务,具有可用性,可扩展性,以及安全性。此服务集成Kibana、Logstash等服务,从而可以将数据快速转变为分析结果。

36_Elasticsearch.png


根据数据的类别和大小,AWS的实时服务可以将数据上推到S3 Bucket (Logs)同时将适宜数据右推到服务层。在这里,我们又见到了熟悉的Redshift 数据仓库,也有Amazon Elasticsearch提供的dashboard,同时还有EMR machine learning的预测功能。https://aws.amazon.com/blogs/big-data/serving-real-time-machine-learning-predictions-on-amazon-emr/  如果您是新手,想问机器学习的预测功能能干嘛?那么出门左转,看看一些媒体网站根据用户点击定制的推送信息,以及电影推荐之类的。

38.png


对于Real-time Pipeline的商务运用,亚马逊今天给出了Airbnb的SteamAlart来让我们进一步了解这一技术。https://aws.amazon.com/solutio ... Dh_ls
39_Airbnb.png

 

IT行业究竟是前途无量还是夕阳产业?

职业发展Wendy 回复了问题 • 5 人关注 • 3 个回复 • 117 次浏览 • 2017-02-07 15:46 • 来自相关话题

如果你有且仅有一笔钱,是买学区房还是给孩子上私校?

生活TT 回复了问题 • 11 人关注 • 11 个回复 • 214 次浏览 • 2017-02-07 14:43 • 来自相关话题

Dev-Ops 的一天

回复

技术讨论porcorosso 发起了问题 • 1 人关注 • 0 个回复 • 54 次浏览 • 2017-02-07 14:27 • 来自相关话题

ITIL/Operational Excellence 问题讨论答疑

职业发展Josephzhj 回复了问题 • 3 人关注 • 2 个回复 • 96 次浏览 • 2017-02-04 12:14 • 来自相关话题

对于和西人同事的social,你有什么好建议/分享?

职业发展Kemp 回复了问题 • 9 人关注 • 8 个回复 • 187 次浏览 • 2017-02-03 14:43 • 来自相关话题

澳洲的QA/Tester 的职业发展会是怎样的路径?

职业发展dantechen 回复了问题 • 3 人关注 • 2 个回复 • 118 次浏览 • 2017-02-03 09:46 • 来自相关话题