Happy Coding
2019 eBay Big Data TechDay

(笔记迁移 @ 2020年)

现场听了下eBay大数据的分享。视频/PPT https://www.slidestalk.com/ebay

总体感觉,很棒。

  1. 环境很好。德国中心,提供了星巴克、点心。
  2. 技术氛围好。几百人做大数据呢!而且做得都比较深。
  3. 拥抱开源:基于开源的二次开发,外围开发,平台化(易用性)等工作。
  4. 风控经理演讲水平好棒。
  5. Spark SQL / Flink Streaming / Spark Streaming / ElasticSearch 这些是目前大数据的主流
  6. 真正投身大数据,最优选择是学习Spark。
  7. 没有中奖,不过拿了小礼物,心里美滋滋。

【应用角度】Data Driven Payment Risk

  1. 演讲、台风挺好的。
  2. 内容方面没有很新颖但是很扎实(基于图算法的挖掘其实挺少听见的,是让人眼前一亮的东西,但是我之前正好看过这块了。)。
  3. 基本上是在支付风控这个应用角度。
  4. 如果去PayPal,这块支付风控是可以好好学习的。
  1. 两个年轻人联合做的分享。
  2. 基于Flink的,Flink还有SQL功能。Flink这块我没接触。
  3. 扩展SQL语法的思路,加入了一些新功能,比如sqlflow也是这么做的(阿里巴巴)。写SQL就能连Kafka、ES。这点很不错的扩展。
  4. 还做了一个平台。

【Spark Streaming】Designing ETL pipelines with Structured Streaming and Delta lake

  1. 干货不多,一些最佳实践(因为没怎么做过streaming,印象不深)。感觉是Delta Lake的推广。
  2. Delta Lake能替换hive么?

【ElasticSearch】Pronto - ElasticSearch as a service at ebay

  1. Kibaba插件开发扩展ELK
  2. 做了一个平台管理ES。

【AI+BigData】Nous - Empower Data Analysis through Augmented Analytics

  1. 增强分析。大数据分析+知识图谱,自然语言处理(英文)。这个topic太时髦了。
  2. 演示效果,界面真很好看了。
  3. 风趣的开场白。技术又好。
  4. 英语对话,这么流利。有被刺激到。
  5. 从规则引擎开始
  6. 积累数据,机器学习生成规则

【Spark SQL】Carmel - Optimizing SparkSQL for Interative Analysis

  1. eBay优化Spark sql(改写内部代码)替换TeraData,作为MPP方案。Impala不好吗。。。
  2. 观众提问,SQL on spark没有索引,是不是历史的倒退。有个问题挺好。回答是下推到parquet,列式存储会过滤。
  3. 是大牛,技术做的很深。Druid/Kylin/Spark/Spark SQL。一句话很经典,批处理也可以很快。
  4. 演讲基本上是站着不动,看着PPT疯狂输出信息。

Last modified on 2019-11-23