これは応募いただいたセッションです。
開催されるセッションは後日、参加者の投票を参考に決定されます。
テラバイトのデータを Apache Spark と Scala DSL を使って本番環境でスケールさせる
Apache HBase はカラム型 NoSQL で、産業およびリサーチ分野においてデータ処理プラットフォームをスケールさせるためのデータレイク (data lake) としての広い採用実績があります。HBase のコンポーネントの一部や Apache Spark は Scala で書かれており、Spark や HBase の関数型な Scala DSL の美学を理解することは楽しいことです。ここでは、30TB、1日あたり 46億イベントにまで Apache HBase を用いてベースのデータレイクをスケールさせて、それを Apache Kafka、Apache Spark / Spark Streaming と統合した事例を紹介します。
- トークの長さ
-
40分
- 発表言語
-
英語
- 聴衆の対象
-
中級者: 分野の基礎は分かるが、細かい所は不安
- こんな人におすすめ
-
1. Scala を用いた関数型プログラミングの初歩か、 Java を理解してる人
2. Java もしくは Scala で並行プログラミングかマルチスレッドを理解している人
3. 分散データ処理に興味があって、データをスケールさせる最適化に興味があるひと
- 発表者
-
Chetan Khatri
(Accionlabs Inc.)
- TransmogrifAI - Automate Machine Learning Workflow with the power of Scala and Spark at massive scale. - Scala.IO 2018 Lyon, France.
- Scaling 30 TB's of Data lake with Apache HBase and Scala DSL at Production. - HBaseConAsia 2018, Beijing - China.
- Scaling TB's of data with Apache Spark and Scala DSL at Production - HKOSCon 2018
- 貢献
-
- Elixir
- scalaz
- apache-spark
応募一覧