テラバイトのデータを Apache Spark と Scala DSL を使って本番環境でスケールさせる

Apache HBase はカラム型 NoSQL で、産業およびリサーチ分野においてデータ処理プラットフォームをスケールさせるためのデータレイク (data lake) としての広い採用実績があります。HBase のコンポーネントの一部や Apache Spark は Scala で書かれており、Spark や HBase の関数型な Scala DSL の美学を理解することは楽しいことです。ここでは、30TB、1日あたり 46億イベントにまで Apache HBase を用いてベースのデータレイクをスケールさせて、それを Apache Kafka、Apache Spark / Spark Streaming と統合した事例を紹介します。

トークの長さ

40分

発表言語

英語

聴衆の対象

中級者: 分野の基礎は分かるが、細かい所は不安

こんな人におすすめ

1. Scala を用いた関数型プログラミングの初歩か、 Java を理解してる人
2. Java もしくは Scala で並行プログラミングかマルチスレッドを理解している人
3. 分散データ処理に興味があって、データをスケールさせる最適化に興味があるひと

発表者

Chetan Khatri (Accionlabs Inc.)

TransmogrifAI - Automate Machine Learning Workflow with the power of Scala and Spark at massive scale. - Scala.IO 2018 Lyon, France.
Scaling 30 TB's of Data lake with Apache HBase and Scala DSL at Production. - HBaseConAsia 2018, Beijing - China.
Scaling TB's of data with Apache Spark and Scala DSL at Production - HKOSCon 2018

貢献

Elixir
scalaz
apache-spark

応募一覧