English

テラバイトのデータを Apache Spark と Scala DSL を使って本番環境でスケールさせる

Apache HBase はカラム型 NoSQL で、産業およびリサーチ分野においてデータ処理プラットフォームをスケールさせるためのデータレイク (data lake) としての広い採用実績があります。HBase のコンポーネントの一部や Apache Spark は Scala で書かれており、Spark や HBase の関数型な Scala DSL の美学を理解することは楽しいことです。ここでは、30TB、1日あたり 46億イベントにまで Apache HBase を用いてベースのデータレイクをスケールさせて、それを Apache Kafka、Apache Spark / Spark Streaming と統合した事例を紹介します。

トークの長さ
40分
発表言語
英語
聴衆の対象
中級者: 分野の基礎は分かるが、細かい所は不安
こんな人におすすめ
1. Scala を用いた関数型プログラミングの初歩か、 Java を理解してる人
2. Java もしくは Scala で並行プログラミングかマルチスレッドを理解している人
3. 分散データ処理に興味があって、データをスケールさせる最適化に興味があるひと
発表者
Chetan Khatri (Accionlabs Inc.)
  • TransmogrifAI - Automate Machine Learning Workflow with the power of Scala and Spark at massive scale. - Scala.IO 2018 Lyon, France.
  • Scaling 30 TB's of Data lake with Apache HBase and Scala DSL at Production. - HBaseConAsia 2018, Beijing - China.
  • Scaling TB's of data with Apache Spark and Scala DSL at Production - HKOSCon 2018
貢献
  • Elixir
  • scalaz
  • apache-spark

票中 票投票済み

応募一覧