10/11にクリーク・アンド・リバー社で開催された、第29回みんなのPython勉強会に参加しました。
みんなのPython勉強会#29 - connpass
いつもはギークラボ長野にて中継を見ていますが、今回は初の現地参加でした。
今回のテーマはデータサイエンスとPythonでした。データサイエンス方面はあまりさわっていないため、いろいろと参考になる話が聞けました。
以下、簡単なメモです。誤っていたらご指摘ください。
目次
- データサイエンスとPythonの役割
- PySparkで始める並列分散処理
- データサイエンティストを目指す全てのPythonistaのために
- LTのスライド(Robot FrameworkでSeleniumを扱いやすくする)
データサイエンスとPythonの役割
辻真吾さん(Start Python Club)
データサイエンスとそのまわりのライブラリのお話が印象に残りました。
マニアックな関数についてはRの方が強いなど、RとPythonでの機能面の違いについて疑問に思ってたことが分かりました。
PySparkで始める並列分散処理
林田千瑛さん(Retty.Inc)
Apache Sparkの概要を知ることができて良かったです。
以下、印象に残ったところです。
- Apache Sparkは、一台から使える
- RDDとDataFrameの違い
- RDDは柔軟、DataFrameの方が速い
- Apache Sparkを使うなら、データ規模が10GBを超えるあたりから
- アドテクや異常検知などに向く
- AWS EMRでは、ノートブックとしてApache Zeppelinが使える
- AWS EMRからGoogle BigQueryにデータを渡すと転送量が多いため、費用がかかる
- Apache Sparkには論文があるので、設計思想を知ることができる
データサイエンティストを目指す全てのPythonistaのために
中林紀彦さん(SOMPOホールディングス)
事業会社における、データサイエンティストの活躍する環境づくりが印象に残りました。
以下、印象に残ったところです。
- AWSとGCPのマルチクラウドで構築
- 社内データ・社外データ・オープンデータをまとめたメタデータテーブルを用意
- どこに生データがあるかの検索を容易に
- ビジネス経験を積むのも重要
- データをビジネスにどうやって持っていくか、考えることができるため
- 現場で使ってもらいやすくなるよう、結果をDjangoに組み込んで表現
- データサイエンティストにとって良い会社
- データを容易に入手できる会社
- 分析結果を容易にシステムに組み込めること
- 「自分は、この会社の何にコミットしているのか」をお互いに説明できる環境
LTのスライド(Robot FrameworkでSeleniumを扱いやすくする)
Robot FrameworkでSeleniumを扱いやすくする - slideship.com
プレゼンをする時の準備に手間取ってしまい、余裕なくLTしていたような気がします。事前準備重要ですね。
Robot Frameworkに興味を持っていただけた方もいらっしゃったようで、ありがたいです。
また、使った時のソースコード全体は、GitHubに上げました。
thinkAmi-sandbox/stapy29-sample
他にもLTされる方々が多く、いろいろと活発でした。
また、今回、Slideshipで初めてスライドを作ってみました。
作った時に感じたことは、
- シンタックスハイライトが便利
- ブラウザで動作が、ネットワークがつながってなくても、スライドを使ったプレゼンができる
- SlideShareやSpeakerDeckのように、ブログへ埋め込む方法はどこかにあるのかな...
です。
最後になりましたが、関係者のみなさまありがとうございました。