はじめに
先日、「製造現場におけるデータマネジメントを考える」 というタイトルでブログを書きましたが、データマネジメントの学び方のヒントが得られそうな勉強会があったので参加してみました。
参加したのは、データラーニングギルドが主催するデータ分析人材の交流イベントです。
今回のテーマは今話題のデータマネジメントに関してでした。
最近話題になった以下のツイートにある職業だとデータエンジニアがデータマネジメントに直結するのですが、AIスペシャリストであっても、データサイエンティストであっても、データマネジメントされている前提で活躍できると思う訳です。
今後、データ分析を活用する企業が増えていくと同時にデータマネジメントできる人材の価値も更に上がっていくと思われます。
LinkedInの発表している「需要の高まる職業トップ15」の2020年版はこんな感じのようですが、要するにまあ「フロントエンドからバックエンドまで色々できてクラウドとDevOps周りもやれてデータドリブンでビジネスに貢献できるエンジニアは安泰ですよ」ということですかねw😁https://t.co/Jfnzn91d3a
— 勝又健太|雑食系エンジニア|参加者数ランキング日本第5位のオンラインサロン主催 (@poly_soft) 2020年4月8日
勉強会で学んだこと
今回は5件の発表がありました。
なんと嬉しいことに資料に加えて当日の録画が公開されていますので、内容をまだ確認されていない方は必見です!
非常に示唆に富む内容になっています。それぞれの発表についれ感じたことを記載します。
「データマネジメントを学ぶ上での課題と環境の提供方法」
発表者:村上智之 DLGギルド長
今後、データマネジメントできる人材の価値が上がっていくことは間違いないので、
なんとしてもデータマネジメントを学び、実践しなければいけません(笑)
そこで壁になるのが、「卵が先が鶏が先か?」問題です。実務経験が無いと案件に携われないし、案件に携われないと実務経験が積めないという未経験者に良くあるジレンマですね🤣
更に、実務でないまでも個人でデータマネジメントを学ぶこと自体が難しいんです。
模擬的に課題を捏造するにしてもkaggleのような分析コンペで用いられるデータは既にマネジメントされた後のデータですもんね。
村上氏の発表では、未経験者がいかにデータマネジメントの実践経験を積めば良いか述べられています。
気になる方は見てみてください。
www.youtube.comデータマネジメントを個人が気軽に学べる機会を - Speaker Deck
「はじめてのデータパイプライン」
発表者:kotaro1
こちらの発表は全くの未経験から約1年でデータ分析基盤の構築ができるようになった方のお話です。
上達していく過程を文学少女が野球少女になってチームで活躍できるまでの過程に例えており、非常に分かり易いです。まさに、村上氏が発表された内容を体現された方ですね!
よく感じることなのですが、学ぶ意欲があっても何から着手して良いか分からない!てことありますよね。
特に未経験からキャリアチェンジした者にとって、0 → 1にするステップが難しい。。
データ基盤構築についてもまさにこれが言えます。kotaro1さんが如何にして0を1,2,3..にしたか知りたい方は動画をご確認ください(またこのパターン)!
「GUIプレパレーションツールの光と闇」
発表者:voovovo
データ分析基盤構築のコンサルをバリバリやられている方のお話です。
発表の中でAlteryxというプレパレーションツールの紹介がありました。
プレパレーションツールとは、ETL処理、機械学習、空間情報処理がGUIベースでできるツールのことです。
プレパレーションツールを導入する目的をを仰々しく言うと、市民データサイエンティストの創造です。皆がPythonやR、SQLの知識がなくてもデータ分析基盤を構築できるようになります。
プレパレーションツールにはAlteryx以外に色々なベンダーがあるようで、
主要ベンダーが一同に介して議論を繰り広げた様子がこちらにレポートされていますので、是非ご覧ください。
「競合ベンダー6社が集結!第5回関西Tableauユーザー会(ETL祭り)に参加しました」
ベンダー間のバチバチした感じと、ユーザーからの容赦ない質問が面白いです。
Alteryx担当者のコメントに余裕を感じるのは私だけでしょうか(笑)
この発表の特筆すべき点は、プレパレーションツール導入の闇についても述べられている点です。この手の話はベンダーからなかなか引き出せないのではないでしょうか!?
そして、深い闇に陥らないための対策についても述べられています(素晴らしい!)。
組織論にも発展する内容となっており、サラリーマンは皆思い当たるようなシチュエーションの話題も出てきます。
「いなかったら、強くなれ、、」深い。語り尽くせないので、動画を見てください。
GUIプリパレーションツールに潜む光と闇(voovovo) - Speaker Deck
データの民主化とデータパイプラインマネジメント
発表者:増田貴志
フリーランスでデータアーキテクトをやられている方の「データの民主化」についての発表です。(個人的には「データ分析の民主化」と言っていない点が肝かと思いました)
データパイプライン完成後に発生する問題が「なる早問題」。。
なまじパイプラインができたものだから、各方面からデータ加工やら集計の依頼が舞い込む訳ですね。。
これに対処するためにデータエンジニアがやらなければいけない仕事が
「データの民主化」です。
簡単に言うと、
- 誰でもデータを確認できる
- 誰でもデータをETLできる
という状態を作ることです。上述した「GUIプレパレーションツールの光と闇」の発表にも通ずるものがありますね。
「データの民主化」のメリットとしては、
- データサイエンスチームに変な依頼が来ないようになる(SQLクエリの微修正とか)→ 本来の分析業務に集中できる
- 転職者がいても、データが属人化していないので引き継ぎがスムーズ→ 人材流出による損失を最小限にできる(データエンジニアは昨今引く手あまたです!)
データの民主化については、以下のレポートも参考になります。
「データ分析者を社内で増やすには? メルカリから学ぶ「ゆるふわBI」の取り組み」
さて、「データの民主化」のための一つの取り組みとして増田さんが提唱されているのが、
「データ分析のためのSQLコード規約」です。
私はSQL初心者なのですが、SQLてPythonと違って、大文字/小文字の区別なく動いちゃったりと自由度が高いんですね。
なので、スパゲッティになり易いです。規約に従うことで、可読性が上がり、「データの民主化」を加速することができます。
データサイエンティストやデータエンジニアを目指してSQLの学習を開始される方は意識してみると後々お得なことがありそうです!
最後に、「自分達のためでなく、人のためにデータウェアハウスを作ることこそが、民主化に当たってのデータエンジニアの仕事」という言葉が心に残りました。
www.youtube.com
20200419_データの民主化とデータパイプライン - Google スライド
データマネジメントを伴わない経営は、破綻する
発表者:yuzutas0
さて、こちらの過激なタイトルの発表、「データマネジメントが30分でわかる本」の著者の発表です。
私は書籍を読んでからこの発表を聞いたのですが、データマネジメントに見識が浅い方は動画を見てから書籍を読むことをおススメします!動画の分かり易さが半端ないです😆
yuzutas0さんの発表は独特のスタイルで、
「A. 創業5年のベンチャー企業、B. 創業50年の大企業、
一方はデータ分析をビジネス価値につなげられ、片方はデータ分析を始めることすらできなかった・・
さて成功したのはどちらの企業でしょうか?」
と言う挑戦的な質問から始まります。みなさんは、どちらが成功したと思いますか?
私は直感でA.と答えました。実は、この問いに答えること自体がデータマネジメントに通ずるものがあるんです。
成功した企業と失敗した企業を分けた要因は何だったのか・・?
気になる方は是非以下をcheck !
www.youtube.com
最後に
全ての動画を見ると、3時間くらいかかりますが、
データ分析基盤構築やデータマネジメントに関心がある方は見て損はないです。
こんなコンテンツが無料で見られる時代て、、初学者にとってはありがたいです😂