【現役AI研究者が選んだ】データサイエンティストに最低限必要な3つのITスキル

データサイエンティストになるために
ワタシナガタ

データサイエンス・機械学習・深層学習の研究者(修士)ですが、Pythonで開発したAIから得られる不労所得で生きてます。本サイトは【未経験でもAIを開発】を手助けします。

>>管理人プロフィール・理念はこちら<<

ワタシナガタをフォローする

どうも、AI研究者のワタシナガタです。

データサイエンスはかなり将来性があります。

目をつけたあなたは鋭いですね。

でも、データサイエンティティストに興味を持って調べみても、どんなスキルがあればデータサイエンティストになれるのか正直よくわからなくないですか?

単なるエンジニアとの違いや、機械学習エンジニアとも違いも明確じゃないですし。

「データサイエンティスト スキル」とかで検索すると山ほど出てきて、どれが本当なのかわからなくなります。

データサイエンスを研究に用いている僕からすると「え?このスキルなくて知らなくてデータサイエンティストとしてやってけるか?」みたいなことを書いてあるサイトがいくつかありましありました。

今回は実際にデータサイエンスを用いる研究者である僕が、実際に研究で使っている主要なIT技術を3つに絞って特別に公開します。

実用的な技術だけを選んだので、ぜひ今後の勉強方針の参考にしてください。

データサイエンティストに最低限必要なITスキル
・Python
・Linux
・AWS(EC2)
他分野や学術的なスキルは別として、上記のITスキルさえあれば、最低限のデータサイエンスとしての形にはなります。

逆にいうと、このどれか一つでも抜けていると、データサイエンティストと名乗るには難しいかと…。

データサイエンティストに必要なITスキルはそんなに多くない

今回あげたITスキルとは、エンジニアも知っているような、いわゆるプログラミング周辺のスキルのことを指してます。

もっと別分野のスキルや数学的知識については必要になります。

データサイエンティストに必要なIT以外のスキルについては【データサイエンティスト転職のすすめ】未経験からデータサイエンティストになるまでにまとめました。

ただ、ITスキルに限っていえば、データサイエンティストとして活動するために必要なITスキルってのは、実はそんなに多くありません。

何かしらのプログラミング言語をちょっとやったことがある人なら、すぐ身に付くでしょう。

エンジニアみたいに速攻でプログラミングを記述する必要もないですし、自前でサーバーを建てられる必要もありません。

データサイエンティストに必要なITスキル①Python

正直これに関しては当然感がありますが、Pythonは必須です。

ただ、機械学習で簡単な予測ができるだけではなんちゃってデータサイエンティストと呼ばれます。

気をつけて欲しいのが、Pythonや機械学習はデータを理解するための補助でしかないということです

データサイエンティストとして最重要なのは、データを本質的に理解すること。

そのための、探索的データ分析、特徴量エンジニアリングなどのデータサイエンスの知識はかなり必須です。

よく使われる手法やデータサイエンスの流れの暗記は絶対。

文法や表現方法を暗記しておく必要はありませんが、他人やテンプレートのコードを見た時に理解できて、自分なりに改造できるくらいの技術があればやっていけます。

単にPythonで機械学習を学ぶのでなく、データサイエンス自体の勉強や、それらの方法を実現するためのPythonの記法について学びましょう。

データサイエンスの勉強法については【2020年最新】データサイエンティスト完全初心者のための学習ロードマップ【基本無料】にまとめました。

統計に詳しい人には、たまに「Rはいらないの?」とか聞かれますが、データサイエンスの研究をしていく上でRが必要になった経験は今のところないです。

RにできてPythonにできないことは今のところ無さそうですし、必要になったら学べばいいかなと思ってます。

データサイエンティストに必要なITスキル②Linux

データサイエンス自体にLinuxを使うというようは、Linuxを知らないとPythonをまともに使えないという感じ。

データサイエンティストを目指す人達にありがちなのが、機械学習やPythonについてばかり勉強をしてしまって、もっと基礎のコンピュータサイエンス自体の知識が不足しがちで、環境構築でつまずいたり本の説明が理解できなくなりがち。

せめてLinuxのコマンドラインの基本的な操作くらいは知ってないと、Pythonすらまともに使えません。

参考にしたいコードがコマンドプロンプトで実行する用で書かれていることはよくありますし、Pythonで吐かれるエラーの半分くらいが環境設定のせいだったりするので、Linuxについて知らない人が簡単なエラー手詰まりになる場面を何人も見てました。

ある程度Pythonについて勉強したらLinuxにも手を出してみるといいです。

データサイエンティストとして必要な知識くらいなら、この本一冊で十分。

https://amzn.to/2SoJdsC

Linux関連の本で、僕が唯一最後まで読んだ本です。

Linuxの基礎が過不足なくてちょうどいい。

データサイエンティストに必要なITスキル③AWS(EC2)

ディープラーニングをしようとすると、どうしてもGPUを使わないとできません。

GPUを搭載したマシンを使えばいいのですが、それだとノートパソコンでは学習を進められませんし、そもそもGPU自体が高価なくせに日々進化しているので、常に最新のものを手元に置いておこうとすると結構コストがかかります。

そこで活躍するのが、クラウドサーバーです。

ディープラーニングをする時、データサイエンティストの多くは手元のマシンでは計算させません。

ほとんどが、GPUを搭載したレンタルサーバー上で計算させます。

クラウドサーバーについて詳しくなる必要はありませんが、EC2を利用してクラウド上で計算させるまでの操作法くらいは知っておいた方がいいですね。

レンタルサーバーにもいくつか選択肢があるのですが、僕はAWS(Amazon Web Service)が提供しているEC2(Elastic Compute Cloud)というレンタルサーバーを利用しています。

他にもGoogleが提供してるGCPやマイクロソフト提供のAzureがある中で、AWSを選択しているかというと、

  • GAFA中、クラウドサービスの開発速度はAmazonが一番早い
  • おそらく今後も開発が進められてスキルが無駄にならない

この二点が大きいかなと思ってます。

現時点では、正直どのサービスを使っても大差はなさそうなんですが、今後のシェアを考えるとAmazonにベットしておくのが良さそうなのでそうしてます。

GCPは開発速度が遅いですし、法的な面でネガティブな要素が少しあって企業ではあまり使われてないようです。

クラウド面のスキルを身に付けるなら、AWS関連のものにしておくとスキルが無駄になる確率が低くなると思います。

データサイエンティストになるのは難しくない

いろんなところでもてはやされているデータサイエンティストですが、羽田感としては必要なITスキルはそこまで多くありません。

これが文系でもデータサイエンティストになれると世間で言われる理由でしょうね。

特にもともと理系だったなら、他に必要とされる数学的知識に関しても問題なくクリアできるはずです。

データサイエンティストはかなり将来性がある職業、かつ他分野からでも割と容易に転職できるので、データサイエンティストへの転職はかなり賢い選択です。

データサイエンティストへの転職なら現役AI開発者がデータサイエンティスト転職特化プログラミングスクール比較してみた【厳選3つ】が役に立つでしょう。

僕がデータサイエンティストになるまでの手順は未経験からAI・機械学習の研究者になった勉強法を詳細に解説するにまとめました。