コラム

CTC教育サービス・ホーム　＞　コラム　＞　AI活用時代にPythonで見る夢　＞　第13回　データサイエンスについて考える

AI活用時代にPythonで見る夢

CTC 教育サービス

[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes

第13回　データサイエンスについて考える (辻真吾) 2020年3月

はじめに

言葉は本来、それを使っている人々の間で共通の認識があると考えるのが普通でしょう。しかし、その意味が曖昧なまま使われている言葉も多くあります。最近では、「人工知能」が良い例でしょう。単純な線形回帰を使った機械学習からドラえもんのような夢のロボットまで、人工知能という単語で括られている例をみると、もうすこし言葉の定義に真剣になってもよいのではと思ってしまいます。人工知能ほどではありませんが、「データサイエンス」という言葉も、その定義がまだ人々の間の共通認識になっていないように思えます。これは、データサイエンスが比較的新しい分野であるということにも原因がありそうです。そこで今回は、データサイエンスとは何か、またデータサイエンスのために本当に必要なスキルとはどのようなものか、について考えていこうと思います。

データサイエンスとは？

今回このコラムは、まず結論を先に書きましょう。データサイエンスのために必要なものは「データに騙されないスキル、データで騙さないモラル」だと思います。我ながらよいフレーズを思いついたなぁと自画自賛していたのですが、調べたら出てきてしまいました。SAS Institute Japanさんのページに、アスクル株式会社さんの事例紹介があります。もしこのフレーズが流行ったら、「あれ考えたの私です。」と言えるかと思っていたのですが・・・。まあ、すでにネット上に言葉があるのに、流行っていないので、これからも流行らないでしょう。共通の問題意識を持った人々が、同じ結論にたどり着いたと思うことにして、この2点についてもう少し掘り下げていきましょう。

データに騙されないスキル

データサイエンスの語源は、「データ駆動型サイエンス」という概念にあるようです。私の専門の1つである生物医科学の分野でも、1回の実験で得られるデータの量は年々増加の一途をたどっています。ヒトの細胞には約32億の塩基（ATGCのならび、実際にはこの2倍相当）がありますが、タンパク質になる情報が格納されている場所は、2万箇所ぐらいだと言われています。体の細胞はそれぞれ役割が違うので、この約2万箇所のうち必要な場所のDNAを読み取り、RNAを作り、それをタンパク質にしています。RNAの量を遺伝子発現量と言ったりしますが、この情報は1回の実験で取得できます。つまり、1サンプルに対して、1回の実験で約2万の説明変数が出てくるわけです。一方、生物や医学の研究ではサンプルを集めるのは結構大変です。臨床研究では患者さんの同意が必要ですし、そもそも調べたいと思っている病気の症例がうまく集まらないこともよくあります。現実的には、数百症例集まればかなり立派な研究で、数十症例の場合も珍しくありません。たとえば、正常の患者さん20人、病気の患者さん20人で遺伝子発現量を比較した場合、約2万の説明変数から、これら2グループの間で発現量が違う遺伝子を選ぶことができます。単純な統計的検定で、p値が0.05や0.01を下回ったからと言って、そう簡単に結論を出すことはできません。これは、多重検定の補正の問題とも関係がありますが、そもそもたくさんのデータを扱っていると、ついつい自分が証明したい仮説に合うようにデータを解釈してしまうことが起こり得ます。たとえば、階層的クラスタリングは、ヒートマップと同時に利用すると、手元のサンプルにどんなクラスターがあるか、またぞれぞれのクラスターで変数にどのような特徴があるかを可視化できるので便利です。一方で、サンプル間やクラスター間の距離の計算方法を決めるパラメータを変更すると、クラスターの形が違ったものになり得ます。このとき、自分が期待しているサンプルのグループ分けに合ったパラメータ設定が見つかると、ついついそれが正しいと思い込んでしまいがちです。サンプルのクラスター分析にはさまざまな方法が提案されているので、いくつかの手法、とくに頑健（ロバスト）な方法を使ってデータを公平な視点で解析するスキルが必要になります。

データで騙さないモラル

STAP細胞に相当する現象が本当にあるのかどうかわかりませんが、研究に不正があったのは残念ながら事実でしょう。STAP細胞ほど有名にならなくても、研究の不正はよくある話です。私もその昔、騙されたことがありました。興味のある方は米サイエンス誌のニュースなどをたどっていただけると詳細がわかります。簡単に説明すると、がんの患者さんへ抗がん剤を投与する際、事前にその効果がわかるデータ解析の方法を開発したというのが最初の論文の主旨でした。発表されたのは、2007年頃だったと思います。当時の私はこのデータ解析方法を手元で再現しようと、論文の内容や公開されているデータを処理していましたが、どうにもうまく再現できませんでした。発表したDuke大学では、臨床試験も開始されているということで、間違っているはずがないと思い込んだのも良くありませんでした。同じ研究分野にいた世界中の人々が困っていたようで、しばらく経ってフランスのグループが、もとの論文に疑義があるとする100ページを超える反論を発表しました。結局、データ解析の課程に嘘があり、論文は取り下げられ、Duke大学での臨床試験も中止になりました。さまざまな分野でデータが増大し、解析手法もどんどん複雑化しています。やっていることを他人が一瞬で理解することが困難なので、嘘をつくのも容易です。結論だけがネットを駆け巡り、既成事実になってしまうこともあるでしょう。学術研究の場合は、データや方法が公表されるので、データ解析の課程を再現する努力は可能ですが、嘘を見破るのは難しい作業です。高度なスキルを持っていても、データで人を騙そうとしない、崇高なモラルが求められると思います。

まとめ

人工知能を高度な機械学習と捉えるにしても、機械学習には大量のデータが必要です。正しくデータを扱わなければ、正しいモデルを作ることもできません。やはりこうしたことには、教育が果たす役割が大きいでしょう。国内の大学でもデータサイエンスを専門とする学部・学科がいくつかできています。これからの時代を考えると、個人的には雨後の竹の子のようにできてもよいと思っているのですが、まだまだデータサイエンスの重要性が浸透していないのかもしれません。専門家の端くれとして、今後もデータサイエンスの重要性を発信し続けて行きたいと思っています。

IT研修はCTC教育サービス

AWS　Microsoft Azure　生成AI

Python　Power Platform

コンテナ　その他（研修を分野から探す）

筆者書籍紹介

いちばんやさしいパイソンの本
Python スタートブック
　　――Pythonの基本をしっかりマスター

まったくのゼロからでも大丈夫

辻真吾　著
B5変形判／352ページ
定価（本体2,500円+税）
ISBN 978-4-7741-9643-5
詳しくはこちら（出版社WEBサイト）