21 KiB
現実世界におけるデータサイエンス
![]() |
|---|
| 現実世界におけるデータサイエンス - スケッチノート by @nitya |
学習の旅もいよいよ終盤です!
私たちはデータサイエンスと倫理の定義から始め、データ分析と可視化のためのさまざまなツールと技術を探り、データサイエンスのライフサイクルをレビューし、クラウドコンピューティングサービスを使ったデータサイエンスワークフローの拡張と自動化について学びました。そこで、次の疑問が浮かぶかもしれません: 「これらの学びを現実世界の文脈にどう結びつけるのか?」
このレッスンでは、業界におけるデータサイエンスの現実的な応用を探り、研究、デジタル人文学、持続可能性の具体的な例を掘り下げます。また、学生プロジェクトの機会を紹介し、学習の旅を続けるための役立つリソースで締めくくります。
講義前のクイズ
データサイエンス + 業界
AIの民主化のおかげで、開発者はAI駆動の意思決定やデータ駆動の洞察をユーザー体験や開発ワークフローに設計・統合することが以前よりも容易になっています。以下は、業界全体でデータサイエンスが「応用」されているいくつかの例です:
-
Google Flu Trends は検索語とインフルエンザの傾向を関連付けるためにデータサイエンスを使用しました。このアプローチには欠点がありましたが、データ駆動型の医療予測の可能性(および課題)についての認識を高めました。
-
UPSのルート予測 - UPSがデータサイエンスと機械学習を使用して、天候条件、交通パターン、配達期限などを考慮した最適な配達ルートを予測する方法を説明しています。
-
NYCタクシーのルート可視化 - 情報公開法を使用して収集されたデータが、NYCのタクシーの1日を可視化し、忙しい都市をどのように移動し、稼ぎ、24時間の間にどのような旅をしているかを理解するのに役立ちました。
-
Uber Data Science Workbench - 毎日数百万件のUberの旅から収集されたデータ(ピックアップ&ドロップオフの場所、旅の時間、好まれるルートなど)を使用して、価格設定、安全性、不正検出、ナビゲーションの意思決定を支援するデータ分析ツールを構築しています。
-
スポーツ分析 - 予測分析(チームや選手の分析 - Moneyball を思い浮かべてください - およびファン管理)と データ可視化(チーム&ファンダッシュボード、ゲームなど)に焦点を当て、才能のスカウト、スポーツギャンブル、在庫/会場管理などの応用があります。
-
銀行業界におけるデータサイエンス - リスクモデリングや不正検出から顧客セグメンテーション、リアルタイム予測、レコメンダーシステムまで、金融業界におけるデータサイエンスの価値を強調しています。予測分析は、信用スコア のような重要な指標を推進します。
-
医療におけるデータサイエンス - 医療画像(例: MRI、X線、CTスキャン)、ゲノミクス(DNA配列解析)、薬剤開発(リスク評価、成功予測)、予測分析(患者ケア&供給物流)、疾病追跡&予防などの応用を強調しています。
画像提供: Data Flair: 6 Amazing Data Science Applications
この図は、データサイエンス技術を応用する他の領域と例を示しています。他の応用を探りたいですか?以下の レビュー&自己学習 セクションをチェックしてください。
データサイエンス + 研究
![]() |
|---|
| データサイエンス&研究 - スケッチノート by @nitya |
現実世界の応用が業界の大規模なユースケースに焦点を当てることが多い一方で、研究 の応用とプロジェクトは以下の2つの観点から有益です:
- イノベーションの機会 - 次世代アプリケーションのための高度な概念の迅速なプロトタイピングとユーザー体験のテストを探る。
- 展開の課題 - 現実世界の文脈でデータサイエンス技術の潜在的な害や予期しない結果を調査する。
学生にとって、これらの研究プロジェクトは学習とコラボレーションの機会を提供し、トピックの理解を深め、関心のある分野で活動する関連する人々やチームとの認識と関与を広げることができます。それでは、研究プロジェクトはどのようなものか、そしてどのように影響を与えることができるのでしょうか?
1つの例を見てみましょう - Joy Buolamwini(MIT Media Labs)による MIT Gender Shades Study と、Timnit Gebru(当時Microsoft Research所属)との共著による代表的な研究論文 です。この研究は以下に焦点を当てています:
- 何を: 研究プロジェクトの目的は、性別や肌の色に基づく自動顔分析アルゴリズムとデータセットに存在するバイアスを評価することでした。
- なぜ: 顔分析は法執行機関、空港のセキュリティ、採用システムなどの分野で使用されており、バイアスによる不正確な分類が影響を受ける個人やグループに経済的および社会的な害を引き起こす可能性があります。バイアスを理解し、排除または軽減することは公平な使用の鍵です。
- どのように: 研究者は既存のベンチマークが主に肌の色が明るい被験者を使用していることを認識し、性別と肌の色でよりバランスの取れた新しいデータセット(1000以上の画像)を作成しました。このデータセットを使用して、3つの性別分類製品(Microsoft、IBM、Face++)の精度を評価しました。
結果は、全体的な分類精度は良好であるものの、さまざまなサブグループ間でエラー率に顕著な違いがあることを示しました。特に、性別誤認識が女性や肌の色が濃い人々で高く、バイアスの存在を示しています。
主な成果: データサイエンスにはより 代表的なデータセット(バランスの取れたサブグループ)とより 包括的なチーム(多様な背景)が必要であり、AIソリューションでのバイアスを早期に認識し排除または軽減することが重要であるという認識を高めました。このような研究努力は、多くの組織がAI製品とプロセスの公平性を向上させるための 責任あるAI の原則と実践を定義する上で重要です。
Microsoftの関連する研究努力について学びたいですか?
- Microsoft Research Projects の人工知能に関するプロジェクトをチェックしてください。
- Microsoft Research Data Science Summer School の学生プロジェクトを探ってみてください。
- Fairlearn プロジェクトと Responsible AI イニシアチブをチェックしてください。
データサイエンス + 人文学
![]() |
|---|
| データサイエンス&デジタル人文学 - スケッチノート by @nitya |
デジタル人文学は、「計算方法と人文学的探求を組み合わせた実践とアプローチの集合」と定義されています。スタンフォードのプロジェクト では、「歴史の再構築」 や 「詩的思考」 のような例が示されており、デジタル人文学とデータサイエンス の関連性を強調しています。これらは、ネットワーク分析、情報可視化、空間およびテキスト分析などの技術を活用し、歴史的および文学的データセットを再検討して新たな洞察と視点を得ることを目的としています。
この分野でプロジェクトを探求し拡張したいですか?
"Emily Dickinson and the Meter of Mood" をチェックしてください。これは、Jen Looper による素晴らしい例で、データサイエンスを使って馴染みのある詩を再検討し、その意味や作者の貢献を新しい文脈で評価する方法を問うものです。例えば、詩のトーンや感情を分析することで、その詩が書かれた季節を予測できるか - そしてそれが関連する期間における作者の心の状態について何を教えてくれるのか?
その質問に答えるために、データサイエンスライフサイクルのステップをたどります:
データ取得- 分析のための関連するデータセットを収集します。API(例: Poetry DB API)を使用するか、ウェブページ(例: Project Gutenberg)をスクレイピングするツール(例: Scrapy)を使用するオプションがあります。データクリーニング- テキストをフォーマット、整理、簡素化する方法を基本的なツール(Visual Studio CodeやMicrosoft Excelなど)を使って説明します。データ分析- データセットを「ノートブック」にインポートし、Pythonパッケージ(pandas、numpy、matplotlibなど)を使用してデータを整理し可視化する方法を説明します。感情分析- Text Analyticsのようなクラウドサービスを統合し、Power Automate のようなローコードツールを使用してデータ処理ワークフローを自動化する方法を説明します。
このワークフローを使用して、詩の感情に季節が与える影響を探り、作者に対する独自の視点を形成することができます。ぜひ試してみてください - その後、ノートブックを拡張して他の質問をしたり、新しい方法でデータを可視化してみてください!
Digital Humanities toolkit のツールを使用して、これらの探求の道を進めることができます。
データサイエンス + 持続可能性
![]() |
|---|
| データサイエンス&持続可能性 - スケッチノート by @nitya |
2030年持続可能な開発のためのアジェンダ - 2015年にすべての国連加盟国によって採択されたこのアジェンダは、気候変動の影響から地球を保護することに焦点を当てた目標を含む17の目標を特定しています。Microsoft Sustainability イニシアチブはこれらの目標を支援し、技術ソリューションがより持続可能な未来を構築する方法を探ることで、4つの目標 - 2030年までに炭素負債、水のポジティブ化、ゼロ廃棄物、生物多様性を達成することに焦点を当てています。
これらの課題にスケーラブルかつタイムリーに取り組むには、クラウド規模の思考と大規模なデータが必要です。Planetary Computer イニシアチブは、データサイエンティストや開発者を支援するために以下の4つのコンポーネントを提供しています:
-
データカタログ - 地球システムデータのペタバイト(無料&Azureホスト)。
-
Planetary API - ユーザーが空間と時間を超えて関連するデータを検索するのを支援。
-
ハブ - 科学者が巨大な地理空間データセットを処理するための管理環境。
-
アプリケーション - 持続可能 Planetary Computerプロジェクトは現在プレビュー段階です(2021年9月時点) - データサイエンスを活用して持続可能性の解決策に貢献する方法を始めましょう。
-
アクセスをリクエストして、探索を開始し、仲間とつながりましょう。
-
ドキュメントを探索して、サポートされているデータセットやAPIを理解しましょう。
-
Ecosystem Monitoringのようなアプリケーションを探索して、アプリケーションアイデアのインスピレーションを得ましょう。
データ可視化を活用して、気候変動や森林破壊などの分野における関連する洞察を明らかにしたり、強調したりする方法を考えてみてください。また、洞察を活用して、より持続可能な生活を促す行動変容を動機づける新しいユーザー体験を創出する方法を考えてみましょう。
データサイエンス + 学生
私たちは産業や研究における実世界の応用について話し、デジタル人文学や持続可能性におけるデータサイエンスの応用例を探りました。それでは、データサイエンス初心者としてスキルを磨き、専門知識を共有するにはどうすればよいでしょうか?
以下は、学生向けデータサイエンスプロジェクトの例です。ぜひ参考にしてください。
- MSR Data Science Summer Schoolでは、以下のようなトピックを探求するGitHub プロジェクトがあります:
- 物質文化のデジタル化:Sirkapにおける社会経済的分布の探求 - Ornella AltunyanとClaremontのチームによるプロジェクトで、ArcGIS StoryMapsを使用しています。
🚀 チャレンジ
初心者向けのデータサイエンスプロジェクトを推奨する記事を探してみましょう。例えば、これらの50のトピックやこれらの21のプロジェクトアイデア、またはソースコード付きの16のプロジェクトなどを分解してリミックスすることができます。そして、学習の旅についてブログを書き、洞察を私たち全員と共有することを忘れないでください。
講義後のクイズ
講義後のクイズ
レビューと自己学習
さらにユースケースを探求したいですか?以下の記事をご覧ください:
- 17のデータサイエンスの応用例 - 2021年7月
- 実世界における11の驚くべきデータサイエンスの応用例 - 2021年5月
- 実世界におけるデータサイエンス - 記事コレクション
- データサイエンスの応用例:教育、農業、金融、映画など。
課題
免責事項:
この文書は、AI翻訳サービス Co-op Translator を使用して翻訳されています。正確性を期すよう努めておりますが、自動翻訳には誤りや不正確な表現が含まれる可能性があります。元の言語で記載された原文を公式な情報源としてご参照ください。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の利用に起因する誤解や誤認について、当社は一切の責任を負いません。



