You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ja/1-Introduction/01-defining-data-science/README.md

78 lines
9.1 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:54:25+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ja"
}
-->
## データの種類
すでに述べたように、データは至る所に存在しています。ただし、適切な方法で収集する必要があります!データには**構造化データ**と**非構造化データ**を区別することが有用です。構造化データは通常、表や複数の表の形式で整理されており、非構造化データは単なるファイルの集合です。また、**半構造化データ**についても話すことがあり、これはある程度の構造を持ちながらもその形式が大きく異なる場合があります。
| 構造化データ | 半構造化データ | 非構造化データ |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| 人々の電話番号リスト | リンク付きのWikipediaページ | ブリタニカ百科事典のテキスト |
| 過去20年間の建物内の各部屋の毎分の温度 | 著者、出版日、要約を含むJSON形式の科学論文のコレクション | 企業文書が保存されたファイル共有 |
| 建物に入るすべての人々の年齢と性別のデータ | インターネットページ | 監視カメラの生のビデオフィード |
## データの入手先
データの入手先は非常に多岐にわたり、すべてを挙げることは不可能です!しかし、典型的なデータの入手先をいくつか挙げてみましょう。
* **構造化データ**
- **IoTのインターネット**温度センサーや圧力センサーなど、さまざまなセンサーからのデータは非常に有用です。例えば、オフィスビルがIoTセンサーで装備されている場合、暖房や照明を自動的に制御してコストを最小化することができます。
- **アンケート**:購入後やウェブサイト訪問後にユーザーに回答を求めるアンケート。
- **行動分析**:例えば、ユーザーがサイト内でどれだけ深く進むか、またはサイトを離れる典型的な理由を理解するのに役立ちます。
* **非構造化データ**
- **テキスト**:全体的な**感情スコア**やキーワード抽出、意味の解析など、豊富な洞察を提供します。
- **画像**や**ビデオ**:監視カメラのビデオは道路の交通量を推定し、交通渋滞の可能性を人々に知らせるのに役立ちます。
- ウェブサーバーの**ログ**:サイトのどのページが最も頻繁に訪問されているか、またその滞在時間を理解するのに役立ちます。
* **半構造化データ**
- **ソーシャルネットワーク**のグラフ:ユーザーの性格や情報拡散の効果を知るための優れたデータ源となります。
- パーティーで撮影された写真の集合から、写真を撮り合った人々のグラフを構築し、**グループダイナミクス**データを抽出することができます。
さまざまなデータの入手先を知ることで、データサイエンス技術を適用して状況をよりよく理解し、ビジネスプロセスを改善するためのシナリオを考えることができます。
## データでできること
データサイエンスでは、データの旅の以下のステップに焦点を当てます:
もちろん、実際のデータに応じて、いくつかのステップが省略される場合があります(例:すでにデータがデータベースにある場合や、モデルのトレーニングが不要な場合)。また、いくつかのステップが何度も繰り返される場合もあります(例:データ処理)。
## デジタル化とデジタルトランスフォーメーション
過去10年間、多くの企業がビジネスの意思決定におけるデータの重要性を理解し始めました。データサイエンスの原則をビジネス運営に適用するには、まずデータを収集し、つまりビジネスプロセスをデジタル形式に変換する必要があります。これを**デジタル化**と呼びます。このデータにデータサイエンス技術を適用して意思決定を導くことで、生産性の大幅な向上(またはビジネスの方向転換)を実現することができ、これを**デジタルトランスフォーメーション**と呼びます。
例を考えてみましょう。オンラインで学生に提供するデータサイエンスコース(このコースのようなもの)があり、それを改善するためにデータサイエンスを活用したいとします。どのようにすればよいでしょうか?
まず、「何をデジタル化できるか?」を考えることから始めます。最も簡単な方法は、各モジュールを完了するのにかかる時間を測定し、各モジュールの終了時に選択式テストを実施して得られる知識を測定することです。すべての学生の平均完了時間を計算することで、学生にとって最も難しいモジュールを特定し、それを簡素化するために取り組むことができます。
モジュールの長さが異なる場合があるため、このアプローチが理想的ではないと主張するかもしれません。モジュールの長さ(文字数)で時間を割り、その値を比較する方がより公平である可能性があります。
複数選択式テストの結果を分析し始めると、学生が理解に苦労している概念を特定し、その情報を使って内容を改善することができます。そのためには、各質問が特定の概念や知識の塊に対応するようにテストを設計する必要があります。
さらに複雑にしたい場合は、各モジュールにかかる時間を学生の年齢カテゴリと比較してプロットすることができます。ある年齢カテゴリではモジュールを完了するのに不適切に長い時間がかかる、または完了する前に学生が離脱してしまうことが分かるかもしれません。これにより、モジュールに対する年齢推奨を提供し、誤った期待による不満を最小限に抑えることができます。
## 🚀 チャレンジ
このチャレンジでは、テキストを調べることでデータサイエンス分野に関連する概念を見つけようとします。データサイエンスに関するWikipediaの記事を取得し、テキストを処理して、以下のようなワードクラウドを作成します
![データサイエンスのワードクラウド](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ja.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') を訪れてコードを読んでみてください。また、コードを実行して、データ変換がリアルタイムでどのように行われるかを確認することもできます。
> Jupyter Notebookでコードを実行する方法が分からない場合は、[この記事](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)を参照してください。
## [講義後のクイズ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## 課題
* **タスク 1**: 上記のコードを修正して、**ビッグデータ**と**機械学習**の分野に関連する概念を見つけてください。
* **タスク 2**: [データサイエンスのシナリオを考える](assignment.md)
## クレジット
このレッスンは [Dmitry Soshnikov](http://soshnikov.com) によって ♥️ を込めて作成されました。
**免責事項**:
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。