10 KiB

Raw Permalink Blame History Unescape Escape

データの定義


データの定義 - スケッチノート by @nitya

データとは、発見を行い、情報に基づいた意思決定を支えるために使用される事実、情報、観察、測定値のことです。データポイントとは、データセット内の単一のデータ単位のことで、データポイントの集合がデータセットです。データセットはさまざまな形式や構造で提供されることがあり、その形式は通常、データの出所や由来に基づいています。例えば、企業の月次収益はスプレッドシートに記録されるかもしれませんが、スマートウォッチからの毎時の心拍数データはJSON形式で記録されるかもしれません。データサイエンティストがデータセット内で異なる種類のデータを扱うことは一般的です。

このレッスンでは、データの特性や出所に基づいてデータを識別し分類することに焦点を当てます。

講義前クイズ

データの記述方法

生データ

生データとは、出所から得られた初期状態のデータで、まだ分析や整理が行われていないものを指します。データセットの内容を理解するためには、人間や分析に使用する技術が理解できる形式に整理する必要があります。データセットの構造はその整理方法を示し、構造化データ、非構造化データ、半構造化データに分類されます。これらの構造の種類は出所によって異なりますが、最終的にはこれら3つのカテゴリに収まります。

定量データ

定量データは、データセット内の数値的な観察値であり、通常、分析、測定、数学的に使用することができます。定量データの例としては、国の人口、個人の身長、企業の四半期収益などがあります。追加の分析を行うことで、定量データは大気質指数（AQI）の季節的な傾向を発見したり、通常の平日のラッシュアワーの交通量の確率を推定したりするのに使用できます。

定性データ

定性データ（カテゴリカルデータとも呼ばれる）は、定量データのように客観的に測定することができないデータです。一般的に、製品やプロセスの質を捉える主観的なデータのさまざまな形式を指します。時には、定性データが数値であっても、通常は数学的に使用されない場合があります（例：電話番号やタイムスタンプ）。定性データの例としては、ビデオコメント、車のメーカーとモデル、親しい友人の好きな色などがあります。定性データは、消費者が最も好む製品を理解したり、求人応募履歴書で人気のあるキーワードを特定したりするのに使用できます。

構造化データ

構造化データは、行と列に整理されたデータであり、各行が同じセットの列を持ちます。列は特定のタイプの値を表し、その値が何を表しているかを説明する名前で識別されます。一方、行には実際の値が含まれます。列には、値が正確に列を表すようにするための特定のルールや制限が設けられることがよくあります。例えば、顧客のスプレッドシートを想像してみてください。各行には電話番号が必要であり、電話番号にはアルファベット文字が含まれないというルールがあるかもしれません。電話番号の列が空でなく、数字のみを含むようにするルールが適用される場合があります。

構造化データの利点は、他の構造化データと関連付けられるように整理できることです。しかし、データが特定の方法で整理されるように設計されているため、その全体的な構造を変更するには多大な労力が必要になる場合があります。例えば、顧客スプレッドシートに空欄のないメールアドレス列を追加する場合、既存の顧客行にこれらの値をどのように追加するかを考える必要があります。

構造化データの例：スプレッドシート、リレーショナルデータベース、電話番号、銀行明細書

非構造化データ

非構造化データは、通常、行や列に分類できず、特定の形式やルールに従わないデータです。非構造化データは構造に関する制約が少ないため、構造化データと比較して新しい情報を追加しやすいという特徴があります。例えば、2分ごとに気圧データを記録するセンサーが、温度を測定して記録する機能を追加した場合、非構造化データであれば既存のデータを変更する必要はありません。しかし、このようなデータを分析したり調査したりするのに時間がかかる場合があります。例えば、センサーのデータから先月の平均気温を求めたい科学者が、センサーが壊れていたことを示す「e」という記録が含まれていることを発見した場合、データが不完全であることがわかります。

非構造化データの例：テキストファイル、テキストメッセージ、ビデオファイル

半構造化データ

半構造化データは、構造化データと非構造化データの特徴を併せ持つデータです。通常、行や列の形式には従いませんが、構造化されていると見なされる方法で整理されており、固定された形式やルールに従う場合があります。構造は出所によって異なり、明確に定義された階層から、より柔軟で新しい情報を簡単に統合できるものまでさまざまです。メタデータは、データがどのように整理され保存されるかを決定する指標であり、データの種類に応じてさまざまな名前が付けられます。メタデータの一般的な名前には、タグ、要素、エンティティ、属性などがあります。例えば、典型的な電子メールメッセージには件名、本文、受信者のセットが含まれており、送信者や送信日時で整理することができます。

半構造化データの例：HTML、CSVファイル、JavaScript Object Notation (JSON)

データの出所

データソースとは、データが生成された初期の場所、または「存在している」場所のことで、収集方法や時期によって異なります。ユーザーによって生成されたデータは一次データと呼ばれ、一般的な使用のために収集されたデータは二次データと呼ばれます。例えば、熱帯雨林で観察を行う科学者のグループが収集したデータは一次データと見なされ、他の科学者と共有する場合、それを使用する人々にとっては二次データと見なされます。

データベースは一般的なデータソースであり、データベース管理システムを使用してデータをホストおよび管理します。ユーザーはクエリと呼ばれるコマンドを使用してデータを探索します。データソースとしてのファイルには、音声、画像、ビデオファイル、Excelのようなスプレッドシートが含まれます。インターネットソースはデータをホストする一般的な場所であり、データベースやファイルが見つかることがあります。アプリケーションプログラミングインターフェース（API）は、プログラマーがインターネットを介して外部ユーザーとデータを共有する方法を作成することを可能にします。一方、ウェブスクレイピングはウェブページからデータを抽出するプロセスです。データの操作に関するレッスンでは、さまざまなデータソースの使用方法に焦点を当てています。

結論

このレッスンでは以下を学びました：

データとは何か
データの記述方法
データの分類とカテゴリ化
データの入手先

🚀 チャレンジ

Kaggleはオープンデータセットの優れたソースです。データセット検索ツールを使用して興味深いデータセットをいくつか見つけ、以下の基準で3～5個のデータセットを分類してください：

データは定量的か定性的か？
データは構造化、非構造化、または半構造化のどれか？

講義後クイズ

復習と自己学習

Microsoft Learnのユニットデータを分類するでは、構造化データ、半構造化データ、非構造化データの詳細な内訳が説明されています。

課題

データセットの分類

免責事項:
この文書は、AI翻訳サービス Co-op Translator を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。

10 KiB Raw Permalink Blame History Unescape Escape