10 KiB

Raw Permalink Blame History Unescape Escape

データの定義


データの定義 - スケッチノート by @nitya

データとは、発見を行い、情報に基づいた意思決定を支援するために使用される事実、情報、観察、測定値のことです。データポイントはデータセット内の単一のデータ単位であり、データポイントの集合がデータセットです。データセットはさまざまな形式や構造で提供されることがあり、その出所、つまりデータがどこから来たかに基づいていることが一般的です。例えば、企業の月次収益はスプレッドシートに記録されるかもしれませんが、スマートウォッチからの毎時の心拍数データはJSON形式であるかもしれません。データサイエンティストがデータセット内で異なる種類のデータを扱うことはよくあります。

このレッスンでは、データの特性とその出所によってデータを識別し分類することに焦点を当てます。

講義前クイズ

データの記述方法

生データ

生データとは、出所から得られた初期状態のデータであり、分析や整理が行われていないものです。データセットで何が起きているのかを理解するためには、人間やそれをさらに分析するために使用する技術が理解できる形式に整理する必要があります。データセットの構造はその整理方法を記述し、構造化データ、非構造化データ、半構造化データとして分類されます。これらの構造の種類は出所によって異なりますが、最終的にはこれら3つのカテゴリに収まります。

定量データ

定量データはデータセット内の数値的な観察であり、通常は分析、測定、数学的に使用することができます。定量データの例としては、国の人口、個人の身長、企業の四半期収益などがあります。さらに分析を加えることで、定量データを使用して季節的な空気質指数（AQI）の傾向を発見したり、典型的な勤務日のラッシュアワー交通の確率を推定したりすることができます。

定性データ

定性データ（カテゴリカルデータとも呼ばれる）は、定量データの観察のように客観的に測定することができないデータです。一般的には、製品やプロセスの品質を捉える主観的なデータのさまざまな形式です。時には、定性データが数値であっても数学的に使用されることは通常ありません。例えば、電話番号やタイムスタンプなどです。定性データの例としては、ビデオコメント、車のメーカーとモデル、親しい友人の好きな色などがあります。定性データは、消費者が最も好きな製品を理解したり、求人応募履歴書で人気のあるキーワードを特定したりするために使用されることがあります。

構造化データ

構造化データは、行と列に整理されたデータであり、各行が同じセットの列を持つものです。列は特定のタイプの値を表し、その値が何を表しているかを記述する名前で識別されます。一方、行には実際の値が含まれます。列には、値が正確に列を表すようにするための特定のルールや制限が設けられることがよくあります。例えば、顧客のスプレッドシートを想像してみてください。各行には電話番号が必要であり、電話番号にはアルファベット文字が含まれないというルールがあるかもしれません。電話番号列が空でなく、数字のみを含むようにするルールが適用されることがあります。

構造化データの利点は、他の構造化データと関連付けることができるように整理されることです。しかし、データが特定の方法で整理されるように設計されているため、その全体的な構造を変更するには多くの労力が必要になることがあります。例えば、顧客スプレッドシートに空でないメール列を追加する場合、データセット内の既存の顧客行にこれらの値をどのように追加するかを考える必要があります。

構造化データの例: スプレッドシート、リレーショナルデータベース、電話番号、銀行明細書

非構造化データ

非構造化データは通常、行や列に分類することができず、形式やルールのセットを持たないデータです。非構造化データはその構造に制限が少ないため、構造化データセットと比較して新しい情報を追加するのが簡単です。例えば、2分ごとに気圧データを記録するセンサーが温度を測定して記録する機能を追加された場合、非構造化データであれば既存のデータを変更する必要はありません。しかし、このタイプのデータを分析したり調査したりするのに時間がかかることがあります。例えば、科学者がセンサーのデータから先月の平均温度を見つけたいと思ったが、センサーが壊れていることを示すために記録データの一部に「e」を記録していた場合、データが不完全であることが判明するかもしれません。

非構造化データの例: テキストファイル、テキストメッセージ、ビデオファイル

半構造化データ

半構造化データは、構造化データと非構造化データの特徴を組み合わせたものです。通常、行と列の形式には従いませんが、構造化と見なされる方法で整理されており、固定形式やルールのセットに従うことがあります。構造は出所によって異なり、明確に定義された階層から新しい情報を簡単に統合できる柔軟なものまでさまざまです。メタデータはデータがどのように整理され保存されるかを決定する指標であり、データの種類に応じてさまざまな名前が付けられます。メタデータの一般的な名前には、タグ、要素、エンティティ、属性などがあります。例えば、典型的な電子メールメッセージには件名、本文、受信者のセットがあり、送信者や送信日時によって整理することができます。

半構造化データの例: HTML、CSVファイル、JavaScript Object Notation (JSON)

データの出所

データの出所とは、データが生成された初期の場所、または「存在している」場所のことであり、収集方法や収集時期によって異なります。ユーザーによって生成されたデータは一次データと呼ばれ、一般的な使用のために収集されたデータは二次データと呼ばれます。例えば、熱帯雨林で観察を収集する科学者のグループは一次データと見なされ、他の科学者と共有することを決定した場合、それを使用する人々にとっては二次データと見なされます。

データベースは一般的な出所であり、データをホストし維持するためにデータベース管理システムに依存しています。ユーザーはクエリと呼ばれるコマンドを使用してデータを探索します。データソースとしてのファイルには、音声、画像、ビデオファイル、Excelのようなスプレッドシートが含まれます。インターネットはデータをホストする一般的な場所であり、データベースやファイルが見つかることがあります。アプリケーションプログラミングインターフェース（API）は、プログラマーがインターネットを介して外部ユーザーとデータを共有する方法を作成することを可能にし、ウェブスクレイピングはウェブページからデータを抽出するプロセスです。データの操作に関するレッスンでは、さまざまなデータソースの使用方法に焦点を当てています。

結論

このレッスンでは以下を学びました:

データとは何か
データの記述方法
データの分類とカテゴリ化方法
データがどこで見つかるか

🚀 チャレンジ

Kaggleはオープンデータセットの優れたソースです。データセット検索ツールを使用して興味深いデータセットを見つけ、以下の基準で3～5のデータセットを分類してください:

データは定量的か定性的か？
データは構造化、非構造化、または半構造化か？

講義後クイズ

復習と自己学習

Microsoft LearnのユニットClassify your Dataでは、構造化データ、半構造化データ、非構造化データの詳細な内訳が提供されています。

課題

データセットの分類

免責事項:
この文書はAI翻訳サービスCo-op Translatorを使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された文書を正式な情報源としてお考えください。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や解釈の誤りについて、当方は責任を負いません。

10 KiB Raw Permalink Blame History Unescape Escape