情報化時代において、データはもはや不足しているのではなく、溢れているのです。 重要なのは、組織や企業が入手できる圧倒的な量のデータをふるいにかけ、その意味するところを正しく解釈することです。
「ビッグデータ」に注目が集まる中、アナリストたちは大規模な組織で利用できる多くの素晴らしいツールやテクニックを生み出してきました。
私たちは、より洗練された技術に進む前に、次の5つの基本的なものからデータ分析の取り組みを始め、その落とし穴を避けることをお勧めします。
平均
算術平均は、一般的に「平均」として知られており、数字のリストの合計をリストの項目数で割ったものです。 平均値は、データセットの全体的な傾向を把握したり、データの迅速なスナップショットを提供するのに役立ちます。
Pitfall:
平均値は単独では危険なツールです。 いくつかのデータセットでは、平均はモードとメディアン (平均に近い他の2つの測定値) にも密接に関連しています。
標準偏差
ギリシャ文字のシグマで表される標準偏差は、平均値を中心としたデータの広がりを示す指標です。 標準偏差が高いほど、データが平均値から大きく離れていることを示し、標準偏差が低いほど、より多くのデータが平均値に一致していることを示します。
落とし穴:
平均値と同様に、標準偏差も単独で捉えると誤解を招く恐れがあります。
回帰
回帰は、従属変数と説明変数の間の関係をモデル化するもので、通常は散布図に表示されます。 回帰線は、これらの関係が強いか弱いかを示します。
Pitfall:
回帰はあまりニュアンスがありません。 時には、散布図上の外れ値 (およびその理由) が重要になることがあります。 たとえば、外れ値のデータ ポイントは、最も重要なサプライヤーからの入力や、最も売れている製品を表している場合があります。 しかし、回帰線の性質上、これらの外れ値を無視することができます。
サンプル サイズの決定
労働力のような大きなデータセットまたは母集団を測定する場合、必ずしもその母集団のすべてのメンバーから情報を収集する必要はありません。 サンプルを正確に測定するためには、適切なサイズを決定する必要があります。
Pitfall:
母集団内の新しい、未検証の変数を調査する場合、比率の式は特定の仮定に頼る必要があるかもしれません。 しかし、これらの仮定は完全に不正確である可能性があります。 このエラーは、サンプル サイズの決定、そして残りの統計データ分析に引き継がれます
仮説検定
一般的にt検定とも呼ばれる仮説検定は、ある前提条件がデータ セットまたは母集団に対して実際に正しいかどうかを評価します。 データ分析や統計学では、仮説検定の結果が偶然に起こり得ないものであれば、統計的に有意であると考えます。 仮説検証は、科学・研究からビジネス・経済まであらゆる分野で利用されています
Pitfall:
仮説検証を厳密に行うためには、よくあるエラーに注意する必要があります。 例えば、プラシーボ効果とは、被験者がある結果を誤って期待し、その結果を知覚する(あるいは実際に達成する)ことで起こります。
全体的に見て、これらのデータ分析方法は、意思決定のポートフォリオに多くの洞察をもたらします。 しかし、それぞれの手法に共通する落とし穴を避けることも同様に重要です。
強力なデータの可視化による統計的データ分析の向上については、下のボタンをクリックして無料ガイド「5 Tips for Security Data Analysis」をダウンロードし、抽象的な数字を測定可能な成功へと導きましょう。