excelのピボットテーブル、BIツール、R、pythonと様々な分析ツール・言語があります。これらのツールを活用するためには元となる分析データがしっかり作られていなければ、分析もくそもありません。今回は、どんなツールでも使えるベースデータのルールをまとめてみました。
1行目→項目、2行目以降→データ ルールの徹底
以下の図のように、1行目は必ず項目名の入力をしましょう。空白はNGです。
項目名は、分類分け
項目名は、個々のデータを入れるのではなく、分類名で入れましょう。少しわかりにくいと思いますので、具体例をあげると、項目には「みかん」、「りんご」、「すいか」といれるのではなく、「商品名」といれる必要があります。常に、データがどういった分類に含まれるかを考えて入力が必要です。
列に項目を入れるのはNG
列に項目を入れるのは視認性は良いのですが、他の分析ツールで分析する場合、扱いにくいデータになってしまうのでやめましょう。行数が増えても、常に1行目以外は「データ」です。
同じセルには1情報のみ
同じセルには必ず一つの情報のみにしましょう。セルに情報を詰め込むと、データクレンジング作業が余分にかかってしまいます。列が少なくなり、視認性はよくなるかもしれませんが、分析したいデータの場合効率を優先したほうが効果的です。
コメント