データクリーニングとは
回収されたデータを集計・分析する前に誤りや抜け漏れのないデータへと処理する作業です。
不良回答を許す場合はデータクリーニングは不要ですし、
不良回答を許さない場合、データクリーニングを行います。
データクリーニングを行うことに対して
推奨or非推奨とはっきり申し訳あげることはできませんが、一般的には多少のクリーニングを行って集計・分析されてる方が多いです。
不良回答としてチェックする項目例
- FA(自由記述)においての適当な回答
- ストレートチェック(任意の設問数において、全て同一の選択肢が選ばれた場合のこと)
- 回答矛盾(前問では、「購入意向あり」と回答したのに、次の自由記述設問で購入したくない理由を書いているなど)
- 調査対象者と違う人が回答していないか? (20~49歳対象の調査なのに、年齢聴取設問で69歳と回答している人など)
データクリーニングの大まかな流れ
- テキストデータのローデータを、エクセル上で開く
- ファイル名を.xlsxに変更する(テキストデータのままだと1シートしか保存されない)
- 1行目にフィルターをつける(Windowsなら、Ctrl+Shift+L)
- 不良回答者のチェックを入れる(チェックしたら削除対象とする)
- 削除フラグのデータを消す
- サンプルカットを行う
手順例
1シート目:削除フラグを付けるシート
・B列に一行追加して、カラム名を【削除フラグとする】
・不良回答者のチェックをして、不良回答として判断する場合はB列にメモを残す
※不良回答の判別は、「不良回答としてチェックする項目例」を参考にしてください。
・b列は常に、空白セルのみ表示にしておくとやりやすい。
└1度削除フラグついた人を再表示させないため
2シート目:削除フラグを削除するシート
1シート目をコピーして、削除フラグ人のがついた
行ごとデータを削除する
3シート目:サンプルカットをするシート
①2シート目をコピーして、サンプルカットを行う
②D列【SEX】とF列【GEN】を「&」で合体することで、性年代のカラムを作る
※十の位は【性別】、一の位は【年代】、数字ではなく、文字として認識ください。
③rand関数で、行ごとにシャッフルする
行単位でデータをごちゃまぜにすることで、恣意的なサンプルカットでは無くなります
「=rand()」とrand関数を入力後、並び替えます。
※その際、数式のまま並び替えを行うと、エクセルが重くなることが多いため、値張りを推奨します。
※列全体を選択後、「Ctrl+C」でコピーするようにする。
「Ctrl+Alt+V」で【値】を選択。
④G列【SEX&GEN】を昇順に並び替える
rand関数の行単位でごちゃまぜにした後に、行ってください。
⑤連番を振っていく
G列の数字が変わったら、また1からカウントする。
例)200行目を見ると、数字が「14」になったら
また1から数字をカウントしてくれる
⑥割付数をvlook関数で参照する
⑦【M列】割付が連番よりも小さい時は「1」
割付が連番よりも大きい時は「99」と表示
※99が、サンプルカット対象となる
└確認としてM列で「1」が3000sいれば、OK
4シート目:サンプルカット対象者を削除するシート
3シート目で「99」とついた人は、サンプルカット対象のため、
行単位で削除する
5シート目:無料集計ツール用に仕上げるシート
・自分で追加した列を削除する
└今回は分かりやすくするため自分で追加した列を色付けしている
└初めのうちは、自分で追加する列は色を付けたほうがやりやすい
・このシートをテキストデータ化して保存する