データクリーニング例のご紹介

データクリーニングとは

回収されたデータを集計・分析する前に誤りや抜け漏れのないデータへと処理する作業です。

不良回答を許す場合はデータクリーニングは不要ですし、

不良回答を許さない場合、データクリーニングを行います。

データクリーニングを行うことに対して

推奨or非推奨とはっきり申し訳あげることはできませんが、一般的には多少のクリーニングを行って集計・分析されてる方が多いです。

不良回答としてチェックする項目例

FA（自由記述）においての適当な回答
ストレートチェック（任意の設問数において、全て同一の選択肢が選ばれた場合のこと）
回答矛盾（前問では、「購入意向あり」と回答したのに、次の自由記述設問で購入したくない理由を書いているなど）
調査対象者と違う人が回答していないか？（20~49歳対象の調査なのに、年齢聴取設問で69歳と回答している人など）

データクリーニングの大まかな流れ

テキストデータのローデータを、エクセル上で開く
ファイル名を.xlsxに変更する（テキストデータのままだと1シートしか保存されない）
1行目にフィルターをつける（Windowsなら、Ctrl+Shift＋L)
不良回答者のチェックを入れる（チェックしたら削除対象とする）
削除フラグのデータを消す
サンプルカットを行う

手順例

1シート目：削除フラグを付けるシート

・B列に一行追加して、カラム名を【削除フラグとする】

・不良回答者のチェックをして、不良回答として判断する場合はB列にメモを残す

※不良回答の判別は、「不良回答としてチェックする項目例」を参考にしてください。

・b列は常に、空白セルのみ表示にしておくとやりやすい。

└１度削除フラグついた人を再表示させないため

2シート目：削除フラグを削除するシート

1シート目をコピーして、削除フラグ人のがついた

行ごとデータを削除する

3シート目：サンプルカットをするシート

①2シート目をコピーして、サンプルカットを行う

②D列【SEX】とF列【GEN】を「＆」で合体することで、性年代のカラムを作る

※十の位は【性別】、一の位は【年代】、数字ではなく、文字として認識ください。

③rand関数で、行ごとにシャッフルする

行単位でデータをごちゃまぜにすることで、恣意的なサンプルカットでは無くなります

「=rand()」とrand関数を入力後、並び替えます。

※その際、数式のまま並び替えを行うと、エクセルが重くなることが多いため、値張りを推奨します。

※列全体を選択後、「Ctrl+C」でｺﾋﾟーするようにする。

「Ctrl+Alt+V」で【値】を選択。

④G列【SEX＆GEN】を昇順に並び替える

rand関数の行単位でごちゃまぜにした後に、行ってください。

⑤連番を振っていく

G列の数字が変わったら、また1からカウントする。

例）200行目を見ると、数字が「14」になったら

また1から数字をカウントしてくれる

⑥割付数をvlook関数で参照する

⑦【M列】割付が連番よりも小さい時は「1」

　　　　割付が連番よりも大きい時は「99」と表示

※99が、サンプルカット対象となる

└確認としてM列で「1」が3000sいれば、OK

4シート目：サンプルカット対象者を削除するシート

3シート目で「99」とついた人は、サンプルカット対象のため、

行単位で削除する

5シート目：無料集計ツール用に仕上げるシート

・自分で追加した列を削除する

└今回は分かりやすくするため自分で追加した列を色付けしている

└初めのうちは、自分で追加する列は色を付けたほうがやりやすい

・このシートをテキストデータ化して保存する

データクリーニングの一例