データクリーニングの一例

データクリーニングの一例

データクリーニングとは

回収されたデータを集計・分析する前に誤りや抜け漏れのないデータへと処理する作業です。

不良回答を許す場合はデータクリーニングは不要ですし、
不良回答を許さない場合、データクリーニングを行います。

データクリーニングを行うことに対して
推奨or非推奨とはっきり申し訳あげることはできませんが、一般的には多少のクリーニングを行って集計・分析されてる方が多いです。

不良回答としてチェックする項目例

  1. FA(自由記述)においての適当な回答
  2. ストレートチェック(任意の設問数において、全て同一の選択肢が選ばれた場合のこと)
  3. 回答矛盾(前問では、「購入意向あり」と回答したのに、次の自由記述設問で購入したくない理由を書いているなど)
  4. 調査対象者と違う人が回答していないか? (20~49歳対象の調査なのに、年齢聴取設問で69歳と回答している人など)

データクリーニングの大まかな流れ

  1. テキストデータのローデータを、エクセル上で開く
  2. ファイル名を.xlsxに変更する(テキストデータのままだと1シートしか保存されない)
  3. 1行目にフィルターをつける(Windowsなら、Ctrl+Shift+L)
  4. 不良回答者のチェックを入れる(チェックしたら削除対象とする)
  5. 削除フラグのデータを消す
  6. サンプルカットを行う

手順例

1シート目:削除フラグを付けるシート

・B列に一行追加して、カラム名を【削除フラグとする】
・不良回答者のチェックをして、不良回答として判断する場合はB列にメモを残す
※不良回答の判別は、「不良回答としてチェックする項目例」を参考にしてください。
・b列は常に、空白セルのみ表示にしておくとやりやすい。
└1度削除フラグついた人を再表示させないため
あああ.png

2シート目:削除フラグを削除するシート

1シート目をコピーして、削除フラグ人のがついた
行ごとデータを削除する

3シート目:サンプルカットをするシート

①2シート目をコピーして、サンプルカットを行う
②D列【SEX】とF列【GEN】を「&」で合体することで、性年代のカラムを作る
※十の位は【性別】、一の位は【年代】、数字ではなく、文字として認識ください。
4.png

③rand関数で、行ごとにシャッフルする
行単位でデータをごちゃまぜにすることで、恣意的なサンプルカットでは無くなります
「=rand()」とrand関数を入力後、並び替えます。

※その際、数式のまま並び替えを行うと、エクセルが重くなることが多いため、値張りを推奨します。
※列全体を選択後、「Ctrl+C」でコピーするようにする。
「Ctrl+Alt+V」で【値】を選択。
④.png

9.png

④G列【SEX&GEN】を昇順に並び替える
rand関数の行単位でごちゃまぜにした後に、行ってください。
10.png

⑤連番を振っていく
G列の数字が変わったら、また1からカウントする。
例)200行目を見ると、数字が「14」になったら
また1から数字をカウントしてくれる
⑤.png

⑥割付数をvlook関数で参照する
13.png

18.png

⑦【M列】割付が連番よりも小さい時は「1」
    割付が連番よりも大きい時は「99」と表示
※99が、サンプルカット対象となる
└確認としてM列で「1」が3000sいれば、OK
⑦.png

4シート目:サンプルカット対象者を削除するシート

3シート目で「99」とついた人は、サンプルカット対象のため、
行単位で削除する

5シート目:無料集計ツール用に仕上げるシート

・自分で追加した列を削除する
└今回は分かりやすくするため自分で追加した列を色付けしている
└初めのうちは、自分で追加する列は色を付けたほうがやりやすい

・このシートをテキストデータ化して保存する
    • Related Articles

    • 実際の回収数が、目標回収数より多く回収している理由

      ネットリサーチの特性上どうしても不良回答者が出てしまうため、 回収目標数の1.2倍の余剰数をサービスとして回収しています。 クリーニングを行う場合は余剰回収分20%の中から削除してください。 料金は見積り金額以上になることはありません。 ※1.2倍のサービス回収は目標回収数に達した場合のみ適用されます。 目標回収数に達しない場合は回収したサンプル数で料金は計算されます。 関連記事: データクリーニングの一例