- Ứng dụng tinh ọc văo phđn tích dữ liệu nghiín cứu Marketing Phđn tích thống kí mô tả
CẤU TRÚC VĂ MÊ HÓA DỮ LIỆU
Mê hóa dữ liệu lă một quâ trình liín quan tới việc nhận diện vă phđn loại mỗi cđu trả lời trín một ký hiệu được chỉđịnh (ký hiệu có thể bằng số hoặc bằng chữ). Dữ liệu năy phải được mê hóa thì mây điện toân mới đọc vă xử lý được.
Cấu trúc dữ liệu
Cấu trúc của dữ liệu lă câch sắp xếp thông tin đê được trả lời văo vị trí ô lưu trữ dữ liệu của mây
điện toân. Do đó câc nhă nghiín cứu phải tổ chức câc dữ liệu được mê hóa thănh một cấu trúc thích ứng của câc dữ liệu.
Mê hóa dữ liệu
Việc mê hóa có thểđược thực hiện văo một trong hai thời điểm, lă mê hóa trước vă mê hóa sau:
Mê hóa trước
Mê hóa trước lă việc quyết định chọn câc mê số cho câc cđu hỏi vă câc phương ân trả lời từ khi thiết kế bản cđu hỏi, vă do vậy có thể in ngay câc mê số lín bảng cđu hỏi. Hình thức mê hóa năy thích hợp cho câc cđu hỏi dạng luận lý (chỉ chọn một trong hai câch trả lời: có, không) hay dạng chọn một trong câc cđu trả lời ghi sẵn. Đối với câc cđu hỏi năy người nghiín cứu đê định rõ được cđu trả lời vă do đó dễ dăng ký hiệu cho câc cđu trả lời đó. Việc mê hóa năy có tâc dụng lăm giảm đi rất nhiều khối lượng công việc trong bước chuẩn bị dữ liệu.
Để lăm rõ ta hêy xem xĩt ví dụ về một phần trong bảng cđu hỏi về sản phẩm ti vi sau đđy:
Q1. Bă/ cô có TV hoặc xem ti vi không ?
Không (0) → chấm dứt vă sang phần kế.
Có (1) → hỏi tiếp từ Q2a Q2a. Bă/ cô thường bao lđu xem TV một lần ?
Mỗi ngăy/ hầu như mỗi ngăy (1) 4-5 ngăy/ tuần (2) 2-3 ngăy/tuần (3) 1 lần/ tuần (4) 2-3 ngăy/ thâng (5) 1 lần/ thâng (6) Không thường xuyín (7)
Không xem (8) → chuyển sang cđu hỏi tiếp theo Q2b. Lần gần đđy nhất bă/ cô xem TV khi năo ?
Ngăy hôm qua (1)
Q2c. Trung bình, một ngăy bình thường trong tuần bă/cô xem chương trình TV trong bao lđu? Ít hơn 1 giờ (1) Từ 1 đến 3 giờ (2) Từ 3 đến 5 giờ (3) Từ 5 đến 7 giờ (4) Từ 7 đến 9 giờ (5) Trín 9 giờ (6)
Q2d. Ngăy cuối tuần (thứ bảy, chủ nhật) thì bă/cô xem TV bao lđu ? Ít hơn 1 giờ (1) Từ 1 đến 3 giờ (2) Từ 3 đến 5 giờ (3) Từ 5 đến 7 giờ (4) Từ 7 đến 9 giờ (5) Trín 9 giờ (6)
Mê hóa sau
Khi câc cđu trả lời thuộc cđu hỏi mở, người nghiín cứu phải tốn nhiều công biín tập vì câc cđu trả lời theo tình huống tự do, không định sẵn. Khi phỏng vấn, người phỏng vấn phải ghi nguyín văn cđu trả lời, vă vì thếđể chuyển câc dữ liệu như vậy sang một hình thức mă mây điện toân có thể đọc được cần phải phđn câc cđu trả lời theo những loại giống nhau vă gân cho chúng câc ký hiệu mê hóa.
Có hai câch:
- Câch thứ nhất: Người nghiín cứu tiến hănh mê hóa câc cđu trả lời trước khi nghiín cứu thực
địa. Trường hợp năy, người nghiín cứu phải dự kiến về mặt lý thuyết câc cđu trả lời hoặc sử
dụng kinh nghiệm của câc cuộc nghiín cứu trước, đồng thời mất thời gian huấn luyện những người đi phỏng vấn câch phđn loại câc cđu trả lời được ghi nguyín văn đúng loại mê hóa đê dự
kiến.
- Câch thứ hai: Chờđến khi thu thập xong dữ liệu mới tiến hănh mê hóa. Khi đó, người nghiín cứu phải xem xĩt ngẫu nhiín 30% câc bản cđu hỏi đê được trả lời để tính toân câc loại tình huống trả lời vă mê hóa nó. Trước khi mê hóa, phải ră soât lại toăn bộ câc cđu hỏi đê phỏng vấn để xem xĩt có còn tình huống trả lời năo khâc không. Để tiện lợi cho việc phđn tích, không nín phđn loại quâ 10 tình huống trả lời cho một vấn đề.
Câc nguyín tắc thiết lập kiểu mê hóa
Để lăm cho chức năng mê hóa được tốt hơn cần phải tuđn thủ câc nguyín tắc sau đđy trong việc thiết lập câc kiểu mê hóa.
- Số “ kiểu mê hóa” thích hợp: số kiểu mê cần phải đủ lớn để bao quât hết được câc sự khâc biệt trong dữ liệu. Nếu số lượng mê quâ ít thì có thể một số thông tin quan trọng sẽ không được bao quât.
- Những thông tin trả lời được sắp xếp trong cùng một “ loại mê hóa” thì phải tương tự nhau về đặc trưng nghiín cứu.
- Ranh giới rõ răng giữa câc “loại mê hóa”
Với câc đặc trưng đang được nghiín cứu, những sự khâc biệt về thông tin trả lời giữa câc “loại mê” phải không giống nhau đến mức đủ xếp văo cùng một “loại mê”.
- Nhỏ hơn 20 tuổi
- Từ 21 tuổi đến 30 tuổi.
- Trín 30 tuổi
Nếu có một cđu trả lời lă 20 tuổi 4 thâng thì sẽ không rõ phải được xếp văo loại năo vì ở khoảng thứ nhất phải lă 20 tuổi vă thứ 2 phải lă từ 21 tuổi đến 30 tuổi. Khi đó người nghiín cứu phải lăm tròn theo nguyín tắc lă 20 tuổi như vậy được xếp văo loại thứ 1.
- Nguyín tắc loại trừ giữa câc loại mê hóa: câc loại mê hóa phải không được chồng chĩo lín nhau, cần phải thiết lập chúng như thế năo để bất cứ tình huống trả lời năo cũng chỉđược xếp văo một loại mê hóa thôi. (đê được xếp văo loại mê năy thì không xếp văo mê khâc)
- Nguyín tắc toăn diện: theo nguyín tắc năy, cấu trúc của một loại mê phải bao quât được tất cả
câc tình huống trả lời nhằm đảm bảo tất cả câc tình huống đều được mê hóa.
- Nguyín tắc “đóng kín” những khoảng câch lớp: theo nguyín tắc năy, không được “để mở” khoảng câch lớp của mê hóa, bởi vì việc không chỉ rõ những giới hạn về khoảng câch lớp sẽ
lăm lu mờđi những giâ trị phđn tân ở hai đầu mút của dêy phđn phối vă do đó sẽ không cho phĩp tính toân được giâ trị trung bình của những quan sât trong mỗi khoảng câch lớp.
Ví dụ, xem xĩt việc mê hóa cđu hỏi về thu nhập bình quđn đầu người của những người được phỏng vấn:
Mức thu nhập Mê hóa Từ 100USD - 200USD 1 Trín 200USD - 300USD 2 Trín 300USD - 400USD 3 Trín 400USD -500 USD 4
Có thể nhận thấy nếu mê hóa như trín thì sẽ chưa đảm bảo “đóng kín” những khoảng câch lớp vì với câc tình huống trả lời có thu nhập dưới 100USD hoặc trín 600USD chưa được mê hóa mặc dù tần suất xuất hiện câc giâ trịở hai đầu mút năy rất nhỏ.
- Nguyín tắc về những khoảng câch lớp: Khoảng câch câc lớp nín được quy định tương đương nhau thì tốt hơn lă để chúng có độ rộng thay đổi. Nếu không tuđn thủ câc nguyín tắc năy có thểđưa đến tình trạng khoảng câch lớp thiếu sự dăn trải phù hợp. Tuy nhiín, có thể chấp nhận câc khoảng câch có độ rộng không tương đương nhau khi đê định rõ câc “loại mê” chứa đựng câc phần tương đối nhỏ của tổng thể mă những đặc trưng trả lời từ những phần nhỏđó có thể
không cung cấp những thông tin hữu ích năo cả.
- Nguyín tắc định điểm giữa câc khoảng câch lớp: đối với những cđu hỏi mă khi trả lời người ta hay lăm tròn số thì những khoảng câch lớp cần được thiết kế sao cho những con sốđược lăm tròn (lớn hơn) đó rơi văo những điểm giữa của khoảng câch lớp.
Lập danh bạ mê hóa
Danh bạ mê hóa gồm nhiều cột, trong từng cột chứa đựng những lời giải thích về những mê hiệu
đê được sử dụng trong những trường dữ liệu (data fields) vă những mối liín hệ của chúng đối với những cđu trả lời của câc cđu hỏi.
Chức năng của danh bạ mê hóa lă giúp người lăm mê hóa thực hiện việc lăm biến đổi từ cđu trả
Lượng thông tin tối thiểu được chứa đựng trong một danh bạ mê hóa đối với một cđu hỏi bao gồm: số của cđu hỏi, số cột cần có trong mây điện toân, tín của biến số, vấn đề của cđu hỏi vă mê hiệu đê được sử dụng.
- Có phải chỉ cần mô tả bề mặt của câc tình huống năo đó hay không?
- Có phải chúng ta đang tìm kiếm một ngoại lệ hay một dạng năo đó trong tình huống hay không? - Cần dựđoân trạng thâi tương lai hay giâ trị của một biến hay không?
- Nếu có những mối liín hệ quâ khứ giữa câc biến năo đó thì có cần lăm rõ không? Nếu như vậy chúng ta có phải quan tđm đến những mối liín hệ bín trong giữa câc biến hay không?
- Chúng ta có muốn thăm dò cấu trúc bín trong của một hiện tượng bề ngoăi về phản ứng của người tiíu dùng, qua đó tìm hiểu được hoặc chứng minh cho câc nguyín nhđn bín trong hay không ?
- Nếu dùng mô hình thử nghiệm thì (1) có những biến thiín cùng chiều năo giữa câc biến thích hợp? (2) câc biến đặc biệt năo lă nguồn nhập cho từng phương phâp hay cho câc bảng tính, (3) việc tính toân được thực hiện theo trình tự năo?
- Những tính toân năo phụ thuộc văo kết quả tính toân của câc bước trước?
- Những tính toân năo phải chờđợi những kết quả của câc tính toân khâc thì mới đi đến quyết
định kết quả của chúng có ý nghĩa hay không?
- Những cđu trả lời cho cđu hỏi thứ (3) đòi hỏi những phĩp toân thống kí phải được lập thănh một trình tự logic nhất định. Khi thiết lập những trình tự như thế cần níu rõ những thứ tựưu tiín tính toân vă những gì còn đang nghi vấn đối với kết quảđưa ra.
Ví dụ, có thể lập một danh bạ mê hóa cho mẫu phỏng vấn sản phẩm tivi như sau:
Q1. Có hoặc không xem tivi
Không 0
Có 1 Q2a. Số lần xem tivi
Mỗi ngăy/ hầu như mỗi ngăy 1 4-5 ngăy/ tuần 2 2-3 ngăy/tuần 3 1 lần/ tuần 4 2-3 ngăy/ thâng 5 1 lần/ thâng 6 Không thường xuyín 7 Không xem 8 Q2b. Lần xem tivi gần đđy nhất
Ngăy hôm qua 1
Trước ngăy hôm qua 2
Q2c. Thời gian xem tivi ngăy thường
Ít hơn 1 giờ 1 Từ 1 đến 3 giờ 2 Từ 3 đến 5 giờ 3 Từ 5 đến 7 giờ 4 Từ 7 đến 9 giờ 5 Trín 6
Ít hơn 1 giờ 1 Từ 1 đến 3 giờ 2 Từ 3 đến 5 giờ 3 Từ 5 đến 7 giờ 4 Từ 7 đến 9 giờ 5 Trín 6