CHƢƠNG 3 PHƢƠNG PHÁP XỬ LÝ SỐ LIỆU
3.1. Cách thức nhập số liệu
Trƣớc khi nhập và xử lý dữ liệu thống kê, chúng ta cần nắm một số thuật ngữ thống kê: Các quan sát, các biến (hay còn gọi là tiêu thức thống kê) và tên biến.
3.1.1. Một số thuật ngữ
(a) Các quan sát. Thuật ngữ này biểu thị các trƣờng hợp12 hay chủ thể. Một trƣờng hợp bao gồm nhiều thông tin của một đại lƣợng nghiên cứu. Ví dụ: Đại lƣợng quan sát là sữa Vinamilk; tuổi của ngƣời tiêu dùng…Đó là những đại lƣợng quan sát trong khi mô tả đối tƣợng nghiên cứu.
(b) Các biến13 hay tiêu thức. Thuật ngữ này biểu thị các thông tin cần đƣợc
thu thập, xác định hay dự đốn. Ví dụ: Sữa Vinamilk; Tuổi của ngƣời tiêu dùng…
(c) Tên biến. Đó là tên gọi của biến quan sát. Mỗi biến đƣợc đặt một tên
biến14
cụ thể và ngắn gọn. Ví dụ: Kí hiệu NS là tên ngắn gọn của biến năng suất lao
12 Case 13 Variables 14
39
động. Sở dĩ tên biến phải đƣợc viết ngắn gọn là vì bảng số liệu có thể chứa nhiều biến. Để mơ tả tên đầy đủ của một biến, ngƣời ta dùng nhãn biến15. Ví dụ: Nhãn biến NS là “Năng suất lao động”.
3.1.2. Mã hóa số liệu
Các biến, các câu hỏi và câu trả lời (phản ứng) của ngƣời đƣợc phỏng vấn thƣờng rất dài, nghĩa là chúng có thể chứa rất nhiều ký tự. Để đơn giản, các biến, các câu hỏi và câu trả lời cần đƣợc mã hóa (Code) bằng số (Numeric), ký tự (Character) hay dạng chuỗi ngắn gọn (String). Các biến, các câu hỏi và câu trả lời cần đƣợc mã hóa trƣớc khi phỏng vấn. Mã hóa số liệu khơng chỉ giúp chúng ta ghi chép số liệu dễ dàng, mà còn áp dụng những phƣơng pháp thống kê thích hợp.
Mỗi câu hỏi đƣợc mã hóa bằng một số hoặc bằng một ký tự hay nhóm ký tự. Mỗi một câu trả lời đƣợc mã hóa bằng một số. Ví dụ: Biến sữa Vinamilk có thể đƣợc mã hóa là V hoặc 1. Sự ƣa thích (Phản ứng của ngƣời tiêu dùng) đƣợc phân chia thành 5 mức: rất thích, thích, tạm đƣợc, ghét và rất ghét. Các mức này đƣợc mã hóa tƣơng ứng là 1, 2, 3, 4 và 5. Giả sử câu trả lời của ngƣời tiêu dùng thứ nhất là rất thích uống sữa Vinamilk. Theo quy ƣớc mã hóa, chúng ta ghi nhận kết quả phỏng vấn là 1. Kí hiệu này có nghĩa là sữa Vinamilk đƣợc ngƣời tiêu dùng rất thích uống. Tƣơng tự, mã hóa 2, 3, 4 và 5 có nghĩa là ngƣời tiêu dùng thích, tạm đƣợc, ghét và rất ghét uống sữa Vinamilk. Sau khi phỏng vấn, các mã này đƣợc nhập vào bảng tổng hợp kết quả phỏng vấn. Bảng 3.1 dẫn ví dụ về cách thức ghi chép kết quả phỏng vấn về sự ƣa thích của ngƣời tiêu dùng đối với sữa Vinamilk.
3.1.3. Ma trận dữ liệu
Sau khi thu thập, hiệu chỉnh và mã hóa các dữ liệu, cơng việc tiếp theo là nhập dữ liệu vào máy tính. Cơng việc này thay đổi tùy theo phần mềm thống kê đƣợc sử dụng để xử lý số liệu. Nói chung, kết quả phỏng vấn thƣờng đƣợc nhập vào bảng tính Excel; sau đó Copy và dán vào bảng tính của những phần mềm khác. Sau khi
15
40
nhập xong dữ liệu, các dữ liệu ở dạng ma trận và đƣợc gọi là ma trận dữ liệu (Data Matrix).
Bảng 3.1. Kết quả phỏng vấn về sự ƣa thích của ngƣời tiêu dùng đối với sữa Vinamilk. Ngƣời điều tra: Nguyễn Thị A. Ngày phỏng vấn: 6/5/2019.
TT ngƣời trả lời Mã câu hỏi Giới tính Mã trả lời Ghi chú (1) (2) (3) (4) (5) 1 1 1 1 Nam = 1 2 1 0 4 Nữ = 0 3 1 0 5 Rất thích = 5 4 1 1 2 Thích = 4 5 1 1 3 Tạm đƣợc = 3 … … … … Ghét = 2 Rất ghét = 1 Ma trận dữ liệu chứa đựng những ngƣời đƣợc phỏng vấn, các câu hỏi và câu trả lời đã đƣợc mã hóa theo quy ƣớc của nhà nghiên cứu. Để tạo thuận lợi cho việc ghi chép và xử lý số liệu bằng các phần mềm thống kê, những ngƣời đƣợc phỏng vấn và câu trả lời của họ đối với mỗi câu hỏi cần đƣợc thiết kế thành một file. Giả sử có 30 câu hỏi, chúng ta sẽ thiết kế thành 30 file. Trong cấu trúc của một ma trận dữ liệu, cột 1 ghi thứ tự ngƣời đƣợc phỏng vấn. Các cột kế tiếp là kết quả của câu trả lời (Các mức phản ứng) và các thơng tin cần thiết khác (Ví dụ: giới tính; trình độ học vấn…). Mỗi biến (câu trả lời hay phản ứng) đƣợc đặt một nhãn biến ngắn gọn. Mỗi mức phản ứng của ngƣời đƣợc phỏng vấn đƣợc đặt một nhãn giá trị16. Ví dụ: Biến “Sữa chua Yomost” đƣợc mã hóa là Y. Phản ứng của ngƣời tiêu dùng đối với biến Y đƣợc phân chia thành 5 mức ƣa thích: Hồn tồn phản đối; Phản đối; Trung dung; Đồng ý; Hồn tồn đồng ý. Các mức ƣa thích này đƣợc mã hóa bằng 5 giá trị tƣơng ứng là 1, 2, 3, 4 và 5. Giả sử cần nghiên cứu phản ứng của giới tính (Nam =
16
41
1; Nữ = 0) và trình độ học vấn (cấp I = 1, cấp II = 2, cấp III = 3, cao đẳng = 4) đối với việc tiêu thụ sữa chua Yomost. Trong trƣờng hợp này, cấu trúc của ma trận dữ liệu có thể đƣợc thiết kế nhƣ Bảng 3.2. Ở Bảng 3.2, cột 1 là thứ tự ngƣời trả lời. Cột 2 là mã câu hỏi; trong đó có N ngƣời đƣợc phỏng vấn ở câu hỏi 1. Cột 3 là giới tính (Nam =1; Nữ = 0). Cột 4 là trình độ học vấn (cấp I = 1, cấp II = 2, cấp III = 3, cao đẳng = 4). Cột 5 là mã số của câu trả lời hay mức phản ứng của khách hàng (Hoàn toàn phản đối = 1; Phản đối = 2; Trung dung = 3; Đồng ý = 4; Hồn tồn đồng ý= 5). Nói chung, cấu trúc của một ma trận dữ liệu đƣợc thiết kế tùy theo vấn đề nghiên cứu.
Bảng 3.2. Kết quả phỏng vấn về sự ƣa thích của ngƣời tiêu dùng đối với sữa chua Yomost. Ngƣời điều tra: Nguyễn Thị B. Ngày phỏng vấn: 15/5/2019.
TT ngƣời trả lời Mã câu hỏi Giới tính Học vấn Mã trả lời (1) (2) (3) (4) (5) 1 1 1 1 1 2 1 0 2 4 3 1 0 4 5 4 1 1 2 2 5 1 1 3 3 … … … … … N 1 0 4 5 3.1.4. Làm sạch dữ liệu
Trƣớc khi xử lý và tóm tắt số liệu, các số liệu cần phải đƣợc làm sạch. Làm sạch dữ liệu là loại bỏ những sai sót nhƣ các ơ trống và những câu trả lời không hợp lý. Các ô trống là các ô của ma trận không chứa đựng dữ liệu. Sự xuất hiện những ô trống này có thể là do sai sót trong q trình thu thập và nhập dữ liệu. Những sai sót xảy ra trong q trình thu thập dữ liệu nhƣ ngƣời trả lời không trả lời câu hỏi, phỏng
42
vấn viên quên phỏng vấn, có phỏng vấn nhƣng quên ghi kết quả. Những sai sót trong q trình nhập dữ liệu là do ngƣời nhập dữ liệu bỏ sót những thơng tin.
Để hiệu chỉnh lại những sai sót này, chúng ta cần kiểm tra lại các thơng tin trong ma trận dữ liệu. Nếu bảng câu hỏi có số đo nhƣng khơng nhập, thì nhập lại số đo đó. Nếu sai sót do qn phỏng vấn, thì phỏng vấn viên phải phỏng vấn lại. Cách này thƣờng ít khả thi. Thơng thƣờng, nếu số lƣợng ơ trống ít, chúng ta loại bỏ các câu trả lời này (giảm kích thƣớc mẫu). Một cách khác là thay giá trị trung bình của tất cả các câu trả lời vào các ô trống. Đây là cách làm phổ biến. Nói chung, những giá trị bỏ trống có thể đƣợc phát hiện dễ dàng bằng các phần mềm thống kê.
Những câu trả lời khơng hợp lý là những câu trả lời có dữ liệu không nằm trong thang đo đã thiết kế. Để phát hiện các câu trả lời không hợp lệ, chúng ta chỉ cần liệt kê tần số theo cột hay theo các biến. Ví dụ: Khi liệt kê số ngƣời theo mã số trả lời về sự ƣa thích sữa chua Yomost (Y) , chúng ta phát hiện có 2 mã số trả lời là 6 và 7. Bởi vì biến Y chỉ có số đo từ 1 đến 5, nên 2 câu trả lời này là không hợp lý. Sai sót về trả lời khơng hợp lý chủ yếu là do nhập sai dữ liệu. Để hiệu chỉnh lại những sai sót, chúng ta kiểm tra lại những thông tin trong ma trận dữ liệu.