Trong quá trình phân tích dữ liệu người làm nghiên cứu đôi khi sẽ phải mã hoá lại biến để sử dụng cho nhiều mục đích khác nhau, và trường hợp đơn cử nhất là:
Khi nhà nghiên cứu muốn chuyển một biến định lượng (thang đo tỷ lệ) sang một biến định tính (thang đo biểu danh hay thứ tự).
Ví dụ: Khi thu thập thông tin về độ tuổi của bệnh nhân, chúng ta sử dụng thang đo tỷ lệ (dùng chính xác số tuổi của bệnh nhân: 52, 67, hay 81 tuổi…). Đến khi xử lý số liệu, nhà nghiên cứu lại muốn sử dụng nhóm tuổi để phân tích và viết báo cáo:
1. < 30 tuổi 2. 30 – 39 tuổi 3. 40 – 49 tuổi 4. 50 – 59 tuổi 5. ≥ 60 tuổi
Quy trình mã hoá lại biến như sau:
1. Vào menu Transform Recode into Different Variables…
Nếu chúng ta chọn Recode into Same Variables… thì biến cũ (số tuổi chính xác) sẽ mất đi và được thay thế bằng một biến mới với các biểu hiện mới (là nhóm tuổi).
Thông thường ta sẽ chọn Recode into Different Variables… để tạo ra biến mới mà vẫn giữ lại biến cũ.
2. Xuất hiện hộp thoại sau:
39
3. Đưa biến cần mã hoá lại từ khung chứa bộ biến sang khung Numeric Variable ->
Output Variable.
4. Tại khung Output Variable, khai báo tên và nhãn cho biến mới Click chọn Change để thực hiện thay biến.
5. Tiếp tục thay đổi giá trị của biến bằng cách click chọn Old and New Values…, mở hộp thoại sau:
40
6. Ta lần lượt khai báo giá trị cũ bên tay trái (Old Value) thành giá trị mới bên tay phải (New Value) Click chọn Add sau mỗi lần khai báo. Với giá trị cũ có các dạng sau đây:
- Value: từng giá trị cũ rời rạc
- System-missing: giá trị khuyết hệ thống
- System or user missing: giá trị khuyết của hệ thống hoặc do người sử dụng định nghĩa
- Range: một khoảng giá trị (từ … đến … / range: … through: …)
- Range, LOWEST through value: một khoảng giá trị từ giá trị nhỏ nhất đến một giá trị được nhập vào
- Range, value through HIGHEST: một khoảng giá trị từ giá trị nhập vào đến giá trị lớn nhất
7. Chọn Continue trở về hộp thoại trước, và chọn OK để hoàn tất kệnh.
8. Khai báo value cho biến vừa tạo tại ô Value của cửa sổ Variable View như hình sau:
41
9. Tiếp tục thực hiện các phép thống kê mô tả hay kiểm định dựa trên biến mới vừa tạo nhằm phục vụ cho mục tiêu nghiên cứu.
42
CÁCH TÍNH TOÁN GIÁ TRỊ BIẾN MỚI TỪ BIẾN CÓ SẴN
Có thể sử dụng SPSS để cộng, trừ, nhân chia các biến đã có sẵn để trở thành 1 biến mới (thủ tục TransformCompute). Tuy nhiên biến mới được tính toán này không tự động thay đổi nếu ta thay đổi các biến thành phần như công cụ tính toán trong Excel. Vì vậy, thủ tục tính toán này thường được tiến hành sau khi đã chỉnh lý dữ liệu.
Thủ tục tính toán này được sử dụng khá nhiều trong phân tích số liệu. Đặc biệt đối với những đề tài có sử dụng phân tích nhân tố để gom nhóm.
Sau khi tiến hành gom nhóm các yếu tố có cùng tính chất, ta sẽ tính toán giá trị của nhóm bằng thủ tục Compute này.
Ví dụ: kết quả sau khi tiến hành phân tích nhân tố như sau
Với N1, N2, N3 là ký hiệu mã hoá cho 3 nhóm được gom từ 12 biến đánh giá chất lượng dịch vụ.
Nếu những bước tiếp theo của đề tài cần thực hiện kiểm định t, ANOVA hay phân
KẾT QUẢ SAU KHI COMPUTE VÀ THỐNG KÊ MÔ TẢ KẾT QUẢ PHÂN TÍCH
NHÂN TỐ
43
tích hồi quy liên quan đến các tiêu chí đánh giá chất lượng dịch vụ này, chúng ta sẽ không dùng 12 biến để thực hiện mà dùng nhóm lớn (3 nhóm).
Để tính được giá trị cho các nhóm lớn (bằng trị trung bình của các biến trong nhóm) nhằm phục vụ cho mục đích kiểm định t, ANOVA hay phân tích hồi quy, chúng ta sẽ thao tác trong SPSS theo trình tự như sau
6. Mã hoá biến mới (nhóm lớn)
Đối với ví dụ trên, sau khi phân tích nhân tố ta có được 3 nhóm, vậy ta sẽ tiến hành mã hoá 3 biến mới (đại diện cho 3 nhóm) trong bộ số liệu đã có tại cửa sổ Variable View.
7. Tiến hành tính toán cho nhóm
Vào menu Transform Compute Variables, xuất hiện hộp thoại sau:
44
Tại ô Target Variable, ta nhập vào tên biến mới sẽ chứa giá trị tính toán (tên biến của nhóm). Chú ý cần nhập đúng tên đã khai báo ở bước 1.
Tại ô Numberic Expression, ta nhập công thức tính toán cho biến mới. Trong ví dụ trên, nhóm 1 gồm 5 biến 5.1, 5.6, 5.7, 5.8 và 5.9. Như vậy biến mới (N1) sẽ bằng trung bình của 5 biến.
Cách nhập công thức tại ô này như sau: ta chọn biến từ khung chứa các biến rồi dùng dấu mũi tên đưa biến vào ô công thức, và sử dụng các phím công cụ cho phép tính trong cửa sổ này hoặc trên bàn phím máy vi tính.
Sau đó chọn nút OK để hoàn tất lệnh, một hộp thoại xuất hiện để xác định quá trình tính toán biến, ta tiếp tục chọn OK. Đến đây thao tác tính toán biến đã hoàn thành.
Trong ví dụ này, ta tính trị trung bình. Thao tác tương tự nếu chúng ta cần các phép tính nhân, chia, hiệu số, hay kết hợp nhiều phép tính.
Kết quả sau khi compute sẽ thể hiện rõ tại cửa sổ Data View. Lệnh compute đã giúp ta tính toán được nhóm lớn (3 nhóm) cho từng quan sát (từng đối tượng nghiên cứu một)
PHÍM CÔNG CỤ CHO CÁC PHÉP TÍNH MŨI TÊN ĐƯA BIẾN VÀO Ô CÔNG THỨC
45
Chúng ta có thể thực hiện lệnh thống kê mô tả (tính trị trung bình của các nhóm trên tổng mẫu quan sát – kết quả 2 cột cuối cùng ở VD trang 1), kiểm định t, ANOVA hay phân tích hồi quy (đối với nhà nghiên cứu thuộc trường phái đồng ý trị trung bình làm biến độc lập X) trên 3 biến N1, N2, và N3 này.
PHÂN TÍCH BIỆT SỐ
Phân tích phân biệt được dùng để giải quyết một số tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm đối tượng nghiên cứu với nhau, ví dụ phân biệt khách hàng trung thành và không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm…
Điều kiện của phân tích phân biệt là phải có một biến phụ thuộc (là biến dùng để phân loại đối tượng thường sử dụng thang đo định danh hoặc thứ tự), và một số biến độc lập (là một số đặc tính dùng để phân tích sự khác biệt giữa các nhóm đối tượng, thường sử dụng thang đo khoảng hoặc tỷ lệ). Phân tích biệt số có thể thực hiện các việc sau:
- Xây dựng các hàm phân tích phân biệt (discriminant functions) để phân biệt rõ xã biểu hiện của biến phụ thuộc.
- Nghiên cứu xem các nhóm có sự khác biệt có ý nghĩa hay không khi được xét về các yếu tố độc lập.
- Xác định biến độc lập là nguyên nhân chính nhất gây ra sự khác biệt giữa các nhóm.
Có 2 trường hợp phân tích biệt số: phân tích biệt số 2 nhóm (khi biến phụ thuộc có 2 biểu hiện), phân tích biệt số bội (khi biến phụ thuộc có từ 3 biểu hiện trở lên).
GIÁ TRỊ CỦA BIẾN N1, N2, VÀ N3 CHO
QUAN SÁT 1
46
Ví dụ: khi phân tích về lợi nhuận của những hộ tham gia làng nghề nhà nghiên cứu đã phân thành 2 nhóm: hộ có lợi nhuận (lợi nhuận > 0) và hộ không có lợi nhuận (LN ≤ 0).
Nhà nghiên cứu muốn xem xét sự khác biệt giữa 2 nhóm hộ có lợi nhuận như trên về các yếu tố: tuổi, năm kinh nghiệm, vốn, số lao động, số mặt hàng, tính chất làng nghề (1-đã được công nhận, 0 – chưa được công nhận), tính chất hoạt động của hộ (1-hộ chuyên, 0 – hộ kiêm).
Để giải quyết cho tình huống trên, phân tích biệt số được tiến hành như sau:
1. Bước 1. Chia mẫu quan sát thành 2 phần
Đối với phân tích phân biệt, ta phải chia mẫu quan sát thành 2 phần: mẫu ước lượng hay mẫu phân tích (là phần dung để ước lượng hàm phân biệt); phần còn lại là để kiểm tra tính đúng đắn của hàm phân biệt (mẫu kiểm tra). Khi cỡ mẫu đủ lớn, ta có thể chia thành 2 phần bằng nhau và theo tỷ lệ của toàn bộ mẫu.
Ví dụ: trong ví dụ trên, cỡ mẫu là 122 mẫu (có 66 mẫu ko có LN – chiếm 54% và 56 mẫu có LN – chiếm 46%). Ta sẽ tiến hành chia thành 2 phần, mỗi phần gồm 61 mẫu: trong đó có 33 mẫu ko có LN và 28 mẫu có LN.
2. Bước 2. Tiến hành phân tích biệt số trên SPSS
Vào Analyze Classify
Discrimina nt, xuất hiện hộp thoại sau:
- Đưa biến phân loại 2 nhóm hộ có LN khác nhau vào ô Grouping Variable Khai báo Define Range (1 là hộ có TN, 0 là hộ ko có TN) Continue.
47
- Đưa các biến độc lập vào ô Independents.
- Xác định biến quan sát dùng để phân tích và kiểm tra tại ô Selection Variable.
Tiếp theo sẽ khai báo Value. Khi phân chia mẫu ở bước 1, ta đã mã hóa nhóm dùng để phân tích là 1, nhóm dùng để kiểm tra là 0, nên sẽ nhập số 1 vào ô Value for Selection Variable. Continue.
- Tiếp theo chọn nút Statistics và khai báo như sau: trung bình, bảng phân tích
phương sai đơn, các ma trận hệ số tương
quan và hiệp phương sai…
- Tiếp theo chọn nút Classify, và khai báo các phần như sau Continue
● Tại ô Prior Probabilities: xác suất dung để phân biệt đối tượng. Có 2 cách xác định: Xác suất bằng nhau giữa các nhóm (All groups equal), Xác suất theo tỷ lệ hay quy mô của các nhóm (Compute from group sizes).
● Display: thể hiện kết quả chi tiết của từng quan sát (case wise results), bảng kết quả phân biệt tóm tắt (summary table).
● Use Vovariance Matrix: phân biệt các quan sát bằng ma trận hiệp phương sai nội bộ các nhóm trung bình hay bằng ma trận hiệp phương sai các nhóm riêng biệt.
● Plots: vẽ biểu đồ phân tác chung cho các nhóm hay riêng cho từng nhóm, và vẽ biểu đồ vị trí.
48
3. Bước 3. Giải thích kết quả
- Bảng Tests of Equality of Group Means
Nếu xem xét một cách riêng biệt thì chỉ có tính chất hoạt động của hộ (hộ chuyên hay hộ kiêm), số mặt hàng, vốn cố định, và tính chất làng nghề (đã và chưa được công nhận) có khả năng phân biệt một cách có ý nghĩa khác biệt giữa những hộ có lợi nhuận và những hộ không có lợi nhuận.
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
Tuoi .999 .071 1 59 .791
Namkinhnghiem .998 .138 1 59 .712
Tính chất hộ .862 9.437 1 59 .003
Tong lao dong .975 1.496 1 59 .226
Somathang .923 4.925 1 59 .030
Von co dinh (1000d) .922 4.988 1 59 .029
Von luu dong (1000d) .962 2.322 1 59 .133
Tinh chat nghe .721 22.785 1 59 .000
- Bảng Eigenvalues. Vì trường hợp này chỉ có 2 nhóm (có lợi nhuận và không có lợi nhuận) nên chỉ có 1 hàm phân biệt được ước lượng. Giá trị eigen là 0.858 và chiếm đến 100% phương sai giải thích được nguyên nhân. Hệ số tương quan canonical tương ứng là 0.680, cho thấy 46% phương sai của biến phụ thuộc (lợi nhuận) được giải thích bởi mô hình này. (bình phương hệ số 0.680 = 0.46 = 46%).
Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1 .858a 100.0 100.0 .680
a. First 1 canonical discriminant functions were used in the analysis.
- Tiếp theo sẽ xác định xem hàm phân biệt được ước lượng có ý nghĩa về mặt thống kê hay không. Với hệ số Wilk là 0.538 và giá trị p là 0.000 nhỏ hơn mức ý nghĩa 5% rất nhiều, nên có thể kết luận sự phân biệt có ý nghĩa thống kê ở mức ý nghĩa 5%, và có thể tiến hành giải thích kết quả
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 .538 34.068 8 .000
- Kết quả được giải thích như sau:
49
Tầm quan trọng của các biến được thể hiện qua độ lớn trị tuyệt đối của hệ số chuẩn hóa (bảng Standardized Canonical Discriminant Function Coefficients). Các biến có trị tuyệt đối hệ số chuẩn hóa càng lớn thì càng đóng góp nhiều hơn vào khả năng phân biệt của hàm. Hoặc có thể xem xét điều này tại bảng Structure Matrix, mức độ tác động của các biến được xếp theo thứ tự giảm dần.
Standardized Canonical Discriminant Function Coefficients
Function 1
Tuoi .147
Namkinhnghiem .316
Tính chất hộ .551
Tong lao dong .105
Somathang .229
Von co dinh (1000d) .464
Von luu dong (1000d) .197
Tinh chat nghe .816
Theo kết quả, ta thấy biến tính chất làng nghề là biến dự đoán quan trọng nhất dùng để phân biệt 2 nhóm lợi nhuận, tiếp đến là biến tính chất hoạt động của hộ, vốn cố định và số mặt hàng.
Dấu của các hệ số của tất cả các biến dự đoán đều dương cho thấy rằng những hộ tham gia làng nghề đã được công nhận, hộ chuyên sản xuất, vốn cố định và vốn lưu động càng cao, số mặt hang càng nhiều, tổng lao động nhiều, nhiều kinh nghiệm và tuổi chủ hộ càng cao thì hộ sẽ càng có khả năng có lợi nhuận.
- Đánh giá hàm phân biệt thông qua mẫu kiểm tra.
Bảng Classification Results cho thấy kết quả phân loại dựa trên mẫu phân tích. Tỷ lệ phân biệt đúng là (26+22)/61 = 0.787 = 78.7%, tỷ lệ này được tính dựa vào những mẫu nhà nghiên cứu đã chọn. Để kiểm tra tính đúng đắn của hàm phân biệt được ước lượng, ta phải thực hiện kiểm tra trên mẫu được chọn một cách ngẫu nhiên. Tỷ lệ này là (16+19)/61 = 0.574 = 57.4%. Có thể kết luận mô hình phân biệt này là khá tốt.
Classification Resultsa,b
LN 1 cao - 0 Thap Predicted Group Membership Total
0 1
Cases Selected Original Count 0 26 7 33
1 6 22 28
50
% 0 78.8 21.2 100.0
1 21.4 78.6 100.0
Cases Not Selected Original Count 0 16 17 33
1 9 19 28
% 0 48.5 51.5 100.0
1 32.1 67.9 100.0
a. 78.7% of selected original grouped cases correctly classified.
b. 57.4% of unselected original grouped cases correctly classified.
************************ CHÚC THÀNH CÔNG ************************