Với dữ liệu trên, để đánh giá các nhân tố có vai trị quyết định đối với mức độ sinh trưởng của cây và dự báo mức độ sinh trưởng đó, ta sử dụng mơ hình logit thứ tự với biến phụ thuộc là biến định tính có thứ tự M(chất lượng sinh trưởng) và các biến độc lập Docao(độ cao); D13(đường kính 1m3); Hvn(chiều cao vút ngọn); Dktan(đường kính tán); Kieu_IIb(kiểu rừng IIb); Kieu_IIIa1(kiểu rừng IIIa1); Kieu_IIIa2(kiểu rừng IIIa2); Kieu_Nuago(kiểu rừng nửa gỗ); LopCuc(phân lớp Cúc); LopHMoi(phân lớp Hoa Môi); LopNgLan(phân lớp Ngọc Lan); LopSSau(phân lớp Sau Sau); LopThuDu(phân lớp Thù Du); LopHHong(phân lớp Hoa Hồng); LopKhac(nhóm cây chưa xác định được phân lớp).
Ta xét mơ hình hồi quy với các biến định lượng được lấy log. Sử dụng kết quả của mơ hình logit thứ tự ta có:
Log(
) = β0 logHvn + β1 logDk1m3 + β2 logDktan + β3
logDocao + γc - β4 Kieu_IIb - β5 Kieu_IIIa1 - β6
Kieu_IIIa2 - β7 Kieu_Nuago - β8 LopCuc - β9 LopHMoi - β10 LopNgLan - β11 LopSSau - β12 LopThuDu - β13
LopKhac - β14 Nguycap1 - β15 Nguycap2 - β16
Nguycap3. Trong đó các biến: logHvn; logDk1m3; logDktan; logDocao là các biến định lượng được đưa vào mơ hình một cách trực tiếp. Các biến giả ở trên được quy ước như sau: Kieu_IIb = { . Kieu_IIIa2 = { . LopCuc = { . LopHMoi = { . LopNgLan = { . LopSSau = { . LopThuDu = { .
Nguycap1 = {
.
Nguycap2 = {
.\
Hệ số ước lượng của mơ hình này cho ở bảng 4.5:
Bảng 4.5: Hệ số của mơ hình logit với các biến định lượng được lấy log.
Ước lượng tham số Tên biến Hệ số (β) Sai số
tiêu chuẩn
Exp (-β) P- giá trị
Ngưỡng phân biệt 1(γ1) 0.989 0.565 0.08
Ngưỡng phân biệt 2(γ2) 3.224 0.566 0.000
logDocao -0.639 0.235 1.894 0.007 logDk1m3 0.297 0.231 0.743 0.199 logHvn 3.014 0.379 0.049 0.000 logDktan 3.401 0.237 0.033 0.000 Kieu_IIb 0.570 0.112 0.565 0.000 Kieu_IIIa1 -0.063 0.124 1.065 0.611 Kieu_IIIa2 -0.375 0.147 1.454 0.011 Kieu_Nuago 1.021 0.392 0.360 0.002 LopCuc -0.008 0.383 1.088 0.982 LopHMoi -0.747 0.154 2.110 0.000 LopNgLan 0.270 0.142 0.763 0.057 LopSSau -0.039 0.229 1.039 0.865 LopThuDu 0.550 0.246 0.576 0.025 LopKhac -0.290 0.216 1.336 0.179 LopHHong 0.119 0.103 0.887 0.246 Nguycap1 0.011 0.142 0.989 0.937 Nguycap2 -0.071 0.223 1.073 0.749 Nguycap3 -0.527 0.321 1.693 0.101
Trong bảng 4.5 trên cột đầu tiên là tên biến. Cột thứ 2 là các hệ số hồi quy ước lượng từ mơ hình logit tương ứng với các biến. Cột thứ 3 là sai số tiêu chuẩn của các hệ số tương ứng. Cột thứ 4 là lũy thừa cơ số e của các hệ số ở cột thứ 2 sau khi nhân hệ số này với -1, chính bằng các tỷ số chênh của mơ hình. Trong cột thứ 4, hai số đầu tiên ứng với ngưỡng phân biệt 1(γ1) và ngưỡng phân biệt 2(γ2), dùng để phân các cây vào các nhóm “sinh trưởng kém”; “sinh trưởng trung bình” và “sinh trưởng
tốt”. Đó không phải là các hệ số trong mơ hình hồi quy. Cột thứ 5 là xác suất ý nghĩa của các hệ số.
Mơ hình hồi quy trên đây khi lấy log của các biến định lượng. Tuy nhiên, đối với các biến: Nguycap1; Nguycap2; Nguycap3 thì hệ số tương ứng với các biến này đều có xác suất ý nghĩa lớn hơn 5%. Do đó, các hệ số này đều khơng có ý nghĩa thống kê. Tức là, rất có thể các chuyên gia đánh giá chất lượng sinh trưởng của cây không phụ thuộc vào việc cây đang xét có nguy cơ tuyệt chủng hay không. Vì vậy, để giảm bớt sự phức tạp của mơ hình, ta bỏ các biến: Nguycap1; Nguycap2; Nguycap3 ra khỏi mơ hình hồi quy. Ta ước lượng lại mơ hình hồi quy mà khơng có các biến Nguycap1; Nguycap2; Nguycap3. Kết quả của mơ hình hối quy này được thể hiện ở bảng 4.6.
Bảng 4.6: Hệ số hồi quy của mơ hình đã loại bỏ biến Nguycap
Ước lượng tham số Tên biến Hệ số (β) Sai số tiêu
chuẩn
Exp (-β) P- giá trị
Ngưỡng phân biệt 1(γ1) 1.053 0.563 0.061
Ngưỡng phân biệt 2(γ2) 3.287 0.564 0.000
logDk1m3 -0.303 0.231 0.738 0.189 logHvn 3.024 0.369 0.048 0.000 logDktan 3.388 0.236 0.033 0.000 logDocao -0.614 0.234 1.847 0.009 Kieu_IIb 0.570 0.112 0.565 0.000 Kieu_IIIa1 -0.053 0.124 1.054 0.666 Kieu_IIIa2 -0.366 0.145 1.441 0.012 Kieu_Nuago 1.031 0.329 0.356 0.002 LopCuc -0.007 0.383 1.007 0.985 LopHHong 0.098 0.090 0.906 0.276 LopHMoi -0.745 0.154 2.106 0.000 LopNgLan -0.249 0.127 0.779 0.049 LopSSau -0.037 0.229 1.037 0.872 LopThuDu 0.547 0.246 0.578 0.026 LopKhac -0.290 0.216 1.336 0.180
Ở mơ hình này, các kết quả có được như sau:
Đầu tiên, hệ số ước lượng đối với γ1 là 1.053 với xác suất ý nghĩa là 0.061. Như vậy, hệ số này cũng khơng có ý nghĩa ở mức 5%. Điều này đồng nghĩa với việc hai
tính trạng “sinh trưởng kém” và “sinh trưởng trung bình” đối với biến chất lượng sinh trưởng chưa được phân biệt một cách rõ ràng. Hệ số của γ2 là 3.287 với xác suất ý nghĩa nhỏ hơn 5%. Do đó, mơ hình trên phân biệt tốt giữa nhóm cây có sinh trưởng “tốt” với nhóm cây có sinh trưởng “trung bình” và sinh trưởng “kém”.
Thứ hai, trong mơ hình hồi quy này, biến LogDk1m3 khơng có ý nghĩa thống kê với xác suất ý nghĩa bằng 0.189.
Các biến LogHvn; LogDktan và LogDocao đều có ý nghĩa thống kê và có ảnh hưởng rất rõ ràng đối với việc đánh giá chất lượng sinh trưởng của cây rừng. Các hệ số hồi quy tương ứng với các biến LogDocao; LogHvn; LogDktan lần lượt là: - 0.614; 3.024 và 3.388. Tỉ số chênh đối với các biến LogDocao; LogHvn; LogDktan lần lượt là 1.847; 0.048 và 0.033. Như vậy, theo mơ hình này, nếu LogDocao tăng thêm 1, thì số chênh tăng lên 1.847 lần. Do đó, khả năng để cây nào đó được các chuyên gia đánh giá ở mức sinh trưởng trung bình và kém cao hơn gấp 1.847 lần cây có các tiêu chí tương tự nhưng ở độ cao thấp hơn. Đối với biến LogHvn và biến LogDktan, nếu các biến này tăng lên 1 đơn vị thì khả năng cây được đánh giá sinh trưởng tốt cao hơn những cây có cùng tiêu chí nhưng có chiều cao vút ngọn và đường kính tán nhỏ hơn.
Với các biến chỉ kiểu rừng, chỉ có biến Kieu_IIIa1 là khơng có ý nghĩa thống kê với xác suất ý nghĩa là 0.666. Như vây, mơ hình này cũng khơng đánh giá được sự khác biệt giữa kiểu rừng IIIa1 với lớp cây chưa được phân loại rừng, có thể nhóm chưa được phân loại này thuộc kiểu rừng IIIa1. Các biến Kieu_IIb; Kieu_nuago và Kieu_IIIa2 có hệ số hồi quy là 0.57; 1.031; -0.366 với xác suất ý nghĩa đều nhỏ hơn 5%. Tỉ số chênh ứng với các biến trên lần lượt là 0.565; 0.356 và 1.441. Như vậy, nếu cây rừng mà thuộc hai kiểu rừng IIb hoặc kiểu nửa gỗ thì khả năng cây này được đánh giá có sinh trưởng tốt cao hơn những cây có cùng cá đặc điểm khác nhưng không thuộc hai kiểu rừng này. Cịn nếu cây thuộc kiểu rừng IIIa2 thì khả năng cây được các chun gia đánh giá có sinh trưởng trung bình và kém cao hơn những cây khác có cùng đặc điểm nhưng sinh trưởng trong một kiểu rừng khác.
Đối với các biến LopCuc; LopHHong; LopHMoi; LopNgLan; LopSSau; LopThuDu và LopKhac, chỉ có các biến LopHMoi; LopNgLan và LopThuDu là có ý nghĩa về mặt thống kê. Hệ số hồi quy của các biến LopHMoi; LopNgLan và LopThuDu lần lượt là -0.745; 0.249 và 0.547 tương ứng với tỷ số chênh: 2.106; 0.779 và 0.578. Từ kết quả của bảng trên, ta có phương trình hồi quy logit thứ tự :
Log(
) = 3.024logHvn + 3.388logDktan - 0.614logDocao + γc + 0.570Kieu_IIb + 0.366Kieu_IIIa2 - 1.031Kieu_nuago +
0.745LopHMoi + 0.249LopNgLan - 0.547 LopThuDu.
Từ mơ hình trên, ta có bảng 4.7 chứa các xác suất dự báo đối với các tính trạng tương ứng với biến chất lượng sinh trưởng.
Xác suất dự báo đối với các tính trạng đối với mơ hình này được cho ở bảng 4.7.
Bảng 4.7: Xác suất dự báo trong mơ hình hồi quy lấy log.
Mức độ sinh trưởng (ý kiến
chuyên gia)
Mức độ sinh trưởng được dự báo Kém Trung bình Tốt Kém 21 0.6% 123 3.3% 126 3.4% Trung bình 10 0.3% 306 8.3% 661 17.9% Tốt 2 0.1% 263 7.1% 2183 59.1%
Đối với mơ hình này, tỉ lệ xếp hạng đúng đối với các tính trạng là 68%. Tỉ lệ xếp nhầm từ mức sinh trưởng kém sang hai mức sinh trưởng trung bình và sinh trưởng tốt với tỉ lệ là 3.3% và 3.4%. Tỉ lệ xếp nhầm từ mức sinh trưởng trung bình sang mức sinh trưởng tốt là 17.9%. Tuy nhiên, tỉ lệ xếp nhầm sinh trưởng ở mức sinh trưởng tốt sang mức sinh trưởng trung bình chiếm 7.1%.
KẾT LUẬN
Luận văn “Mơ hình hồi quy cho biến định tính và ứng dụng” đã đạt được các kết quả sau đây.
Về mặt lý thuyết, luận văn này giới thiệu về mơ hình hồi quy tuyến tính cổ điển làm nền tảng, cơ sở để xây dựng mơ hình hồi quy với biến phụ thuộc là biến định tính đó là mơ hình với dữ liệu nhị phân và mơ hình với dữ liệu thứ tự. Trong mỗi mơ hình đều đưa ra cách thiết lập mơ hình, các dạng mơ hình phổ biến, các phương pháp ước lượng và kiểm định kèm theo ví dụ cụ thể.
Về mặt thực hành, luận văn đã xây dựng mơ hình hồi quy thứ tự với dữ liệu về rừng tự nhiên nhằm mục đích nghiên cứu, đánh giá chất lượng sinh trưởng của cây rừng. Những kết quả thu được hầu hết có ý nghĩa thực tế như ảnh hưởng của chiều cao, đường kính tán, độ cao của cây có vai trị quan trọng trong việc đánh giá chất lượng sinh trưởng của cây.
Mặc dù đã rất cố gắng nhưng do hạn chế về trình độ, thời gian và kiến thức lâm nghiệp nên luân văn này khó tránh khỏi những thiếu sót. Tác giả luận văn chân thành mong muốn được các thầy cơ, các chun gia, các bạn đóng góp ý kiến để luận văn được hoàn thiện hơn.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đặng Hùng Thắng (2010), Thống kê ứng dụng,”” NXB Khoa học và kỹ thuật, Vĩnh Phúc.
[2] Đào Hữu Hồ (2009), Xác suất – Thống kê, NXB Đại học Quốc Gia Hà Nội, Hà Nội.
[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2011), Phân tích thống kê và dự báo, NXB Đại học Quốc Gia Hà Nội, Hà Nội.
Tiếng Anh
[4] Alan Agresti (2010), Analysis of Ordinal Categorial Data, NXB Wiley, Canada.
[5] Ann A. O’Connell (2006), Logistic regression models for ordinal response
variables, NXB Sage, London.
[6] J. Scott Long (1997), Regression models for Categorial and Limited dependent
variables, NXB Cambridge University Press, London.
[7] S. E. Fienberg, D.Lievesley, J.Rolph (1999), Statistics for Social Science and
Public Policy, NXB Springer, New York.
[8] Smita Skrivanek (2009), The Use of Dummy Variables in Regression Analysis, NXB MoreSteam.
[9] Walter A. Shewhart and Samuel S. Wilks (2013), Applied Logistic Regression, NXB Wiley, Canada.