2 Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình
3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh”
Với dữ liệu này, để đánh giá các nhân tố có vai trò quyết định đối với mức độ sinh trưởng của cây và dự báo mức độ sinh trưởng đó, ta sử dụng mô hình logit thứ bậc với biến phụ thuộc là biến định tính có thứ bậc Masinhtruong (mã lượng sinh trưởng) và các biến độc lập Docao (độ cao); D13 (đường kính 1m3); Hvn (chiều cao vút ngọn); Dktan (đường kính tán); KieuIIb (kiểu rừng IIb); KieuIIIa1 (kiểu rừng IIIa1); KieuIIIa2 (kiểu rừng IIIa2); KieuNuago (kiểu rừng nửa gỗ); LopCuc (phân lớp Cúc); LopHMoi (phân lớp Hoa Môi); LopNgLan (phân lớp Ngọc Lan); LopSSau (phân lớp Sau Sau); LopThuDu (phân lớp Thù Du); LopHHong (phân lớp Hoa Hồng); LopKhac (nhóm cây chưa xác định được phân lớp). Đồng thời ta còn xét một mô hình thứ 2 với các biến độc lập định lượng được thay bằng log của chính các biến đó. Kết quả của mô hình thứ nhất được cho ở các Bảng 3.8 và 3.9.
a. Mô hình logit thứ bậc với các biến định lượng là biến nguyên thủy
Ta xét mô hình hồi quy với các biến định lượng nguyên thủy. Hệ số ước lượng được của mô hình này cho ở Bảng 3.8. Trong Bảng 3.8 trên cột đầu tiên là tên biến. Cột thứ hai là các hệ số hồi quy ước lượng từ mô hình logit tương ứng với các biến. Cột thứ ba là sai số tiêu chuẩn của các hệ số tương ứng. Cột thứ tư là lũy thừa cơ số e của các hệ số ở cột thứ hai sau khi nhân các hệ số này với -1, chính bằng các tỷ số chênh của mô hình. Trong cột thứ tư, hai số đầu tiên ứng với ngưỡng phân biệt 1 và ngưỡng phân biệt 2, dùng để phân các cây vào các nhóm “sinh trưởng kém”; “sinh trưởng trung bình” và
“ sinh trưởng tốt”. Đó không phải là các hệ số trong mô hình hồi quy. Cột thứ năm là giá trị của tiêu chuẩn kiểm định Wall đối với các hệ số được ước lượng. Cột thứ sáu là xác suất ý nghĩa của các hệ số.
Nhìn vào cột P-giá trị, ta thấy rằng đối với ngưỡng phân biệt 1, ước lượng cho hệ số này là 0.071 với xác suất ý nghĩa là 0.723. Xác suất này lớn hơn 0.05, do đó đối với mô hình đang sử dụng hệ số này không có ý nghĩa thống kê ở mức 5%. Điều này đồng nghĩa với việc hai tính trạng “sinh trưởng kém” và “sinh trưởng trung bình” đối với biến chất lượng sinh trưởng chưa được phân biệt một cách rõ ràng. Đối với ngưỡng phân biệt 2, xác suất ý nghĩa đối với hệ số này nhỏ hơn 0.05. Như vậy, hệ số này có ý nghĩa thống kê. Do đó, mô hình trên phân biệt tốt giữa nhóm cây có sinh trưởng “tốt” với nhóm cây sinh trưởng “trung bình” và sinh trưởng “kém”.
Đối với các biến định lượng, tất cả các hệ số hồi quy đều có ý nghĩa, tức là, các tiêu chí này đều có thể tác động đến ý kiến của chuyên gia khi xếp một cây nào đó vào các hạng “sinh trưởng tốt”, “sinh trưởng trung bình” hoặc “sinh trưởng kém”.
Ở Bảng 3.8, ta thấy rằng hệ số hồi qui của biến độ cao là -0.003, ứng với tỷ số chênh 1.003. Vì dấu của hệ số này âm nên các cây mọc ở trên độ cao so với mực nước biển càng lớn thì càng có khả năng được chuyên gia xếp vào nhóm cây có mức sinh trưởng thấp hơn so với các cây có cùng các đặc điểm khác, nhưng mọc ở độ cao thấp hơn. Tuy nhiên, ảnh hưởng này là khá nhỏ. Cụ thể nếu độ cao tăng thêm 1m thì khả năng để cây đó được xếp vào lớp sinh trưởng tốt giảm đi khoảng 0.3%.
Trong mô hình này, đường kính đo ở độ cao 1m3 tính từ mặt đất có hệ số tương ứng là 0.01 (số chênh bằng 0.99). Do đó, nếu đường kính 1m3 của
cây tăng thêm 1cm thì khả năng nó bị đánh giá là sinh trưởng trung bình hoặc sinh trưởng kém giảm khoảng 1%, với điều kiện các tiêu chí khác của cây được giữ nguyên. Hai biến chiều cao vút ngọn và đường kính tán có ảnh hưởng mạnh tới giá trị của hàm hồi quy. Hai biến này có hệ số được ước lượng lần lượt là 0.123 và 0.482. Các hệ số này đều dương, ứng với các tỷ số chênh 0.884 và 0.617 nhỏ hơn 1, chứng tỏ khi cây càng cao và có tán lá càng rộng thì khả năng cây được đánh giá phát triển tốt càng lớn. Nếu chiều cao vút ngọn tăng thêm 1m thì khả năng cây được xếp vào mức sinh trưởng trung bình hoặc sinh trưởng kém giảm khoảng 11.6% so với một cây có các tiêu chí tương đương nhưng có chiều cao thấp hơn. Đối với đường kính tán thì khả năng đó giảm 38.3% cho mỗi mét tăng của đường kính tán.
Xét các biến “KieuIIb”; “KieuIIIa1”; “KieuIIIa2” và “Kieunuago”, hệ số hồi qui đối với “KieuIIIa1” có xác suất ý nghĩa bằng 0.867, do đó hệ số này không có ý nghĩa thống kê. Trong mô hình này, có thể nhóm cây chưa được phân loại kiểu rừng được xếp vào kiểu rừng IIIa1 nhưng do dữ liệu bị mất mát nên ta không xác định được kiểu rừng của các cây đó.
Hệ số hồi qui của các biến “KieuIIb” và “Kieunuago” đều dương và lần lượt là: 0.64; 0,956 (số chênh bằng 0.527 và 0.384), còn hệ số đối với biến “KieuI- IIa2” bằng -0.53 (số chênh bằng 1.698). Điều này có nghĩa là nếu so sánh với cây thuộc “Kiểu khác” có cùng các tiêu chí, cây sinh trưởng trong các kiểu rừng “KieuIIb” và “Kieunuago” có khả năng được các chuyên gia đánh giá sinh trưởng ở mức tốt cao hơn, còn khả năng đó của cây thuộc kiểu rừng “KieuIIIa2” thấp hơn.
Trong số các biến “LopHHong”; “LopHMoi”; “LopCuc”; “LopThuDu”; “Lop- Khac”; “LopSauSau” và “LopNgLan”, hệ số hồi qui của các biến “LopNgLan”; “LopThuDu” và “LopHMoi” có ý nghĩa thống kê, còn hệ số đối với các biến khác đều có xác suất ý nghĩa lớn hơn 0.05.
Việc một cây thuộc các phân lớp Ngọc Lan; Thù Du và Hoa Môi có thể có tác động đáng kể đến việc đánh giá chất lượng sinh trưởng của chuyên gia. Cụ thể, trong mô hình này, hệ số hồi quy đối với các biến trên lần lượt là 0.264; 0.515 và -0.773, tương ứng với các số chênh 0.5957; 0.767 và 2.166. Như vậy, nếu một cây nào đó thuộc hai phân lớp Ngọc Lan và Thù Du thì theo mô hình này khả năng nó được xếp vào lớp sinh trưởng tốt cao hơn so với những cây có các tiêu chí tượng tự nhưng thuộc phân lớp Sổ. Đối với lớp Hoa Môi dường như các chuyên gia lại đánh giá khắt khe hơn. Hệ số hồi qui của biến này được ước lượng là -0.773 (tỷ số chênh bằng 2.166) với xác suất ý nghĩa nhỏ hơn một phần nghìn. Như vậy, nếu cây nào đó thuộc lớp Hoa
Môi thì nó có cơ hội được xếp vào nhóm sinh trưởng tốt nhỏ hơn nhiều so với những cây thuộc phân lớp Sổ với cùng các đặc điểm khác.
Từ mô hình trên, ta có Bảng 3.9 chứa các xác suất dự báo đối với các tính trạng tương ứng với biến chất lượng sinh trưởng Ở Bảng 3.9, ta thấy tỉ lệ xếp
đúng đối với các đầu ra sinh trưởng là 68%, tỉ xếp nhầm mức sinh trưởng kém lên mức sinh trưởng trung bình và tốt lần lượt là 3.5%; 3.6%. Tỉ lệ cây có mức sinh trưởng trung bình nhưng là được đánh giá là sinh trưởng tốt lên tới 18.2%. Ở mô hình này, một cây thực sự đang có mức sinh trưởng nào đó thì khả năng nó bị xếp nhầm xuống các mức thấp hơn là khá nhỏ. Tỉ lệ cây có sinh trưởng tốt bị đánh giá là cây sinh trưởng trung bình chiếm 6.7%. Không có cây nào ở hạng tốt mà được đánh giá là kém. Đối với mức sinh trưởng trung bình chỉ có 0.1% bị đánh giá là kém. Như vậy, trong mô hình này hình như các chuyên gia có xu hướng đánh giá trội chất lượng sinh trưởng của cây.
b. Mô hình logit với các biến định lượng được lấy log
Mô hình hồi quy thứ hai được xét là mô hình với các biến định lượng được thay bằng logarit cơ số mười của các biến đó. Trong mô hình này, ta đưa thêm vào biến các “Nguycap1”; “Nguycap2” và “Nguycap3”. Hệ số ước lượng của các biến giải thích được liệt kê ở Bảng 3.10 Mô hình hồi quy trên đây khi lấy log của các biến định lượng và đưa thêm vào các biến Nguycap1; Nguycap2 và Nguycap3 thì mô hình này có một số kết quả tương tự như mô hình không lấy log. Tuy nhiên, khi đưa thêm vào các biến mới Nguycap1; Nguycap2 và Nguycap3 thì hệ số tương ứng với các biến này đều có xác suất ý nghĩa lớn hơn 5%. Do đó, các hệ số này đều không có ý nghĩa thống kê, tức là, rất có thể các chuyên gia đánh giá chất lượng sinh trưởng của cây không phụ thuộc vào việc cây đang xét có nguy cơ tuyệt chủng hay không. Vì vậy, để giảm bớt sự phức tạp của mô hình, ta bỏ các biến Nguycap1; Nguycap2 và Nguycap3 ra khỏi mô hình hồi quy. Ta ước lượng lại mô hình hồi quy mà không có các biến Nguycap1, Nguycap2 và Nguycap3. Kết quả của mô hình hồi quy này được thể hiện ở Bảng 3.11.
Ở mô hình lấy log này, các kết quả có được như sau. Đầu tiên, hệ số ước lượng đối với “ngưỡng phân biệt 1” là 1.053 với xác suất ý nghĩa là 0.061 như vậy hệ số này cũng không có ý nghĩa ở mức 5%. Hệ số của “ngưỡng phân biệt 2” là 3.287 với xác suất ý nghĩa nhỏ hơn 5%. Do đó, mô hình này cũng chưa phân biệt được hai tính trạng “sinh trưởng trung bình” và “sinh trưởng kém” đối với khả năng sinh trưởng của cây rừng. Thứ hai, mô hình hồi quy này, biến LogD13 không có ý nghĩa thống kê với xác suất ý nghĩa bằng 0.198. Mặc dù trong mô hình không lấy log thì D13 là có ý nghĩa nhưng ảnh hưởng của D13 khá yếu. Các biến LogHvn; LogDktan và LogDocao đều có ý nghĩa thống kê và ảnh hưởng rõ ràng hơn với các hệ số hồi quy tương ứng với các biến Logdocao; LogHvn; LogDktan lần lượt là: -0.614; 3.024 và 3.388. Tỉ số chênh đối với biến Logdocao; LogHvn; LogDktan lần lượt là 1.847; 0.048 và
0.033. Như vậy, theo mô hình này, nếu LogDocao tăng thêm 1, thì số chênh tăng lên 1.847 lần. Do đó, khả năng để cây nào đó được các chuyên gia đánh giá ở mức sinh trưởng trung bình và kém cao hơn cây có các tiêu chí tương tự nhưng ở độ cao thấp hơn. Đối với biến LogHvn và biến LogDktan, nếu các biến này tăng lên 1 đơn vị thì khả năng cây được đánh giá sinh trưởng tốt cao hơn những cây có cũng tiêu chí nhưng có chiều cao vút ngọn và đường kính tán nhỏ hơn. Với các biến chỉ kiểu rừng, chỉ có biến KieuIIIa1 là không có ý nghĩa thống kê với xác suất ý nghĩa là 0.666. Như vậy, mô hình này cũng không đánh giá được sự khác biệt giữa kiểu rừng IIIa1 và lớp cây chưa được phân loại kiểu rừng, có thể nhóm chưa được phân loại này thuộc kiểu rừng IIIa1. Các biến KieuIIb; KieuNuago và KieuIIIa2 có hệ số hồi quy là 0.57; 1.031; -0.366 với xác suất ý nghĩa đều nhỏ hơn 5%. Tỉ số chênh ứng với các biến trên lần lượt là 0.565; 0.356 và 1.441.
Như vậy, nếu cây rừng mà thuộc hai kiểu rừng IIb hoặc kiểu nửa gỗ thì khả năng cây này được đánh giá có sinh trưởng tốt cao hơn nhưng cây có cùng các đặc điểm khác nhưng không thuộc hai kiểu rừng này. Còn nếu cây thuộc kiểu rừng IIIa2 thì khả năng cây này được các chuyên gia đánh giá có sinh trưởng trung bình và kém cao hơn những cây khác có cùng đặc điểm nhưng sinh trưởng trong một kiểu rừng khác.
Đối với các biến LopCuc; LopHHong; LopHMoi; LopNgLan; LopSSau; LopThuDu và LopKhac, chỉ có các biến LopHMoi; LopNgLan và LopThuDu là có ý nghĩa. Hệ số hồi quy của các biến LopHMoi; LopNgLan và LopThuDu lần lượt là -0.745; 0.249 và 0.547 tương ứng với tỉ số chênh 2.106; 0.779 và 0.578.
Xác suất dự báo đối với các tính trạng đối với mô hình này được cho ở Bảng 3.12 Đối với mô hình này tỉ lệ xếp hạng đúng đối với các tính trạng cũng là 68%. Tỉ lệ xếp nhầm từ mức sinh trưởng kém sang hai mức sinh trưởng trung bình và sinh trưởng tốt với tỉ lệ là 3.3% và 3.4%. Tỉ lệ xếp
nhầm từ mức sinh trưởng trung bình sang mức sinh trưởng tốt là 17.9%. Tuy nhiên, tỉ lệ xếp nhầm sinh trưởng ở mức sinh trưởng tốt sang mức sinh trưởng trung bình chiếm 7.1%.
So sánh mô hình hồi quy với biến nguyên thủy và mô hình lấy Log
Đối với hai mô hình hồi được xét ở trên, kết quả của hai mô hình trên cũng có nhiều điểm tương tự nhau và cũng có một số điểm khác nhau, cụ thể: Thứ nhất, đối với các ngưỡng phân biệt ở cả hai mô hình thì chỉ có ngưỡng phân biệt 2 là có ý nghĩa thống kê. Ngưỡng phân biệt 1 thì không có ý nghĩa thống kê. Do đó, cả hai mô hình này chỉ phân biệt tốt mức sinh trưởng tốt với mức sinh trưởng trung bình và sinh trưởng kém, các mô hình này đều không có sự phân biệt rõ ràng giữa mức sinh trưởng trung bình và kém. Thứ hai, đối với các biến định lượng, ở mô hình lấy log thì biến LogD13 không có ý nghĩa. Tuy nhiên, đối với mô hình không lấy log biến D13 có ý nghĩa nhưng ảnh hưởng của biến này khá yếu với hệ số hồi quy là 0.01. Trong mô hình không lấy log, các biến Docao; Hvn; Dktan có hệ số hồi quy tương ứng là -0,003; 0.123 và 0.482. Đối với mô hình lấy log các biến định lượng, hệ số hồi quy ứng với các biến LogDocao; LogHvn; LogDKtan lần lượt là -0.614; 3.024 và 3.388. Như vậy, ảnh hưởng của các biến này ở cả hai mô hình có hướng như nhau. Nhưng ở mô hình lấy log tác động của các biến này mạnh hơn nhiều lần.
Thứ ba, đối với các biến định tính chỉ các kiểu rừng, cả hai mô hình cho kết quả khá giống nhau về cả hướng và cường độ ảnh hưởng của các biến. Các hệ số hồi quy của mô hình không lấy log đối với các biến KieuIIb; KieuIIIa2; KieuNuago là 0.64; -0.53 và 0.956. Trong mô hình lấy log, các biến trên có hệ số lần lượt là 0.57; -0.366; 1.031.
Thứ tư, đối với các biến định tính chỉ loài cây, kết quả cả hai mô hình đều giống nhau. Đối với các biến có ý nghĩa thống kê LopHMoi; LopNgLan và LopThudu thì hệ số hồi quy của các biến này đối với hai mô hình không lấy log là -0.773; 0.264; 0.515 và mô hình có lấy log như sau -0.745; 0.249; 0.547. Cuối cùng, đối với dự báo các đầu ra tính trạng, cả hai mô hình đều có tỉ lệ xếp đúng là 68%, đối với mô hình không lấy log việc xếp nhầm cây lên mức sinh trưởng cao hơn chiếm 25.3% còn đối với mô hình lấy log tỉ lệ này là 24.6%. Như vậy, hai mô hình này có đánh giá về xếp hạng sinh trưởng khá giống nhau. Tuy nhiên ở mô hình lấy log cho kết quả gần với đánh giá của chuyên gia hơn, theo nghĩa ít xếp nhầm nhóm cây được chuyên gia đánh giá ở mức sinh trưởng thấp lên lớp được đánh giá có chất lượng cao hơn, so với mô hình không lấy log.
Từ hai mô hình trên đây, ta thấy rằng kết quả của chúng khá giống nhau không có nhiều sự sai khác. Ở mô hình lấy log ảnh hưởng của các biến là rõ ràng và mô hình này đánh giá chất lượng sinh trưởng của cây là phù hợp với ý kiến chuyên gia hơn.