Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
2,53 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Thị Nhung MÔHÌNHHỒIQUYCHOBIẾNĐỊNHTÍNHVÀỨNGDỤNG LUẬN VĂN THẠC SỸ KHOA HỌC Hà Nội – Năm 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Thị Nhung MÔHÌNHHỒIQUYCHOBIẾNĐỊNHTÍNHVÀỨNGDỤNG Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số: 60460106 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.TRẦN MẠNH CƯỜNG Hà Nội – Năm 2016 Mục lục LỜI MỞ ĐẦU Chương - Kiến thức chuẩn bị 1.1 Môhình tuyến tính cổ điển 1.1.1 Môhình 1.1.2 Ước lượng tham số hồiquy 1.1.3 Tính chất ước lượng phương pháp bình phương cực tiểu 1.1.4 Khoảng tin cậy hệ số hồiquy β 1.1.5 Kiểm định giả thiết hệ số hồiquy 11 1.1.6 Kiểm tra phù hợp môhình 12 1.2 Một số hàm phân bố 13 1.2.1 Phân bố beta 13 1.2.2 Phân bố chuẩn 14 1.2.3 Phân bố đa thức 14 1.3 Phân bố tiên nghiệm phân bố hậu nghiệm 16 1.3.1 Phân bố tiên nghiệm 16 1.3.2 Phân phối hậu nghiệm 18 Chương - Các môhìnhhồiquycho liệu nhị phân 20 2.1 Giới thiệu môhình 20 2.2 Ước lượng tham số hồiquy 28 2.2.1 Phương pháp ước lượng hợp lý cực đại 30 2.2.2 Phương pháp Bayes 32 2.2.3 Ví dụ 34 2.3 Kiểm tra phù hợp môhình 39 2.3.1 Sử dụng phương pháp cổ điển 39 2.3.2 Phương pháp Bayesian 42 2.4 Biến giả 45 Chương - Các môhìnhhồiquycho liệu thứ tự 49 3.1 Dữ liệu thứ tự 49 3.2 Ước lượng hệ số hồiquy 54 3.2.1 Phương pháp ước lượng hợp lý cực đại 56 3.2.2 Phương pháp Bayes 58 3.2.3 Ví dụ 62 Chương - Sử dụngmôhình probit thứ tự để phân tích chất lượng sinh trưởng rừng 66 4.1 Giới thiệu địa bàn nghiên cứu mục đích nghiên cứu 66 4.2 Mô tả liệu 67 4.3 Phân tích chất lượng sinh trưởng 70 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 77 LỜI MỞ ĐẦU Trong phân tích hoạt động kinh doanh nhiều lĩnh vực khác, hồiquy công cụ phân tích đầy sức mạnh thay Nó phương pháp thống kê dùng để ước lượng, dự báo kiện xảy tương lai dựa vào quy luật khứ Phân tích hồiquy nghiên cứu mối liên hệ phụ thuộc biến (gọi biến phụ thuộc) vào hay nhiều biến khác (gọi biến độc lập) Trong phân tích hồi quy, có hai loại biếnbiếnđịnh lượng biếnđịnhtínhBiếnđịnh lượng biến mà giá trị quan sát số Biếnđịnhtính thường biểu thị có hay tính chất biểu thị mức độ khác tiêu thức, thuộc tính đó, chẳng hạn giới tính, tôn giáo, chủng tộc, nơi cư trú, Những biếnđịnhtính có ảnh hưởng biến phụ thuộc phải đưa vào môhìnhhồiquy Trong luận văn đưa cách tiếp cận theo phương pháp thống kê xây dựngmôhìnhhồiquy với biến phụ thuộc biếnđịnhtính Từ đưa phương pháp đánh giá hiệu quả, tốn dễ thực áp dụng rộng rãi đời sống, xã hội Với mục tiêu vậy, luận văn có tên “Mô hìnhhồiquychobiếnđịnhtínhứng dụng” Luận văn chia làm bốn chương Chương giới thiệu môhìnhhồiquy tuyến tính cổ điển với biến phụ thuộc biếnđịnh lượng, môhình xem tảng, sở để xây dựngmôhìnhhồiquy khác Trong chương này, ta nghiên cứu toán ước lượng kiểm định giả thiết cho phù hợp môhình Ngoài phương pháp ước lượng theo hướng suy luận Bayes giới thiệu chương Chương trình bày môhìnhhồiquy với biến phụ thuộc biến nhị phân, nhận hai giá trị Trong môhình nghiên cứu cách thành lập mô hình, số dạng môhình phổ biến, toán ước lượng kiểm định kèm theo ví dụ minh họa Chương tiếp tục trình bày môhìnhhồiquy với biến phụ thuộc biếnđịnhtính săp thứ tự Các diễn giải kết môhình xem mở rộng diễn giải môhìnhhồiquy với liệu nhị phân Chương phần ứngdụngmôhìnhhồiquy thứ tự để phân tích chất lượng sinh trưởng rừng từ liệu lấy thực tế Trong chương này, số kết đạt có ý nghĩa thực tế chất lượng sinh trưởng rừng phụ thuộc mạnh vào yếu tố đường kính tán, chiều cao, đường kính 1m3 Các loài khác có đánh giá khác chất lượng sinh trưởng, mức độ quý ý nghĩa việc đánh giá Bản luận văn hoàn thành với hướng dẫn nghiêm khắc bảo tận tình Ts Trần Mạnh Cường Thầy dành nhiều thời gian quý báu để hướng dẫn, giải đáp thắc mắc cho suốt trình bắt đầu tới hoàn thành luận văn Nhân dịp này, xin tỏ lòng biết ơn sâu sắc tới Thầy Qua đây, xin cảm ơn Thầy, Cô khoa Toán- Cơ- Tin, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt Thầy tham gia giảng dạy khóa Cao học Toán 2013-2015 Tôi xin cảm ơn gia đình, bạn người giúp đỡ, cổ vũ để khắc phục khó khăn gặp phải suốt trình học Hà Nội, ngày 10 tháng năm 2016 Học viên Nguyễn Thị Nhung Chương - Kiến thức chuẩn bị 1.1 Môhình tuyến tính cổ điển 1.1.1 Môhình Giả sử X1, …, Xk k biến độc lập dùng để dự báo Y biến phụ thuộc cần dự báo Ví dụ, ta giả sử Y giá nhà Khi Y phụ thuộc vào yếu tố sau: • X1 diện tích sử dụng (m2) • X2 vị trí vùng (thành phố ) • X3 giá năm trước • X4 chất lượng xây dựng Sự phụ thuộc biến Y theo biến X1, …, Xk nói chung phức tạp Tuy nhiên có số trường hợp phụ thuộc tương đối đơn giản Môhìnhhồiquy tuyến tính cổ điển khẳng định rẳng Y phụ thuộc tuyến tính vào Xk (nghĩa Y biểu thức bậc X1, …, Xk ) sai số ngẫu nhiên 𝜺 Như vây: Y = β0 + β1X1 +…+ βkXk + 𝜺 (1.1) Trong đó: βi, i = ,…, k hệ số chưa biết gọi hệ số hồi quy; β0 gọi hệ số chặn; β1, …… , βk hệ số góc (độ dốc) Bây ta tiến hành n quan sát độc lập đồng thời (k+1) biến X1, …, Xk, Y Giả sử số liệu quan sát tuân theo môhình sau: y1 = β0 + β1x11 +…+ βkx1k + 𝜺1 y2 = β0 + β1x21 +…+ βkx2k + 𝜺2 yn = β0 + β1xn1 +…+ βk xnk + 𝜺n (1.2) Trong sai số: 𝜺1, …, 𝜺n thỏa mãn điều kiện sau: a, E(𝜺j) = (Việc đo đạc không chịu sai lệch hệ thống) b, D(𝜺j) = 𝜎2 (phương sai không đổi ) c, cov(𝜺i , 𝜺j) = i ≠ j = 1, …, n (các sai lệch bước không ảnh hưởng đến nhau) Môhình (1.2) viết dạng ma trận sau: = [ ] + [ ][ ] [ ] Hoặc đơn giản hơn: Y = X β + 𝜺, (1.3) đó: gọi ma trận thiết kế cấp n X= [ (k+1) biến độc ] lập Y = [ y1, , yn ]Tgồm n vecto quan sát; β = [β0, …, βk]T gồm k vecto hệ số hồi quy; 𝜺 = [𝜺1, …, 𝜺n]T gồm n vecto sai số ngẫu nhiên Và: i, E(𝜺) = ii, cov(𝜺) = E(𝜺𝜺T) = 𝜎2In 1.1.2 Ước lượng tham số hồiquy Một toán trước tiên đặt dựa ma trận X vecto Y giá trị quan sát, ước lượng vecto tham số β Ở đây, sử dụng phương pháp bình phương cực tiểu Nếu sử dụng vecto b = (b0, …, bk) giá trị thử β quan sát yj b0 + b1xj1 +….+ bkxjk ; ( j=1,…,n) có độ lệch: yj - ( b0 + b1xj1 + … + bkxjk), nói chung độ lệch khác Nội dung phương pháp bình phương cực tiểu chọn giá trị vecto b cho: S(b) = ∑ = (Y-Xb)T(Y-Xb) → Đại lượng ̂ làm cực tiểu hóa phiếm hàm S(b) gọi ước lượng bình phương cực tiểu β, còn: ̂ = yj – ( ̂ ̂ ̂ ); j =1, …, n gọi phần dư phép hồiquy Trong trường hợp này, biểu thức theo X1,…, Xk tuyến tính, nên phương trình : ̂=̂ ̂ ̂ gọi phương trình hồiquy tuyến tính mẫu , Vì phiếm hàm S(b) hàm bậc theo b nên dễ thấy ̂ tìm từ hệ phương trình sau: = 0; i = 0, …., k Hoặc tương đương: { ∑( ) ∑( ) ∑( ) Do đó: ∑ b0∑ ( ) + b1 ∑ ∑ + ……….+ bk∑ =∑ ……………………………………………………………… b0∑ + b1 ∑ +……….+ bk∑ =∑ Chú ý đặt: xj0 =1 cho j = 1,…, n ta có phương trình sau: ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ = [ ∑ ∑ ∑ ][ ] [∑ ] Hình 3.3: Các xác suất phù hợp từ hợp lý cực đại môhình thuộc tỷ lệ khả dỹ Đối với giá trị SAT, khu vực bóng mờ biểu đồ xếp chồng lên nhau, thể cho xác suất phù hợp mức điểm Trong hình này, khu vưc màu trắng phản ánh xác suất mà sinh viên với số điểm SAT-M cho nhận mức điểm A, khu vực sáng nhẹ phản ánh xác suất mà sinh viên với số điểm SAT-M cho nhận mức điểm B ,…, tương tự vậy, khu vực màu đen phản ánh xác suất mà sinh viên với số điểm SAT-M cho nhận mức điểm F Từ biểu đồ, thấy rằng: xác suất mà sinh viên với số điểm SAT-M 460 nhận mức điểm D F khoảng 57%; xác suất để sinh viên ghi 560 điểm SAT- M có hội nhận mức điểm B xấp xỉ 50% sinh viên ghi 660 điểm SAT-M có hội nhận mức điểm A lớn 80% 63 Tiếp theo, xem xét phân tích Bayesian sử dụng tiên nghiệm mang thông tin Chúng ta minh họa phương pháp mô tả phần 3.2.2 sử dụng để xác định phân phối tiên nghiệm cho tham số môhình probit thứ tự cấp độ thống kê Nhớ lại chương 2, tóm tắt niềm tin tiên nghiệm giá trị tham số hồiquy β thông qua hai ước lượng tiên nghiệm: Một sinh viên với số điểm SAT-M 500 thi đậu khóa học với xác suất 0.3 sinh viên với số điểm SAT-M 600 thi đậu khóa học với xác suất 0.7 Ở đây, giả định không chắn gán trọng số cho dự đoán quan sát Để xác định tiên nghiệm thích hợp cho tất tham số môhình probit thứ tự, cần xác định nhiều ước lượng tiên nghiệm cho tham số điểm cắt γ2, γ3 ,γ4 Ba ước lượng tiên nghiệm thêm vào là: xác suất mà sinh viên với số điểm SAT-M 520 nhận cấp độ F 0.2; xác suất mà sinh viên với số điểm SAT-M 540 nhận cấp độ C thấp 0.75; xác suất mà sinh viên với số điểm SAT-M 570 nhận cấp độ B thấp 0.85 Khi tiên nghiệm từ dự đoán biểu thị sau: g(β,γ) ∝ 𝚽(- β0 - 520β1)0.2 (1 - 𝚽 (- β0 - 520β1))0.8 𝚽 (γ2 - β0 - 500β1)0.7 (1 - 𝚽 (γ2 - β0 - 500β1))0.3 𝚽 (γ3 - β0 - 540β1)0.75 (1 - 𝚽 (γ3 - β0 - 540β1))0.25 𝚽 (γ4 - β0 - 570β1)0.85 (1 - 𝚽 (γ4 - β0 - 570β1))0.15 𝚽 (γ2 - β0 - 600β1)0.3 (1 - 𝚽 (γ2 - β0 - 600β1))0.7 ( - β0 - 520β1) (γ2 - β0 - 500β1) (γ3 - β0 - 540β1) ( γ4 - β0 - 570β1) (γ2 - β0 - 600β1) 64 (3.11) Mật độ hậu nghiệm mà kết từ tiêu chuẩn đinh rõ tiên nghiệm không tuân theo phân tích hình thức- đóng Như phải lần nhờ đến phương pháp MCMC để thu mẫu từ phân phối hậu nghiệm chung Thuật toán mô tả phần 3.2.3 để áp dụng với tiên nghiệm chung γ β đòi hỏi xếp chồng bước Metropolis-Hastings lấy mẫu Gibbs bước (3), điều chỉnh tỷ lệ chấp nhận bước (1) Cho , s = biểu thị tỷ lệ mật độ tiên nghiệm giá trị tham số so với giá trị tham số cũ bước cập nhật Các thay đổi cần thiết thuật toán Cowles là: Trong bước 1, tỷ lệ R nhân lên với s Trong trường hợp này, Trong bước (3) lấy min(1,s) chấp nhận = g giá trị Với xác suất Ngược lại đặt = Các trung bình hậu nghiệm độ lệch tiêu chuẩn ước lượng từ 1000 bước lặp thuật toán cách sử dụng tiên nghiệm (3.11) đưa bảng 3.2 Bảng 3.2: Sự mô ước lượng trung bình hậu nghiệm sai số tiêu chuẩn môhình probit thứ tự sử dụng tiên nghiệm mang thông tin Tham số TB hậu nghiệm Độ lệch chuẩn 1.09 0.28 1.80 0.34 2.85 0.44 -5.68 2.73 0.0132 0.0048 65 Chương - Sử dụngmôhình logit thứ tự để phân tích chất lượng sinh trưởng rừng 4.1 Giới thiệu địa bàn nghiên cứu mục đích nghiên cứu Nghiên cứu sử dụng số liệu rừng thu thập khuôn khổ chương trình “Điều tra bổ sung, lập danh mục động thực vật rừng quốc Bến En” ban quản lý rừng quốc gia Bến En thực Vườn quốc gia Bến En cách thành phố Thanh Hóa 46km phía Tây Nam, thuộc địa phận xã Hải Vân, huyện Như Thanh, Thanh Hóa Đây vùng rừng núi, sông hồ mang vẻ hoang dã với hệ động thực vật đa dạng phong phú Có nhiều loại động thực vật quý : Voi, Gấu, Hổ, Vọoc má trắng, Lim, Lát hoa, Chò chỉ… có Lim xanh tồn ngàn năm tuổi Bến En có 4000 mặt hồ với 21 đảo lớn nhỏ tạo nên cảnh quan thiên nhiên vô quyến rũ Mục tiêu, nhiệm vụ vườn Quốc gia Bến En bảo tồn sinh thái núi đất nhiệt đới ẩm thường xanh nửa rụng; bảo tồn loài thú quý hiếm; phục vụ nghiên cứu khoa học, nghiên cứu thực nghiệm, bảo tồn nguồn gen, tuyên truyền giáo dục bảo vệ thiên nhiên, môi trường, phát triển du lịch sinh thái Để thực nhiệm vụ nói trên, yêu cầu phải thường xuyên đánh giá chất lượng sinh trưởng tồn hệ sinh thái rừng Thông thường việc đánh giá tiến hành phương pháp chuyên gia, cán Lâm nghiệp giàu kinh nghiệm thực Do đó, việc đánh ngày khó thực hiện, lực lượng chuyên gia Lâm nghiệp giàu kinh nghiệm ngày giảm sút Hiện trạng làm nảy sinh nhu cầu phải xây dựng phương pháp thay cho phương pháp chuyên gia để đánh giá chất lượng sinh trưởng rừng 66 Nghiên cứu có mục tiêu xây dựng phương pháp đánh giá chất lượng sinh trưởng rừng thông qua số đo đường kình 1m3, đường kính tán, chiều cao vút ngọn, độ cao đất so với mực nước biển, kiểu rừng,… Phương pháp thay hỗ trợ phương pháp chuyên gia việc đánh giá chất lượng sinh trưởng rừng, giúp cho việc điều tra, rà soát đánh giá thực trạng rừng thực thường xuyên 4.2 Mô tả liệu Nghiên cứu sử dụng liệu thu thập Vườn Quốc gia Bến En thời gian từ ngày 1/8/2010 đến ngày 3/11/2010, liệu “Rừng nguyên sinh” Dưới mô tả sơ liệu Bộ liệu “Rừng nguyên sinh” thu thập khu vực rừng tự nhiên Trong liệu này, chất lượng sinh trưởng rừng đánh giá theo phương pháp chuyên gia chia mức khác là: sinh trưởng tốt, sinh trưởng trung bình sinh trưởng Các tiêu chí điều tra với rừng bao gồm: đường kính 1m3; đường kính tán; chiều cao vút ngọn; độ cao ô tiêu chuẩn so với mực nước biển; mức độ quý cây; kiểu rừng; ví trí ô tiêu chuẩn tên Mục tiêu nghiên cứu xây dựngmôhình dự báo với biến phụ thuộc chất lượng sinh trưởng mã hóa biếntính trạng có thứ tự Các biến độc lập bao gồm số đo đường kính 1m3 (Dk1m3); đường kính tán (Dktan); chiều cao vút (Hvn); độ cao ô tiêu chuẩn so với mực nước biển(Docao); mức độ quý (EN, CR, LR, V, VU không thuộc loại quý hiếm); kiểu rừng (IIb, IIIa1, IIIa2, nửa gỗ số không phân loại); tên (Cúc, Hoa Hồng, Ngọc Lan, Sổ, Hoa Môi, Sau Sau, Thù Du nhóm chưa phân lớp) sau mã hóa lại cách thích hợp Trong số biến độc lập kể trên, biến : Dk1m3, Dktan, Hvn, Docao biếnđịnh lượng đưa vào môhình cách trực tiếp 67 Đối với biếnđịnhtính “mức độ quý hiếm” cây, ta lập thành biến giả “Nguycap1” ứng với giá trị EN; “Nguycap2” ứng với giá trị LR CR; “Nguycap3” ứng với giá trị V VU Nhóm không thuộc loại quý lấy làm nhóm chứng biến Đối với biếnđịnhtính “kiểu rừng”, ta thành lập biến giả “KieuIIb”; “KieuIIIa1”; “KieuIIIa2”; “KieuNuago” Nhóm chứng chobiến nhóm không phân loại Biếnđịnhtính “Tên cây” lập biến giả “LopCuc”; “LopHHong”; “LopHMoi”; “LopSSau”; “LopSo”; “LopThuDu”; “LopNgLan” “LopKhac” Lớp “Sổ” lấy làm nhóm chứng chobiến Dữ liệu mô tả “rừng nguyên sinh” tóm tắt qua bảng từ bảng 4.1 tới bảng 4.4: Bảng 4.1: Phân loại chất lượng sinh trưởng Chất lượng sinh trưởng (theo đánh giá chuyên gia) Phân loại Tần số Tỉ lệ % Tốt 2496 65.6 Trung bình 1015 26.7 Kém 287 7.5 Không phân loại 0.1 Tổng cộng 3802 100 Dữ liệu thu có tổng cộng 3802 rừng đo đạc kích thước đánh giá chất lượng sinh trưởng Trong đó, có 2496 chuyên gia đánh giá có chất lượng sinh trưởng tốt, 1015 có chất lượng sinh trưởng trung bình, 287 đánh giá phát triển có chưa đánh giá chất lượng sinh trưởng Vì chiếm tỷ lệ nhỏ nên ta điều chỉnh số liệu cách gán cho nhóm có chất lượng sinh trưởng trung bình Bảng 4.2 tóm tắt lại việc phân lớp rừng Như vậy, rừng thuộc phân lớp Hoa Hồng phân lớp Sổ chiếm tỷ lệ lớn tương ứng 37.5% 34.6%, tức là, thuộc lớp 68 phổ biến khu vực điều tra Những thuộc phân lớp Cúc phân lớp Thù Du bắt gặp với số lượng 44 106 Số chưa xác định phân lớp 115 Bảng 4.1: Phân loại chất lượng sinh trưởng Phân lớp rừng Phân loại Tần số Tỉ lệ % LopKhac 115 3.0 LopCuc 44 1.2 LopHHong 1426 37.5 LopHMoi 202 5.3 LopNgLan 456 12 LopSSau 136 3.6 LopSo 1317 34.6 LopThuDu 106 34.6 Các tiêu chí đo đạc đường kính 1m3, chiều cao vút đường kính tán Tuy nhiên, số liệu có khoảng 200 không xác định đường kính 1m3 Các tiêu chiều cao vút đường kín tán biết Với biến độ cao, ô tiêu chuẩn chưa xác định độ cao độ cao ô phục hồi cách gán với độ cao trung bình ô biết Mô tả chi tiết biến thể bảng 4.3: Bảng 4.3: Mô tả biếnđịnh lượng Tên Biến Dk1m3 (cm) Hvn (cm) Dktan (m) Docao (m) Số quan sát 3696 3802 3802 3802 Minimum Maximum 5.0 2.5 50 31.00 180.0 43.0 15.0 219.00 Trung bình 25.052 10.865 3.6443 85.9324 Độ lệch chuẩn 22.2359 4.1774 1.92210 36.45929 Trong số liệu trên, rừng đánh giá mức độ bị đe dọa theo tiêu chuẩn Liên minh Bảo tồn Thiên nhiên Quốc tế tiêu chuẩn Việt Nam 2007 69 Để xem xét ảnh hưởng lớp tới việc đánh giá chất lượng sinh trưởng chuyên gia, ta đưa vào biến Nguycap1; Nguycap2 Nguycap3 Số lượng cho chuyên gia cho nguy cấp không nhiều Phần lớn điều tra không bị đe dọa Thông tin biến thể bảng 4.4 sau: Bảng 4.4: Mức độ nguy cấp rừng Tên Biến Tần số Tần suất Nguycap1 579 15.2% Nguycap2 139 3.7% Nguycap3 49 1.3% Khongnguycap 3035 79.8% Tổng số 3802 100% 4.3 Phân tích chất lượng sinh trưởng Với liệu trên, để đánh giá nhân tố có vai trò định mức độ sinh trưởng dự báo mức độ sinh trưởng đó, ta sử dụngmôhình logit thứ tự với biến phụ thuộc biếnđịnhtính có thứ tự M(chất lượng sinh trưởng) biến độc lập Docao(độ cao); D13(đường kính 1m3); Hvn(chiều cao vút ngọn); Dktan(đường kính tán); Kieu_IIb(kiểu rừng IIb); Kieu_IIIa1(kiểu rừng IIIa1); Kieu_IIIa2(kiểu rừng IIIa2); Kieu_Nuago(kiểu rừng nửa gỗ); LopCuc(phân lớp Cúc); LopHMoi(phân lớp Hoa Môi); LopNgLan(phân lớp Ngọc Lan); LopSSau(phân lớp Sau Sau); LopThuDu(phân lớp Thù Du); LopHHong(phân lớp Hoa Hồng); LopKhac(nhóm chưa xác định phân lớp) Ta xét môhìnhhồiquy với biếnđịnh lượng lấy log Sử dụng kết môhình logit thứ tự ta có: 70 ) = β0 Log( logHvn + β1 logDocao + γc - β4 Kieu_IIIa2 - β7 - β10 logDk1m3 + β2 logDktan + β3 Kieu_IIb - β5 Kieu_IIIa1 - β6 Kieu_Nuago - β8 LopNgLan - β11 LopKhac - β14 LopCuc - β9 LopSSau - β12 Nguycap1 - β15 LopHMoi LopThuDu - β13 Nguycap2 - β16 Nguycap3 Trong biến: logHvn; logDk1m3; logDktan; logDocao biếnđịnh lượng đưa vào môhình cách trực tiếp Các biến giả quy ước sau: Kieu_IIb = { Kieu_IIIa2 = { LopCuc = { LopHMoi = { LopNgLan = { LopSSau = { LopThuDu = { 71 Nguycap1 = { Nguycap2 = { \ Hệ số ước lượng môhìnhcho bảng 4.5: Bảng 4.5: Hệ số môhình logit với biếnđịnh lượng lấy log Tên biến Ngưỡng phân biệt 1(γ1) Ngưỡng phân biệt 2(γ2) logDocao logDk1m3 logHvn logDktan Kieu_IIb Kieu_IIIa1 Kieu_IIIa2 Kieu_Nuago LopCuc LopHMoi LopNgLan LopSSau LopThuDu LopKhac LopHHong Nguycap1 Nguycap2 Nguycap3 Ước lượng tham số Hệ số (β) Sai số tiêu chuẩn 0.989 0.565 3.224 0.566 -0.639 0.235 0.297 0.231 3.014 0.379 3.401 0.237 0.570 0.112 -0.063 0.124 -0.375 0.147 1.021 0.392 -0.008 0.383 -0.747 0.154 0.270 0.142 -0.039 0.229 0.550 0.246 -0.290 0.216 0.119 0.103 0.011 0.142 -0.071 0.223 -0.527 0.321 Exp (-β) 1.894 0.743 0.049 0.033 0.565 1.065 1.454 0.360 1.088 2.110 0.763 1.039 0.576 1.336 0.887 0.989 1.073 1.693 P- giá trị 0.08 0.000 0.007 0.199 0.000 0.000 0.000 0.611 0.011 0.002 0.982 0.000 0.057 0.865 0.025 0.179 0.246 0.937 0.749 0.101 Trong bảng 4.5 cột tên biến Cột thứ hệ số hồiquy ước lượng từ môhình logit tương ứng với biến Cột thứ sai số tiêu chuẩn hệ số tương ứng Cột thứ lũy thừa số e hệ số cột thứ sau nhân hệ số với -1, tỷ số chênh môhình Trong cột thứ 4, hai số ứng với ngưỡng phân biệt 1(γ1) ngưỡng phân biệt 2(γ2), dùng để phân vào nhóm “sinh trưởng kém”; “sinh trưởng trung bình” “sinh trưởng 72 tốt” Đó hệ số môhìnhhồiquy Cột thứ xác suất ý nghĩa hệ số Môhìnhhồiquy lấy log biếnđịnh lượng Tuy nhiên, biến: Nguycap1; Nguycap2; Nguycap3 hệ số tương ứng với biến có xác suất ý nghĩa lớn 5% Do đó, hệ số ý nghĩa thống kê Tức là, chuyên gia đánh giá chất lượng sinh trưởng không phụ thuộc vào việc xét có nguy tuyệt chủng hay không Vì vậy, để giảm bớt phức tạp mô hình, ta bỏ biến: Nguycap1; Nguycap2; Nguycap3 khỏi môhìnhhồiquy Ta ước lượng lại môhìnhhồiquy mà biến Nguycap1; Nguycap2; Nguycap3 Kết môhìnhhốiquy thể bảng 4.6 Bảng 4.6: Hệ số hồiquymôhình loại bỏ biến Nguycap Tên biến Ngưỡng phân biệt 1(γ1) Ngưỡng phân biệt 2(γ2) logDk1m3 logHvn logDktan logDocao Kieu_IIb Kieu_IIIa1 Kieu_IIIa2 Kieu_Nuago LopCuc LopHHong LopHMoi LopNgLan LopSSau LopThuDu LopKhac Ước lượng tham số Hệ số (β) Sai số tiêu chuẩn 1.053 0.563 3.287 0.564 -0.303 0.231 3.024 0.369 3.388 0.236 -0.614 0.234 0.570 0.112 -0.053 0.124 -0.366 0.145 1.031 0.329 -0.007 0.383 0.098 0.090 -0.745 0.154 -0.249 0.127 -0.037 0.229 0.547 0.246 -0.290 0.216 Exp (-β) P- giá trị 0.738 0.048 0.033 1.847 0.565 1.054 1.441 0.356 1.007 0.906 2.106 0.779 1.037 0.578 1.336 0.061 0.000 0.189 0.000 0.000 0.009 0.000 0.666 0.012 0.002 0.985 0.276 0.000 0.049 0.872 0.026 0.180 Ở môhình này, kết có sau: Đầu tiên, hệ số ước lượng γ1 1.053 với xác suất ý nghĩa 0.061 Như vậy, hệ số ý nghĩa mức 5% Điều đồng nghĩa với việc hai 73 tính trạng “sinh trưởng kém” “sinh trưởng trung bình” biến chất lượng sinh trưởng chưa phân biệt cách rõ ràng Hệ số γ2 3.287 với xác suất ý nghĩa nhỏ 5% Do đó, môhình phân biệt tốt nhóm có sinh trưởng “tốt” với nhóm có sinh trưởng “trung bình” sinh trưởng “kém” Thứ hai, môhìnhhồiquy này, biến LogDk1m3 ý nghĩa thống kê với xác suất ý nghĩa 0.189 Các biến LogHvn; LogDktan LogDocao có ý nghĩa thống kê có ảnh hưởng rõ ràng việc đánh giá chất lượng sinh trưởng rừng Các hệ số hồiquy tương ứng với biến LogDocao; LogHvn; LogDktan là: 0.614; 3.024 3.388 Tỉ số chênh biến LogDocao; LogHvn; LogDktan 1.847; 0.048 0.033 Như vậy, theo môhình này, LogDocao tăng thêm 1, số chênh tăng lên 1.847 lần Do đó, khả để chuyên gia đánh giá mức sinh trưởng trung bình cao gấp 1.847 lần có tiêu chí tương tự độ cao thấp Đối với biến LogHvn biến LogDktan, biến tăng lên đơn vị khả đánh giá sinh trưởng tốt cao có tiêu chí có chiều cao vút đường kính tán nhỏ Với biến kiểu rừng, có biến Kieu_IIIa1 ý nghĩa thống kê với xác suất ý nghĩa 0.666 Như vây, môhình không đánh giá khác biệt kiểu rừng IIIa1 với lớp chưa phân loại rừng, nhóm chưa phân loại thuộc kiểu rừng IIIa1 Các biến Kieu_IIb; Kieu_nuago Kieu_IIIa2 có hệ số hồiquy 0.57; 1.031; -0.366 với xác suất ý nghĩa nhỏ 5% Tỉ số chênh ứng với biến 0.565; 0.356 1.441 Như vậy, rừng mà thuộc hai kiểu rừng IIb kiểu nửa gỗ khả đánh giá có sinh trưởng tốt cao có cá đặc điểm khác không thuộc hai kiểu rừng Còn thuộc kiểu rừng IIIa2 khả chuyên gia đánh giá có sinh trưởng trung bình cao khác có đặc điểm sinh trưởng kiểu rừng khác 74 Đối với biến LopCuc; LopHHong; LopHMoi; LopNgLan; LopSSau; LopThuDu LopKhac, có biến LopHMoi; LopNgLan LopThuDu có ý nghĩa mặt thống kê Hệ số hồiquybiến LopHMoi; LopNgLan LopThuDu -0.745; 0.249 0.547 tương ứng với tỷ số chênh: 2.106; 0.779 0.578 Từ kết bảng trên, ta có phương trình hồiquy logit thứ tự : ) = 3.024logHvn + 3.388logDktan - 0.614logDocao + γc + Log( 0.570Kieu_IIb + 0.366Kieu_IIIa2 - 1.031Kieu_nuago + 0.745LopHMoi + 0.249LopNgLan - 0.547 LopThuDu Từ môhình trên, ta có bảng 4.7 chứa xác suất dự báo tính trạng tương ứng với biến chất lượng sinh trưởng Xác suất dự báo tính trạng môhìnhcho bảng 4.7 Bảng 4.7: Xác suất dự báo môhìnhhồiquy lấy log Mức độ sinh trưởng (ý kiến Mức độ sinh trưởng dự báo Kém Trung bình Tốt 21 123 126 0.6% 3.3% 3.4% 10 306 661 0.3% 8.3% 17.9% 263 2183 0.1% 7.1% 59.1% chuyên gia) Kém Trung bình Tốt Đối với môhình này, tỉ lệ xếp hạng tính trạng 68% Tỉ lệ xếp nhầm từ mức sinh trưởng sang hai mức sinh trưởng trung bình sinh trưởng tốt với tỉ lệ 3.3% 3.4% Tỉ lệ xếp nhầm từ mức sinh trưởng trung bình sang mức sinh trưởng tốt 17.9% Tuy nhiên, tỉ lệ xếp nhầm sinh trưởng mức sinh trưởng tốt sang mức sinh trưởng trung bình chiếm 7.1% 75 KẾT LUẬN Luận văn “Mô hìnhhồiquychobiếnđịnhtínhứng dụng” đạt kết sau Về mặt lý thuyết, luận văn giới thiệu môhìnhhồiquy tuyến tính cổ điển làm tảng, sở để xây dựngmôhìnhhồiquy với biến phụ thuộc biếnđịnhtínhmôhình với liệu nhị phân môhình với liệu thứ tự Trong môhình đưa cách thiết lập mô hình, dạng môhình phổ biến, phương pháp ước lượng kiểm định kèm theo ví dụ cụ thể Về mặt thực hành, luận văn xây dựngmôhìnhhồiquy thứ tự với liệu rừng tự nhiên nhằm mục đích nghiên cứu, đánh giá chất lượng sinh trưởng rừng Những kết thu hầu hết có ý nghĩa thực tế ảnh hưởng chiều cao, đường kính tán, độ cao có vai trò quan trọng việc đánh giá chất lượng sinh trưởng Mặc dù cố gắng hạn chế trình độ, thời gian kiến thức lâm nghiệp nên luân văn khó tránh khỏi thiếu sót Tác giả luận văn chân thành mong muốn thầy cô, chuyên gia, bạn đóng góp ý kiến để luận văn hoàn thiện 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Hùng Thắng (2010), Thống kê ứng dụng,”” NXB Khoa học kỹ thuật, Vĩnh Phúc [2] Đào Hữu Hồ (2009), Xác suất – Thống kê, NXB Đại học Quốc Gia Hà Nội, Hà Nội [3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2011), Phân tích thống kê dự báo, NXB Đại học Quốc Gia Hà Nội, Hà Nội Tiếng Anh [4] Alan Agresti (2010), Analysis of Ordinal Categorial Data, NXB Wiley, Canada [5] Ann A O’Connell (2006), Logistic regression models for ordinal response variables, NXB Sage, London [6] J Scott Long (1997), Regression models for Categorial and Limited dependent variables, NXB Cambridge University Press, London [7] S E Fienberg, D.Lievesley, J.Rolph (1999), Statistics for Social Science and Public Policy, NXB Springer, New York [8] Smita Skrivanek (2009), The Use of Dummy Variables in Regression Analysis, NXB MoreSteam [9] Walter A Shewhart and Samuel S Wilks (2013), Applied Logistic Regression, NXB Wiley, Canada 77 ... (gọi biến phụ thuộc) vào hay nhiều biến khác (gọi biến độc lập) Trong phân tích hồi quy, có hai loại biến biến định lượng biến định tính Biến định lượng biến mà giá trị quan sát số Biến định tính. .. biến định tính ứng dụng Luận văn chia làm bốn chương Chương giới thiệu mô hình hồi quy tuyến tính cổ điển với biến phụ thuộc biến định lượng, mô hình xem tảng, sở để xây dựng mô hình hồi quy. .. Trong mô hình nghiên cứu cách thành lập mô hình, số dạng mô hình phổ biến, toán ước lượng kiểm định kèm theo ví dụ minh họa Chương tiếp tục trình bày mô hình hồi quy với biến phụ thuộc biến định tính