Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vnĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG --- o0o --- VŨ THỊ LAN ANH NGHIÊN CỨU PHƯƠNG PHÁP
Trang 1Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
- o0o -
VŨ THỊ LAN ANH
NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2016
Trang 2Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
- o0o -
VŨ THỊ LAN ANH
NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA
Chuyên ngành: Khoa học máy tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học GS.TS.Vũ Đức Thi
Trang 3Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
THÁI NGUYÊN - 2016
Trang 4và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình; tiếp đến cần có sự ủng hộ về tinh thần, sự giúp đỡ về chuyên môn một trong những điều kiện không thể thiếu quyết định đến việc thành công của đề tài
Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy giáo hướng dẫn GS.TS Vũ Đức Thi, thầy đã có những định hướng cho em về nội dung và hướng phát triển, đã có những đóng góp quý báu cho em về những vấn đề chuyên môn của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn
Em xin gửi lời cảm ơn tới Tập thể cán bộ nghiên cứu nhóm thực hiện đề tài do
TS Nguyễn Long Giang Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam làm chủ nhiệm đã cung cấp đầy đủ các số liệu thu được từ Chi cục thuế
Hà Nội hỗ trợ và giúp đỡ Em tiến hành các thử nghiệm thành công
Em cũng xin cám ơn các thầy cô giáo Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ sung cho đề tài luận văn của em Xin cảm ơn gia đình, người thân cũng như đồng nghiệp luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến khi hoàn thiện đề tài này
Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót Em rất mong các Thầy cô cùng bạn bè đó góp để bản luận văn của Em được hoàn thiện hơn
Em xin trân trọng cảm ơn
Thái Nguyên, ngày 20 tháng 08 năm 2016
Sinh viên
Vũ Thị Lan Anh
Trang 5ii
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được cung cấp bởi chi cục thuế Hà Nội thực hiện năm 2014 Kết quả nghiên cứu này chưa được sử
dụng trong bất kể nghiên cứu nào khác
Thái Nguyên, ngày 20 tháng 8 năm 2016
TÁC GIẢ
Vũ Thị Lan Anh
Trang 6iii
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
MỞ ĐẦU 1
Chương 1 Tổng quan hồi quy, bài toán tính điểm rủi ro thuế 3
1.1 Kiến thức cơ bản về phân tích hồi quy 3
1.1.1 Khái niệm cơ bản về hàm nội suy 3
1.1.2 Bài toán hồi quy 8
1.2 Phát biểu bài toán phân tích điểm rủi ro 13
1.2.1 Mục tiêu của bài toán 13
1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro 13
Chương 2 Mô hình hồi quy tuyến tính 16
2.1 Mô hình hồi quy tuyến tính đơn 16
2.1.1 Vấn đề mô hình hồi quy 16
2.1.2 Ước lượng hệ số hồi quy 18
2.1.3 Tính chất của ước lượng của các hệ số hồi quy 19
2.1.4 Kiểm định giả thuyết 20
2.1.5 Khoảng tin cậy 23
2.1.6 Tính phù hợp của mô hình 27
2.1.7 Tuyến tính hóa một số mô hình 31
2.2 Mô hình hồi quy tuyến tính bội 32
2.2.1 Phương trình hồi quy 32
2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng 34
2.2.3 Kiểm định giả thuyết 35
2.2.4 Ước lượng và dự đoán 37
2.2.5 Phân tích phần dư 38
2.2.6 Sử dụng phần mềm 38
2.2.7 Lựa chọn biến và xây dựng mô hình 41
2.3 Phân tích hồi quy logistic 49
2.3.1 Mô hình hồi quy logistic 49
2.3.2 Phân tích hồi quy logistic đa thức 51
Chương 3 Bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53 3.1 Tính cấp thiết xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53
3.2 Bài toán tính điểm rủi ro của doanh nghiệp 54
3.3 Các bước xây dựng mô hình giải quyết bài toán 56
Trang 7iv
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3.3.1 Xây dựng mô hình hồi quy tuyến tính bội 57
3.3.2 Mô hình tổng thể bài toán tính điểm rủi ro cho doanh nghiệp 59
3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp 60
3.3.4 Tiền xử lý dữ liệu 61
3.4 Thử nghiệm và đánh giá kết quả 63
3.4.1 Mục tiêu thử nghiệm 63
3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm 63
3.4.3 Quy trình thử nghiệm 64
DANH MỤC TÀI LIỆU THAM KHẢO 70
PHỤ LỤC 71
Trang 8v
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Danh mục hình vẽ
Hình 2.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy 17
Hình 2.2 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm 18
Hình 2.3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường hyperbol ngoài) cho mức tiêu thụ nhiên liệu 26
Hình 2.4 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm 27
Hình 2.5 Dáng điệu phần dư 28
Hình 2.6 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo 31
Hình 2.7 Miền biến thiên của các biến hồi quy 38
Hình 2.8 Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo 41
Hình 2.9 Phần dư chuẩn hóa theo quan sát của số liệu độ tan 48
Hình 2.10 Mối liên hệ giữa logit(p) và p, cho 1<p<0 49
Trang 9vi
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Danh mục bảng
Bảng 1.1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon 16
Bảng 2.1 Phân tích phương sai để kiểm định tính hiệu quả của hồi quy 23
Bảng 2.2 Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2 30
Bảng 2.4 Số liệu cho mô hình hồi quy bội 32
Bảng 2.5 Kết quả xử lý với số liệu lực kéo dây dẫn 39
Bảng 2.6 Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3 40
Bảng 2.7 Số liệu độ tan 45
Bảng 2.8 Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ của số liệu độ tan 47
Bảng 2.9 Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng theo phương pháp cân nhắc từng bước của số liệu độ tan 48
Trang 10Vấn đề gian lận trong thuế có ảnh hưởng lớn trong nguồn thu ngân sách của các quốc gia Dựa trên phân tích dữ liệu hồi quy phân tích rủi ro nhằm phát hiện các gian lận của người nộp thuế và các doanh nghiệp tham gia đóng thuế để đưa ra quyết định thanh tra trường hợp có biểu hiện gian lận thuế Kết quả phân tích này nhằm phát hiện trường hợp gian lận đem lại lợi ích tăng nguồn thu ngân sách, thúc đẩy sự phát triển kinh
tế, xã hội của đất nước Phân tích rủi ro là một phương pháp quản lý khoa học và hiệu quả để giải quyết bài toán quản lý thuế trong điều kiện số lượng người nộp thuế ngày càng tăng lên nhanh chóng, mức độ quản lý ngày càng phức tạp do trình độ của người nộp thuế ngày càng cao, các hoạt động kinh tế phát sinh ngày càng đa dạng và phong phú dẫn đến khối lượng công việc của công tác quản lý thuế tăng lên vượt quá khả năng tăng nguồn lực bị hạn chế nhất định của các cơ quan thuế
Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp
phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra” làm luận văn tốt nghiệp thạc sỹ của mình
Nội dung chính của luận văn gồm 3 chương bao gồm
Chương 1: Luận văn trình bày cơ sở toán học trong việc xác định công thức hàm
nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trong của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí nghiệm tại các phòng thí nghiệm các kiến tức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong luận văn
Trang 112
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2: Luận văn trình bày các kiến thức cơ bản về Mô hình hồi quy tuyến
tính, một trong những mô hình đã và đang được phát triển trong công nghệ thông tin giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên Mô hình hồi quy bội chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong chương
Trang 123
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 1 TỔNG QUAN HỒI QUY, BÀI TOÁN TÍNH ĐIỂM RỦI RO THUẾ
1.1 KIẾN THỨC CƠ BẢN VỀ PHÂN TÍCH HỒI QUY
1.1.1 Khái niệm cơ bản về hàm nội suy
Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau đây
Cho trước (n+1) cặp các giá trị thực nghiệm ( , ), x yi i i = 0,1, , n
Nếu hàm ( )f x tồn ta ̣i thì hàm số đó được go ̣i là hàm hồi quy và bài toán xác đi ̣nh 𝑓(𝑥) được go ̣i là bài toán nô ̣i suy
Bài toán này rất có ý nghĩa trong thực tế vì nếu xác định được hàm 𝑓(𝑥) thì ta có thể xác đi ̣nh được mo ̣i giá tri ̣ của y ứng với mo ̣i 𝑥 = {𝑥0, 𝑥𝑛} - các giá tri ̣ đó được go ̣i là
các giá tri ̣ nô ̣i suy
Trong toán ho ̣c, người ta thường xác đi ̣nh da ̣ng hàm 𝑓(𝑥) bởi mô ̣t trong các da ̣ng công thức hàm số sau đây:
+ Đa thức đa ̣i số
+ Phân thứ c đa ̣i số
+ Đa thức lượng giác
+ Hàm ghép trơn (Spline)
Trang 13Sau đây chúng ta sẽ tìm hiểu các phương pháp xác đi ̣nh đa thức nội suy tránh được viê ̣c giải hê ̣ đại số tuyến tính
1.1.1.2 Đa thư ́ c nội suy Lagrange
Đi ̣nh nghĩa 1.1: Đa thức bâ ̣c n thỏa mãn tính chất
𝐿𝑘(𝑥) = {1, 𝑥 = 𝑥0, 𝑥 ≠ 𝑥𝑘
𝑘
Được gọi là nhân tử Lagrange
Dễ thấy rằng
Trang 14Trong đó giá trị của nhân tử L xk( )được xác định bởi công thức (1.4)
Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2)
Nếu kí hiệu ( )f x là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích,
chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức
Trang 156
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
( 1)sup n ( )
1.1.1.3 Ha ̀ m ghép trơn (Spline)
Khi sử du ̣ng đa thức nô ̣i suy, khi số mới nô ̣i suy là lớn thì dẫn tới bâ ̣c của đa thức
là rất lớn, điều này không thuâ ̣n tiê ̣n cho quá trình tính toán và sai số có thể là tăng lên Để khắc phu ̣c nhược điểm này, người ta có thể sử du ̣ng phương pháp ghép các đa thức
bậc thấp la ̣i với nhau để thu được mô ̣t đường cong trơn Hàm trơn trên toàn đoa ̣n {𝑥0, 𝑥𝑛} được go ̣i là hàm ghép trơn (Spline)
Sau đây chúng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử du ̣ng các
đa thức bâ ̣c ba S3(x) để xây dựng hàm ghép trơn bâ ̣c 3
Xét đoa ̣n 𝐷𝑖 = {𝑥𝑖−1, 𝑥𝑖}, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng
+ Điều kiện ghép trơn tại các mốc nội suy
1
1 '' ''
1
( ) ( ) ( 1, , 1)( ) ( ) ( 1, , 1)( ) ( ) ( 1, , 1)
Trang 16Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n ẩn số
Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của ( )S x tại 2
mút biên x x0, n
Chẳng hạn xét điều kiện S”(x 1 ) = S ” (x n ) = 0 được gọi là điều kiện biên tự nhiên,
khi đó ta có
c1 = 0, cn + 3dnhn = 0 (1.13) Như vậy ta có đủ 4n phương trình để xác định 4n ẩn
Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định các ẩn bi, ci, di qua hệ 3n phương trình Qua các phép biến đổi ta có hệ sau đây:
Đánh giá sai số: Nếu kí hiện ( )f x là hàm nghiệm đúng ( ) S x là hàm ghép trơn
thì có thể chứng minh rằng sai số được đánh giá qua công thức
Trang 171.1.1.4 Nội suy bằng hàm hữu tỉ
Ta xác định hàm 0
0( )
m
k k k
n
k k k
a x x
Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,
am,b0,b1,…,bn-2 Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình đại số tuyến tính với (n+m+1) ẩn
1.1.2 Bài toán hồi quy
Đặt vấn đề:
Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng 𝑥(𝑥0, 𝑥1, … , 𝑥𝑛) và 𝑦(𝑦0, 𝑦1, … , 𝑦𝑛) là tồn tại với quan hệ 𝑦 = 𝑓(𝑥) Việc xác định đa thức nội suy chẳng hạn P xn( ) còn thỏa mãn điều kiện P x n( k) f x( k)k Tuy nhiên trong trường hợp khi 𝑥 và 𝑦 là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu của các thí nghiệm hóa sinh, mối quan hệ giữa x và 𝑦 (Hay còn gọi là mối tương quan)
là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực hiện Trong những trường hợp như vậy, người ta thường sử dụng phương pháp dự đoán
Trang 189
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm như vậy được gọi là các hàm hồi quy
Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp các hàm hồi quy
1.1.2.1 Phương pháp bình phương cực tiểu
Giả sử chúng ta có ncặp các giá trị thực nghiệm ( , ), 1, 2, ,
i i
x y i = n đối với các đối tượng ngẫu nhiên x và 𝑦
1
y y2 y3 y4 …
ny
Ta cần xác định mối tương quan giữa 2 đại lượng x và 𝑦 theo công thức
Để xác định các tham số a0, a1, …, am, ta đưa ra điều kiện là tổng bình phương
độ lệch giữa giá trị thực nghiệm và giá trị hàm F , a , a , x 0 1 , am tại các điểm
Trang 1910
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tùy thuộc vào công thức của hàm F , a , a , x 0 1 , am, chúng ta sẽ thu được các dạng hàm hồi quy khác nhau Sau đây chúng ta sẽ nghiên cứu một số dạng hàm hồi quy cụ thể
1.1.2.2 Hàm hồi quy tuyến tính
Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất
Trang 202 1
2 1
k n
Trang 2112
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Lấy logarit hai vế ta có: lnF lnablnx
Các hệ số a0,a1, ,a ncũng được xác định từ điều kiện bình phương cực tiểu
Trang 22Như vậy bằng lý thuyết các hàm hồi quy, qua các bộ số liệu thực nghiệm chúng
ta có thể xác định được mối quan hệ giữa các đại lượng ngẫu nhiên một cách gần đúng thông qua các công thức của các hàm hồi quy khác nhau Các công thức này sẽ làm công
cụ để đưa ra các quy luật tự nhiên thông qua các thí nghiệm Việc xác định các công thức hàm hồi quy có thể thực hiện được bằng phương pháp bình phương cực tiểu việc tính toán có thể thực hiện được thông qua một số phần mềm
1.2 PHÁT BIỂU BÀI TOÁN PHÂN TÍCH ĐIỂM RỦI RO
1.2.1 Mục tiêu của bài toán
Xuất phát từ nhu cầu thực tế Tổng cục Thuế để đánh giá xếp loại rủi ro doanh nghiệp phục vụ công tác quản lý thuế của cơ quan thuế
- Tính điểm rủ ro doanh nghiệp hỗ trợ công tác lập kế hoạch thanh tra, kiểm tra Lựa chọn trường hợp thanh tra, kiểm tra dựa trên cơ sở điểm rủi ro đã tính
1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro
1.2.2.1 Yêu cầu chung:
Việc triển khai thực hiện các công việc nhằm đáp ứng các công việc sau đây:
Xử dụng bộ tiêu chí đánh giá xác định độ mức độ rủi ro đối với NNT do Tổng cục thuế cung cấp
Thử nghiệm bộ tiêu chí với dữ liệu lịch sử 01 Cục Thuế
Xây dựng bài toán tính điểm rủi ro dựa trên bộ tiêu chí phân tích đánh giá rủi ro nhằm hỗ trợ cơ quan thuế lập kế hoạch thanh tra, kiểm tra thuế
Trang 2314
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.2.2.2 Yêu cầu cụ thể
Tính điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100 Điểm 0
là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất
a) Nguồn thông tin phân tích, đánh giá tính điểm rủi ro được dựa trên cơ sở dữ liệu thông tin ngành thuế hiện có, cụ thể:
+ Thông tin đăng ký thuế + Thông tin từ các tờ khai thuế (GTGT, TNDN, TTĐB ) + Thông tin từ Báo cáo tài chính DN
+ Thông tin thu nộp NSNN + Thông tin về kết quả thanh tra, kiểm tra + Thông tin từ các quyết định của cơ quan thuế + Thông tin nợ thuế
+ Thông tin về tình hình thực hiện tuân thủ nghĩa vụ thuế của NNT
b) Quy trình thực hiện việc phân loại, đánh giá rủi ro NNT:
Tính điểm rủi
ro NNT
Lựa chọn các trường hợp thanh, kiểm tra
Bộ lọc
(thuộc tính)
Đầu ra
Đầu vào
Trang 2415
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 1: Sơ đồ quy trình phân loại, đánh giá rủi ro NNT
Giải thích sơ đồ:
Dữ liệu đầu vào bao gồm 16 chỉ tiêu các thông tin về người nộp thuế, lịch sử về tính tuân thủ của NNT, các quy tắc đánh giá về nghiệp vụ,
Sau khi thực hiện qua các hàm tính toán tự động các dữ liệu đầu vào, kết quả đầu
ra là danh sách NNT được đánh trọng số tương ứng với NNT Từ danh sách này
cơ quan thuế sẽ lựa chọn các trường hợp thanh tra, kiểm tra
Kết luận
Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng các hàm nội suy Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi quy Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong
chương 2 và chương 3 của luận văn
Để tìm hiểu được mối liên quan giữa bài toán tính điểm rủi ro của ngành thuế phục vụ công tác thanh tra, kiểm tra Với dữ liệu ngành thuế cung cấp bài toán tính điểm rủi ro của ngành thuế với 16 chỉ tiêu được cung cấp đều có ảnh hưởng trực tiếp đến việc tính toán điểm rủi ro cho từng doanh nghiệp, vậy mô hình dự báo đối với ngành thuế phù hợp với mô hình hồi quy tuyến tính bội vì mỗi một chỉ tiêu là một thông số cần quan tâm
Trang 2516
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2 MÔ HÌNH HỒI QUY TUYẾN TÍNH
2.1 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
2.1.1 Vấn đề mô hình hồi quy
Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc nhiều biến Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 1.1, ở đó y chỉ thị độ sạch của oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng độ phần trăm của hydrocarbon có mặt ở bình ngưng bộ phận chưng cất
Bảng 1.1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon
TT x(%) y(%) TT x(%) y(%) TT x(%) y(%)
E(Y|x) = f(x) (2.1.1)
Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y là biến ngẫu nhiên mà ứng với giá trị x của biến X thì
Y = f(x) + (2.1.2) với là sai số ngẫu nhiên
Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực
Trang 2617
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tế, khi f(x)=ax+b Khi đó (2.1.2) trở thành
Y= ax+b+ (2.1.3)
Hình 2.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy
Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; x được gọi là biến hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi (hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy, a: hệ số chặn, b: hệ
số góc; đường thẳng y= ax + b được gọi là đường hồi quy (lý thuyết)
Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a, b có lũy thừa 1); được gọi là đơn vì có một biến hồi quy
Giả sử ở quan sát thứ i biến X nhận giá trị xi , biến Y nhận giá trị yi và sai lầm ngẫu nhiên là i Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở thành
Lưu ý rằng yi là các biến ngẫu nhiên
Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép đo đạc hay các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(xi, yi)} Thông qua bộ số liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các tham số Mô hình với các
hệ số đã ước lượng được gọi là mô hình thực nghiệm (empirical model) hay mô hình lọc (filted model) Dùng mô hình thực nghiệm chúng ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển
1.6 1.4 1.2 1.0 8
Trang 2718
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.1.2 Ước lượng hệ số hồi quy
Bây giờ giả sử các biến y1, , yn nhận các giá trị cụ thể nào đó, vẫn ký hiệu là
y1, , yn Khi đó
i = yi - (axi + b) (2.1.5) thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình 2.2) Tổng bình phương các độ lệch
∑𝑛𝑖=1𝑒𝑖2 = ∑𝑛𝑖=1(𝑦𝑖− (𝑎 + 𝑏𝑥𝑖))2 thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết Ta không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để
Trang 2819
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Với các ước lượng này ta được phương trình hồi quy thực nghiệm
𝑦 = 𝑎̂𝑥𝑖+ 𝑏̂ (2.1.10) Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp bình phương cực tiểu
Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của các biến ngẫu nhiên y1, , yn nên chúng cũng đúng cho các biến ngẫu nhiên này
Dưới đây, khi áp dụng các phương trình này và khi không sợ lầm lẫn, ta không phân biệt các biến ngẫu nhiên y1, , yn với các giá trị cụ thể của chúng
2.1.3 Tính chất của ước lượng của các hệ số hồi quy
Từ (1.8) ta có ngay 𝑦̅ = 𝑎̂ + 𝑏̂𝑥̅ Như vậy, đường hồi quy đi qua điểm “trung tâm” (x, y) của số liệu
Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không cần các giả thiết về các thành phần ngẫu nhiên i Để có các tính chất tốt của ước lượng, cần có những giả thiết đặt lên các thành phần ngẫu nhiên này Giả thiết dễ chấp nhận là chúng có kỳ vọng không, cùng phương sai 2, độc lập; giả thiết tiếp sau là chúng có phân bố chuẩn:
1, ,n độc lập, cùng phân bố chuẩn N(0;2) (2.1.11) Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định lý sau
Định lý 1.1 Khi điều kiện (1.1.11) thỏa mãn thì:
a 𝑎̂ và 𝑏̂ lần lượt là ước lượng không chệch của tham số a và b:
với: 𝑦̂𝑖 = 𝑎̂ + 𝑏̂𝑥𝑖: dự báo của quan sát thứ i 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖: phần dư thứ i
Ý tưởng chứng minh phần i) dựa vào chỗ 𝑎̂ và 𝑏̂ là tổ hợp tuyến tính của các biến ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi thực hiện phép lấy kỳ
Trang 29Định nghĩa 2.2: Đối với mô hình HQTT đơn, sai số chuẩn hóa (thực nghiệm) của hệ số
góc và hệ số chặn lần lượt được xác định bởi
𝑠𝑒(𝑏̂) = √𝑎̂2
𝑆 𝑥𝑥; 𝑠𝑒(𝑎̂) = √𝜎̂2[1
𝑛+ 𝑥̅2
𝑆 𝑥𝑥] (2.1.15) trong đó, 𝜎̂2 được tính theo (2.1.14)
2.1.4 Kiểm định giả thuyết
Một khâu quan trọng để kiểm tra tính phù hợp của mô hình hồi quy là kiểm định giả thuyết Các hệ số 𝑎̂, 𝑏̂,và 𝜎̂2 là những biến ngẫu nhiên nên có thể làm một số kiểm định về chúng Ta luôn nhớ rằng điều kiện (2.1.11) phải được thỏa mãn Các đối thuyết đưa ra dưới đây đều là 2 phía Độc giả có thể đưa ra đối thuyết 1 phía với điều chỉnh thích hợp các ngưỡng phê phán
- 2 bậc tự do và độc lập với 𝑏̂ Theo Định lý 3.21, dưới giả thuyết H0 thì
Trang 3021
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
H0: b = 0 / H1: b 0 (2.1.19) Điều này liên quan đến ý nghĩa (hay tác dụng) của hồi quy (significance of regression): Nếu không bác bỏ H0 (coi b = 0) thì có nghĩa rằng không có một quan hệ tuyến tính nào giữa X và Y (có thể là quan hệ thực sự của X và Y là quan hệ phi tuyến),
sự thay đổi của biến X không kéo theo sự thay đổi dự đoán biến Y, X không có (hoặc rất ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nhất nên dùng Y
Tương tự, giả thuyết liên quan đến hệ số chặn là
H0 : a = a0 / H1 : a a0 (2.1.20) Bởi vì
Phân tích phương sai
Phương pháp phân tích phương sai được dùng để kiểm định tính hiệu quả của việc lập mô hình Trước hết, từ chỗ 𝑦𝑖− 𝑦̅ = (𝑦̂𝑖 − 𝑦̅) + (𝑦𝑖− 𝑦̂𝑖), bình phương hai vế rồi lấy tổng ta được:
∑𝑛 (𝑦𝑖− 𝑦̅)2 𝑖=1 = ∑𝑛 (𝑦̂𝑖 − 𝑦̅)2
𝑖=1 + ∑𝑛 (𝑦𝑖 − 𝑦̂𝑖)2
Chúng ta xác định các đại lượng sau đây:
Tổng bình phương đầy đủ:𝑆𝑆𝑇 = 𝑆𝑌𝑌 = ∑𝑛𝑖=1(𝑦𝑖− 𝑦̅)2,
Tổng bình phương hồi quy: 𝑆𝑆𝑅 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2,
Tổng bình phương các phần dư (các sai số):
Trang 31có phân bố F(1,n-2)
Các đại lượng MSR,MSE gọi chung là bình phương trung bình
Nói chung, bình phương trung bình được tính bằng cách lấy tổng bình phương chia cho bậc tự do của nó
Chúng ta sẽ bác bỏ H0 nếu F0 > f(1;n-2)
Trong các phần mềm thống kê, thủ tục kiểm định được trình bày ở bảng phân tích phương sai giống như Bảng 2.1
Trang 3223
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 2.1 Phân tích phương sai để kiểm định tính hiệu quả của hồi quy
Nguồn Tổng các
bình phương Bậc tự do
Bình phương trung bình F0 P- giá trị Hồi quy
Lưu ý Chứng minh được, thủ tục phân tích phương sai và thủ tục kiểm định T
cho bài toán kiểm định giả thuyết 2 phía (2.1.16) là tương đương theo nghĩa chấp nhận giả thuyết hay bác bỏ giả thuyết là đồng thời với 2 thủ tục này Tuy nhiên, kiểm định T linh động hơn, có thể xét kiểm định 1 phía, trong khi phân tích phương sai chỉ có thể xét
1 phía
2.1.5 Khoảng tin cậy
a Khoảng tin cậy của các tham số
Bởi vì các thống kê Ta, Tb ở (2.1.22), (2.1.17) có phân bố T(n –2) nên dễ dàng xây dựng khoảng tin cậy cho chúng
Với giả thiết chuẩn (2.1.11), khoảng tin cậy 100(1-)% cho hệ số chặn a và hệ
Khoảng tin cậy cho đáp ứng trung bình
Vì y0 = E[Y|x0] = a + bx0 nên một ước lượng điểm cho giá trị này là 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 Đây là ước lượng không chệch của a và b Phương sai của 𝑎̂ + 𝑏̂𝑥0 là
2[1
𝑛+ (𝑥0−𝑥̅)2
𝑆𝑋𝑋 ] Tuy nhiên, vì nhói chung chúng ta không biết 2 mà phải dùng ước
Trang 3324
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
lượng ̂2 của nó Dễ thấy rằng 𝑦̂0− 𝑦0
√ ̂2[𝑛1+ 𝑥̅2
𝑆𝑥𝑥] ~ 𝑇(𝑛 − 2) Từ đó ta có:
Khoảng tin cậy 100(1-)% cho đáp ứng trung bình khi x= x0 là (𝑦̂0±), trong
đó
{ = 𝑡⁄2(𝑛 − 2)√̂2[1
𝑛+ (𝑥0 −𝑥̅) 2
𝑆 𝑋𝑋 ]𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0
Dự đoán quan sát tương lai
Một ứng dụng quan trọng của phân tích hồi quy là dự đoán quan sát (cá biệt) của biến Y trong tương lai tại mức x0 cho trước của biến hồi quy, ký hiệu là Y|x0 hay đơn giản là Y0
Ước lượng điểm cho giá trị quan sát tương lai của biến ngẫu nhiên là giá trị trung bình của nó, ở đây là y0 = a + bx0 Các tham số a, b lại chưa biết, ta phải dùng ước lượng của chúng Vậy, ước lượng điểm cho y0 là:
𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 (2.1.28) Chú ý rằng biến ngẫu nhiên Y0 là quan sát tương lai, nó độc lập với các quan sát quá khứ y1, ,yn Cùng với các giả thiết độc lập, cùng phân bố chuẩn của các sai số, sai
số dự đoán 𝑒0 = 𝑌0− 𝑦̂0 có phân bố chuẩn quy tâm, phương sai
𝑉[𝑒0] = 𝑉[𝑌0] + 𝑉[𝑦̂0] = 2[1 + 1
𝑛+ (𝑥0−𝑥0)2
𝑆𝑋𝑋 ]
Giống như trên, ta tìm được khoảng tin cậy (còn gọi là khoảng dự đoán)
100(1-)% cho quan sát tương lại Y0 tại x0 là (𝑦̂0±∗) với
{∗= 𝑡⁄2(𝑛 − 2)√̂2[1 + 1
𝑛 + (𝑥0 −𝑥̅)2
𝑆 𝑋𝑋 ]𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0
, (2.1.29)
Nhận xét Cả hai khoảng (1.1.27) và (1.1.29) đều đạt cực tiểu tại x0 = 𝑥̅ và rộng dần khi x0 đi ra xa x Mặt khác, với cùng mức ý nghĩa, cùng xét tại điểm x0 , khoảng dự đoán luôn luôn rộng hơn khoảng tin cậy Chúng ta sẽ thấy rõ hơn hiện tượng này ở ví
dụ sau
Ví dụ 1.1 Thông thường, người ta vẫn nghĩ mức tiêu thụ nhiên liệu không phụ
thuộc vào việc lái xe nhanh hay chậm Để kiểm tra người ta cho chạy thử một chiếc xe
Trang 3425
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
con ở nhiều vận tốc khác nhau từ 45 đến 70 dặm/giờ Kết quả ghi thành bảng
Chúng ta xét mô hình hồi quy tuyến tính đơn Y = a + bx + , trong đó Y là mức tiêu thụ nhiên liệu, x là vận tốc xe Cần phải xét xem hệ số b có bằng không hay không Muốn thế ta xét bài toán kiểm định:
H0 : b = 0/H1 : b 0 Tính toán các thống kê liên quan ta được
𝑥̅ = 60; 𝑆𝑥𝑥 = 700; 𝑦̅ = 22,757; 𝑆𝑌𝑌 = 21,757; 𝑆𝑌𝑌 = −119 𝑎̂ = 32,543; 𝑏̂ = -0.17; SSR = 1.527
𝑇𝑏 = |𝑏̂ − 𝑏0|
√𝜎̂2/𝑆𝑋𝑋 =
|−0.17|
√0,305426700
Trang 35hyperbol giữa, của khoảng dự báo tạo thành 2 đường hyperbol ngoài ở Hình 2.3 Một
lần nữa ta thấy khoảng tin cậy cho giá trị trung bình của quan sát là hẹp hơn
Hình 2.3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường
hyperbol ngoài) cho mức tiêu thụ nhiên liệu Lưu ý khi sử dụng mô hình hồi quy
Trường hợp nội suy Nói chung, sau những kiểm định cần thiết, chúng ta có thể
sử dụng mô hình hồi quy thực nghiệm (2.1.10) để làm một số dự đoán “nội suy” Cụ thể
là, khi X nhận giá trị x0 nằm trong dải biến thiên [a;b] của số liệu, giá trị dự đoán của
trung bình, cũng như giá trị quan sát tương lai của biến đầu ra sẽ là 𝑎̂ + 𝑏̂𝑥0… Sự chính
xác của các công thức này đã chỉ ra ở phần b) và c)
Trường hợp ngoại suy Sử dụng phương trình hồi quy để dự đoán giá trị của biến
Y ứng với những giá trị của biến đầu vào X nằm ngoài dải biến thiên của số liệu gọi là
dự đoán ngoại suy Tuy nhiên, ở ngoài dải biến thiên của số liệu, các giả thiết về mô
hình, thậm chí là quan hệ E[Y|X = x] = ax + b có thể không còn đúng Vì thế, dự đoán
với sai lầm đáng kể có thể gây ra từ ngoại suy
Trang 3627
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.4 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm
Một cách khắc phục là lấy thêm quan sát (làm thêm thí nghiệm) để dải biến thiên rộng ra, chứa điểm ta quan tâm Tuy nhiên trong kỹ thuật, nhiều khi ngoại suy là cách duy nhất mà ta có thể tiệm cận vấn đề Cần lưu ý rằng ta nên áp dụng nó một cách mềm mỏng, với x0 không xa dải biến thiên [a; b], ta vẫn có thể có kết quả khả dĩ Tóm lại, ta chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết, chưa thể có đủ số liệu và không còn cách nào khác
2.1.6 Tính phù hợp của mô hình
a Phân tích phần dư
Bước khởi đầu của phân tích hồi quy là dựng đồ thị rải điểm của quan sát Nếu dáng điệu đồ thị tập trung quanh 1 đường thẳng nào đó, chúng ta sẽ đi tìm các hệ số a,
b Tuy nhiên, việc lập mô hình phải dựa vào các giả thiết chuẩn (2.1.11) Vì các phần
dư ei = yi - 𝑦̂i đại diện tốt cho các sai số i , người ta thường dùng phân tích phần dư để kiểm tra xem mô hình có phù hợp hay không
Các phần dư phải tuân theo phân bố chuẩn Một phương pháp kiểm tra xấp xỉ tính chuẩn là lập tổ chức đồ khi số quan sát n lớn, hoặc lập đồ thị P - P chuẩn khi n nhỏ
Người ta cũng hay dùng các phần dư chuẩn hóa 𝑑𝑖 = 𝑒𝑖⁄√̂2, i = 1, n Nếu các sai số có phân bố chuẩn, có khoảng 95% các phần dư chuẩn hóa rơi vào khoảng (-2; 2) (nếu Z N(0;1) thì P{-2 < Z < 2} = 0,95) Hơn nữa, đồ thị di phải có dạng bình thường, tập trung “đều đặn” trong dải (-2; 2) quanh trục hoành như dạng (a) ở Hình 2.5 Vi phạm điều đó, chẳng hạn nếu nó có dạng (b), (c), (d) thì phải sửa chữa mô hình, hay tìm mô hình khác và phân tích lại
Bởi vì {i,i =1, ,n} là dãy các biến ngẫu nhiên độc lập thì khi sắp xếp chúng theo
Trang 3728
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thứ tự bất kỳ vẫn được dãy các biến ngẫu nhiên độc lập Chúng ta vừa nói đến dãy phần
dư di theo chiều tăng của chỉ số thời gian i Người ta cũng lập dãy phần dư theo chiều tăng của xi hay của 𝑦̂𝑖
Nếu một trong các đồ thị đó có dạng (b) thì phương sai của sai số tăng lên theo thời gian (theo chiều tăng của xi hay của 𝑦̂𝑖), xảy ra (c) thì phương sai của sai số thay đổi, xảy ra (d) thì cần thêm một số hạng bậc cao hơn vào mô hình đa thức hay phải tìm
% độ biến động trong số liệu
Gọi rXY là hệ số tương quan mẫu của các cặp điểm (xi,yi) thì ta có thể thấy
R2 = rXY2 (2.1.30’)
Như vậy, nếu coi X là biến ngẫu nhiên thì hệ số xác định R2 chính bằng bình
Trang 3829
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
phương của hệ số tương quan mẫu giữa X và Y Tuy nhiên chúng ta vẫn viết hệ số xác định là R2 mà không phải rXY2 vì X không là biến ngẫu nhiên
Giá trị R2 thường được xem như một chỉ thị cho tính “tốt” của mô hình: Khi giá trị này gần bằng 1, mô hình phù hợp tốt; khi giá trị này nhỏ, gần bằng 0, mô hình không phù hợp với số liệu, cần tìm mô hình khác Tuy nhiên, cần thận trọng, ngưỡng nào cho một mô hình cụ thể lại là điều ta chưa biết, ít ra là đến thời điểm này
Ví dụ 2.2 Trong nhà máy sản xuất các linh kiện bán dẫn, linh kiện hoàn chỉnh là
dây được bó xếp lại thành một cái khung Người ta quan tâm đến 3 biến: lực kéo (số đo của lực làm cho khung bị hỏng), độ dài của dây, và chiều cao của khuôn đúc Số liệu có
25 quan sát thể hiện ở 4 cột đầu Bảng 2.5
Trước hết ta quan tâm đến mối quan hệ giữa lực kéo y và độ dài x1 của dây, ở đây để tiện ta vẫn ký hiệu là x Thể hiện số liệu lên đồ thị, dường như đây là quan hệ tuyến tính Chúng ta dùng mô hình Y = ax +b + để lọc số liệu Ta tính được:
𝑥̅ = 1
𝑛∑𝑛𝑖=1𝑥𝑖 = 8,24; 𝑆𝑋𝑋 = ∑𝑛𝑖=1(𝑥𝑖− 𝑥̅)2 = 698,56 𝑦̅ = 1
𝑛∑𝑛𝑖=1𝑦𝑖 = 29,0328; 𝑥𝑦̅̅̅ =1
𝑛∑𝑛𝑖=1𝑥𝑖𝑦𝑖 =320,3388;
(𝜎𝑦𝑛)2 =1
𝑛∑𝑛 (𝑦𝑖− 𝑦̅)2 𝑖=1 = 224,237
Từ đó ước lượng của các hệ số là:
𝑏̂ = 𝑥𝑦̅̅̅̅−𝑥̅𝑦̅
𝑆 𝑋𝑋 /𝑛 = 2,9027; 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅ = 5,115
Ta thu được phương trình:
Ước lượng của 2 có thể tính theo ̂2 = 1
𝑛−2∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖)2 Tuy nhiên trước hết
ta tìm hệ số xác định:
𝑅2 =𝑆𝑆𝑅
𝑆𝑆 𝑇 =(∑ (𝑦̂𝑖−𝑦̅)2
𝑛 𝑖=1 ) (∑ 𝑛 (𝑦𝑖−𝑦̅) 2 𝑖=1 ) = 0.964 Đây là giá trị khá lớn Ta nói có 96,4% số liệu được giải thích bởi mô hình Theo (2.1.31) thì
𝜎̂2 = 1
𝑛 − 2∑(𝑦𝑖− 𝑦̂𝑖)2 = 𝑛
𝑛 − 2(1 − 𝑅2)(𝑦𝜎𝑛)2 = 9,5696 = 3,09342 𝑛
𝑖=1
Trang 3930
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bây giờ ta kiểm định hệ số b = 0 Theo (2.1.15),
P – giá trị của phân bố Student 23 bậc tự do ứng với giá trị 24,80 là 0,000 Vậy
Bảng 2.2 Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2
Trang 4031
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Constant 5.115 1.146 4.464 .000 2.744 7.485 X1 2.903 .117 24.801 .000 2.661 3.145
Ta lập đồ thị rải điểm của các phần dư chuẩn hóa di =ei /̂ theo 𝑦̂𝑖 như Hình 2.6 Nhìn vào đồ thị ta thấy có 1 số liệu nằm ngoài dải [-2; 2] Phần dư chuẩn hóa phân bố khá đều đặn trong dải [-2; 2], duy chỉ có 1 giá trị nằm ngoài dải này (tỷ lệ vi phạm là 1/25, nhỏ hơn 5% nên chấp nhận được)
Hình 2.6 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo
2.1.7 Tuyến tính hóa một số mô hình
Dùng phép biến đổi loga với biến hồi quy hay biến phản hồi, hoặc với cả hai, dùng phép nghịch đảo với biến hồi quy , ta có thể đưa một số mô hình về dạng tuyến tính
Hồi quy logarith y = a + b.ln x
Hồi quy mũ y = a.eb.x ( ln y = lna + bln x)
Hồi quy lũy thừa y = a.xb ( ln y = lna + bln x)
Hồi quy nghịch đảo y = a + b.(1/ x)
-3 -2 -1