Nghiên cứu phương pháp phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vnĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG --- o0o --- VŨ THỊ LAN ANH NGHIÊN CỨU PHƯƠNG PHÁP

Trang 1

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

- o0o -

VŨ THỊ LAN ANH

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP

THUẾ PHỤC VỤ THANH TRA

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

- o0o -

VŨ THỊ LAN ANH

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP

THUẾ PHỤC VỤ THANH TRA

Chuyên ngành: Khoa học máy tính

Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học GS.TS.Vũ Đức Thi

Trang 3

THÁI NGUYÊN - 2016

Trang 4

và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình; tiếp đến cần có sự ủng hộ về tinh thần, sự giúp đỡ về chuyên môn một trong những điều kiện không thể thiếu quyết định đến việc thành công của đề tài

Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy giáo hướng dẫn GS.TS Vũ Đức Thi, thầy đã có những định hướng cho em về nội dung và hướng phát triển, đã có những đóng góp quý báu cho em về những vấn đề chuyên môn của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn

Em xin gửi lời cảm ơn tới Tập thể cán bộ nghiên cứu nhóm thực hiện đề tài do

TS Nguyễn Long Giang Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam làm chủ nhiệm đã cung cấp đầy đủ các số liệu thu được từ Chi cục thuế

Hà Nội hỗ trợ và giúp đỡ Em tiến hành các thử nghiệm thành công

Em cũng xin cám ơn các thầy cô giáo Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ sung cho đề tài luận văn của em Xin cảm ơn gia đình, người thân cũng như đồng nghiệp luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến khi hoàn thiện đề tài này

Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót Em rất mong các Thầy cô cùng bạn bè đó góp để bản luận văn của Em được hoàn thiện hơn

Em xin trân trọng cảm ơn

Thái Nguyên, ngày 20 tháng 08 năm 2016

Sinh viên

Vũ Thị Lan Anh

Trang 5

ii

LỜI CAM ĐOAN

Em xin cam đoan đây là công trình nghiên cứu của riêng em

Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được cung cấp bởi chi cục thuế Hà Nội thực hiện năm 2014 Kết quả nghiên cứu này chưa được sử

dụng trong bất kể nghiên cứu nào khác

Thái Nguyên, ngày 20 tháng 8 năm 2016

TÁC GIẢ

Vũ Thị Lan Anh

Trang 6

iii

MỤC LỤC

MỞ ĐẦU 1

Chương 1 Tổng quan hồi quy, bài toán tính điểm rủi ro thuế 3

1.1 Kiến thức cơ bản về phân tích hồi quy 3

1.1.1 Khái niệm cơ bản về hàm nội suy 3

1.1.2 Bài toán hồi quy 8

1.2 Phát biểu bài toán phân tích điểm rủi ro 13

1.2.1 Mục tiêu của bài toán 13

1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro 13

Chương 2 Mô hình hồi quy tuyến tính 16

2.1 Mô hình hồi quy tuyến tính đơn 16

2.1.1 Vấn đề mô hình hồi quy 16

2.1.2 Ước lượng hệ số hồi quy 18

2.1.3 Tính chất của ước lượng của các hệ số hồi quy 19

2.1.4 Kiểm định giả thuyết 20

2.1.5 Khoảng tin cậy 23

2.1.6 Tính phù hợp của mô hình 27

2.1.7 Tuyến tính hóa một số mô hình 31

2.2 Mô hình hồi quy tuyến tính bội 32

2.2.1 Phương trình hồi quy 32

2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng 34

2.2.3 Kiểm định giả thuyết 35

2.2.4 Ước lượng và dự đoán 37

2.2.5 Phân tích phần dư 38

2.2.6 Sử dụng phần mềm 38

2.2.7 Lựa chọn biến và xây dựng mô hình 41

2.3 Phân tích hồi quy logistic 49

2.3.1 Mô hình hồi quy logistic 49

2.3.2 Phân tích hồi quy logistic đa thức 51

Chương 3 Bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53 3.1 Tính cấp thiết xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53

3.2 Bài toán tính điểm rủi ro của doanh nghiệp 54

3.3 Các bước xây dựng mô hình giải quyết bài toán 56

Trang 7

iv

3.3.1 Xây dựng mô hình hồi quy tuyến tính bội 57

3.3.2 Mô hình tổng thể bài toán tính điểm rủi ro cho doanh nghiệp 59

3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp 60

3.3.4 Tiền xử lý dữ liệu 61

3.4 Thử nghiệm và đánh giá kết quả 63

3.4.1 Mục tiêu thử nghiệm 63

3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm 63

3.4.3 Quy trình thử nghiệm 64

DANH MỤC TÀI LIỆU THAM KHẢO 70

PHỤ LỤC 71

Trang 8

v

Danh mục hình vẽ

Hình 2.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy 17

Hình 2.2 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm 18

Hình 2.3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường hyperbol ngoài) cho mức tiêu thụ nhiên liệu 26

Hình 2.4 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm 27

Hình 2.5 Dáng điệu phần dư 28

Hình 2.6 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo 31

Hình 2.7 Miền biến thiên của các biến hồi quy 38

Hình 2.8 Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo 41

Hình 2.9 Phần dư chuẩn hóa theo quan sát của số liệu độ tan 48

Hình 2.10 Mối liên hệ giữa logit(p) và p, cho 1<p<0 49

Trang 9

vi

Danh mục bảng

Bảng 1.1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon 16

Bảng 2.1 Phân tích phương sai để kiểm định tính hiệu quả của hồi quy 23

Bảng 2.2 Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2 30

Bảng 2.4 Số liệu cho mô hình hồi quy bội 32

Bảng 2.5 Kết quả xử lý với số liệu lực kéo dây dẫn 39

Bảng 2.6 Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3 40

Bảng 2.7 Số liệu độ tan 45

Bảng 2.8 Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ của số liệu độ tan 47

Bảng 2.9 Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng theo phương pháp cân nhắc từng bước của số liệu độ tan 48

Trang 10

Vấn đề gian lận trong thuế có ảnh hưởng lớn trong nguồn thu ngân sách của các quốc gia Dựa trên phân tích dữ liệu hồi quy phân tích rủi ro nhằm phát hiện các gian lận của người nộp thuế và các doanh nghiệp tham gia đóng thuế để đưa ra quyết định thanh tra trường hợp có biểu hiện gian lận thuế Kết quả phân tích này nhằm phát hiện trường hợp gian lận đem lại lợi ích tăng nguồn thu ngân sách, thúc đẩy sự phát triển kinh

tế, xã hội của đất nước Phân tích rủi ro là một phương pháp quản lý khoa học và hiệu quả để giải quyết bài toán quản lý thuế trong điều kiện số lượng người nộp thuế ngày càng tăng lên nhanh chóng, mức độ quản lý ngày càng phức tạp do trình độ của người nộp thuế ngày càng cao, các hoạt động kinh tế phát sinh ngày càng đa dạng và phong phú dẫn đến khối lượng công việc của công tác quản lý thuế tăng lên vượt quá khả năng tăng nguồn lực bị hạn chế nhất định của các cơ quan thuế

Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp

phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra” làm luận văn tốt nghiệp thạc sỹ của mình

Nội dung chính của luận văn gồm 3 chương bao gồm

Chương 1: Luận văn trình bày cơ sở toán học trong việc xác định công thức hàm

nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trong của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí nghiệm tại các phòng thí nghiệm các kiến tức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong luận văn

Trang 11

2

Chương 2: Luận văn trình bày các kiến thức cơ bản về Mô hình hồi quy tuyến

tính, một trong những mô hình đã và đang được phát triển trong công nghệ thông tin giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên Mô hình hồi quy bội chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong chương

Trang 12

3

Chương 1 TỔNG QUAN HỒI QUY, BÀI TOÁN TÍNH ĐIỂM RỦI RO THUẾ

1.1 KIẾN THỨC CƠ BẢN VỀ PHÂN TÍCH HỒI QUY

1.1.1 Khái niệm cơ bản về hàm nội suy

Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau đây

Cho trước (n+1) cặp các giá trị thực nghiệm ( , ), x yi i i = 0,1, , n

Nếu hàm ( )f x tồn ta ̣i thì hàm số đó được go ̣i là hàm hồi quy và bài toán xác đi ̣nh 𝑓(𝑥) được go ̣i là bài toán nô ̣i suy

Bài toán này rất có ý nghĩa trong thực tế vì nếu xác định được hàm 𝑓(𝑥) thì ta có thể xác đi ̣nh được mo ̣i giá tri ̣ của y ứng với mo ̣i 𝑥 = {𝑥0, 𝑥𝑛} - các giá tri ̣ đó được go ̣i là

các giá tri ̣ nô ̣i suy

Trong toán ho ̣c, người ta thường xác đi ̣nh da ̣ng hàm 𝑓(𝑥) bởi mô ̣t trong các da ̣ng công thức hàm số sau đây:

+ Đa thức đa ̣i số

+ Phân thứ c đa ̣i số

+ Đa thức lượng giác

+ Hàm ghép trơn (Spline)

Trang 13

Sau đây chúng ta sẽ tìm hiểu các phương pháp xác đi ̣nh đa thức nội suy tránh được viê ̣c giải hê ̣ đại số tuyến tính

1.1.1.2 Đa thư ́ c nội suy Lagrange

Đi ̣nh nghĩa 1.1: Đa thức bâ ̣c n thỏa mãn tính chất

𝐿𝑘(𝑥) = {1, 𝑥 = 𝑥0, 𝑥 ≠ 𝑥𝑘

𝑘

Được gọi là nhân tử Lagrange

Dễ thấy rằng

Trang 14

Trong đó giá trị của nhân tử L xk( )được xác định bởi công thức (1.4)

Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2)

Nếu kí hiệu ( )f x là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích,

chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức

Trang 15

6

( 1)sup n ( )

1.1.1.3 Ha ̀ m ghép trơn (Spline)

Khi sử du ̣ng đa thức nô ̣i suy, khi số mới nô ̣i suy là lớn thì dẫn tới bâ ̣c của đa thức

là rất lớn, điều này không thuâ ̣n tiê ̣n cho quá trình tính toán và sai số có thể là tăng lên Để khắc phu ̣c nhược điểm này, người ta có thể sử du ̣ng phương pháp ghép các đa thức

bậc thấp la ̣i với nhau để thu được mô ̣t đường cong trơn Hàm trơn trên toàn đoa ̣n {𝑥0, 𝑥𝑛} được go ̣i là hàm ghép trơn (Spline)

Sau đây chúng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử du ̣ng các

đa thức bâ ̣c ba S3(x) để xây dựng hàm ghép trơn bâ ̣c 3

Xét đoa ̣n 𝐷𝑖 = {𝑥𝑖−1, 𝑥𝑖}, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng

+ Điều kiện ghép trơn tại các mốc nội suy

1

1 '' ''

1

( ) ( ) ( 1, , 1)( ) ( ) ( 1, , 1)( ) ( ) ( 1, , 1)

Trang 16

Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n ẩn số

Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của ( )S x tại 2

mút biên x x0, n

Chẳng hạn xét điều kiện S”(x 1 ) = S ” (x n ) = 0 được gọi là điều kiện biên tự nhiên,

khi đó ta có

c1 = 0, cn + 3dnhn = 0 (1.13) Như vậy ta có đủ 4n phương trình để xác định 4n ẩn

Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định các ẩn bi, ci, di qua hệ 3n phương trình Qua các phép biến đổi ta có hệ sau đây:

Đánh giá sai số: Nếu kí hiện ( )f x là hàm nghiệm đúng ( ) S x là hàm ghép trơn

thì có thể chứng minh rằng sai số được đánh giá qua công thức

Trang 17

1.1.1.4 Nội suy bằng hàm hữu tỉ

Ta xác định hàm 0

0( )

m

k k k

n

k k k

a x x

Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,

am,b0,b1,…,bn-2 Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình đại số tuyến tính với (n+m+1) ẩn

1.1.2 Bài toán hồi quy

Đặt vấn đề:

Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng 𝑥(𝑥0, 𝑥1, … , 𝑥𝑛) và 𝑦(𝑦0, 𝑦1, … , 𝑦𝑛) là tồn tại với quan hệ 𝑦 = 𝑓(𝑥) Việc xác định đa thức nội suy chẳng hạn P xn( ) còn thỏa mãn điều kiện P x n( k) f x( k)k Tuy nhiên trong trường hợp khi 𝑥 và 𝑦 là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu của các thí nghiệm hóa sinh, mối quan hệ giữa x và 𝑦 (Hay còn gọi là mối tương quan)

là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực hiện Trong những trường hợp như vậy, người ta thường sử dụng phương pháp dự đoán

Trang 18

9

tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm như vậy được gọi là các hàm hồi quy

Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp các hàm hồi quy

1.1.2.1 Phương pháp bình phương cực tiểu

Giả sử chúng ta có ncặp các giá trị thực nghiệm ( , ), 1, 2, ,

i i

x y i = n đối với các đối tượng ngẫu nhiên x và 𝑦

1

y y2 y3 y4 …

ny

Ta cần xác định mối tương quan giữa 2 đại lượng x và 𝑦 theo công thức

Để xác định các tham số a0, a1, …, am, ta đưa ra điều kiện là tổng bình phương

độ lệch giữa giá trị thực nghiệm và giá trị hàm F , a , a ,  x 0 1  , am tại các điểm

Trang 19

10

Tùy thuộc vào công thức của hàm F , a , a ,  x 0 1  , am, chúng ta sẽ thu được các dạng hàm hồi quy khác nhau Sau đây chúng ta sẽ nghiên cứu một số dạng hàm hồi quy cụ thể

1.1.2.2 Hàm hồi quy tuyến tính

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất

Trang 20

2 1

k n

Trang 21

12

Lấy logarit hai vế ta có: lnF  lnablnx

Các hệ số a0,a1, ,a ncũng được xác định từ điều kiện bình phương cực tiểu

Trang 22

Như vậy bằng lý thuyết các hàm hồi quy, qua các bộ số liệu thực nghiệm chúng

ta có thể xác định được mối quan hệ giữa các đại lượng ngẫu nhiên một cách gần đúng thông qua các công thức của các hàm hồi quy khác nhau Các công thức này sẽ làm công

cụ để đưa ra các quy luật tự nhiên thông qua các thí nghiệm Việc xác định các công thức hàm hồi quy có thể thực hiện được bằng phương pháp bình phương cực tiểu việc tính toán có thể thực hiện được thông qua một số phần mềm

1.2 PHÁT BIỂU BÀI TOÁN PHÂN TÍCH ĐIỂM RỦI RO

1.2.1 Mục tiêu của bài toán

Xuất phát từ nhu cầu thực tế Tổng cục Thuế để đánh giá xếp loại rủi ro doanh nghiệp phục vụ công tác quản lý thuế của cơ quan thuế

- Tính điểm rủ ro doanh nghiệp hỗ trợ công tác lập kế hoạch thanh tra, kiểm tra Lựa chọn trường hợp thanh tra, kiểm tra dựa trên cơ sở điểm rủi ro đã tính

1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro

1.2.2.1 Yêu cầu chung:

Việc triển khai thực hiện các công việc nhằm đáp ứng các công việc sau đây:

 Xử dụng bộ tiêu chí đánh giá xác định độ mức độ rủi ro đối với NNT do Tổng cục thuế cung cấp

 Thử nghiệm bộ tiêu chí với dữ liệu lịch sử 01 Cục Thuế

 Xây dựng bài toán tính điểm rủi ro dựa trên bộ tiêu chí phân tích đánh giá rủi ro nhằm hỗ trợ cơ quan thuế lập kế hoạch thanh tra, kiểm tra thuế

Trang 23

14

1.2.2.2 Yêu cầu cụ thể

Tính điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100 Điểm 0

là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất

a) Nguồn thông tin phân tích, đánh giá tính điểm rủi ro được dựa trên cơ sở dữ liệu thông tin ngành thuế hiện có, cụ thể:

+ Thông tin đăng ký thuế + Thông tin từ các tờ khai thuế (GTGT, TNDN, TTĐB ) + Thông tin từ Báo cáo tài chính DN

+ Thông tin thu nộp NSNN + Thông tin về kết quả thanh tra, kiểm tra + Thông tin từ các quyết định của cơ quan thuế + Thông tin nợ thuế

+ Thông tin về tình hình thực hiện tuân thủ nghĩa vụ thuế của NNT

b) Quy trình thực hiện việc phân loại, đánh giá rủi ro NNT:

Tính điểm rủi

ro NNT

Lựa chọn các trường hợp thanh, kiểm tra

Bộ lọc

(thuộc tính)

Đầu ra

Đầu vào

Trang 24

15

Hình 1: Sơ đồ quy trình phân loại, đánh giá rủi ro NNT

Giải thích sơ đồ:

 Dữ liệu đầu vào bao gồm 16 chỉ tiêu các thông tin về người nộp thuế, lịch sử về tính tuân thủ của NNT, các quy tắc đánh giá về nghiệp vụ,

 Sau khi thực hiện qua các hàm tính toán tự động các dữ liệu đầu vào, kết quả đầu

ra là danh sách NNT được đánh trọng số tương ứng với NNT Từ danh sách này

cơ quan thuế sẽ lựa chọn các trường hợp thanh tra, kiểm tra

Kết luận

Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng các hàm nội suy Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi quy Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong

chương 2 và chương 3 của luận văn

Để tìm hiểu được mối liên quan giữa bài toán tính điểm rủi ro của ngành thuế phục vụ công tác thanh tra, kiểm tra Với dữ liệu ngành thuế cung cấp bài toán tính điểm rủi ro của ngành thuế với 16 chỉ tiêu được cung cấp đều có ảnh hưởng trực tiếp đến việc tính toán điểm rủi ro cho từng doanh nghiệp, vậy mô hình dự báo đối với ngành thuế phù hợp với mô hình hồi quy tuyến tính bội vì mỗi một chỉ tiêu là một thông số cần quan tâm

Trang 25

16

Chương 2 MÔ HÌNH HỒI QUY TUYẾN TÍNH

2.1 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

2.1.1 Vấn đề mô hình hồi quy

Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc nhiều biến Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 1.1, ở đó y chỉ thị độ sạch của oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng độ phần trăm của hydrocarbon có mặt ở bình ngưng bộ phận chưng cất

Bảng 1.1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon

TT x(%) y(%) TT x(%) y(%) TT x(%) y(%)

E(Y|x) = f(x) (2.1.1)

Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y là biến ngẫu nhiên mà ứng với giá trị x của biến X thì

Y = f(x) +  (2.1.2) với  là sai số ngẫu nhiên

Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực

Trang 26

17

tế, khi f(x)=ax+b Khi đó (2.1.2) trở thành

Y= ax+b+  (2.1.3)

Hình 2.1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy

Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; x được gọi là biến hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi (hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy, a: hệ số chặn, b: hệ

số góc; đường thẳng y= ax + b được gọi là đường hồi quy (lý thuyết)

Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a, b có lũy thừa 1); được gọi là đơn vì có một biến hồi quy

Giả sử ở quan sát thứ i biến X nhận giá trị xi , biến Y nhận giá trị yi và sai lầm ngẫu nhiên là i Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở thành

Lưu ý rằng yi là các biến ngẫu nhiên

Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép đo đạc hay các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(xi, yi)} Thông qua bộ số liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các tham số Mô hình với các

hệ số đã ước lượng được gọi là mô hình thực nghiệm (empirical model) hay mô hình lọc (filted model) Dùng mô hình thực nghiệm chúng ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển

1.6 1.4 1.2 1.0 8

Trang 27

18

2.1.2 Ước lượng hệ số hồi quy

Bây giờ giả sử các biến y1, , yn nhận các giá trị cụ thể nào đó, vẫn ký hiệu là

y1, , yn Khi đó

i = yi - (axi + b) (2.1.5) thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình 2.2) Tổng bình phương các độ lệch

∑𝑛𝑖=1𝑒𝑖2 = ∑𝑛𝑖=1(𝑦𝑖− (𝑎 + 𝑏𝑥𝑖))2 thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết Ta không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để

Trang 28

19

Với các ước lượng này ta được phương trình hồi quy thực nghiệm

𝑦 = 𝑎̂𝑥𝑖+ 𝑏̂ (2.1.10) Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp bình phương cực tiểu

Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của các biến ngẫu nhiên y1, , yn nên chúng cũng đúng cho các biến ngẫu nhiên này

Dưới đây, khi áp dụng các phương trình này và khi không sợ lầm lẫn, ta không phân biệt các biến ngẫu nhiên y1, , yn với các giá trị cụ thể của chúng

2.1.3 Tính chất của ước lượng của các hệ số hồi quy

Từ (1.8) ta có ngay 𝑦̅ = 𝑎̂ + 𝑏̂𝑥̅ Như vậy, đường hồi quy đi qua điểm “trung tâm” (x, y) của số liệu

Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không cần các giả thiết về các thành phần ngẫu nhiên i Để có các tính chất tốt của ước lượng, cần có những giả thiết đặt lên các thành phần ngẫu nhiên này Giả thiết dễ chấp nhận là chúng có kỳ vọng không, cùng phương sai 2, độc lập; giả thiết tiếp sau là chúng có phân bố chuẩn:

1, ,n độc lập, cùng phân bố chuẩn N(0;2) (2.1.11) Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định lý sau

Định lý 1.1 Khi điều kiện (1.1.11) thỏa mãn thì:

a 𝑎̂ và 𝑏̂ lần lượt là ước lượng không chệch của tham số a và b:

với: 𝑦̂𝑖 = 𝑎̂ + 𝑏̂𝑥𝑖: dự báo của quan sát thứ i 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖: phần dư thứ i

Ý tưởng chứng minh phần i) dựa vào chỗ 𝑎̂ và 𝑏̂ là tổ hợp tuyến tính của các biến ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi thực hiện phép lấy kỳ

Trang 29

Định nghĩa 2.2: Đối với mô hình HQTT đơn, sai số chuẩn hóa (thực nghiệm) của hệ số

góc và hệ số chặn lần lượt được xác định bởi

𝑠𝑒(𝑏̂) = √𝑎̂2

𝑆 𝑥𝑥; 𝑠𝑒(𝑎̂) = √𝜎̂2[1

𝑛+ 𝑥̅2

𝑆 𝑥𝑥] (2.1.15) trong đó, 𝜎̂2 được tính theo (2.1.14)

2.1.4 Kiểm định giả thuyết

Một khâu quan trọng để kiểm tra tính phù hợp của mô hình hồi quy là kiểm định giả thuyết Các hệ số 𝑎̂, 𝑏̂,và 𝜎̂2 là những biến ngẫu nhiên nên có thể làm một số kiểm định về chúng Ta luôn nhớ rằng điều kiện (2.1.11) phải được thỏa mãn Các đối thuyết đưa ra dưới đây đều là 2 phía Độc giả có thể đưa ra đối thuyết 1 phía với điều chỉnh thích hợp các ngưỡng phê phán

- 2 bậc tự do và độc lập với 𝑏̂ Theo Định lý 3.21, dưới giả thuyết H0 thì

Trang 30

21

H0: b = 0 / H1: b  0 (2.1.19) Điều này liên quan đến ý nghĩa (hay tác dụng) của hồi quy (significance of regression): Nếu không bác bỏ H0 (coi b = 0) thì có nghĩa rằng không có một quan hệ tuyến tính nào giữa X và Y (có thể là quan hệ thực sự của X và Y là quan hệ phi tuyến),

sự thay đổi của biến X không kéo theo sự thay đổi dự đoán biến Y, X không có (hoặc rất ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nhất nên dùng Y

Tương tự, giả thuyết liên quan đến hệ số chặn là

H0 : a = a0 / H1 : a  a0 (2.1.20) Bởi vì

Phân tích phương sai

Phương pháp phân tích phương sai được dùng để kiểm định tính hiệu quả của việc lập mô hình Trước hết, từ chỗ 𝑦𝑖− 𝑦̅ = (𝑦̂𝑖 − 𝑦̅) + (𝑦𝑖− 𝑦̂𝑖), bình phương hai vế rồi lấy tổng ta được:

∑𝑛 (𝑦𝑖− 𝑦̅)2 𝑖=1 = ∑𝑛 (𝑦̂𝑖 − 𝑦̅)2

𝑖=1 + ∑𝑛 (𝑦𝑖 − 𝑦̂𝑖)2

Chúng ta xác định các đại lượng sau đây:

Tổng bình phương đầy đủ:𝑆𝑆𝑇 = 𝑆𝑌𝑌 = ∑𝑛𝑖=1(𝑦𝑖− 𝑦̅)2,

Tổng bình phương hồi quy: 𝑆𝑆𝑅 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2,

Tổng bình phương các phần dư (các sai số):

Trang 31

có phân bố F(1,n-2)

Các đại lượng MSR,MSE gọi chung là bình phương trung bình

Nói chung, bình phương trung bình được tính bằng cách lấy tổng bình phương chia cho bậc tự do của nó

Chúng ta sẽ bác bỏ H0 nếu F0 > f(1;n-2)

Trong các phần mềm thống kê, thủ tục kiểm định được trình bày ở bảng phân tích phương sai giống như Bảng 2.1

Trang 32

23

Bảng 2.1 Phân tích phương sai để kiểm định tính hiệu quả của hồi quy

Nguồn Tổng các

bình phương Bậc tự do

Bình phương trung bình F0 P- giá trị Hồi quy

Lưu ý Chứng minh được, thủ tục phân tích phương sai và thủ tục kiểm định T

cho bài toán kiểm định giả thuyết 2 phía (2.1.16) là tương đương theo nghĩa chấp nhận giả thuyết hay bác bỏ giả thuyết là đồng thời với 2 thủ tục này Tuy nhiên, kiểm định T linh động hơn, có thể xét kiểm định 1 phía, trong khi phân tích phương sai chỉ có thể xét

1 phía

2.1.5 Khoảng tin cậy

a Khoảng tin cậy của các tham số

Bởi vì các thống kê Ta, Tb ở (2.1.22), (2.1.17) có phân bố T(n –2) nên dễ dàng xây dựng khoảng tin cậy cho chúng

Với giả thiết chuẩn (2.1.11), khoảng tin cậy 100(1-)% cho hệ số chặn a và hệ

Khoảng tin cậy cho đáp ứng trung bình

Vì y0 = E[Y|x0] = a + bx0 nên một ước lượng điểm cho giá trị này là 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 Đây là ước lượng không chệch của a và b Phương sai của 𝑎̂ + 𝑏̂𝑥0 là

2[1

𝑛+ (𝑥0−𝑥̅)2

𝑆𝑋𝑋 ] Tuy nhiên, vì nhói chung chúng ta không biết 2 mà phải dùng ước

Trang 33

24

lượng ̂2 của nó Dễ thấy rằng 𝑦̂0− 𝑦0

√  ̂2[𝑛1+ 𝑥̅2

𝑆𝑥𝑥] ~ 𝑇(𝑛 − 2) Từ đó ta có:

Khoảng tin cậy 100(1-)% cho đáp ứng trung bình khi x= x0 là (𝑦̂0±), trong

đó

{ = 𝑡⁄2(𝑛 − 2)√̂2[1

𝑛+ (𝑥0 −𝑥̅) 2

𝑆 𝑋𝑋 ]𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0

Dự đoán quan sát tương lai

Một ứng dụng quan trọng của phân tích hồi quy là dự đoán quan sát (cá biệt) của biến Y trong tương lai tại mức x0 cho trước của biến hồi quy, ký hiệu là Y|x0 hay đơn giản là Y0

Ước lượng điểm cho giá trị quan sát tương lai của biến ngẫu nhiên là giá trị trung bình của nó, ở đây là y0 = a + bx0 Các tham số a, b lại chưa biết, ta phải dùng ước lượng của chúng Vậy, ước lượng điểm cho y0 là:

𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 (2.1.28) Chú ý rằng biến ngẫu nhiên Y0 là quan sát tương lai, nó độc lập với các quan sát quá khứ y1, ,yn Cùng với các giả thiết độc lập, cùng phân bố chuẩn của các sai số, sai

số dự đoán 𝑒0 = 𝑌0− 𝑦̂0 có phân bố chuẩn quy tâm, phương sai

𝑉[𝑒0] = 𝑉[𝑌0] + 𝑉[𝑦̂0] = 2[1 + 1

𝑛+ (𝑥0−𝑥0)2

𝑆𝑋𝑋 ]

Giống như trên, ta tìm được khoảng tin cậy (còn gọi là khoảng dự đoán)

100(1-)% cho quan sát tương lại Y0 tại x0 là (𝑦̂0±∗) với

{∗= 𝑡⁄2(𝑛 − 2)√̂2[1 + 1

𝑛 + (𝑥0 −𝑥̅)2

𝑆 𝑋𝑋 ]𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0

, (2.1.29)

Nhận xét Cả hai khoảng (1.1.27) và (1.1.29) đều đạt cực tiểu tại x0 = 𝑥̅ và rộng dần khi x0 đi ra xa x Mặt khác, với cùng mức ý nghĩa, cùng xét tại điểm x0 , khoảng dự đoán luôn luôn rộng hơn khoảng tin cậy Chúng ta sẽ thấy rõ hơn hiện tượng này ở ví

dụ sau

Ví dụ 1.1 Thông thường, người ta vẫn nghĩ mức tiêu thụ nhiên liệu không phụ

thuộc vào việc lái xe nhanh hay chậm Để kiểm tra người ta cho chạy thử một chiếc xe

Trang 34

25

con ở nhiều vận tốc khác nhau từ 45 đến 70 dặm/giờ Kết quả ghi thành bảng

Chúng ta xét mô hình hồi quy tuyến tính đơn Y = a + bx +  , trong đó Y là mức tiêu thụ nhiên liệu, x là vận tốc xe Cần phải xét xem hệ số b có bằng không hay không Muốn thế ta xét bài toán kiểm định:

H0 : b = 0/H1 : b  0 Tính toán các thống kê liên quan ta được

𝑥̅ = 60; 𝑆𝑥𝑥 = 700; 𝑦̅ = 22,757; 𝑆𝑌𝑌 = 21,757; 𝑆𝑌𝑌 = −119 𝑎̂ = 32,543; 𝑏̂ = -0.17; SSR = 1.527

𝑇𝑏 = |𝑏̂ − 𝑏0|

√𝜎̂2/𝑆𝑋𝑋 =

|−0.17|

√0,305426700

Trang 35

hyperbol giữa, của khoảng dự báo tạo thành 2 đường hyperbol ngoài ở Hình 2.3 Một

lần nữa ta thấy khoảng tin cậy cho giá trị trung bình của quan sát là hẹp hơn

Hình 2.3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường

hyperbol ngoài) cho mức tiêu thụ nhiên liệu Lưu ý khi sử dụng mô hình hồi quy

Trường hợp nội suy Nói chung, sau những kiểm định cần thiết, chúng ta có thể

sử dụng mô hình hồi quy thực nghiệm (2.1.10) để làm một số dự đoán “nội suy” Cụ thể

là, khi X nhận giá trị x0 nằm trong dải biến thiên [a;b] của số liệu, giá trị dự đoán của

trung bình, cũng như giá trị quan sát tương lai của biến đầu ra sẽ là 𝑎̂ + 𝑏̂𝑥0… Sự chính

xác của các công thức này đã chỉ ra ở phần b) và c)

Trường hợp ngoại suy Sử dụng phương trình hồi quy để dự đoán giá trị của biến

Y ứng với những giá trị của biến đầu vào X nằm ngoài dải biến thiên của số liệu gọi là

dự đoán ngoại suy Tuy nhiên, ở ngoài dải biến thiên của số liệu, các giả thiết về mô

hình, thậm chí là quan hệ E[Y|X = x] = ax + b có thể không còn đúng Vì thế, dự đoán

với sai lầm đáng kể có thể gây ra từ ngoại suy

Trang 36

27

Hình 2.4 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm

Một cách khắc phục là lấy thêm quan sát (làm thêm thí nghiệm) để dải biến thiên rộng ra, chứa điểm ta quan tâm Tuy nhiên trong kỹ thuật, nhiều khi ngoại suy là cách duy nhất mà ta có thể tiệm cận vấn đề Cần lưu ý rằng ta nên áp dụng nó một cách mềm mỏng, với x0 không xa dải biến thiên [a; b], ta vẫn có thể có kết quả khả dĩ Tóm lại, ta chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết, chưa thể có đủ số liệu và không còn cách nào khác

2.1.6 Tính phù hợp của mô hình

a Phân tích phần dư

Bước khởi đầu của phân tích hồi quy là dựng đồ thị rải điểm của quan sát Nếu dáng điệu đồ thị tập trung quanh 1 đường thẳng nào đó, chúng ta sẽ đi tìm các hệ số a,

b Tuy nhiên, việc lập mô hình phải dựa vào các giả thiết chuẩn (2.1.11) Vì các phần

dư ei = yi - 𝑦̂i đại diện tốt cho các sai số i , người ta thường dùng phân tích phần dư để kiểm tra xem mô hình có phù hợp hay không

Các phần dư phải tuân theo phân bố chuẩn Một phương pháp kiểm tra xấp xỉ tính chuẩn là lập tổ chức đồ khi số quan sát n lớn, hoặc lập đồ thị P - P chuẩn khi n nhỏ

Người ta cũng hay dùng các phần dư chuẩn hóa 𝑑𝑖 = 𝑒𝑖⁄√̂2, i = 1, n Nếu các sai số có phân bố chuẩn, có khoảng 95% các phần dư chuẩn hóa rơi vào khoảng (-2; 2) (nếu Z N(0;1) thì P{-2 < Z < 2} = 0,95) Hơn nữa, đồ thị di phải có dạng bình thường, tập trung “đều đặn” trong dải (-2; 2) quanh trục hoành như dạng (a) ở Hình 2.5 Vi phạm điều đó, chẳng hạn nếu nó có dạng (b), (c), (d) thì phải sửa chữa mô hình, hay tìm mô hình khác và phân tích lại

Bởi vì {i,i =1, ,n} là dãy các biến ngẫu nhiên độc lập thì khi sắp xếp chúng theo

Trang 37

28

thứ tự bất kỳ vẫn được dãy các biến ngẫu nhiên độc lập Chúng ta vừa nói đến dãy phần

dư di theo chiều tăng của chỉ số thời gian i Người ta cũng lập dãy phần dư theo chiều tăng của xi hay của 𝑦̂𝑖

Nếu một trong các đồ thị đó có dạng (b) thì phương sai của sai số tăng lên theo thời gian (theo chiều tăng của xi hay của 𝑦̂𝑖), xảy ra (c) thì phương sai của sai số thay đổi, xảy ra (d) thì cần thêm một số hạng bậc cao hơn vào mô hình đa thức hay phải tìm

% độ biến động trong số liệu

Gọi rXY là hệ số tương quan mẫu của các cặp điểm (xi,yi) thì ta có thể thấy

R2 = rXY2 (2.1.30’)

Như vậy, nếu coi X là biến ngẫu nhiên thì hệ số xác định R2 chính bằng bình

Trang 38

29

phương của hệ số tương quan mẫu giữa X và Y Tuy nhiên chúng ta vẫn viết hệ số xác định là R2 mà không phải rXY2 vì X không là biến ngẫu nhiên

Giá trị R2 thường được xem như một chỉ thị cho tính “tốt” của mô hình: Khi giá trị này gần bằng 1, mô hình phù hợp tốt; khi giá trị này nhỏ, gần bằng 0, mô hình không phù hợp với số liệu, cần tìm mô hình khác Tuy nhiên, cần thận trọng, ngưỡng nào cho một mô hình cụ thể lại là điều ta chưa biết, ít ra là đến thời điểm này

Ví dụ 2.2 Trong nhà máy sản xuất các linh kiện bán dẫn, linh kiện hoàn chỉnh là

dây được bó xếp lại thành một cái khung Người ta quan tâm đến 3 biến: lực kéo (số đo của lực làm cho khung bị hỏng), độ dài của dây, và chiều cao của khuôn đúc Số liệu có

25 quan sát thể hiện ở 4 cột đầu Bảng 2.5

Trước hết ta quan tâm đến mối quan hệ giữa lực kéo y và độ dài x1 của dây, ở đây để tiện ta vẫn ký hiệu là x Thể hiện số liệu lên đồ thị, dường như đây là quan hệ tuyến tính Chúng ta dùng mô hình Y = ax +b +  để lọc số liệu Ta tính được:

𝑥̅ = 1

𝑛∑𝑛𝑖=1𝑥𝑖 = 8,24; 𝑆𝑋𝑋 = ∑𝑛𝑖=1(𝑥𝑖− 𝑥̅)2 = 698,56 𝑦̅ = 1

𝑛∑𝑛𝑖=1𝑦𝑖 = 29,0328; 𝑥𝑦̅̅̅ =1

𝑛∑𝑛𝑖=1𝑥𝑖𝑦𝑖 =320,3388;

(𝜎𝑦𝑛)2 =1

𝑛∑𝑛 (𝑦𝑖− 𝑦̅)2 𝑖=1 = 224,237

Từ đó ước lượng của các hệ số là:

𝑏̂ = 𝑥𝑦̅̅̅̅−𝑥̅𝑦̅

𝑆 𝑋𝑋 /𝑛 = 2,9027; 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅ = 5,115

Ta thu được phương trình:

Ước lượng của 2 có thể tính theo ̂2 = 1

𝑛−2∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖)2 Tuy nhiên trước hết

ta tìm hệ số xác định:

𝑅2 =𝑆𝑆𝑅

𝑆𝑆 𝑇 =(∑ (𝑦̂𝑖−𝑦̅)2

𝑛 𝑖=1 ) (∑ 𝑛 (𝑦𝑖−𝑦̅) 2 𝑖=1 ) = 0.964 Đây là giá trị khá lớn Ta nói có 96,4% số liệu được giải thích bởi mô hình Theo (2.1.31) thì

𝜎̂2 = 1

𝑛 − 2∑(𝑦𝑖− 𝑦̂𝑖)2 = 𝑛

𝑛 − 2(1 − 𝑅2)(𝑦𝜎𝑛)2 = 9,5696 = 3,09342 𝑛

𝑖=1

Trang 39

30

Bây giờ ta kiểm định hệ số b = 0 Theo (2.1.15),

P – giá trị của phân bố Student 23 bậc tự do ứng với giá trị 24,80 là 0,000 Vậy

Bảng 2.2 Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2

Trang 40

31

Constant 5.115 1.146 4.464 .000 2.744 7.485 X1 2.903 .117 24.801 .000 2.661 3.145

Ta lập đồ thị rải điểm của các phần dư chuẩn hóa di =ei /̂ theo 𝑦̂𝑖 như Hình 2.6 Nhìn vào đồ thị ta thấy có 1 số liệu nằm ngoài dải [-2; 2] Phần dư chuẩn hóa phân bố khá đều đặn trong dải [-2; 2], duy chỉ có 1 giá trị nằm ngoài dải này (tỷ lệ vi phạm là 1/25, nhỏ hơn 5% nên chấp nhận được)

Hình 2.6 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo

2.1.7 Tuyến tính hóa một số mô hình

Dùng phép biến đổi loga với biến hồi quy hay biến phản hồi, hoặc với cả hai, dùng phép nghịch đảo với biến hồi quy , ta có thể đưa một số mô hình về dạng tuyến tính

Hồi quy logarith y = a + b.ln x

Hồi quy mũ y = a.eb.x ( ln y = lna + bln x)

Hồi quy lũy thừa y = a.xb ( ln y = lna + bln x)

Hồi quy nghịch đảo y = a + b.(1/ x)

-3 -2 -1

Định dạng
Số trang	97
Dung lượng	2,67 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Bộ tiêu chí phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)[2 Lê Đình Thúy, Toán cao cấp cho các nhà kinh tế. NXB Thống kê, Hà Nội 2004	Khác
[3] Nguyễn Nhật Lệ, Các bài toán cơ bản của tối ưu hóa và điều khiển tối ưu, Nhà xuất bản khoa học và Kỹ thuật, Hà Nôi 2009	Khác
[4] Quy trình phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)	Khác
[7] An Introduction to Statistical Methods and Data Analysis, R. Lyman Ott and Micheal T. Longnecker, Duxbury Press 2008; 1296 pages	Khác
[8] Bruno Chiarini, Elisabetta Marzano, Friedrich Schneider, Tax rates and tax evasion: an empirical analysis of the long-run aspects in Italy, Eur J Law Econ, 2013	Khác