Chương 2 Mơ hình hồi quy tuyến tính
3.3. Các bước xây dựng mô hình giải quyết bài tốn
3.3.1 Xây dựng mơ hình hồi quy tuyến tính bội
1) Xây dựng tập dữ liệu mẫu để huấn luyện và kiểm tra mơ hình hồi quy từ dữ liệu tác nghiệp đầu vào.
Bộ số liệu huấn luyện được xây dựng từ số liệu tác nghiệp lịch sử về tình hình nộp thuế và kết quả thanh tra thuế (Bảng 3.1), bao gồm 16 thuộc tính điều kiện (lấy từ cột 4 đến cột 19 trong Bảng 3.1 và thuộc tính nhãn lấy từ lich sử kết quả thanh tra thuế (dựa vào cột 19 và cột 20). Chi tiết như sau:
- Các thuộc tính điều kiện: bao gồm 16 cột lấy từ cột 4 đến cột 19 trong bảng dữ liệu đầu vào (Bảng 3.1). Giá trị các thuộc tính điều kiện là điểm rủi ro được tính theo Bộ tiêu chí rủi ro do Tổng cục thuế bản hành theo Quyết định số 1733/QĐ- TCT ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Xem phần phụ lục). Như vậy, mỗi thuộc tính của bảng dữ liệu huấn luyện và dữ liệu kiểm tra sẽ tương ứng với mỗi tiêu chí rủi ro trong Bộ tiêu chí (phần phụ lục) và giá trị của các thuộc tính này là 1, 2, 3, 4 tương ứng với bốn mức rủi ro theo quy định. Tóm lại, miền giá trị của các thuộc tính đầu vào là bốn giá trị rời rạc 1, 2, 3, 4. Từ bảng dữ liệu đầu vào, áp dụng cơng thức tính điểm rủi ro trong bộ tiêu chí (phần phụ lục) ta có thể tính được giá trị các thuộc tính điều kiện của bộ dữ liệu huấn luyện và kiểm tra.
- Thuộc tính nhãn: chính điểm rủi ro của doanh nghiệp được tính dựa vào lịch sử kết quả thanh tra thuế (số thuế truy thu thu được), cụ thể như sau:
1) Nếu Số thuế truy thu tuyệt đối bằng 0 thì điểm rủi ro = 0 (trường hợp khơng có vi phạm)
2) Nếu tỷ lệ: (Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra (cột 19) /
Tổng thuế TNDN phát sinh (cột 20) )*100 >= 100% thì điểm rủi ro = 100. (Có
vi phạm lớn)
3) Trong các trường hợp còn lại, điểm rủi ro = (Số thuế truy thu tuyệt đối của
kỳ thanh tra, kiểm tra /Tổng thuế TNDN phát sinh (chỉ tiêu 2) )*100
Như vậy, điểm rủi ro được xác định bởi tỷ lệ giữa Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh. Ví dụ: Số thuế truy thu tuyệt đối của
kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh = 80% thì điểm rủi ro là 80. Như vậy, miền giá trị của điểm rủi ro là từ 0 (tương ứng với không vi phạm) đến 100 (vi phạm lớn). Như vậy, dữ liệu mẫu sau khi xác định điểm rủi ro (nhãn) được mô tả như sau:
Chỉ tiêu 1 Chỉ tiêu 2 .... Chỉ tiêu 16 Điểm rủi ro (nhãn)
3 1 2 1,2
2 2 4 12,3
1 2 3 87,5
4 4 1 45
Miền giá trị các thuộc tính điều kiện (bộ chỉ tiêu) là các giá trị rời rạc 1, 2, 3,4. Miền giá trị của điểm rủi ro (nhãn) là giá trị liên tục từ 1 đến 100.
2) Xây dựng mơ hình hồi quy tuyến tính bội
- Trên tập dữ liệu mẫu thu được, sử dụng 80% tập dữ liệu mẫu làm tập dữ liệu huấn luyện mơ hình (training data) và 20% cịn lại làm tập dữ liệu kiểm tra (test data) theo phương pháp Cross-Validation.
- Xây dựng mơ hình hồi quy tuyến tính bội từ tập dữ liệu huấn luyện trích chọn từ bảng dữ liệu mẫu.
Đầu vào: Các thuộc tính của tập huấn luyện Đầu ra: Giá trị điểm rủi ro.
Phương trình hồi quy:
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Ở đây TC1, TC2, ...TCn là các thuộc tính của bộ dữ liệu huấn luyện, 1, 2, ..., n là các trọng số của các thuộc tính, θ là tham số ngưỡng do NSD đưa vào để tăng độ chính xác của mơ hình hồi quy.
Kết quả thu được của phương pháp phân tích hồi quy bội là các hệ số 1, 2, ..., n , giá trị ngưỡng θ do người sử dụng đưa vào.
3) Kiểm tra mơ hình hồi quy tuyến tính bội từ tập dữ liệu kiểm tra trích chọn từ bảng dữ liệu mẫu.
- Sử dụng hàm hồi quy (các hệ số 1, 2, ..., n và θ) để tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm tra.
- So sánh điểm rủi ro tính bởi mơ hình (hàm hồi quy) với điểm rủi ro thực tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.
- Đánh giá độ chính xác của mơ hình, nếu độ chính xác lớn hơn giá trị ngưỡng cho trước thì tiếp tục huấn luyện mơ hình. Q trình huấn luyện kết thúc ghi độ chính xác nhỏ hơn giá trị ngưỡng.
3.3.2 Mơ hình tổng thể của bài tốn tính điểm rủi ro cho doanh nghiệp
Tính giá trị tiêu chí 1
Phân ngưỡng tiêu chí 1
Cho điểm tiêu chí 1 Đánh trọng số tiêu chí 1 Tính giá trị tiêu chí 2 Phân ngưỡng tiêu chí 2
Cho điểm tiêu chí 2 Đánh trọng số tiêu chí 2 Tính giá trị tiêu chí n Phân ngưỡng tiêu chí n
Cho điểm tiêu chí n Đánh trọng số tiêu chí n …………. …………. …………. …………. Bộ tiêu chí đánh giá rủi ro CSDL thông tin NNT Tổng điểm của tất cả các tiêu chí Lựa chọn NNT có rủi ro cao Bước I Bước II
Hình 3.1 Mơ hình tổng thể bài tốn
Kết quả tổng điểm thể hiện được thông tin rủi ro tại từng doanh nghiệp đánh giá đồng thời thể hiện bức tranh tổng thể đối với phạm vi dữ liệu được lựa chọn.
3.3.3 Thực thi mơ hình để tính điểm rủi ro cho doanh nghiệp
Sau khi kết thúc quá trình huấn luyện và kiểm tra mơ hình, ta thu được mơ hình tính điểm rủi ro, chính là hàm hồi quy mơ tả mối quan hệ giữa đầu ra (điểm rủi ro) với các bộ tiêu chí rút gọn đầu vào.
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Như vậy, bản chất của mơ hình tính điểm rủi ro là hàm hồi quy với:
- Các thuộc tính đầu vào tương ứng với các tiêu chí phân tích rủi ro do Tổng cục thuế quy định. Giá trị của các thuộc tính đầu vào chính là giá trị điểm rủi ro được tính theo cơng thức trong bộ tiêu chí phân tích rủi ro.
- Các giá trị trọng số 1, 2, ..., n của các thuộc tính đầu vào (được học từ dữ liệu lịch sử)
- Giá trị ngưỡng θ do người sử dụng đưa vào.
Q trình tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh tra, kiểm tra được thực hiện như sau:
1) Từ tệp dữ liệu đầu vào được trích xuất từ hệ thống cơ sở dữ liệu tập trung tại Tổng cục thuế (TPH), thực hiện tính giá trị điểm rủi ro cho các thuộc tính đầu vào theo cơng thức quy định trong bộ chỉ tiêu phân tích rủi ro do Tổng cục thuế quy định (Xem phần phụ lục)
2) Sử dụng hàm hồi quy thu được (mơ hình tính điểm rủi ro) để tính điểm rủi ro cho các doanh nghiệp.
Kết quả điểm rủi ro của doanh nghiệp được tính bằng mơ hình hồi quy được ghi lại và sử dụng để lập kế hoạch thanh tra, kiểm tra thuế và in hồ sơ phân tích rủi ro cho doanh nghiệp.
Sau khi có kết quả thanh tra, kiểm tra cho các đối tượng này, dữ liệu thanh tra, kiểm tra tiếp tục được sử dụng để huấn luyện mơ hình và sử dụng mơ hình tính điểm rủi ro cho năm tiếp theo.
Như vậy, quá trình huấn luyện liên tục được thực hiên qua các năm, do đó độ chính xác của mơ hình hồi quy sẽ ngày càng tăng lên và nó phản ánh quy luật của dữ
liệu. Do đó, độ chính xác của mơ hình dự báo điểm rủi ro được đảm bảo về mặt khoa học.
3.3.4 Tiền xử lý dữ liệu
Với dữ liệu của ngành thuế được cung cấp dưới khuôn dạng Excel như trong bảng 3.1.a tiến hành tiền xử lý dữ liệu theo phương thức như sau:
Bảng 3.1.a. Dữ liệu thô do ngành thuế cung cấp
Thực hiện xử lý dữ liệu thô.
- Xử lý dữ liệu bị thiếu (missing data) + Định nghĩa của dữ liệu bị thiếu
‡ Dữ liệu khơng có sẵn khi cần được sử dụng + Nguyên nhân gây ra dữ liệu bị thiếu
‡ Khách quan (không tồn tại lúc được nhập liệu, sự cố, …) ‡ Chủ quan (tác nhân con người)
‡ Bỏ qua
‡ Xử lý tay (không tự động, bán tự động)
‡ Dùng giá trị thay thế (tự động): hằng số toàn cục, trị phổ biến nhất, trung bình tồn cục, trung bình cục bộ, trị dự đốn, …
‡ Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục nhập liệu (các ràng buộc dữ liệu)
- Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) + Định nghĩa
‡ Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành vi chung của tập dữ liệu (đối tượng).
‡ Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là những trường hợp ngoại lệ (exceptions).
+ Nguyên nhân
‡ Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công nghệ, …)
‡ Chủ quan (tác nhân con người) + Giải pháp nhận diện phần tử biên
‡ Dựa trên phân bố thống kê (statistical distribution-based) ‡ Dựa trên khoảng cách (distance-based)
‡ Dựa trên mật độ (density-based) ‡ Dựa trên độ lệch (deviation-based) + Giải pháp giảm thiểu nhiễu
‡ Binning
‡ Hồi quy (regression)
‡ Phân tích cụm (cluster analysis)
- Xử lý dữ liệu không nhất quán (inconsistent data) + Định nghĩa của dữ liệu không nhất quán
‡ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể ‡ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các đối tượng/thực thể
+ Nguyên nhân
‡ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu ‡ Định dạng không nhất quán của các vùng nhập liệu
‡ Thiết bị ghi nhận dữ liệu, … + Giải pháp
+ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phân tích dữ liệu cho việc nhận diện
+ Điều chỉnh dữ liệu không nhất quán bằng tay + Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động
Kết thúc quá trình tiền xử lý dữ liệu Áp dụng cơng thức tính điểm rủi ro cho các cột dữ liệu đầu vào (xem phụ lục) và tính tốn điểm rủi ro cho thuộc tính nhãn, ta thu được bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra sử dụng để xây dựng và kiểm tra mơ hình.
3.4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.4.1 Mục tiêu thử nghiệm 3.4.1 Mục tiêu thử nghiệm
Mục tiêu của thử nghiệm là thử nghiệm mơ hình tính điểm rủi ro của doanh nghiệp được xây dựng trên bộ số liệu thử nghiệm là số liệu lịch sử về tình hình nộp thuế và kết quả thanh tra của các doanh nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất từ hệ thống tập trung dữ liệu tại Tổng cục thuế (TPH)
3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm
Để tiến hành thử nghiệm, học viên thực hiện lập trình bằng ngơn ngữ C# trên mơi trường Visual Studio. NET, sử dụng ngơn ngữ phân tích dữ liệu R tích hợp vào bộ Visual
Môi trường tiến hành thử nghiệm là máy tính cá nhân cài đặt hệ điều hành Windows 7 PCs có cấu hình bộ xử lý Intel(R) Core (TM) i3, CPU (2.66 GHz), 4.00GB of RAM.
3.4.3 Quy trình thử nghiệm
1) Chuẩn bị dữ liệu huấn luyện và dữ liệu kiểm tra
Số liệu sử dụng để xây dựng tập dữ liệu huấn luyện là 1000 doanh nghiệp do Cục thuế Hà Nội quản lý, số liệu sử dụng để kiểm tra mơ hình là 200 doanh nghiệp Cục thuế Hà Nội quản lý. Các số liệu này được kết xuất từ hệ thống tập trung dữ liệu (TPH) từ Tổng cục thuế theo khôn dạng Excel (bao gồm 20 trường dữ liệu như mô tả ở Bảng 3.1), dữ liệu được kết xuất là dữ liệu về tình hình nộp thuế và kết quả thanh tra năm 2014 của Cục thuế Hà nội.
Áp dụng cơng thức tính điểm rủi ro cho các cột dữ liệu đầu vào (xem phụ lục) và tính tốn điểm rủi ro cho thuộc tính nhãn, ta thu được bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra sử dụng để xây dựng và kiểm tra mơ hình.
Dữ liệu huấn luyện được nạp vào trong hệ thống như hình sau:
Hình 3.3. Mơ tả tập dữ liệu huấn luyện
Hình 3.4. Kết quả xây dựng mơ hình
Kết quả thực hiện ta thu được 16 hệ số 1, 2, ..., 16 tương ứng với 16 thuộc tính đầu vào. Cột Beta trên Hình 3.3 là các hệ số 1, 2, ..., 16 tương ứng với các chỉ tiêu từ chỉ tiêu 1 đến chỉ tiêu 16 đối với tập dữ liệu huấn luyện được chọn. Giá trị hệ số hồi quy
θ được chọn là 0.2.
Ta có phương trình tính điểm rủi ro của doanh nghiệp như sau:
Điểm rủi ro = 0.217226 *TC1 + 0.01800982 *TC2+ 0.4741908 *TC3 -0.5741891 TC4 + 0.5178324 TC5 – 1.093184 *TC6 – 1.396769 * TC7 – 0.9367253* TC8 - 0.2573483 * TC9 – 0.4399146 * TC10 – 0.6433808 * TC11 + 0.3320229 * TC12 – 0.001286944 * TC13 – 0.05785978 * TC14 + 0.01048144 * TC15 - 0.4559843 * TCn + 0.2
2) Kiểm tra độ chính xác của mơ hình
Như đã trình bày ở trên, tập dữ liệu kiểm tra là 200 doanh nghiệp thuộc Cục thuế Hà Nội quản lý năm 2014. Để thực hiện kiểm tra độ chính xác của mơ hình, tác giả thực hiện như sau:
- Sử dụng hàm hồi quy thu được (các hệ số 1, 2, ..., n và θ) để tính điểm rủi ro của các doanh nghiệp của 200 doanh nghiệp trên dữ liệu kiểm tra.
- So sánh điểm rủi ro tính bởi mơ hình (hàm hồi quy) với điểm rủi ro thực tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.
- Tính sai số và độ chính xác của mơ hình.
Hình 3.5. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm tra.
Với dữ liệu kiểm tra thử trên 200 doanh nghiệp đầu vào hệ thống tính tốn điểm rủi ro doanh nghiệp theo phương trình đề xuất được kết quả thể hiện trong hình 3.5 với dữ liệu được thể hiện như sau:
Dữ liệu đầu ra bao gồm 17 cột trong đó từ cột x1 đến cột x16 là tập dữ liệu huấn luyện được tính dựa trên cơng thức tính điểm rủi ro của dữ liệu đầu vào (phụ lục), cột pre là điểm rủi ro của doanh nghiệp theo mơ hình hồi quy bội với công thức xây dựng.
Bảng 3.2 so sánh kết quả thử nghiệm và kết quả thực tế
Với thử nghiệm 200 doanh nghiệp giá trị trung bình theo mơ hình xây dựng là 50.92615. Giá trị tính tốn trên thực tế là 56.21.
Nhận xét kết quả thử nghiệm:
- Trên tập dữ liệu kiểm tra, độ chính xác của mơ hình hồi quy đạt được là 90.59%. - Mơ hình được xây dựng có thể sử dụng để tính điểm rủi ro cho các doanh nghiệp phục vụ lập hồ sơ phân tích rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế.
KẾT LUẬN
Luận văn đã sử dụng một số phương pháp phân tích hồi quy ứng dụng phân tích dữ liệu trong việc xây dựng mơ hình dự báo từ dữ liệu ngành thuế bằng việc sử dụng phương pháp phân tích hồi quy bội, xây dựng hàm hồi quy để tính điểm rủi ro chi doanh nghiệp dựa vào số liệu nộp thuế của doanh nghiệp nhằm hỗ trợ cơ quan thuế trong cơng tác thanh tra, kiểm tra. Mơ hình triển khai trong thực tế sẽ trợ giúp hiệu quả bộ phận thanh tra thuế trong công tác lập kế hoạch thanh tra, chống thất thu ngân sách và đem lại hiệu quả kinh tế, xã hội to lớn.
Trong quá trình thực hiện luận văn, em đã tìm hiểu các khái niệm về phân tích hồi quy để ứng dụng vào bài tốn phân tích dữ liệu kê khai nộp thuế phục vụ kế hoạch thanh tra, kiểm tra thuế, lựa chọn phương pháp phân tích hồi quy bội ứng dụng vào bài tốn phân tích rủi ro khai phá dữ liệu xây dựng nên các bước tính tốn để xây dựng mơ hình.
Tìm hiểu và thu thập nguồn dữ liệu nộp thuế do cục thuế Hà Nội cung cấp, dữ liệu thống kê để làm cơ sở cho phân tích rủi ro. Tuy nhiên, với thời gian và trình độ có hạn nên khơng tránh khỏi những hạn chế và thiếu sót. Em rất mong được sự nhận xét và góp ý của các thầy cơ giáo và bạn bè, đồng nghiệp và những người cùng quan tâm để hồn thiện hơn các kết quả nghiên cứu của mình.
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Bộ tiêu chí phân tích thơng tin rủi ro người nộp thuế phục vụ công tác lập kế