Chương 2 Mơ hình hồi quy tuyến tính
2.3. Phân tích hồi quy logistic
Trong các chương trước về phân tích hồi quy tuyến tính và phân tích phương sai chúng ta tìm mơ hình và mối liên hệ giữa một biến phụ thuộc liên tục và một hay nhiều biến độc lập hoặc là liên tục hoặc là không liên tục. Nhưng trong nhiều trường hợp, biến phụ thuộc không phải là biến liên tục mà là biến mang tính đo lường nhị phân: có/khơng, mắc bệnh/khơng mắc bệnh, chết sống, xảy ra/khơng xảy ra, v.v…, cịn các biến độc lập có thể là liên tục hay không liên tục. Chúng ta cũng muốn tìm hiểu mối liên hệ giữa các biến độc lập và biến phụ thuộc.
2.3.1 Mơ hình hồi quy logistic
Cho một tần số biến cố x ghi nhận từ n đối tượng, cúng ta có thể tính xác suất của biến cố đó là:
𝑝 = 𝑥
𝑛
p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách thể hiện nguy cơ khác là odds (khả năng). Khả năng của một biến cố được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trên xác suất biến cố không xảy ra:
𝑜𝑑𝑑𝑠 = 𝑝
1−𝑝 (2.4.1)
Hàm logit của odds được định nghĩa như sau:
𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝
1−𝑝) (2.4.2)
Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục (dĩ nhiên!) và theo dạng như sau:
Cho một biến độc lập x (x có thể là liên tục hay khơng liên tục), mơ hình hồi quy logistic phát biểu rằng:
𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝛼 + 𝛽𝑥 (2.4.3)
Tương tự như mơ hình hồi quy tuyến tính, và là hai thơng số tuyến tính cần phải ước tính từ dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc biệt là thông số , rất khác với ý nghĩa mà ta đã quen với mơ hình hồi quy tuyến tính.
Gọi bmd là x, vấn đề mà chúng ta cần biết có thể viết bằng ngơn ngữ mơ hình như sau: 𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝 1−𝑝) 𝛼 + 𝛽𝑥 (2.4.4) Nói cách khác: 𝑜𝑑𝑑𝑠(𝑝) = 𝑝 1−𝑝 = 𝑒𝛼+𝛽𝑥
Mơ hình trên cịn cho thấy xác suất p, tùy thuộc vào giá trị của x. Phân tích hồi quy logistic bội và chọn mơ hình
Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi quy logistic bội là chọn một mơ hình để có thể mơ tả đầy đủ dữ liệu. Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập 𝑥1, 𝑥2 và 𝑥3, chúng ta có thể có những mơ hình sau đây để tiên đoán 𝑦: 𝑦 = 𝑓(𝑥1), 𝑦 = 𝑓(𝑥2), 𝑦 = 𝑓(𝑥3), 𝑦 = 𝑓(𝑥1, 𝑥2), 𝑦 = 𝑓(𝑥1, 𝑥3), 𝑦 = 𝑓(𝑥2, 𝑥3) 𝑣à 𝑦 = 𝑓(𝑥1, 𝑥2, 𝑥3) trong đó 𝑓 là hàm số. Nói chung với k
biến độc lập 𝑥1, 𝑥2, , …, 𝑥𝑘, chúng ta có rất nhiều mơ hình (2k) để tiên đốn y. Trong điều kiện có nhiều mơ hình khả dĩ như thế, vấn đề đặt ra là mơ hình nào được xem là tối ưu?
Câu hỏi trên đặt ra một câu hỏi cơ bản khác: thế nào là tối ưu? Nói một cách ngắn gọn một mơ hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:
- Đơn giản
- Đầy đủ
- Có ý nghĩa thực tế
Tiêu chuẩn đơn giản địi hỏi mơ hình có ít biến độc lập, vì nếu q nhiều biến số thì vấn đề diễn dịch sẽ trở nên khó khăn, và có khi thiếu thực tế. Nói cách đơn giản là:
nếu chúng ta bỏ ra 50.000 đồng để mua 500 trang sách tốt hơn là bỏ ra 60.000 ngàn mua cùng số trang sách. Tương tự, một mơ hình với 3 biến độc lập mà có khả năng mơ tả dữ liệu tương đương với mơ hình với 5 biến độc lập, thì mơ hình đầu được chọn. Một mơ hình đơn giản là một mơ hình … tiết kiệm.
Tiêu chuẩn đầy đủ ở đây có nghĩa là mơ hình đó phải mơ tả dữ liệu một chách thỏa đáng, tức phải tiên đoán gần (hay gần càng tốt) với giá trị thực tế quan sát của biến phụ thuộc y. Nếu giá trị quan sát của y là 10 và nếu có một mơ hình tiên đốn là 9 và một mơ hình tiên đốn là 6 thì mơ hình đầu phải được xem là đầy đủ hơn.
Tiêu chuẩn có ý nghĩa thực tế, như cách gọi, có ý nghĩa là mơ hình đó phải được yểm trợ bằng lý thuyết hay có ý nghĩa dự báo (nếu là nghiên cứu dự báo), … Có thể số điện thoại một cách nào đó có liên quan đến tỉ lệ dự báo, nhưng tất nhiên một mơ hình như thế hồn tồn vơ nghĩa. Đây là một tiêu chuẩn quan trọng, bởi vì nếu một phân tích thống kê dẫn đến một mơ hình dù rất có ý nghĩa tốn học mà khơng có ý nghĩa thực tế thì mơ hình đó cũng chỉ là một trị chơi con số, trị chơi tốn học khơng hơn không kém, chứ khơng có giá trị khoa học thật sự.
Tiêu chuẩn thứ ba (có ý nghĩa thực tế) thuộc về lĩnh vực lý thuyết, và tôi sẽ không bàn ở đây. Tôi sẽ bàn qua tiêu chuẩn đơn giản và đầy đủ. Một thước đo quan trọng và có ích để chúng ta quyết định một mơ hình đơn giản và đầy đủ là AIC Akaike Information Criterion
2.3.2 Phân tích hồi quy logistic đa thức
Mơ hình hồi quy logistic nhị thức (binary logistic) để xem xét mối quan hệ giữa biến phụ thuộc là biến nhị phân (ví dụ: sống/chết) và biến độc lập có thể là biến số (định lượng) hoặc biến định tính và phương trình liên hệ có dạng:
log ( 𝑝
1−𝑝) = 𝛼 + 𝛽1𝑥1+ 𝛽2𝑥2+ ⋯ (trong đó 𝑥1, 𝑥2, … là các biến độc lập).
𝑂𝑑𝑑𝑠 = 𝑝
1−𝑝 (p là xác suất tử vong, 1-p là xác suất cịn sống)
Mơ hình hồi quy logistic đa thức
Mơ hình hồi quy logistich đa thức (Multinomial logistic regression) tương tự như mơ hình hồi quy logistic nhị thức nhưng biến phụ thuộc là biến định tính có nhiều hơn
2 trạng thái (hoặc mức). Ví dụ (khỏi bệnh, khỏi với dư chứng, tử vong) hoặc (tốt, trung bình, xấu).
Mơ hình hồi quy logistic đa thức phát biểu:
𝑙𝑜𝑔 (𝑝𝑖
𝑝𝑗) = 𝛼𝑖𝑗 + 𝛽𝑖𝑗𝑥1+ 𝛽𝑖𝑗𝑥2+ ⋯ + 𝜀𝑖𝑗
Gọi p0 là xác suất khỏi bệnh p1 là xác suất khỏi với dư chứng p2 xác suất tử vong Ta có 3 phương trình sau: 𝐿𝑜𝑔 (𝑝1 𝑝0) = 𝛼10+ 𝛽10𝑥1+ 𝛽10𝑥2+ ⋯ (1) 𝐿𝑜𝑔 (𝑝2 𝑝0) = 𝛼20+ 𝛽20𝑥1+ 𝛽20𝑥2+ ⋯ (2) 𝐿𝑜𝑔 (𝑝2 𝑝1) = 𝛼21+ 𝛽21𝑥1+ 𝛽21𝑥2+ ⋯ (3)
Chương 3. BÀI TỐN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA, KIỂM TRA THUẾ
Trong phần này, luận văn trình bày tính cấp thiết của việc xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế. Trên cơ sở đó, luận văn trình bày bài tốn tính điểm rủi ro của doanh nghiệp và mơ hình giải quyết bài tốn sử dụng phương pháp hồi quy tuyến tính bội như trình bày ở trên. Cuối cùng, luận văn trình bày kết quả thử nghiệm mơ hình trên dữ liệu lịch sử thu nộp thuế của một số doanh nghiệp thuộc Cục thuế Hà Nội quản lý, trên cơ sở đó đánh giá mơ hình xây dựng và triển vọng triển khai mơ hình trong thực tế.
3.1. TÍNH CẤP THIẾT XÂY DỰNG HỆ THỐNG TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA, KIỂM TRA THUẾ
Thanh tra, kiểm tra là một trong bốn chức năng cơ bản của công tác quản lý thuế, đặc biệt trong việc giám sát chặt chẽ, kịp thời phát hiện, ngăn chặn và xử lý các trường hợp không tự nguyện tuân thủ pháp luật thuế, đảm bảo công bằng giữa những người nộp thuế. Thực hiện tốt chức năng thanh tra, kiểm tra không những làm tăng thu cho ngân sách nhà nước mà còn là biện pháp răn đe nhằm duy trì mức độ tuân thủ dài hạn của NNT. Thơng qua đó, nâng cao chất lượng, hiệu quả của công tác quản lý thuế.
Trong thời gian qua, cùng với công cuộc cải cách - hiện đại hoá Ngành thuế, bằng những cố gắng và nỗ lực của tồn ngành, cơng tác thanh tra, kiểm tra thuế đã đạt được những thành quả nhất định. Nhiều trường hợp sai phạm có tính chất phức tạp cao, số tiền vi phạm về thuế lớn đã được phát hiện và xử lý kịp thời. Tuy nhiên, công tác thanh tra, kiểm tra còn bộc lộ những mặt hạn chế sau:
- Phần lớn công tác thanh tra, kiểm tra thực hiện thủ cơng chưa có sự hỗ trợ nhiều của ứng dụng tin học;
- Việc lựa chọn trường hợp thanh tra, kiểm tra chủ yếu dựa trên kinh nghiệm cán bộ;
- Thiếu một cơ chế đánh giá có hiệu quả để có thể lựa chọn được người nộp thuế có rủi ro về thuế đưa vào kế hoạch thanh tra, kiểm tra;
- Khả năng phân tích thơng tin, sử dụng ứng dụng tin học của cán bộ thanh tra, kiểm tra còn hạn chế.
Cùng với sự phát triển và hội nhập ngày càng sâu rộng của nền kinh tế nước ta với nền kinh tế thế giới, đã đặt cơng tác quản lý thuế nói chung và cơng tác thanh kiểm tra thuế nói riêng đứng trước những khó khăn thách thức, đó là:
- Sự phát triển nhanh chóng của người nộp thuế cả về số lượng, quy mô và lĩnh vực hoạt động. Chỉ tính riêng từ năm 2000 đến nay số lượng người nộp thuế đã tăng lên 2 lần trong đó khối doanh nghiệp tăng lên 2,5 lần, quy mô hoạt động ngày càng lớn mạnh chuyển dần từ kinh doanh nhỏ lẻ, đơn ngành sang quy mô lớn, đa ngành, đa lĩnh vực, cùng với đó là những giao dịch lớn, phức tạp xuất hiện ngày càng nhiều và dần trở nên phổ biến.
- Một bộ phận không nhỏ người nộp thuế thiếu ý thức tôn trọng pháp luật, lợi dụng những kẽ hở của chính sách thuế để trốn thuế, tránh thuế. Tình trạng gian lận thuế ngày càng diễn biến phức tạp gây thất thu cho ngân sách nhà nước nhưng chậm được phát hiện và xử lý.
- Nguồn nhân lực của cơ quan thuế có hạn và đang bị quá tải, ngành thuế đã đổi mới phương thức quản lý tuy nhiên vẫn chưa đáp ứng đầy đủ yêu cầu công tác quản lý trong thời kỳ mới.
Xuất phát từ nhu cầu thực tế trên, hệ thống được xây dựng nhằm mục tiêu tính điểm rủi ro của doanh nghiệp dựa vào số liệu thu, nộp thuế của doanh nghiệp nhằm hỗ trợ cơ quan thuế trong việc lập kế hoạch thanh tra, kiểm tra thuế. Doanh nghiệp có điểm rủi ro càng cao thì khả năng đưa vào thanh tra, kiểm tra càng cao và ngược lại.
3.2. BÀI TỐN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP
Như đã trình bày ở phần 3.1, mục tiêu của hệ thống là tính điểm rủi ro của doanh nghiệp dựa vào số liệu nộp thuế của doanh nghiệp được kết xuất từ kho dữ liệu tập trung của ngành thuế. Do đó, dữ liệu đầu vào của hệ thống là kết quả nộp thuế của doanh nghiệp, đầu ra của hệ thống là điểm rủi ro của doanh nghiệp. Điểm rủi ro càng cao thì nguy cơ vi phạm thuế càng cao và khả năng đưa vào thanh tra, kiểm tra càng cao.
Tệp dữ liệu tác nghiệp về tình hình nộp thuế của các doanh nghiệp trên địa bàn Hà Nội do Cục thuế Hà Nội quản lý được kết xuất từ cơ sở dữ liệu tập trung tại Tổng cục thuế (ứng dụng tập trung dữ liệu của người nộp thuế TPH). Tệp dữ liệu với khn dạng Excel bao gồm các thơng tin về tình hình nộp thuế như sau:
STT Tên cột Mô tả
1 Mã người nộp thuế Mã số thuế của doanh nghiệp
2 Tên người nộp thuế Tên doanh nghiệp
3 Địa chỉ Địa chỉ trụ sở doanh nghiệp
4 Chậm nộp hồ sơ khai thuế so với thời hạn quy định
Số ngày chậm nộp hồ sơ khai thuế
5 Phân loại doanh nghiệp theo loại hình kinh tế.
Phân loại theo loại hình kinh tế.
6
So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/ doanh thu” giữa các năm
Biến động của tỷ lệ “Thuế TNDN phát sinh/doanh thu” so với năm trước để đánh giá về biến động kê khai giữa các năm.
7
So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/ doanh thu hàng hoá dịch vụ bán ra” giữa các năm
Biến động của tỷ lệ “Thuế GTGT phát sinh/doanh thu hàng hoá dịch vụ bán ra” so với năm trước để đánh giá về biến động kê khai giữa các năm.
8
Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu thuần
Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu thuần lấy từ báo cáo tài chính doanh nghiệp.
9
Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh thu thuần
Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/doanh thu thuần lấy từ báo cáo tài chính doanh nghiệp.
10 Tỷ lệ lợi nhuận sau thuế/doanh thu thuần
Tỷ lệ lợi nhuận sau thuế/doanh thu thuần lấy từ báo cáo tài chính doanh nghiệp.
11 Tỷ lệ lợi nhuận/vốn chủ sở hữu Tỷ lệ lợi nhuận/vốn chủ sở hữu lấy từ báo
12 Tỷ lệ giá vốn hàng bán/doanh thu thuần
Tỷ lệ giá vốn hàng bán/doanh thu thuần lấy từ báo cáo tài chính doanh nghiệp 13 Tỷ lệ chi phí bán hàng/doanh thu
thuần
Tỷ lệ chi phí bán hàng/doanh thu thuần lấy từ báo cáo tài chính doanh nghiệp 14 Tỷ lệ chi phí quản lý/doanh thu thuần Tỷ lệ chi phí quản lý/doanh thu thuần lấy
từ báo cáo tài chính doanh nghiệp
15 Hệ số khả năng thanh toán tổng quát Hệ số khả năng thanh toán tổng quát lấy từ báo cáo tài chính doanh nghiệp
16 Hệ số khả năng thanh toán nợ ngắn hạn
Hệ số khả năng thanh toán nợ ngắn hạn lấy từ báo cáo tài chính doanh nghiệp 17 Hệ số khả năng thanh toán nhanh Hệ số khả năng thanh toán nhanh lấy từ
báo cáo tài chính doanh nghiệp 18 Kỳ đã được thanh tra, kiểm tra gần
nhất
Kỳ đã được thanh tra, kiểm tra gần nhất
19 Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất
Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất
20 Tổng thuế TNDN phát sinh Tổng thuế TNDN phát sinh
Bảng 3.1. Bảng dữ liệu đầu vào của hệ thống
2) Đầu ra của hệ thống:
Đầu tra của hệ thống là điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100. Điểm 0 là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.
3.3. CÁC BƯỚC XÂY DỰNG MƠ HÌNH GIẢI QUYẾT BÀI TỐN
Để xây dựng mơ hình tính điểm rủi ro cho doanh nghiệp dựa vào các số liệu đầu vào nêu trên, ta cần thực hiện các công việc như sau:
- Xây dựng và kiểm tra mơ hình hồi quy tuyến tính bội từ bộ dữ liệu huấn luyện và dữ liệu kiểm tra được xây dựng từ số liệu tác nghiệp lịch sử về tình hình nộp thuế và kết quả thanh tra của các doanh nghiệp.
đầu vào của doanh nghiệp.
3.3.1 Xây dựng mơ hình hồi quy tuyến tính bội
1) Xây dựng tập dữ liệu mẫu để huấn luyện và kiểm tra mơ hình hồi quy từ dữ liệu tác nghiệp đầu vào.
Bộ số liệu huấn luyện được xây dựng từ số liệu tác nghiệp lịch sử về tình hình nộp thuế và kết quả thanh tra thuế (Bảng 3.1), bao gồm 16 thuộc tính điều kiện (lấy từ cột 4 đến cột 19 trong Bảng 3.1 và thuộc tính nhãn lấy từ lich sử kết quả thanh tra thuế (dựa vào cột 19 và cột 20). Chi tiết như sau:
- Các thuộc tính điều kiện: bao gồm 16 cột lấy từ cột 4 đến cột 19 trong bảng dữ liệu đầu vào (Bảng 3.1). Giá trị các thuộc tính điều kiện là điểm rủi ro được tính theo Bộ tiêu chí rủi ro do Tổng cục thuế bản hành theo Quyết định số 1733/QĐ- TCT ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Xem phần phụ lục). Như vậy, mỗi thuộc tính của bảng dữ liệu huấn luyện và dữ liệu kiểm tra sẽ tương ứng với mỗi tiêu chí rủi ro trong Bộ tiêu chí (phần phụ lục) và giá trị của các thuộc tính này là 1, 2, 3, 4 tương ứng với bốn mức rủi ro theo quy định. Tóm lại, miền giá trị của các thuộc tính đầu vào là bốn giá trị rời rạc 1, 2, 3, 4. Từ bảng dữ liệu đầu vào, áp dụng cơng thức tính điểm rủi ro trong bộ tiêu chí (phần phụ lục) ta có thể tính được giá trị các thuộc tính điều kiện của bộ dữ liệu huấn luyện và kiểm tra.