Phân lớp bằng học cây quyết định

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 91 - 93)

Trong phân lớp bằng học cây quyết định, sau khi xác định bài tốn và lựa chọn dữ liệu thì cần thực hiện bước tạo ra bộ dữ liệu huấn luyện dùng để xây dựng mơ hình, bộ để kiểm thử và đánh giá độ chính xác của mơ hình. Mơ hình đạt được độ chính xác chấp nhận được sẽ được sử dụng với bộ dữ liệu mới.

Sử dụng ODM để phân lớp sẽ qua các bước chính sau:

Chuẩn bị 3 bộ dữ liệu (xác định thuộc tính phân loại, tổ chức của 3 bộ dữ liệu phải tương tự nhau)

Thiết lập các tham số: Lựa chọn thuật tốn nào, xác định ma trận chi phí.

Xây dựng mơ hình dựa vào các tham số đã thiết lập. Ngồi ra, chỉ rõ: Sử dụng ma trận chi phí nào, thuộc tính khố xác định duy nhất một bản ghi, chỉ ra thuộc tính đích (là thuộc tính phân lớp), chỉ ra bộ dữ liệu huấn luyện

Kiểm thử trên bộ dữ liệu kiểm thử: Áp dụng mơ hình để phân loại trên dữ liệu kiểm thử và so sánh với thuộc tính đích đểđánh giá độ chính xác. Ở đây cĩ thể lựa chọn phân loại cĩ dùng hoặc khơng dùng ma trận chi phí.

Cuối cùng là sử dụng mơ hình nếu mơ hình cĩ độ chính xác chấp nhận được: Áp dụng mơ hình trên dữ liệu chưa phân loại, đưa ra các dự báo.

Áp dụng phân lớp trên CSDL ngành Thuế cĩ thể:

Dùng để dự báo ðTNT nợ thuế, phục vụ cho cơng tác đơn đốc thu. Dùng để dự báo ðTNT nghi ngờ vi phạm, gian lận… phục vụ cho

cơng tác thanh tra Thuế.

Những chỉ tiêu thường được lấy làm căn cứ phân tích phục vụ cơng tác thanh tra Thuế gồm những thơng tin sau:

Các tỷ suất thể hiện khả năng thanh tốn, tỷ suất sinh lời, tỷ suất hiệu quả, cơ cấu tài sản và cơ cấu nguồn vốn, tỷ suất liên quan đến kê khai thuế

Quy mơ doanh nghiệp: Quy mơ theo doanh thu, nguồn vốn, theo Tài sản cốđịnh

Xác định rủi ro theo: Quy mơ của doanh nghiệp, loại hình doanh nghiệp, theo mức độ tuân thủ về nộp thuế, hiệu quả sản xuất kinh doanh, tình hình kê khai thuế của doanh nghiệp

Cĩ nhiều cách phân tích dựa trên các chỉ tiêu trên. Cĩ thể tính tốn các tỷ suất của một doanh nghiệp và so sánh với chính doanh nghiệp đĩ qua các thời kỳ khác nhau hoặc cùng so sánh với tỷ suất chuẩn của ngành. Cĩ thể xem xét tỷ suất theo nhiều năm của các doanh nghiệp trong cùng ngành kinh tế và tỷ suất trung bình ngành theo từng năm. So sánh doanh thu, chi phí của mỗi doanh nghiệp qua các năm và so với doanh thu, chi phí trung bình của ngành.

Thực tế phối hợp được nhiều chỉ tiêu trong phân tích và số liệu thu thập được càng chính xác sẽ cĩ được những nhận định cĩ độ chắc chắn cao. Sự phối hợp thơng tin giữa các ngành khác nhau cũng rất quan trọng, ví dụ lấy số liệu thống kê ngành nghề từ Cục Thống Kê.

Với mục đích khai phá thử nghiệm, những bài tốn khai phá trong luận văn cĩ thể coi là những minh hoạ cho khả năng khai phá dữ liệu, để từđĩ phát triển sau này với sự phân tích đầy đủ các chỉ tiêu.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 91 - 93)