Phân lớp bằng học cây quyết ñị nh

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 91)

Trong phân lớp bằng học cây quyết ñịnh, sau khi xác ñịnh bài toán và lựa chọn dữ liệu thì cần thực hiện bước tạo ra bộ dữ liệu huấn luyện dùng ñể xây dựng mô hình, bộ ñể kiểm thử và ñánh giá ñộ chính xác của mô hình. Mô hình ñạt ñược ñộ chính xác chấp nhận ñược sẽ ñược sử dụng với bộ dữ liệu mới.

Sử dụng ODM ñể phân lớp sẽ qua các bước chính sau:

Chuẩn bị 3 bộ dữ liệu (xác ñịnh thuộc tính phân loại, tổ chức của 3 bộ dữ liệu phải tương tự nhau)

Thiết lập các tham số: Lựa chọn thuật toán nào, xác ñịnh ma trận chi phí.

Xây dựng mô hình dựa vào các tham số ñã thiết lập. Ngoài ra, chỉ rõ: Sử dụng ma trận chi phí nào, thuộc tính khoá xác ñịnh duy nhất một bản ghi, chỉ ra thuộc tính ñích (là thuộc tính phân lớp), chỉ ra bộ dữ liệu huấn luyện

Kiểm thử trên bộ dữ liệu kiểm thử: Áp dụng mô hình ñể phân loại trên dữ liệu kiểm thử và so sánh với thuộc tính ñích ñểñánh giá ñộ chính xác. Ở ñây có thể lựa chọn phân loại có dùng hoặc không dùng ma trận chi phí.

Cuối cùng là sử dụng mô hình nếu mô hình có ñộ chính xác chấp nhận ñược: Áp dụng mô hình trên dữ liệu chưa phân loại, ñưa ra các dự báo.

Áp dụng phân lớp trên CSDL ngành Thuế có thể:

Dùng ñể dự báo ðTNT nợ thuế, phục vụ cho công tác ñôn ñốc thu. Dùng ñể dự báo ðTNT nghi ngờ vi phạm, gian lận… phục vụ cho

công tác thanh tra Thuế.

Những chỉ tiêu thường ñược lấy làm căn cứ phân tích phục vụ công tác thanh tra Thuế gồm những thông tin sau:

Các tỷ suất thể hiện khả năng thanh toán, tỷ suất sinh lời, tỷ suất hiệu quả, cơ cấu tài sản và cơ cấu nguồn vốn, tỷ suất liên quan ñến kê khai thuế

Quy mô doanh nghiệp: Quy mô theo doanh thu, nguồn vốn, theo Tài sản cốñịnh

Xác ñịnh rủi ro theo: Quy mô của doanh nghiệp, loại hình doanh nghiệp, theo mức ñộ tuân thủ về nộp thuế, hiệu quả sản xuất kinh doanh, tình hình kê khai thuế của doanh nghiệp

Có nhiều cách phân tích dựa trên các chỉ tiêu trên. Có thể tính toán các tỷ suất của một doanh nghiệp và so sánh với chính doanh nghiệp ñó qua các thời kỳ khác nhau hoặc cùng so sánh với tỷ suất chuẩn của ngành. Có thể xem xét tỷ suất theo nhiều năm của các doanh nghiệp trong cùng ngành kinh tế và tỷ suất trung bình ngành theo từng năm. So sánh doanh thu, chi phí của mỗi doanh nghiệp qua các năm và so với doanh thu, chi phí trung bình của ngành.

Thực tế phối hợp ñược nhiều chỉ tiêu trong phân tích và số liệu thu thập ñược càng chính xác sẽ có ñược những nhận ñịnh có ñộ chắc chắn cao. Sự phối hợp thông tin giữa các ngành khác nhau cũng rất quan trọng, ví dụ lấy số liệu thống kê ngành nghề từ Cục Thống Kê.

Với mục ñích khai phá thử nghiệm, những bài toán khai phá trong luận văn có thể coi là những minh hoạ cho khả năng khai phá dữ liệu, ñể từñó phát triển sau này với sự phân tích ñầy ñủ các chỉ tiêu.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 91)