Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,41 MB
Nội dung
2 BỘ GIÁO DỤC VÀ ðÀO TẠO NGUYỄN THU TRÀ TRƯỜNG ðẠI HỌC BÁCH KHOA HÀ NỘI DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ðẦU .8 CHƯƠNG KHAI PHÁ DỮ LIỆU .12 LUẬN VĂN THẠC SỸ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN CÔNG NGHỆ THÔNG TIN 2004-2006 Hà Nội 2006 MỤC LỤC NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM 1.1 Tổng quan khai phá liệu 12 1.1.1 Dữ liệu 14 1.1.2 Tiền xử lý liệu 16 1.1.3 Mô hình khai phá liệu 18 1.2 Các chức khai phá liệu 19 1.2.1 Phân lớp (Classification) 19 1.2.2 Hồi qui 31 1.2.3 Phân nhóm 34 1.2.4 Khai phá luật kết hợp 38 CHƯƠNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU 46 2.1 Thuật toán khai phá luật kết hợp 46 2.1.1 Thuật toán Apriori 46 2.1.2 Thuật toán AprioriTid 49 2.1.3 Thuật toán AprioriHybrid 51 2.2 Cải tiến hiệu thuật toán Apriori 54 2.2.2 Phương pháp FP-tree 56 2.2.3 Thuật toán PHP 59 2.2.4 Thuật toán PCY 63 2.2.5 Thuật toán PCY nhiều chặng 65 2.3 Thuật toán phân lớp học ñịnh 67 2.3.1 Các ñịnh nghĩa 68 2.3.2 Thuật toán ID3 69 2.3.3 Các mở rộng C4.5 70 CHƯƠNG ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ 72 NGUYỄN THU TRÀ Hà Nội 2006 3.1 CSDL ngành Thuế 72 3.2 Lựa chọn công cụ khai phá 73 3.2.1 Lựa chọn công cụ 73 3.2.2 Oracle Data Mining (ODM) 76 3.2.3 DBMS_DATA_MINING 78 3.3 Mục tiêu khai thác thông tin ngành Thuế 79 3.4 Thử nghiệm khai phá luật kết hợp 81 3.5 Phân lớp học ñịnh 91 3.5.1 Phân lớp ðTNT dựa vào so sánh tỷ suất năm 93 3.5.2 Phân lớp ðTNT theo số liệu năm 96 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa CHƯƠNG KẾT LUẬN 102 Association Rules Các luật kết hợp HƯỚNG NGHIÊN CỨU TIẾP THEO 103 Candidate itemset Một itemset tập Ck ñược sử dụng ñể sinh TÀI LIỆU THAM KHẢO 104 large itemset PHỤ LỤC 106 Ck Tập candidate k-itemset giai ñoạn thứ k Confidence ðộ chắn luật kết hợp = support(X∪Y)/support(X) phản ánh khả giao dịch hỗ trợ X hỗ trợ Y CSDL Cơ sở liệu DM Data mining – Khai phá liệu DW Data warehouse – Kho liệu ðTNT ðối tượng nộp thuế, tới cá nhân tổ chức nộp thuế Frequent/large itemset Một itemset có ñộ hỗ trợ (support) >= ngưỡng ñộ hỗ trợ tối thiểu ID Identifier Item Một phần tử itemset Itemset Tập item k-itemset Một itemset có ñộ dài k Lk Tập Large itemset giai ñoạn thứ k ODM Oracle Data Mining – công cụ khai phá liệu TID Unique Transaction Identifier Transaction Giao dịch DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ Bảng 1.1: CSDL ñơn giản gồm ví dụ huấn luyện 25 Hình 1.1 Quá trình khám phá tri thức 14 Bảng 1.2 Mô hình CSDL giao dịch ñơn giản 39 Hình 1.2 Khuôn dạng ñơn ghi ña ghi 16 Bảng 2.1 Cơ sở liệu giao dịch T 56 Hình 1.3: Cây ñịnh ñơn giản với tests thuộc tính X Y 22 Bảng 2.2 Bảng sản phẩm khai phá liệu 74 Hình 1.4: Sự phân lớp mẫu dựa mô hình ñịnh 23 Hình 1.5 Cây ñịnh cuối cho CSDL T ñã nêu bảng 1.1 29 Hình 1.6 Cây ñịnh dạng giả code cho CSDL T (bảng 1.1) 29 Hình 1.7 Hồi qui tuyến tính 32 Hình 1.8 Gộp nhóm theo phương pháp k-means (ðiểm ñánh dấu + tâm) 36 Hình 1.9 Phân hoạch vun ñống tách dần 37 Hình 1.10 Bước lặp ñầu tiên thuật toán Apriori cho CSDL DB 41 Hình 1.11 Lần lặp thứ thuật toán Apriori cho CSDL DB 42 Hình 1.12 Lần lặp thứ thuật toán Apriori cho CSDL DB 42 Hình 2.1 Thuật toán Apriori 46 Hình 2.2 Thuật toán AprioriTid 50 Hình 2.3 Ví dụ 51 Hình 2.4: Thời gian thực cho lần duyệt Apriori AprioriTid 52 Hình 2.5: Một ví dụ phân cấp khái niệm cho khai phá frequent itemsets nhiều mức 55 Hình 2.6: FP-tree cho CSDL T bảng 2.1 57 Hình 2.7 Thuật toán PHP 62 Hình 2.8 Bộ nhớ với lần duyệt thuật toán PCY 63 Hình 2.9 Sử dụng nhớ cho bảng băm nhiều chặng 66 Hình 3.1 Công sức cần cho giai ñoạn khai phá liệu 82 Hình 3.2 Các bước khai phá luật kết hợp CSDL ngành Thuế 83 Hình 3.3 Nhánh phân cấp ngành nghề 85 Hình 3.4 Các luật khai phá từ ODM (ñộ dài luật = 2) 87 Hình 3.5 Các luật khai phá từ ODM (ñộ dài luật = 3) 89 Hình 3.6 Cây ñịnh dùng ODM – Bài toán phân tích tỷ suất 95 MỞ ðẦU Hình 3.7 Cây ñịnh dùng See5 – Bài toán phân tích tỷ suất 96 Thời ñại phát triển mạnh Internet, Intranet, Data warehouse, Hình 3.8 Cây ñịnh dùng ODM – Bài toán xét số liệu năm 99 với phát triển nhanh công nghệ lưu trữ ñã tạo ñiều kiện cho doanh Hình 3.9 Cây ñịnh dùng See5 – Bài toán phân tích năm 100 nghiệp, tổ chức thu thập sở hữu ñược khối lượng thông tin khổng lồ Hàng triệu CSDL ñã ñược dùng quản trị kinh doanh, quản lý phủ, quản lý liệu khoa học nhiều ứng dụng khác Với khả hỗ trợ mạnh Hệ quản trị CSDL, CSDL lớn lên nhanh chóng Câu “Sự lớn mạnh CSDL dẫn ñến cần thiết phải có kỹ thuật công cụ ñể thực chuyển ñổi tự ñộng liệu cách thông minh thành thông tin tri thức hữu ích” [10] ñã trở thành ñặt vấn ñề nhiều viết khai phá thông tin tri thức từ CSDL lớn Công tác ngành Thuế, nơi Công nghệ thông tin ñược áp dụng vào quản lý Thuế từ năm 1986, CSDL thông tin liên quan ñến lĩnh vực quản lý Thuế CSDL lớn chắn tiềm ẩn nhiều thông tin quý báu Với mong muốn bước ñầu áp dụng kỹ thuật khai phá liệu CSDL ngành Thuế, luận văn ñã tập trung nghiên cứu kỹ thuật khai phá liệu tiến hành khai phá thử nghiệm CSDL ngành Thuế Khả mở rộng tri thức có ích ẩn liệu ñể ñưa hành ñộng cần thiết dựa tri thức ñó ñang trở nên ngày quan trọng giới cạnh tranh Toàn trình dùng phương pháp luận dựa tính toán, bao gồm kỹ thuật ñể phát tri thức từ liệu ñược gọi khai phá liệu (data mining) [9] Khai phá liệu tìm kiếm thông tin mới, có giá trị không tầm thường khối lượng liệu lớn Nó phối hợp nỗ lực người máy tính Các kết tốt nhận ñược việc cân 10 tri thức chuyên gia người việc mô tả vấn ñề mục máy tính thống kê, ñã nhanh chóng mở rộng thành lĩnh vực/ngành ñích với khả tìm kiếm máy tính riêng Một lớn mạnh khai phá liệu ảnh Hai mục ñích khai phá liệu ñể dự ñoán (prediction) mô tả (description) Dự ñoán bao gồm việc dùng vài biến trường hưởng phạm vi rộng phương pháp luận kỹ thuật ñược ứng dụng ñối với loạt toán, lĩnh vực tập liệu ñể dự ñoán giá trị tương lai chưa biết biến Trong kinh doanh, khai phá liệu ñược dùng ñể khám phá cần quan tâm Còn mô tả tập trung vào việc tìm mẫu mô tả liệu mà xu hướng mua sắm mới, kế hoạch cho chiến lược ñầu tư, phát người hiểu ñược/ biên dịch ñược Có thể ñưa hoạt ñộng khai tiêu dùng không ñáng từ hệ thống kế toán Nó phá liệu vào hai loại sau: giúp cải tiến chiến dịch marketing ñể mang lại nhiều hỗ trợ quan tâm Khai phá liệu dự báo, tạo mô hình hệ thống ñược mô tả tập liệu cho trước, Khai phá liệu mô tả, với việc tạo thông tin mới, không tầm thường dựa tập liệu có sẵn tới khách hàng Các kỹ thuật khai phá liệu ñược áp dụng ñối với toán thiết kế lại quy trình kinh doanh, ñó mục ñích ñể hiểu ñược tương tác quan hệ thông lệ kinh doanh tổ chức kinh doanh Nhiều ñơn vị thi hành luật, ñơn vị ñiều tra ñặc biệt, có nhiệm vụ Một số chức khai phá liệu như: Mô tả khái niệm: Mô tả ñặc ñiểm phân biệt Tìm ñặc ñiểm khái quát hoá, tổng kết, ñặc ñiểm khác liệu Kết hợp: xem xét tương quan quan hệ nhân Phân lớp dự báo (Classification and Prediction): Xác ñịnh mô hình mô tả lớp riêng biệt dùng cho dự ñoán tương lai Phân tích nhóm (Cluster analysis): Chưa biết nhãn lớp, thực tìm hành ñộng không trung thực phát xu hướng phạm tội, ñã sử dụng khai phá liệu cách thành công Các kỹ thuật khai phá liệu ñược dùng tổ chức tình báo nơi lưu giữ nhiều nguồn liệu lớn liên quan ñến hoạt ñộng, vấn ñề an ninh quốc gia Với mục ñích nghiên cứu số phương pháp khai phá liệu thử nhóm liệu thành lớp dựa nguyên tắc cực ñại hoá nghiệm khai phá CSDL ngành Thuế, luận văn ñược trình bày với tương tự lớp cực tiểu hoá khác tương tự phần sau: lớp khác Phân tích nhiễu (Outlier analysis): Hữu ích việc phát lỗi, phân tích kiện Phân tích xu hướng phát triển Khai phá liệu lĩnh vực phát triển nhanh công nghiệp máy tính Từ chỗ miền quan tâm nhỏ khoa học Chương – Khai phá liệu: Tìm hiểu chức khai phá liệu Chương – Một số thuật toán khai phá liệu Nghiên cứu hai kiểu khai phá: Khai phá luật kết hợp - kỹ thuật thông dụng học không giám sát Phân lớp học ñịnh - kỹ thuật học có giám sát Chương – Áp dụng khai phá CSDL ngành Thuế: Thử nghiệm khai phá luật kết hợp phân lớp CSDL ngành Thuế 11 Chương – Kết luận kết ñạt ñược Cuối số hướng nghiên cứu Em xin chân thành cảm ơn PGS TS Nguyễn Ngọc Bình ñã hướng dẫn cho em ý kiến quý báu, chân thành cảm ơn thầy cô giáo trường ðại học Bách khoa Hà Nội ñã trang bị kiến thức giúp em hoàn thành luận văn 12 CHƯƠNG KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai phá liệu Khai phá liệu có nguồn gốc từ phương pháp riêng biệt, dạng quan trọng thống kê học máy Thống kê có nguồn gốc từ toán học ñó nhấn mạnh ñến ñộ xác toán học, mong muốn thiết lập mà nhận toán học trước kiểm thử thực tế Ngược lại, học máy có nguồn gốc nhiều thực tiễn tính toán ðiều dẫn ñến hướng thực tiễn, sẵn sàng kiểm thử ñể biết thực tốt mà không cần chờ chứng minh thức [9] Có thể có ñịnh nghĩa Khai phá liệu sau: Khai phá liệu trình phát mô hình, tổng kết khác giá trị ñược lấy từ tập liệu cho trước [9] Hay, Khai phá liệu thăm dò phân tích lượng liệu lớn ñể khám phá từ liệu mẫu hợp lệ, lạ, có ích hiểu ñược [14] Hợp lệ mẫu ñảm bảo tính tổng quát, lạ mẫu chưa ñược biết trước ñó, có ích dựa vào mẫu ñó ñưa hành ñộng phù hợp, hiểu ñược biên dịch hiểu thấu ñáo mẫu Các kỹ phân tích người không ñầy ñủ do: Kích thước chiều liệu; tốc ñộ tăng trưởng liệu lớn Thêm vào ñó ñáp ứng mạnh mẽ kỹ thuật khả năng: thu thập liệu, lưu trữ, lực tính toán, phần mềm, thành thạo chuyên môn Ngoài có môi trường cạnh tranh dịch vụ, không cạnh tranh giá (ñối với Ngân hàng, công ty ñiện thoại, khách sạn, công ty cho thuê …) với câu “Bí thành công biết mà không khác biết” (Aristotle Onassis [14]) Tất ñiều ñó nguyên nhân thúc ñẩy Khai phá liệu phát triển 13 14 Quá trình khám phá tri thức: Trước tiên, phân biệt thuật ngữ “mô hình (model)” “mẫu (pattern)” dùng khai phá liệu Mô hình cấu trúc “quy mô lớn”, tổng kết quan hệ qua nhiều trường hợp (case) (ñôi tất trường hợp), mẫu cấu trúc cục bộ, thoả mãn số trường hợp miền nhỏ không gian liệu Trong khai phá liệu, mẫu ñơn giản mô hình cục Quá trình khám phá tri thức tiến hành theo bước sau: Xác ñịnh toán nghiệp vụ: Trước tiên phải tìm hiểu lĩnh vực ứng dụng nghiệp vụ; Tìm hiểu tri thức liên quan mục ñích ứng dụng Khai phá liệu - Lựa chọn liệu: Xác ñịnh tập liệu ñích trường liên Hình 1.1 Quá trình khám phá tri thức quan - Làm liệu: Xoá bỏ nhiễu, tiền xử lý Phần việc chiếm tới 60% công sức - Giảm bớt liệu chuyển ñổi liệu: Tìm ñặc trưng Áp dụng khám phá tri thức ðánh giá ño ñạc Triển khai tích hợp vào qui trình nghiệp vụ hữu dụng, giảm bớt chiều biến, biểu diễn lại ñại lượng bất biến - Lựa chọn chức khai phá liệu: Tổng kết, phân lớp, Hồi qui, kết hợp, phân nhóm 1.1.1 Dữ liệu Do có nhiều kiểu liệu, CSDL sử dụng ứng dụng khác nhau, nên người dùng mong ñợi hệ thống khai phá liệu có - Lựa chọn thuật toán khai phá thể ñiều khiển ñược tất loại liệu Thực tế CSDL có sẵn thường - Thực khai phá liệu (Data Mining): Tìm kiếm mẫu quan CSDL quan hệ hệ thống khai phá liệu thực hiệu việc khai tâm - ðánh giá mẫu biểu diễn tri thức phá tri thức liệu quan hệ Với CSDL ứng dụng chứa kiểu liệu phức tạp, liệu hypertext multimedia, liệu tạm không gian (spatial), liệu kế thừa (legacy)… thường phải có hệ thống khai phá liệu riêng biệt xây dựng ñể khai phá cho kiểu liệu cụ thể 15 16 Dữ liệu ñược khai phá liệu có cấu trúc, cấu Trong dạng ña ghi (kiểu giao dịch), trường hợp (case) ñược trúc Mỗi ghi liệu ñược coi trường hợp ví dụ lưu nhiều ghi bảng với cột: dãy số ñịnh danh, tên (case/example) thuộc tính, giá trị Phân biệt hai kiểu thuộc tính: phân loại (categorical) số (numerical) Các thuộc tính kiểu phân loại thuộc tính có giá trị thuộc vào số lượng nhỏ phân loại lớp riêng rẽ chúng thứ tự ẩn Nếu có giá trị, ví dụ yes no, male female, thuộc tính ñược coi binary Nếu có giá trị, ví dụ, nhỏ, vừa, lớn, lớn, thuộc tính ñược coi ña lớp (multiclass) Các thuộc tính số thuộc tính lấy giá trị liên tục, ví dụ, thu nhập hàng năm, tuổi Thu nhập hàng năm tuổi lý thuyết giá trị từ tới vô hạn, giá trị thường xuất phù hợp với thực tế Các thuộc tính số ñược biến ñổi thành categorical: Ví dụ, thu nhập hàng năm ñược chia thành loại: thấp, trung bình, cao Dữ liệu cấu trúc áp dụng thuật toán khai phá liệu thường liệu kiểu Text Khuôn dạng bảng liệu thuộc hai loại: Dữ liệu dạng ñơn ghi (còn gọi kiểu không giao dịch), ñây bảng liệu quan hệ thông thường Dữ liệu dạng ña ghi (còn gọi kiểu giao dịch), ñược dùng cho liệu với nhiều thuộc tính Ở dạng ñơn ghi (kiểu không giao dịch), ghi ñược lưu trữ dòng bảng Dữ liệu ñơn ghi không ñòi hỏi cung cấp khoá ñể xác ñịnh ghi Nhưng, khoá cần cho trường hợp kết hợp (associate) ñể có kết cho học có giám sát Hình 1.2 Khuôn dạng ñơn ghi ña ghi 1.1.2 Tiền xử lý liệu Dữ liệu ñược chọn lọc phải qua bước tiền xử lý trước tiến hành khai phá phát tri thức Bước thu thập tiền xử lý liệu bước phức tạp ðể giải thuật DM thực toàn CSDL cồng kềnh, hiệu Trong trình khai phá liệu, nhiều phải thực liên kết/tích hợp liệu từ nhiều nguồn khác Các hệ thống sẵn có ñược thiết kế với mục ñích ñối tượng phục vụ khác nhau, tập hợp liệu từ hệ thống ñể phục vụ khai phá liệu, tượng dư thừa phổ biến, xảy xung ñột gây liệu, liệu không ñồng nhất, không xác Rõ ràng yêu cầu chọn lọc làm liệu cần thiết Nếu ñầu vào trình khai phá liệu DW thuận tiện, liệu ñã ñược làm sạch, quán có tính chất hướng chủ ñể 17 18 Tuy nhiên nhiều phải có thêm số bước tiền xử lý ñể ñưa liệu dẫn ñến việc ñi ñộ xác [11] (Các phương pháp tính toán ranh giới ñúng dạng cần thiết bin [11]) Ngoài số xử lý thông thường như: biến ñổi, tập hợp liệu từ nhiều nguồn kho chung, xử lý ñể ñảm bảo quán liệu (khử 1.1.3 Mô hình khai phá liệu Mô hình khai phá liệu mô tả khía cạnh cụ thể trường hợp lặp, thống cách ký hiệu, chuyển ñổi khuôn dạng thống (ñơn vị tiền tệ, ngày tháng )) Một số xử lý ñặc biệt cần ý tập liệu Nó tạo giá trị ñầu cho tập giá trị ñầu vào Ví dụ: Mô hình Hồi qui tuyến tính, mô hình phân lớp, mô hình phân bước tiền xử lý liệu: Xử lý với liệu thiếu (missing data): Thường khai phá liệu nhóm không ñòi hỏi NSD phải xử lý giá trị thiếu cách thức ñặc biệt Một mô hình khai phá liệu ñược mô tả mức: Khi khai phá, thuật toán khai phá bỏ qua giá trị thiếu Tuy nhiên Mức chức (Function level): Mô tả mô hình thuật vài trường hợp cần ý ñể ñảm bảo thuật toán phân biệt ñược giá trị có nghĩa (“0”) với giá trị trống (tham khảo [11]) Các giá trị gây nhiễu (Outliers): Một outlier giá trị xa bên miền thông thường tập hợp liệu, giá trị chênh lệch với chuẩn ý nghĩa Sự có mặt outliers có ảnh hưởng ñáng kể mô hình khai phá liệu Outliers ảnh hưởng ñến khai phá liệu bước tiền xử lý liệu ñược thực NSD tự ñộng xây dựng mô ngữ dự ñịnh sử dụng Ví dụ: Phân lớp, phân nhóm Mức biểu diễn (representation level): Biểu diễn cụ thể mô hình Ví dụ: Mô hình log-linear, phân lớp, phương pháp láng giềng gần Các mô hình khai phá liệu dựa kiểu học: có giám sát không giám sát (ñôi ñược nói ñến học trực tiếp không trực tiếp – directed and undirected learning) [11] Các hàm học có giám sát (Supervised learning functions) ñược sử dụng ñể dự ñoán giá trị Các hàm học không giám sát ñược dùng ñể tìm cấu trúc hình Binning: Một vài thuật toán khai phá liệu có lợi nhờ việc bên trong, quan hệ tính giống nội dung liệu binning với hai loại liệu number categorical Các thuật toán Naive lớp hay nhãn ñược gán ưu tiên Ví dụ thuật toán học Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, không giám sát gồm phân nhóm k-mean (k-mean clustering) luật kết Association Rules có lợi từ việc binning hợp Apriori Một ví dụ thuật toán học có giám sát bao gồm Naive Bayes Binning nghĩa nhóm giá trị liên quan với nhau, giảm số cho phân lớp (classification) lượng giá trị riêng biệt thuộc tính Có giá trị riêng biệt Tương ứng có loại mô hình khai phá liệu: dẫn ñến mô hình gọn nhẹ xây dựng ñược nhanh hơn, Các mô hình dự báo (học có giám sát): 19 • Phân lớp: nhóm items thành lớp riêng biệt dự ñoán item thuộc vào lớp • Hồi qui (Regression): xấp xỉ hàm dự báo giá trị liên tục • ðộ quan trọng thuộc tính: xác ñịnh thuộc tính quan trọng kết dự báo Các mô hình mô tả (học không giám sát): • Phân nhóm (Clustering): Tìm nhóm tự nhiên liệu 20 cho trường hợp với giá trị ñích chưa biết ñể dự ñoán giá trị ñích Mô hình phân lớp ñược dùng liệu kiểm thử/dữ liệu ñánh giá với mục ñích so sánh giá trị dự báo với câu trả lời ñã biết Kỹ thuật ñược gọi kiểm tra mô hình, ño ñộ xác dự báo mô hình Áp dụng mô hình phân lớp ñối với liệu ñược gọi sử dụng mô • Các mô hình kết hợp (Association models): Phân tích “giỏ hàng” hình, liệu ñược gọi liệu sử dụng hay liệu trung tâm (apply data • Trích chọn ñặc trưng (Feature extraction): Tạo thuộc tính or scoring data) Việc sử dụng liệu thường ñược gọi ‘scoring the data’ (ñặc trưng) kết hợp thuộc tính ban ñầu Sự phân lớp ñược dùng phân ñoạn khách hàng, phân tích tín dụng, nhiều ứng dụng khác Ví dụ, công ty thẻ tín dụng muốn dự báo 1.2 Các chức khai phá liệu 1.2.1 Phân lớp (Classification) khách hàng không trả ñúng hạn chi trả họ Mỗi khách hàng tương ứng với trường hợp; liệu cho trường hợp bao gồm số thuộc tính mô tả thói quen tiêu dùng khách hàng, thu Trong toán phân lớp, ta có liệu lịch sử (các ví dụ ñược gán nhãn nhập, thuộc tính nhân học,… ðây thuộc tính dự báo - thuộc lớp nào) liệu chưa ñược gán nhãn Mỗi ví dụ ñược gán Thuộc tính ñích có hay không người khách hàng ñã vỡ nợ/không trả nhãn bao gồm nhiều thuộc tính dự báo thuộc tính ñích (biến phụ ñúng hạn; vậy, có hai lớp có khả năng, tương ứng với vỡ nợ không thuộc) Giá trị thuộc tính ñích nhãn lớp Các ví dụ không Dữ liệu huấn luyện ñược dùng ñể xây dựng mô hình dùng cho dự báo ñược gán nhãn bao gồm thuộc tính dự báo Mục ñích việc phân trường hợp sau (dự báo khách hàng có khả chi trả nợ lớp xây dựng mô hình dựa vào liệu lịch sử ñể dự báo xác nhãn không) (lớp) ví dụ không gán nhãn [11] Chi phí (Costs): Nhiệm vụ phân lớp bắt ñầu với việc xây dựng liệu (dữ liệu huấn Trong toán phân lớp, cần xác ñịnh chi phí bao hàm việc luyện) có giá trị ñích (nhãn lớp) ñã biết Các thuật toán phân lớp khác tạo ñịnh sai lầm Việc quan trọng cần thiết có dùng kỹ thuật khác cho việc tìm quan hệ giá trị chênh lệch chi phí lớn phân lớp sai (misclassification) Ví dụ, thuộc tính dự báo giá trị thuộc tính ñích liệu huấn toán dự báo có hay không người trả lời với thư quảng cáo ðích có luyện Những quan hệ ñược tổng kết mô hình, sau ñó ñược dùng phân loại: YES (khách hàng trả lời) NO (khách hàng không trả lời) Giả sử trả lời tích cực ñối với quảng cáo sinh $500 trị giá $5 ñể gửi thư Nếu 83 84 Như ñã nêu mục 3.3, toán khai phá luật kết hợp phù hợp cho việc phát tri thức phục vụ cho công tác tuyên truyền, hỗ trợ ðTNT Những luật phát ñược giúp cán tuyên truyền, hỗ trợ xác ñịnh ñược phạm vi ðTNT ñể ñưa hình thức tuyên truyền phù hợp Dưới ñây khai phá thử nghiệm phát mối liên hệ ngành nghề, quy mô doanh nghiệp (theo doanh thu), số thuế phải nộp tình trạng nộp chậm thuế Xác ñịnh nội dung khai phá: Nhằm xác ñịnh phạm vi ðTNT cần tập trung tuyên truyền nâng cao ý thức nghiêm chỉnh chấp hành nghĩa vụ Thuế Bài toán dựa vào thông tin có khả liên quan ñến tình trạng nộp chậm Thuế, bao gồm: ngành nghề kinh doanh, quy mô doanh nghiệp (tính theo doanh thu), số thuế phải nộp Lựa chọn liệu: Hình 3.2 Các bước khai phá luật kết hợp CSDL ngành Thuế Thông tin từ Báo cáo kết sản xuất kinh doanh ðTNT: Có ñược thông tin doanh thu, số thuế phải nộp Khi ñặt tham số cho mô hình khai phá luật kết hợp cao với liệu, kết không thu ñược luật Khi ñó thực ñiều chỉnh tham số mô hình Trường hợp thay ñổi tham số không hiệu quả, phải xem xét lại từ bước tiền xử lý liệu Trường hợp không loại bỏ items phổ biến tập liệu dẫn ñến kết khai phá không mong muốn Hoặc xem xét lại cách xử lý với liệu thiếu Cũng phải xem xét lại liệu lựa chọn cho khai phá ñã ñúng chưa Thử nghiệm khai phá luật kết hợp ñược thực theo bước nêu ñây kết cuối Các mã lệnh tương ứng ñược trình bày phần phụ lục Dữ liệu ngành nghề ðTNT: • ID • Mã số thuế • Mã ngành nghề • Trường xác ñịnh liệu lịch sử hay Mã ngành nghề biểu diễn ký tự (ví dụ: L7221 – Cho thuê máy móc thiết bị nông nghiệp) Sự phân cấp ngành nghề ñược tổ chức mã Ví dụ nhánh phân cấp hình 3.3 85 86 ðưa liệu dạng phù hợp với yêu cầu khai phá: Dữ liệu ñược ñưa dạng: (Mã số thuế, ngành sx, Union Mã số thuế, doanh thu, Union Mã số thuế, thuế phải nộp, Union Mã số thuế, nộp chậm, 1) Hình 3.3 Nhánh phân cấp ngành nghề Và chuyển dạng nested table: CREATE VIEW TR_dondoc_AR AS Tình trạng nộp chậm thuế: ðược lấy từ thông tin tính phạt nộp chậm SELECT TIN, hệ thống thông tin Quản lý thuế Ở ñây lấy thông tin ðTNT có nộp CAST(COLLECT(DM_Nested_Numerical( chậm thuế (1) hay không (0) SUBSTRB(nganhsx, 1, 10), has_it)) AS DM_Nested_Numericals) tinnganhsx Tiền xử lý liệu: FROM tr_dondoc Với ngành nghề ñể mức thấp khó phát luật Sẽ thực khai phá mức khái niệm cao Như lấy giá trị ngành nghề có biến ñổi: lấy ngành nghề kinh doanh ñối tượng theo ký tự ñầu ngành nghề Quy mô doanh nghiệp ñược phân loại dựa theo doanh thu trung bình tháng ñối tượng (tính trung bình năm), chia thành GROUP BY TIN; ðặt tham số cho mô hình: Ngưỡng ñộ hỗ trợ cực tiểu: 0.1 Ngưỡng ñộ chắn cực tiểu: 0.1 ðộ dài luật khai phá: Tạo mô hình ñưa kết quả: mức: Rất nhỏ (từ ñến 100.000.000), nhỏ (từ 100.000.000 ñến 500.000.000), Item ðộ hỗ trợ (support) trung bình (từ 500.000.000 ñến 1.000.000.000), lớn (từ 1.000.000.000 ñến G51 24691358024691358024691358024691358025 5.000.000.000), lớn (trên 5.000.000.000) SMALL 24867724867724867724867724867724867725 Số thuế phải nộp trung bình tháng ñược phân nhóm thành khoảng triêu, 10 triệu, 20 triệu, 30 triệu, 50 triệu, 100 triệu, 500 triệu, tỷ, tỷ Số items VERY SMALL 3015873015873015873015873015873015873 1 1-1 31393298059964726631393298059964726631 0-1 68606701940035273368606701940035273369 74074074074074074074074074074074074074 22751322751322751322751322751322751323 87 88 VERY SMALL 22751322751322751322751322751322751323 22927689594356261022927689594356261023 22927689594356261022927689594356261023 29276895943562610229276895943562610229 VERY SMALL 29276895943562610229276895943562610229 51146384479717813051146384479717813051 51146384479717813051146384479717813051 Các luật khai phá ñược: VERY LARGE => 0: ðTNT có quy mô lớn có 84% không nộp chậm thuế SMALL => 5: ðTNT có quy mô nhỏ, có 77% nộp thuế triệu/tháng VERY SMALL => 0: ðTNT có quy mô nhỏ 75% thực tốt nghĩa vụ Thuế, không nộp chậm thuế => 5: Trong số ðTNT không nộp chậm thuế có 74% ðTNT phải nộp triệu/tháng => 5: Trong số ðTNT nộp chậm thuế có 73% ðTNT phải nộp triệu/tháng Một số ý nghĩa rút ñược từ luật trên: Những ðTNT thuộc diện nộp thuế triệu/tháng có tượng Hình 3.4 Các luật khai phá từ ODM (ñộ dài luật = 2) chậm nộp thuế Tuy nhiên số lượng số ðTNT chấp hành tốt nghĩa vụ ñóng thuế thuộc diện nộp thuế triệu/tháng lớn nhiều so với số LUẬT CONFIDENCE SUPPORT VERY SMALL => 97.07603 29.276896 G51 => 89.28571 22.045855 lượng chậm nộp thuế (theo luật 7) Thêm vào ñó số thuế thường nhỏ nên tổng thu từ ðTNT không lớn Cần tổ chức hình thức tuyên truyền công cộng, ñỡ tốn phí tuyên truyền cho ðTNT VERY LARGE => 84.05797 10.229277 SMALL => 77.30496 19.223986 Những ñối tượng có quy mô lớn nghiêm chỉnh chấp hành nghĩa vụ VERY SMALL => 75.4386 22.751324 Thuế có lợi cho nhà nước (luật 3) Bởi cần có chế ñộ, sách => 74.550125 51.146385 => 73.03371 22.92769 khen thưởng kịp thời ðTNT Nhận xét: Khai phá ñược luật ñều có ñộ chắn lớn VERY SMALL => 5: Quy mô nhỏ 97% có số thuế phải nộp triệu/tháng G51 => 5: Ngành nghề ‘Bán buôn ñại lý (trừ xe có ñộng môtô, xe máy)’ 89% có số thuế phải nộp triệu/tháng Khai phá thêm luật với ñộ dài luật khai phá = ðặt tham số cho mô hình: Ngưỡng ñộ hỗ trợ cực tiểu: 0.1 Ngưỡng ñộ chắn cực tiểu: 0.1 ðộ dài luật khai phá: 89 90 Tạo mô hình ñưa kết quả: Item ðộ hỗ trợ (support) Số items LUẬT CONFIDENCE SUPPORT AND VERY SMALL => 99.22481 22.574955 97.07603 29.276896 90.81633 15.696649 G51 24691358024691358024691358024691358025 VERY SMALL => SMALL 24867724867724867724867724867724867725 AND G51 => VERY SMALL 3015873015873015873015873015873015873 G51 => 89.28571 22.045855 84.05797 10.229277 31393298059964726631393298059964726631 VERY LARGE => 0 68606701940035273368606701940035273369 AND SMALL => 81.17647 12.1693125 77.30496 19.223986 74074074074074074074074074074074074074 SMALL => 22751322751322751322751322751322751323 AND VERY SMALL => 77.10844 22.574955 VERY SMALL 22751322751322751322751322751322751323 VERY SMALL => 75.4386 22.751324 => 74.550125 51.146385 => 73.03371 22.92769 AND G51 => 71.2 15.696649 5 22927689594356261022927689594356261023 22927689594356261022927689594356261023 29276895943562610229276895943562610229 VERY SMALL 29276895943562610229276895943562610229 51146384479717813051146384479717813051 51146384479717813051146384479717813051 Các luật khai phá ñược: Nhận xét: Khai phá ñược luật ñều có ñộ chắn lớn Các luật ñộ dài ñã ñược khai phá từ bước trước có diễn giải Dưới ñây nêu luật ñộ dài AND VERY SMALL => 5: Trong số ðTNT không nộp chậm thuế thuộc loại ðTNT quy mô nhỏ 99% số ñó có số thuế phải nộp triệu/tháng AND G51 => 5: ðTNT chấp hành tốt nghĩa vụ Thuế thuộc ngành nghề ‘Bán buôn ñại lý (trừ xe có ñộng môtô, xe máy)’ 90% số ñó có số thuế phải nộp hàng tháng triệu AND SMALL => 5: Trong số ðTNT không nộp chậm thuế thuộc loại ðTNT quy mô nhỏ 81% số ñó có số thuế phải nộp triệu/tháng Hình 3.5 Các luật khai phá từ ODM (ñộ dài luật = 3) AND VERY SMALL => 0: ðTNT phải nộp thuế triệu/tháng có quy mô nhỏ 77% nộp thuế ñúng hạn 91 5 AND G51 => 0: 71% ðTNT có số thuế phải nộp 92 Kiểm thử liệu kiểm thử: Áp dụng mô hình ñể phân loại triệu/tháng kinh doanh ngành nghề ‘Bán buôn ñại lý (trừ xe liệu kiểm thử so sánh với thuộc tính ñích ñể ñánh giá ñộ có ñộng môtô, xe máy)’ thực tốt nghĩa vụ nộp thuế xác Ở ñây lựa chọn phân loại có dùng không dùng ma trận chi phí Một số ý nghĩa từ luật trên: ðTNT có quy mô nhỏ, nhỏ có số thuế phải nộp triệu/tháng, ñặc biệt ðTNT thuộc ngành nghề ‘Bán buôn ñại lý (trừ xe có Cuối sử dụng mô hình mô hình có ñộ xác chấp nhận ñược: Áp dụng mô hình liệu chưa phân loại, ñưa dự báo ñộng môtô, xe máy)’ quan tâm nhiều ñến việc ñốc thúc Áp dụng phân lớp CSDL ngành Thuế có thể: thu thuế, ðTNT thuộc phạm vi thường nghiêm chỉnh chấp hành việc Dùng ñể dự báo ðTNT nợ thuế, phục vụ cho công tác ñôn ñốc thu nộp thuế Dùng ñể dự báo ðTNT nghi ngờ vi phạm, gian lận… phục vụ cho 3.5 Phân lớp học ñịnh Trong phân lớp học ñịnh, sau xác ñịnh toán công tác tra Thuế Những tiêu thường ñược lấy làm phân tích phục vụ công tác tra Thuế gồm thông tin sau: lựa chọn liệu cần thực bước tạo liệu huấn luyện dùng ñể Các tỷ suất thể khả toán, tỷ suất sinh lời, tỷ suất xây dựng mô hình, ñể kiểm thử ñánh giá ñộ xác mô hình Mô hiệu quả, cấu tài sản cấu nguồn vốn, tỷ suất liên quan ñến hình ñạt ñược ñộ xác chấp nhận ñược ñược sử dụng với liệu kê khai thuế Quy mô doanh nghiệp: Quy mô theo doanh thu, nguồn vốn, theo Tài Sử dụng ODM ñể phân lớp qua bước sau: Chuẩn bị liệu (xác ñịnh thuộc tính phân loại, tổ chức liệu phải tương tự nhau) Thiết lập tham số: Lựa chọn thuật toán nào, xác ñịnh ma trận chi phí sản cố ñịnh Xác ñịnh rủi ro theo: Quy mô doanh nghiệp, loại hình doanh nghiệp, theo mức ñộ tuân thủ nộp thuế, hiệu sản xuất kinh doanh, tình hình kê khai thuế doanh nghiệp Có nhiều cách phân tích dựa tiêu Có thể tính toán Xây dựng mô hình dựa vào tham số ñã thiết lập Ngoài ra, tỷ suất doanh nghiệp so sánh với doanh nghiệp ñó qua rõ: Sử dụng ma trận chi phí nào, thuộc tính khoá xác ñịnh thời kỳ khác so sánh với tỷ suất chuẩn ngành Có thể xem ghi, thuộc tính ñích (là thuộc tính phân lớp), xét tỷ suất theo nhiều năm doanh nghiệp ngành kinh tế liệu huấn luyện tỷ suất trung bình ngành theo năm So sánh doanh thu, chi phí doanh nghiệp qua năm so với doanh thu, chi phí trung bình ngành 93 94 Thực tế phối hợp ñược nhiều tiêu phân tích số liệu thu thập ñược xác có ñược nhận ñịnh có ñộ chắn cao Sự phối hợp thông tin ngành khác quan trọng, ví dụ lấy số liệu thống kê ngành nghề từ Cục Thống Kê Tính toán Tỷ suất Sinh lợi trung bình ngành năm 2004 2005 ðể thử nghiệm công cụ khai phá Oracle See5, lọc lấy phần nhỏ liệu Và lấy số ngành nghề như: K70 - Hoạt ñộng khoa Với mục ñích khai phá thử nghiệm, toán khai phá luận học công nghệ, D26 - Sản xuất sản phẩm từ khoáng chất, I60 - Vận tải văn coi minh hoạ cho khả khai phá liệu, ñể từ ñó phát ñường bộ, D22 - Xuất bản, in sảo ghi loại, C14 – Khai thác than ñã triển sau với phân tích ñầy ñủ tiêu khai thác mỏ ñá, C10 – Khai thác than cứng, than non, than bùn, J65 – 3.5.1 Phân lớp ðTNT dựa vào so sánh tỷ suất năm Trung gian tài (Trừ bảo hiểm trợ cấp hưu trí) Dữ liệu cho xây dựng ñịnh sau: Xác ñịnh nội dung khai phá • Mã số thuế (TIN) Dựa vào cách phân tích tỷ suất ðTNT qua năm so sánh • Ngành sản xuất (chỉ lấy mức ký tự) (NGANHSX) với tỷ suất chung Ngành, ñưa toán: Căn vào tỷ suất Sinh lợi ðTNT qua hai năm tỷ suất Sinh lợi ngành ñể ñưa nhận ñịnh ðTNT có thuộc diện cần phải xem xét không Tỷ suất Sinh lợi = (Lợi nhuận + Chi phí lãi vay)/Doanh thu Lựa chọn liệu Số liệu ñược lấy từ Báo cáo Kết hoạt ñộng kinh doanh ðTNT Báo cáo kết hoạt ñộng kinh doanh: • Chênh lệch tỷ suất sinh lợi năm (SoTSSinhLoi) • Chênh lệch tỷ suất sinh lợi ngành nghề (SoTS) • Trường phân loại xác ñịnh ðTNT có thuộc diện phải xem xét hay không (XEMXET) Thiết ñặt tham số xác ñịnh ma trận chi phí: Ma trận chi phí: Chi phí • Mã số thuế Xem xét (thực tế) • Loại báo cáo Không xem xét • Năm (thực tế) Dự báo cần xem xét Dự báo không xem xét • Chỉ tiêu báo cáo • Số tiền Chọn sử dụng thuật toán ñịnh Mã ngành nghề ðTNT ñược lấy theo liệu ngành nghề Tạo mô hình: Tiền xử lý liệu ðây bước xây dựng ñịnh Lấy tiêu cần thiết ñể tính Tỷ suất Sinh lợi, lấy liệu năm Kiểm thử, ñánh giá mô hình: 2004 2005 ñể so sánh Áp dụng liệu kiểm thử 95 96 ðánh giá ñộ xác dùng ma trận chi phí không dùng Thực liệu ngành Thuế, có kết sau: ðộ xác không dùng ma trận chi phí dùng ma trận chi phí 80% Cây ñịnh sau: Hình 3.7 Cây ñịnh dùng See5 – Bài toán phân tích tỷ suất Có thể thấy công cụ demo dựng chi tiết hơn, ñộ xác cao Hình 3.6 Cây ñịnh dùng ODM – Bài toán phân tích tỷ suất Nhận xét: Kết cho thấy: Với ngành nghề ñược chọn ñều có mức chung cho việc phân lớp Nếu ðTNT có tỷ suất sinh lợi năm sau giảm so với năm trước mức ñó phải xem xét lại ðTNT ñó Ở ñây mức phải xem xét mức -0.00166, nghĩa tỷ suất sinh lợi ngành ñang xét năm 2005 giảm ñi 0.00166 so với tỷ suất sinh lợi ðTNT năm 2004, ðTNT ñược xếp vào loại cần xem xét Thực tế ðTNT có tỷ suất sinh lợi giảm mức ñó, mức chung ngành phát triển, tỷ suất sinh lợi tăng hàng năm cần phải xem xét Áp dụng số liệu với công cụ See5 ta có kết sau: Tỷ lệ lỗi 8%, nghĩa xác 82% - cao so với thực ODM Cây ñịnh sau: Tuy nhiên với công cụ khai phá liệu lớn có xem xét ñể cân ñối ñộ phức tạp với ñộ xác Với ñịnh sinh See5 phát biểu kết sau: Nếu chênh lệch tỷ suất sinh lợi ðTNT so với năm trước giảm ñi 0.0029 chưa cần xem xét Nếu chênh lệch giảm nhiều 0.0029 cần xem xét ñến Chênh lệch tỷ suất sinh lợi ngành Nếu tỷ suất sinh lợi ngành so với năm trước có giảm nhỏ 0.0108 ðTNT không cần xem xét, so với năm trước tỷ suất sinh lợi năm giảm 0.0108 cần xem xét ðTNT ñó 3.5.2 Phân lớp ðTNT theo số liệu năm Xác ñịnh nội dung khai phá So sánh số liệu ðTNT năm so với số bình quân tương ứng ngành Các tiêu xem xét, lấy từ Báo cáo kết kinh doanh ðTNT: 97 Tỷ suất sinh lợi = (Lợi nhuận kinh doanh + Chi phí lãi vay) / Doanh thu Tổng doanh thu = Doanh thu bán hàng cung cấp dịch vụ + 98 Dữ liệu ñược ñể view tương ứng với liệu ñể xây dựng, kiểm thử áp dụng với liệu mới: tr_So1Nganh_Build_v, tr_So1Nganh_Test_v, tr_So1Nganh_Apply_v Doanh thu hoạt ñộng tài + Thu nhập khác Chi phí = Chi phí tài + Chi phí bán hàng + Chi phí quản lý doanh nghiệp + Chi phí khác Lựa chọn liệu Thiết ñặt tham số xác ñịnh ma trận chi phí: Ma trận chi phí: Chi phí Dự báo cần xem xét Dự báo không xem xét 1 Số liệu ñược lấy từ Báo cáo Kết hoạt ñộng kinh doanh ðTNT Mã ngành nghề ðTNT ñược lấy theo liệu ngành nghề Xem xét (thực tế) Tiền xử lý liệu Không xem xét Lấy tiêu cần thiết ñể tính Tỷ suất Sinh lợi, Tổng doanh thu, Chi (thực tế) phí năm Tính toán tiêu trung bình ngành: Tỷ suất Sinh lợi trung bình, doanh thu trung bình, chi phí trung bình ngành năm Cũng thử nghiệm See5, lọc lấy phần nhỏ liệu Và lấy số ngành nghề với toán (các ngành sản xuất: K70, D26, I60, Chọn sử dụng thuật toán ñịnh Tạo mô hình: Xây dựng ñịnh từ tr_So1Nganh_Build_v Kiểm thử, ñánh giá mô hình, áp dụng trên: tr_So1Nganh_Test_v D22, C14, C10, J65) Dữ liệu cho xây dựng ñịnh sau: Kết quả: • Mã số thuế (TIN) Áp dụng liệu kiểm thử (không dùng ma trận chi phí): ñạt ñộ • Ngành sản xuất (chỉ lấy mức ký tự) (NGANHSX) xác 80% Với kết quả: • Tỷ suất sinh lợi (TS) Giá trị thực Giá trị dự báo Số lượng • Tổng doanh thu (DT) 0 20 • Chi phí (CP) • Trường phân loại xác ñịnh ðTNT có thuộc diện phải xem xét hay không (XEMXET) Áp dụng liệu kiểm thử (có dùng ma trận chi phí): ñạt ñộ xác 96% Với kết quả: 99 100 Giá trị thực Giá trị dự báo Số lượng 0 19 1 1 Cây ñịnh sau: Hình 3.9 Cây ñịnh dùng See5 – Bài toán phân tích năm Hình 3.8 Cây ñịnh dùng ODM – Bài toán xét số liệu năm Nhận xét: Nhận xét: Công cụ khai phá ODM ñã dựa vào kết xác ñịnh thuộc tính kiểm tra TS (tỷ suất sinh lợi) làm ñiều kiện cho xây dựng Có nhận xét với toán trên, xây dựng See5 chi tiết hơn, thuật toán quan tâm xây dựng ñúng với mẫu huấn luyện nên có kết phức tạp ñịnh.Với kết trên: Với ngành nghề ñang xem xét ñều có mức Với ñịnh sinh See5 phát biểu kết sau: chung cho việc phân lớp Nếu ðTNT có tỷ suất sinh lợi so với tỷ suất sinh lợi Nếu chênh lệch tỷ suất sinh lợi ðTNT so với tỷ suất sinh lợi chung chung ngành nhỏ 0.00939 không cần xem xét ðTNT ñó 0.0084 chưa phải xem xét Trường hợp nhiều 0,0081 so với tỷ Trường hợp ngược lại cần phải xem xét lại ðTNT suất sinh lợi chung cần tiếp tục xem xét Các xem xét tiếp sau thực Áp dụng số liệu với công cụ See5 ta có kết sau: với ngành sản xuất Nếu ngành số K70, D22, I65, ngành = D36 Tỷ lệ lỗi 1.3%, nghĩa xác 89.7% - cao so với thực không cần xem xét Ngành C14 phải xem xét ODM Cây ñịnh sau: Trường hợp ngành sản xuất I60 cần xét tiếp ñến Chi phí (CP) Còn ngành sản xuất C10 xem xét tiếp Tỷ suất sinh lợi chung ngành (TS) 101 102 Thực tế, việc phối hợp nhiều tiêu số thống kê ngành CHƯƠNG KẾT LUẬN xác, thêm vào kết thực tế ñã tra ðTNT nhận ñịnh xác cán tra có kinh nghiệm cho phép xây Với nội dung Nghiên cứu áp dụng số kỹ thuật khai phá liệu dựng ñược mô hình phân lớp hoàn chỉnh Mô hình xác cao giúp CSDL ngành Thuế Việt Nam, luận văn bước khởi ñầu tìm hiểu nâng cao hiệu công tác quản lý Thuế toán khai phá liệu, tìm hiểu vấn ñề cần quan tâm khai phá liệu ñể từ ñó ñưa vào áp dụng thực tế Trong khuôn khổ luận văn chưa thể thử nghiệm khai phá, áp dụng nhiều kỹ thuật khai phá Luận văn dừng lại mức áp dụng chủ yếu khai phá luật kết hợp kỹ thuật phân lớp CSDL ngành Thuế Mặc dù kết khai phá chưa mang nhiều ý nghĩa thực tế ñã ñem lại ý nghĩa ban ñầu việc áp dụng kỹ thuật khai phá ñể phát tri thức từ CSDL Những kết mà luận văn ñã ñạt ñược: Tìm hiểu chức kỹ thuật khai phá liệu Nắm ñược trường hợp áp dụng Do ñiều kiện thời gian chưa cho phép ñi sâu nghiên cứu kỹ tất kỹ thuật khai phá liệu, luận văn tập trung tìm hiểu chi tiết ñối với chức khai phá luật kết hợp khai phá học ñịnh Nắm ñược thuật toán, so sánh hiệu thuật toán, vấn ñề quan tâm cải tiến thuật toán khai phá luật kết hợp, thuật toán ñảm bảo hiệu Áp dụng thử nghiệm số khai phá liệu CSDL ngành Thuế Qua ñó có ñược kinh nghiệm ban ñầu khai phá tri thức liệu thực: a) Công việc chuẩn bị liệu công việc quan trọng nhiều thời gian Thường liệu thực có vấn ñề phải xử lý 103 104 liệu thiếu, chí CSDL thiểu hẳn thông tin quan trọng cần TÀI LIỆU THAM KHẢO cho khai phá b) Việc kết hợp với chuyên gia phân tích quan trọng ñể xác ñịnh ñược ñúng thuộc tính dự báo ñưa yêu cầu cần thiết Tiếng Việt Trương Ngọc Châu, Phan Văn Dũng (2002), Nghiên cứu tính ứng thuộc tính ñích xác ñịnh ngưỡng giá trị quan trọng dụng khai thác luật kết hợp Cơ sở liệu giao dịch, Trường ðại học Bách Khoa, ðại học ðà Nẵng http://www.ud.edu.vn/bankh/zipfiles/2_chau_truongngoc.doc HƯỚNG NGHIÊN CỨU TIẾP THEO Nguyễn An Nhân (2001), Khai phá liệu phát luật kết hợp Cơ sở liệu lớn, Luận văn thạc sĩ ngành Công nghệ Tìm hiểu, nghiên cứu khai thác rộng sâu tri thức lý thuyết khai phá liệu ñể vận dụng vào thực tiễn xác Thông tin, Trường ðại học Bách khoa Hà Nội Nguyễn Lương Thục (2002), Một số phương pháp khai phá luật kết Thử nghiệm ñánh giá kỹ thuật toán liệu lớn hợp cài ñặt thử nghiệm, Luận văn thạc sĩ ngành Công nghệ Khai phá liệu kho liệu với luật kết hợp ña chiều, nhiều Thông tin, Trường ðại học Bách khoa Hà Nội mức Các hướng hiệu chỉnh số liệu Tìm hiểu công cụ hỗ trợ hiển thị kết dạng ñồ hoạ (ñồ thị, biểu ñồ…) Tiếng Anh Ashok Savasere, Edward Omiecinski, Shamkant Navathe (1995), An Efficient, Algorithm for Mining Association Rules in Large Thuyết phục khởi ñầu dự án xây dựng hệ thống phân tích thông tin phục vụ quản lý thuế, ñôn ñốc nợ tra kiểm tra Trong dự án có phối hợp chặt chẽ với chuyên gia phân tích nghiệp vụ bước chuẩn bị khai phá liệu ñánh giá kết Databases, College of Computing Georgia Institute of Technology - Atlanta H.Hamilton E Gurak, L Findlater W Olive (2001), Overview of Decision Trees Jeffrey D Ullman (2003), Data Mining Lecture Notes, 2003's edition of CS345 Jiawei Han and Michelline Kamber (2000), Data mining: Concepts and Techniques, Morgan Kaufmann Publishers 105 106 PHỤ LỤC Jyothsna R Nayak and Diane J.Cook (1998), Approximate Association Rule Mining, Department of Computer Science and Engineering, Arlington Mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons Một số mã phần khai phá liệu CSDL ngành Thuế: Khai phá luật kết hợp: Chuẩn bị liệu drop table tr_dondoc; 10.Ming-Syan Chen, Jiawei Han, Philip S Yu (1999), Data Mining: An create table tr_dondoc as Overview from Database Perspective, Natural Sciences and (select a.tin, a.nganhsx, Engineering Research Council of Canada 11.Oracle (2003), Oracle Data Mining Concepts 10g Release (10.1), Oracle Corporation a.tongDT/12 DT, PhaiNop/12 PN, nopcham from tr_tysuat a where nam=2005); 567 recs 12.Rakesh Agrawal, John C Shafer (1996), Parallel Mining of update tr_dondoc a Association Rules: Design, Implementation and Experience, set nopcham = IBM Research Report, IBM Research Division Almaden where exists (select tin from tr_nopcham b Research Center 13.Rakesh Agrawal, Ramakrishnan Srikant (1994), Fast Algorithms for Mining Association Rules, IBM Almaden Research Center 14.Ramakrishnan and Gehrke (2002), Database Management Systems, McGraw-Hill, 3rd Edition where b.tin = a.tin and to_char(b.ngay_bdau,'rrrr')='2005'); commit; 178 recs EXPORT IMPORT VAO SH drop table tr_dondoc1; create table tr_dondoc1 as (select tin, nganhsx, decode(sign(dt - 100000000),-1,'VERY SMALL', decode(sign(dt - 500000000),-1,'SMALL', decode(sign(dt - 1000000000),-1,'MEDIUM', decode(sign(dt-5000000000),-1,'LARGE', 'VERY LARGE')))) DT, decode(sign(round(PN/1000000) - 5), -1, '5', decode(sign(round(PN/1000000) - 10), -1, '10', decode(sign(round(PN/1000000) - 20), -1, '20', decode(sign(round(PN/1000000) - 30), -1, '30', 107 108 decode(sign(round(PN/1000000) - 50), -1, '50', SUBSTRB(nganhsx, 1, 10), has_it)) decode(sign(round(PN/1000000) - 100), -1, '100', AS DM_Nested_Numericals) tinnganhsx decode(sign(round(PN/1000000) - 500), -1, '500', decode(sign(round(PN/1000000) - 1000), -1, '1000', decode(sign(round(PN/1000000) - 5000), -1, '5000', '>5000'))))))))) PN, nopcham FROM tr_dondoc GROUP BY TIN; Thiết ñặt tham số BEGIN EXECUTE IMMEDIATE from tr_dondoc); Chuyển ñúng khuôn dạng cho khai phá luật kết hợp 'DROP TABLE ar_dondoc_settings'; EXCEPTION WHEN OTHERS THEN NULL; END; drop table tr_dondoc2; / create table tr_dondoc2 as set echo off (select tin, nganhsx, has_it CREATE TABLE ar_dondoc_settings ( from tr_dondoc1 setting_name union setting_value VARCHAR2(30)); select tin, dt, has_it VARCHAR2(30), set echo on from tr_dondoc1 union BEGIN select tin, to_char(pn) pn, has_it INSERT INTO ar_dondoc_settings VALUES from tr_dondoc1 (dbms_data_mining.asso_min_support,0.1); union INSERT INTO ar_dondoc_settings VALUES select tin, to_char(nopcham) nopcham, has_it (dbms_data_mining.asso_min_confidence,0.1); from tr_dondoc1); INSERT INTO ar_dondoc_settings VALUES (dbms_data_mining.asso_max_rule_length,2); GRANT SELECT ON TR_dondoc2 TO DMUSER; COMMIT; END; DROP VIEW TR_dondoc ; Xây dựng mô hình CREATE VIEW TR_dondoc AS BEGIN DBMS_DATA_MINING.DROP_MODEL('AR_dondoc_nghe'); SELECT * FROM sh.tr_dondoc2; EXCEPTION WHEN OTHERS THEN NULL; END; DROP VIEW TR_dondoc_AR; BEGIN / CREATE VIEW TR_dondoc_AR AS SELECT TIN, CAST(COLLECT(DM_Nested_Numerical( DBMS_DATA_MINING.CREATE_MODEL( model_name mining_function => 'AR_dondoc_nghe', => DBMS_DATA_MINING.ASSOCIATION, 109 data_table_name => 'TR_dondoc_AR', case_id_column_name => 'TIN', 110 from tr_so_1DT a, SoNganh b where a.nganhsx = b.nganhsx); settings_table_name => 'ar_dondoc_settings'); END; create table tr_So1Nganh as / (select a.tin, a.nganhsx, a.nam, (b.ts_nganh - a.tssinhloi) ts, Lấy kết khai phá (b.DTnganh - a.TongDT) DT, Danh sách frequent itemsets: (a.ChiPhi - b.ChiPhiNganh) CP, xemxet SELECT item, support, number_of_items FROM (SELECT I.column_value AS item, from tr_tysuat a, tr_nganh2004 b F.support, where a.nam=2004 and a.nganhsx=b.nganhsx F.number_of_items union FROM select a.tin, a.nganhsx, a.nam, (b.ts_nganh - a.tssinhloi) ts, TABLE(DBMS_DATA_MINING.GET_FREQUENT_ITEMSETS( (b.DTnganh - a.TongDT) DT, 'AR_dondoc_nghe', 10)) F, TABLE(F.items) I ORDER BY number_of_items, support, column_value); (a.ChiPhi - b.ChiPhiNganh) CP, xemxet from tr_tysuat a, tr_nganh2005 b where a.nam=2005 and a.nganhsx=b.nganhsx); Danh sách luật: SELECT ROUND(rule_support,4) support, ROUND(rule_confidence,4) confidence, Tạo ma trận chi phí DROP TABLE dt_sh_NOP_cost; CREATE TABLE dt_sh_NOP_cost ( antecedent, actual_target_value NUMBER, consequent predicted_target_value NUMBER, cost NUMBER); FROM TABLE(DBMS_DATA_MINING.GET_ASSOCIATION_RULES ('AR_dondoc_nghe', 10)) INSERT INTO dt_sh_NOP_cost VALUES (0,0,0); ORDER BY confidence DESC, support DESC; INSERT INTO dt_sh_NOP_cost VALUES (0,1,1); INSERT INTO dt_sh_NOP_cost VALUES (1,0,5); Phân lớp, dự báo ñịnh: INSERT INTO dt_sh_NOP_cost VALUES (1,1,0); Chuẩn bị liệu COMMIT; create table tr_sinhloi as (select a.tin, a.nganhsx, sotssinhloi, SoTS, xemxet Thiết lập tham số DROP TABLE dt_sh_BTC_settings; CREATE TABLE dt_sh_BTC_settings ( 111 setting_name 112 TÓM TẮT LUẬN VĂN VARCHAR2(30), setting_value VARCHAR2(30)); BEGIN Populate settings table INSERT INTO dt_sh_BTC_settings VALUES (dbms_data_mining.algo_name, dbms_data_mining.algo_decision_tree); INSERT INTO dt_sh_BTC_settings VALUES Khai phá liệu thực ngày trở nên quan trọng cấp thiết, với nơi nắm giữ lượng liệu khổng lồ Kho liệu ngành Thuế ñược lưu giữ qua nhiều năm, khám phá tri thức tiềm ẩn liệu chắn hỗ trợ không nhỏ cho công tác quản lý Thuế Nghiên cứu chức khai phá liệu thử nghiệm khả áp dụng CSDL ngành Thuế mục ñích Luận văn (dbms_data_mining.clas_cost_table_name, Qua tìm hiểu chức khai phá liệu, luận văn 'dt_sh_NOP_cost'); tập trung vào nghiên cứu kỹ thuật khai phá luật kết hợp phân lớp COMMIT; học ñịnh Hiểu ñược thuật toán hiệu gần ñây, từ ñó END; nắm ñược ñiểm cần quan tâm giải kỹ thuật khai / Tạo mô hình phá, như: Xử lý liệu thiếu, cắt tỉa giảm kích thước, giảm lần duyệt CSDL BEGIN Lựa chọn công cụ Oracle Data Mining (ODM) Oracle ñể khai phá DBMS_DATA_MINING.DROP_MODEL('DT_SH_Clas_TS1DT'); EXCEPTION WHEN OTHERS THEN NULL; tri thức CSDL ngành Thuế Thực nghiệm khai phá luật kết hợp thể END; mối liên quan ngành nghề kinh doanh ðTNT, quy mô doanh nghiệp, / doanh thu trung bình, mức thuế phải nộp với ý thức chấp hành nghĩa vụ nộp thuế Tiếp theo áp dụng phương pháp phân lớp ñịnh ñể phân BEGIN lớp dự báo CSDL ngành Thuế: Phân lớp ðTNT dựa vào số DBMS_DATA_MINING.CREATE_MODEL( model_name mining_function => 'DT_SH_Clas_TS1DT', => dbms_data_mining.classification, data_table_name => 'tr_so_1DT_v', tiêu phân tích (ngành nghề, tỷ suất sinh lợi, tổng doanh thu, chi phí, thuế phải nộp) ñưa phân loại thuộc tính ñích trả lời câu hỏi ðTNT có thuộc diện nghi ngờ vi phạm Thuế không–là tri thức trợ giúp tra Thuế Các tri thức khai phá thực nghiệm chắn nhiều thiếu sót, case_id_column_name => 'tin', target_column_name => 'xemxet', settings_table_name => 'dt_sh_BTC_settings'); END; mong nhận ñược góp ý từ thầy cô chuyên gia Thuế Hy vọng khai phá ñược hoàn thiện dự án khai phá liệu Thuế phục vụ công tác Thanh tra – nơi hội ñủ yếu tố thành công: Kết hợp chặt chẽ kỹ thuật với chuyên gia nghiệp vụ - có kinh nghiệm quý báu làm khám phá tri thức