Tài liệu luận văn: NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM ppt

112 1.6K 3
Tài liệu luận văn: NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM ppt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NGUYỄN THU TRÀ CÔNG NGHỆ THÔNG TIN 2004-2006 BỘ GIÁO DỤC ðÀO TẠO TRƯỜNG ðẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM NGUYỄN THU TRÀ Hà Nội 2006 Hà Nội 2006 2 MỤC LỤC DANH MỤC CÁC HIỆU CÁC CHỮ VIẾT TẮT 4 DANH MỤC CÁC BẢNG 5 DANH MỤC CÁC HÌNH VẼ 6 MỞ ðẦU 8 CHƯƠNG 1. KHAI PHÁ DỮ LIỆU 12 1.1. Tổng quan khai phá dữ liệu 12 1.1.1 Dữ liệu 14 1.1.2 Tiền xử lý dữ liệu 16 1.1.3 Mô hình khai phá dữ liệu 18 1.2. Các chức năng bản khai phá dữ liệu 19 1.2.1 Phân lớp (Classification) 19 1.2.2 Hồi qui 31 1.2.3 Phân nhóm 34 1.2.4 Khai phá luật kết hợp 38 CHƯƠNG 2. MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU 46 2.1. Thuật toán khai phá luật kết hợp 46 2.1.1 Thuật toán Apriori 46 2.1.2 Thuật toán AprioriTid 49 2.1.3 Thuật toán AprioriHybrid 51 2.2. Cải tiến hiệu quả thuật toán Apriori 54 2.2.2 Phương pháp FP-tree 56 2.2.3 Thuật toán PHP 59 2.2.4 Thuật toán PCY 63 2.2.5 Thuật toán PCY nhiều chặng 65 2.3. Thuật toán phân lớp bằng học cây quyết ñịnh 67 2.3.1 Các ñịnh nghĩa 68 2.3.2 Thuật toán ID3 69 2.3.3 Các mở rộng của C4.5 70 CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ 72 3.1. CSDL ngành Thuế 72 3.2. Lựa chọn công cụ khai phá 73 3.2.1 Lựa chọn công cụ 73 3.2.2 Oracle Data Mining (ODM) 76 3.2.3 DBMS_DATA_MINING 78 3.3. Mục tiêu khai thác thông tin của ngành Thuế 79 3 3.4. Thử nghiệm khai phá luật kết hợp 81 3.5. Phân lớp bằng học cây quyết ñịnh 91 3.5.1 Phân lớp ðTNT dựa vào so sánh tỷ suất các năm 93 3.5.2 Phân lớp ðTNT theo số liệu của một năm 96 CHƯƠNG 4. KẾT LUẬN 102 HƯỚNG NGHIÊN CỨU TIẾP THEO 103 TÀI LIỆU THAM KHẢO 104 PHỤ LỤC 106 4 DANH MỤC CÁC HIỆU CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa Association Rules Các luật kết hợp Candidate itemset Một itemset trong tập C k ñược sử dụng ñể sinh ra các large itemset C k Tập các candidate k-itemset ở giai ñoạn thứ k Confidence ðộ chắc chắn của luật kết hợp = support(X∪Y)/support(X) phản ánh khả năng giao dịch hỗ trợ X thì cũng hỗ trợ Y CSDL sở dữ liệu DM Data mining – Khai phá dữ liệu DW Data warehouse – Kho dữ liệu ðTNT ðối tượng nộp thuế, chỉ tới các cá nhân hoặc tổ chức nộp thuế Frequent/large itemset Một itemset ñộ hỗ trợ (support) >= ngưỡng ñộ hỗ trợ tối thiểu ID Identifier Item Một phần tử của itemset Itemset Tập của các item k-itemset Một itemset ñộ dài k L k Tập các Large itemset ở giai ñoạn thứ k ODM Oracle Data Mining – 1 công cụ khai phá dữ liệu TID Unique Transaction Identifier Transaction Giao dịch 5 DANH MỤC CÁC BẢNG Bảng 1.1: CSDL ñơn giản gồm các ví dụ huấn luyện 25 Bảng 1.2 Mô hình CSDL giao dịch ñơn giản 39 Bảng 2.1 sở dữ liệu giao dịch T 56 Bảng 2.2 Bảng các sản phẩm khai phá dữ liệu 74 6 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quá trình khám phá tri thức 14 Hình 1.2 Khuôn dạng ñơn bản ghi ña bản ghi 16 Hình 1.3: Cây quyết ñịnh ñơn giản với các tests trên các thuộc tính X Y.22 Hình 1.4: Sự phân lớp một mẫu mới dựa trên mô hình cây quyết ñịnh 23 Hình 1.5 Cây quyết ñịnh cuối cùng cho CSDL T ñã nêu trong bảng 1.1 29 Hình 1.6 Cây quyết ñịnh ở dạng giả code cho CSDL T (bảng 1.1) 29 Hình 1.7 Hồi qui tuyến tính 32 Hình 1.8 Gộp nhóm theo phương pháp k-means (ðiểm ñánh dấu + là tâm) 36 Hình 1.9 Phân hoạch vun ñống hoặc tách dần 37 Hình 1.10 Bước lặp ñầu tiên của thuật toán Apriori cho CSDL DB 41 Hình 1.11 Lần lặp thứ 2 của thuật toán Apriori cho CSDL DB 42 Hình 1.12 Lần lặp thứ 3 của thuật toán Apriori cho CSDL DB 42 Hình 2.1 Thuật toán Apriori 46 Hình 2.2 Thuật toán AprioriTid 50 Hình 2.3 Ví dụ 51 Hình 2.4: Thời gian thực hiện cho mỗi lần duyệt của Apriori AprioriTid 52 Hình 2.5: Mộtdụ của cây phân cấp khái niệm cho khai phá các frequent itemsets nhiều mức 55 Hình 2.6: FP-tree cho CSDL T trong bảng 2.1 57 Hình 2.7 Thuật toán PHP 62 Hình 2.8 Bộ nhớ với 2 lần duyệt của thuật toán PCY 63 Hình 2.9 Sử dụng bộ nhớ cho các bảng băm nhiều chặng 66 Hình 3.1 Công sức cần cho mỗi giai ñoạn khai phá dữ liệu 82 Hình 3.2 Các bước khai phá luật kết hợp trên CSDL ngành Thuế 83 Hình 3.3 Nhánh cây phân cấp ngành nghề 85 Hình 3.4 Các luật khai phá từ ODM (ñộ dài luật = 2) 87 7 Hình 3.5 Các luật khai phá từ ODM (ñộ dài luật = 3) 89 Hình 3.6 Cây quyết ñịnh dùng ODM – Bài toán phân tích tỷ suất 95 Hình 3.7 Cây quyết ñịnh dùng See5 – Bài toán phân tích tỷ suất 96 Hình 3.8 Cây quyết ñịnh dùng ODM – Bài toán xét số liệu một năm 99 Hình 3.9 Cây quyết ñịnh dùng See5 – Bài toán phân tích trong năm 100 8 MỞ ðẦU Thời ñại phát triển mạnh của Internet, Intranet, Data warehouse, cùng với sự phát triển nhanh về công nghệ lưu trữ ñã tạo ñiều kiện cho các doanh nghiệp, các tổ chức thu thập sở hữu ñược khối lượng thông tin khổng lồ. Hàng triệu CSDL ñã ñược dùng trong quản trị kinh doanh, quản lý chính phủ, quản lý dữ liệu khoa học nhiều ứng dụng khác. Với khả năng hỗ trợ mạnh của các Hệ quản trị CSDL, các CSDL này càng lớn lên nhanh chóng. Câu “Sự lớn mạnh của các CSDL dẫn ñến sự cần thiết phải các kỹ thuật các công cụ mới ñể thực hiện chuyển ñổi tự ñộng dữ liệu một cách thông minh thành thông tin tri thức hữu ích” [10] ñã trở thành ñặt vấn ñề của nhiều bài viết về khai phá thông tin tri thức từ các CSDL lớn. Công tác trong ngành Thuế, nơi Công nghệ thông tin ñược áp dụng vào quản lý Thuế từ những năm 1986, CSDL thông tin liên quan ñến các lĩnh vực quản lý Thuếmột CSDL lớn chắc chắn tiềm ẩn nhiều thông tin quý báu. Với mong muốn bước ñầu áp dụng kỹ thuật khai phá dữ liệu trên CSDL ngành Thuế, luận văn ñã tập trung nghiên cứu về các kỹ thuật khai phá dữ liệu tiến hành khai phá thử nghiệm trên CSDL ngành Thuế. Khả năng mở rộng tri thức ích ẩn trong dữ liệu ñể ñưa ra những hành ñộng cần thiết dựa trên tri thức ñó ñang trở nên ngày càng quan trọng trong thế giới cạnh tranh hiện nay. Toàn bộ quá trình dùng các phương pháp luận dựa trên tính toán, bao gồm các kỹ thuật mới ñể phát hiện ra tri thức từ dữ liệu ñược gọi là khai phá dữ liệu (data mining). [9] Khai phá dữ liệu là sự tìm kiếm thông tin mới, giá trị không tầm thường trong một khối lượng dữ liệu lớn. Nó là sự phối hợp nỗ lực của con người máy tính. Các kết quả tốt nhất nhận ñược bằng việc cân bằng giữa 9 tri thức của các chuyên gia con người trong việc mô tả các vấn ñề mục ñích với khả năng tìm kiếm của máy tính. Hai mục ñích chính của khai phá dữ liệu là ñể dự ñoán (prediction) mô tả (description). Dự ñoán bao gồm việc dùng một vài biến hoặc trường trong tập dữ liệu ñể dự ñoán các giá trị tương lai hoặc chưa biết của các biến cần quan tâm. Còn mô tả tập trung vào việc tìm ra các mẫu mô tả dữ liệu mà con người thể hiểu ñược/ biên dịch ñược. thể ñưa các hoạt ñộng khai phá dữ liệu vào một trong hai loại sau:  Khai phá dữ liệu dự báo, tạo ra mô hình của hệ thống ñược mô tả bởi tập dữ liệu cho trước, hoặc  Khai phá dữ liệu mô tả, với việc tạo ra thông tin mới, không tầm thường dựa trên tập dữ liệu sẵn. Một số chức năng khai phá dữ liệu chính như:  Mô tả khái niệm: Mô tả ñặc ñiểm phân biệt. Tìm ra các ñặc ñiểm khái quát hoá, tổng kết, các ñặc ñiểm khác nhau trong dữ liệu.  Kết hợp: xem xét về tương quan quan hệ nhân quả.  Phân lớp dự báo (Classification and Prediction): Xác ñịnh mô hình mô tả các lớp riêng biệt dùng cho dự ñoán tương lai.  Phân tích nhóm (Cluster analysis): Chưa biết nhãn lớp, thực hiện nhóm dữ liệu thành các lớp mới dựa trên nguyên tắc cực ñại hoá sự tương tự trong cùng lớp cực tiểu hoá sự khác tương tự giữa các lớp khác nhau.  Phân tích nhiễu (Outlier analysis): Hữu ích trong việc phát hiện lỗi, phân tích các sự kiện hiếm.  Phân tích xu hướng sự phát triển Khai phá dữ liệumột trong những lĩnh vực phát triển nhanh nhất trong công nghiệp máy tính. Từ chỗ là một miền quan tâm nhỏ trong khoa học 10 máy tính thống kê, nó ñã nhanh chóng mở rộng thành một lĩnh vực/ngành của riêng nó. Một trong những lớn mạnh nhất của khai phá dữ liệu là sự ảnh hưởng trong phạm vi rộng của các phương pháp luận các kỹ thuật ñược ứng dụng ñối với một loạt các bài toán, các lĩnh vực. Trong kinh doanh, khai phá dữ liệu thể ñược dùng ñể khám phá ra những xu hướng mua sắm mới, kế hoạch cho các chiến lược ñầu tư, phát hiện những sự tiêu dùng không chính ñáng từ hệ thống kế toán. Nó thể giúp cải tiến các chiến dịch marketing ñể mang lại nhiều hỗ trợ quan tâm hơn tới khách hàng. Các kỹ thuật khai phá dữ liệu thể ñược áp dụng ñối với các bài toán thiết kế lại quy trình kinh doanh, trong ñó mục ñích là ñể hiểu ñược các tương tác quan hệ trong thông lệ kinh doanh các tổ chức kinh doanh. Nhiều ñơn vị thi hành luật, các ñơn vị ñiều tra ñặc biệt, nhiệm vụ tìm ra các hành ñộng không trung thực phát hiện ra các xu hướng phạm tội, cũng ñã sử dụng khai phá dữ liệu một cách thành công. Các kỹ thuật khai phá dữ liệu cũng thể ñược dùng trong các tổ chức tình báo nơi lưu giữ nhiều nguồn dữ liệu lớn liên quan ñến các hoạt ñộng, các vấn ñề về an ninh quốc gia. Với mục ñích nghiên cứu một số phương pháp khai phá dữ liệu thử nghiệm khai phá trên CSDL ngành Thuế, luận văn ñược trình bày với các phần sau: Chương 1 – Khai phá dữ liệu: Tìm hiểu các chức năng khai phá dữ liệu. Chương 2 – Một số thuật toán khai phá dữ liệu. Nghiên cứu trên hai kiểu khai phá: Khai phá luật kết hợp - một kỹ thuật thông dụng trong học không giám sát. Phân lớp bằng học cây quyết ñịnh - kỹ thuật học giám sát. Chương 3 – Áp dụng khai phá trên CSDL ngành Thuế: Thử nghiệm khai phá luật kết hợp phân lớp trên CSDL ngành Thuế [...]... nghĩa v Khai phá d li u như sau: Khai phá d li u là quá trình phát hi n các mô hình, các t ng k t khác nhau các giá tr ñư c l y t t p d li u cho trư c [9] Hay, Khai phá d li u là s thăm dò phân tích lư ng d li u l n ñ khám phá t d li u ra các m u h p l , m i l , ích th hi u ñư c [14] H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t trư c ñó, ích là th d a vào m... Áp d ng khám phá tri th c 4 ðánh giá ño ñ c 5 Tri n khai tích h p vào các qui trình nghi p v 1.1.1 D li u Do nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khai phá d li u th ñi u khi n ñư c t t c các lo i d li u Th c t CSDL s n thư ng là CSDL quan h h th ng khai phá d li u cũng th c hi n hi u qu vi c khai phá tri th c... lu n nh ng k t qu ñ t ñư c Cu i cùng là m t s hư ng nghiên c u ti p theo Em xin chân thành c m ơn PGS TS Nguy n Ng c Bình ñã hư ng d n cho em nh ng ý ki n quý báu, chân thành c m ơn các th y giáo c a trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành lu n văn này 12 CHƯƠNG 1 KHAI PHÁ D LI U 1.1 T ng quan khai phá d li u Khai phá d li u ngu n g c t các phương pháp riêng... nh d ng gi code cho CSDL T (b ng 1.1) 30 1.2.1.3 Phân l p Bayees Phân l p Bayees là phương pháp phân l p th ng kê d ñoán xác su t các thành viên thu c l p Phân l p Bayees cho tính chính xác t c ñ cao khi áp d ng vào các CSDL l n Phương pháp Naive Bayees là m t phương pháp phân l p Bayees ñơn gi n Phương pháp này gi thi t nh hư ng c a m t giá tr thu c tính t i l p là ñ c l p v i các giá tr thu c... hình g n nh xây d ng ñư c nhanh hơn, nhưng nó cũng th 18 d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i bin [11]) 1.1.3 Mô hình khai phá d li u Mô hình khai phá d li u là m t mô t v m t khía c nh c th c a m t t p d li u Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân nhóm M t mô hình khai phá d li... li u chuy n ñ i d li u: Tìm ra nh ng ñ c trưng h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i lư ng b t bi n - L a ch n ch c năng khai phá d li u: T ng k t, phân l p, H i qui, k t h p, phân nhóm - L a ch n thu t toán khai phá - Th c hi n khai phá d li u (Data Mining): Tìm ki m các m u quan tâm - ðánh giá các m u bi u di n tri th c 14 Hình 1.1 Quá trình khám phá tri th c 3 Áp. .. hypertext multimedia, d li u t m không gian (spatial), d li u k th a (legacy)… thư ng ph i các h th ng khai phá d li u riêng bi t xây d ng ñ khai phá cho các ki u d li u c th 15 D li u ñư c khai phá th là d li u c u trúc, ho c không c u trúc M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d (case/example) Phân bi t hai ki u thu c tính: phân lo i (categorical) s (numerical)... k trong các mô hình khai phá d li u Outliers nh hư ng ñ n khai phá d li u trong bư c ti n x lý d li u ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô hình Binning: M t vài thu t toán khai phá d li u th l i nh vi c binning v i c hai lo i d li u number categorical Các thu t toán Naive Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, Association Rules... th ng s n ñư c thi t k v i nh ng m c ñích ñ i tư ng ph c v khác nhau, khi t p h p d li u t nh ng h th ng này ñ ph c v khai phá d li u, hi n tư ng th a là r t ph bi n, ngoài ra còn th x y ra xung ñ t gây m y d li u, d li u không ñ ng nh t, không chính xác Rõ ràng yêu c u ch n l c làm s ch d li u là r t c n thi t N u ñ u vào c a quá trình khai phá là d li u trong DW thì s r t thu n ti n,... tháng )) M t s x lý ñ c bi t c n chú ý trong bư c ti n x lý d li u: X lý v i d li u thi u (missing data): Thư ng thì khi khai phá d li u không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào Khi khai phá, thu t toán khai phá s b qua các giá tr thi u Tuy nhiên trong m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá tr nghĩa (“0”) v i giá tr tr ng (tham kh o trong . liệu. Chương 2 – Một số thuật toán khai phá dữ liệu. Nghiên cứu trên hai kiểu khai phá: Khai phá luật kết hợp - một kỹ thuật thông dụng trong học không. THÔNG TIN NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM NGUYỄN THU TRÀ Hà Nội 2006

Ngày đăng: 23/02/2014, 19:20

Từ khóa liên quan

Mục lục

  • BÌA

  • MUC LUC

  • DANH MUC CAC KI HIEU VA CAC CHU VIET TAT

  • DANH MUC CAC BANG

  • DANH MUC CAC HINH VE

  • MO DAU

  • CHUONG 1:KHAI PHA DU LIEU

  • CHUONG 2:MOT SO THUAT TOAN KHAI PHA DU LIEU

  • CHUONG 3:AP DUNG KHAI PHA TREN CSDL NGHANH THUE

  • CHUONG 4:KET LUAN

  • HUONG DAN NGHIEN CUU TIEP THEO

  • TAI LIEU THAM KHAO

  • PHU LUC

Tài liệu cùng người dùng

Tài liệu liên quan