Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 112 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
112
Dung lượng
1,35 MB
Nội dung
NGUYỄN THU TRÀ CÔNG NGHỆ THÔNG TIN 2004-2006 BỘ GIÁO DỤC VÀ ðÀO TẠO TRƯỜNG ðẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊNCỨUVÀÁPDỤNGMỘTSỐKỸTHUẬTKHAIPHÁDỮLIỆUVỚICƠSỞDỮLIỆUNGÀNHTHUẾVIỆT NAM NGUYỄN THU TRÀ Hà Nội 2006 Hà Nội 2006 2 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 4 DANH MỤC CÁC BẢNG 5 DANH MỤC CÁC HÌNH VẼ 6 MỞ ðẦU 8 CHƯƠNG 1. KHAIPHÁDỮLIỆU 12 1.1. Tổng quan khaiphádữliệu 12 1.1.1 Dữliệu 14 1.1.2 Tiền xử lý dữliệu 16 1.1.3 Mô hình khaiphádữliệu 18 1.2. Các chức năng cơ bản khaiphádữliệu 19 1.2.1 Phân lớp (Classification) 19 1.2.2 Hồi qui 31 1.2.3 Phân nhóm 34 1.2.4 Khaiphá luật kết hợp 38 CHƯƠNG 2. MỘTSỐTHUẬT TOÁN KHAIPHÁDỮLIỆU 46 2.1. Thuật toán khaiphá luật kết hợp 46 2.1.1 Thuật toán Apriori 46 2.1.2 Thuật toán AprioriTid 49 2.1.3 Thuật toán AprioriHybrid 51 2.2. Cải tiến hiệu quả thuật toán Apriori 54 2.2.2 Phương pháp FP-tree 56 2.2.3 Thuật toán PHP 59 2.2.4 Thuật toán PCY 63 2.2.5 Thuật toán PCY nhiều chặng 65 2.3. Thuật toán phân lớp bằng học cây quyết ñịnh 67 2.3.1 Các ñịnh nghĩa 68 2.3.2 Thuật toán ID3 69 2.3.3 Các mở rộng của C4.5 70 CHƯƠNG 3. ÁPDỤNGKHAIPHÁ TRÊN CSDL NGÀNHTHUẾ 72 3.1. CSDL ngànhThuế 72 3.2. Lựa chọn công cụ khaiphá 73 3.2.1 Lựa chọn công cụ 73 3.2.2 Oracle Data Mining (ODM) 76 3.2.3 DBMS_DATA_MINING 78 3.3. Mục tiêu khai thác thông tin của ngànhThuế 79 3 3.4. Thử nghiệm khaiphá luật kết hợp 81 3.5. Phân lớp bằng học cây quyết ñịnh 91 3.5.1 Phân lớp ðTNT dựa vào so sánh tỷ suất các năm 93 3.5.2 Phân lớp ðTNT theo sốliệu của một năm 96 CHƯƠNG 4. KẾT LUẬN 102 HƯỚNG NGHIÊNCỨU TIẾP THEO 103 TÀI LIỆU THAM KHẢO 104 PHỤ LỤC 106 4 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa Association Rules Các luật kết hợp Candidate itemset Một itemset trong tập C k ñược sử dụng ñể sinh ra các large itemset C k Tập các candidate k-itemset ở giai ñoạn thứ k Confidence ðộ chắc chắn của luật kết hợp = support(X∪Y)/support(X) phản ánh khả năng giao dịch hỗ trợ X thì cũng hỗ trợ Y CSDL Cơsởdữliệu DM Data mining – Khaiphádữliệu DW Data warehouse – Kho dữliệu ðTNT ðối tượng nộp thuế, chỉ tới các cá nhân hoặc tổ chức nộp thuế Frequent/large itemset Một itemset có ñộ hỗ trợ (support) >= ngưỡng ñộ hỗ trợ tối thiểu ID Identifier Item Một phần tử của itemset Itemset Tập của các item k-itemset Một itemset có ñộ dài k L k Tập các Large itemset ở giai ñoạn thứ k ODM Oracle Data Mining – 1 công cụ khaiphádữliệu TID Unique Transaction Identifier Transaction Giao dịch 5 DANH MỤC CÁC BẢNG Bảng 1.1: CSDL ñơn giản gồm các ví dụ huấn luyện 25 Bảng 1.2 Mô hình CSDL giao dịch ñơn giản 39 Bảng 2.1 Cơsởdữliệu giao dịch T 56 Bảng 2.2 Bảng các sản phẩm khaiphádữliệu 74 6 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quá trình khám phá tri thức 14 Hình 1.2 Khuôn dạng ñơn bản ghi và ña bản ghi 16 Hình 1.3: Cây quyết ñịnh ñơn giản với các tests trên các thuộc tính X và Y.22 Hình 1.4: Sự phân lớp một mẫu mới dựa trên mô hình cây quyết ñịnh 23 Hình 1.5 Cây quyết ñịnh cuối cùng cho CSDL T ñã nêu trong bảng 1.1 29 Hình 1.6 Cây quyết ñịnh ở dạng giả code cho CSDL T (bảng 1.1) 29 Hình 1.7 Hồi qui tuyến tính 32 Hình 1.8 Gộp nhóm theo phương pháp k-means (ðiểm ñánh dấu + là tâm) 36 Hình 1.9 Phân hoạch vun ñống hoặc tách dần 37 Hình 1.10 Bước lặp ñầu tiên của thuật toán Apriori cho CSDL DB 41 Hình 1.11 Lần lặp thứ 2 của thuật toán Apriori cho CSDL DB 42 Hình 1.12 Lần lặp thứ 3 của thuật toán Apriori cho CSDL DB 42 Hình 2.1 Thuật toán Apriori 46 Hình 2.2 Thuật toán AprioriTid 50 Hình 2.3 Ví dụ 51 Hình 2.4: Thời gian thực hiện cho mỗi lần duyệt của Apriori và AprioriTid 52 Hình 2.5: Một ví dụ của cây phân cấp khái niệm cho khaiphá các frequent itemsets nhiều mức 55 Hình 2.6: FP-tree cho CSDL T trong bảng 2.1 57 Hình 2.7 Thuật toán PHP 62 Hình 2.8 Bộ nhớ với 2 lần duyệt của thuật toán PCY 63 Hình 2.9 Sử dụng bộ nhớ cho các bảng băm nhiều chặng 66 Hình 3.1 Công sức cần cho mỗi giai ñoạn khaiphádữliệu 82 Hình 3.2 Các bước khaiphá luật kết hợp trên CSDL ngànhThuế 83 Hình 3.3 Nhánh cây phân cấp ngành nghề 85 Hình 3.4 Các luật khaiphá từ ODM (ñộ dài luật = 2) 87 7 Hình 3.5 Các luật khaiphá từ ODM (ñộ dài luật = 3) 89 Hình 3.6 Cây quyết ñịnh dùng ODM – Bài toán phân tích tỷ suất 95 Hình 3.7 Cây quyết ñịnh dùng See5 – Bài toán phân tích tỷ suất 96 Hình 3.8 Cây quyết ñịnh dùng ODM – Bài toán xét sốliệumột năm 99 Hình 3.9 Cây quyết ñịnh dùng See5 – Bài toán phân tích trong năm 100 8 MỞ ðẦU Thời ñại phát triển mạnh của Internet, Intranet, Data warehouse, cùng với sự phát triển nhanh về công nghệ lưu trữ ñã tạo ñiều kiện cho các doanh nghiệp, các tổ chức thu thập vàsở hữu ñược khối lượng thông tin khổng lồ. Hàng triệu CSDL ñã ñược dùng trong quản trị kinh doanh, quản lý chính phủ, quản lý dữliệu khoa học và nhiều ứng dụng khác. Với khả năng hỗ trợ mạnh của các Hệ quản trị CSDL, các CSDL này càng lớn lên nhanh chóng. Câu “Sự lớn mạnh của các CSDL dẫn ñến sự cần thiết phải có các kỹthuậtvà các công cụ mới ñể thực hiện chuyển ñổi tự ñộng dữliệumột cách thông minh thành thông tin và tri thức hữu ích” [10] ñã trở thành ñặt vấn ñề của nhiều bài viết về khaiphá thông tin và tri thức từ các CSDL lớn. Công tác trong ngành Thuế, nơi Công nghệ thông tin ñược ápdụng vào quản lý Thuế từ những năm 1986, CSDL thông tin liên quan ñến các lĩnh vực quản lý Thuế là một CSDL lớn và chắc chắn tiềm ẩn nhiều thông tin quý báu. Với mong muốn bước ñầu ápdụngkỹthuậtkhaiphádữliệu trên CSDL ngành Thuế, luận văn ñã tập trung nghiêncứu về các kỹthuậtkhaiphádữliệuvà tiến hành khaiphá thử nghiệm trên CSDL ngành Thuế. Khả năng mở rộng tri thức có ích ẩn trong dữliệu ñể ñưa ra những hành ñộng cần thiết dựa trên tri thức ñó ñang trở nên ngày càng quan trọng trong thế giới cạnh tranh hiện nay. Toàn bộ quá trình dùng các phương pháp luận dựa trên tính toán, bao gồm các kỹthuật mới ñể phát hiện ra tri thức từ dữliệu ñược gọi là khaiphádữliệu (data mining). [9] Khaiphádữliệu là sự tìm kiếm thông tin mới, có giá trị và không tầm thường trong một khối lượng dữliệu lớn. Nó là sự phối hợp nỗ lực của con người và máy tính. Các kết quả tốt nhất nhận ñược bằng việc cân bằng giữa 9 tri thức của các chuyên gia con người trong việc mô tả các vấn ñề và mục ñích với khả năng tìm kiếm của máy tính. Hai mục ñích chính của khaiphádữliệu là ñể dự ñoán (prediction) và mô tả (description). Dự ñoán bao gồm việc dùngmột vài biến hoặc trường trong tập dữliệu ñể dự ñoán các giá trị tương lai hoặc chưa biết của các biến cần quan tâm. Còn mô tả tập trung vào việc tìm ra các mẫu mô tả dữliệu mà con người có thể hiểu ñược/ biên dịch ñược. Có thể ñưa các hoạt ñộng khaiphádữliệu vào một trong hai loại sau: Khaiphádữliệudự báo, tạo ra mô hình của hệ thống ñược mô tả bởi tập dữliệu cho trước, hoặc Khaiphádữliệu mô tả, với việc tạo ra thông tin mới, không tầm thường dựa trên tập dữliệucó sẵn. Mộtsố chức năng khaiphádữliệu chính như: Mô tả khái niệm: Mô tả ñặc ñiểm và phân biệt. Tìm ra các ñặc ñiểm khái quát hoá, tổng kết, các ñặc ñiểm khác nhau trong dữ liệu. Kết hợp: xem xét về tương quan và quan hệ nhân quả. Phân lớp vàdự báo (Classification and Prediction): Xác ñịnh mô hình mô tả các lớp riêng biệt vàdùng cho dự ñoán tương lai. Phân tích nhóm (Cluster analysis): Chưa biết nhãn lớp, thực hiện nhóm dữliệu thành các lớp mới dựa trên nguyên tắc cực ñại hoá sự tương tự trong cùng lớp và cực tiểu hoá sự khác tương tự giữa các lớp khác nhau. Phân tích nhiễu (Outlier analysis): Hữu ích trong việc phát hiện lỗi, phân tích các sự kiện hiếm. Phân tích xu hướng và sự phát triển Khaiphádữliệu là một trong những lĩnh vực phát triển nhanh nhất trong công nghiệp máy tính. Từ chỗ là một miền quan tâm nhỏ trong khoa học 10 máy tính và thống kê, nó ñã nhanh chóng mở rộng thành một lĩnh vực/ngành của riêng nó. Một trong những lớn mạnh nhất của khaiphádữliệu là sự ảnh hưởng trong phạm vi rộng của các phương pháp luậnvà các kỹthuật ñược ứng dụng ñối vớimột loạt các bài toán, các lĩnh vực. Trong kinh doanh, khaiphádữliệucó thể ñược dùng ñể khám phá ra những xu hướng mua sắm mới, kế hoạch cho các chiến lược ñầu tư, và phát hiện những sự tiêu dùng không chính ñáng từ hệ thống kế toán. Nó có thể giúp cải tiến các chiến dịch marketing ñể mang lại nhiều hỗ trợ và quan tâm hơn tới khách hàng. Các kỹthuậtkhaiphádữliệucó thể ñược ápdụng ñối với các bài toán thiết kế lại quy trình kinh doanh, trong ñó mục ñích là ñể hiểu ñược các tương tác và quan hệ trong thông lệ kinh doanh và các tổ chức kinh doanh. Nhiều ñơn vị thi hành luật, các ñơn vị ñiều tra ñặc biệt, có nhiệm vụ tìm ra các hành ñộng không trung thực và phát hiện ra các xu hướng phạm tội, cũng ñã sử dụngkhaiphádữliệumột cách thành công. Các kỹthuậtkhaiphádữliệu cũng có thể ñược dùng trong các tổ chức tình báo nơi lưu giữ nhiều nguồn dữliệu lớn liên quan ñến các hoạt ñộng, các vấn ñề về an ninh quốc gia. Với mục ñích nghiêncứumộtsố phương pháp khaiphádữliệuvà thử nghiệm khaiphá trên CSDL ngành Thuế, luận văn ñược trình bày với các phần sau: Chương 1 – Khaiphádữ liệu: Tìm hiểu các chức năng khaiphádữ liệu. Chương 2 – Mộtsốthuật toán khaiphádữ liệu. Nghiêncứu trên hai kiểu khai phá: Khaiphá luật kết hợp - mộtkỹthuật thông dụng trong học không giám sát. Phân lớp bằng học cây quyết ñịnh - kỹthuật học có giám sát. Chương 3 – Ápdụngkhaiphá trên CSDL ngành Thuế: Thử nghiệm khaiphá luật kết hợp và phân lớp trên CSDL ngànhThuế [...]... nghĩa v Khaiphá d li u như sau: Khaiphá d li u là quá trình phát hi n các mô hình, các t ng k t khác nhau và các giá tr ñư c l y t t p d li u cho trư c [9] Hay, Khaiphá d li u là s thăm dò và phân tích lư ng d li u l n ñ khám phá t d li u ra các m u h p l , m i l , có ích vàcó th hi u ñư c [14] H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t trư c ñó, có ích là có th d a vào m... Áp d ng khám phá tri th c 4 ðánh giá và ño ñ c 5 Tri n khaivà tích h p vào các qui trình nghi p v 1.1.1 D li u Do có nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khaiphá d li u có th ñi u khi n ñư c t t c các lo i d li u Th c t CSDL có s n thư ng là CSDL quan h và h th ng khaiphá d li u cũng th c hi n hi u qu vi c khaiphá tri th c... lu n và nh ng k t qu ñ t ñư c Cu i cùng là m t s hư ng nghiên c u ti p theo Em xin chân thành c m ơn PGS TS Nguy n Ng c Bình ñã hư ng d n và cho em nh ng ý ki n quý báu, chân thành c m ơn các th y cô giáo c a trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành lu n văn này 12 CHƯƠNG 1 KHAIPHÁ D LI U 1.1 T ng quan khaiphá d li u Khaiphá d li u có ngu n g c t các phương pháp riêng... nh d ng gi code cho CSDL T (b ng 1.1) 30 1.2.1.3 Phân l p Bayees Phân l p Bayees là phương pháp phân l p th ng kê d ñoán xác su t các thành viên thu c l p Phân l p Bayees cho tính chính xác và t c ñ cao khi áp d ng vào các CSDL l n Phương pháp Naive Bayees là m t phương pháp phân l p Bayees ñơn gi n Phương pháp này gi thi t nh hư ng c a m t giá tr thu c tính t i l p là ñ c l p v i các giá tr thu c... hình g n nh và xây d ng ñư c nhanh hơn, nhưng nó cũng có th 18 d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i bin [11]) 1.1.3 Mô hình khaiphá d li u Mô hình khaiphá d li u là m t mô t v m t khía c nh c th c a m t t p d li u Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân nhóm M t mô hình khaiphá d li... li u và chuy n ñ i d li u: Tìm ra nh ng ñ c trưng h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i lư ng b t bi n - L a ch n ch c năng khaiphá d li u: T ng k t, phân l p, H i qui, k t h p, phân nhóm - L a ch n thu t toán khaiphá - Th c hi n khaiphá d li u (Data Mining): Tìm ki m các m u quan tâm - ðánh giá các m u và bi u di n tri th c 14 Hình 1.1 Quá trình khám phá tri th c 3 Áp. .. hypertext và multimedia, d li u t m và không gian (spatial), d li u k th a (legacy)… thư ng ph i có các h th ng khaiphá d li u riêng bi t xây d ng ñ khaiphá cho các ki u d li u c th 15 D li u ñư c khaiphácó th là d li u có c u trúc, ho c không có c u trúc M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d (case/example) Phân bi t hai ki u thu c tính: phân lo i (categorical) và s (numerical)... k trong các mô hình khaiphá d li u Outliers nh hư ng ñ n khaiphá d li u trong bư c ti n x lý d li u ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô hình Binning: M t vài thu t toán khaiphá d li u có th có l i nh vi c binning v i c hai lo i d li u number và categorical Các thu t toán Naive Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và Association Rules... th ng s n có ñư c thi t k v i nh ng m c ñích và ñ i tư ng ph c v khác nhau, khi t p h p d li u t nh ng h th ng này ñ ph c v khaiphá d li u, hi n tư ng dư th a là r t ph bi n, ngoài ra còn có th x y ra xung ñ t gây m y d li u, d li u không ñ ng nh t, không chính xác Rõ ràng yêu c u ch n l c và làm s ch d li u là r t c n thi t N u ñ u vào c a quá trình khaiphá là d li u trong DW thì s r t thu n ti n,... tháng )) M t s x lý ñ c bi t c n chú ý trong bư c ti n x lý d li u: X lý v i d li u thi u (missing data): Thư ng thì khi khaiphá d li u không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào Khi khai phá, thu t toán khaiphá s b qua các giá tr thi u Tuy nhiên trong m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá tr có nghĩa (“0”) v i giá tr tr ng (tham kh o trong . trình bày với các phần sau: Chương 1 – Khai phá dữ liệu: Tìm hiểu các chức năng khai phá dữ liệu. Chương 2 – Một số thuật toán khai phá dữ liệu. Nghiên cứu trên hai kiểu khai phá: Khai phá luật. lớn và chắc chắn tiềm ẩn nhiều thông tin quý báu. Với mong muốn bước ñầu áp dụng kỹ thuật khai phá dữ liệu trên CSDL ngành Thuế, luận văn ñã tập trung nghiên cứu về các kỹ thuật khai phá dữ liệu. KHAI PHÁ DỮ LIỆU 12 1.1. Tổng quan khai phá dữ liệu 12 1.1.1 Dữ liệu 14 1.1.2 Tiền xử lý dữ liệu 16 1.1.3 Mô hình khai phá dữ liệu 18 1.2. Các chức năng cơ bản khai phá dữ