Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 112 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
112
Dung lượng
1,35 MB
Nội dung
NGUYỄN THU TRÀ CÔNG NGHỆ THÔNG TIN 2004-2006
BỘ GIÁO DỤC VÀ ðÀO TẠO
TRƯỜNG ðẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SỸ KHOA HỌC
NGÀNH: CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨUVÀÁPDỤNGMỘTSỐKỸTHUẬT
KHAI PHÁDỮLIỆU
VỚI CƠSỞ DỮ LIỆUNGÀNHTHUẾVIỆTNAM
NGUYỄN THU TRÀ
Hà Nội
2006
Hà Nội 2006
2
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ðẦU 8
CHƯƠNG 1.
KHAI PHÁDỮLIỆU 12
1.1.
Tổng quan khaiphádữliệu 12
1.1.1
Dữ liệu 14
1.1.2
Tiền xử lý dữliệu 16
1.1.3
Mô hình khaiphádữliệu 18
1.2.
Các chức năng cơ bản khaiphádữliệu 19
1.2.1
Phân lớp (Classification) 19
1.2.2
Hồi qui 31
1.2.3
Phân nhóm 34
1.2.4
Khai phá luật kết hợp 38
CHƯƠNG 2.
MỘT SỐTHUẬT TOÁN KHAIPHÁDỮLIỆU 46
2.1.
Thuật toán khaiphá luật kết hợp 46
2.1.1
Thuật toán Apriori 46
2.1.2
Thuật toán AprioriTid 49
2.1.3
Thuật toán AprioriHybrid 51
2.2.
Cải tiến hiệu quả thuật toán Apriori 54
2.2.2
Phương pháp FP-tree 56
2.2.3
Thuật toán PHP 59
2.2.4
Thuật toán PCY 63
2.2.5
Thuật toán PCY nhiều chặng 65
2.3.
Thuật toán phân lớp bằng học cây quyết ñịnh 67
2.3.1
Các ñịnh nghĩa 68
2.3.2
Thuật toán ID3 69
2.3.3
Các mở rộng của C4.5 70
CHƯƠNG 3.
ÁP DỤNGKHAIPHÁ TRÊN CSDL NGÀNHTHUẾ 72
3.1.
CSDL ngànhThuế 72
3.2.
Lựa chọn công cụ khaiphá 73
3.2.1
Lựa chọn công cụ 73
3.2.2
Oracle Data Mining (ODM) 76
3.2.3
DBMS_DATA_MINING 78
3.3.
Mục tiêu khai thác thông tin của ngànhThuế 79
3
3.4.
Thử nghiệm khaiphá luật kết hợp 81
3.5.
Phân lớp bằng học cây quyết ñịnh 91
3.5.1
Phân lớp ðTNT dựa vào so sánh tỷ suất các năm 93
3.5.2
Phân lớp ðTNT theo sốliệu của mộtnăm 96
CHƯƠNG 4.
KẾT LUẬN 102
HƯỚNG NGHIÊNCỨU TIẾP THEO 103
TÀI LIỆU THAM KHẢO 104
PHỤ LỤC 106
4
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Ký hiệu, chữ viết tắt Ý nghĩa
Association Rules Các luật kết hợp
Candidate itemset Một itemset trong tập C
k
ñược sử dụng ñể sinh ra các
large itemset
C
k
Tập các candidate k-itemset ở giai ñoạn thứ k
Confidence ðộ chắc chắn của luật kết hợp
= support(X∪Y)/support(X) phản ánh khả năng giao
dịch hỗ trợ X thì cũng hỗ trợ Y
CSDL Cơsởdữliệu
DM Data mining – Khaiphádữliệu
DW Data warehouse – Kho dữliệu
ðTNT ðối tượng nộp thuế, chỉ tới các cá nhân hoặc tổ chức
nộp thuế
Frequent/large itemset Một itemset có ñộ hỗ trợ (support) >= ngưỡng ñộ hỗ
trợ tối thiểu
ID Identifier
Item Một phần tử của itemset
Itemset Tập của các item
k-itemset Một itemset có ñộ dài k
L
k
Tập các Large itemset ở giai ñoạn thứ k
ODM Oracle Data Mining – 1 công cụ khaiphádữliệu
TID Unique Transaction Identifier
Transaction Giao dịch
5
DANH MỤC CÁC BẢNG
Bảng 1.1: CSDL ñơn giản gồm các ví dụ huấn luyện 25
Bảng 1.2 Mô hình CSDL giao dịch ñơn giản 39
Bảng 2.1 Cơsởdữliệu giao dịch T 56
Bảng 2.2 Bảng các sản phẩm khaiphádữliệu 74
6
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Quá trình khám phá tri thức 14
Hình 1.2 Khuôn dạng ñơn bản ghi và ña bản ghi 16
Hình 1.3: Cây quyết ñịnh ñơn giản với các tests trên các thuộc tính X và Y.22
Hình 1.4: Sự phân lớp một mẫu mới dựa trên mô hình cây quyết ñịnh 23
Hình 1.5 Cây quyết ñịnh cuối cùng cho CSDL T ñã nêu trong bảng 1.1 29
Hình 1.6 Cây quyết ñịnh ở dạng giả code cho CSDL T (bảng 1.1) 29
Hình 1.7 Hồi qui tuyến tính 32
Hình 1.8 Gộp nhóm theo phương pháp k-means (ðiểm ñánh dấu + là tâm) 36
Hình 1.9 Phân hoạch vun ñống hoặc tách dần 37
Hình 1.10 Bước lặp ñầu tiên của thuật toán Apriori cho CSDL DB 41
Hình 1.11 Lần lặp thứ 2 của thuật toán Apriori cho CSDL DB 42
Hình 1.12 Lần lặp thứ 3 của thuật toán Apriori cho CSDL DB 42
Hình 2.1 Thuật toán Apriori 46
Hình 2.2 Thuật toán AprioriTid 50
Hình 2.3 Ví dụ 51
Hình 2.4: Thời gian thực hiện cho mỗi lần duyệt của Apriori và AprioriTid 52
Hình 2.5: Một ví dụ của cây phân cấp khái niệm cho khaiphá các frequent
itemsets nhiều mức 55
Hình 2.6: FP-tree cho CSDL T trong bảng 2.1 57
Hình 2.7 Thuật toán PHP 62
Hình 2.8 Bộ nhớ với 2 lần duyệt của thuật toán PCY 63
Hình 2.9 Sử dụng bộ nhớ cho các bảng băm nhiều chặng 66
Hình 3.1 Công sức cần cho mỗi giai ñoạn khaiphádữliệu 82
Hình 3.2 Các bước khaiphá luật kết hợp trên CSDL ngànhThuế 83
Hình 3.3 Nhánh cây phân cấp ngành nghề 85
Hình 3.4 Các luật khaiphá từ ODM (ñộ dài luật = 2) 87
7
Hình 3.5 Các luật khaiphá từ ODM (ñộ dài luật = 3) 89
Hình 3.6 Cây quyết ñịnh dùng ODM – Bài toán phân tích tỷ suất 95
Hình 3.7 Cây quyết ñịnh dùng See5 – Bài toán phân tích tỷ suất 96
Hình 3.8 Cây quyết ñịnh dùng ODM – Bài toán xét sốliệumộtnăm 99
Hình 3.9 Cây quyết ñịnh dùng See5 – Bài toán phân tích trong năm 100
8
MỞ ðẦU
Thời ñại phát triển mạnh của Internet, Intranet, Data warehouse, cùng
với sự phát triển nhanh về công nghệ lưu trữ ñã tạo ñiều kiện cho các doanh
nghiệp, các tổ chức thu thập vàsở hữu ñược khối lượng thông tin khổng lồ.
Hàng triệu CSDL ñã ñược dùng trong quản trị kinh doanh, quản lý chính phủ,
quản lý dữliệu khoa học và nhiều ứng dụng khác. Với khả năng hỗ trợ mạnh
của các Hệ quản trị CSDL, các CSDL này càng lớn lên nhanh chóng. Câu “Sự
lớn mạnh của các CSDL dẫn ñến sự cần thiết phải có các kỹthuậtvà các công
cụ mới ñể thực hiện chuyển ñổi tự ñộng dữliệumột cách thông minh thành
thông tin và tri thức hữu ích” [10] ñã trở thành ñặt vấn ñề của nhiều bài viết
về khaiphá thông tin và tri thức từ các CSDL lớn.
Công tác trong ngành Thuế, nơi Công nghệ thông tin ñược ápdụng vào
quản lý Thuế từ những năm 1986, CSDL thông tin liên quan ñến các lĩnh vực
quản lý Thuế là một CSDL lớn và chắc chắn tiềm ẩn nhiều thông tin quý báu.
Với mong muốn bước ñầu ápdụngkỹthuậtkhaiphádữliệu trên CSDL
ngành Thuế, luận văn ñã tập trung nghiêncứu về các kỹthuậtkhaiphádữ
liệu và tiến hành khaiphá thử nghiệm trên CSDL ngành Thuế.
Khả năng mở rộng tri thức có ích ẩn trong dữliệu ñể ñưa ra những
hành ñộng cần thiết dựa trên tri thức ñó ñang trở nên ngày càng quan trọng
trong thế giới cạnh tranh hiện nay. Toàn bộ quá trình dùng các phương pháp
luận dựa trên tính toán, bao gồm các kỹthuật mới ñể phát hiện ra tri thức từ
dữ liệu ñược gọi là khaiphádữliệu (data mining). [9]
Khai phádữliệu là sự tìm kiếm thông tin mới, có giá trị và không tầm
thường trong một khối lượng dữliệu lớn. Nó là sự phối hợp nỗ lực của con
người và máy tính. Các kết quả tốt nhất nhận ñược bằng việc cân bằng giữa
9
tri thức của các chuyên gia con người trong việc mô tả các vấn ñề và mục
ñích với khả năng tìm kiếm của máy tính.
Hai mục ñích chính của khaiphádữliệu là ñể dự ñoán (prediction) và
mô tả (description). Dự ñoán bao gồm việc dùngmột vài biến hoặc trường
trong tập dữliệu ñể dự ñoán các giá trị tương lai hoặc chưa biết của các biến
cần quan tâm. Còn mô tả tập trung vào việc tìm ra các mẫu mô tả dữliệu mà
con người có thể hiểu ñược/ biên dịch ñược. Có thể ñưa các hoạt ñộng khai
phá dữliệu vào một trong hai loại sau:
Khaiphádữliệudự báo, tạo ra mô hình của hệ thống ñược mô tả
bởi tập dữliệu cho trước, hoặc
Khaiphádữliệu mô tả, với việc tạo ra thông tin mới, không tầm
thường dựa trên tập dữliệucó sẵn.
Một số chức năng khaiphádữliệu chính như:
Mô tả khái niệm: Mô tả ñặc ñiểm và phân biệt. Tìm ra các ñặc ñiểm
khái quát hoá, tổng kết, các ñặc ñiểm khác nhau trong dữ liệu.
Kết hợp: xem xét về tương quan và quan hệ nhân quả.
Phân lớp vàdự báo (Classification and Prediction): Xác ñịnh mô
hình mô tả các lớp riêng biệt vàdùng cho dự ñoán tương lai.
Phân tích nhóm (Cluster analysis): Chưa biết nhãn lớp, thực hiện
nhóm dữliệu thành các lớp mới dựa trên nguyên tắc cực ñại hoá sự
tương tự trong cùng lớp và cực tiểu hoá sự khác tương tự giữa các
lớp khác nhau.
Phân tích nhiễu (Outlier analysis): Hữu ích trong việc phát hiện lỗi,
phân tích các sự kiện hiếm.
Phân tích xu hướng và sự phát triển
Khai phádữliệu là một trong những lĩnh vực phát triển nhanh nhất
trong công nghiệp máy tính. Từ chỗ là một miền quan tâm nhỏ trong khoa học
10
máy tính và thống kê, nó ñã nhanh chóng mở rộng thành một lĩnh vực/ngành
của riêng nó. Một trong những lớn mạnh nhất của khaiphádữliệu là sự ảnh
hưởng trong phạm vi rộng của các phương pháp luậnvà các kỹthuật ñược
ứng dụng ñối vớimột loạt các bài toán, các lĩnh vực.
Trong kinh doanh, khaiphádữliệucó thể ñược dùng ñể khám phá ra
những xu hướng mua sắm mới, kế hoạch cho các chiến lược ñầu tư, và phát
hiện những sự tiêu dùng không chính ñáng từ hệ thống kế toán. Nó có thể
giúp cải tiến các chiến dịch marketing ñể mang lại nhiều hỗ trợ và quan tâm
hơn tới khách hàng. Các kỹthuậtkhaiphádữliệucó thể ñược ápdụng ñối
với các bài toán thiết kế lại quy trình kinh doanh, trong ñó mục ñích là ñể hiểu
ñược các tương tác và quan hệ trong thông lệ kinh doanh và các tổ chức kinh
doanh.
Nhiều ñơn vị thi hành luật, các ñơn vị ñiều tra ñặc biệt, có nhiệm vụ
tìm ra các hành ñộng không trung thực và phát hiện ra các xu hướng phạm tội,
cũng ñã sử dụngkhaiphádữliệumột cách thành công. Các kỹthuậtkhaiphá
dữ liệu cũng có thể ñược dùng trong các tổ chức tình báo nơi lưu giữ nhiều
nguồn dữliệu lớn liên quan ñến các hoạt ñộng, các vấn ñề về an ninh quốc
gia.
Với mục ñích nghiêncứumộtsố phương pháp khaiphádữliệuvà thử
nghiệm khaiphá trên CSDL ngành Thuế, luận văn ñược trình bày với các
phần sau:
Chương 1 – Khaiphádữ liệu: Tìm hiểu các chức năng khaiphádữ liệu.
Chương 2 – Mộtsốthuật toán khaiphádữ liệu. Nghiêncứu trên hai
kiểu khai phá: Khaiphá luật kết hợp - mộtkỹthuật thông dụng trong học
không giám sát. Phân lớp bằng học cây quyết ñịnh - kỹthuật học có giám sát.
Chương 3 – Ápdụngkhaiphá trên CSDL ngành Thuế: Thử nghiệm
khai phá luật kết hợp và phân lớp trên CSDL ngànhThuế
[...]... nghĩa v Khaiphá d li u như sau: Khaiphá d li u là quá trình phát hi n các mô hình, các t ng k t khác nhau và các giá tr ñư c l y t t p d li u cho trư c [9] Hay, Khaiphá d li u là s thăm dò và phân tích lư ng d li u l n ñ khám phá t d li u ra các m u h p l , m i l , có ích vàcó th hi u ñư c [14] H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t trư c ñó, có ích là có th d a vào m... Áp d ng khám phá tri th c 4 ðánh giá và ño ñ c 5 Tri n khaivà tích h p vào các qui trình nghi p v 1.1.1 D li u Do có nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khaiphá d li u có th ñi u khi n ñư c t t c các lo i d li u Th c t CSDL có s n thư ng là CSDL quan h và h th ng khaiphá d li u cũng th c hi n hi u qu vi c khaiphá tri th c... lu n và nh ng k t qu ñ t ñư c Cu i cùng là m t s hư ng nghiên c u ti p theo Em xin chân thành c m ơn PGS TS Nguy n Ng c Bình ñã hư ng d n và cho em nh ng ý ki n quý báu, chân thành c m ơn các th y cô giáo c a trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành lu n văn này 12 CHƯƠNG 1 KHAIPHÁ D LI U 1.1 T ng quan khaiphá d li u Khaiphá d li u có ngu n g c t các phương pháp riêng... nh d ng gi code cho CSDL T (b ng 1.1) 30 1.2.1.3 Phân l p Bayees Phân l p Bayees là phương pháp phân l p th ng kê d ñoán xác su t các thành viên thu c l p Phân l p Bayees cho tính chính xác và t c ñ cao khi áp d ng vào các CSDL l n Phương pháp Naive Bayees là m t phương pháp phân l p Bayees ñơn gi n Phương pháp này gi thi t nh hư ng c a m t giá tr thu c tính t i l p là ñ c l p v i các giá tr thu c... hình g n nh và xây d ng ñư c nhanh hơn, nhưng nó cũng có th 18 d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i bin [11]) 1.1.3 Mô hình khaiphá d li u Mô hình khaiphá d li u là m t mô t v m t khía c nh c th c a m t t p d li u Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân nhóm M t mô hình khaiphá d li... li u và chuy n ñ i d li u: Tìm ra nh ng ñ c trưng h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i lư ng b t bi n - L a ch n ch c năng khaiphá d li u: T ng k t, phân l p, H i qui, k t h p, phân nhóm - L a ch n thu t toán khaiphá - Th c hi n khaiphá d li u (Data Mining): Tìm ki m các m u quan tâm - ðánh giá các m u và bi u di n tri th c 14 Hình 1.1 Quá trình khám phá tri th c 3 Áp. .. hypertext và multimedia, d li u t m và không gian (spatial), d li u k th a (legacy)… thư ng ph i có các h th ng khaiphá d li u riêng bi t xây d ng ñ khaiphá cho các ki u d li u c th 15 D li u ñư c khaiphácó th là d li u có c u trúc, ho c không có c u trúc M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d (case/example) Phân bi t hai ki u thu c tính: phân lo i (categorical) và s (numerical)... k trong các mô hình khaiphá d li u Outliers nh hư ng ñ n khaiphá d li u trong bư c ti n x lý d li u ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô hình Binning: M t vài thu t toán khaiphá d li u có th có l i nh vi c binning v i c hai lo i d li u number và categorical Các thu t toán Naive Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và Association Rules... th ng s n có ñư c thi t k v i nh ng m c ñích và ñ i tư ng ph c v khác nhau, khi t p h p d li u t nh ng h th ng này ñ ph c v khaiphá d li u, hi n tư ng dư th a là r t ph bi n, ngoài ra còn có th x y ra xung ñ t gây m y d li u, d li u không ñ ng nh t, không chính xác Rõ ràng yêu c u ch n l c và làm s ch d li u là r t c n thi t N u ñ u vào c a quá trình khaiphá là d li u trong DW thì s r t thu n ti n,... tháng )) M t s x lý ñ c bi t c n chú ý trong bư c ti n x lý d li u: X lý v i d li u thi u (missing data): Thư ng thì khi khaiphá d li u không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào Khi khai phá, thu t toán khaiphá s b qua các giá tr thi u Tuy nhiên trong m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá tr có nghĩa (“0”) v i giá tr tr ng (tham kh o trong . liệu.
Chương 2 – Một số thuật toán khai phá dữ liệu. Nghiên cứu trên hai
kiểu khai phá: Khai phá luật kết hợp - một kỹ thuật thông dụng trong học
không. THÔNG TIN
NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU
VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM
NGUYỄN THU TRÀ
Hà Nội
2006