Vấn đề phát hiện luật kết hợp trong cơ sở dữ liệu và khai phá dữ liệu

73 51 0
Vấn đề phát hiện luật kết hợp trong cơ sở dữ liệu và khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHÊ NG U Y ỄN TH Ị T H O A VẤN ĐỂ PHÁT HIỆN • LUẬT • KẾT HỢP • TRONG Cơ SỞ Dữ LIỆU VÀ KH AI PHÁ Dữ LIỆU C huyên ngành: Công nghệ thông tin M ã số: 1.01.10 LUẬN VĂN T H Ạ C s ĩ NGƯỜI HƯỚNG DẨN KHOA HỌC PGS TS ĐOÀN VĂN BAN H Nội - 2003 ro Ặ n iộ c " g u c x : g ;-\ 'N Ọ I ỉ ITRliNGTÁMTHCHGTIN.Tilự VIỆNí N" i - L i U U ? M ỤC LỤC Danh inục bảng biểu, hình v ẽ Các ký hiệu từ viết tắt VIỞ đ ầ u Chương Tổng quan khai phá liệu 1.1 Khai phá liệu .7 1.1.1 Định nghĩa 1.1.2 Các ứng dụng khai phá liệu 1.2 Các giai đoạn trình phát tri thức 1.3 Các toán khải phá liệu 10 1.3.1 Phát phụ thuộc liệu 11 1.3.2 Phát biến đổi độ lệch 11 1.3.3 Phát luật kết hợp 12 1.3.4 Mô hình hố phụ thuộc 12 1.3.5 Phân lớp 13 1.3.6 Hồi quy 13 1.3.7 Tổng hợp 13 1.4 Các kỹ thuật khai phá liệu phổ biến 14 1.4.1 Các công cụ truy vấn 14 1.4.2 K-láng giềng gần 15 1.4.3 Cây định 15 1.4.4 Các luật kết hợp 17 Chương Phát luật kết hợptrong sở liệu lớn 20 2.1 Phát biểu toán phát luật kết hợp .20 2.2 Phát luật kết hợp dựa hệ thông tin nhị phân 22 2.2.1 Các định nghĩa hình thức hệ thơng tin nhị phân 22 2.2.2 Thuật toán phát tập báo luật kết hợp nhị phân 25 2.2.3 Ví dụ minh hoạ 27 2.3 Phát luật kết hợp dựa hệ thông tin mờ 30 2.3.1 Các định nghĩa hình thức hệ thơng tin m 30 2.3.2 Ví dụ minh hoạ 32 2.3.3 Thuật toán phát tập báo luật kết hợp m 34 Chương Một sơ th u ật tốn phát luật kết hợp 37 3.1 Thuật toán AIS 37 3.2 Thuật toán SETM 39 3.3 Thuật toán Apriori 42 3.4 Thuật toán AprioriTid 44 3.5 Thuật toán phân hoạch 46 3.6 Thuật toán CHARM 51 Chương áp dung kỹ thuật khai phá liệu vào toán bảo hiểm 58 5.1 Bài toán 58 5.2 Cài đặt chương trìn h 60 5.3 Kết chạy chương trình 61 5.4 Nhận xét kết : 67 Kết luận Tài liệu tham k h ảo 69 Phụ lụ c 72 D A N H M ỤC BẢNG BIỂU, H ÌN H VẼ Hình 1.1: Quá trình khám phá tri thức .9 Bảng 2.1: Thuật toán phát tập báo phổ biếnnhị phân 26 Bảng 2.2: Thuật toán phát luật kết hợp nhị phân 27 Bảng 2.3: Bảng giao dịch mục 33 Bảng 2.4: Hệ thông tin nhị phân 33 Bảng 2.5: Hệ thông tin mờ 34 Bảng 2.6: Thuật toán phát tập báo mờ 35 Bảng 2.7: Thuật toán phát luật kết hợp m 36 Bảng 3.1: Thuật toán AIS 37 Bảng 3.2: Ví dụ thuật tốn AIS 38 Bảng 3.3: Thuật toán SETM 40 Bảng 3.4: Ví dụ thuật tốn SETM 42 Bảng 3.5: Thuật toán Apriori 42 Bảng 3.6: Hàm apriori_gen 43 Bảng 3.7: Ví dụ thuật tốn Apriori 44 Bảng 3.8: Algorithm AprioriTid 45 Bảng 3.9: Ví dụ thuật tốn AprioriTid 46 Bảng 3.10: Ký hiệu sử dụng thuật toán phân hoạch 48 Bảng 3.11: Thuật toán phân hoạch 49 Bảng 3.12: Thủ tục gen_large_itemsets 49 Bảng 3.13: Thủ tục prune 50 Bảng 3.14: Thủ tục gen_final_count 51 Bảng 3.15: Thuật toán CHARM 54 Hình 3.1: CH ARM xếp Iheo thứ tự từ điển .55 Hình 3.2: CHARM xếp theo độ hỗ trợ tăng dần 56 Hình 4.1: Sơ đồ quan hệ 59 Hình 4.2: Cửa sổ giao diện chương trình KDD on Insurance 72 C Â C K Ÿ H IÊU VÀ T Ü V IÉ T T Â T Kÿ hiêu, tir viét tât Tê'ng Anh Tien g Viêt conf confidence Dô tin CSDL Database Ca sa du lieu minconf minimum confidence Dô tin toi thiëu minsup minimum support Dô hô tra toi thiëu sup support Dô hô tra TID Transacstion Identification Dinh danh giao dich k-itemset k-itemset Tâp gôm k mue U Tâp câc k-itemset bien Môi thành viên cüa tâp cô hai truông: i) tâp mue ii) dô hô tra Q Tâp câc k-itemset ung eu Môi thành viên cüa tâp cô hai trung: i) tõp mue v ii) dụ hụ trỗf M Ở ĐẦU Sự tăng trưởng vượt bậc CSDL thương mại, quản lý, khoa học thúc nhanh chóng lực phân tích, khai phá liệu đó, tạo nhu cầu đòi hòi hệ công cụ kỹ thuật phân tích liệu tự động, thơng minh Các cơng cụ kỹ thuật chủ đề lĩnh vực xuất lĩnh vực khám phá tri thức CSDL Khả tăng trưởng vượt bậc liệu xem xét theo hai mặt: tạo thu thập liệu Sự mở rộng thu thập liệu khoa học, kỹ thuật, giới thiệu rộng rãi mã vạch hầu hết sản phẩm thương mại máy móc hố thương vụ (mua thẻ tín dụng) giao dịch quản lý (như thu thuế) sinh dòng liệu nhanh chóng dễ dàng Sự mở rộng công nghệ lưu trữ, chẳng hạn thiết bị lựu trữ liệu làm việc nhanh hơn, chất lượng cao hơn, giá thành rẻ hơn, phát triển công nghệ Intranet, Internet, công nghệ Data warehouse tạo nhiều hội cho việc thu thập, phân tích, xử lý trì liệu Vì thê' liệu doanh nghiệp, tổ chức đơn vị ngày nhiều thông tin, phong phú đa dạng Các phương pháp phân tích liệu truyền thống khơng phù hợp với liệu kiểu Các phương pháp truyền thống tạo báo cáo từ liệu khơng thể phân tích nội dung báo cáo làm bật tri thức quan trọng Điều dẫn đến nhu cầu đòi hỏi đời hệ cơng cụ kỹ thuật có khả thông minh tự động giúp người phân tích hình núi liệu để khai thác tri thức hữu dụng Các kỹ thuật cơng cụ đề tài lĩnh vực bật khám phá tri thức CSDL Khai phá liệu giai đoạn quan trọng khai phá tri thức từ CSDL Khai phá luật kết hợp nội dung quan trọng khai phá liệu Mục đích luận văn nghiên cứu, tổng hợp kiến thức khai phá liệu; tìm hiểu số thuật toán khai phá luật kết hợp CSDL lớn áp dụng vào toán thực tế Luận văn gồm nội dung sau : Chương 1, trình bày tổng quát khai phá liệu, cụ thể định nghĩa khai phá liệu ứng dụng nó, giai đoạn trình phát tri thức, toán khai phá liệu Cuối chương 1, luận văn trình bày kỹ thuật khai phá liệu phổ biến Chương 2, phát biểu toán phát luật kết hợp, tiếp đến tìm hiểu hệ thông tin nhị phân hệ thông tin mờ thuật tốn phát luật kết hợp hệ thơng tin nhị phân thuật toán phát luật kết hợp hệ thông tin mờ Chương 3, giới thiệu số thuật toán sử dụng để khai phá liệu như: AIS, SETM, Apriori, AprioriTid, phân hoạch, CHARM Chương 4, đề xuất áp dụng khai phá liệu vào tốn bảo hiểm viết chương trình thử nghiệm Cuối kết luận kết đạt luận văn hướng phát triển tương lai C H Ư Ơ N G T Ổ N G Q U A N VỂ KHAI PH Á D Ữ LIỆU 1.1 Khai phá liệu 11.1 Định nghĩa Phát tri thức CSDL trình kết xuất tri thức từ liệu Khai piá liệu dùng để mô tả giai đoạn phát tri thức CSDL Khai phá dĩ liệu nhằm kết xuất tri thức tiềm ẩn từ liệu để giúp cho việc dự báo tiong kinh doanh, v.v Khai.phá liệu làm giảm chi phí thời gian so với piương pháp truyền thống trước (bằng thống kê) thời gian Sau số định nghĩa mang tính mơ tả mà Friedman lựa chọn từ cíc giảng khai phá liệu [6 ]: - Định nghĩa Fayyad: “Khai phá tri thức q Irình khơng tầm thường nhận mẫu liệu có giá trị, mới, hữu ích tiềm hiểu được.” - Định nghĩa Ferruzza: “Khai phá liệu tập phương pháp dàng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu.” - Định nghĩa Parsaye: “Khai phá liệu q trình trợ giúp định, tìm kiếm mẫu thơng tin chưa biết bất ngờ CSDL lớn.” 1.1.2 Các ứng dụng khai phá liệu Khai phá liệu lĩnh vực nghiên cứu đời vào năm 80 kỷ thu hút quan tâm, ý nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Các kỹ thuật khai phá liệu áp dụng vào nhiều tình thực định đa dạng phạm vi rộng kinh doanh Các lĩnh vực chiếm tỷ lệ áp dụng đáng kể gồm có: - Marketing-, ứng dụng gồm phân tích nhu cầu khách hàng dựa mẫu mua; xác định chiên lược kinh doanh gồm: quảng cáo, vị trí kho hàng, mục tiêu phấn đấu; phân loại khách hàng, kho sản phẩm; thiết kế danh mục, xếp đặt kho hàng, chiến dịch quảng cáo - Tài chính, chứng khốn : ứng dụng gồm phân tích khả trả nợ khách hàng, phân loại tài khoản nhận được, hiệu quả, phân tích đầu tư tài chứng khốn, hợp đồng (khế ước), công trái; mệnh giá lựa chọn tài chính; phát gian lận - Sản xuất, chế tạo: ứng dụng gồm tối ưu hoá tài nguyên thiết bị, nhân lực, vật liệu; tối ưu thiết kế quy trình sản xuất, bố trí khu chế tạo, thiết kế sản phẩm, chẳng hạn.như ỏtò - Chăm sóc sức klioẻ: ứng dụng gồm phân tích hiệu qủa điều trị chắn; tối ưu thời gian điều trị (tối ưu thời gian nằm viện), liệu liên quan đến sức khoẻ bệnh nhân với chứng nhận bác sỹ; phân tích tác động ma t, •V.V - Tin-sinh học : Phát đoạn lặp trình tự ADN protein,.v.v - Phân tích liệu v hỗ trợ địnli - Giáo dục - Phân loại v ă n - Khai phá Web - v.v 1.2 Các giai đoạn q trình phát tri thức Trong mục này, khảo sát q trình, phân tích giai đoạn phát tri thức Có giai đoạn q trình phát tri thức [4,7,8,18]: - Trích chọn liệu - Tiền xử lý liệu - Biến đổi liệu - Khai phá liệu - Biểu diẽn đánh giá tri thức Trans­ formation ^ Data Mining Interpretation1,' Evaluation •M Target Data Data Preprocessed Data Transformed Data Patterns ềl Knowledge Hình 1.1 : Quá trình khám phá tri thức Trích chọn liệu (data selection): bước chọn lọc liệu cần khai phá từ nguồn liệu nhằm phục vụ mục đích khai phá tri thức theo số tiêu chí định Chẳng hạn, CSDL bán hàng, ta chọn liệu khách hàng, đặt hàng hoá đơn Cụ thể hơn, liệu chọn ghi bao gồm số hiệu khách hàng, tên, địa chỉ, ngày mua, số lượng loại hàng Tiền xử lý liệu (data preprocessing): bước làm liệu làm giàu liệu Nghĩa xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán, V V , liệu lấy từ nhiều nguồn liệu không đồng nhất, nhầm rút gọn liệu, rời rạc hoá liệu Sau bước liệu dùng cho việc khai phá tri thức quán, đầy đủ, rút gọn rời rạc hố Ví dụ, khách hàng có nhiều ghi việc viết sai tên, thay đổi địa gây lầm tưởng có nhiều khách hàng khác Thậm chí, có khách hàng cố ý phát âm viết sai tên đưa thông tin liên quan đến việc họ bị từ chối vài hình thức khuyến mại hay bảo hành, v.v Làm giàu liệu chuẩn hoá làm mịn liệu dể đưa dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá liệu bước sau Các liệu khuôn dạng khác cần qui đổi tính tốn lại để đưa kiểu thống tiện cho q trình phân tích, chẳng hạn qui đổi đơn vị tiền tệ, tuổi hay ngày sinh, địa chi tiết hay chia theo vùng, v.v 58 CHƯƠNG ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀO BÀI TOÁN BẢO HIEM B i t o n T ổ n g C ô n g t y B ả o h iể m V iệ t N a m c ó trụ sở c h ín h tạ i H N ộ i c h i n h n h n ó cá c tỉn h T h n h p h ố C sở liệ u tru n g tâ m đ ặ t tạ i T ổ n g c ô n g ty tạ i H N ộ i C c c h i n h n h c ũ n g có sở liệ u riê n g Sau m ỗ i n g y liệ u tạ i c h i n h n h cậ p n h ậ t m y c h ủ tạ i tru n g tâ m v ì th ế liệ u tă n g rấ t n h a n h m ặ t d u n g lư ợ n g * C sở d ữ liệ u B ả o h iể m a rấ t n h iề u th ô n g t in : - T h ô n g tin K h c h h n g - T h ô n g tin cá c lo i h ìn h B ảo h iể m - T h ô n g tin cá c g ia o d ịc h m u a b n B ả o h iể m - T h ô n g t in c c c h i n h n h B ảo h iể m tạ i cá c tỉn h th n h p h ố c ủ a V iệ t N a m ,.v v V iệ c cá c n h 'c u n g cấ p d ịc h v ụ B ảo h iể m m u ố n đ n h g iá n h u cầ u K h c h h n g m u a bảo h iể m từ n g v ù n g từ n g đ ố i tư ợ ng rấ t k h ó k h ă n n ế u sử d ụ n g phư ơng p h p tru y ề n th ố n g D o đ ó , c h ú n g ta cầ n sử d ụ n g k ỹ th u ậ t k h a i p há liệ u Đ ể k h a i p h sở d ữ liệ u B ảo h iể m c h ú n g ta c h ỉ c ẩ n q u a n tâ m đ ến th ô n g tin m u a bán b ảo h iể m , n ó i rõ hơ n cá c g ia o d ịc h m u a b ả o h iể m c ủ a K h c h h n g M ộ t g ia o d ịc h th n g a rấ t n h iề u th ô n g tin , n h n g đ â y c h ú n g ta c h ỉ q u a n tâ m đ ến m ộ t số Ih ô n g tin sau đ â y p h ụ c v ụ c h o ch n g tr ìn h k h a i p há: - L o i b ả o h iể m : B ả o h iể m n h â n th ọ , B ảo h iể m y tế , v v - L o i K h c h h n g : G iá o v iê n , S in h v iê n , H ọ c s in h , B ộ đ ộ i,.v v - G iớ i tín h (N m , N ữ ) - N ă m s in h - T ỉn h (T h n h p h ố ) ( T P ) : H N ộ i, T P H C M , H ả i P h ò n g , N a m Đ ịn h ,.v v 59 C äc b a n g d ü lie u d u ö i d ä y c h i lä m ö t phä n tro n g c o scf d ü lie u bäo h ie m M ö i ban g c h ü n g tö i c ü n g c h i sir d u n g m ö t so tru ö n g cän th ie t p h u c vu c h o q ua trin h k h a i phä C äc th o n g t in tre n d u g c lä'y tir cäc b a n g d u ö i d ä y : H in h : So d o q u a n he Sir d u n g cä u l^ n h tr u y vä'n d u ö i d ä y d ^ lä'y d ö lie u tir cäc b an g : SELEC T C P ro fe s s io n ID A S P ro fe s s io n , C A g e IT In s u n c e T y p e lD AS AS Age, In s u n c e T y p e N a m e , C S ex A S Sex, P P ro v in c e lD AS P ro v in c e FROM T _ T n s a c tio n A S T , T _ P ro v in c e AS P, T _ In s u n c e T y p e AS IT , T _ C u s to m e r A S C, T _ P ro fe s s io n A S P r W HERE T C u s to m e rID = C C u s to m e rID A N D C P ro v in c e ID = P P ro v in c e ID A N D T In s u n c e T y p e lD = IT In s u n c e T y p e lD A N D C P ro fe s s io n ID = P r.P ro fe s s io n ID K e t q u ä c ü a cäu le n h tre n ta se g h i vä o te p k ie u te x t cö k h u ö n d a n g (m ö i d ö n g m ö tä g ia o d ic h m u a b än bäo h i£ m ) n h u sau: P ro fe s s io n Age Sex In s u n c e T y p e N a m e P ro v in c e G ia o _ v ie n 1941 M a le Y _ te D a_N ang Thuong_nhan 1923 M a le N h a n _ th o N h a _ T n g B a n g c ä c h k h a i phä cäc t r i th tic tie m än tro n g c a so d ü lie u B äo hi6’m g iü p c h o n h ä c u n g cä p d ic h v u B äo h i^ m d ä n h g iä dugfc n h u cäu K h ä c h h ä n g m u a bäo 60 h iể m từ n g v ù n g v từ ng đ ố i tư ợ ng từ đ ó đưa c h iế n lượ c k in h d o a n h , q u ả n g c o , tiế p t h ị v đầu tư c h o hợ p lý V iệ c n h c u n g cấ p d ịc h v ụ B ảo h iể m đ n h g iá n h u cầ u K h c h h àn g m u a b ả o h iể m từ n g v ù n g từ n g đ ố i tư ợ ng, dựa trê n k ế t q u ả m chư ng tr ìn h k h a i p h liệ u đưa , cụ th ể dựa o cá c lu ậ t k ế t hợ p s in h sau q u tr ìn h k h a i phá n h v í d ụ dư i đ ây + L u ậ t 1: F e m a le and Y _ te and N g h i_ h u u - > H u e (S u p = % , C o n f = 0 % ) —> L u ậ t n y c h ỉ rằ n g n h ữ n g n gư i nữ g iớ i n g h ỉ h u n m u a bảo h iể m Y tế th ì th n h p h ố H u ế v i đ ộ h ỗ trợ % đ ộ t in c ậ y % + L u ậ t : M a lè and N h a n _ th o and N h a _ T n g and 1923 - > T h u o n g _ n h a n (S u p = % , C o n f = % ) —> L u ậ t n y c h ỉ rằ n g n h ữ n g ngư i m u a bảo h iể m N h â n th ọ , n a m g iớ i N h a T n g , s in h n ă m 1923 thư ng n h â n v i đ ộ h ỗ trợ % đ ộ t in c ậ y % « + L u ậ t 3: F e m a le and N h a n _ th o and T h u o n g _ n h a n a n d 196 - > N in h _ B in h (S u p = % , C o n f = 5 % ) —> L u ậ t n y c h ỉ rằ n g thư ng n h â n nữ s in h n ă m 1962 m u a bảo h iể m N h â n th ọ th ì c h ủ y ế u N in h B ìn h , v i đ ộ h ỗ trợ % đ ộ t in c ậ y 5 % C i đ ặ t c h n g t r ì n h - C h n g trìn h cà i đ ặ t b ằ n g V C + + - C h y trê n hệ đ iề u h n h W in d o w s 0 A d v a n c e d S e rve r - M y tín h P e n tu m , tố c đ ọ 1.4 G H z , M B R A M , ổ n g tổ n g d u n g lư ợ n g G B , c ò n trố n g g ầ n G B - T h u ậ t to n sử d ụ n g A p r io r i 61 c C h ng trìn h c h y trê n liệ u s in h n g ẫ u n h iê n b i chương trìn h s in h d ữ liệ u D ữ liệ u s in h b ao g m 7 k h c h h n g trê n 11 tỉn h th n h p hố, L o i k h c h h n g G iá o v iê n , S in h v iê n , H ọ c s in h , B ộ đ ộ i, C ô n g n h â n lo i K h c h h n g k h c (c c k h c h h n g cò n lạ i) B ộ liệ u b ao g m 1 g ia o d ịc h m u a b án bảo h iể m B ộ liệ u b ao g m g ia o d ịc h m u a b án b ảo h iể m M ỗ i b ộ d ữ liệ u thử n g h iệ m vớ i trư ng hợ p k h c n h a u m ỗ i trư ng hợp l ngư ỡ ng m in s u p v đ ộ t in ’ cậ y k h c M u c đ íc h củ a v iệ c c h y n h iề u liệ u k h c n h a u vớ i n h iề u ngư ỡng m in s u p k h c n h a u để đ n h g iá tố c đ ộ c ũ n g n hư tà i n g u y ê n sử d ụ n g thuật toá n K ế t q u ả c h y c h n g t r ì n h V ì m ỗ i lầ n c h y chư ng trìn h số lu ậ t tìm n h iề u v ì v ậ y c h ú n g t ô i c h ỉ đưa m ộ t số lu ậ t m chư ng trìn h tìm đ â y: a) V i b ộ liệ u thứ n h ấ t (3 1 g ia o d ịc h ) *T rư n g hợ p (n g ỡ n g m in s u p = % , ngư ỡ ng m in c o n f = 5 % ) - T h i g ia n th ự c h iệ n : gần 1.99 g iâ y - T ìm lu ậ t - M ộ t số lu ậ t tìm được: + L u ậ t có th u ộ c tín h Phu_Tho -> Cong_nhan (Sup = 4.0%, Conf = 62.8%) Phu_Tho -> Female (Sup = 4.0%, Conf = 72.2%) 1933 -> Male (Sup = 4.1%, Conf = 100.0%) 1962 -> Thuong_nhan (Sup = 4.1%, Conf = 64.3%) 1962 -> Female (Sup = 4.1%, Conf = 100.0%) 1921 -> Bo_doi (Sup = 4.4%, Conf = 65.9%) 62 1921 -> Male (Sup = 4.4%, Conf = 100.0%) Ha_Noi -> Male (Sup = 5.4%, Conf = 73.9%) Ninh_Binh -> Female (Slip = 6.6%, Conf = 65.2%) Khac -> Female (Sup = 6.6%, Conf = 100.0%) Hai_Duong -> Female (Sup = 6.8%, Conf = 80.1%) Ha_Tinh -> Female (Sup = 7.2%, Conf = 59.7%) Thai_Nguyen -> Female (Sup = 7.9%, Conf = 66.4%) Da_Nang -> Male (Sup = 8.7%, Conf = 55.4%) Thuong_nhan-> -Female (Sup = 10.1%, Conf = 64.0%) + T ậ p cá c lu ậ t chứa th u ộ c tín h Cong_nhan and Phu_Tlio -> 1964 (Sup = 2.5%, Conf = 55.8%) Nghi_huu and Da_Nang -> 1957 (Sup = 2.5%, Conf = 56.1%) Khac and Hai_phong -> 1950 (Sup = 2.3%, Conf = 60.2%) Female and Hai_phong -> 1950 (Sup = 2.3%, Conf = 60.2%) Nong_dan and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 61.0%) Female and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 61.0%) Bo_doi and Nam_Dinh -> 1939 (Sup = 2.5%, Conf = 61.7%) Male and Nam_Dinh -> 1939 (Sup = 2.5%, Conf = 61.7%) Female and 1960-> Thai_Nguyen (Sup = 2.3%, Conf = 59.0%) Female and 1934 -> Hai_Duong (Sup = 2.4%, Conf = 61.0%) Male and 1967 -> Thai_Nguyen (Sup = 2.4%, Conf = 55.1%) Male and 1967 -> Cong_nhan (Sup = 2.4%, Conf = 55.1%) + T ậ p cá c lu ậ t chứa th u ộ c tín h Male and Giao_vien and Da_Nang -> 1941 (Sup = 2.3%, Conf = 59.9%) Male and Nghi_huu and Da_Nang-> 1957 (Sup = 2.5%, Conf = 56.1%) Female and Khac and Hai_phong-> 1950 (Sup = 2.3%, Conf = 60.2%) Female and Nong_dan and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 61.0%) Female and Bo_doi and Thai_Nguyen-> 1946 (Sup = 2.4%, Conf = 61.3%) Male and Bo_doi and Nam_Dinh-> 1939 (Sup = 2.5%, Conf = 61.7%) Male and Giao_vien and Ninh_Binh-> 1947 (Sup = 2.3%, Conf = 58.5%) Female and 0_to and 1962-> Thuong_nhan (Sup = 0.8%, Conf = 69.5%) Female and 0_tố and Thuong_nhan -> 1962 (Sup = 1.0%, Conf = 57.4%) Female and Giao_duc and 1962 -> Thuong_nhan (Sup = 1.1%, Conf = 67.9%) Female and Giao_duc and Thuong_nhan -> 1962 (Sup = 1.3%, Conf = 58.2%) Female and Xe_may and 1962 -> Thuong_nhan (Sup = 0.9%, Conf = 66.4%) 63 Male and Nhan_tho and 1921 -> Bo_doi (Sup = 0.9%, Conf = 71.2%) Male and Y_te and 1921 -> Bo_doi (Sup = 1.0%, Conf = 62.8%) Female and Suc_khoe and Thai_Nguyen -> Nong_dan (Sup = 0.8%, Conf = 69.1%) Female and Y_te and Thai_Nguyen-> Nong_dan (Sup = 1.1%, Conf = 66.0%) Female and Giao_duc and Thai_Nguyen -> Bo_doi (Sup = 0.9%, Conf = 64.1%) Bo_doi and Xe_may and *Thai_Nguyen -> Female (Sup = 0.8%, Conf = 62.3%) Male and Y_te and Da_Nang -> Nghi_huu (Sup = 1.0%, Conf = 55.1%) Male and Giao_duc and Da_Nang -> Giao_vien (Sup = 0.8%, Conf = 56.8%) * T rư n g hợ p (n g ỡ n g m in s u p = % , ngư ỡ ng m in c o n f = % ) - T h i g ia n thự c h iệ n : gần 1.93 g iâ y - T ìm 331 lu ậ t - M ộ t số lu ậ t tìm được: + T ậ p lu ậ t a th u ộ c tín h 1991 -> Ha_Tinh (Sup = 1.5%, Conf = 100.0%) 1991 -> Nghi_huu (Sup = 1.5%, Conf = 100.0%) 1991 -> Male (Sup = 1.5%, Conf = 100.0%) Viet_Tri -> 1999 (Sup = 2.8%, Conf = 51.1%) Viet_Tri -> H oc_sinh_SV (Sup = 2.8%, Conf = 51.1%) Phu_Tho -> Cong_nhan (Sup = 4.0%, Conf = 62.8%) Ha_Noi -> Bo_doi (Sup = 5.4%, Conf = 52.0%) + T ậ p cá c lu ậ t a th u ộ c tín h Nghi_huu and Ha_Tinh -> 1991 (Sup = 2.8%, Conf = 52.8%) Female and Nam_Dinh-> 1932 (Sup = 2.3%, Conf = 58.3%) Cong_nhan and Phu_Tho -> 1964 (Sup = 2.5%, Conf = 55.8%) Nghi_huu and Da_Nang -> 1957 (Sup = 2.5%, Conf = 56.1%) Khac and Hai_phong -> 1950 (Sup = 2.3%, Conf = 60.2%) Female and HaỤphong -;> 1950 (Sup = 2.3%, Conf = 60.2%) Cong_nhan and Hue -> 1994 (Sup = 2.8%, Conf = 52.1%) Nong_dan and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 61.0%) Female and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 61.0%) Female and 1952-> Nghe_An (Sup = 2.7%, Conf = 50.2%) Female and 1952 -> Giao_vien (Sup = 2.7%, Conf = % ) Male and Ha_Tay -> 1937 (Sup = 2.4%, Conf = 54.6%) 64 Male and 1937 -> Hai_Duong (Sup = 2.7%, Conf = 50.3%) Male and 1937 -> Thuong_nhan (Sup = 2.7%, Conf = 50.3%) Male and 1973 -> Can_Tho (Sup = 2.7%, Conf = 51.0%) + T ậ p cá c lu ậ t'c h ứ a th u ộ c tín h Female and Thuong_nhan and 1962 -> Ninh_Binh (Sup = 2.6%, Conf = 50.2%) Male and Bo_doi and 1921 -> TP_HCM (Sup = 2.9%, Conf = 51.8%) Male and Bo_doi and Nam_Dinh -> 1939 (Sup = 2.5%, Conf = 61.7%) Male and Giao_vien and Ninh_Binh -> 1947 (Sup = 2.3%, Conf = 58.5%) Male and Nha_Trang and 1923 -> Thuong_nhan (Sup = 2.7%, Conf = 50.3%) Male and Giao_vien and Nha_Trang-> 1923 (Sup = 2.3%, Conf = 58.4%) Male and Giao_vien and Da_Nang -> 1941 (Sup = 2.3%, Conf = 59.9%) Male and Nghijhuu and Da_Nang-> 1957 (Sup = 2.5%, Conf = 56.1%) Female and Khac and Hai_phong -> 1950 (Sup = 2.3%, Conf = 60.2%) Female and Bo_doi and Thai_Nguyen-> 1946 (Sup = 2.4%, Conf = 61.3%) b) V i b ộ liệ u th ứ (6 g ia o d ịc h ) * T rư n g hợp (n g ỡ n g m in s u p = % , ngư ỡ ng m in c o n f = 5 % ) - T h i g ia n thự c h iệ n : gần 3.5 g iâ y - T ìm 106 lu ậ t - M ộ t số lu ậ t tìxn được: + T ậ p cá c lu ậ t a th u ộ c tín h 1949 -> Nam_Dinh (Sup = 0.9%, Conf = 100.0%) 1959 -> Thuong_nhan (Sup = 0.9%, Conf = 100.0%) Thai_Binh -> Giao_vien (Sup = 1.1%, Conf = 100.0%) Hung_Yen -> Male (Sup = 1.4%, Conf = 100.0%) 1967 -> Thai_Nguyen (Sup = 2.4%, Conf = 55.8%) Phu_Tho -> Cong_nhan (Sup = 4.0%, Conf = 62.4%) Phu_Tho -> Female (Sup = 4.0%, Conf = 72.6%) 1962 -> Thuong_nhan (Sup = 4.1%, Conf = 63.9%) 1921 -> Bo_doi (Sup = 4.4%, Conf = 65.8%) + T ậ p c c lu ậ t a th u ộ c tín h Female and Nam_Dinh -> 1932 (Sup = 2.2%, Conf = 59.3%) Nha_Trang and 1970 -> Cong_nhan (Sup = 1.3%, Conf = 100.0%) 65 Cong_nhan and Phu_Tho -> 1964 (Sup = 2.5%, Conf = 56.1%) Khac and Hai_phong -> 1950 (Sup = 2.3%, Conf = 60.6%) Nong_dan and Ha_Tay -> 1944 (Sup = 2.4%, Conf = 62.2%) Bo_doi and Nam_Dinh -> 1939 (Sup = 2.4%, Conf = 62.6%) Male and 1967 -> Thai_Nguyen (Sup = 2.4%, Conf = 55.8%) Male and Ha_Tay -> 1937 (Sup = 2.4%, Conf = 55.0%) Xe_may and 1962-> Thuong_nhan (Sup = 0.9%, Conf = 66.5%) Female and 1962-> Thuong_nhan (Sup = 4.1%, Conf = 63.9%) Giao_duc and Ha_Noi -> Male (Sup = 0.9%, Conf = 73.1%) Nhan_tho and Ha_Noi -> Bo_doi (Sup = 1.1%, Conf = 70.5%) Nhan_tho and Ha_Noi -> Male (Sup = 1.1%, Conf = 64.9%) 0_to and Ha_Noi -> Male (Sup = 0.8%, Conf = 83.9%) Male and Hoc_sinh_SV and Hue -> 1921 (Sup = 1.5%, Conf = 100.0%) Male and Nhan_tho and 1921->Bo_doi (Sup = 0.9%, Conf = 71.3%) Male and Y_te and 1921 -> Bo_doi (Sup = 1.0%, Conf = 62.7%) Female and Suc_khoe and Thai_Nguyen -> Nong_dan (Sup = 0.8%, Conf = 69.0%) Y_te and Nong_dan and Thai_Nguyen-> Female (Sup = 0.8%, Conf = 100.0%) Female and Y_te and Thai_Nguyen-> Nong_dan (Sup = 1.1%, Conf = 66.1%) Bo_doi and Giao_duc and Thai_Nguyen -> Female (Sup = 0.9%, Conf = 60.2%) Female and Giaỏ_duc and Thai_Nguyen -> Bo_doi (Sup = 0.9%, Conf = 64.3%) Bo_doi and Xe_may and Thai_Nguyen -> Female (Sup = 0.8%, Conf = 61.8%) Male and Y_te and Da_Nang -> Nghi_huu (Sup = 1.0%, Conf = 55.6%) Male and Giao_duc and Da_Nang -> Giao_vien (Sup = 0.8%, Conf = 57.6%) Female and Thuong_nhan and TP_HCM -> 1962 (Sup = 1.3%, Conf = 100.0%) Female and Giao_duc and 1962-> Thuong_nhan (Sup = 1.1%, Conf = 67.0%) Female and Giaơ_duc and Thuong_nhan -> 1962 (Sup = 1.3%, Conf = 59.1%) Female and Xe_may and 1962-> Thuong_nhan (Sup = 0.9%, Conf = 66.5%) * T rư n g h ợ p (n g ỡ n g m in s u p = % , ngư ỡ ng m in c o n f = % ) - T h i g ia n th ự c h iệ n : gần g iâ y - T u n 1 lu ậ t - M ộ t số lu ậ t tìm được: + T ậ p cá c lu ậ t chứa th u ộ c tín h 1939 -> Male (Sup = 1.5%, Conf = 100.0%) 66 1931 -> Ha_Noi (Sup = 2.0%, Conf = 54.7%) 1931 -> Da_Nang (Sup = 2.0%, Conf = 45.3%) 1931 -> G iao_vien (Sup = 2.0%, Conf = 45.3% ) 1931 -> Male (Sup = 2.0%, Conf = 100.0%) 1940 -> Hai_phong (Sup = 2.0%, Conf = 45.6%) 1940 -> Khac (Súp = 2.0%, Conf = 45.6%) 1940 -> Hue (Sup = 2.0%, Conf = 54.4%) 1940 -> Hoc_sinh_SV (Sup = 2.0%, Conf = 54.4%) 1940 -> Female (Sup = 2.0%, Conf = 100.0%) 1960 -> Thai_Nguyen (Sup = 2.3%, Conf = 60.0%) 1960 -> Nong_dan (Sup = 2.3%, Conf = 60.0%) 1967 -> Thai_Nguyen (Sup = 2.4%, Conf = 55.8%) 1967 -> Cong_nhan (Sup = 2.4%, Conf = 55.8%) 1947 -> Ninh_Binh (Sup = 2.5%, Conf = 55.5%) 1947 -> Giao_vien (Sup = 2.5%, Conf = 55.5%) 1947 -> Male (Sup = 2.5%, Conf = 100.0%) 1971 -> Hue (Sup = 2.5%, Conf = 55.8%) 1971 -> Cong_nhan (Sup = 2.5%, Conf = 55.8%) 1971 -> Male (Sup = 2.5%, Conf = 100.0%) 1952 -> Nghe_An (Sup = 2.7%, Conf = 50.1%) 1952 -> Nha_Trang (Sup = 2.7%, Conf = 49.9%) 1952 -> Nong_dan (Sup = 2.7%, Conf = 49.9%) 1952 -> Giao_vien (Sup = 2.7%, Conf = 50.1%) 1952 -> Female (Sup = 2.7%, Conf = 100.0%) 1923 -> Thuong_nhan (Sup = 2.7%, Conf = 50.3%) 1923 -> Male (Sup = 2.7%, Conf = 100.0%) 1937 -> Ha_Tay (Sup = 2.7%, Conf = 50.0%) + T ậ p lu ậ t chứa th u ộ c tín h Male and Hai_phong -> Í959 (Sup = 2.0%, Conf = 45.8%) Male and Thai_Nguyen -> 1977 (Sup = 2.7%, Conf = 49.4%) Female and Nam_Dinh -> 1932 (Sup = 2.2%, Conf = 59.3%) Nghijiuu and Da_Nang -> 1957 (Sup = 2.5%, Conf = 56.3%) Cong_nhan and Hue -> 1994 (Sup = 2.9%, Conf = 52.1%) N ghijm u and Ha_Tinh ->1991 (Sup = 2.9%, Conf = 52.5%) Male and Ha_Tinh-> 1991 (Sup = 2.9%, Conf= 52.1%) Thuong_nhan and Hai_Duong -> 1956 (Sup = 2.9%, Conf = 53.2%) 67 Bo_doi and Nam_Dinh -> 1939 (Sup = 2.4%, Conf = 62.6%) Female and Suc_khoe and Nong_dan-> Thai_Nguyen (Sup = 1.1%, Conf = 52.7%) Female and Y_tẹ and Thai_Nguyen -> Nong_dan (Sup = 1.1%, Conf = 66.1%) Female and Y_te and Nong_dan-> Thai_Nguyen (Sup = 1.4%, Conf = 53.7%) Male and Giao_duc and Nha_Trang -> Giao_vien (Sup = 1.2%, Conf = 47.2%) Female and Thuong_nhan and 1962->TP_HCM (Sup = 2.6%, Conf = 50.0%) Female and Thuong_nhan and TPJHCM -> 1962 (Sup = 1.3%, Conf = 100.0%) Female and Giao_duc and Thuong_nhan -> 1962 (Sup = 1.3%, Conf = 59.1%) Female and Xe_may and •Thuong_nhan -> 1962 (Sup= 1.3%, Conf = 48.9%) T h i g ia n th ự c h iệ n chư ng trìn h trê n c h ú n g t ô i c h ỉ đưa số liệ u gần đ ú n g bở i tro n g k h i c h y chư ng trìn h m y tín h vẫ n d n h q u y ề n xử lý c h o cá c chư ng tr ìn h k h c v ì th ế m ỗ i lầ n c h y chư ng trìn h th i g ia n th a y đ ổ i c h ú t m ặ c dù c h y c ù n g b ộ liệ u T h i g ia n c h y chư ng trìn h trê n c h ỉ tín h th i g ia n tín h to n trê n liệ u k h ô n g k ể th i g ia n đ ọ c liệ u N h ậ n x é t k ế t q u ả V i tập liệ u có m ụ c th ì th i g ia n thự c h iệ n th u ậ t to n c h i p h í n h k h ô n g đ n g k ể c h o d ù số g ia o d ịc h rấ t lớ n V i số m ụ c tă n g lê n th ì c h i p h í th i g ia n tă n g th e o h m m ũ V i số m ụ c lớ n ta p h ả i c ả i th iệ n th u ậ t to n c h o p h ù hợ p C h ú n g tô i tiế p tụ c n g h iê n cứu tiế p để m rộ n g th u ậ t to n c h o h iệ u q u ả v i số m ụ c lớ n số g ia o d ịc h lớ n V i b ộ d ữ liệ u s in h n gẫ u n h iê n c h ú n g ta c ũ n g đ ã th ấ y tầ m q u a n trọ n g c ủ a v iệ c k h a i p h t r i thứ c tro n g sở liệ u m v iệ c tìm k iế m liệ u th ô n g thư ng k h ô n g th ể m được, k ế t q u ả trê n th ậ t hữu íc h n ế u c h ú n g ta áp d ụ n g trê n liệ u m u a b n b ả o h iể m thự c sự, k ế t q u ả n y g iú p c h o cá c n h k in h d o a n h « b ả o h iể m đưa c h iế n lược đầu tư bảo h iể m o từ n g đ ịa phư ơng có k ế h o c h tiế p t h ị b ả o h iể m v i k h c h hàng 68 KẾT LUẬN K ế t q u ả đ t đ ợ c t r o n g lu ậ n v ă n L u ậ n vă n g iớ i th iệ u k h i q u t n h ữ n g n é t c h ín h tro n g k h a i phá liệ u n ó i c h u n g p h t h iệ n lu ậ t k ế t hợp n ó i riê n g L u ậ n văn tậ p tru n g n g h iê n cứu vấn đề sau: - T rìn h b y tổ n g q u t k h a i phá liệ u , cụ thể đ ịn h n g h ĩa k h a i phá liệ u ứng d ụ n g c ủ a n ó , g ia i đ o n củ a q u trìn h p h t h iệ n t r i thứ c, b i to n k ỹ th u ậ t k h a i phá liệ u p hổ b iế n h iệ n n a y « - T rìn h b y b i to n p h t h iệ n lu ậ t k ế t hợp, tìm h iể u hệ th ô n g t in n h ị phân hệ th ổ n g tin m , c ù n g th u ậ t to n p h t h iệ n lu ậ t k ế t hợ p trê n hệ th ô n g t in n h ị phân th u ậ t to n p h t h iệ n lu ậ t k ế t hợp trê n hệ th ô n g t in m - T rìn h b y m ộ t số th u ậ t to n sử d ụ n g để k h a i phá liệ u (A IS , S E T M , A p r io r i, A p r io r iT id , p h â n h o ch , C H A R M ) - Đ x u ấ t th ự c h iệ n c i đ ặ t thử n g h iệ m k h a i p há liệ u củ a b i to n bảo h iể m T ro n g q u trìn h thự c h iệ n lu ậ n vă n, tô i c ố g ắ n g tậ p tru n g tìm h iể u th a m k h ả o k h n h iề u tà i liệ u liê n q u a n T u y n h iê n , v i th i g ia n trìn h độ có hạn nên k h ô n g trá n h k h ỏ i n hữ ng h ạn c h ế th iế u sót T i rấ t m o n g n h ậ n n hậ n xé t g ó p ý c ủ a cá c th ầ y c ô 'g iá o cá c bạn để h o n th iệ n hơ n k ế t q u ả n g h iê n cứu củ a m ìn h H n g n g h iê n c ứ u tiế p th e o - N g h iê n cứu sâu cá c th u ậ t to n k h a i phá liệ u áp d ụ n g o m ộ t số b i to n k h a i p h d ữ liệ u p h ù hợ p vớ i đ iề u k iệ n V iệ t n a m , v í d ụ n hư b i to n dự báo th i tiế t, d â n số, tà i c h ín h , ch ứ n g k h o n , - T iế p tụ c p h t tr iể n chư ng trìn h tro n g lu ậ n vă n n y để áp d ụ n g vào thự c tế m ộ t c ch t r iệ t để 69 TÀI LIỆU THAM KHẢO Tiếng Việt I Đ i h ọ c q u ố c g ia T p H C M (2 0 ), biến, H ộ i n g h ị k h o a h ọ c lầ n th ứ I I , Đ H K H T N T p H ổ C h í M in h , tr -1 Đ i h ọ c q u ố c g ia T p H C M (1 9 ), “ ứ n g d ụ n g k h a i m liệ u vào G iá o d ụ c - Đ o tạ o ” , Phân loại vân dựa cụm từ ph ổ Tạp chí phát triển khao học cơng nghệ, T ậ p (4 + ), tr.2 -3 L ê T h a n h L o n g (2 0 ), N g h iê n cứu k ỹ th u ậ t k h a i m ỏ liệ u ứng d ụ n g k h a i m liệ u n g h iệ p v ụ th i h n h án th n h p h ố Đ N ẵ n g , L u ậ n văn th c sĩ k ỹ th u ậ t, Đ i h ọ c Đ N ẵ n g N g u y ễ n A n N h â n (2 0 ), K h a i phá liệ u p h t h iệ n lu ậ t k ế t hợ p tro n g sở liệ u lớ n , L u ậ n vă n tố t n g h iệ p cao h ọ c , Đ i h ọ c B c h K h o a , H n ộ i Đ ỗ V ă n T h n h , P hạ m T h ọ H o n , Phan X u â n H iế u , N g u y ễ n T h n h T ru n g (2 0 ), Khai phá luật kết hợp với độ liổ trợ không giống nhau, H ội nghị k h o a h ọ c C c n h k h o a h ọ c trẻ , Đ H Q G H n ộ i, tr 1 -1 2 T iế n g A n h B o ris K o v a le rc h u k , E v g e n ii V ity a e v (2 0 ), Datamining ỉn finance , K lu v v e r A c e đ e m ic P u b lis h e rs E le n a M a r c h io r i, “ D a ta M in in g ” , F a c u lty of S cie nce s, D e p a rtm e n t of M a th e m a tic s and C o m p u te r S cie nce , A m s te rd a m , T h e N e th e rla n d s J ia w e i H a n a n d M ic h e lin e K a m b e r (2 0 ), Techniques, Data mining: Concepts and U n iv e r s ity o f I llin o is , M o rg a n K a u fm a n n P u b lis h e rs M o h a m m e d J Z a k i and C h in g J u i H a s ia o , fo r Closed Itemset M ining , CHARM: An efficient Algorithm C o m p u te r S cie nce D e p a rtm e n t, K e n s s e la e r P o ly te c h n ic In s titu te , T r o y N e w Y o r k 12180 10 P B e c u z z i, M C o p p o la and M V a n n e s c h i, “ M in in g o f A s s o c ia tio n R u le s in V e r y L a rg e D a teb a ses: a s tru c tu re d P a lle l A p p ro a c h ” , 70 11 P u b lis h in g H o u s e o f E le c tro n ic s In d u s try (2 0 ), On the Extension o f Dependence o f Atributes in Rough Set Theory fo r Classification Problem in Data Mining, In P ro ce e d in g s o f C o n fe re n c e on S o ftw a re : T h e o ry and P c tic e , B e jin g , C h in a , pp -8 12 R A g r a w a l a n d J C S h a fe r (1 9 ), Parallel mining o f association rules: Design implementation and experience, R e se a rch R e p o rt RJ 00 4, I B M A lm a d e n R e s e a rc h C e n te r, San Jose, C a lifo rn ia 13 R a k e s k A g r a w a l, R a m a k ris h n a n S rik a n t (1 9 ), Associaion Rules, Fast Algorithm fo r Mining In P ro ce e d in g s o f th e th In te rn a tio n a l C o n fe re n c e on V e r y L a rg e D a tab a ses, pp -4 9 14 R a k e s k A g r a w a l, T o m a s z I m ie lin s k i and A r u m S w a m i (1 9 ), Association Rules between Sets o f Items in Large Databases, Mining I B M A lm a d e n R e se a rch C e n te r, San Jose, C A 15 R E lm a s ri a nd S.B N a v a th e (2 0 ), Fundamentals o f Databses Systems, A d d is o n - W e s s le y P q b lis h e rs 16 T h e A s ia n F u z z y S ystem S u m p o s iu m (2 0 ), A Binary and Fuzzy Assoiation Rules from Database method fo r Discovering In th e p ro ce e d in g s o f the F o u rth A s ia n F u z z y S ystem s S y m p o s iu m , T s u k u la , Japan, p p 1-986 17 T h e S p rin g e r P u b lis h e r (1 9 ), U s in g N e u l N e tw o r k R o u g h t G e n e tic fo r C o n c e p tu a l C lu s te r D e s c o v e ry in and K o h e n e n ’ s D a ta m in in g , In P ro c e e d in g s o f R S F D G R C ’ 9 c o n fe re n c e , Y a m a g u c h i-U B E , Japan 18 U sam a M F y y a d , G re g o ry R a m a s a m y U th u ru s a m y (1 9 ), Data Mining, 19 P ia te ts k y -S h a p iro , P a d h ic S m y th and Advances in Knowledge Discovery and A A A I / M I T Press V ik r a m P u d i and Ja y a n t R H a rits a , Mining Algorithms, On the Optimality o f Association-rule In d ia n In s titu te o f S cie nce , B a n g a lo re 0 , In d ia V N U - H C M V ie tn a m (2 0 ), “ D is c o v e rin g F u z z y c la s s ific a tio n ru le s fro m database based on the g e n e tic a lg o r ith m ” Development , Magazin o f Science & Technology V o l ,N o , p p -4 V N U - H C M V ie tn a m (1 9 ), “ U s in g d ata m in in g in e d u c a tio n and tr a in in g ” , M a n a z in e o f S cie nce T e c h n o lo g y D e v e lo p m e n t, V o l2 , N o , p p -3 Z ijia n Z h e n g , R o n K o h a v i, and L le vv M a s o n , “ R e a l W o r ld P e rfo rm a n c e o f A s s o c ia tio n R u le A lg o r ith m s ” , 72 PHỤ LỤC Giao diện chương trình KDD On Insurance Loại khách hàng ] Năm 1933 1937 1973 1973 1927 1934 1934 1947 1947 1347 Hoc sinh sv Hoc sinh sv Nong_dan Nong_dỏn Giao vien Giao vien Giao vien Nghi huu Nghi huu Nnhi hun Giới tính I Loại bảo hiểm Male Nhan tho Male to Male Y te Male Y te Male Nhan tho Female lo Female Xe may Male Y te Mde Xe may M a I« y t»Q no uỢ 101incu va QQ un cộyMoi inieu ' • ‘V,M V,.' “••••> * - -• - •i ' - i- : í ’•í Độ hỗ trợ tối tNểu 1.05 X Độ tin cậy tối thiểu 45 %' ' '• ỉ ' * ’ ”■,T ■" ■' r: ■ ’ ì ■?■ • -% Luật kểl hợp Female and 0_lo and 1962 •> Thuong_nhan (Sup • 0.82, Coní « 69.52) Female and j o and ThuongLnhỏn •> 1962 (Sup - 1.02, Conf - 57.42) Female and Giao_ducand 1962 •> Thuong_nhan (Sup » 1.1 z Conf - 67.92) Female and Giao_ducand Thuong_nhan •> 1962 (Sup ■ 1.3% Conf ■ 58.2^) Female and Xe_may and 1962 •> Thuong_nh«n (Sup ■ 0.92, Conf ■ 66.42) Male and Hoc_sinh_SV and Hue *> 1921 (Sup « 1.5X Conf ■ 100.0£) Male and Nhanjho and 1921 •> Bo_doi (Sup * 0_93i Conf ■ 71.22) Male and Y \e and 1921 •> Bo_.doi TSup ■ 1.0% Con/ ■ 62.82) Female and Suc_khoe and ĩhãi_Nguyen •> NongL_dan (Sup - 0.82, Conf - 69.12) Female and Y je and Th«_Nguyen ■> Nong_dan (Sup ■ 1.12, Corrf - 86.0£) Bo_doi and Giao_duc and Thai_Nguyen •> Female (Sup ■ 0.9£, Conf ■ 60.5%) Female and Giao_duc and Thai_Nguyen > Bo_doi (Sup * 0.9/*, Conf ô 8412) Bo_doi and Xe_may and Thai_Nguyen > Female (Sup ô 0.8* Conf - 62.32) Male and Y je a n d Da_Nang”> Nghijwu (Sup - 1.0*, Conf - 55.1 £) Male and Giao due and Da Nana-> Giao vien iSuo ■ 0.8£.Conf - 56.8^1 V'* 'V- m Ệ W m n • I Xử lý TìnhlTP) I Hai phong Ha Tay TP HCM TP HCM Nha Trang Hai Duong Hai Duong Ha Tay Ha Tay Ha Taụ • I Thời gian Ihực |4.27| H u (giồy) Thoắt H ìn h : Cửa sổ g ia o diện c h ín h củ a chư ng trìn h K D D o n In s u n c e ... 15 1.4.4 Các luật kết hợp 17 Chương Phát luật kết hợptrong sở liệu lớn 20 2.1 Phát biểu toán phát luật kết hợp .20 2.2 Phát luật kết hợp dựa hệ thông tin nhị phân... nghĩa khai phá liệu ứng dụng nó, giai đoạn q trình phát tri thức, toán khai phá liệu Cuối chương 1, luận văn trình bày kỹ thuật khai phá liệu phổ biến Chương 2, phát biểu toán phát luật kết hợp, ... dụng Các kỹ thuật cơng cụ đề tài lĩnh vực bật khám phá tri thức CSDL Khai phá liệu giai đoạn quan trọng khai phá tri thức từ CSDL Khai phá luật kết hợp nội dung quan trọng khai phá liệu Mục đích

Ngày đăng: 06/03/2020, 00:08

Mục lục

  • Mục lục

  • DANH MỤC BẢNG BIỂU, HÌNH VẼ

  • CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT

  • MỞ ĐẦU

  • CHƯƠNG 1. TỔNG QUAN VỂ KHAI PHÁ DỮ LIỆU

  • 1.1. Khai phá dữ liệu

  • 11.1. Định nghĩa

  • 1.1.2. Các ứng dụng của khai phá dữ liệu

  • 1.2. Các giai đoạn chính của quá trình phát hiện tri thức

  • 1.3. Các bài toán trong khai phá dữ liệu

  • 1.3.1. Phát hiện sự phụ thuộc dữ liệu

  • 1.3.2. Phát hiện sự biến đổi và độ lệch

  • 1.3.3. Phát hiện luật kết hợp

  • 1.3.4. Mô hình hoá sự phụ thuộc

  • 1.3.5. Phân lớp

  • 1.3.6. Hồi quy

  • 1.3.7. Tổng hợp

  • 1.4. Các kỹ thuậ t khai phá dữ liệu phổ biến

  • 1.4.1. Các công cụ truy vấn

  • 1.4.2. K-Láng giềng gần

Tài liệu cùng người dùng

Tài liệu liên quan