1. Trang chủ
  2. » Thể loại khác

Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cự tiểu

53 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TrRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ thuật Phần mềm (Software Engineering) Mã số: 60480103 LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội – 2014 LỜI CẢM ƠN Điều ầu ti n xin gửi lời cảm ơn sâu sắc ến PGS.TS Hồng Xn Huấn Thầy ã cung cấp cho tơi kiến thức, tài liệu, phƣơng pháp nghi n cứu v l m luận v n Tôi xin cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Đối với t i thầy l ngƣời thầy k nh v lu n hết l ng v học vi n T i xin gửi lời cảm ơn chân th nh ến thầy c kho c ng nghệ th ng tin kho s u T i xin gửi lời cảm ơn ến gi ộ ã giảng y cán ộ i học ph ng t chức h nh ch nh nh ng nghiệp v n ngƣời ã ộng vi n t i nhiều tr nh học tập Hà Nội, ngày tháng 12 n m 2014 Học viên Trần Quang Hào LỜI CAM ĐOAN T i xin c m o n kiến thức trình bày luận v n n y l o t i t m hiểu, nghiên cứu trình bày theo cách hiểu thân ƣới hƣớng dẫn trực tiếp PGS.TS Hồng Xn Huấn Trong q trình làm luận v n t i có th m khảo tài liệu có li n qu n v vi ph m quy chế ã ghi rõ ngu n gốc tham khảo tài liệu ó Mọi chép khơng hợp lệ, o t o tơi xin chịu hồn tồn trách nhiệm Hà Nội, ngày tháng 12 n m 2014 Học viên Trần Quang Hào MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ LỜI MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU VỀ KH M PH TRI TH C V PH N CỤM Ữ LIỆU 1.1 Khám phá tri thức .8 1.2 Vai trị mục tiêu KDD 1.3 Khái niệm phân cụm ữ liệu: .10 1.4 Các ứng dụng phân cụm 11 Một số phƣơng pháp phân cụm iển h nh 12 Phƣơng pháp phân cụm phân ho ch 12 Phƣơng pháp phân cụm phân cấp 13 Phƣơng pháp phân cụm dựa mật ộ 16 Phƣơng pháp phân cụm dự tr n lƣới 17 1.6 Một số vấn ề li n qu n ến phân cụm 18 1.6.1 Mêtric liệu hỗn hợp 18 1.6.2.Độ tƣơng ng .20 1.6.3 Entropy .23 CHƢƠNG 2: THU T TO N PH N CỤM S ỤNG C Y KHUNG CỰC TIỂU 24 2.1.Cây khung cực tiểu 24 1 Đ nh ngh khung cực tiểu 24 2 Thuật toán xây ựng khung cực tiểu 24 2.2 Một số khái niệm cần dùng .26 2.3 Cụm ƣợc mô tả Zahn v H n l 27 2.4 Thiết lập i toán phân cụm ng thị: 28 Độ phức t p củ thuật toán 2-MSTs 35 CHƢƠNG 3: THỰC NGHIỆM NG ỤNG 37 Giới thiệu 37 3.2 Chƣơng tr nh v kết thử nghiệm 37 Chƣơng tr nh 37 3.2.2 Kết thử nghiệm 38 KẾT LU N 48 TÀI LIỆU THAM KHẢO 49 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Từ tiếng anh Từ cụm từ CSDL Database Cơ sở liệu CQĐ Decision Tree Cây ịnh KPDL Data mining Khai phá liệu PCDL Clustering Data Phân cụm liệu TB Average Trung bình CLS ConceptLearning System Hệ thống học khái niệm DW Data Warehouse Kho liệu DM Data Mart Kho liệu cục KDD Knowledge Discovery in Data Khám phá tri thức liệu MDL Minimum Description Length Chiều dài tối thiểu MST Minimum spanning tree Cây khung cực tiểu DANH MỤC HÌNH VẼ Hình 1.1 Q trình phát tri thức CSDL Hình 1.2: Mơ vấn ề PCDL 10 Hình 1.3: Phân cụm tập S = { c e} theo phƣơng pháp “ ƣới l n” 15 Hình 1.4: Hai cụm ƣợc tìm thuật toán DBSCAN 17 Hình 1.5: Hai cụm liệu t m ƣợc nhờ DBSCAN 17 Hình 1.6: Ba tầng liên tiếp cấu trúc STING 18 Hình 2.1: Một số hình minh họa phân cụm Zahn 27 Hình 2.2 Một số hình minh họa phân cụm Handl 27 Hình 2.3 Minh họa MSTs hai vịng 30 Hình 2.4 Minh họa cụm tách mật ộ 32 Hình 2.5 Minh họa cụm khơng thể t ch ƣợc 32 Hình 2.6 Minh họa cụm với tỉ lệ cut khác 33 Hình 3.1 Giao diện co e chƣơng tr nh 38 Hình 3.2 Giao diện ch y chƣơng tr nh 38 H nh 3 ảng kế ho ch khai thác bay 39 H nh ảng s u t nh toán T1 v T2 nhận ng tách cụm 39 Hình3.5: Bảng Gain thuộc tính 40 Hình 3.5 : Bảng với f10 nhận giá trị 40 Hình 3.6: Bảng với f10 nhận giá trị 41 Hình 3.7: Bảng t nh G in củ thuộc t nh lần 41 Hình 3.8: Bảng f13 nhận giá trị b ng 42 Hình 3.9: Bảng f13 nhận giá trị b ng 42 Hình 3.10 Bảng kết phân cụm s u t nh entropy lần 43 Hình 3.11 Bảng kết phân cụm s u t nh entropy lần 44 Hình 3.12 Bảng kết phân cụm s u t nh entropy lần 45 Hình 3.13 Bảng kết phân cụm s u t nh entropy lần 45 H nh 14 ảng liệu thử nghiệm lần 46 H nh 15 ảng s u t nh toán T1 v T2 nhận ng tách cụm 46 Hình 3.16 Bảng kết phân cụm s u t nh enropy lần 47 Hình 3.17 Bảng kết phân cụm s u t nh enropy lần 47 LỜI MỞ ĐẦU Ng y n y o phát triển m nh củ ứng ụng c ng nghệ th ng tin l nh vực nhƣ kinh tế xã hội kho học … ã t o r khối lƣợng sở ữ liệu kh ng l Để kh i thác th ng tin hiệu i hỏi phải có số kỹ thuật xử lý c o cấp ó l phân ho ch ữ liệu h y cụm Hiện nay, phân cụm liệu toán ng ƣợc nhiều ngƣời quan tâm nghiên cứu, nhiên, thuật toán thƣờng yêu cầu ngƣời ùng xác ịnh trƣớc số lƣợng cụm Số cụm tham số quan trọng ảnh hƣởng nhiều tới kết trình phân cụm, ứng với số lƣợng cụm khác cho kết phân cụm khác nhau, thật khó kh n ể ịnh kết phân cụm tốt Trong luận v n n y em tr nh y khảo cứu tác giả tiếp cận phân cụm liệu sử dụng khung cực tiểu Đặc biệt i sâu v o kỹ thuật phân cụm thuật toán 2-MSTs Ngo i phần mở ầu kết luận, cấu trúc luận v n có chƣơng:  Chƣơng 1: Gi i thi u h m ph tr th c v ph n cụm ữ i u Chƣơng n y tr nh y khái niệm ản khám phá tri thức v phân cụm ữ liệu tóm tắt số phƣơng pháp phân cụm ữ liệu iển h nh  Chƣơng 2: Thuật to n ph n cụm sử ụng c cực tiểu Trong chƣơng n y ể l m rõ kỹ thuật phân cụm liệu dựa đồ thị sử dụng khung cực tiểu , số vấn ề li n qu n ến khung cực tiểu ƣợc tr nh y ngồi phân tích kỹ thuật phân cụm khung cực tiểu, tìm hiểu thuật tốn phân cụm 2-MSTs  Chƣơng 3: Thực nghi m ng ụng Trong phần thực nghiệm c i ặt thuật toán 2-MSTs v m thuật toán qu v ụ kh i thác y củ ng nh h ng kh ng Phần kết luận trình bày tóm tắt nội dung thực luận v n thời ƣ r vấn ề nghiên cứu tiếp cho tƣơng l i ng có vết cắt h y kh ng O(| X |log| X’|) ó | X |  N Thời gian lặp từ ƣớc ến ƣớc số cụm rời liệu, nhìn chung nhỏ nhiều so với N o ó ộ phức t p thuật toán O(N2) Ở ƣớc thuật toán 2, xây dựng SP cần O(N2), xếp CP (SP) cần O(N log N) Kết l ƣớc ƣợc thực O(N2) Việc lặp ƣớc thuật toán ƣợc hồn thành O(N log N) Cả h i ƣớc thuật toán ƣợc thực O(N) Độ phức t p tính toán thuật toán O(N2) Vậy phƣơng pháp 2-MSTClus g m thuật tốn có thời gian t ng O(N2) 36 CHƢƠNG 3: THỰC NGHIỆM NG DỤNG 3.1 Gi i thi u Để làm sáng tỏ kỹ thuật phân cụm thuật toán 2- MSTs ã tr nh y chƣơng tr nh thử nghiệm với liệu li n qu n ến ngành hàng không, liệu thực ƣợc thu thập từ t ng công ty hàng không Việt Nam, liệu không thực(tự t o ể test thử chƣơng tr nh) 3.2 Chƣơng tr nh kết thử nghi m 3.2.1 Chƣơng tr nh Chƣơng tr nh viết b ng ngôn ngữ ASP net mơi trƣờng Visual Stadio 2010 37 Hình 3.1 Giao diện code chương trình Hình 3.2 Giao diện chạy chương trình 3.2.2 ết thử nghi m  Từ tập ữ i u 1: Tập liệu g m 21 ối tƣợng 10 thuộc tính, tập thuộc tính liệu có thuộc tính có thơng tin ảnh hƣởng trực tiếp ến q trình phân cụm ó l thuộc tính có liệu số Mỗi thuộc tính có liệu số s u t nh tốn T1 v T2 ể nhận có tập f ng tách cụm i diện h nh ã thể iều ó Ví dụ: Với thuộc tính scbkehoach, có tập f i diện ó l f1 v f2 ó f1 = f2 = 0, với f có giá trị b ng thể hiển có kết nối ến từ T1, f có giá trị b ng thể ến từ iểm khác ( ịnh ngh 12) 38 Hình 3.3 Bảng kế hoạch khai thác bay Từ bảng kế ho ch kh i thác y t thu ƣợc bảng nhận d ng tách cụm nhƣ s u: Hình 3.4 Bảng sau tính tốn nhận dạng tách cụm Từ hình 3.4, bảng sau tính tốn T1 T2 nhận d ng tách cụm, ta Tính tốn 39 entropy ể tìm giá trị Gain tốt dụng l m ộ o ể lựa chọn thuộc tính phân cụm (t m iểm chia cụm) Với entropy lần t thu ƣợc bảng G in nhƣ h nh Bảng Gain thuộc tính với entropy lân Hình3.5: Bảng Gain thuộc tính Từ bảng Gain ta nhận thấy f10 có giá trị lớn nên thuộc tính f10 ƣợc chọn ể phân cụm Vì f10 có giá trị nên ta có:  Với f10 nhận giá trị ta có cụm Hình 3.6 : Bảng với f10 nhận giá trị 40  Với f10 nhận giá trị ta có cụm Hình 3.7: Bảng với f10 nhận giá trị Với kết ta phân cụm cho f10 có giá trị nhận thấy giá trị cụm ã có ộ tƣơng ng cao, tiếp tục phân cụm có tính lặp l i Tiếp tục phân cụm f10 nhận giá trị ta có bảng Gian thuộc t nh nhƣ s u Hình 3.8: Bảng tính ain thuộc tính lần 41 Ta nhận thấy Gain f13 f14 lớn nhất, nên ta chọn thuộc tính f13 f14 ể phân cụm Giả sử ta lấy f13, với f13 có giá trị nên ta có: Với f13 nhận giá trị b ng ta có cụm: Hình 3.9: Bảng f13 nhận giá trị Với f13 nhận giá trị b ng ta có cụm: Hình 3.10: Bảng f13 nhận giá trị Với kết ta khơng phải phân cụm cho f13 có giá trị b ng b ng nhận thấy giá trị cụm ã có ộ tƣơng ng cao, tiếp tục phân cụm có tính lặp l i Nhƣ với tập liệu 1, sau sử dụng thuật toán – MSTs t thu ƣợc cụm nhƣ s u: 42 KẾT QUẢ C C CỤM ĐƢ C PH N CHIA Hình 3.11 Bảng kết ph n cụm sau tính entropy lần 43 Hình 3.12 Bảng kết ph n cụm sau tính entropy lần 44 Hình 3.13 Bảng kết ph n cụm sau tính entropy lần Hình 3.14 Bảng kết ph n cụm sau tính entropy lần Nhận xét: Trong cụm ã tách ƣợc từ tập liệu, cụm có s sau: Cụm có số chuyến bay hủy khơng có th y ặc trƣng ri ng nhƣ i lịch bay, cụm có th y i lịch bay khơng có số chuyến bay hủy, hay cụm khơng có số chuyến bay hủy nhƣ kh ng có th y i lịch bay, từ tri thức thu ƣợc n y nh iều khiển bay tận dụng ể khai thác sân bay hay thị trƣờng ó ể phục vụ cho lợi ích 45  Từ tập ữ i u 2: Tập liệu n y ƣợc thử nghiệm với 11 ối tƣợng 10 thuộc tính, liệu ƣ v o thiếu thực tế, khơng có tính logic nên t m gọi liệu không thực Hình 3.15 Bảng liệu thử nghiệm lần Hình 3.16 Bảng sau tính tốn nhận dạng tách cụm Với cách thức thử nghiệm tƣơng tự nhƣ với tập liệu 1, sau phân cụm thuật toán ƣ r ƣợc cụm nhƣ s u: 46 KẾT QUẢ C C CỤM ĐƢ C PH N CHIA Hình 3.17 Bảng kết ph n cụm sau tính enropy lần Hình 3.18 Bảng kết ph n cụm sau tính enropy lần Nhận xét: Vậy với liệu khơng thực sau tiến hành thí nghiệm, kết cho ta cụm nhƣng thực chất có cụm có trùng lặp cụm Vậy với liệu xa thực tế với ngƣời sử dụng, khơng có tính logic kết bị sai lệch 47 KẾT LUẬN Sau thời gian làm việc ƣới hƣớng dẫn tận tình thầy giáo PGS.TS Hoàng Xuân Huấn luận v n củ em ã t ƣợc kết s u ây: T ng hợp l i kiến thức khám phá tri thức phân cụm liệu Tìm hiểu thuật tốn 2-MSTs ã ƣợc ề xuất v c i ặt thuật toán Thử nghiệm thuật toán với liệu li n qu n ến ng nh h ng kh ng v kết thử nghiệm, so sánh v - ƣ ánh giá kết Do thời gian nghiên cứu có h n v n ng lực thân h n chế, luận v n chắn cịn nhiều thiếu sót Tơi mong nhận ƣợc ý kiến óng góp Thầy Cơ - Trong thời gian tới, tơi cố gắng tìm hiểu nhiều phƣơng pháp phân cụm liệu ặc biệt l phƣơng pháp phân cụm liệu dự tr n thị sử dụng khung cực tiểu cố gắng mở rộng ứng dụng thuật toán vào nhiều toán thực tế - Em xin cảm ơn Thầy PGS.TS Hoàng Xuân Huấn hỗ trợ chân thành nhiệt tình suốt thời gian qua - Em xin gửi lời cảm ơn chân th nh ến thầy c kho c ng nghệ th ng tin kho s u ộ ã giảng y cán ộ i học ph ng t chức h nh ch nh 48 TÀI LIỆU THAM KHẢO Tiếng vi t [1] PGS.TS Hồng Xn Huấn (2012), Giáo trình Nhận dạng mẫu Trƣờng Đ i học công nghệ - Đ i Học Quốc Gia Hà Nội [2] PGS.TS Đỗ Đức Giáo, Toán học rời r c Giáo tr nh kho CNTT ĐHKHTN ĐHQGHN 1998 Tiếng Anh [3] Caiming Zhong1,2,3, Duoqian Miao1,2,4, Ruizhi Wang1,2, Agraph-theoretical clustering method based on two rounds ofminimum spanning trees, 1) Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China 2) Key Laboratory of Embedded System & Service Computing, Ministry of Education of China, Shanghai 201804, PR China 3) College of Science and Technology, Ningbo University, Ningbo 315211, PR China 4) Corresponding author at: Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China [4] Alan Rea (1009), Data mining - An introdution, The Parallel Computer Center, The Queen’s University of elf st [5] Daniel T.Larose, Discovering knowledge in data, Wiley Publishing 2011 [6] Jiawei Han, Micheline Kamber, Data Mining Concepts and techniques, Second Edition, Elsevier Inc, 2011 [7] Ji wei H n n Micheline K m er (2001) “ t Mining: Concepts n Techniques” Hacours Science and Technology Company, USA [8] L John, “Operational Data Stores: Building an Effective Strategy”, Data Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 2009 [9] P Berkhin: Survey of Clustering Data Mining Techniques Research paper Accrue Software, Inc, http://www.accrue.com, 2009 49 [10] Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data [11] se niel r r Juli Couto Yi Li (Octo er 2001) “COOLCAT: An entropy- lgorithm for c tegoric l clustering” George MasonUniversity Information and Software Engineering Department Fairfax, VA22030, pp 582 - 589 [12] MARIA HALKI I (2001) “On Clustering V li tion Techniques” Kluwer Academic Publishers, Holland [13] Usama M Fayyad, Gregory Piatetsky-Sh piro P hr ic Smyth (1996) “From t Mining to Knowle ge iscovery”: An Overview, Advances in Knowledge Discovery and Data Mining 1996, pp 37 - 54 [14] S Ghosh, S.K Dubey (2013), Comparative Analysis of K-Means and Fuzzy CMeans Algorithms, International Journal of Advanced Computer Science and Applications, Vol 4, No.4, pp 35-39 50

Ngày đăng: 23/09/2020, 21:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN