1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cự tiểu

63 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TrRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ thuật Phần mềm (Software Engineering) Mã số: 60480103 LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội – 2014 LỜI CẢM ƠN Điều ầu ti n xin gửi lời cảm ơn sâu sắc ến PGS.TS Hồng Xn Huấn Thầy ã cung cấp cho tơi kiến thức, tài liệu, phƣơng pháp nghi n cứu v l m luận v n Tôi xin cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Đối với t i thầy l ngƣời thầy k nh v lu n hết l ng v học vi n T i xin gửi lời cảm ơn chân th nh kho c ng nghệ th ng tin kho T i xin gửi lời cảm ơn su ến gi ến thầy c i học ph ng t nh ộ ã giảng y cán ộ chức h nh ch nh ng nghiệp v n ngƣời ộng vi n t i nhiều tr nh học tập Hà Nội, ngày tháng 12 n m 2014 Học viên Trần Quang Hào ã LỜI CAM ĐOAN T i xin c m o n kiến thức trình bày luận v n n y l o t i t m hiểu, nghiên cứu trình bày theo cách hiểu thân ƣới hƣớng dẫn trực tiếp PGS.TS Hồng Xn Huấn Trong q trình làm luận v n t i có th m khảo tài liệu có li n qu n v ã ghi rõ ngu n gốc tham khảo tài liệu ó Mọi chép khơng hợp lệ, vi ph m quy chế o t o tơi xin chịu hồn tồn trách nhiệm Hà Nội, ngày tháng 12 n m 2014 Học viên Trần Quang Hào MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ LỜI MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU VỀ KH M PH TRI TH C V PH N CỤM Ữ LIỆU 1.1 Khám phá tri thức 1.2 Vai trò mục tiêu KDD 1.3 Khái niệm phân cụm ữ liệu: 10 1.4 Các ứng dụng phân cụm 11 Một số phƣơng pháp phân cụm iển h nh 12 Phƣơng pháp phân cụm phân ho ch 12 Phƣơng pháp phân cụm phân cấp 13 Phƣơng pháp phân cụm dựa mật ộ 16 Phƣơng pháp phân cụm dự tr n lƣới 17 1.6 Một số vấn ề li n qu n ến phân cụm 18 1.6.1 Mêtric liệu hỗn hợp 18 1.6.2.Độ tƣơng ng 20 1.6.3 Entropy 23 CHƢƠNG 2: THU T TO N PH N CỤM S ỤNG C Y KHUNG CỰC TIỂU 24 2.1.Cây khung cực tiểu 24 1 Đ nh ngh khung cực tiểu 24 2 Thuật toán xây ựng khung cực tiểu 24 2.2 Một số khái niệm cần dùng 26 2.3 Cụm ƣợc mô tả Zahn v H n l 27 2.4 Thiết lập i toán phân cụm Độ phức t p củ ng thị: 28 thuật toán 2-MSTs 35 CHƢƠNG 3: THỰC NGHIỆM NG ỤNG 31 Giới thiệu 3.2 Chƣơng tr nh v kết thử nghiệm 321 Chƣơng tr nh 3.2.2 Kết thử nghiệm KẾT LU N TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt CSDL CQĐ KPDL PCDL TB CLS DW DM KDD MDL MST DANH MỤC HÌNH VẼ Hình 1.1 Q trình phát tri thức CSDL Hình 1.2: Mơ vấn ề PCDL 10 Hình 1.3: Phân cụm tập S = { c e} theo phƣơng pháp “ ƣới l n” 15 Hình 1.4: Hai cụm ƣợc tìm thuật tốn DBSCAN 17 Hình 1.5: Hai cụm liệu t m ƣợc nhờ DBSCAN 17 Hình 1.6: Ba tầng liên tiếp cấu trúc STING 18 Hình 2.1: Một số hình minh họa phân cụm Zahn 27 Hình 2.2 Một số hình minh họa phân cụm Handl 27 Hình 2.3 Minh họa MSTs hai vòng 30 Hình 2.4 Minh họa cụm tách mật ộ 32 Hình 2.5 Minh họa cụm t ch ƣợc 32 Hình 2.6 Minh họa cụm với tỉ lệ cut khác 33 Hình 3.1 Giao diện co e chƣơng tr nh 38 Hình 3.2 Giao diện ch y chƣơng tr nh 38 H nh 3 ảng kế ho ch khai thác bay 39 H nh ảng s u t nh toán T1 v T2 nhận ng tách cụm 39 Hình3.5: Bảng Gain thuộc tính 40 Hình 3.5 : Bảng với f10 nhận giá trị 40 Hình 3.6: Bảng với f10 nhận giá trị 41 Hình 3.7: Bảng t nh G in củ thuộc t nh lần 41 Hình 3.8: Bảng f13 nhận giá trị b ng 42 Hình 3.9: Bảng f13 nhận giá trị b ng 42 Hình 3.10 Bảng kết phân cụm s u t nh entropy lần 43 Hình 3.11 Bảng kết phân cụm s u t nh entropy lần 44 Hình 3.12 Bảng kết phân cụm s u t nh entropy lần 45 Hình 3.13 Bảng kết phân cụm s u t nh entropy lần 45 H nh 14 ảng liệu thử nghiệm lần 46 H nh 15 ảng s u t nh toán T1 v T2 nhận ng tách cụm 46 Hình 3.16 Bảng kết phân cụm s u t nh enropy lần 47 Hình 3.17 Bảng kết phân cụm s u t nh enropy lần 47 LỜI MỞ ĐẦU Ng y n y o phát triển m nh củ ứng ụng c ng nghệ th ng tin l nh vực nhƣ kinh tế xã hội kho học … ã t o r khối lƣợng sở ữ liệu kh ng l Để kh i thác th ng tin hiệu i hỏi phải có số kỹ thuật xử lý c o cấp ól phân ho ch ữ liệu h y cụm Hiện nay, phân cụm liệu toán ng ƣợc nhiều ngƣời quan tâm nghiên cứu, nhiên, thuật toán thƣờng yêu cầu ngƣời ùng xác ịnh trƣớc số lƣợng cụm Số cụm tham số quan trọng ảnh hƣởng nhiều tới kết trình phân cụm, ứng với số lƣợng cụm khác cho kết phân cụm khác nhau, thật khó kh n ể ịnh kết phân cụm tốt Trong luận v n n y em tr nh liệu sử dụng khung cực tiểu y khảo cứu tác giả tiếp cận phân cụm Đặc biệt i sâu v o kỹ thuật phân cụm thuật toán 2-MSTs Ngo i phần mở ầu kết luận, cấu trúc luận v n có chƣơng:  Chƣơng 1: Gi i thi u h m ph tr th c v ph n cụm ữ iu Chƣơng n y tr nh y khái niệm ản khám phá tri thức v phân cụm ữ ữ liệu tóm tắt số phƣơng pháp phân cụm liệu iển h nh  Chƣơng 2: Thuật to n ph n cụm sử ụng c cực tiểu Trong chƣơng n y ể l m rõ kỹ thuật phân cụm liệu dựa đồ thị sử dụng khung cực tiểu , số vấn ề li n qu n ến khung cực tiểu ƣợc tr nh y phân tích kỹ thuật phân cụm khung cực tiểu, tìm hiểu thuật tốn phân cụm 2-MSTs  Chƣơng 3: Thực nghi m ng ụng Trong phần thực nghiệm c i ặt thuật toán 2-MSTs v m thuật toán qu v ụ kh i thác y củ ng nh h ng kh ng Phần kết luận trình bày tóm tắt nội dung thực luận v n thời ƣ r vấn ề nghiên cứu tiếp cho tƣơng l i ng Hình 3.1 Giao diện code chương trình Hình 3.2 Giao diện chạy chương trình 3.2.2 ết thử nghi m  Từ tập ữ i u 1: Tập liệu g m 21 ối tƣợng 10 thuộc tính, tập thuộc tính liệu có thuộc tính có thơng tin ảnh hƣởng trực tiếp ến q trình phân cụm ó l thuộc tính có liệu số Mỗi thuộc tính có liệu số s u t nh toán T1 v T2 ể nhận ng tách cụm có tập f i diện h nh ã thể iều ó Ví dụ: Với thuộc tính scbkehoach, có tập f i diện ó l f1 v f2 ó f1 = f2 = 0, với f có giá trị b ng thể hiển có kết nối ến từ T1, f có giá trị b ng thể ến từ iểm khác ( ịnh ngh 12) 38 Hình 3.3 Bảng kế hoạch khai thác bay Từ bảng kế ho ch kh i thác y t thu ƣợc bảng nhận d ng tách cụm nhƣ s u: Hình 3.4 Bảng sau tính tốn nhận dạng tách cụm Từ hình 3.4, bảng sau tính tốn T1 T2 nhận d ng tách cụm, ta Tính tốn 39 entropy ể tìm giá trị Gain tốt dụng l m ộ o ể lựa chọn thuộc tính phân cụm (t m iểm chia cụm) Với entropy lần t thu ƣợc bảng G in nhƣ h nh Bảng Gain thuộc tính với entropy lân Hình3.5: Bảng Gain thuộc tính Từ bảng Gain ta nhận thấy f10 có giá trị lớn nên thuộc tính f10 ƣợc chọn ể phân cụm Vì f10 có giá trị nên ta có:  Với f10 nhận giá trị ta có cụm Hình 3.6 : Bảng với f10 nhận giá trị 40  Với f10 nhận giá trị ta có cụm Hình 3.7: Bảng với f10 nhận giá trị Với kết ta phân cụm cho f10 có giá trị nhận thấy giá trị cụm ã có ộ tƣơng ng cao, tiếp tục phân cụm có tính lặp l i Tiếp tục phân cụm f10 nhận giá trị ta có bảng Gian thuộc t nh nhƣ s u Hình 3.8: Bảng tính ain thuộc tính lần 41 Ta nhận thấy Gain f13 f14 lớn nhất, nên ta chọn thuộc tính f13 f14 ể phân cụm Giả sử ta lấy f13, với f13 có giá trị nên ta có: Với f13 nhận giá trị b ng ta có cụm: Hình 3.9: Bảng f13 nhận giá trị Với f13 nhận giá trị b ng ta có cụm: Hình 3.10: Bảng f13 nhận giá trị Với kết ta khơng phải phân cụm cho f13 có giá trị b ng b ng nhận thấy giá trị cụm ã có ộ tƣơng ng cao, tiếp tục phân cụm có tính lặp l i Nhƣ với tập liệu 1, sau sử dụng thuật toán – MSTs t thu ƣợc cụm nhƣ s u: 42 KẾT QUẢ C C CỤM ĐƢ C PH N CHIA Hình 3.11 Bảng kết ph n cụm sau tính entropy lần 43 Hình 3.12 Bảng kết ph n cụm sau tính entropy lần 44 Hình 3.13 Bảng kết ph n cụm sau tính entropy lần Hình 3.14 Bảng kết ph n cụm sau tính entropy lần Nhận xét: Trong cụm ã tách ƣợc từ tập liệu, cụm có s ặc trƣng ri ng nhƣ sau: Cụm có số chuyến bay hủy khơng có th y i lịch bay, cụm có th y i lịch bay khơng có số chuyến bay hủy, hay cụm khơng có số chuyến bay hủy nhƣ kh ng có th y i lịch bay, từ tri thức thu ƣợc n y nh iều khiển bay tận dụng ể khai thác sân bay hay thị trƣờng ó ể phục vụ cho lợi ích 45  Từ tập ữ i u 2: Tập liệu n y ƣợc thử nghiệm với 11 ối tƣợng 10 thuộc tính, liệu ƣ v o thiếu thực tế, khơng có tính logic nên t m gọi liệu không thực Hình 3.15 Bảng liệu thử nghiệm lần Hình 3.16 Bảng sau tính tốn nhận dạng tách cụm Với cách thức thử nghiệm tƣơng tự nhƣ với tập liệu 1, sau phân cụm thuật toán ƣ r ƣợc cụm nhƣ s u: 46 KẾT QUẢ C C CỤM ĐƢ C PH N CHIA Hình 3.17 Bảng kết ph n cụm sau tính enropy lần Hình 3.18 Bảng kết ph n cụm sau tính enropy lần Nhận xét: Vậy với liệu khơng thực sau tiến hành thí nghiệm, kết cho ta cụm nhƣng thực chất có cụm có trùng lặp cụm Vậy với liệu xa thực tế với ngƣời sử dụng, khơng có tính logic kết bị sai lệch 47 Sau thời gian làm việc Hoàng Xuân Huấn luận v n củ em T ng hợp l i kiến thức khám phá tri thức phân c Tìm hiểu thuật tốn 2-MSTs Thử nghiệm thuật toán với liệu li n qu n kết thử nghiệm, so sánh v - Do thời gian nghiên cứu có h n v n ng lực thân h n chế, luận v n chắn cịn nhiều thiếu sót Tơi mong nhận ƣợc ý kiến óng góp Thầy Cô - Trong thời gian tới, cố gắng tìm hiểu nhiều phƣơng pháp phân cụm liệu ặc biệt l phƣơng pháp phân cụm liệu dự tr n thị sử dụng khung cực tiểu cố gắng mở rộng ứng dụng thuật toán vào nhiều toán thực tế - Em xin cảm ơn Thầy PGS.TS Hoàng Xuân Huấn hỗ trợ chân thành nhiệt tình suốt thời gian qua - Em xin gửi lời cảm ơn chân th nh kho c ng nghệ th ng tin kho su ến thầy c i học ph ng t ộ ã giảng y cán ộ chức h nh ch nh 48 TÀI LIỆU THAM KHẢO Tiếng vi t [1] PGS.TS Hồng Xn Huấn (2012), Giáo trình Nhận dạng mẫu Trƣờng Đ i học công nghệ - Đ i Học Quốc Gia Hà Nội [2] PGS.TS Đỗ Đức Giáo, Toán học rời r c Giáo tr nh kho CNTT ĐHKHTN ĐHQGHN 1998 Tiếng Anh [3] Caiming Zhong 1,2,3 , Duoqian Miao 1,2,4 1,2 , Ruizhi Wang , Agraph-theoretical clustering method based on two rounds ofminimum spanning trees, 1) Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China 2) Key Laboratory of Embedded System & Service Computing, Ministry of Education of China, Shanghai 201804, PR China 3) PR College of Science and Technology, Ningbo University, Ningbo 315211, China 4) Corresponding author at: Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China [4] The Alan Rea (1009), Data mining - An introdution, The Parallel Computer Center, Queen’s University of [5] elf st Daniel T.Larose, Discovering knowledge in data, Wiley Publishing 2011 [6] Jiawei Han, Micheline Kamber, Data Mining Concepts and techniques, Second Edition, Elsevier Inc, 2011 [7] Ji wei H n n Micheline K m er (2001) “ t Mining: Conc Hacours Science and Technology Company, USA [8] L John, “Operational Data Stores: Building an Effective Strategy”, Data Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 2009 [9] P Berkhin: Survey of Clustering Data Mining Techniques Research paper Accrue Software, Inc, http://www.accrue.com, 2009 49 [10] Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data [11] se niel r r Juli Couto Yi Li (Octo er 2001) “COOLCAT: An entropy- lgorithm for c tegoric l clustering” George MasonUniversity Information and Software Engineering Department Fairfax, VA22030, pp 582 - 589 [12] MARIA HALKI I (2001) “On Clustering V li Academic Publishers, Holland tion Techniques” Kluwer [13] Usama M Fayyad, Gregory Piatetsky-Sh piro P hr ic Smyth (1996) “From Mining to Knowle ge iscovery”: An Overview, Advances in Knowledge Discovery t and Data Mining 1996, pp 37 - 54 [14] S Ghosh, S.K Dubey (2013), Comparative Analysis of K-Means and Fuzzy CMeans Algorithms, International Journal of Advanced Computer Science and Applications, Vol 4, No.4, pp 35-39 50 ... kỹ thuật phân cụm liệu dựa đồ thị sử dụng khung cực tiểu , số vấn ề li n qu n ến khung cực tiểu ƣợc tr nh y ngồi phân tích kỹ thuật phân cụm khung cực tiểu, tìm hiểu thuật tốn phân cụm 2-MSTs... Khái ni m phân cụm ữ i u: Phân cụm liệu (Data clustering) trình phân chia tập liệu n ầu thành cụm liệu cho phần tử cụm "tƣơng tự" với phần tử cụm khác "kém tƣơng tự " với Số cụm liệu ƣợc phân ây... viên phân cụm j thuộc vào lớp i Entropy chuẩn: E j  pij T ng entropy tập phân cụm phân cụm E j ( Nj m Ej j1 tƣợng liệu 23 CHƢƠNG 2: THUẬT TO N PH N CỤM SỬ DỤNG C HUNG CỰC TIỂU 2.1 .Cây khung

Ngày đăng: 11/11/2020, 22:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w