Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,92 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG lu an va n VŨ NGỌC THANH p ie gh tn to d oa nl w nf va an lu lm ul PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ z at nh oi VÀ ỨNG DỤNG z l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN m Mã số: 60 48 01 01 co Chuyên ngành: KHOA HỌC MÁY TÍNH ac th si LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH lu an n va ie gh tn to p THÁI NGUYÊN – 2016 nl w ĐẠI HỌC THÁI NGUYÊN d oa TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN nf va an lu THÔNG z at nh oi lm ul z m co l gm @ VŨ NGỌC THANH an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ VÀ ỨNG DỤNG lu an va n Chuyên ngành: KHOA HỌC MÁY TÍNH to p ie gh tn Mã số: 60 48 01 01 nl w d oa LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH nf va an lu lm ul z at nh oi Người hướng dẫn khoa học TS NGUYỄN HUY ĐỨC z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si THÁI NGUYÊN – 2016 LỜI CÁM ƠN Để hoàn thành luận văn này, trước hết em xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Huy Đức, tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt trình em thực luận văn lu Em xin chân thành cảm ơn thầy, cô giáo trường Đại học an Công nghệ thông tin Truyền thông Thái Nguyên tạo điều kiện va n tốt để em hoàn thành khóa học Đồng thời, em xin cảm ơn gh tn to gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi ie hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp p tạo điều kiện cho tơi suốt q trình học tập làm luận văn d oa nl w an lu Thái Nguyên, ngày 17 tháng 09 năm 2016 nf va Học viên z at nh oi lm ul Vũ Ngọc Thanh z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si MỤC LỤC MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU 11 lu 1.1 Tổng quan khai phá liệu 11 an 1.1.1 Khái niệm 11 n va 1.1.2 Tiến trình khai phá liệu 12 1.1.3 Các mơ hình khai phá liệu 14 1.1.5 Các dạng liệu khai phá 16 p ie gh tn to 1.1.4 Các hướng tiếp cận kỹ thuật sử dụng khai phá liệu 15 1.1.6 Các ứng dụng khai phá liệu 17 d oa nl w 1.2 Tổng quan phân cụm liệu 19 1.2.1 Khái niệm 19 lu 1.2.2 Các mục tiêu phân cụm liệu 20 nf va an 1.2.3 Các ứng dụng phân cụm liệu 22 1.2.4 Các yêu cầu phân cụm liệu 23 lm ul 1.2.5 Những vấn đề tồn phân cụm liệu 26 z at nh oi 1.2.6 Một số khái niệm cần thiết tiếp cận phân cụm liệu 26 1.2.7 Những kỹ thuật tiếp cận phân cụm liệu 31 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ 37 z 2.1 Giới thiệu 37 @ gm 2.2 Thuật toán DBSCAN 38 m co l 2.3 Thuật toán DBRS 49 2.4 Thuật toán OPTICS 55 an Lu 2.5 Thuật toán DENCLUDE 56 n va CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 3.1 Ý tưởng toán 60 3.2 Nguồn liệu đầu vào 60 3.3 Phương pháp giải toán 60 3.4 Kết thực nghiệm 61 KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 67 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si DANH MỤC HÌNH ẢNH Hình 1.1: Tiến trình khám phá tri thức từ sở liệu Hình 1.2: Kiến trúc điển hình hệ khai phá liệu Hình 1.3: Ví dụ phân cụm liệu Hình 1.4: Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.5: Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 2.1: Ví dụ đối tượng nịng cốt, đối tượng biên đối tượng nhiễu lu Hình 2.2: Ví dụ mật độ đạt trực tiếp an Hình 2.3: Ví dụ mật độ đạt va n Hình 2.4: Ví dụ mật độ liên thơng gh tn to Hình 2.5: Minh họa đồ thị khoảng cách 4-dist xếp CSDL p ie Hình 2.6: Kết thực nghiệm đánh giá thời gian thực thuật tốn (tính theo giây) thuật tốn nhóm tác giả nl w Hình 2.7: Các cụm phát CLARANS (a) DBSCAN (b) d oa Hình 2.8: Các cụm phát DBRS(a), DBSCAN(b), K-Means(c), an lu CLARANS(d) nf va Hình 2.9: Sắp xếp cụm OPTICS phụ thuộc vào ɛ lm ul Hình 2.10: DENCLUE với hàm phân phối Gaussian z at nh oi Hình 3.1: Kết qua sau phân cụm chương trình thực nghiệm z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si DANH MỤC TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh CSDL Database Khai phá tri thức sở liệu KDD Knowledge Discovery in Databases Khai phá tri thức KPTT Knowledge Discovery Khai phá liệu KPDL Data Mining Phân cụm liệu PCDL Data Clustering lu Cơ sở liệu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si MỞ ĐẦU Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành công nghệ thơng tin nói chung ngành cơng nghệ phần cứng, phần mềm, truyền thông hệ thống liệu phục vụ lãnh vực kinh tế - xã hội nói riêng Thì việc thu thập thông tin nhu cầu lưu trữ thông tin ngày lớn Bên cạnh việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh lu nhiều lĩnh vực hoạt động khác tạo cho lượng liệu an lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt va n động sản xuất, kinh doanh, quản lí có nhiều sở liệu cực lớn gh tn to cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu ie cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi p lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật khai nl w phá liệu trở thành lĩnh vực thời công nghệ thông tin d oa giới Một vấn đề đặt phải trích chọn an lu thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu nf va cầu thực tế trợ giúp định, dự đoán,… khai phá liệu lm ul (Data mining) đời nhằm giải yêu cầu z at nh oi Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính cơng nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp z dụng thực tế Data mining có nhiều hướng quan trọng @ l gm hướng phân cụm liệu (Data Clustering) Phân cụm liệu q co trính tìm kiếm để phân cụm liệu, mẫu liệu từ tập Cơ sở m liệu lớn Phân cụm liệu phương pháp học không giám sát an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 10 Phân cụm liệu kỹ thuật để khai thác liệu có hiệu Phân cụm liệu ứng dụng nhiều lĩnh vực khác nhau: kinh tế, bảo hiểm, quy hoạch đô thị, nghiên cứu địa chấn v.v… Có nhiều kỹ thuật tiếp cận phân cụm liệu, tùy thuộc vào tốn thực tế mà chọn phương pháp cho phù hợp Trong luận văn em xin trình bày nghiên cứu thân phương pháp “Phân cụm liệu dựa mật độ ứng dụng” Bố cục luận văn sau: lu Ngoài phần mở đầu, mục lục, danh mục hình ảnh, kết luận, tài liệu an tham khảo, phụ lục Luận văn chia phần chính: va n Phần 1: Tổng quan khai phá liêu phân cụm liệu to cụm liệu Các phương pháp, lãnh vực hướng tiếp cận p ie gh tn Phần giới thiệu khái niệm khai phá liệu phân phân cụm liệu oa nl w Phần 2: Phương pháp phân cụm liệu dựa mật độ d Phần trình bày chi tiết phương pháp phân cụm liệu dựa mật an lu độ thuật toán tiêu biểu phương pháp nf va Phần 3: Xây dựng chương trình thực nghiệm với giải thuật DBSCAN z at nh oi lm ul Xây dựng chương trình thực nghiệm phân cụm liệu dựa mật độ z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 56 Việc xếp thứ tự xác định hai thuộc tính riêng điểm liệu khoảng cách nhân khoảng cách liên lạc Các phép đo kích thước mà có liên quan đến q trình thuật tốn DBSCAN, nhiên, chúng sử dụng đế xác định thứ tự điếm liệu xếp Thứ tự dựa sở điếm liệu mà có khoảng cách nhân nhỏ tăng dần độ lớn Điều phương pháp người sử dụng xác định giá trị MinPts phù hợp lu an n va p ie gh tn to nl w oa Hình 2.9: Sắp xếp cụm OPTICS phụ thuộc vào ɛ d Thuật toán phân cụm đối tượng cho với tham số lu nf va an đầu vào ɛ MinPts, cho phép người sử dụng tùy ý lựa chọn giá trị tham số mà dẫn đến khám phá cụm chấp nhận Các thiết lm ul lập tham số thường dựa theo kinh nghiệm tập hợp khó xác định, đặc biệt z at nh oi với tập liệu đa chiều Tuy nhiên, có độ phức tạp thời gian thực DBSCAN z có cấu trúc tương đương với DBSCAN: O(nlogn) với n kích thước @ gm tập liệu Thứ tự cụm tập liệu biếu diễn đồ thị, an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN m 2.5 Thuật toán DENCLUDE co l minh họa hình sau, thấy ba cụm, giá trị ɛ định số cụm ac th si 57 DENCLUDE (Density – base Clustering) Hinneburg Keim vào năm 1998 đưa cách tiếp cận khác với thuật tốn phân cụm dựa mật độ trước đó, cách tiếp cận xem xét mơ hình sử dụng cơng thức tốn để mơ tả điểm liệu ảnh hưởng mơ gọi hàm ảnh hưởng xem hàm mà mô tả ảnh hưởng điểm liệu với đối tượng lân cận Ví dụ hàm ảnh hưởng hàm Parabolic, hàm sóng ngang, hàm Gaussian Như vậy, DENCLUDE phương pháp dựa tập hàm phân lu bổ mật độ xây dựng ý tưởng sau : an va Ảnh hưởng điểm liệu hình thức mơ hình sử n dụng hàm tính tốn, gọi hàm ảnh hưởng, mô tả tác động to gh tn điếm liệu với đối tượng lân cận p ie Mật độ tồn cục khơng gian liệu mơ hình phân tích tổng hàm ảnh hưởng tất điếm liệu oa nl w Các cụm xác định xác việc xác định mật độ cao (density d attractors), mật độ cao điếm cực đại hàm mật độ toàn cục lu nf va an Sử dụng ô lưới không giữ thông tin ô lưới mà thực tế cịn chứa đựng điểm liệu Nó quản lý cấu trúc truy lm ul cập dựa nhanh so với số thuật tốn có ảnh z at nh oi hưởng DBSCAN Tuy nhiên, phương pháp đòi hỏi chọn lựa kỹ lưỡng tham biến mật độ ngưỡng nhiễu, việc chọn lựa tham số quan trọng ảnh z hưởng tới chất lượng kết phân cụm @ gm Định nghĩa : Cho x, y hai đối tượng không gian d chiều ký hiệu l Fd Hàm ảnh hưởng đối tượng y ϵ Fd lên đối tượng x hàm m co f By : Fd R 0 mà định nghĩa dạng hàm ảnh hưởng http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu f b : f By (X) f b (x, y) Hàm ảnh hưởng hàm bất kỳ; xác ac th si 58 định khoảng cách hai véctơ d(x, y) khơng gian d chiều, ví dụ khoảng cách Euclide Hàm khoảng cách có tính chất phản xạ đối xứng Ví dụ hàm ảnh hưởng sau: 0 if d(x, y) f (x, y) Hàm ảnh hưởng sóng ngang : square 1 if d(x, y) ngưỡng Hàm ảnh hưởng Gaussian : fsquare (x, y) e d(x,y)2 2 lu an Mặt khác, hàm mật độ điểm x ϵ Fd định nghĩa tổng hàm va n ảnh hưởng tất điếm liệu Cho n đối tượng liệu mô gh tn to tả tập véctơ D = {xi, x2, , xn} ϵ Fd hàm mật độ định nghĩa p ie sau: F (x) D B n F (x) w i 1 x(i) B d oa nl Hàm mật độ thành lập dựa ảnh hưởng Gaussian xác định D e d(x,y) 2 2 an lu sau: FGauss (d) n i 1 nf va Ví dụ kết phân cụm liệu thuật toán DENCLUE với hàm lm ul chi phối Gausian biểu diễn sau Các cực đại mật độ giá trị z at nh oi đỉnh đồ thị Một cụm cho cực đại mật độ x* tập C, hàm mật độ x* không bé δ z m co l gm @ an Lu Hình 2.10: DENCLUE với hàm phân phối Gaussian http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 59 DENCLUE phụ thuộc nhiều vào ngưỡng nhiễu tham số mật độ DENCLUE có lợi so sánh với thuật tốn phân cụm khác sau : Có sở tốn học vững tổng quát hóa phương pháp phân cụm khác, bao gồm phương pháp phân cấp, dựa phân hoạch Có đặc tính phân cụm tốt cho tập liệu với số lượng lớn nhiễu Cho phép cụm có hình dạng tập liệu đa chiều lu mơ tả cơng thức tốn an n va Độ phức tạp tính tốn DENCLUDE O(nlogn) Các thuật tốn dựa tn to mật độ khơng thực kỹ thuật phân mẫu tập liệu gh thuật tốn phân cụm phân hoạch, điều làm tăng thêm độ phức tạp p ie có khác mật độ đối tượng mẫu với mật độ d oa nl w toàn liệu nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 60 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM Trong chương xây dựng chương trình thực nghiệm để áp dụng phương pháp phân cụm liệu dựa mật độ thuật toán DBSCAN với ý tưởng tốn thực tế phân nhóm điểm phát sóng viễn thơng khu vực Do kiến thức thời gian hạn chế nên khuân khổ luận văn em xây dựng chương trình thực nghiệm với tính chất mơ phỏng, nên chương trình chưa có khả áp dụng vào thực tế Rất mong nhận đóng góp ý kiến thầy để em phát triển hồn thiện chương trình đưa vào lu an áp dụng thực tế va n 3.1 Ý tưởng toán tn to Do nhu cầu nâng cao chất lượng dịch vụ viễn thông nên việc lắp đặt ie gh thêm trạm phát sóng địa bàn địa phương ngày tăng Để đảm bảo p việc theo dõi quản lý tốt nên phân điểm lắp đặt trạm nl w phát thành nhóm nhỏ để tiện cho việc phân công theo dõi, vận hành, oa bào trì, khai thác sử dụng d 3.2 Nguồn liệu đầu vào an lu nf va Giả sử ta có tọa độ vị trí lắp đặt trạm phát sóng viễn thơng khu vực Dựa vào tọa độ ta mơ vị trí thành điểm lm ul hệ thống đồ chương trình z at nh oi Như vậy, liệu đầu vào sử dụng toán chủ yếu lớp thông tin dạng điểm, phạm vi khu vực đồ z 3.3 Phương pháp giải toán gm @ Lựa chọn phương pháp phân cụm: an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN m cụm dựa mật độ bởi: co l Với đặc điểm liệu đầu vào ta lựa chọn phương pháp phân ac th si 61 - Đối tượng liệu cần phân cụm chủ yếu điểm, tức đối tượng dạng điểm Kiểu phù hợp với phương pháp tiếp cận dựa mật độ - Không cần thiết phải biết trước số cụm sau phân cụm có được, không sử dụng tiếp cận phân hoạch - Không cần lưu trữ thông tin mức trung gian trình phân cụm, khơng sử dụng tiếp cận theo lưới Lựa chọn độ đo sử dụng phân cụm: lu Chúng ta quan tâm đến tính liên tục mặt không gian điểm an va cụm khoảng cách điểm không quan tâm đến hướng n chúng Hơn với đối tượng dạng điểm, quan hệ topology mang gh tn to ý nghĩa ngoại trừ đối tượng mang thông tin mạng lưới liên thông p ie như: mạng lưới cột điện, mạng lưới cấp nước…Do ta sử dụng độ đo khoảng cách toán phân cụm đề (các độ đo đề cập oa nl w mục 1.2.6.2, chương 1) d 3.4 Kết thực nghiệm an lu Giả sử ta có liệu mẫu nhập vào 60 điểm hệ thống đồ nf va chương trình, sau chạy thuật tốn DBSCAN để phân cụm điểm với z at nh oi đồ lm ul Eps = 37 & MinPts = ta thu cụm tương ứng với màu khác thể z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 62 lu an n va ie gh tn to Hình 3.1: Kết qua sau phân cụm chương trình thực nghiệm p Tổng có [60] điểm: nl w (218, 192) (251, 197) (237, 215) (242, 249) (278, 275) (268, 233) (297, 212) d oa (307, 254) (366, 267) (358, 220) (399, 209) (421, 181) (412, 139) (430, 118) an lu (472, 124) (482, 90) (502, 77) (528, 114) (570, 151) (601, 193) (618, 235) (575, 266) (559, 220) (576, 187) (527, 180) (515, 148) (481, 206) (507, 238) (524, nf va 271) (543, 312) (549, 360) (524, 382) (466, 364) (412, 368) (380, 344) (410, lm ul 308) (415, 261) (427, 255) (455, 319) (496, 354) (528, 352) (488, 290) (481, z at nh oi 270) (470, 244) (461, 220) (469, 162) (333, 233) (419, 339) (395, 246) (596, 226) (526, 297) (427, 325) (589, 241) (408, 117) (436, 143) (403, 92) (482, z 188) (405, 336) (441, 345) (476, 105) @ gm Cụm [1] chứa [6] điểm: l (218, 192) (251, 197) (237, 215) (242, 249) (268, 233) (297, 212) http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu (278, 275) (307, 254) (358, 220) (333, 233) m co Cụm [2] chứa [4] điểm: ac th si 63 Cụm [3] chứa [6] điểm: (366, 267) (399, 209) (421, 181) (415, 261) (427, 255) (395, 246) Cụm [4] chứa [5] điểm: (412, 139) (430, 118) (408, 117) (436, 143) (403, 92) Cụm [5] chứa [4] điểm: (472, 124) (482, 90) (502, 77) (476, 105) Cụm [6] chứa [8] điểm: (570, 151) (601, 193) (618, 235) (575, 266) (559, 220) (576, 187) (596, 226) lu (589, 241) an Cụm [7] chứa [3] điểm: va n (528, 114) (527, 180) (515, 148) gh tn to Cụm [8] chứa [11] điểm: p ie (481, 206) (507, 238) (524, 271) (543, 312) (488, 290) (481, 270) (470, 244) (461, 220) (469, 162) (526, 297) (482, 188) oa nl w Cụm [9] chứa [13] điểm: (549, 360) (524, 382) (466, 364) (412, 368) (380, 344) (410, 308) (455, 319) d an lu (496, 354) (528, 352) (419, 339) (427, 325) (405, 336) (441, 345) nf va Khơng có điểm thuộc đối tượng nhiễu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 64 KẾT LUẬN Những kết luận văn Luận văn tìm hiểu tốn phân cụm liệu sâu tìm hiểu phân cụm liệu dựa mật độ Luận văn đạt kết là: - Nghiên cứu tổng quan khai phá liệu phân cụm liệu Các phương pháp, lĩnh vực hướng tiếp cận phân cụm liệu - Nghiên cứu chi tiết phương pháp phân cụm liệu dựa mật độ lu an thuật tốn liên quan Tìm hiêu sâu thuật toán DBSCAN qua đánh n va giá so sánh tn to - Xây dựng chương trình thực nghiệm áp dụng phương pháp phân cụm nhóm trạm phát sóng viễn thơng khu vực p ie gh liệu dựa mật độ thuật toán DBSCAN với toán thực tế phân nl w Ý nghĩa khoa học luận văn: d oa Qua q trình thực nghiệm nghiên cứu lý thuyết đưa số an lu kết luận sau: lm ul liệu định nf va - Mỗi giải thuật phân cụm áp dụng cho số mục tiêu kiểu z at nh oi - Mỗi giải thuật có mức độ xác riêng khả thực kích thước liệu khác Điều tuỳ thuộc vào cách thức tổ chức liệu nhớ chính, nhớ giải thuật z - Khai phá liệu hiệu bước tiền xử lý, lựa chọn thuộc m co l gm @ tính, mơ hình giải tốt an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 65 Hướng nghiên cứu tiếp theo: - Hướng nghiên cứu luận văn mở rộng sang lớp liệu khơng gian, sử dụng khai phá liệu liên quan đến đối tượng địa lý - Vấn đề phân cụm liệu đa chiều thử nghiệm để so sánh với phương pháp phân cụm đơn chiều kết hợp với phân tích đa chiều liệu không gian - Một số ràng buộc trọng số đưa vào tốn để khai lu an phá liệu cách mềm dẻo linh hoạt điều kiện cụ thể n va toán tn to - Phương pháp tiếp cận sử dụng phân cụm mờ thử nghiệm p ie gh tính tương đối cố hữu áp dụng với toán tối ưu d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 66 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hoàng Tú Anh,“Khai thác liệu ứng dụng”, Giáo trình , Đại học KHTN Tp Hồ Chí Minh,2009 [2] Vũ Lan Phương, “Nghiên cứu cài đặt số giải thuật phân cụm phân lớp”, Luận văn thạc sĩ, Đại học Bách khoa Hà Nội, 2006 Tiếng Anh lu [3] Ester, M., Kriegel, H.-P., Sander, J., & Xu, X (1996), “A density-based an n va algorithm for discovering clusters in large spatial databases with noise”, tn to Second Int Conf on Knowledge Discovery and Data Mining , (pp 226-231) gh Portland, Oregon p ie [4] Jiawei Han, Micheline Kamber, Data Mining: Concepts and techniques, w Second Edition, Elsevier Inc, 2011 oa nl [5] M.Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy d Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI lu nf va an Press/ The MIT Press,1996 [6] Oracle, Oracle Data Mining Concepts 10g Release (10.1), Oracle lm ul Corporation, 2003 z at nh oi [7] P Berkhin, Survey of Clustering Data Mining Techniques, Research paper Accrue Software, Inc, http://www.accrue.com, 2009 [8] http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html z m co l [10] https://en.wikipedia.org/wiki/DBSCAN gm @ [9] https://en.wikipedia.org/wiki/Cluster_analysis an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 67 PHỤ LỤC Mã code chương trình: using using using using System; System.Collections.Generic; System.Linq; System.Text; lu an n va tn to namespace DBSCAN_GUI { public class Algoritam { public const int NOISE = -1; public const int UNCLASSIFIED = 0; public List D = new List(); public double eps; public int MinPts; p ie gh public List klasteri; public String text; d oa nl w public void dodajTocku(int x, int y) { D.Add(new Tocka(x, y)); } lu nf va an public int dist(Tocka p, Tocka q) { return (int)Math.Sqrt(Math.Pow(q.X - p.X, 2) + Math.Pow(q.Y - p.Y, 2)); } z at nh oi lm ul public void pokreniAlgoritam(List D) { klasteri = DBSCAN(D, eps, MinPts); z l gm @ text += "Tổng có [" + D.Count + "] điểm:\n"; foreach (Tocka p in D) text += p; m co int total = 0; for (int i = 0; i < klasteri.Count; i++) { int count = klasteri[i].Count; total += count; an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 68 text += "\n\nCụm [" + (i + 1) + "] chứa [" + count + "] điểm:\n"; foreach (Tocka p in klasteri[i]) text += p; } total = D.Count - total; if (total > 0) { text += "\n\nCó [" + total + "] điểm khơng thuộc cụm nào:\n"; foreach (Tocka p in D) { if (p.C == NOISE) text += p; } lu } else { an va n text += "\n\nNo points that represent noise.\n"; tn to } ie gh } p public List DBSCAN(List D, double eps, int MinPts) { if (D == null) return null; d oa nl w nf va an lu List klasteri = new List(); int C = 1; for (int i = 0; i < D.Count; i++) { Tocka p = D[i]; if (p.C == UNCLASSIFIED) if (expandCluster(D, p, C, eps, MinPts)) C++; } z at nh oi lm ul z int total = D.OrderBy(p => p.C).Last().C; @ l gm if (total < 1) return klasteri; http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu foreach (Tocka p in D) { m co for (int i = 0; i < total; i++) klasteri.Add(new List()); ac th si 69 if (p.C > UNCLASSIFIED) klasteri[p.C - 1].Add(p); } return klasteri; } lu an n va p ie gh tn to public bool expandCluster(List NeighborPts, Tocka p, int C, double eps, int MinPts) { List seeds = regionQuery(NeighborPts, p, eps); if (seeds.Count < MinPts) { p.C = NOISE; return false; } else { for (int i = 0; i < seeds.Count; i++) seeds[i].C = C; seeds.Remove(p); while (seeds.Count > 0) { Tocka currentP = seeds[0]; List result = regionQuery(NeighborPts, currentP, eps); if (result.Count >= MinPts) { for (int i = 0; i < result.Count; i++) { Tocka resultP = result[i]; if (resultP.C == UNCLASSIFIED || resultP.C == NOISE) { if (resultP.C == UNCLASSIFIED) seeds.Add(resultP); resultP.C = C; } } } seeds.Remove(currentP); } return true; } } d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu public List regionQuery(List D, Tocka p, double eps) ac th si 70 { List okolina = new List(); for (int i = 0; i < D.Count; i++) { if (dist(p, D[i])