Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 96 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
96
Dung lượng
1,52 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CƠNG NGHIỆP KHỔNG MINH TỰ NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TỐN CƠ BẢN VỀ PHÂN NHĨM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN - 2014 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP KHỔNG MINH TỰ NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TỐN CƠ BẢN VỀ PHÂN NHÓM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN Chuyên ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 60 52 02 03 LUẬN VĂN THẠC SĨ KỸ THUẬT PHÕNG QUẢN LÝ ĐÀO TẠO NGƢỜI HƢỚNG DẪN KHOA HỌC SAU ĐẠI HỌC PGS.TS LƢƠNG CHI MAI KHOA ĐIỆN TỬ TRƢỞNG KHOA THÁI NGUYÊN - 2014 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, số liệu, kết nêu luận văn trung thực cơng trình nghiên cứu riêng tơi, luận văn khơng giống hồn tồn luận văn cơng trình có trƣớc Thái Ngun, ngày 24 tháng 02 năm 2014 Tác giả luận văn Khổng Minh Tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ii LỜI CẢM ƠN Trong suốt q trình học tập tốt nghiệp, tơi nhận đƣợc giúp đỡ tận tình thầy cô Khoa Điện tử - Trƣờng Đại học Kỹ thuật Công nghiệp Đại học Thái Nguyên Tôi xin bày tỏ lịng biết ơn thầy giáo Phịng Đào tạo sau đại học giúp đỡ tận tình Tơi đặc biệt muốn cảm ơn PGS.TS Lƣơng Chi Mai tận tình giúp đỡ, hƣớng dẫn thời gian thực đề tài, cảm ơn giúp đỡ gia đình, bạn bè đồng nghiệp thời gian qua Mặc dù cố gắng, song điều kiện thời gian kinh nghiệm thực tế cịn nhiều hạn chế nên khơng thể tránh khỏi thiếu sót Vì vậy, tơi mong nhận đƣợc đóng góp ý kiến thầy cô nhƣ bạn bè, đồng nghiệp Tôi xin chân thành cảm ơn! Tác giả luận văn Khổng Minh Tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iii LỜI NÓI ĐẦU Trong thời đại bùng nổ Công nghệ thông tin, công nghệ lƣu trữ liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Đặc biệt lĩnh vực quản lý, kinh doanh, doanh nghiệp nhận thức đƣợc tầm quan trọng việc nắm bắt xử lí thơng tin Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lƣợng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Các kho liệu ngày lớn tiềm ẩn nhiều thơng tin có ích Sự bùng nổ dẫn tới yêu cầu cấp thiết phải có kĩ thuật công cụ để biến kho liệu khổng lồ thành thông tin (tri thức) cô đọng có ích Tuy nhiên có cơng cụ phù hợp để lƣu trữ quản lý dạng thơng tin nói trên, để nhận đƣợc thơng tin có ích dạng CSDL loại này, biện pháp phân tích liệu thơng thƣờng gặp nhiều khó khăn, đơi khơng thể giải đƣợc Đó sở cho xuất kỹ thuật khai phá liệu Tác giả xin bày tỏ lòng biết ơn chân thành đến thầy cô giáo, đặc biệt cô giáo hƣớng dẫn: PGS.TS Lƣơng Chi Mai tận tình giúp đỡ để hồn thành luận văn Trong khuôn khổ giới hạn luận văn khả kiến thức thời gian nghiên cứu hạn chế, nên có nhiều cố gắng song luận văn chắn khơng tránh khỏi thiếu sót Tác giả mong nhận đƣợc đóng góp ý kiến thầy giáo, giáo để đề tài đƣợc hồn thiện Xin trân trọng cảm ơn! HỌC VIÊN Khổng Minh Tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii LỜI NÓI ĐẦU iii MỤC LỤC iv BẢNG THUẬT NGỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU Chƣơng TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ CƠ SỞ DỮ LIỆU KHÔNG GIAN 1.1 Khai phá tri thức sở liệu (Knowledge Discovery in Databases - DD) 1.1.1 Sự đời khai phá tri thức sở liệu 1.1.2 Khái niệm khai phá liệu 1.1.3 Quá trình khai phá tri thức sở liệu 1.1.4 Các nhiệm vụ khai phá liệu 1.2 Phân nhóm (Clustering) cách tiếp cận 1.2.1 Phân nhóm ứng dụng 1.2.2 Các cách tiếp cận 11 1.3 Hệ quản trị sở liệu không gian 16 1.3.1 Cơ sở liệu không gian 16 1.3.2 Hệ quản trị sở liệu không gian 17 1.3.3 Phƣơng pháp truy nhập không gian 18 1.4 Kết luận 20 Chƣơng CÁC CÁCH TIẾP CẬN CỦA KỸ THUẬT PHÂN NHĨM 21 2.1 Thuật tốn DBSCAN 21 2.1.1 Các định nghĩa bổ đề đƣợc sử dụng thuật toán DBSCAN 22 2.1.2 Thuật toán DBSCAN 25 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ v 2.2 Thuật toán DBCLASD .27 2.2.1 Một số định nghĩa 27 2.2.2 Thuật toán DBCLASD 30 2.3 Thuật toán DENCLUE .34 2.3.1 Một số định nghĩa 35 2.3.2 Những tính chất phƣơng pháp DENCLUE 37 2.3.3 Thuật toán DENCLUE 38 2.4 Kết luận 43 Chƣơng CÁC GIẢI THUẬT PHÂN NHĨM TRÊN CƠ SỞ DỮ LIỆU KHƠNG GIAN LỚN .44 3.1 Một số khái niệm cần thiết tiếp cận phân nhóm liệu 44 3.1.1 Phân loại kiểu liệu 44 3.1.2 Độ đo tƣơng tự phi tƣơng tự 45 3.2 Thuật toán K-MEANS .49 3.3 Giải thuật DBSCAN 53 3.4 Kết luận 55 Chƣơng XÁC ĐỊNH THAM SỐ, CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .56 4.1 Môi trƣờng thử nghiệm 56 4.2 Công cụ thử nghiệm 56 4.3 Xác định tham số 56 4.3.1 Xác định tham số cho thuật toán DBSCAN 56 4.3.2 Tối ƣu hoá việc lựa chọn tham số cho thuật toán DENCLUE 62 4.4 Cài đặt thử nghiệm đánh giá kết 63 4.4.1 Xây dựng chƣơng trình cài đặt thuật tốn phân nhóm 63 4.4.2 Tạo lập liệu 64 4.4.3 Cài đặt thuật tốn phân nhóm 65 4.4.4 Lƣu trữ hiển thị kết 73 4.5 Đánh giá kết số tập liệu 74 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ vi 4.5.1 Tập liệu 74 4.5.2 Đánh giá kết 75 4.5.3 Nhận xét 79 4.6 Kết luận 81 KẾT LUẬN 82 TÀI LIỆU THAM KHẢO 84 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ vii BẢNG THUẬT NGỮ VIẾT TẮT Từ nhóm từ Từ viết tắt Từ tiếng anh Cơ sở liệu CSDL DataBase Khai phá liệu KPDL Data Mining Khai phá tri thức KPTT Knowledge Discovery Khai phá tri thức sở liệu KDD Knowledge Discovery in Databases Phân nhóm liệu PNDL Data Clustering Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ viii DANH MỤC CÁC HÌNH Hình 1.1: Các bƣớc q trình khám phá tri thức KDD Hình 1.2: Biểu đồ Hertzsprung-Russell 10 Hình 1.3: Mơ tả cách phân nhóm theo phƣơng pháp từ dƣới lên từ xuống 14 Hình 1.4: Những điểm nằm miền tơ sẫm đƣợc xét đến tìm điểm gần cho điểm x Những điểm miền không cần xét đến 17 Hình 1.5: Một cách chia lƣới Những ô mầu sẫm ô chứa liệu đƣợc lƣu trữ Những ô màu trắng ô không chứa liệu 19 Hình 1.6: Mơ R*-tree gồm mức 20 Hình 2.1: Lân cận P với ngƣỡng Eps 22 Hình 2.2: Mật độ - đến đƣợc trực tiếp 23 Hình 2.3: Mật độ đến đƣợc 23 Hình 2.4: Mật độ liên thơng 24 Hình 2.5: Nhóm nhiễu 24 Hình 2.6: Mơ thuật toán DBSCAN 25 Hình 2.7: Thủ tục ExpandCluster 26 Hình 2.8: Ví dụ liệu tập điểm đƣợc chia thành lớp 27 Hình 2.9: Ảnh hƣởng độ rộng ô lƣới đến việc xác định vùng xấp xỉ 29 Hình 2.11: Ví dụ cách chia đánh số không gian hai chiều 40 Hình 3.1: Minh họa số đo chiều rộng, chiều cao đối tƣợng 46 Hình 3.2: Khoảng cách Euclidean 48 Hình 3.3: Các thiết lập để xác định ranh giới nhóm ban đầu 49 Hình 3.4: Tính tốn trọng tâm nhóm 50 Hình 3.5: Ví dụ bƣớc thuật tốn K-means 52 Hình 3.6: Một số hình dạng khám phá phân nhóm dƣa mật độ 54 Hình 3.7: Thuật tốn DBSCAN 54 Hình 4.1: Mơi trƣờng thử nghiệm 56 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 71 Bƣớc 5: Nếu điểm danh sách candidate quay lại bƣớc ngƣợc lại sang bƣớc Bƣớc 6: Cập nhật danh sách candidate danh sách uncandidate để kiểm tra lại điểm Nếu change =True quay lại bƣớc ngƣợc lại sang bƣớc Bƣớc 7: Nếu điểm chƣa đƣợc phân lớp quay lại bƣớc ngƣợc lại sang bƣớc Bƣớc 8: Kết thúc thuật toán Lƣu trữ kết Thuật toán đƣợc phân chia thành bƣớc để từ dễ dàng cài đặt viết hàm thủ tục xử lý cơng việc Trong bƣớc 4, 5, thực trình kiểm tra điểm danh sách candidate để từ mở rộng lớp Quá trình kiểm tra đƣợc thực lặp lặp lại đến khơng cịn điểm danh sách candidate sau lần kiểm tra cuối khơng có điểm đƣợc thêm vào lớp (ta sử dụng biến change để xác định điều này) Sau vòng lặp từ bƣớc đến bƣớc ta xây dựng đƣợc lớp Cài đặt thuật toán Từ việc phân tích bƣớc thuật tốn ta xây dựng đƣợc lớp gồm hàm liệu phục vụ cho trình chia lớp Các liệu hàm thuật tốn DBCLASD đƣợc gói lớp CDbclasd nhƣ sau: class CDbclasd { private: LPBYTE listPoint; //du lieu cac diem int width,height; LPBYTE listCluster; //du lieu cac diem chia lop int currCluster; int *listCdd; int *listUnCdd; int expDist; int luu; int *listCrCl; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 72 public: LPBYTE GetResult(); CDbclasd(int w, int h, LPBYTE pListPoint); virtual ~CDbclasd(); void Init(); void ExpandCluster(int clusterId); void RetrieveNeighborhood(int clusterId, int point); void UpdateCandidates(int *listPoint); void Process(); int *GetCluster(int clusterId); double Function(float x, int N, int R); int Radius(int N, int A); int XTest(int clusterId); int NNDist(int point); protected: }; Các liệu sử dụng cài đặt thuật toán bao gồm: - Biến width height để lƣu trữ giá trị độ rộng độ cao mảng liệu - Mảng liệu listPoint lƣu trữ điểm đối tƣợng dƣới dạng mảng chiều - Mảng listCluster lƣu trữ lớp điểm tƣơng ứng mảng listPoint Khi điểm chƣa đƣợc chia lớp giá trị điểm mảng listCluster 0, điểm đƣợc xét đến nhƣng chƣa đƣợc chia lớp giá trị phần tử mảng -1 - Hai biến mảng chiều candidate uncandidate lƣu trữ điểm trình xét cần đƣợc kiểm tra để ấn định vào lớp Các hàm sử dụng thuật toán - Hàm Init(.): Khởi tạo thuật toán nhận giá trị đầu vào nhƣ kích thƣớc nội dung mảng liệu cần chia lớp - Hàm RetrieveNeighborhood(.): Với giá trị đầu vào lớp xét điểm cần tìm đối tƣợng lân cận Dựa vào giá trị lớp xét ta tính đƣợc bán kính truy vấn vùng m theo cơng thức: m A 1 N1 N A số điểm vùng lớp C, N số điểm có thuộc lớp C Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 73 Khi ta tìm điểm lân cận quanh điểm p với bán kính tìm kiếm m, hàm trả mảng điểm tìm đƣợc - Hàm UpdateCandidate(.): Sau tìm đƣợc điểm lân cận quanh điểm xét, ta cần kiểm tra xem điểm đƣa vào lớp C điểm xét hay không Hàm đƣa điểm sau truy vấn vùng vào danh sách candidate để tiến hành kiểm tra - Hàm GetCluster(.): Trả tập điểm đƣợc ấn định vào lớp đƣợc xác định tham số đầu vào Id lớp - Hàm NNDist(.): Đƣa khoảng cách gần điểm thuộc lớp xác định - Hàm ExpandCluster(.): Đây hàm quan trọng thuật toán Hàm lần lƣợt xét điểm danh sách candidate, lấy điểm khỏi danh sách thử thêm vào lớp Nếu phân bố khoảng cách lân cận điểm lớp thỏa mãn phân bố mong đợi, điểm xét đƣợc thêm vào lớp Quá trình thực khơng cịn thêm đƣợc điểm vào lớp danh sách candidate rỗng - Hàm Process(): Hàm thực q trình thuật toán Dựa vào hàm xây dựng lớp để tổng hợp nên tồn q trình chia lớp liệu Hàm lần lƣợt xét điểm tồn liệu, điểm chƣa đƣợc phân lớp, đƣợc khởi tạo lớp bắt đầu xây dựng nên lớp Quá trình xét điểm lặp lặp lại toàn điểm liệu đƣợc xét đến sau vòng lặp lớp đƣợc tạo 4.4.4 Lưu trữ hiển thị kết Khi thực xong q trình phân nhóm, ta cần hiển thị kết thu đƣợc lƣu trữ lại kết Để thực công việc ta cần xây dựng số chức cho phép hiển thị kết dƣới dạng ảnh lƣu trữ chúng dƣới dạng file ảnh Sau thực xong thuật tốn, thơng tin chia lớp điểm liệu thƣờng đƣợc lƣu trữ mảng phần tử mảng chứa giá trị Id lớp mà điểm thuộc vào Để hiển thị đƣợc ảnh kết trình chia lớp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 74 ta cần chuyển đổi liệu sang dạng liệu ảnh Quá trình đƣợc thực hàm ConvertData Hàm ConvertData biến đổi điểm phần tử thứ i mảng listCluster chứa giá trị Id lớp sang giá trị màu hiển thị Khi điểm có giá trị ID giống nhau, thuộc lớp có giá trị màu mảng liệu ảnh Sau chuyển đổi để thu đƣợc mảng liệu dƣới dạng cấu trúc ảnh, ta sử dụng lớp CBmp xây dựng phần trƣớc phép hiển thị kết lƣu trữ kết dƣới dạng file ảnh bitmap 4.5 Đánh giá kết số tập liệu 4.5.1 Tập liệu Thông thƣờng ngƣời ta đƣa số tập liệu chuẩn loại thuật tốn thơng qua tập liệu ta dễ dàng đƣa đánh giá so sánh mức độ hiệu chất lƣợng thuật toán Trong cộng đồng nghiên cứu phân nhóm, ngƣời ta đƣa số tập liệu dùng để kiểm chứng tính hiệu số thuật tốn phân nhóm Sau tập liệu đƣợc sử dụng để đánh giá tính hiệu số thuật tốn phân nhóm dựa vào mật độ phân bố đối tƣợng liệu không gian đƣợc lấy từ tài liệu tham khảo [8], [9],[5], [12], [7], [6] Tập liệu 1: Bao gồm liệu có hình dạng chứa lõm, khe hở lồng vào nhƣ hình 4.12 Hình 4.12 Tập liệu lấy từ nguồn tài liệu Tập liệu 2: Bao gồm tập liệu có hình dạng lớp khác đồng thời số điểm lớp khác chứa nhiều điểm nhiễu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 75 Hình 4.13 Tập liệu lấy từ nguồn tài liệu Tập liệu 3: Bao gồm liệu có hình dạng lớp đa giác nằm độc lập nhau, khác có chứa nhiễu Hình 4.14 Tập liệu lấy từ nguồn tài liệu 4.5.2 Đánh giá kết Xét tập liệu sau tiến hành chạy thử chƣơng trình, ta có kết sau: Giao diện hình làm việc: Hình 4.15: Tập liệu ban đầu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 76 Kết nhƣ sau: Từ kết thử nghiệm tập liêu ta thấy kết tập liệu sau đƣợc phân nhóm đƣợc mơ hình sau: Dữ liệu vào K-MEANS với DBSCAN với DBCLASD k = thời gian: 1s Eps = 9, Minpts = thời gian: 1s thời gian: 1s Hình 4.16a Dữ liệu vào K-MEANS với k=3 thời gian: 1s DBSCAN với Eps = 9, Minpts = thời gian: 1s DBCLASD thời gian: 1s Hình 4.16 b Dữ liệu vào K-MEANS với k=4 thời gian: 1s DBSCAN với Eps = 9, Minpts = thời gian: 1s DBCLASD thời gian: 1s Hình 4.16 c Tập liệu Dữ liệu vào K-MEANS với k = thời gian: 1s Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 77 DBSCAN với Eps = 9, Minpts = thời gian: 1s DBSCAN với Eps = 25, Minpts = thời gian: 1s DBCLASD thời gian: 1s Hình 4.17 a Dữ liệu vào K-MEANS với k = thời gian: 1s DBSCAN với Eps= 9, Minpts = thời gian: 1s DBCLASD thời gian: 27s Hình 17 b Dữ liệu vào K-MEANS với k = thời gian: 1s Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 78 DBSCAN với Eps = 9, Minpts = thời gian: 1s DBCLASD thời gian: 1s Hình 4.17 c Tập liệu Dữ liệu vào K-MEANS với k = thời gian: 1s DBSCAN với Eps = 9, Minpts = thời gian: 1s DBCLASD thời gian: 2s Hình 4.18 a Dữ liệu vào K-MEANS với k = thời gian: 1s Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 79 DBSCAN với Eps = 9, Minpts = DBCLASD thời gian: 7s thời gian: 1s Hình 4.18 b 4.5.3 Nhận xét Chúng tơi tiến hành thực thử nghiệm với liệu đầu vào tập liệu, kết thu đƣợc mô hình mục 4.5.2 Từ kết thu đƣợc chúng tơi rút nhận xét tính hiệu thuật tốn đƣợc cài đặt nhƣ sau: Thuật toán K-MEANS cho kết phân nhóm tốt trƣờng hợp liệu lớp có hình đa giác lồi độc lập nhƣ hình (hình 4.18a, 4.18b) nhiên thuật tốn K-MEANS cho kết khơng tốt liệu có hình dạng phức tạp có đan xen lẫn lớp nhƣ hình (hình 4.16a, 4.16b, 4.16c) đặc biệt trƣờng hợp tập liệu đầu vào có nhiễu Thuật tốn KMEANS khơng có khả phát điểm nhiễu nhƣ hình (hình 4.17a, 4.17c) giải thích hiệu thuật tốn K-MEANS khơng tốt việc chia lớp dựa vào khoảng cách đối tƣợng đối tƣợng lớp có đan xen vào dẫn đến nhầm lẫn trình phân chia đối tƣợng vào lớp Đồng thời dựa vào khoảng cách điểm tâm lớp nên KMEANS khơng có khả phân biệt đƣợc điểm nhiễu Tuy nhiên K-MEANS có ƣu điểm thời gian thực chấp nhận đƣợc Cài đặt thuật tốn đơn giản nên thích hợp với liệu mà lớp có hình đa giác lồi, độc lập bị nhiễu Thuật tốn DBSCAN kết thu đƣợc có chất lƣợng tốt, tập liệu hình dạng lớp lồng vào DBSCAN cho kết phù hợp Đối với tập liệu 2, số điểm nhiễu tăng lên kết chia lớp phù hợp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 80 Tuy nhiên, trƣờng hợp liệu phân bố đồng đều, nhóm liệu nằm sát DBSCAN không phân biệt đƣợc nhƣ hình (hình 4.18b) lúc điểm thoả mãn điều kiện đến đƣợc mật độ liên thông mật độ với số điểm nhân cho trƣớc thoả điều kiện lớp Ngồi ta thấy có số điểm nhiễu đƣợc coi lớp mật độ điểm nhiễu thoả mãn điều kiện số điểm lân cận tối thiểu Nói chung thuật tốn DBSCAN có khả phân biệt đƣợc điểm nhiễu nhờ dựa vào điểm lân cận Thuật toán DBSCAN hoạt động hiệu chất lƣợng chia lớp nhƣ thời gian thực Tuy nhiên thuật tốn có nhƣợc điểm đòi hỏi tham số đầu vào từ ngƣời sử dụng giá trị bán kính lân cận Eps số điểm lân cận Minpts, điều làm giảm chất lƣợng thuật toán giá trị đầu vào không phù hợp Nếu ta chọn Eps q lớn nhóm có k-dist nhỏ đƣợc hiểu nhóm, ta chọn Eps nhỏ điểm liệu nhóm có k-dist lớn thành nhóm Tham số đầu vào để chạy thử cho tập liệu đầu vào đƣợc xác định nhờ hỗ trợ chƣơng trình xác định tham số mục 4.3.1 Thời gian thực nhanh xét điểm bán kính nhỏ trải dần điểm nhân toàn liệu Thuật toán DBCLASD kết đƣợc đƣa thuật toán tƣơng đối tốt Thuật toán có khả phân biệt đƣợc lớp có hình dạng phức tạp, phân biệt đƣợc điểm nhiễu Tuy nhiên liệu thứ ba tập liệu ta thấy có lẫn số nhóm so với thực tế (hình 4.17c) có sai lệch thuật toán dựa vào phân bố xác suất khoảng cách lân cận gần lớp, đặc biệt phân cách hai lớp liệu khó phát xuất điểm nhiễu mà thêm điểm nhiễu vào lớp đảm bảo thoả mãn phân bố khoảng cách mong đợi Trong tập liệu thứ tập liệu 1, kết phân nhóm chƣa tốt (hình 4.16c) tồn điểm vị trí khúc cong khơng thoả mãn tính chất liên thơng nên điểm hình thành lớp Về thời gian thực thuật tốn DBCLASD thực khơng tốt thuật toán K-MEANS DBSCAN, đặc biệt số lƣợng điểm liệu tăng nhanh (trong Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 81 ví dụ trên, số điểm liệu dƣới 3000 điểm, khơng có khác biệt thời gian tính tốn, nhiên số điểm liệu vƣợt ngƣỡng đó, ví dụ nhƣ ngồi 6000 điểm thời gian tăng đáng kể nhƣ hình (hình 4.17b, 4.18a, 4.18b) phải xét lại điểm ứng cử nên chƣa thành cơng q trình ghép lớp nhiều lần trƣớc đƣợc ấn định vào lớp cuối cùng, DBCLASD khơng địi hỏi phải có tham số đầu vào mà cho kết phân nhóm chấp nhận đƣợc Từ nhận xét chúng tơi đƣa kết luận nhƣ sau: Thuật toán K-MEANS đại diện cho lớp thuật toán phân nhóm dựa vào phân hoạch Thuật tốn đơn giản dễ cài đặt thời gian thực chấp nhận đƣợc Tuy nhiên, thuật toán làm việc có hiệu với liệu vào có hình dạng lồi (ít phức tạp) khơng có nhiễu Thuật tốn địi hỏi tham số từ ngƣời sử dụng số lƣợng nhóm Ngồi tập liệu khó hội tụ phải địi hỏi tham số số lần lặp để dừng thuật toán Hai thuật toán DBSCAN DBCLASD đại diện cho thuật tốn phân nhóm dựa vào mật độ có hiệu liệu có hình dạng đặc biệt liệu có chứa nhiễu Thời gian thực thuật tốn DBSCAN chấp nhận đƣợc liệu lớn thời gian thực thuật toán DBCLASD tăng nhanh Tuy nhiên chất lƣợng kết thu đƣợc thuật toán DBSCAN phụ thuộc vào việc chọn tham số Eps Minpts, ngƣợc lại DBCLASD khơng địi hỏi tham số đầu vào từ ngƣời sử dụng 4.6 Kết luận Với kết thử nghiệm đánh giá nhận xét Xác định tham số đầu vào ứng với tập liệu hỗ trợ cho ngƣời sử dụng chọn tham số để đƣa kết tốt Cài đặt chạy thử nghiệm số mẫu, từ đƣa số đánh giá tính hiệu thuật tốn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 82 KẾT LUẬN Với hỗ trợ nhiều loại thiết bị thu thập lƣu trữ liệu, ngƣời dần bị chìm ngập lƣợng lớn liệu khả khơng thể xử lý đƣợc hết tất liệu Sự đời kỹ thuật mới, khai phá tri thức liệu, với mục đích nhằm giảm thời gian công sức việc xử lý, thu thập lƣu trữ liệu Kỹ thuật giúp ngƣời tìm tri thức núi liệu khổng lồ theo yêu cầu cụ thể đơi cịn giúp ngƣời phát nhiều tri thức mà chƣa biết đến Sự đời kỹ thuật khai phá tri thức liệu mở nhiều hƣớng nghiên cứu mới, số hƣớng nghiên cứu đƣợc quan tâm phân nhóm (clustering) liệu Q trình phân nhóm bƣớc tiền xử lý, làm giảm thời gian tìm kiếm tồn khơng gian, đƣa đƣợc đặc điểm chung đối tƣợng lớp Trong trình phát triển ngày có nhiều ứng dụng yêu cầu quản lý liệu không gian Cơ sở liệu không gian sở liệu đặc biệt kích thƣớc tính chất Số đối tƣợng sở liệu không gian thƣờng lớn (hàng trăm hàng triệu đối tƣợng) tính chất đối tƣợng khác so với liệu thƣờng (các tính chất vị trí đối tƣợng) Do khác sở liệu không gian sở liệu thƣờng nên nhiều phƣơng pháp phân nhóm áp dụng vào sở liệu khơng gian khơng cịn phù hợp Các thuật tốn phân nhóm sở liệu khơng gian cần đạt đƣợc yêu cầu: Tham số đầu vào tối thiểu, áp dụng đƣợc với lớp có hình dạng thời gian tính tốn nhỏ Các thuật toán đƣa đáp ứng đƣợc số yêu cầu này, nhiên áp dụng vào sở liệu thực chấp nhận đƣợc Trong khoảng thời gian thực (6 tháng), luận văn đạt đƣợc số kết sau: - Tập trung tìm hiểu số thuật tốn phân nhóm dựa vào mật độ phân bố đối tƣợng liệu khơng gian Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 83 - Cài đặt thử nghiệm số mẫu liệu không gian, từ đƣa đánh giá tính hiệu thuật tốn - Kết thuật toán lại phụ thuộc vào tham số đầu vào (đối với thuật tốn cần phải có tham số đƣợc đƣa vào từ ngƣời sử dụng), việc lựa chọn tham số đầu vào thƣờng khó Chúng tơi tìm hiểu cách xác định tham số hỗ trợ ngƣời sử dụng xác định tham số đầu vào có đƣợc kết thu đƣợc nhƣ mong muốn Tuy nhiên luận văn số hạn chế hƣớng phát triển tƣơng lai: - Về mặt ứng dụng: Dữ liệu sử dụng để cài đặt mang tính tự tạo, chƣa thực tế đặc biệt tập trung vào tính chất khơng gian (vị trí) liệu để phân nhóm Trong tƣơng lai, dựa lý thuyết nghiên cứu đƣợc để xây dựng ứng dụng thực tế Ví dụ nhƣ: Xây dựng ứng dụng dựa đồ địa lý với điểm đối tƣợng trạm y tế, bệnh viện, trƣờng học, vùng dân cƣ, đƣa dự đoán hƣớng phát triển, xác định ảnh hƣởng điểm đối tƣợng dựa tính chất, thuộc tính đối tƣợng - Về mặt lý thuyết: Dựa phƣơng pháp trình bày, nghiên cứu đƣa cải tiến phƣơng pháp tốt hơn, thích hợp cho tốn cụ thể Chẳng hạn nhƣ để cải tiến thuật toán DBSCAN ta kết hợp thuật tốn DBSCAN OPTICS để phân nhóm tập liệu mà nhóm phân bố khơng đồng Ngồi ra, mở rộng thuật tốn để áp dụng với dạng đối tƣợng điểm đối tƣợng mà đƣờng thẳng, đa giác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 84 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Thị Mai, “Khai phá liệu phương pháp phân cụm liệu”, Luận văn thạc sĩ, Trƣờng ĐHSP Hà Nội, 2006 [2] Nguyễn Trung Sơn, “Phương pháp phân cụm ứng dụng”, Luận văn thạc sĩ, Khoa Công nghệ thông tin - Đại học Thái Nguyên, Thái Nguyên 2009 [3] Khai phá liệu - Kỹ thuật ứng dụng, Nguyễn Thanh Thuỷ 8/2001, Bài giảng Trƣờng thu hệ mờ ứng dụng, Hà Nội [4] Chia lớp Cơ sở liệu không gian, Luận văn tốt nghiệp Đại Học 2001, Trần Minh Trí Tiếng Anh [5] A Density-Based Algorithm for Discovery Clusters in Large Spatial Database with Noise, Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu Published in Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96) [6] A Distribution- Based Clustering Algorithm for mining in Large Spatial Database, Xiaowei Xu, Martin Ester, Hans-Peter Kriegel, Jörg Sander Published in Proceedings of 14th International Conference on Data Engineering (ICDE’98) [7] An Efficient Approach to Clustering in Large Multimedia database with Noise, Alexander Hinneburg, Daniel A Keim Institute of Computer Science, University of Halle, Germany [8] Chameleon: A Hierachical Clustering Algorithm Using Dynamic Modeling, George Karypis, Eui-Hong (Sam) Han, Vipin Kumar University of Minnesota, USA [9] Clustering Algorithm for Spatial Databases: A Survey, Erica Kolatch, 2001 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 85 [10] Clustering for Mining in Large Spatial Databases, Martin Ester, Hans-Peter Kriegle, Jörg Sander, Xiaowei Xu Special Issue on Data mining, KI-Journal, ScienTec Publishing, Vol 1, 1998 [11] Data mining - Concepts and Techniques, Jiawei Han, Micheline Kamber Simon Fraser University, Horgan kaufmann publishers [12] OPTICS: Ordering Points To Identify the Clustering Structure, Mihael Ankerst, Markus M Breunig, Hans-Peter Kriegel, Jörg Sander,Proc ACM SIGMOD’99 Int Conf on Management of Data, Philadelphia PA, 1999 [13] OPTICS-OF: Identifying Local Outliers, Markus M Breunig, Hans-Peter Kriegel, Raymond T Ng 1, Jörg Sander, Institute for Computer Science, University of Munich, Germany [14] http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ... ? ?Nghiên cứu, tìm hiểu số thuật tốn phân nhóm liệu Cơ sở liệu không gian? ?? làm hƣớng nghiên cứu cho luận văn Mục tiêu đề tài Mục tiêu trọng tâm đề tài là: - Nghiên cứu số thuật tốn phân nhóm liệu. .. ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP KHỔNG MINH TỰ NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TỐN CƠ BẢN VỀ PHÂN NHĨM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHƠNG GIAN Chuyên ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 60 52 02... vào toán cụ thể mà ta áp dụng thuật tốn khác Mỗi thuật tốn đáp ứng đƣợc lớp vấn đề tìm kiếm tri thức 1.3 Hệ quản trị sở liệu không gian 1.3.1 Cơ sở liệu không gian Dữ liệu không gian dạng liệu