Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,75 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM HOÀNG THỊ THOA PHÂN CỤM KHÔNG GIAN CON CHO DỮ LIỆU RỜI RẠC LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 TP Hồ Chí Minh, Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM HOÀNG THỊ THOA PHÂN CỤM KHÔNG GIAN CON CHO DỮ LIỆU RỜI RẠC LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ ĐÌNH BẢY TP Hồ Chí Minh, Năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TS VÕ ĐÌNH BẢY (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 19 tháng 11 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) Họ tên TT Chức danh Hội đồng TS Nguyễn Thị Thúy Loan Chủ tịch PGS.TS Đỗ Phúc Phản biện TS Nguyễn Hà Giang Phản biện TS Trần Minh Thái TS Lê Thị Ngọc Thơ Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HOÀNG THỊ THOA Giới tính: Nữ Ngày, tháng, năm sinh: 01-05-1984 Nơi sinh: Nam Định Chuyên ngành: Công nghệ thông tin MSHV: 1541860047 I- Tên đề tài: Phân cụm không gian cho liệu rời rạc II- Nhiệm vụ nội dung: - Tìm hiểu phân cụm khơng gian cho liệu rời rạc - Tìm hiểu thuật tốn CLICKS - Thực nghiệm chương trình thuật tốn CLICKS CSDL lớn III- Ngày giao nhiệm vụ: 15/3/2017 IV- Ngày hoàn thành nhiệm vụ: 25/8/2017 V- Cán hướng dẫn: PGS.TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Hoàng Thị Thoa ii LỜI CÁM ƠN Trong suốt thời gian học tập trường Đại học Công nghệ TP.HCM, nhận nhiều động viên, giúp đỡ q Thầy cơ, gia đình bạn bè Nhờ giúp đỡ em hồn thành khóa học luận văn Đặc biệt em xin tỏ lịng biết ơn sâu sắc đến thầy PGS.TS.VÕ ĐÌNH BẢY tận tình hướng dẫn em suốt trình làm luận văn Em xin chân thành cảm ơn Ban Giám hiệu, phòng Đào tạo sau Đại học trường đại học Công nghệ TP.HCM hướng dẫn em thực tốt nội quy thủ tục trường trình học tập Em xin chân thành cảm ơn quý Thầy cô khoa Công nghệ thông tin trường Đại học Cơng nghệ TP.HCM tận tình truyền đạt kiến thức, kinh nghiệm quý báu cho em trình học tập trường Những kiến thức tảng hành trang giúp em tìm hiểu lĩnh vực sáng tạo nghiên cứu khoa học Em xin chân thành cảm ơn Ban Giám hiệu, khoa Công nghệ thông tin trường Cao đẳng Kinh tế Kỹ thuật Kiên Giang nhiệt tình giúp đỡ tạo điều kiện thuận lợi để em hồn thành khóa học Do kiến thức cịn hạn hẹp nên q trình viết luận văn khó tránh khỏi thiết sót kính mong q Thầy bỏ qua Đồng thời em mong nhận ý kiến đóng góp quý báu quý Thầy cô bạn lớp để kiến thức luận văn em hồn thiện Cuối em xin kính chúc quý Thầy cô dồi sức khỏe thành công nghiệp cao q Hồng Thị Thoa iii TĨM TẮT Phát triển công nghệ truyền thông tiến thiết bị thu thập liệu cho phép thu thập loại liệu khác Cùng với sẵn có thiết bị lưu trữ dung lượng cao, tổ chức tích lũy khối lượng lớn liệu qua nhiều năm Trích xuất thơng tin hữu ích kiến thức từ liệu tích lũy cần thiết để đạt lợi cạnh tranh Tuy nhiên, khám phá mẫu có ích, chưa biết từ khối lượng lớn liệu theo cách thủ cơng Vì vậy, nhu cầu đặt cần phải có cơng cụ tự động kết hợp kỹ thuật thông minh để hỗ trợ khai thác thơng tin phân tích liệu Đây nguyên nhân thúc đẩy đời ngành khai thác liệu Càng ngày có nhiều kỹ thuật khai thác liệu phát minh để xử lý liệu đồ sộ Trong có kỹ thuật phân cụm/phân nhóm kỹ thuật điển hình, trọng tâm nhánh ứng dụng lĩnh vực học khơng giám sát (Unsupervised Learning) [11] Với phát triển kỹ thuật đại tạo liệu tự động phân mảnh liệu lĩnh vực ứng dụng ngày nhiều, số lượng liệu khổng lồ tạo không số lượng đối tượng liệu mà cịn số thuộc tính đối tượng Do đó, khai thác liệu đặt thách thức cho vấn đề phân cụm, địi hỏi giải pháp chun biệt Phân cụm khơng gian chìa khóa cho giải pháp chun biệt phương pháp tốt để phát cụm có ý nghĩa khơng gian cao Hầu hết thuật toán phân cụm không gian tài liệu phát triển để xử lý liệu, nơi đối tượng định nghĩa thuộc tính số (dữ liệu số/giá trị thực) Trên thực tế có nhiều liệu, nơi đối tượng định nghĩa thuộc tính, khơng phải số hay so sánh cách vốn có cách Bộ liệu gọi liệu rời rạc (hoặc giá trị rời rạc, tượng trưng) chúng đại diện cho giá trị loại định Việc phân cụm không gian cho liệu rời rạc thu hút ý nhà nghiên iv cứu, hầu hết liệu thực tế có tính chất phân loại Nhận thấy nhu cầu xử lý liệu rời rạc cấp thiết Việc lựa chọn kỹ thuật khai thác liệu phù hợp tùy thuộc vào loại liệu cần xử lý loại kiến thức cần trích xuất quan trọng Do đó, tơi chọn đề tài “Phân cụm không gian cho liệu rời rạc” nhằm phát cụm không gian khác không gian chiều cao ban đầu liệu rời rạc Nó ứng dụng nhiều thực tế nhận dạng mẫu, học máy, khai thác liệu khám phá tri thức [6] Mục tiêu nghiên cứu đề tài: Tập trung nghiên cứu cài đặt thuật toán CLICKS CSDL lớn Nội dung nghiên cứu: + Nghiên cứu lý thuyết phân cụm không gian + Nghiên cứu kiểu liệu, trọng đặc biệt đến kiểu liệu rời rạc + Nghiên cứu kỹ thuật phân cụm không gian cho liệu rời rạc + Dựa nội dung tìm hiểu nghiên cứu để thực nghiệm chương trình với thuật tốn CLICKS CSDL lớn Các kết nghiên cứu đạt được: + Tổng quan lý thuyết phân cụm không gian cho liệu rời rạc + Thực thực nghiệm chương trình thuật tốn CLICKS CSDL lớn Luận văn bao gồm nội dung sau: - Chương - Tổng quan: Nội dung chương giới thiệu tổng quan khai thác liệu; phân cụm khai phá liệu; phân cụm không gian phân cụm liệu rời rạc - Chương - Cơ sở lý thuyết: Chương trình bày vấn đề liên quan đến liệu phân loại; phân cụm không gian liệu rời rạc số định nghĩa liên quan v - Chương – Thuật tốn phân cụm khơng gian cho liệu rời rạc: Nội dung chương tập trung nghiên cứu xây dựng thuật toán CLICKS CSDL lớn - Chương - Thực nghiệm: Chương trình bày kết chạy thực nghiệm với thuật toán CLICKS - Chương - Kết luận hướng phát triển: Nội dung chương trình bày kết đạt luận văn, ưu nhược điểm, hướng phát triển đề tài vi ABSTRACT The development of communication technologies and the advancement of data collection devices have allowed the collection of different types of data Along with the availability of high capacity storage devices, every organization is accumulating large amounts of data over the years Extracting useful information and knowledge from the accumulated data is necessary to gain competitive advantage However, we can not discover useful, unknown samples from large amounts of data manually Therefore, there is a need to have tools that automatically incorporate smart technologies to support information extraction and data analysis This is one of the reasons for the launch of data mining More and more data mining techniques have been invented to handle such massive data sets Among them, clustering is one of the typical, central techniques and a major application branch of Unsupervised Learning.[11] With the development of modern techniques that generate automated data and data fragmentation in more and more areas of application, the huge amount of data generated is not just the number of objects Data but also on the number of attributes of each object Therefore, data mining poses new challenges to clustering, requiring specialized solutions Subspace clustering is the key to that specific solution and is one of the best methods for detecting clusters that are meaningful in very high space Most subspace clustering algorithms in the document have been developed to handle data sets where objects are defined on numeric properties (numeric / real value data) Actually, there are many sets of data where objects are defined on attributes, not numbers or comparatively inherent in any way Such data sets are called categorical data because they represent values of certain types Subspace fragmentation for categorical data has attracted the attention of researchers, because most of the actual data sets are classifiable Recognizing that the need to process categorical datasets is imperative Choosing the right data mining techniques 43 cho giá trị cao α luôn đồ thị đồ thị thu với giá trị thấp α Điều có nghĩa cụm khai thác mức cao chứa cụm khai thác mức thấp α Mặt khác, khơng có tiêu chí liệu độc lập cho việc thiết lập α Một phương pháp làm việc để kiểm tra mật độ đồ thị k-partite cách thử số giá trị từ nhỏ đến lớn Sao cho cụm có ý nghĩa tìm thấy cho giá trị mang lại phạm vi mật độ đồ thị trung bình 3.4 Ưu nhược điểm thuật tốn CLICKS * Ưu điểm - Khơng giống nhiều thuật tốn phân cụm rời rạc trước đây, CLICKS có khả tự nhiên tích hợp khả phân cụm khơng gian trình phân cụm Đây bước tiến quan trọng so với phương pháp trước đó, tập hợp liệu vào phân vùng có độ phân giải thấp sau kết hợp nhóm chiều thấp vào chiều cao - Thuật tốn CLICKS khơng áp đặt ràng buộc miền có khả mở rộng đến kích thước cao, với số lượng thuộc tính khơng giới hạn - Trong tương lai, mơ hình k-partite tảng cho việc áp dụng phương pháp dựa biểu đồ khác cho vấn đề khai thác liệu liệu rời rạc - Sự tách biệt tạo clique đếm hỗ trợ clique thay hiệu chi phí cho việc triển khai sở liệu * Nhược điểm - Do yêu cầu nghiêm ngặt kết nối mạnh mẽ cụm, nên tồn clique chồng chéo - Khơng có tiêu chí cho việc thiết lập hệ số α 44 CHƯƠNG 4: THỰC NGHIỆM 4.1 Môi trường thực nghiệm Phần cứng Cấu hình máy tính: Processor Intel(R) Core(TM) i5-3230M CPU @ 2.60 GHz 2.60GHz Memory: GB RAM Phần mềm Hệ điều hành Linux Ngôn ngữ C/C++ 4.2 Giới thiệu sở liệu thực nghiệm 4.2.1 Thực nghiệm thứ Trong thực nghiệm thứ này, chạy thuật toán CLICKS với liệu nấm (mushroom dataset) Đây CSDL tải từ UCI Machine Learning Repository, bao gồm 8124 ghi 22 thuộc tính Mỗi ghi miêu tả loại nấm dạng 22 thuộc tính vật lý (ví dụ màu sắc, hình dạng, mùi thơm ) chứa nhãn loại thể tính độc (3916 ghi) hay ăn (4208 ghi) Tất 22 thuộc tính rời rạc Từ CSDL ban đầu, việc phân cụm thực với α=5 minsup thiết lập với giá trị từ 1% đến 30% Trong thay đổi giá trị minsup từ 1% đến 30%, thời gian giai đoạn sau xử lý số lượng cụm cuối ghi lại Số lượng cụm giảm cho thấy hình 4.1 chứng tỏ hiệu thủ tục hợp việc giảm số lượng cụm đầu ra, khả đáp ứng người sử dụng xác định ngưỡng minsup Hơn nữa, hiệu suất hợp không bị ảnh hưởng giá trị minsup chọn, thể thấy hình 4.2, giao động khoảng nhỏ từ tới 45 Kết phân cụm trước sau xử lý sau: Hình 4.1: Kết phân cụm sau xử lý (MushroomData) Hiệu suất giai đoạn sau xử lý Hình 4.2: Hiệu suất sau xử lý (MushroomData) Chất lượng phân cụm Kết đánh giá chất lượng phân cụm thử nghiệm chạy với giá trị α=0.4 minsup=0.1 Lưu ý lớp (L0) nhãn nấm độc P, lớp (L1) nhãn nấm ăn E 46 Dưới bảng kết phân cụm k-khơng gian (hình 4.3) Do tính chất phân cụm nên ghi cụm cần có độ tương tự giống nhau, tức phải thuộc nhãn tốt Nếu 100% ghi thuộc nhãn tốt Nếu không, ghi bị phân cụm sai phải chiếm tỷ lệ nhỏ hẳn so với ghi phân cụm Nhìn chung cụm phân cho tỷ lệ cao (rất nhiều cụm cho 100%), đánh giá chất lượng phân cụm theo thuật tốn CLICKS tốt Hình 4.3: Kết phân cụm CLICKS với MushroomDataset 4.2.2 Thực nghiệm thứ hai Trong thực nghiệm thứ hai này, chạy thuật toán CLICKS với liệu “House-votes-84 Dataset” Bộ chứa 435 ghi thể bình chọn cử tri dạng phiếu họ 16 bầu cử khác năm 1984 47 Mỗi ghi gán nhãn Cộng hòa (168 ghi) Dân chủ (267 ghi) Các thuộc tính đơn lẻ giá trị boolean (có khơng bầu) Từ CSDL ban đầu, việc phân cụm thực với α=0.1 minsup thiết lập với giá trị từ 1% đến 30% Trong thay đổi giá trị minsup từ 1% đến 30%, thời gian giai đoạn sau xử lý số lượng cụm cuối ghi lại Số lượng cụm giảm cho thấy hình 4.4 chứng tỏ hiệu thủ tục hợp việc giảm số lượng cụm đầu ra, khả đáp ứng người sử dụng xác định ngưỡng minsup Hơn nữa, hiệu suất hợp không bị ảnh hưởng giá trị minsup chọn, thể thấy hình 4.5, giao động khoảng nhỏ từ tới 0.25 Kết phân cụm trước sau xử lý sau: Hình 4.4: Kết phân cụm sau xử lý (House-votes-84 Dataset) Hiệu suất giai đoạn sau xử lý 48 Hình 4.5: Hiệu suất sau xử lý (House-votes-84 Dataset) Chất lượng phân cụm Kết đánh giá chất lượng phân cụm thử nghiệm chạy với giá trị α=0.1 minsup=0.1 Lưu ý lớp (L0) nhãn Cộng hòa lớp (L1) nhãn Dân chủ Dưới bảng kết phân cụm k-khơng gian (hình 4.6) theo thuật tốn CLICKS: Hình 4.6: Kết phân cụm CLICKS với House-votes-84 Dataset 49 4.3 Mơ tả thực nghiệm chương trình Đầu tiên để phân cụm với CLICKS, cần chuyển đổi file đầu vào sang định dạng mà thuật toán quy định để đọc Việc sử dụng chương trình mconvert Do Ubuntu hay cấm quyền thực thi file (vì phân quyền chặt chẽ windows) nên cần thực lệnh sau phép thực thi file mconvert clicks (lưu ý lệnh thao tác Terminal Command): sudo chmod +x mconvert sudo chmod +x clicks Lưu ý lệnh thực thi lần (cấp quyền lần được) Nếu máy lần đầu chạy, chưa chạy lệnh mà thực thi file bên bị báo “Permission denied” Nó hỏi mật user tại, bạn nhập vào xong Sau bắt đầu tiến hành convert file đầu vào mush.data (dữ liệu đầu vào để test chương trình, ví dụ mush.data) sang mush.click sau (tương tự với liệu test khác): /mconvert CSVTOCLICK db/mush.data db/mush.confusion db/mush.mapping 23 0 > db/mush.click đó, tham số sau: - mush.data: file đầu vào gốc (trước convert - tiền xử lý bỏ dấu phẩy) - mush.confusion: chứa nhãn ghi Các nhãn dạng số (ví dụ tương ứng với p e lớp nấm độc nấm ăn được) - mush.mapping: file mconvert lưu ánh xạ giá trị thuộc tính từ dạng chữ sang dạng số ngun (vì thuật tốn click làm việc với giá trị thuộc tính dạng số nên biến đổi hết chữ số tương ứng - sau muốn hiển thị kết dùng file ánh xạ đối chiếu sang để hiển thị kết clique k-partite dạng chữ cái) 50 - 23: tổng số cột mush.data (điều chỉnh lại cho với test khác) - 0: cột chứa nhãn lớp ghi (sử dụng để tính ma trận nhầm lẫn confusion matrix - để biết kết phân cụm xác bao nhiêu) - 0: khơng tính cột file kết (vì nhãn lớp - khơng phải thuộc tính cần thiết cho thuật tốn clicks, dùng để kiểm chứng, đánh giá chất lượng phân cụm thực tế mà thơi) Sau có file đầu vào cần thiết rồi, tiến hành chạy thuật toán CLICKS: /clicks db/mush.click α minsup db/click.bench SUB CONFUSION MAP db/mush.mapping - Ở chạy thuật toán CLICKS với hai tham số α minsup (nhằm đánh giá kết theo tham số này) - File click.bench dùng để lưu kết chạy thuật toán (mỗi lần chạy với hai tham số kết trả tương ứng với dòng file này) Mỗi dòng có dạng sau: số thứ tổng thời gian chạy, tổng số ghi liệu, số lượng thuộc tính, số lượng giá trị thuộc tính lớn cho thuộc tính (max miền thuộc tính), số cliques tìm thấy kết thúc CLICKS, số clique trước xử lý thời gian tiền xử lý, thời gian tìm clique, thời gian hậu xử lý - SUB: thể ta dùng chức khai phá full subspace (nếu FULL tìm khơng gian đầy đủ thơi) - MAP mush.mapping: sử dụng file mapping tạo để ánh xạ lại kết tìm dạng số dạng chữ gốc file mush.data hiển thị ta nhìn thấy - CONFUSION: bật chức ghi file click_confusion.txt thư mục db Mỗi dòng file chứa dãy id clique (cụm) phân cụm theo CLICKS cụm (clique) chứa ghi Đây CSDL Cset 51 C Có thể có nhiều id, nên nhớ ghi (một loại nấm với giá trị thuộc tính - 22 thuộc tính nhãn: độc hay ăn thuộc nhiều cụm khác -sự chồng chéo cụm báo phân tích) id xuất nhiều ghi khác Nếu có nhiều id id phân cách dấu phẩy Nếu khơng thuộc cụm dịng có giá trị “-1” File đầu vào sử dụng để đánh giá chất lượng phân cụm thuật toán CLICKS Nguyên tắc ánh xạ để tạo chất lượng phân cụm sau: Để đánh giá chất lượng phân cụm CLICKS sử dụng file đầu vào sau đây: + File chứa tên lớp sau ánh xạ (tạm gọi File 1)- demo bảng 4.1(xét với liệu mushroom) Bảng 4.1: Ví dụ cấu trúc file Dịng Tên lớp ……… ……… 8124 52 + File chứa ID mà clique hỗ trợ (tạm gọi File 2)- demo bảng 4.2 (xét với liệu mushroom) Bảng 4.2: Ví dụ cấu trúc file (MushroomData) Dòng ID (Clique) 215,560,668 429,433,447,560,635,656,672,673 433,560,633,635,654,656 215,560,668 320,449,560,567,571 429,433,439,560,635,664,665,668,672,673 433,560,665,673 …………… ……………… 8124 191,221,160,182,183,202,519 Nhiệm vụ đặt đếm xem cụm có chứa nhãn nấm độc (0) nấm ăn (1) Sau đưa kết cuối tỷ lệ phần trăm chúng cụm (nếu 100% loại 0% loại phân cụm tốt, khơng 100% tỷ lệ chênh nhiều tức tốt, chênh thể phân cụm chưa tốt chưa phân biệt rõ ràng loại nấm) Việc để đếm số nhãn sau: - Đọc dòng file - Với dòng file danh sách id chứa ghi Ta duyệt id cụm dịng này, đối chiếu vị trí (cùng ghi đó) file 53 xem nhãn (ví dụ nhãn mush hay 1) Sau tăng số lượng nhãn tương ứng (0 1) cụm lên đơn vị - Cứ duyệt hết cụm dòng duyệt hết dòng file cho kết tổng hợp tất cụm Chúng ta thấy kết thơng báo lỗ chỗ (có id cụm khơng xuất bảng kết quả) cụm phép hậu xử lý trộn lại với 54 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn hoàn thành mục tiêu, nội dung phương pháp nghiên cứu đề Bên cạnh đó, luận văn thực nghiệm thuật toán CLICKS liệu chuẩn để đánh giá hiệu thuật tốn Với đề tài: “Phân cụm khơng gian cho liệu rời rạc” chưa giải tất vấn đề tồn đọng, song có thời gian phát triển hồn thiện đề tài giúp ích nhiều việc xử lý liệu rời rạc để đặt chất lượng phân cụm tối ưu Tuy nhiên luận văn đóng góp số nội dung phân cụm khơng gian cho liệu phân loại Cụ thể sau: - Nghiên cứu mơ hình hóa liệu cho liệu rời rạc, để thuật tốn xử lý - Nghiên cứu phương pháp tìm clique k-partite tối đa dựa vào mơ hình hóa liệu đồ thị k-partite - Nghiên cứu xử lý hiệu vấn đề đặt sau tìm clique k-partite tối đa - Thực nghiệm, khảo sát thời gian thực thuật toán liệu chuẩn - Hiệu suất chất lượng cụm đánh giá tập số liệu tổng hợp thực 5.2 Nhận xét Ưu điểm: - Luận văn trình bày cách khoa học có hệ thống kiến thức hiểu biết thân, có tham khảo tài liệu vấn đề có liên quan đến nội dung tìm hiểu, nghiên cứu 55 - Luận văn trình bày chi tiết bước thuật tốn có ví dụ cụ thể cho bước - Chạy thực nghiệm thuật toán liệu: MushroomData, Housevotes-84 Dataset - Luận văn biên dịch thành công thuật toán để thực nghiệm số liệu thực Bên cạnh luận văn đánh giá chất lượng phân cụm thuật toán CLICKS Nhược điểm - Một thách thức đặt giai đoạn hậu xử lý thuật toán CLICKS là: clique tối đa thất bại kiểm tra điều kiện mật độ, trong phân nhóm phụ mật độ dày đặc Để đảm bảo an tồn, khơng bỏ sót cụm này, thuật tốn CLICKS cho phép tìm kiếm mở rộng chọn lọc theo chiều dọc nhằm giải thách thức Vì thực thời gian ngắn nên chưa nghiên cứu cách tìm kiếm mở rộng theo chiều dọc thuật toán CLICKS - Kết tạo đồ thị k-partite, số lượng cụm cuối có mong muốn cịn phụ thuộc nhiều vào việc người dùng nhập giá trị hệ số α, minsup 5.3 Hướng phát triển - Hướng phát triển nghiên cứu cách tìm kiếm mở rộng chọn lọc theo chiều dọc mà thuật toán CLICKS đưa - Cần cải tiến điều kiện nghiêm ngặt tính liên thơng mạnh cụm để khơng tạo số lượng lớn clique bị chồng chéo Nhằm giảm bớt công việc giai đoạn hậu xử lý 56 TÀI LIỆU THAM KHẢO [1] M J Zaki, M Peters, I Assent and T Seidl, CLICKS: An Effective Algorithm for Mining Subspace Clusters in Categorical Datasets Data and Knowledge Engineering, 60(1), 51-70, 2007 [2] M_Peters, Maximal Cliques And Vertical Mining For Clustering Categorical Data, Rwth Aachen, September 2004 [3] https://en.wikipedia.org/wiki/Clustering_high- dimensional_data#Subspace_clustering [4] G.N.V.G Sirisha and M Shashi, Subspace clustering for high dimensional datasets International Journal of Advanced Computer Research, 6(26), 177-184, 2016 [5] L Parsons, E Haque, H Liu, Subspace Clustering for High Dimensional Data: A Review ACM SIGKDD Explorations, 6(1), 90-105, 2004 [6] H.Xiao; F.Jing; K.Bettina; M.T.Son; C.Plant, Relevant overlaping subspace clusters on categorical data, In KDD’14, 213-222, 2014 [7] H P.Kriegel; P Kroger; A Zimek, Subspace clustering, Wiley Periodicals, Inc, 2012 [8] S Günnemann; B Boden; T._Seidl, Finding density-based subspace clusters in graphs with feature vectors Data mining and knowledge discovery, 243–269, 2012 [9] J L Carbonera; M Abel, An Entropy-Based Subspace Clustering Algorithm for Categorical Data, IEEE 26th International Conference on_ Tools with Artificial Intelligence (ICTAI), 2014 [10]B.Wang;Y.Zhou; X.Hei, Coercion: A Distributed Clustering Algorithm for Categorical Data, 2013 Ninth International Conference on Computational Intelligence and Security 57 [11] M.R._Anderber, Cluster analysis of application, A cademic Press, New York 1973 [12] J Han and M Kamber (2001), “Data Mining: Concepts and Techniques”, Hacours Science and Technology Company, USA [13] D Barbara; J Couto; Y.Li (October 1, 2001), “COOLCAT: An entropy- based algorithm for categorical clustering”, George MasonUniversity Information and Software Engineering Department Fairfax, VA22030, pp 582 - 589 [14] Y Chan; W Ching, M.K Ng, Z.X Huang (2004), “An optimization algorithm for clustering using weighted dissimilarity measures”, Pattern Recognition 37 (5), pp.943 – 952 [15] L Andries van der Art; M.A Croon; K.Sijtsma, New Developments in Categorical Data Analysis for the Social and Behavioral Sciences, (Quantitative Methodology Series) (2004-11-12) on Amazon.com ... thác liệu; phân cụm khai phá liệu; phân cụm không gian phân cụm liệu rời rạc - Chương - Cơ sở lý thuyết: Chương trình bày vấn đề liên quan đến liệu phân loại; phân cụm không gian liệu rời rạc. .. chọn đề tài ? ?Phân cụm không gian cho liệu rời rạc? ?? nhằm phát cụm không gian khác không gian chiều cao ban đầu liệu rời rạc Nó ứng dụng nhiều thực tế nhận dạng mẫu, học máy, khai thác liệu khám phá... mục tiêu tìm tất cụm cụm không gian muốn 24 CHƯƠNG 3: THUẬT TỐN PHÂN CỤM KHƠNG GIAN CON TRÊN DỮ LIỆU PHÂN LOẠI CATEGORICAL 3.1 Đồ thị hóa cho liệu rời rạc Xét lại liệu mẫu D cho bảng 2.1 với