1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

93 239 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 1,47 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM THỊ KIM NGOAN ĐỀ TÀI: PHÂN CỤM CÁC ĐỐI TƯỢNG PHỨC TẠP TRONG MỘT LỚP ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH:CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN KIM ANH HÀ NỘI - 2010 Phân cụm đối tượng phức tạp lớp đối tượng MỤC LỤC: LỜI CAM ĐOAN .4 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .5 DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU 11 1.1 Giới thiệu chung phát tri thức khai phá liệu 11 1.2 Quá trình phát tri thức từ sở liệu 12 1.3 Quá trình khai phá liệu 14 1.4 Các kỹ thuật tiếp cận khai phá liệu 15 1.5 Ứng dụng khai phá liệu 17 1.6 Vai trò phân cụm liệu khai phá liệu .18 Kết chương 19 CHƯƠNG 2: KỸ THUẬT PHÂN CỤM DỮ LIỆU .20 2.1 Khái quát phân cụm liệu 20 2.1.1 Định nghĩa phân cụm liệu 20 2.1.2 Ứng dụng phân cụm liệu 21 2.1.3 Các yêu cầu phân cụm liệu 22 2.1.4 Các vấn đề phân cụm 23 2.1.5 Các giai đoạn phân cụm 23 2.1.6 Cấu trúc liệu phân cụm liệu .24 2.2 Các phương pháp phân cụm liệu 26 2.2.1 Phương pháp phân hoạch .26 2.2.2 Phương pháp phân cụm phân cấp 29 2.2.3 Phương pháp phân cụm dựa mật độ 32 -1- Phân cụm đối tượng phức tạp lớp đối tượng 2.2.4 Phương pháp phân cụm dựa lưới 33 2.2.5 So sánh phương pháp phân cụm 34 2.3 Một số thuật toán phân cụm liệu hỗn hợp điển hình 36 2.4 Đánh giá chất lượng cụm .38 Kết chương 42 CHƯƠNG 3: PHÂN CỤM CÁC ĐỐI TƯỢNG TRONG MỘT LỚP ĐỐI TƯỢNG TRÊN MÔ HÌNH HƯỚNG ĐỐI TƯỢNG .43 3.1 Đặt vấn đề 43 3.2 Mô hình sở liệu hướng đối tượng 44 3.2.1 Định danh đối tượng, cấu trúc đối tượng .44 3.2.2 Đóng gói phương thức đối tượng 46 3.2.3 Tính chất kế thừa đa hình 48 3.3 Độ đo tương tự đối tượng .48 3.3.1 Một số định nghĩa 48 3.3.2 Một số cách tính độ đo tương tự/ khoảng cách 49 3.3.3 Độ đo tương tự cho thuộc tính kiểu nguyên tố .51 3.3.4 Độ đo tương tự cho thuộc tính kiểu tập 55 3.3.5 Độ đo tương tự cho thuộc tính kiểu 60 3.3.6 Độ đo tương tự hai đối tượng 63 3.3.7 Ví dụ minh họa tính độ tương tự hai đối tượng 65 3.4 Phân cụm đối tượng lớp đối tượng mô hình CSDL hướng đối tượng .69 Kết chương 73 CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM 74 4.1 Xây dựng chương trình thử nghiệm .74 4.1.1 Giới thiệu chung .74 4.1.2 Mô hình liệu thử nghiệm 74 -2- Phân cụm đối tượng phức tạp lớp đối tượng 4.1.3 Các chức chương trình 75 4.2 Kết thử nghiệm 79 4.2.1 Tiêu chí đánh giá 79 4.2.2 Kết thử nghiệm đánh giá với tập liệu Zoo .80 4.2.3 Kết thử nghiệm với tập liệu STUDENT 81 4.2.4 Kết thử nghiệm với tập liệu TEACHER 82 Kết chương 83 Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Các kết đạt luận văn 84 5.1.1 Về lý thuyết 84 5.1.2 Về thực nghiệm 85 5.2 Hướng nghiên cứu 85 TÀI LIỆU THAM KHẢO .86 Tài liệu tiếng Việt 86 Tài liệu tiếng Anh 86 Các trang Web .88 PHỤ LỤC 89 Bảng liệu lớp đối tượng STUDENT 89 Bảng điểm STUDENT 90 Bảng liệu lớp đối tượng TEACHER 91 Bảng phân công giảng dạy 92 -3- Phân cụm đối tượng phức tạp lớp đối tượng LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu thân hướng dẫn PGS.TS Nguyễn Kim Anh, không chép toàn văn công trình khác Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tác phẩm, tạp chí website theo danh mục tài liệu luận văn Tác giả luận văn Phạm Thị Kim Ngoan -4- Phân cụm đối tượng phức tạp lớp đối tượng DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Công nghệ thông tin CNTT Information Technology Cơ sở liệu CSDL Database Phát tri thức từ sở KDD Knowledge liệu Discovery Database Khai phá liệu DM Data Mining Phân cụm liệu PCDL Data Clustering Hướng đối tượng HĐT Object-Oriented Phân cấp khái niệm CH Concept Hierarchy Qui nạp hướng thuộc tính AOI Attribute_Oriented Induction -5- in Phân cụm đối tượng phức tạp lớp đối tượng DANH MỤC CÁC BẢNG Bảng 2.1: So sánh thuật toán phân cụm Bảng 5.1: Đánh giá kết phân cụm tập liệu Zoo Bảng 5.2: Kết phân cụm với tập liệu STUDENT Bảng 5.3: Kết phân cụm với tập liệu TEACHER DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các lĩnh vực Data mining Hình 1.2: Quá trình phát tri thức từ CSDL Hình 2.1: Minh họa phân cụm liệu Hình 2.2: Minh họa mục tiêu phân cụm Hình 2.3: Các giai đoạn phân cụm Hình 2.4: Thuật toán k-means Hình 2.5: Phân cụm tập điểm dựa k-means Hình 2.6: Thuật toán k-modes Hình 2.7: Minh họa kết phân cụm phân cấp Hình 2.8: Thuật toán AGNES Hình 2.9: Minh họa thuật toán phân cụm dựa mật độ Hình 2.10: Thuật toán CEBMDC Hình 2.11: Hình minh họa độ đo SSE Hình 2.12: Hình minh họa độ đo BSE -6- Phân cụm đối tượng phức tạp lớp đối tượng Hình 3.1: Các đặc điểm hệ sở liệu hướng đối tượng Hình 3.2: Phân cấp khoảng cách kiểu số Hình 3.3: Phân cấp khoảng cách thuộc tính Mark Hình 3.4: Phân cấp khoảng cách thuộc tính SubjectName Hình 3.5: Thuật toán tính độ tương tự cho thuộc tính kiểu nguyên tố Hình 3.6: Minh họa đồ thị tương tự hai tập Hình 3.7: Thuật giải tính độ tương tự tập hợp Hình 3.8: Thuật giải tính độ tương tự hai Hình 3.9: Phân cấp khoảng cách thuộc tính Address Hình 3.10: Phân cấp khoảng cách thuộc tính Degree Hình 3.11: Phân cấp khoảng cách thuộc tính Work_year Hình 3.12: Phân cấp khoảng cách thuộc tính Name DEPT Hình 3.13: Phân cấp khoảng cách thuộc tính No_unit Subject Hình 3.14: Phân cấp khoảng cách thuộc tính Name Class Hình 3.15: Phân cấp khoảng cách thuộc tính Number Class Hình 3.16: Thuật toán AGNES phân cụm đối tượng mô hình HĐT Hình 4.1: Giao diện chương trình Hình 4.2: Màn hình hiển thị liệu lớp đối tượng STUDENT Hình 4.3: Màn hình hiển thị liệu lớp đối tượng TEACHER Hình 4.4: Màn hình hiển thị kết phân cụm với tập liệu Zoo -7- Phân cụm đối tượng phức tạp lớp đối tượng MỞ ĐẦU Trong thập niên gần đây, với tác động mạnh mẽ công nghệ thông tin truyền thông, việc tin học hoá cách nhanh chóng mạnh mẽ hoạt động sản xuất, kinh doanh nhiều lĩnh vực khác tạo cho lượng liệu lưu trữ khổng lồ Sự bùng nổ này, nảy sinh ý tưởng nhằm biến CSDL sẵn có tưởng chừng gánh nặng cho việc lưu trữ thành liệu có ý nghĩa Đây yêu cầu hữu ích cấp thiết Từ đây, xuất kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích để hỗ trợ cho việc định Những kỹ thuật công cụ thuộc lĩnh vực phát tri thức (KDD) khai phá liệu (DM) - lĩnh vực thời ngành công nghệ thông tin (CNTT) Có nhiều phương pháp khai phá liệu nghiên cứu, song phương pháp nhiều người quan tâm phát triển phân cụm liệu (PCDL) Phân cụm liệu công cụ để khám phá nhóm đối tượng tự nhiên Từ người ta sâu vào phân tích nghiên cứu cụm đối tượng để khám phá, tìm kiếm tri thức tiềm ẩn, hữu ích hỗ trợ cho việc định Mặt khác, năm gần đây, sở liệu (CSDL) mở rộng theo hướng tích hợp với ngôn ngữ lập trình hướng đối tượng Cơ sở liệu hướng đối tượng (CSDL HĐT) xây dựng cách kết hợp yếu tố sở liệu kĩ thuật lập trình hướng đối tượng nhằm mục đích lưu trữ đối tượng liệu Từ tận dụng phát huy ưu điểm, lợi ích, mạnh kĩ thuật, công nghệ sử dụng, đồng thời khắc phục yếu điểm mô hình CSDL khác Hiện nay, kỹ thuật hướng đối tượng sử dụng rộng rãi việc phát triển phần mềm Chính yếu tố nên việc nghiên cứu kỹ thuật DM hệ thống CSDL hướng đối tượng xem nghiên cứu quan trọng -8- Phân cụm đối tượng phức tạp lớp đối tượng Hiện nay, có số nghiên cứu khai phá liệu từ CSDL hướng đối tượng, cụ thể phân nhóm liệu CSDL hướng đối tượng, song kết nghiên cứu dừng lại việc đưa cách tính độ đo tương tự đối tượng theo thuộc tính kiểu số, so sánh độ tương tự đối tượng dựa phân cấp lớp Những thuộc tính kiểu tập kiểu chưa xét đến Chính từ mục đích yêu cầu hướng dẫn tận tình thầy cô giáo, đặc biệt PGS.TS Nguyễn Kim Anh thúc đẩy chọn đề tài “Phân cụm đối tượng phức tạp lớp đối tượng” để nghiên cứu làm luận văn tốt nghiệp Ý thức vấn đề mẻ khó khăn, nên mục tiêu đặt luận văn là: Xây dựng cách tính độ đo tương tự đối tượng qua việc tính toán độ đo tương tự thuộc tính tuỳ theo kiểu chúng, chọn thuật toán phân cụm phù hợp thông qua việc đánh giá tập liệu kiểu hỗn hợp chuẩn “UCI Machine Learning” Trên sở đó, thử nghiệm phân cụm liệu đối tượng lớp đối tượng mô hình CSDL hướng đối tượng Sau thời gian tìm hiểu, nghiên cứu thực luận văn, luận văn hoàn thành Luận văn gồm chương sau: Chương 1: Tổng quan phát tri thức từ sở liệu (KDD) khai phá liệu (DM) - Chương giới thiệu kiến thức sở KDD DM, trình KDD, trình DM, kỹ thuật tiếp cận DM ứng dụng DM Chương 2: Các kỹ thuật phân cụm liệu: Trình bày khái quát phân cụm liệu, phương pháp phân cụm, ưu nhược điểm phương pháp này, độ đo để đánh giá chất lượng cụm Qua ta thấy khả phân cụm phương pháp, khả áp dụng vào toán thực tiễn Chương 3: Phân cụm đối tượng liệu lớp đối tượng mô hình sở liệu hướng đối tượng: Phần đầu trình bày tổng quan mô -9- Phân cụm đối tượng phức tạp lớp đối tượng o Dữ liệu STUDENT: Tính độ đo tương tự: Đối với lớp đối tượng STUDENT, đối tượng tương ứng với cấu trúc gồm thuộc tính: ST#, Fullname, Gender, Birthday, Birthplace, Dept, Marks Độ tương tự cặp đối tượng STUDENT độ tương tự ⇒ Độ tương tự cặp đối tượng STUDENT tính trung bình cộng theo trọng số độ tương tự thuộc tính Khi tính độ tương tự đối tượng lớp đối tượng này, giả thiết trọng số thuộc tính 1, trọng số thuộc tính tập (Marks) số phần tử tập Sau tính độ tương tự cặp đối tượng STUDENT, chương trình tiến hành phân cụm với lớp đối tượng dựa độ đo tương tự vừa tính o Dữ liệu TEACHER: Tính độ đo tương tự: Đối với lớp đối tượng TEACHER, đối tượng tương ứng với cấu trúc gồm thuộc tính: T#, Fullname, Degree, Work_year, Dept, Teaching Độ tương tự cặp đối tượng TEACHER độ tương tự Khi tính độ tương tự đối tượng lớp đối tượng này, giả thiết trọng số thuộc tính ⇒ Độ tương tự cặp đối tượng TEACHER tính trung bình cộng độ tương tự thuộc tính Dựa độ đo này, chương trình tiến hành phân cụm lớp đối tượng TEACHER theo thuật toán chọn - Hiển thị kết phân cụm: Hiển thị số thứ tự liệu tập liệu cần phân cụm - 78 - Phân cụm đối tượng phức tạp lớp đối tượng Hình 4.4: Màn hình hiển thị kết phân cụm với tập liệu zoo 4.2 Kết thử nghiệm 4.2.1 Tiêu chí đánh giá - Để đánh giá chất lượng phân cụm, sử dụng số độ đo (đã trình bày chương 2) Trong luận văn này, sử dụng độ đo External index: Đo mức độ cụm tương đồng với nhãn lớp cung cấp sẵn, cụ thể sử dụng Purity Chúng chọn External index để đánh giá, kho liệu chuẩn UCI, tập liệu Zoo phân lớp có nhãn lớp pij = mij mj purity j = max pij i K mj j =1 m purity = ∑ Với: L số lớp (classes); - 79 - purity j Phân cụm đối tượng phức tạp lớp đối tượng K số nhóm(clusters); mj số mẫu cluster j; mij số mẫu class i thuộc cluster j m tổng số mẫu 4.2.2 Kết thử nghiệm đánh giá với tập liệu Zoo Tập liệu Zoo phân thành lớp, nên chọn số cụm cần Kết có 95 tổng số 101 đối tượng phân lớp đúng, chất lượng phân cụm đạt 94,5% Cụ thể sau: Bảng 5.1: Đánh giá kết phân cụm tập liệu Zoo Cluster Purity 41 0 0 0 20 0 0 0 0 0 0.2 0 13 0 0 0 0.6 0 0 0.8 0 0 0 Purity 0.945 Qua kết đánh giá cho thấy, thuật toán PCDL cách tính độ tương tự trình bày chương cho kết tốt tập liệu Zoo - 80 - Phân cụm đối tượng phức tạp lớp đối tượng 4.2.3 Kết thử nghiệm với tập liệu STUDENT Với tập liệu STUDENT, chọn số cụm để phân cụm 20 đối tượng sinh viên, kết quan sát trực quan sau: Bảng 5.2: Kết phân cụm với tập liệu STUDENT Cụm Các phần tử cụm 1, 5, 6, 15 Tính chất chung - Đạt tất môn - Các môn ngôn ngữ lập trình, thực tập đạt kết tốt (điểm 8, 9, 10) - Các môn mạng có kết tốt (điểm 7, 8) 2, 3, 8, 11, 12, 14, 18, 19 - Hầu hết môn có điểm trung bình (điểm 5, 6) - Các môn ngôn ngữ lập trình, thực tập có kết trung bình (điểm 6, 7) - Các môn CSDL HQTCSDL có kết thấp (điểm 3, 4, 5) 4, 9, 10, 13, 16, 17, 20 - Hầu hết môn có điểm trung bình (điểm 5, 6, 7) - Các môn ngôn ngữ lập trình thực tập có kết tốt (điểm 8, 9) - Hầu hết môn có điểm trung bình (điểm 3, 4) - Các môn ngôn ngữ lập trình thực tập có điểm trung bình (điểm 5, 6) - 81 - Phân cụm đối tượng phức tạp lớp đối tượng Qua bảng kết trên, rút nhận xét: - Nhóm 1: Nhóm sinh viên đạt tất môn với điểm môn tốt ⇒ xếp loại nhóm sinh viên giỏi - Nhóm 2: Nhóm sinh viên có hầu hết môn đạt điểm trung bình, số môn có điểm yếu ⇒ xếp nhóm sinh viên thuộc loại học lực trung bình - Nhóm 3: Nhóm sinh viên có hầu hết môn đạt điểm trung bình, số môn có điểm ⇒ xếp nhóm sinh viên thuộc loại học lực trung bình - Nhóm 4: Sinh viên có hầu hết môn điểm trung bình, số môn có điểm trung bình ⇒ xếp nhóm sinh viên thuộc loại học lực yếu 4.2.4 Kết thử nghiệm với tập liệu TEACHER Với tập liệu TEACHER, chọn số cụm để phân cụm 16 đối tượng giáo viên, kết quan sát trực quan sau: Bảng 5.3: Kết phân cụm với tập liệu TEACHER Cụm Các phần tử cụm 1, 2, 3, 4, 6, 7, 8, 12, Tính chất chung Đa số giáo viên có học vị Thạc sĩ 14, 16 Giáo viên có học vị cử nhân, thâm niên năm 9, 10, 11 Giáo viên có học vị Kỹ sư, thâm niên công tác 7-9 năm Thuộc Bộ môn CNPM 13, 15 Giáo viên có học vị Tiến sĩ, số năm công tác > 25 năm - 82 - Phân cụm đối tượng phức tạp lớp đối tượng Kết chương Chương trình bày chức chương trình thử nghiệm: hiển thị tập liệu trước thực phân cụm, chọn số lượng cụm, thực phân cụm theo thuật toán chọn, hiển thị kết phân cụm Mô hình liệu dùng chương trình thử nghiệm Bên cạnh đó, kết thử nghiệm đánh giá tập liệu cụ thể trình bày Cụ thể: thử nghiệm phân cụm tập liệu zoo lấy từ kho liệu chuẩn “UCI Machine Learning” địa http://archive.ics.uci.edu/ml/ , đánh giá kết độ đo External index (Purity) Sau thử nghiệm PCDL với lớp đối tượng STUDENT TEACHER - 83 - Phân cụm đối tượng phức tạp lớp đối tượng Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Các kết đạt luận văn Phân cụm hướng nghiên cứu quan trọng lĩnh vực khai phá liệu Nhiều tác giả xây dựng cách tính độ đo tương tự hay khoảng cách kiểu liệu định tính, phạm trù hay liệu hỗn hợp, kèm theo thuật toán phân cụm hiệu cho kiểu liệu Tuy nhiên CSDL HĐT, chưa có tác giả đề xuất cách tính độ đo tương tự đối tượng cách đầy đủ Qua nghiên cứu, biết Gilles Bisson [12] đưa cách tính độ tương tự hai đối tượng dựa thuộc tính kiểu số Hoặc Akila Sarirete [2], Gavin Finnie [11], Ralph Bergmann [23] dừng lại việc so sánh độ tương tự đối tượng dựa phân cấp lớp Hơn nữa, kỹ thuật hướng đối tượng sử dụng rộng rãi việc phát triển phần mềm Vì vậy, việc nghiên cứu để xây dựng độ đo tương tự hay khoảng cách đối tượng, thuật toán phân cụm liệu CSDL HĐT việc làm cần thiết, có nhiều ý nghĩa khoa học thực tiễn Bản luận văn thực vấn đề sau: 5.1.1 Về lý thuyết - Nghiên cứu tổng quan lĩnh vực khai phá liệu, bao gồm: Các khái niệm KDD, DM, trình KDD, trình DM, hướng tiếp cận DM làm sở để tìm hiểu vấn đề PCDL DM - Nghiên cứu tổng quan PCDL, bao gồm: Các vấn đề PCDL, ứng dụng PCDL thực tiễn, giai đoạn PCDL, kỹ thuật tiếp cận PCDL độ đo chất lượng cụm - Nghiên cứu độ đo tương tự kiểu liệu định tính, định lượng, mô hình CSDL HĐT số phương pháp AOI, CH Từ xây dựng độ đo tương tự/ khoảng cách đối tượng CSDL HĐT Nghiên cứu - 84 - Phân cụm đối tượng phức tạp lớp đối tượng hướng tiếp cận phân cụm liệu hỗn hợp, từ lựa chọn thuật toán phù hợp cho phân cụm đối tượng 5.1.2 Về thực nghiệm - Cài đặt thuật toán PCDL sử dụng độ đo tương tự/ khoảng cách đề xuất Có thử nghiệm với tập liệu Zoo tập liệu chuẩn “UCI Machine Learning” đánh giá chi tiết - Thử nghiệm phân cụm với hai lớp đối tượng STUDENT TEACHER mô hình CSDL HĐT mẫu 5.2 Hướng nghiên cứu Luận văn đề cập đến độ đo tương tự/ khoảng cách đối tượng với kiểu bản: kiểu nguyên tố, kiểu tập kiểu bộ; việc phân cụm đối tượng CSDL HĐT Với tiền đề đó, thời gian tới, tiếp tục tìm hiểu để xây dựng độ đo tương tự cho tất kiểu đối tượng lại xử lý trường hợp đặc biệt chúng, thuật toán phân cụm thích hợp với CSDL HĐT Hướng nghiên cứu cụ thể sau: - Xây dựng độ đo tương tự cho trường hợp đặc biệt kiểu đối tượng - Nghiên cứu xử lý đệ quy tính độ đo tương tự cho kiểu đối tượng - Nghiên cứu hàm hợp độ tương tự cho kiểu đối tượng - Nghiên cứu để cải tiến thuật toán CEBMDC nhằm áp dụng hiệu việc PCDL kiểu đối tượng - 85 - Phân cụm đối tượng phức tạp lớp đối tượng TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Kim Anh (2004), “Nguyên lý hệ CSDL”, NXB ĐHQG Hà Nội [2] Nguyễn Ngọc Bình, Hồ Tú Bảo, Thân Văn Cường, “Độ đo tương tự hồn hợp cho liệu với thuộc tính kiểu số, ký hiệu thứ tự” [3] Trương Ngọc Châu (2010), Chuyên đề NCS, “Cơ sở liệu hướng đối tượng” Tài liệu tiếng Anh [1] Ajith Abraham, L C Jain, Berend J Von der Zwaag (2004), “Innovations in intelligent systems” [2] Akila Sarirete and Jean Vaucher, “Similarity Measures for the Object Model” [3] Amir Ahmad and Lipika Dey (2007), “A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set”, ScienceDirect [4] Armin Stahl (2007), “Retrieving Relevant Experiences” [5] Ana Fred(April 2009), “From Single Clustering to Ensemble Methods”, Instituto superior Técnico, Universidade Técnico de Lisboa [6] Ho Tu Bao, David Cheung and Huan Liu (2005), “Advances in Knowledge Discovery and Data Mining”, 9th Pacific-Asia Conference, Hanoi, Vietnam [7] B.Bahmani Firouzi, T Niknam, and M Nayeripour (2009), “A New Evolutionary Algorithm for Cluster Analysis” [8] Chuanjun Li B Prabhakaran Si-Qing Zheng, ”Similarity measure for multiattribute data” - 86 - Phân cụm đối tượng phức tạp lớp đối tượng [9] Chung-Chian Hsu , Yu-Cheng Chen (2007), “Mining of mixed data with application to catalog marketing”, ScienceDirect [10] Chung-Chian Hsu and Yan-Ping Huang (2008), “Incremental clustering of mixed data based on distance hierarchy”, ScienceDirect [11] Chung-Chian Hsu , Chin-Long Chen, Yu-Wei Su (2007), “Hierarchical clustering of mixed data based on distance hierarchy”, ScienceDirect [12] Gavin Finnie and Zhaohao Sun (2002), “Similarity and Metrics in Case-Based Reasoning” [13] Gilles Bisson, “Why and How to Define a Similarity Measure for Object Based Representation Systems” [14] Guadalupe J Torres, Ram B Basnet, Andrew H Sung, Srinivas Mukkamala, and Bernardete M Ribeiro (2009), “A Similarity Measure for Clustering and its applications” [15] Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publishers [16] Jinshi Xia (1993), Thesis, “Attribute oriented induction in Object-oriented Database”,Tsinghua University, China [17] Le Si Quang (2005), Thesis “Similarity Measures for Complex Data” [18] Paul Beynon-Davies (2004), “Database Systems”, third edition [19] Pavel Berkhin, “Survey of Clustering Data Mining Techniques” [20] Periklis Andritsos (2002), “Data clustering Techniques”, Department of Computer Science, University Toronto [21] Petko Valtchev, “Building classes in object-based languages by automatic clustering” [22] Petko Valtchev and Rokia Missaoui, “Exploration of Complex Objects structure for Knowledge Discovery” - 87 - Phân cụm đối tượng phức tạp lớp đối tượng [23] R A Ahmed B Borah D K Bhattacharyya (2005), “HIMIC : A Hierarchical Mixed Type Data Clustering Algorithm” [24] Ralph Bergmann and Armin Stahl (1998), “Similarity Measures for ObjectOriented Case Representations” [25] Shyam Boriah Varun Chandola Vipin Kumar, ” Similarity Measures for Categorical Data: A Comparative Evaluation” [26] Tae-Wan Ryu And Christoph F Eick, “Similarity measures for multi-valued attributes for database clustering” [27] Tom Matthé, RitaDeCaluwe, GuyDeTré, AxelHallez,Jorg Verstraete, Marc Leman, Olmo Cornelis, Dirk Moelants, and Jos Gansemans (2006), “Similarity Between Multi-valued Thesaurus Attributes: Theory and Application in Multimedia Systems” [28] Zengyou He, Xiaofe i Xu, Shengchun Deng (2002), “Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach”, Department of Computer Science and Engineering, Harbin Institute of Technology, China Các trang Web [1] M Matteucci (2008) A Tutorial on Clustering Algorithms Available: http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/ [2] P.Tan, M Steinbach, V Kumar, “Introduction to data Mining”, 2006 http://www.users.cs.umn.edu/~kumar/dmbook/index.php [3] T, Kardi (2008) Similarity Measurement Available: http://people.revoledu.com/kardi\/tutorial/Similarity/ [4] Trang web đầu ngành KTDL - Kdnuggets : www.kdnuggets.com [5] Kho liệu chuẩn UCI: http://archive.ics.uci.edu/ml/ - 88 - Phân cụm đối tượng phức tạp lớp đối tượng PHỤ LỤC Dữ liệu thử nghiệm lấy ngẫu nhiên từ kết học tập 16 môn 20 sinh viên khóa 48 khoa CNTT, Trường Đại học Nha Trang, niên khóa 2006-2010 Danh sách bảng phân công giảng dạy giảng viên khoa CNTT, Trường Đại học Nha Trang Cụ thể sau: Bảng liệu lớp đối tượng STUDENT STT StudenID 47133005 Fullname Gender Birthday Birthplace Nghiêm Văn Biên nam 16/07/1986 Bắc Ninh M-TT 47133006 Lê Tô Khánh Bình nam 12/11/1987 Phú Yên M-TT 47133010 Tăng Xuân Chung nam 02/01/1985 Phú Thọ M-TT 47133011 Phạm Thị Ngọc Anh nữ 20/02/1987 Khánh Hòa HTTT 47133015 Phạm Quốc Dũng nam 02/07/1986 Khánh Hòa HTTT 47133016 Phí Văn Dương nam 20/06/1987 Bắc Ninh CNPM 47133019 Nguyễn Thị Dung nữ 07/04/1987 Hải Dương CNPM 47133020 Nguyễn Hiệp nam 12/12/1987 Khánh Hòa CNPM 47133026 Phan Đại Hòa nam 08/01/1986 Bình Định HTTT 10 47133029 Ngô Phương Linh nữ 12/04/1987 Khánh Hòa HTTT 11 48133002 Trần Quốc Lương nam 03/10/1988 Nam Định M-TT 12 48133003 Lê Tín Nghĩa nam 16/04/1988 Quảng Ngãi M-TT 13 48133005 Nguyễn T Ngọc Diệp nữ 09/02/1989 Quảng Nam HTTT 14 48133006 Võ Quốc Khánh nam 20/02/1988 Khánh Hòa M-TT 15 48133007 Nguyễn Văn Chương nam 24/06/1988 Nghệ An CNPM 16 48133010 Nguyễn T Hương Lý nữ 16/05/1988 Thanh Hóa CNPM 17 48133012 Bùi Thị Hồng Minh nữ 12/02/1988 Hà Nội HTTT 18 48133015 Lê Bình nam 20/12/1988 Đồng Nai M-TT 19 48133021 Bùi Đức Dũng nam 27/05/1988 Nam Định M-TT 20 48133029 Đoàn Thị Bích Ngọc nữ 16/07/1988 Hà Tĩnh HTTT - 89 - Dept Phân cụm đối tượng phức tạp lớp đối tượng Bảng điểm STUDENT Subject/ Student 10 11 12 13 14 15 16 17 18 19 20 CSDL 5 4 5 7 KTMT 8 5 5 6 HĐH 5 5 6 6 6 CĐ 6 8 8 8 CĐ 6 9 6 6 8 9 6 10 5 9 8 8 9 4 5 8 8 8 7 7 4 9 5 9 5 9 8 8 5 6 6 5 8 7 8 5 7 5 5 6 5 8 6 5 7 7 6 8 9 8 9 6 8 8 7 8 6 C++ 5 9 6 7 9 CSDL 10 10 3 6 10 NNLT C# An toàn mạng HQT Oracle NNLT Java Quản trị mạng Mạng máy tính Thiết kế mạng Thực tập CN Thực tập CS NNLT - 90 - Phân cụm đối tượng phức tạp lớp đối tượng Bảng liệu lớp đối tượng TEACHER TeacherID Degree Work-number Ngô Văn Công Thạc sĩ Mạng & Truyền thông cuongnd Nguyễn Đình Cường Thạc sĩ Trung tâm máy tính hangltb Lê Thị Bích Hằng Thạc sĩ Công nghệ phần mềm khangtm Trần Mạnh Khang Kỹ sư Mạng & Truyền thông khoinh Nguyễn Hữu Khôi Cử nhân Hệ thống thông tin luongdd Đinh Đồng Lưỡng Thạc sĩ Mạng & Truyền thông nampv Phạm Văn Nam Thạc sĩ 11 Mạng & Truyền thông ngahtt Hà Thị Thanh Ngà Thạc sĩ Hệ thống thông tin Phạm Thị Kim Ngoan Kỹ sư Công nghệ phần mềm rangnv Nguyễn Văn Rạng Kỹ sư Công nghệ phần mềm thanhbc Bùi Chí Thành Kỹ sư Công nghệ phần mềm Mai Cường Thọ Kỹ sư Mạng & Truyền thông thuannd1 Nguyễn Đình Thuân Tiến sĩ 26 Trung tâm máy tính thuannd2 Nguyễn Đức Thuần Thạc sĩ 19 Hệ thống thông tin trongnh Nguyễn Hữu Trọng Tiến sĩ 31 Công nghệ phần mềm Trần Minh Văn Thạc sĩ Hệ thống thông tin congnv ngoanptk thomc vantm Fullname - 91 - Dept Phân cụm đối tượng phức tạp lớp đối tượng Bảng phân công giảng dạy No_ Number Starting Finishing date date Subject Unit Class Ngô Văn Công Mạng máy tính 47TMA 25 31/08/2009 25/10/2009 Nguyễn Đình Cường NNLT C++ 47THT 32 31/08/2009 25/10/2009 Lê Thị Bích Hằng Chuyên đề 48TPM 35 09/11/2009 03/01/2010 Trần Mạnh Khang An toàn mạng 48TMA 20 09/11/2009 03/01/2010 Trần Mạnh Khang Quản trị mạng 48TMA 20 03/05/2010 27/06/2010 Nguyễn Hữu Khôi CSDL 47THT 32 31/08/2009 25/10/2009 Nguyễn Hữu Khôi NNLT Java 47THT 32 22/02/2010 18/04/2010 Đinh Đồng Lưỡng KTMT 47TMA 25 09/11/2009 03/01/2010 Đinh Đồng Lưỡng Hệ điều hành 48TMA 20 22/02/2010 18/04/2010 Phạm Văn Nam Quản trị mạng 47TMA 25 03/05/2010 27/06/2010 Phạm Văn Nam Mạng máy tính 48TMA 20 31/08/2009 25/10/2009 Hà Thị Thanh Ngà HQT Oracle 47THT 32 03/05/2010 27/06/2010 Phạm Thị Kim Ngoan SQL Server 47TPM 34 22/02/2010 18/04/2010 Nguyễn Văn Rạng NNLT C# 47TPM 34 31/08/2009 25/10/2009 Bùi Chí Thành NNLT C# 48TPM 35 22/02/2010 18/04/2010 Mai Cường Thọ An toàn mạng 48THT 40 03/05/2010 27/06/2010 Mai Cường Thọ NNLT Java 48TMA 20 31/08/2009 25/10/2009 Nguyễn Đình Thuân Chuyên đề 48THT 40 09/11/2009 03/01/2010 Nguyễn Đình Thuân NNLT C++ 48TPM 35 22/02/2010 18/04/2010 Nguyễn Đức Thuần CSDL 48TPM 35 03/05/2010 27/06/2010 Nguyễn Đức Thuần CSDL 48THT 40 09/11/2009 03/01/2010 Nguyễn Hữu Trọng Chuyên đề 47TPM 34 03/05/2010 27/06/2010 Nguyễn Hữu Trọng CSDL 48TPM 35 22/02/2010 18/04/2010 Trần Minh Văn Hệ điều hành 48THT 40 22/02/2010 18/04/2010 Trần Minh Văn HQT Oracle 48THT 40 31/08/2009 25/10/2009 Teacher - 92 - ... tiễn Chương 3: Phân cụm đối tượng liệu lớp đối tượng mô hình sở liệu hướng đối tượng: Phần đầu trình bày tổng quan mô -9- Phân cụm đối tượng phức tạp lớp đối tượng hình CSDL hướng đối tượng Phần... bình đối tượng cụm - 26 - Phân cụm đối tượng phức tạp lớp đối tượng Input: Số cụm k sở liệu chứa n đối tượng Output: Một tập k cụm K-means algorithm: 1) Khởi tạo: Chọn tuỳ ý k đối tượng với tư cách... phân cụm dựa mật độ 32 -1- Phân cụm đối tượng phức tạp lớp đối tượng 2.2.4 Phương pháp phân cụm dựa lưới 33 2.2.5 So sánh phương pháp phân cụm 34 2.3 Một số thuật toán phân cụm

Ngày đăng: 27/07/2017, 20:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Kim Anh (2004), “Nguyên lý của các hệ CSDL”, NXB ĐHQG Hà Nội Sách, tạp chí
Tiêu đề: “Nguyên lý của các hệ CSDL”
Tác giả: Nguyễn Kim Anh
Nhà XB: NXB ĐHQG Hà Nội
Năm: 2004
[2] Nguyễn Ngọc Bình, Hồ Tú Bảo, Thân Văn Cường, “Độ đo tương tự hồn hợp cho dữ liệu với các thuộc tính kiểu số, ký hiệu và thứ tự” Sách, tạp chí
Tiêu đề: “Độ đo tương tự hồn hợp cho dữ liệu với các thuộc tính kiểu số, ký hiệu và thứ tự
[3] Trương Ngọc Châu (2010), Chuyên đề NCS, “Cơ sở dữ liệu hướng đối tượng”.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: “Cơ sở dữ liệu hướng đối tượng”
Tác giả: Trương Ngọc Châu
Năm: 2010
[1]. Ajith Abraham, L. C. Jain, Berend J. Von der Zwaag (2004), “Innovations in intelligent systems” Sách, tạp chí
Tiêu đề: “Innovations in intelligent systems
Tác giả: Ajith Abraham, L. C. Jain, Berend J. Von der Zwaag
Năm: 2004
[2]. Akila Sarirete and Jean Vaucher, “Similarity Measures for the Object Model” Sách, tạp chí
Tiêu đề: “Similarity Measures for the Object Model
[3]. Amir Ahmad and Lipika Dey (2007), “A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set”, ScienceDirect Sách, tạp chí
Tiêu đề: “A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set”
Tác giả: Amir Ahmad and Lipika Dey
Năm: 2007
[4] Armin Stahl (2007), “Retrieving Relevant Experiences” Sách, tạp chí
Tiêu đề: “Retrieving Relevant Experiences
Tác giả: Armin Stahl
Năm: 2007
[5] Ana Fred(April 2009), “From Single Clustering to Ensemble Methods”, Instituto superior Técnico, Universidade Técnico de Lisboa Sách, tạp chí
Tiêu đề: “From Single Clustering to Ensemble Methods”
[6] Ho Tu Bao, David Cheung and Huan Liu (2005), “Advances in Knowledge Discovery and Data Mining”, 9 th Pacific-Asia Conference, Hanoi, Vietnam Sách, tạp chí
Tiêu đề: “Advances in Knowledge Discovery and Data Mining”
Tác giả: Ho Tu Bao, David Cheung and Huan Liu
Năm: 2005
[7] B.Bahmani Firouzi, T. Niknam, and M. Nayeripour (2009), “A New Evolutionary Algorithm for Cluster Analysis” Sách, tạp chí
Tiêu đề: “A New Evolutionary Algorithm for Cluster Analysis
Tác giả: B.Bahmani Firouzi, T. Niknam, and M. Nayeripour
Năm: 2009
[8] Chuanjun Li B. Prabhakaran Si-Qing Zheng, ”Similarity measure for multi- attribute data” Sách, tạp chí
Tiêu đề: ”Similarity measure for multi-attribute data
[9]. Chung-Chian Hsu , Yu-Cheng Chen (2007), “Mining of mixed data with application to catalog marketing”, ScienceDirect Sách, tạp chí
Tiêu đề: “Mining of mixed data with application to catalog marketing”
Tác giả: Chung-Chian Hsu , Yu-Cheng Chen
Năm: 2007
[10]. Chung-Chian Hsu and Yan-Ping Huang (2008), “Incremental clustering of mixed data based on distance hierarchy”, ScienceDirect Sách, tạp chí
Tiêu đề: “Incremental clustering of mixed data based on distance hierarchy”
Tác giả: Chung-Chian Hsu and Yan-Ping Huang
Năm: 2008
[11]. Chung-Chian Hsu , Chin-Long Chen, Yu-Wei Su (2007), “Hierarchical clustering of mixed data based on distance hierarchy”, ScienceDirect Sách, tạp chí
Tiêu đề: “Hierarchical clustering of mixed data based on distance hierarchy”
Tác giả: Chung-Chian Hsu , Chin-Long Chen, Yu-Wei Su
Năm: 2007
[12] Gavin Finnie and Zhaohao Sun (2002), “Similarity and Metrics in Case-Based Reasoning” Sách, tạp chí
Tiêu đề: “Similarity and Metrics in Case-Based Reasoning
Tác giả: Gavin Finnie and Zhaohao Sun
Năm: 2002
[13]. Gilles Bisson, “Why and How to Define a Similarity Measure for Object Based Representation Systems” Sách, tạp chí
Tiêu đề: “Why and How to Define a Similarity Measure for Object Based Representation Systems
[14] Guadalupe J. Torres, Ram B. Basnet, Andrew H. Sung, Srinivas Mukkamala, and Bernardete M. Ribeiro (2009), “A Similarity Measure for Clustering and its applications” Sách, tạp chí
Tiêu đề: “A Similarity Measure for Clustering and its applications
Tác giả: Guadalupe J. Torres, Ram B. Basnet, Andrew H. Sung, Srinivas Mukkamala, and Bernardete M. Ribeiro
Năm: 2009
[1]. M. Matteucci. (2008). A Tutorial on Clustering Algorithms. Available: http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/ Link
[3] T, Kardi. (2008). Similarity Measurement. Available: http://people.revoledu.com/kardi\/tutorial/Similarity/ Link
[4] Trang web đầu ngành về KTDL - Kdnuggets : www.kdnuggets.com [5] Kho dữ liệu chuẩn UCI: http://archive.ics.uci.edu/ml/ Link

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w