Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

64 671 1
Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- ISO 9001:2008 ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHÒNG 2013 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- PHÂN CỤM DỮ LIỆU BÀI TOÁN CÁC GIẢI THUẬT THEO TIẾP CẬN PHÂN CẤP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HẢI PHÒNG - 2013 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- PHÂN CỤM DỮ LIỆU BÀI TOÁN CÁC GIẢI THUẬT THEO TIẾP CẬN PHÂN CẤP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Giáo viên hướng dẫn: PGS.TS Nguyễn Thanh Tùng Sinh viên: Phạm Ngọc Sâm Mã sinh viên: 1351010049 HẢI PHÒNG - 2013 4 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc -------o0o------- NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viên: Phạm Ngọc Sâm Mã sinh viên: 1351010049 Lớp: CT1301 Ngành: Công nghệ thông tin Tên đề tài: Phân cụm dữ liệu: Bài toán các giải thuật theo tiếp cận phân cấp NHIỆM VỤ ĐỀ TÀI 1. Nội dung các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp. a. Nội dung: - Thế nào là khai phá dữ liệu, khám phá tri thức từ cơ sở dữ liệu. - Kỹ thuật phân cụm dữ liệu trong khai phá dữ liệu, phân loại các thuật toán phân cụm các lĩnh vực ứng dụng tiêu biểu. - Một số thuật toán phân cụm theo tiếp cận phân cấp: Thuật toán CURE, thuật toán BIRCH. - Xây dựng chương trình demo một trong số các thuật toán phân cụm phân cấp trình bày. b. Các yêu cầu cần giải quyết: - Về lý thuyết: Nắm được các nội dung 1-3 trong mục a. - Về thực hành: Xây dựng được chương trình demo một trong số các thuật toán phân cụm phân cấp trình bày. 2. Các số liệu cần thiết để thiết kế, tính toán 3. Địa điểm thực tập tốt nghiệp. CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Thanh Tùng Học hàm, học vị: Phó giáo sư, Tiến sĩ. Cơ quan công tác: Nguyên cán bộ nghiên cứu Viện Khoa học Công nghệ Việt Nam. Nội dung hướng dẫn: . . . . . . . . Đề tài tốt nghiệp được giao ngày 25 tháng 03 năm 2013 Yêu cầu hoàn thành xong trước ngày 25 tháng 06 năm 2013 Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Phạm Ngọc Sâm Đã nhận nhiệm vụ: Đ.T.T.N Người hướng dẫn Đ.T.T.N PGS.TS Nguyễn Thanh Tùng Hải phòng, ngày……tháng….năm 2013 HIỆU TRƯỞNG GS.TS.NGƢT Trần Hữu Nghị PHẦN NHẬN XÉT CỦA CÁN BỘ HƢỚNG DẪN 1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp: . . . . . . . 2. Đánh giá chất lượng của khóa luận (so với nội dung yêu cầu đã đề ra trong nhiệm vụ Đ.T. T.N trên các mặt lý luận, thực tiễn, tính toán số liệu…): . . . . . . . 3. Cho điểm của cán bộ hướng dẫn (ghi bằng cả số chữ): . . . . . . . Hải phòng, ngày …tháng …năm 2013 Cán bộ hướng dẫn (Ký ghi rõ họ tên) PHIẾU NHẬN XÉT TÓM TẮT CỦA NGƢỜI CHẤM PHẢN BIỆN 1. Đánh giá chất lượng đề tài tốt nghiệp về các mặt thu thập phân tích số liệu ban đầu, cơ sở lý luận chọn phương án tối ưu, cách tính toán chất lượng thuyết minh bản vẽ, giá trị lý luận thực tiễn của đề tài. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… 1. Cho điểm của cán bộ phản biện (ghi cả số chữ) ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Hải Phòng, ngày…tháng … năm 2013 Cán bộ phản biện 1 LỜI CẢM ƠN Với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Thanh Tùng đã định hướng giúp đỡ tôi tận tình trong suốt quá trình làm khóa luận. Tôi xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ thông tin đã truyền dạy những kiến thức thiết thực trong suốt quá trình học, đồng thời tôi xin cảm ơn nhà trường đã tạo điều kiện tốt nhất cho tôi hoàn thành khóa luận này. Trong phạm vi hạn chế của một khóa luận tốt nghiệp, những kết quả thu được còn là rất ít quá trình làm viêc khó tránh khỏi những thiếu sót, tôi rất mong nhận được sự góp ý của các thầy cô giáo các bạn. Hải phòng, ngày 25 tháng 06 nắm 2013 Sinh viên Phạm Ngọc Sâm 2 DANH MỤC HÌNH CÁC CHỮ VIẾT TẮT Hình 1.1: Các bước thực hiện quá trình khai phá dữ liệu Hình 2.1: Mô phỏng vấn đề phân cụm dữ liệu Hình 2.2  2.7: Quá trình phân cụm từ khi “bắt đầu” cho đến khi “kết thúc”. Hình 2.8: Bảng tham số, Hình 2.9: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa trên mật độ Hình 2.10 : Mô hình cấu trúc dữ liệu lưới Hình 2.11: Phân cụm phân cấp Top-down Bottom-up Hình 2.12: Xác định CF Hình 2.13: Ví dụ về cây CF Hình 2.14  2.19: Mô tả quá trình chèn một mục vào cây CF Hình 2.20: Cụm dữ liệu khai phá bởi thuật toán CURE Hình 2.21: Kết quả của quá trình phân cụm CSDL: Cơ sở dữ liệu. KDD: Khai phá tri thức trong cơ sở dữ liệu - Knowledge Discovery in Databases. PCDL: Phân cụm dữ liệu CF: Cluster Features BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) CURE (Clustering Using Representatives) . thuật toán phân cụm theo tiếp cận phân cấp: Thuật toán CURE, thuật toán BIRCH. - Xây dựng chương trình demo một trong số các thuật toán phân cụm phân cấp. khai phá dữ liệu, khám phá tri thức từ cơ sở dữ liệu. - Kỹ thuật phân cụm dữ liệu trong khai phá dữ liệu, phân loại các thuật toán phân cụm và các lĩnh

Ngày đăng: 17/12/2013, 20:34

Hình ảnh liên quan

Hình 1.1 dưới đây mô tả các công đoạn của KDD. - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 1.1.

dưới đây mô tả các công đoạn của KDD Xem tại trang 16 của tài liệu.
Chúng ta có thể minh hoạ vấn đề phân cụm như Hình 2.1 sau đây: - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

h.

úng ta có thể minh hoạ vấn đề phân cụm như Hình 2.1 sau đây: Xem tại trang 22 của tài liệu.
Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là " tương tự " thì được xếp vào  một cụm, trong khi đó  các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

rong.

hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là " tương tự " thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm Xem tại trang 23 của tài liệu.
Để minh hoạ cụ thể hơn cho vấn đề này ta có thể quan sát các hình ảnh sau: - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

minh.

hoạ cụ thể hơn cho vấn đề này ta có thể quan sát các hình ảnh sau: Xem tại trang 23 của tài liệu.
Hình 2.7: Kết quả của quá trình phân cụm - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.7.

Kết quả của quá trình phân cụm Xem tại trang 24 của tài liệu.
2.6 Các kiểu dữ liệu và phép đo độ tƣơng tự 2.6.1Cấu trúc dữ liệu  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

2.6.

Các kiểu dữ liệu và phép đo độ tƣơng tự 2.6.1Cấu trúc dữ liệu Xem tại trang 27 của tài liệu.
thí dụ như thông tin về hình học ,… Dữ liệu không gian có thể là dữ liệu liên tục hoặc rời rạc:  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

th.

í dụ như thông tin về hình học ,… Dữ liệu không gian có thể là dữ liệu liên tục hoặc rời rạc: Xem tại trang 30 của tài liệu.
Hình 2.8: Bảng tham số - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.8.

Bảng tham số Xem tại trang 31 của tài liệu.
Ví dụ: Bảng hồ sơ bệnh nhân: - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

d.

ụ: Bảng hồ sơ bệnh nhân: Xem tại trang 32 của tài liệu.
Hai thuật toán phân cụm phân cấp điển hình là thuật toán CURE, và thuật toán BIRCH.  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

ai.

thuật toán phân cụm phân cấp điển hình là thuật toán CURE, và thuật toán BIRCH. Xem tại trang 36 của tài liệu.
Hình 2.1 0: Mô hình cấu trúc dữ liệu lƣới - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.1.

0: Mô hình cấu trúc dữ liệu lƣới Xem tại trang 37 của tài liệu.
Hình 2.11: Phân cụm phân cấp Top-down và Bottom-up Các khoảng cách giữa các cụm  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.11.

Phân cụm phân cấp Top-down và Bottom-up Các khoảng cách giữa các cụm Xem tại trang 40 của tài liệu.
Hình 2.12: Xác định CF Lý thuyết cộng CF:  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.12.

Xác định CF Lý thuyết cộng CF: Xem tại trang 43 của tài liệu.
chuẩn như độ đo khoảng cách, có thể xác định cây CF. Hình dưới đây biểu thị một ví dụ về cây CF - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

chu.

ẩn như độ đo khoảng cách, có thể xác định cây CF. Hình dưới đây biểu thị một ví dụ về cây CF Xem tại trang 44 của tài liệu.
Hình 2.14: Cây CF ban đầu - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.14.

Cây CF ban đầu Xem tại trang 46 của tài liệu.
Hình 2.15: Xác định lá phù hợp - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.15.

Xác định lá phù hợp Xem tại trang 47 của tài liệu.
Hình 2.17: Thay đổi đƣờng đi tới lá - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.17.

Thay đổi đƣờng đi tới lá Xem tại trang 48 của tài liệu.
Hình 2.19: Hoàn thiện hợp nhất Các giai đoạn sau thực hiện của BIRCH:  - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.19.

Hoàn thiện hợp nhất Các giai đoạn sau thực hiện của BIRCH: Xem tại trang 49 của tài liệu.
hình dạng không phải hình cầu và kích thước độ rộng biến đổi. Hơn nữa, nó tỷ lệ tốt với CSDL lớn mà không làm giảm chất lượng phân cụm. - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

hình d.

ạng không phải hình cầu và kích thước độ rộng biến đổi. Hơn nữa, nó tỷ lệ tốt với CSDL lớn mà không làm giảm chất lượng phân cụm Xem tại trang 56 của tài liệu.
Hình 2.20: Cụm dữ liệu khai phá bởi thuật toán CURE - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.20.

Cụm dữ liệu khai phá bởi thuật toán CURE Xem tại trang 57 của tài liệu.
Hình 2.21: Kết quả của quá trình phân cụm - Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Hình 2.21.

Kết quả của quá trình phân cụm Xem tại trang 62 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan