Đang tải... (xem toàn văn)
Thông tin tài liệu
Ngày đăng: 28/07/2014, 03:20
Xem thêm: BAO CAO DO AN_ THU(^_^) docx
Từ khóa liên quan
Mục lục
BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Đồ án tốt nghiệp Ngành Công nghệ thông tin Đề tài:
NỘI DUNG 1. Phân cụm dữ liệu 1.1. Khái niệm chung 1.2. Các kiểu dữ liệu và độ đo tương tự 2. Lý thuyết tập mờ 3. Một số thuật toán phân cụm -Phân cụm mờ 3.1. Thuật toán k-means 3.2. Thuật toán k-tâm 3.3. Thuật toán FCM 4. Chương trình ứng dụng
Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi là số các giá trị của thuộc tính thứ tự ri. Chuyển chúng về miền giá trị [0,1] : Sau đó sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá trị Thuộc tính tỉ lệ : là thuộc tính khoảng, được xác định một cách tương đối so với một điểm mốc nào đó. wi là trọng số tương ứng của thuộc tính i, khoảng cách giữa x,y là:
2.2. Số mờ Tập mờ M trên tập số thực R là một số thực mờ nếu : a. M chuẩn hóa tức có điểm x’ sao cho µM (x’)=1 b. Ứng với mỗi α Є R1 tập mức { x: µM (x) ≥ α } là đoạn đóng trên R1 2.3. Quan hệ mờ Không gian nền : X,Y. R là một quan hệ mờ trên X x Y nếu R là một tập mờ trên X x Y tức là có một hàm thuộc: µR :X x Y [0,1] ở đây µR(x,y)= R(x,y) là độ thuộc (membership degree) của x, y vào quan hệ R
3. MỘT SỐ THUẬT TOÁN PHÂN CỤM - PHÂN CỤM MỜ 3.1. Thuật toán k-means Tính chất: * Chỉ áp dụng cho dữ liệu số. * Phân cụm với dữ liệu lớn. * Chỉ có thể phát hiện ra cụm có dạng lồi. Tối thiểu hàm tiêu chuẩn: D là khoảng cách giữa 2 đối tượng. mi là trọng tâm của các cụm ci
3.2. Thuật toán k-tâm x = (x1,..., xn) và y = (y1,..., yn) là hai đối tương dữ liệu hỗn hợp trên D, khoảng cách d(x, y) được tính bởi công thức:
Proceduce k-tâm Begin Chọn các trọng số , các hàm fj, xác định k. Chọn k phần tử ban đầu của D làm tâm các cụm Xếp mỗi x Є D vào cụm Cj mà nó gần tâm nhất; For j =1,...,k do ; Repeat Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính mode Until các cụm không đổi; Xác định các cụm End
Định lý Hàm tiêu chuẩn đạt giá trị tối thiểu khi và chỉ khi : (1) (2)
4. BÀI TOÁN ỨNG DỤNG Input: - Tập dữ liệu các hồ sơ bệnh án của một loại bệnh. - Các triệu chứng của bệnh án là tập các dữ liệu hỗn hợp. - C cụm, trọng số các triệu chứng Output: - Đưa ra k nhóm bệnh án để hỗ trợ việc điều trị. - Áp dụng thuật toán phân cụm mờ FCM, mở rộng cho dữ liệu hỗn hợp để đưa ra kết quả
Giao diện cập nhật:
KẾT LUẬN - Em đã tìm hiểu và trình bày những vấn đề cơ bản về phân cụm dữ liệu - Một số thuật toán phân cụm dữ liệu điển hình - Tìm hiểu về tập mờ và thuật toán PCDL mờ - Do thời gian và trình độ có hạn, đồ án không tránh khỏi hạn chế và thiếu sót. Mong nhận được sự chỉ bảo của thầy cô, và những ý kiến đóng góp của quý vị, những ai quan tâm đến lĩnh vực này. EM XIN CHÂN THÀNH CẢM ƠN !
Tài liệu cùng người dùng
Tài liệu liên quan