Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
707,5 KB
Nội dung
BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHỊNG Đồ án tốt nghiệp Ngành Cơng nghệ thơng tin Đề tài: Giáo viên hướng dẫn: Th.S Nguyễn Thị Xuân Hương Sinh viên thực hiện: Phạm Thị Thu Mã số SV: 10364 Lớp: CT 702 Hải Phòng, 8/2007 NỘI DUNG Phân cụm liệu 1.1 Khái niệm chung 1.2 Các kiểu liệu độ đo tương tự Lý thuyết tập mờ Một số thuật toán phân cụm -Phân cụm mờ 3.1 Thuật toán k-means 3.2 Thuật tốn k-tâm 3.3 Thuật tốn FCM Chương trình ứng dụng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm chung Phân cụm liệu (PCDL) kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định Ứng dụng: Phân cụm liệu ứng dụng vào nhiều lĩnh vực: kinh doanh, ngân hàng, hợp đồng bảo hiểm, y học, địa lý 1.2 Các kiểu liệu độ đo tương tự Thuộc tính khoảng : Là thuộc tính xác định thuộc tính trước cách thuộc tính sau khoảng 1/ q n q d ( x, y ) = ( ∑ | x i − y | ) i i =1 Thuộc tính định danh : Có miền giá trị rời rạc không phân biệt thứ tự Với m số thuộc tính đối sánh tương ứng trùng nhau, p tổng số thuộc tính p−m d ( x, y ) = p Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi số giá trị thuộc tính thứ tự ri Chuyển chúng ( j) miền giá trị [0,1] : ( j ) −1 z i = r M i i −1 Sau sử dụng cơng thức tính) độ phi tương tự thuộc tính (j z khoảng giá trị i Thuộc tính tỉ lệ : thuộc tính khoảng, xác định cách tương đối so với điểm mốc wi trọng số tương ứng thuộc tính i, khoảng ncách x,y là: d ( x, y ) = ∑ w ( x i − y i) i =1 i LÝ THUYẾT TẬP MỜ 2.1 Tập mờ Định nghĩa A tập mờ không gian X A xác định hàm: µA : X → [ 0, ] µAlà hàm thuộc µA(x) độ thuộc x vào tập mờ A Ký hiệu A = { ( µA(x), x ): x Є X } 2.2 Số mờ Tập mờ M tập số thực R số thực mờ : a M chuẩn hóa tức có điểm x’ cho µM (x’)=1 b Ứng với α Є R1 tập mức { x: µM (x) ≥ α } đoạn đóng R1 2.3 Quan hệ mờ Không gian : X,Y R quan hệ mờ X x Y R tập mờ X x Y tức có hàm thuộc: µR :X x Y [0,1] µR(x,y)= R(x,y) độ thuộc (membership degree) x, y vào quan hệ R MỘT SỐ THUẬT TỐN PHÂN CỤM - PHÂN CỤM MỜ 3.1 Thuật tốn k-means Tính chất: * Chỉ áp dụng cho liệu số * Phân cụm với liệu lớn * Chỉ phát cụm có dạng lồi k Tối thiểu hàm tiêu chuẩn: E = ∑ ∑ x∈ D ( x − mi ) Ci i =1 D khoảng cách đối tượng mi trọng tâm cụm ci Các bước thực hiện: InPut : Số cụm k, trọng tâm cụm {mj} kj=1 ; OutPut : Các cụm Ci ( i = 1, k) B1: Khởi tạo : Chọn k trọng tâm {mj} kj=1 ban đầu không gian Rd B2 : Tính tốn khoảng cách : Với Xi (1 ≤ i ≤ n), tính tốn khoảng cách tới trọng tâm mj (j =1, k) Sau tìm trọng tâm gần điểm B3 : Cập nhật lại trọng tâm : Với j=1, k , cập nhật trọng tâm cụm mj cách xác định trung bình cộng vectơ đối tượng liệu B4 : Điều kiện dừng Lặp B2 B3 trọng tâm cụm không thay đổi 3.2 Thuật toán k-tâm x = (x1, , xn) y = (y1, , yn) hai đối tương liệu hỗn hợp D, khoảng cách d(x, y) tính cơng thức: d ( x, y ) = n ∑ρ j =1 j d (x j , y j ) j Nếu Aj thuộc tính số dj(x,y)= x − y ii) Nếu Aj thuộc tính thứ tự DOM(Aj) = với j , , a k j } a < a < < a k j j j Khi đó: dj(x,y)= │fj(x)- fj(y) │ {a (1) (2) với f (xi)= (i -1)/(k -1) 0 : x = y iii) Nếu Aj liệu định danh dj(x,y) = : x ≠ y (3) Proceduce k-tâm Begin Chọn trọng số , hàm fj, xác định k Chọn k phần tử ban đầu D làm tâm cụm Xếp x Є D vào cụm Cj mà gần tâm nhất; For j =1, ,k ; Repeat Phân bố lại cụm theo tâm mới// k-mean; Cập nhật lại tâm cho cụm // nhờ tính mode Until cụm không đổi; Xác định cụm End 3.2.Thuật toán FCM(Fuzzy c-means) FCM chia phân tập liệu ban đầu thành c cụm mờ, đối tượng liệu thuộc cụm xác định hệ số độ phụ thuộc U ikЄ [0, 1] Hệ số U ik để quan hệ đối tượng với cụm liệu, hay gọi mức độ phụ thuộc đối tượng liệu thứ i vào trung tâm cụm thứ k Tổng tất phân hoạch mờ có c cụm liệu N đối tượng không gian D chiều : = U ∈ RcN | E fc ∀ 1≤i ≤c ∧1≤ k ≤ N Tối thiểu hóa hàm tiêu chuẩn : J m c ∈ [0,1], ∑ u ik = 1, < ∑ u ik < N uik i =1 k =1 c N (U , V ) = ∑∑ (u ik ) i =1 k =1 N m d ik d = | x k −vi| ik A V= [v1, v2, …, vc] ma trận mẫu biểu diễn giá trị đối tượng tâm cụm A ma trận hữu hạn dương m trọng số mũ [1,∞) Định lý Hàm tiêu chuẩn đạt giá trị tối thiểu : ∀I 1≤ k ≤ N k ∀ 1≤ i ≤ c ∧1≤ k ≤ N = {i | ≤ i ≤ c; d ik = 0} u ik −1 c 1− m (d ik ) ∑ (d ik ) 1− m j =1 = 0, i ∉ ∑ u ik = 1, i ∈ I k i∈I k N ∀ 1≤ i ≤ c v i = ∑ (u ik ) x k =1 N m ∑ (u ik ) k =1 m k (2) (1) Input : Số cụm c tham số mũ m cho hàm tiêu chuẩn J OutPut : c cụm liệu cho hàm tiêu chuẩn đạt giá trị tối thiểu Nhập giá trị cho hai tham số c (1