BAO CAO DO AN_ THU(^_^) docx

23 162 0
BAO CAO DO AN_ THU(^_^) docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHỊNG Đồ án tốt nghiệp Ngành Cơng nghệ thơng tin Đề tài: Giáo viên hướng dẫn: Th.S Nguyễn Thị Xuân Hương Sinh viên thực hiện: Phạm Thị Thu Mã số SV: 10364 Lớp: CT 702 Hải Phòng, 8/2007 NỘI DUNG Phân cụm liệu 1.1 Khái niệm chung 1.2 Các kiểu liệu độ đo tương tự Lý thuyết tập mờ Một số thuật toán phân cụm -Phân cụm mờ 3.1 Thuật toán k-means 3.2 Thuật tốn k-tâm 3.3 Thuật tốn FCM Chương trình ứng dụng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm chung Phân cụm liệu (PCDL) kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định Ứng dụng: Phân cụm liệu ứng dụng vào nhiều lĩnh vực: kinh doanh, ngân hàng, hợp đồng bảo hiểm, y học, địa lý 1.2 Các kiểu liệu độ đo tương tự Thuộc tính khoảng : Là thuộc tính xác định thuộc tính trước cách thuộc tính sau khoảng 1/ q n q d ( x, y ) = ( ∑ | x i − y | ) i i =1 Thuộc tính định danh : Có miền giá trị rời rạc không phân biệt thứ tự Với m số thuộc tính đối sánh tương ứng trùng nhau, p tổng số thuộc tính p−m d ( x, y ) = p Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi số giá trị thuộc tính thứ tự ri Chuyển chúng ( j) miền giá trị [0,1] : ( j ) −1 z i = r M i i −1 Sau sử dụng cơng thức tính) độ phi tương tự thuộc tính (j z khoảng giá trị i Thuộc tính tỉ lệ : thuộc tính khoảng, xác định cách tương đối so với điểm mốc wi trọng số tương ứng thuộc tính i, khoảng ncách x,y là: d ( x, y ) = ∑ w ( x i − y i) i =1 i LÝ THUYẾT TẬP MỜ 2.1 Tập mờ Định nghĩa A tập mờ không gian X A xác định hàm: µA : X → [ 0, ] µAlà hàm thuộc µA(x) độ thuộc x vào tập mờ A Ký hiệu A = { ( µA(x), x ): x Є X } 2.2 Số mờ Tập mờ M tập số thực R số thực mờ : a M chuẩn hóa tức có điểm x’ cho µM (x’)=1 b Ứng với α Є R1 tập mức { x: µM (x) ≥ α } đoạn đóng R1 2.3 Quan hệ mờ Không gian : X,Y R quan hệ mờ X x Y R tập mờ X x Y tức có hàm thuộc: µR :X x Y [0,1] µR(x,y)= R(x,y) độ thuộc (membership degree) x, y vào quan hệ R MỘT SỐ THUẬT TỐN PHÂN CỤM - PHÂN CỤM MỜ 3.1 Thuật tốn k-means Tính chất: * Chỉ áp dụng cho liệu số * Phân cụm với liệu lớn * Chỉ phát cụm có dạng lồi k Tối thiểu hàm tiêu chuẩn: E = ∑ ∑ x∈ D ( x − mi ) Ci i =1 D khoảng cách đối tượng mi trọng tâm cụm ci Các bước thực hiện: InPut : Số cụm k, trọng tâm cụm {mj} kj=1 ; OutPut : Các cụm Ci ( i = 1, k) B1: Khởi tạo : Chọn k trọng tâm {mj} kj=1 ban đầu không gian Rd B2 : Tính tốn khoảng cách : Với Xi (1 ≤ i ≤ n), tính tốn khoảng cách tới trọng tâm mj (j =1, k) Sau tìm trọng tâm gần điểm B3 : Cập nhật lại trọng tâm : Với j=1, k , cập nhật trọng tâm cụm mj cách xác định trung bình cộng vectơ đối tượng liệu B4 : Điều kiện dừng Lặp B2 B3 trọng tâm cụm không thay đổi 3.2 Thuật toán k-tâm x = (x1, , xn) y = (y1, , yn) hai đối tương liệu hỗn hợp D, khoảng cách d(x, y) tính cơng thức: d ( x, y ) = n ∑ρ j =1 j d (x j , y j ) j  Nếu Aj thuộc tính số dj(x,y)= x − y  ii) Nếu Aj thuộc tính thứ tự DOM(Aj) = với j , , a k j } a < a < < a k j j j Khi đó: dj(x,y)= │fj(x)- fj(y) │  {a (1) (2) với f (xi)= (i -1)/(k -1) 0 : x = y iii) Nếu Aj liệu định danh dj(x,y) =  : x ≠ y  (3) Proceduce k-tâm Begin Chọn trọng số , hàm fj, xác định k Chọn k phần tử ban đầu D làm tâm cụm Xếp x Є D vào cụm Cj mà gần tâm nhất; For j =1, ,k ; Repeat Phân bố lại cụm theo tâm mới// k-mean; Cập nhật lại tâm cho cụm // nhờ tính mode Until cụm không đổi; Xác định cụm End 3.2.Thuật toán FCM(Fuzzy c-means) FCM chia phân tập liệu ban đầu thành c cụm mờ, đối tượng liệu thuộc cụm xác định hệ số độ phụ thuộc U ikЄ [0, 1] Hệ số U ik để quan hệ đối tượng với cụm liệu, hay gọi mức độ phụ thuộc đối tượng liệu thứ i vào trung tâm cụm thứ k Tổng tất phân hoạch mờ có c cụm liệu N đối tượng không gian D chiều :   = U ∈ RcN | E fc ∀  1≤i ≤c ∧1≤ k ≤ N  Tối thiểu hóa hàm tiêu chuẩn : J m c   ∈ [0,1], ∑ u ik = 1, < ∑ u ik < N  uik i =1 k =1   c N (U , V ) = ∑∑ (u ik ) i =1 k =1 N m d ik d = | x k −vi| ik A V= [v1, v2, …, vc] ma trận mẫu biểu diễn giá trị đối tượng tâm cụm A ma trận hữu hạn dương m trọng số mũ [1,∞) Định lý Hàm tiêu chuẩn đạt giá trị tối thiểu : ∀I 1≤ k ≤ N k ∀ 1≤ i ≤ c ∧1≤ k ≤ N = {i | ≤ i ≤ c; d ik = 0} u ik −1    c  1− m (d ik )  ∑ (d ik ) 1− m    j =1   =  0, i ∉   ∑ u ik = 1, i ∈ I k i∈I k  N ∀ 1≤ i ≤ c v i = ∑ (u ik ) x k =1 N m ∑ (u ik ) k =1 m k (2) (1) Input : Số cụm c tham số mũ m cho hàm tiêu chuẩn J OutPut : c cụm liệu cho hàm tiêu chuẩn đạt giá trị tối thiểu Nhập giá trị cho hai tham số c (1

Ngày đăng: 28/07/2014, 03:20

Mục lục

  • BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Đồ án tốt nghiệp Ngành Công nghệ thông tin Đề tài:

  • NỘI DUNG 1. Phân cụm dữ liệu 1.1. Khái niệm chung 1.2. Các kiểu dữ liệu và độ đo tương tự 2. Lý thuyết tập mờ 3. Một số thuật toán phân cụm -Phân cụm mờ 3.1. Thuật toán k-means 3.2. Thuật toán k-tâm 3.3. Thuật toán FCM 4. Chương trình ứng dụng

  • Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi là số các giá trị của thuộc tính thứ tự ri. Chuyển chúng về miền giá trị [0,1] : Sau đó sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá trị Thuộc tính tỉ lệ : là thuộc tính khoảng, được xác định một cách tương đối so với một điểm mốc nào đó. wi là trọng số tương ứng của thuộc tính i, khoảng cách giữa x,y là:

  • 2.2. Số mờ Tập mờ M trên tập số thực R là một số thực mờ nếu : a. M chuẩn hóa tức có điểm x’ sao cho µM (x’)=1 b. Ứng với mỗi α Є R1 tập mức { x: µM (x) ≥ α } là đoạn đóng trên R1 2.3. Quan hệ mờ Không gian nền : X,Y. R là một quan hệ mờ trên X x Y nếu R là một tập mờ trên X x Y tức là có một hàm thuộc: µR :X x Y [0,1] ở đây µR(x,y)= R(x,y) là độ thuộc (membership degree) của x, y vào quan hệ R

  • 3. MỘT SỐ THUẬT TOÁN PHÂN CỤM - PHÂN CỤM MỜ 3.1. Thuật toán k-means Tính chất: * Chỉ áp dụng cho dữ liệu số. * Phân cụm với dữ liệu lớn. * Chỉ có thể phát hiện ra cụm có dạng lồi. Tối thiểu hàm tiêu chuẩn: D là khoảng cách giữa 2 đối tượng. mi là trọng tâm của các cụm ci

  • 3.2. Thuật toán k-tâm x = (x1,..., xn) và y = (y1,..., yn) là hai đối tương dữ liệu hỗn hợp trên D, khoảng cách d(x, y) được tính bởi công thức:

  • Proceduce k-tâm Begin Chọn các trọng số , các hàm fj, xác định k. Chọn k phần tử ban đầu của D làm tâm các cụm Xếp mỗi x Є D vào cụm Cj mà nó gần tâm nhất; For j =1,...,k do ; Repeat Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính mode Until các cụm không đổi; Xác định các cụm End

  • Định lý Hàm tiêu chuẩn đạt giá trị tối thiểu khi và chỉ khi : (1) (2)

  • 4. BÀI TOÁN ỨNG DỤNG Input: - Tập dữ liệu các hồ sơ bệnh án của một loại bệnh. - Các triệu chứng của bệnh án là tập các dữ liệu hỗn hợp. - C cụm, trọng số các triệu chứng Output: - Đưa ra k nhóm bệnh án để hỗ trợ việc điều trị. - Áp dụng thuật toán phân cụm mờ FCM, mở rộng cho dữ liệu hỗn hợp để đưa ra kết quả

  • Giao diện cập nhật:

  • KẾT LUẬN - Em đã tìm hiểu và trình bày những vấn đề cơ bản về phân cụm dữ liệu - Một số thuật toán phân cụm dữ liệu điển hình - Tìm hiểu về tập mờ và thuật toán PCDL mờ - Do thời gian và trình độ có hạn, đồ án không tránh khỏi hạn chế và thiếu sót. Mong nhận được sự chỉ bảo của thầy cô, và những ý kiến đóng góp của quý vị, những ai quan tâm đến lĩnh vực này. EM XIN CHÂN THÀNH CẢM ƠN !

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan