Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
756,92 KB
Nội dung
Thuậttoánphâncụmdữliệumờ Trang 1 CHƯƠNG 1. TỔNG QUAN VỀ PHÂNCỤMDỮLIỆU 1.1. Khái niệm chung Khai phá dữliệu (Datamining) là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong tập dữliệu lớn được lưu trữ trong các cơ sở dữ liệu, kho dữliệu . Người ta định nghĩa: "Phân cụmdữliệu là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữliệu tự nhiên tiềm ẩn, quan tâm trong tập dữliệu lớn, từ đó cung cấp thông tin, tri thức hữ u ích cho việc ra quyết định" Như vậy , PCDL là quá trình phân chia một tập dữliệu ban đầu thành các cụmdữliệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau. Số các cụmdữliệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định. 1.2. Các kiểu dữliệu và độ đo tương tự a. Phân loại các kiểu dữliệu Cho một CSDL D chứa n đối tượng trong không gian k chiều trong đó x,y,z là các đối tượng thuộc D : x = (x 1 ,x 2 , ,x k ); y = (y 1 ,y 2 , ,y k ); z = (z 1 ,z 2 , ,z k ), trong đó x i , y i , z i với ki ,1= là các đặc trưng hoặc thuộc tính tương ứng của các đối tượng x,y,z. Sau đây là các kiểu dữ liệu: Phân loại các kiểu dữliệu dựa trên kích thước miền Thuộc tính liên tục (Continuous Attribute) : nếu miền giá trị của nó là vô hạn không đếm được Thuộc tính rời rạc (DiscretteAttribute) : Nếu miền giá trị của nó là tập hữu hạn, đếm được Lớp các thuộc tính nhị phân: là trường hợp đặc biệt của thuộc tính rời rạc mà miền giá trị của nó chỉ có 2 phần tử được diễn tả như : Yes / No hoặc Nam/Nữ, False/true,… Thuậttoánphâncụmdữliệumờ Trang 2 Phân loại các kiểu dữliệu dựa trên hệ đo Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính x i , y i tương ứng với thuộc tính thứ i của chúng. Chúng ta có các lớp kiểu dữliệu như sau : Thuộc tính định danh (nominal Scale): đây là dạng thuộc tính khái quát hoá của thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là x ≠ y hoặc x = y. Thuộc tính có thứ tự (Ordinal Scale) : là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng. Nếu x và y là hai thuộc tính thứ tự thì ta có thể xác định là x ≠ y hoặc x = y hoặc x > y hoặc x <y. Thuộc tính khoảng (Interval Scale) : Với thuộc tính khoảng, chúng ta có thể xác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một khoảng là bao nhiêu. Nếu x i > y i thì ta nói x cách y một khoảng x i – y i tương ứng với thuộc tính thứ i. Thuộc tính tỉ lệ (Ratio Scale) : là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc. Trong các thuộc tính dữliệu trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung là thuộc tính hạng mục (Categorical), thuộc tính khoảng và thuộc tính tỉ lệ được gọi là thuộ c tính số (Numeric). b. Độ đo tương tự và phi tương tự Để phân cụm, người ta phải đi tìm cách thích hợp để xác định "khoảng cách" giữa các đối tượng, hay là phép đo tương tự dữ liệu. Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar) giữa các đố i tượng dữliệu Tất cả các độ đo dưới đây được xác định trong không đo gian metric. Một không gian metric là một tập trong đó có xác định các "khoảng cách" giữa từng cặp phần tử, với những tính chất thông thường của khoảng cách hình học. Nghĩa là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối Thuậttoánphâncụmdữliệumờ Trang 3 tượng dữliệu trong CSDL D như đã đề cập ở trên được gọi là một không gian metric nếu: 9 Với mỗi cặp phần tử x,y thuộc X đều có xác định, theo một quy tắc nào đó, một số thực δ(x,y), được gọi là khoảng cách giữa x và y. 9 Quy tắc nói trên thoả mãn hệ tính chất sau : (i) δ(x,y) > 0 n ếu x ≠ y ; (ii) δ(x, y)=0 nếu x =y; (iii) δ(x,y) = δ(y,x) với mọi x,y; (iv) δ(x,y) ≤ δ(x,z)+δ(z,y). Hàm δ(x,y) được gọi là một metric của không gian. Các phần tử của X được gọi là các điểm của không gian này. Thuộc tính khoảng : Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng dữliệu x, y được xác định bằng các metric khoảng cách như sau : 9 Khoảng cách Minskowski : )||( 1 ),( /1 ∑ = = − n i q i i yxd y x q , trong đó q là số tự nhiên dương. 9 Khoảng cách Euclide : ∑ − = = n i y x i i yxd 1 2 )( ),( , đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q=2. 9 Khoảng cách Manhattan : ∑ = −= n i i i y x yxd 1 ||),( , đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q=1. 9 Khoảng cách cực đại : ||),( 1 y xMax i i n i yxd −= = , đây là trường hợp của khoảng cách Minskowski trong trường hợp q-> ∞. Thuộc tính nhị phân : • α là tổng số các thuộc tính có giá trị là 1 trong x,y. • β là tổng số các thuộc tính có giá trị là 1 trong x và 0 trong y. • γ là tổng số các thuộc tính có giá trị là 0 trong x và 1 trong y. • δ là tổng số các thuộc tính có giá trị là 0 trong x và y. • τ= α+γ+β+δ Thuậttoánphâncụmdữliệumờ Trang 4 Các phép đo độ tương tương đồng đối với dữliệu thuộc tính nhị phân được định nghĩa như sau : Hệ số đối sánh đơn giản : τ δα + =),( yxd , ở đây cả hai đối tượng x và y có vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số. Hệ số Jacard : γβα α ++ =),( yxd , (bỏ qua số các đối sánh giữa 0-0). Công thức tính này được sử dụng trong trường hợp mà trọng số của các thuộc tính có giá trị 1 của đối tượng dữliệu có cao hơn nhiều so với các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng. Thuộc tính định danh : Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau: p mp yxd − =),( , trong đó m là số thuộc tính đối sánh tương ứng trùng nhau, và p là tổng số các thuộc tính. Thuộc tính có thứ tự : Giả sử i là thuộc tính thứ tự có M i giá trị (M i kích thước miền giá trị) : Các trạng thái M i được sắp thứ tự như sau : [1…M i ], chúng ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại r i , với r i ∈{1…M i }. Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy chúng ta chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thực hiện phép biến đổi sau cho mỗi thuộc tính : 1 1 )( )( − − = M r z i j i j i Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá trị z j i )( , đây cũng chính là độ phi tương tự của thuộc tính có thứ tự. Thuộc tính tỉ lệ : Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ. Một trong những số đó là sử dụng công thức tính logarit cho mỗi thuộc tính. Hoặc loại bỏ đơn vị đo của các thuộc tính dữliệu bằng cách chuẩn hoá chúng, hoặc gán trọng số cho mỗi thuộc tính giá tr ị trung bình, độ lệch chuẩn.Với mỗi thuộc Thuậttoánphâncụmdữliệumờ Trang 5 tính dữliệu đã được gán trọng số tương ứng )1( kiw i ≤≤ , độ tương đồng dữliệu được xác định như sau : ∑ − = = n i i y x w i i yxd 1 2 )( ),( . 1.3. Một số ứng dụng của phâncụmdữliệuPhâncụmdữliệu có rất nhiều ứng dụng trong nhiều lĩnh vực khác nhau. Ví dụ: 9 Thương mại : Giúp các thương nhân khám phá ra các nhóm khách hàng quan trọng để đưa ra các mục tiêu tiếp thị. 9 Sinh học : Xác định các loại sinh vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu. 9 Lập quy hoạch đô thị : Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,…nhằ m cung cấp thông tin cho quy hoạch đô thị. 9 Nghiên cứu trái đất : Theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm . 1.4. Một số kỹ thuật tiếp cận trong phâncụmdữliệu 9 Phâncụmphân hoạch: Phương pháp phâncụmphân hoạch nhằm phân một tập dữliệu có n phần tử cho trước thành k nhóm dữliệu sao cho: mỗi phần tử dữliệu chỉ thuộc về một nhóm dữliệu và mỗi nhóm dữliệu có tối thiểu ít nhất một phần tử dữ liệu. Một số thuậttoánphâncụmphân hoạch điển hình: k-means, PAM, CLARA, CLARANS,… 9 Phâncụm d ữ liệuphân cấp: Phâncụmphân cấp sắp xếp một tập dữliệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy. 9 Phâncụmdữliệu dựa trên lưới: Kỹ thuậtphâncụm dựa trên mật độ không thích hợp với dữliệu nhiều chiều, để giải quyết cho đòi hỏi này, người ta đ ã dử dụng phương pháp phâncụm dựa trên lưới. Đây là phương pháp dựa trên cấu trúc dữliệu lưới để PCDL, phương pháp này chủ yếu tập trung áp dụng cho lớp dữliệu không gian. Thí dụThuậttoánphâncụmdữliệumờ Trang 6 như dữliệu được biểu diễn dưới dạng cấu trúc hình học của đối tượng trong không gian cùng với các quan hệ, các thuộc tính, các hoạt động của chúng. Một số thuậttoán PCDL dựa trên cấu trúc lưới điển hình là: STING, WAVECluster, CLIQUE,… 9 Phâncụmdữliệu dựa trên mật độ: Phương pháp này nhóm các đối tượng theo hàm mật độ xác định. Mật độ được định nghĩa như là số các đối tượng lân cận của một đối tượng dữliệu theo một ngưỡng nào đó. Trong cách tiếp cận này, khi một cụmdữliệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữliệu mới miễn là số các đối tượng lân cận của các đối tượng này phải lớn hơn một ngưỡng đã được xác định trước. Phương pháp phâncụm d ựa vào mật độ của các đối tượng để xác định các cụmdữliệu có thể phát hiện ra các cụmdữliệu với hình thù bất kỳ. Tuy vậy, việc xác định các tham số mật độ của thuậttoán rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phâncụmdữ liệu. Thuậttoánphâncụmdữliệumờ Trang 7 CHƯƠNG 2. LÝ THUYẾT TẬP MỜ 2.1. Tập mờ . Định nghĩa: Tập mờ là một tập hợp mà mỗi phần tử cơ bản của nó được gán thêm một giá trị thực µ(x) Є [0,1] để chỉ độ phụ thuộc của nó vào tập đã cho. Độ phụ thuộc càng lớn thì phần tử thuộc về tập càng lớn. Khi độ phụ thuộc bằng 0 thì phần tử đó sẽ không hoàn toàn thuộc về tập đã cho. Ngược lại vớ i độ phụ thuộc bằng 1 phần tử cơ bản sẽ thuộc tập hợp với xác suất 100%. A là tập mờ trên không gian nền X nếu A được xác định bởi hàm: µ A : X → [0,1] µ A là hàm thuộc và µ A (x) là độ thuộc của x vào tập mờ A Ví dụ: T là tập những người có tuổi dưới 20. Mỗi người chỉ có hai khả năng: hoặc là thuộc T hoặc không. Tuy nhiên khi xét A là tập những người trẻ. Trong trường hợp này không có ranh giới rõ ràng để khẳng định một người có thuộc A hay không. Ranh giới của nó là mờ. Ta chỉ có thể nói một người sẽ thuộc tập A theo một mức độ nào đó. Chẳng h ạn ta có thể cho rằng một người 35 tuổi thuộc về tập A với độ thuộc là 60 % hay 0.6. Còn một người 50 tuổi thuộc về A với độ thuộc là 30% hay 0.3. Như vậy A là tập mờ và µ trẻ : X → [0,1] là hàm thuộc của A. Có thể ký hiệu A = {( µ A(x) , x ): x Є X} Việc µ A(x) có giá trị bất kỳ trong khoảng [0,1] là điều khác biệt cơ bản giữa tập rõ và tập mờ. Ở tập rõ hàm thuộc chỉ có hai giá trị : +µ A(x) = 1 nếu x Є A +µ A(x) ≠ 0 nếu x ∉ A 2.2. Số mờ Tập mờ M trên tập số thực R 1 là một số thực mờ nếu : 1) M chuẩn hóa tức có điểm x’ sao cho µ M (x’) = 1 2) Ứng với mỗi α Є R 1 tập mức {x: µ M (x) ≥ α} là đoạn đóng trên R 1 . Thuậttoánphâncụmdữliệumờ Trang 8 Có 3 dạng số mờ cơ bản: 9 Số mờ hình Singleton: Hình 2.1a. Số mờ Singleton 9 Số mờ hình tam giác: M(a, b, c) 0 nếu x ≤ a µ M (x) = x –a / x - b nếu a ≤ x ≤ b c – x / c –b nếu b ≤ x ≤ c 0 nếu c ≤ x Hình 2.1b. Số mờ tam giác 9 Số mờ hình thang: M(a, b, c, d) 0 nếu x ≤ a µ M (x) = x –a / x - b nếu a ≤ x ≤ b 1 nếu b ≤ x ≤ c 0 nếu d ≤ x Hình 2.1c. Số mờ hình thang 0 a b c x µ M (x) µ M (x) 1 x 0 0 a b c d x µ M (x) 1 Thuậttoánphâncụmdữliệumờ Trang 9 2.3. Quan hệ mờ • Khái niệm quan hệ mờ Định nghĩa 1: Cho hai không gian nền X,Y. R là một quan hệ mờ trên X x Y nếu R là một tập mờ trên X x Y tức là có một hàm thuộc: µ R : X x Y → [0,1] ở đây µ R ( x,y ) = R(x,y) là độ thuộc (membership degree) của x, y vào quan hệ Định nghĩa 2: Quan hệ mờ trên những tập mờ: Cho tập mờ A với µ A (x) trên X. Tập mờ B với µ B (x) trên Y. Quan hệ mờ trên các tập mờ A và B là quan hệ mờ R trên X x Y thỏa mãn điều kiện: µ R (x,y) ≤ µ A (x), ∀ y Є Y µ R (x,y) ≤ µ B (x), ∀ x Є X Các phép toán: (R 1 ∩ R 2 ) (x, y) = max {R 1 (x, y), R 2 (x, y)} (R 1 U R 2 ) (x, y) = min {R 1 (x, y), R 2 (x, y)} R -1 (x, y) = R (y, x) R c (x, y) = 1 − R (x, y) • Phép hợp thành (composition ) Cho R 1 là quan hệ mờ trên X x Y và R 2 là quan hệ mờ trên Y x Z. Hợp thành R 1 o R 2 của R 1 , R 2 là quan hệ mờ trên X x Z a) Hợp thành max-min được xác định bởi: µR 1 o R 2 (x, z) = max y {min (µ R1 (x, y), µ R2 (y, z)}, ∀(x, z) Є X x Z b) Hợp thành max-prod cho bởi : µR 1 o R 2 (x, z) = max y {µ R1 (x, y) .µ R2 (y, z)} với mọi (x, z) Є X x Z c) Hợp thành max-* được cho bởi toán tử ∗: [0,1] 2 → [0,1] µR 1 o R 2 (x, z) = max y {µ R (x,y) ∗ µ R2 (y,z)} ∀ (x, z) Є X x Z Thuậttoánphâncụmdữliệumờ Trang 10 CHƯƠNG 3. MỘT SỐ THUẬTTOÁNPHÂNCỤMDỮLIỆU - PHÂNCỤMDỮLIỆUMỜ 3.1. Thuậttoán k-means Thuậttoánphân hoạch K-means do MacQeen đề xuất trong lĩnh vực thống kê năm 1967, mục đích của thuậttoán k-means là sinh ra k cụmdữliệu {C 1 , C 2 , …,C k } từ một tập dữliệu chứa n đối tượng trong không gian d chiều X i = (x i1, x i2 , …, x id ) ( ni ,1= ), sao cho hàm tiêu chuẩn : ∑∑ = ∈ −= k i x i C xE i m D 1 2 )( đạt giá trị tối thiểu. Trong đó : m i là trọng tâm của cụm C i, D là khoảng cách giữa hai đối tượng ( khoảng cách Euclide) Trọng tâm của một cụm là một véc tơ, trong đó giá trị của mỗi phần tử của nó là trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữliệu trong cụm đang xét. Tham số đầu vào của thuậttoán là số cụm k, và tham số đầu ra của thuậttoán là các trọng tâm của các cụmdữ liệu. Thu ật toán k-means bao gồm các bước cơ bản như trong hình sau: Nhận xét: Hình 3.1. Các bước thực hiện thuậttoán k-means Nhận xét: 9 Độ phức tạp của thuậttoán là ( ) TknO với T là số lần lặp, n số đối tượng của tập dữliệu đưa vào. InPut : Số cụm k và các trọng tâm cụm {m j } k j=1 ; OutPut : Các cụm C i ( ki ,1= ) và hàm tiêu chuẩn E đạt giá trị tối thiểu; Bước 1: Khởi tạo : Chọn k trọng tâm {m j } k j=1 ban đầu trong không gian R d (d là số chiều của dữ liệu) . Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm. Bước 2 : Tính toán khoảng cách : Đối với mỗi điểm X i (1<=i<=n), tính toán khoảng cách của nó tới mỗi trọng tâm m j j=1,k. Và sau đó tìm trọng tâm gần nhất đối với mỗi điểm. Bước 3 : Cập nhật lại trọng tâm : Đối với mỗi j=1,k , cập nhật trọng tâm cụm m j bằng các xác định trung bình cộng của các vectơ đối tượng dữ liệu. Bước 4 : Điều kiện dừng Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đối. [...]... tương tự và một số kỹ thuật tiếp cận trong phâncụmdữliệu Một số thuậttoánphâncụmdữliệu điển hình như k-means, các thuậttoánphâncụm cho dữliệu hỗn hợp như k-prototypes, k- tâm Em đã trình bày một số kiến thức cơ bản của lý thuyết mờ, thuậttoánphâncụmmờ điển hình là FCM và cải tiến của nó: εFCM Cuối cùng xây dựng ứng dụng cho thuậttoánphâncụmmờ fuzzy-c means với dữliệu hỗn hợp, áp dụng... quả của thuậttoán ta có thể kết hợp với thuậttoán di truyền hoặc khởi tạo tâm ban đầu bằng phương pháp chuyên gia (theo cách nửa giám sát) 3.3 Thuậttoánphâncụmdữliệumờ FCM (Fuzzy C-means) Thuật toánphâncụmdữliệumờ FCM giống như k-means đều sử dụng chung một chiến lược phâncụmdữliệu FCM chia phân tập dữliệu ban đầu thành c cụm mờ, trong đó mỗi đối tượng dữliệu thuộc về các cụm được xác.. .Thuật toánphâncụmdữliệumờ k-means phân tích phâncụm đơn giản nên có thể áp dụng đối với tập dữliệu lớn Tuy nhiên, nhược điểm của k-means là chỉ áp dụng với dữliệu có thuộc tính số và khám ra các cụm có dạng hình cầu, chỉ áp dụng với dữliệu số 3.2 Thuậttoán k-tâm 3.2.1 Các khái niệm và thuậttoán cơ sở cho thuậttoán K-tâm Thuậttoán K-tâm là một mở rộng thực sự của thuậttoán K-mean cho dữ. .. số của cụm và i biểu thị số thứ tự của đối tượng dữliệu trong tập dữliệu ban đầu), hệ số uik này để chỉ quan hệ giữa các đối tượng với cụmdữliệu trong quá trình tính toán, hay còn gọi là mức độ phụ thuộc của đối tượng dữliệu thứ i vào trung tâm của cụm thứ k Trang 13 Thuật toánphâncụmdữliệumờ 3.3.1 Xây dựng hàm tiêu chuẩn Trong phâncụm mờ, tổng tất cả các phân hoạch mờ có c cụmdữliệu của... cập nhật bệnh án Giao diện xử lý dữliệu Giao diện khởi tạo dữ liệu: Hiển thị toàn bộ thông tin của dữliệu cần phâncụm và khởi tạo ban đầu tất cả đều thuộc cụm 0 Hình 4.4 Giao diện khởi tạo dữliệu Trang 21 Thuật toánphâncụmdữliệumờ Hình 4.5 Giao diện kết quả Kết quả thực hiện chương trình: Chương trình đã thực hiện phâncụm với bộ dữliệu 30 bệnh án, với số cụm được người dùng đưa vào Và tham... tạo 4 tâm cụm ban đầu và trọng số được chọn theo ý kiến của chuyên gia, chương trình đã đưa ra được kết quả của 4 nhóm bệnh theo yêu cầu Trang 22 Thuật toánphâncụmdữliệumờ KẾT LUẬN Phâncụmdữliệu nhất là phâncụmdữliệumờ đang là một trong những hướng phát triển rất quan trọng hiện nay Trong đồ án này em đã trình bày các khái niệm cơ bản về phâncụmdữliệu bao gồm khái niệm về phân cụm, các... chúng ta có thể khám phá ra các cụmdữliệu phức tạp theo cách mềm dẻo từ một tập dữliệu đã cho Thuậttoánphâncụmmờ là một cách thức mở rộng cho các thuậttoán PC rõ nhằm khám phá ra các cụmdữliệu chồng lên nhau Trang 16 Thuậttoánphâncụmdữliệumờ CHƯƠNG 4: BÀI TOÁN ỨNG DỤNG 4.1 Bài toán Input: Có một tập dữliệu các hồ sơ bệnh án của một loại bệnh Mỗi bệnh án bao gồm rất nhiều các triệu chứng... bệnh điển hình Ứng dụng sẽ thực hiện thuậttoánphâncụm FCM kết hợp với khái niệm mode, và metric trên dữliệu hỗn hợp đã trình bày trong mục 3.2.1 để phâncụm các bệnh án theo 4 nhóm bệnh yêu cầu Trang 19 Thuậttoánphâncụmdữliệumờ 4.2 Chương trình ứng dụng Giao diện chương trình : Hình 4.1 Giao diện chính của chương trình Trang 20 Thuậttoánphâncụmdữliệumờ Hình 4.2 Giao diện cập nhật triệu... nhược điểm trên của thuậttoán FCM bao gồm : Phâncụm dựa trên xác suất (keller, 1993), phâncụm nhiễu mờ (Dave, 1991), Phâncụm dựa trên toán tử LP Norm (Kersten, 1999) Tóm lại, phâncụmmờ là một sự mở rộng của PCDL bằng cách thêm vào yếu tố quan hệ giữa các phần tử và các cụmdữliệu thông qua các trọng số trong ma trận U Bằng cách này, chúng ta có thể khám phá ra các cụmdữliệu phức tạp theo cách... 12 Thuậttoánphâncụmdữliệumờ 3.2.2 Thuậttoán K-tâm: Begin Chọn các trọng số ρ j , các hàm fj, xác định k Chọn k phần tử ban đầu {z j }j =1 của D làm tâm các cụm k Xếp mỗi x ∈ D vào cụm Cj mà nó gần tâm nhất; For j=1, ,k do z j ← mod e(C j ) ; Repeat Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính mode Until các cụm không đổi; Xác định các cụm End Định lý Thuật . 3.3. Thuật toán phân cụm dữ liệu mờ FCM (Fuzzy C-means) Thuật toán phân cụm dữ liệu mờ FCM giống như k-means đều sử dụng chung một chiến lược phân cụm dữ liệu. . liệu mờ Trang 10 CHƯƠNG 3. MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU - PHÂN CỤM DỮ LIỆU MỜ 3.1. Thuật toán k-means Thuật toán phân hoạch K-means do MacQeen đề