Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
511,75 KB
Nội dung
Mục Lục Mục Lục .1 Lời cảm ơn Bảng ký hiệu, viết tắt Mở đầu .4 Chương 1: Tổng quan Khai phá liệu .6 1.1 Giới thiệu Khai phá liệu .6 1.2 Quá trình KPTT 1.3 Các hướng tiếp cận hướng áp dụng KPDL 1.4 Các ứng dụng thực tiễn khai phá liệu .9 1.5 Các thách thức khó khăn khai phá liệu 10 Chương 2: Bài toán Phân cụm 11 2.1 Hình thành toán phân cụm 11 2.2 Bài toán phân cụm rõ 11 2.3 Những kỹ thuật tiếp cận phân cụm liệu .12 2.3.1 Phương pháp phân cụm phân hoạch 12 2.3.2 Phương pháp phân cụm phân cấp 13 2.3.3 Phương pháp tiếp cận dựa mật độ 13 2.3.4 Phương pháp phân cụm dựa lưới 14 2.3.5 Phương pháp phân cụm dựa mô hình 14 2.3.6 Phương pháp phân cụm liệu có liệu ràng buộc .15 2.3.7 Phương pháp phân cụm mạng Kohonen 16 2.4 Bài toán phân cụm mờ 16 2.4.1 Giới thiệu phân cụm mờ 16 2.4.2 Thuật toán Fuzzy C_Mean (FCM) 21 2.4.3 Phân cụm mờ có ngữ cảnh 25 Chương 3: Phân cụm mờ ngữ cảnh ứng dụng 28 3.1 Thuật toán phân cụm mờ ngữ cảnh 28 3.2 Song song hoá thuật toán phân cụm mờ ngữ cảnh 30 3.3 Kết thực nghiệm 32 3.4 Ứng dụng thuật toán phân cụm mờ theo ngữ cảnh tạo luật mờ 36 3.4.1 Đặt vấn đề 36 3.4.2 Thủ tục tìm luật mờ 37 3.4.3 Kết thực nghiệm .38 Kết luận 41 Các kết đạt 41 Hướng phát triển 41 Tài liệu tham khảo 42 -1- Lời cảm ơn Tôi xin gửi lời cám ơn chân thành đến: - PGS.TSKH Bùi Công Cường nhiệt tình hướng dẫn làm luận văn suốt năm qua Thầy đặt móng cho nghiên cứu lĩnh vực phân cụm mờ Thầy theo sát bước, cho chỗ chưa hướng dẫn cách thức thực đề tài Qua trình làm việc với Thầy, học kỹ nghiên cứu khoa học phản biện vấn đề Tôi xin chân thành cảm ơn thầy - Ban Giám đốc cán Trung tâm tính toán hiệu cao, trường Đại học Khoa học Tự nhiên - ĐHQGHN cho phép đến Trung tâm triển khai toán hệ thống song song Trung tâm Đặc biệt gửi lời cảm ơn đến Thạc sỹ Lê Hoàng Sơn, người tạo điều kiện thuận lợi tận tình bảo để hoàn thành tốt luận văn Tôi xin chân thành cảm ơn - Các thầy, cô môn Tin học khoa Toán - Cơ - Tin học cung cấp kiến thức tảng quý báu toán học tin học để thực luận văn - Ban lãnh đạo trường Đại học Kinh tế - Kỹ thuật - Công nghiệp, anh chị đồng nghiệp công tác Trung tâm Hợp tác Quốc tế Bồi duỡng cán trường động viên khích lệ tạo điều kiện thuận lợi để hoàn thành khoá học - Cuối cùng, xin dành tặng kết cho gia đình tôi, người mà yêu quý Hoàng Thị Minh Châu -2- Bảng ký hiệu, viết tắt KPDL Khai phá liệu KPTT Khai phá tri thức FCM Fuzzy C-means CFCM Context Fuzzy C-means method 2C-FCM 2-Context Fuzzy C-means method P2C-FCM Parallel 2-Context Fuzzy C-means method UNO United Nation Organization UNDP United Nations Development Programme -3- Mở đầu Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Khai phá liệu ngày trở nên quan trọng lĩnh vực nhận nhiều quan tâm Để tiến hành khai phá liệu có nhiều phương pháp khác nhau, phương pháp phân cụm liệu sử dụng nhiều Trong phân cụm ta có hai hướng phân cụm rõ phân cụm mờ Phân cụm rõ hiểu ta có tập liệu X, ta kiểm tra điểm liệu xem giống với đặc điểm nhóm ta gán điểm liệu vào nhóm Nhưng thực tế lúc toán phân cụm rõ áp dụng Ví dụ ta có phép phân loại sau: Những người xe máy xịn thuộc nhóm người giàu, người xe máy bình thường thuộc nhóm bình dân Vậy người nghèo xe máy xịn thuộc nhóm nào? Vì cần đưa vào khái niệm toán phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mà cho phép điểm liệu thuộc hai nhiều cụm thông qua bậc thành viên hay độ thuộc Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm tập liệu đề xuất thuật toán tối ưu phân hoạch mờ Dunn (1973) mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ Ý tưởng thuật toán xây dựng phương pháp phân cụm mờ dựa tối thiểu hoá hàm mục tiêu Bezdek (1981) cải tiến tổng quát hoá hàm mục tiêu mờ cách đưa trọng số mũ để xây dựng thuật toán phân cụm mờ chứng minh độ hội tụ thuật toán cực tiểu cục Và đến năm 1996, Witold Pedrycz đưa biến ngữ cảnh vào toán phân cụm mờ, kết thông tin nhận có ý nghĩa hẳn so với phương pháp cũ Đây hướng hay nên tác giả chọn hướng phát triển cho luận văn -4- Các phần luận văn: Chương 1: Tổng quan khai phá liệu Trong chương đề cập đến lịch sử đời, tầm quan trọng, ứng dụng khó khăn thách thức khai phá liệu Quá trình khai phá liệu Chương 2: Bài toán phân cụm Trong chương đề cập đến toán phân cụm rõ, phân cụm mờ, kỹ thuật toán phân cụm Giới thiệu thuật toán phân cụm mờ FCM, thuật toán phân cụm FCM ngữ cảnh Chương 3: Phân cụm mờ ngữ cảnh ứng dụng Trong chương đề cập đến kết mà tác giả phát triển từ thuật toán FCM thuật toán FCM ngữ cảnh Tác giả đưa thuật toán 2C-FCM P2C-FCM Ứng dụng phân cụm mờ có ngữ cảnh để tạo luật mờ Mặc dù tác giả cố gắng trình bày luận văn xác nội dung, mạch lạc hình thức, song luận văn tránh khỏi thiếu sót Tác giả mong nhận ý kiến đóng góp quý báu thầy cô anh chị đồng nghiệp để luận văn hoàn thiện Hà Nội, ngày 28 tháng năm 2010 Hoàng Thị Minh Châu -5- Chương 1: Tổng quan Khai phá liệu 1.1 Giới thiệu Khai phá liệu Trong kỷ nguyên Công nghệ thông tin truyền thông phát triển, mở nhiều hội cho doanh nghiệp, tổ chức, cá nhân việc thu thập xử lý thông tin Hơn nữa, công nghệ lưu trữ phục hồi liệu phát triển nhanh chóng sở liệu quan, doanh nghiệp, tổ chức, cá nhân ngày phong phú đa dạng Chúng ta biết đơn vị liệu không Terabytes mà lên tới Petabytes, lớn nhiều lần Và liệu thể nhiều dạng : - Dữ liệu số - Dữ liệu định tính - Dữ liệu văn - Dữ liệu chuỗi thời gian (y học, khoa học kinh tế….) - Dữ liệu ảnh (cố định video) - Dữ liệu hỗn hợp (Web, hồ sơ y tế….) Như người chìm ngập khối liệu lớn, lại thiếu tri thức Vì đến năm cuối thập kỷ 1980, khái niệm khai phá liệu (KPDL) khám phá tri thức (KPTT) đời để giải vấn đề Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mô hình liệu với tính năng: phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu trình tìm kiếm mẫu mới, thông tin tiềm ẩn mang tính dự đoán khối liệu lớn Những công cụ KPDL phát xu hướng tương lai, tri thức mà KPDL mang lại định kịp thời Với ưu điểm trên, KPDL chứng tỏ tính hữu dụng -6- môi trường kinh doanh ứng dụng rộng rãi lĩnh vực thương mại, tài chính, y học, giáo dục… Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: khai phá liệu ví tìm kim đống cỏ khô Trong ví dụ này, kim mảnh nhỏ tri thức thông tin có giá trị đống cỏ khô kho sở liệu rộng lớn Như vậy, thông tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đoán phân tích liên kết Năm 1989 Fayyad, Smyth Piatestsky-Shapiro dùng khái niệm Phát tri thức từ sở liệu (Knowledge Discovery in DatabaseKDD) Trong đó, khai phá liệu giai đoạn đặc biệt toàn trình, sử dụng kỹ thuật để tìm mẫu từ liệu 1.2 Quá trình KPTT Trong trình KPTT KPDL bước quan trọng nhằm trích rút mẫu liệu hữu ích từ phát tri thức tiềm ẩn kho liệu khổng lồ Trước liệu đến với bước KPDL chúng phải trải qua bước tiền xử lý để liệu phù hợp với thuật toán sử dụng bước KPDL Quy trình cụ thể sau : Hình 1.1 Tổng quan KPTT -7- Các bước trình : Làm liệu (Data cleaning): loại bỏ liệu nhiễu liệu không quán Tích hợp liệu (Data intergation): liệu nhiều nguồn tổ hợp lại Lựa chọn liệu (Data selection): lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu Chuyển đổi liệu (Data transformation): liệu chuyển đổi hay hợp dạng thích hợp cho việc khai phá Khai phá liệu (Data Mining): tiến trình cốt yếu phương pháp thông minh áp dụng nhằm trích rút mẫu liệu Đánh giá mẫu (Pattern Evaluation): bước này, mẫu liệu chiết xuất phần mềm khai phá liệu Không phải mẫu liệu hữu ích, bị sai lệch Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức (Knowlege) hữu ích Biểu diễn tri thức (Knowledge Presentation): giai đoạn kỹ thuật biểu diễn hiển thị sử dụng để đưa tri thức lấy cho người dùng 1.3 Các hướng tiếp cận hướng áp dụng KPDL Vấn đề khai phá liệu phân chia theo lớp hướng tiếp cận sau: - Phân loại dự đoán (classification and prediction): trình xếp đối tượng vào lớp biết trước Ví dụ: phân loại bệnh nhân theo liệu hồ sơ bệnh án, phân loại vùng địa lý theo liệu thời tiết Đối với hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp toán gọi học có giám sát (supervised learning) -8- - Phân cụm (clustering/ segmentation): xếp đối tượng theo cụm liệu tự nhiên, tức số lượng tên cụm chưa biết trước Các đối tượng gom cụm cho mức độ tương tự đối tượng cụm lớn mức độ tương tự đối tượng nằm cụm khác nhỏ Lớp toán gọi học không giám sát hay học không thầy (unsupervised learning) - Luật kết hợp (association rules): dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: 80% sinh viên đăng ký học CSDL có tới 60% số họ đăng ký học phân tích thiết kế hệ thống thông tin Hướng tiếp cận ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, tài thị trường chứng khoán… - Phân tích chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá liệu luật kết hợp có thêm tính thứ tự tính thời gian Một luật mô tả mẫu có dạng tiêu biểu X→Y, phản ánh xuất biến cố X dẫn đến việc xuất biến cố Y Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán chúng có tính dự báo cao - Mô tả khái niệm (concept desccription and summarization): lớp toán thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.4 Các ứng dụng thực tiễn khai phá liệu KPDL lĩnh vực phát triển thu hút nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh vực ứng dụng thực tế điển hình KPDL: - Phân tích liệu hỗ trợ định - Phân loại văn bản, tóm tắt văn bản, phân loại trang Web phân cụm ảnh màu -9- - Chuẩn đoán triệu chứng, phương pháp điều trị y học - Tìm kiếm, đối sánh hệ Gene thông tin di truyền sinh học - Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu tài chính, thị trường chứng khoán - Phân tích liệu marketing, khách hàng - Điều khiển lập lịch trình - Bảo hiểm - Giáo dục… 1.5 Các thách thức khó khăn khai phá liệu KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần quan tâm: + Các sở liệu lớn, tập liệu cần xử lý có kích thước cực lớn, thực tế kích thước tập liệu thường mức tera-byte (hàng ngàn giga-byte) + Mức độ nhiễu cao liệu bị thiếu + Số chiều lớn + Thay đổi liệu tri thức làm cho mẫu phát không phù hợp + Quan hệ trường phức tạp KPDL lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp thuật toán liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn KPDL - 10 - Tính fk sau: f (1jk)=ukj , k=1, ,N j=1, C1 (3.3) Với giá trị f (1jk) với j=1, C1, sử dụng CFCM để phân loại với giá trị ngữ cảnh lần hai thành C2 cụm theo hàm mục tiêu là: C2 N J = ∑∑ ukjm xk −ν j j =1 k =1 Với xk ∈R mà k = 1,…,N giá trị biến ngữ cảnh thứ Kết ma trận thứ hai là: C2 U = {ukj ∈(0,1) : ∑ukj = f1k ,k = 1, ,n; i = 1, ,c1}, (i ) j =1 Xác định giá trị ngữ cảnh cho thuộc tính thứ hai f 2(k j ) = u k j với k=1,…,N j=1,…,C2 (3.4) Chúng ta có C1×C giá trị ngữ cảnh với l =1,…, C1×C2 (l ) Với giá trị ngữ cảnh f 2k , sử dụng CFCM để phân loại lại tập liệu thành C nhóm với hàm mục tiêu là: C J = N ∑∑u m kj xk − ν j j =1 k =1 Với { x k ∈ R n−2 }, giá trị liệu n - thuộc tính lại Ma trận phân hoạch là: C U = { u ks ∈ (0,1) : ∑ u ks = f 2(kl ) , ∀ s = 1, , C } s =1 Ở bước cuối nhận thấy có C1*C2*C cụm theo C1*C2 ngữ cảnh từ ngữ cảnh chọn lựa Ma trận phân hoạch cuối là: - 29 - U ={uks ∈(0,1): C1×C2 ×C ∑u kj =1, ∀k =1, , N } j=1 Như thấy, mức độ chi tiết tri thức phân cụm tăng lên cách sử dụng giá trị ngữ cảnh Ví dụ, số quốc gia có GDPPC “cao” EI “cao” liệt kê thuật toán phân cụm mờ ngữ cảnh thông tin GDPPC “cao” EI “cao”được thuật toán CFCM Vì vậy, CFCM gọi FCM ngữ cảnh (1C-FCM) Mặc dù sau loại bỏ ngữ cảnh chọn, phần liệu lại đóng góp mức quan trọng hơn, nhiên, phân chia liệu thành cụm với ý nghĩa liệu có mối quan hệ với ngữ cảnh chọn 3.2 Song song hoá thuật toán phân cụm mờ ngữ cảnh Thuật toán phân cụm mờ ngữ cảnh (2CFCM) làm tăng mức độ chi tiết so với thuật toán CFCM truyền thống Tuy nhiên, thời gian thuật toán để kết gia tăng, phải xử lý nhiều biến ngữ cảnh Về bản, bước thuật toán 2C-FCM sử dụng CFCM FCM công cụ để phân cụm liệu Giả sử phức tạp CFCM FCM trường hợp Vì vậy, có đánh giá độ phức tạp thuật toán 2C-FCM sau: Bước 1: Một lần sử dụng FCM Bước 3: C1 lần sử dụng CFCM Bước 5: C× C2 lần sử dụng CFCM Độ phức tạp thuật toán FCM (CFCM) O(n4) Do đó, độ phức tạp thuật toán 2C-FCM tương đương O(n6) Mặc dù tri thức tăng lên tốc độ tính toán vấn đề kích thước liệu tương đối lớn Ví dụ, thị trường chứng khoán, nơi có nhiều cổ đông giao dịch thời gian ngắn, việc phân loại thật khó khăn Cho đến - 30 - nay, không tìm thấy giải pháp tối ưu hoá cho trường hợp Nhờ phát minh siêu máy tính đặc biệt tính toán song song, câu trả lời cho câu hỏi giải Chúng ta sử dụng giải thuật song song hoá cho thuật toán 2C-FCM để làm tăng tốc độ tính toán [3] Song song hoá thuật toán phân cụm mờ ngữ cảnh (P2C-FCM) Thuật toán gồm bước: Sử dụng thuật toán FCM với giá trị ngữ cảnh lựa chọn, phân thành C1 cụm, với hàm mục tiêu là: C1 J = N ∑∑u m kj xk − ν j j =1 k =1 Với xk ∈ R với k=1,…,N giá trị liệu ngữ cảnh Kết bước ma trận U1 C1 tâm cụm R C1 U 1= u kj ∈ (0,1) : ∑u kj = 1, k = 1, , N j =1 { } ( j) Với tâm cụm : V , j =1, ,C1 Giả sử số lượng xử lý h, phân chia ma trận U1 C1 cụm theo số Thật vậy, số lượng giá trị ngữ cảnh trung tâm cụm xử lý tương đương với thương C1 h Tuy nhiên, số xử lý phải thực thêm giá trị ngữ cảnh trung tâm cụm tuỳ thuộc vào thặng dư số Thủ tục minh chứng đoạn mã giả sau: int NumRows = C1 / h; int Surpluses = C1 % h; int pos = 1; Đối với ID xử lý: - 31 - - Tính toán số lượng liệu gửi đến ID xử lý: int NumData = (ID [...]... c: là số cụm sẽ phân thành, phải cho trước c Ci: vector tâm cụm, dùng đề chỉ cụm thứ i 2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán [1] Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp... đi theo hướng phân cụm mờ có ngữ cảnh Một hướng đi mới có ý nghĩa thực tiễn cao 2.4.3 Phân cụm mờ có ngữ cảnh Sử dụng thuật toán FCM để phân cụm đã giúp linh hoạt hơn trong việc xử lý thông tin so với sử dụng thuật toán C_mean Nhưng ta nhận thấy khi sử dụng thuật toán FCM thì tất cả các trường (thuộc tính) của dữ liệu đều có vai trò như nhau Nói cách khác FCM có vô hướng, thuật toán có xu hướng phân. .. thuật toán phân cụm mờ 1, 2 hoặc nhiều ngữ cảnh tùy vào bộ số liệu và yêu cầu của bài toán Trong bài luận văn này chúng ta sẽ xây dựng thuật toán phân cụm mờ có 2 ngữ cảnh dựa trên ý tưởng của Pedrycz Và kết quả thu được mang nhiều thông tin hơn so với kết quả thuật toán FCM - 27 - Chương 3: Phân cụm mờ 2 ngữ cảnh và ứng dụng 3.1 Thuật toán phân cụm mờ 2 ngữ cảnh Trong nhiều trường hợp chúng ta cần... thuật toán CFCM Vì vậy, CFCM còn được gọi là FCM một ngữ cảnh (1C-FCM) Mặc dù sau khi loại bỏ 2 ngữ cảnh đã được chọn, phần dữ liệu còn lại đóng góp mức quan trọng ít hơn, tuy nhiên, chúng ta vẫn phân chia các dữ liệu này thành các cụm với ý nghĩa rằng các dữ liệu này đều có mối quan hệ nào đó với 2 ngữ cảnh đã được chọn 3.2 Song song hoá thuật toán phân cụm mờ 2 ngữ cảnh Thuật toán phân cụm mờ 2 ngữ. .. ban đầu của luật mờ [3] Sau đây là thuật toán phân cụm mờ 2 ngữ cảnh { } n để phân loại tập dữ liệu xk :xk ∈ R Chọn 2 ngữ cảnh, theo hai ánh xạ A và B được định nghĩa trên không gian tương ứng Y và Z như sau: A: Y → [0,1] yk a f1k = A(yk) (3.1) và B: Z → [0,1] zk a f2k = B(zk) (3.2) Hàm mục tiêu là: C J = N ∑∑u m kj xk − ν 2 j j =1 k =1 Thuật toán phân cụm mờ 2 ngữ cảnh (2C-FCM) Thuật toán gồm 5 bước... liệu một cách tốt nhất Chúng có thể sử dụng chiến lược - 14 - phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp... Điều này cho thấy hiệu quả của 2CFCM và P2C-FCM so với CFCM truyền thống 3.4 Ứng dụng thuật toán phân cụm mờ theo ngữ cảnh tạo các luật mờ 3.4.1 Đặt vấn đề Có nhiều cách để tạo luật mờ từ cơ sở dữ liệu, tuỳ thuộc vào mục đích của các luật được xây dựng [4] [11] Trong phần này, chúng ta minh hoạ cho thủ tục này bằng cách sử dụng số liệu của tổ chức Liên Hiệp Quốc (UNO) để đánh giá trình độ phát triển... hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thoả mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp ràng buộc trong thuật toán phân cụm Hình 2.3 Các cách mà các cụm có thể đưa ra - 15 - 2.3.7 Phương pháp phân cụm. ..Chương 2: Bài toán Phân cụm 2.1 Hình thành bài toán phân cụm Mục đích chính của bài toán phân cụm là phân chia bộ số liệu ban đầu thành các cụm chứa các số liệu có độ gần gũi nào đó Việc phân cụm giúp ta tìm ra sự giống và khác nhau giữa các đối tượng (số liệu) để rút ra các thông tin có ích và cần thiết Ý tưởng phân cụm xuất hiện trong nhiều lĩnh vực như: • Sinh học: thực vật, động vật • Y học: các bệnh... 2.4.1 Giới thiệu phân cụm mờ Nhiều vấn đề đã dẫn đến bài toán phân cụm mờ và ứng dụng được nói nhiều trong bài toán phân cụm mờ là: nhận dạng ảnh, xử lý thông tin, phân loại khách - 16 - hàng trong ngân hàng Đã có rất nhiều nghiên cứu chuyên sâu trong 2 thập kỷ qua Điểm quan trọng là sự khác nhau của hai hướng tiếp cận, theo hướng mờ (Fuzzy) 1 vector thuộc đồng thời vào nhiều cụm, ngược lại theo hướng xác