Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu không đầy đủ

Hai phương pháp gom cụm dữ liệu không đầy đủ dựa trên kernel được đề xuất là New Kernel-based fuzzy-c-means new-KFCM và Mean shift nearest modes MSNM, các cụm kết quả thu được phải đảm b

GIỚI THIỆU ĐỀ TÀI

Lý do chọn đề tài

Chúng ta đang sống trong một thế giới đầy dữ liệu Mỗi ngày, người ta gặp phải một số lượng lớn các thông tin và lưu trữ hoặc biểu diễn nó thành các dữ liệu, để dễ dàng cho việc phân tích và quản lý thêm Thêm vào đó, với sự phát triển ngày càng mạnh mẽ của công nghệ thông tin, việc tin học hóa đã đi vào mọi lĩnh vực đời sống sản xuất, kinh doanh, giáo dục, quản lý, y tế, vận tải, đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng một cách nhanh chóng với một lượng dữ liệu lưu trữ khổng lồ Lúc này, việc phân tích dữ liệu đóng một vai trò không thể thiếu cho sự hiểu biết các hiện tượng khác nhau Với lượng dữ liệu tăng nhanh và khổng lồ như vậy, rõ ràng các phương pháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch Để có thể khai thác hiệu quả các cơ sở dữ liệu (CSDL) lớn, một lĩnh vực khoa học mới ra đời:

Khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD), và khai phá dữ liệu (Data Mining) là một công đoạn chính của quá trình KDD

Gom cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp học không có giám sát (Unsupervised Learning) trong học máy (Machine Learning) Gom cụm dữ liệu được nghiên cứu phát triển trên nhiều cộng đồng như thống kê, học máy… Tuy nhiên, việc nghiên cứu và ứng dụng các kỹ thuật khai phá dữ liệu cũng gặp phải những khó khăn, thách thức lớn, trong đó có vấn đề dữ liệu không đầy đủ

Dữ liệu không đầy đủ hay dữ liệu bị thiếu, xảy ra khi không có giá trị dữ liệu được lưu trữ trong các biến trong một quan sát Dữ liệu không đầy đủ xuất hiện phổ biến và có thể có một tác động đáng kể đến kết luận có thể được rút ra từ các dữ liệu

Rất nhiều các nghiên cứu gần đây trong lĩnh vực khai phá dữ liệu có liên quan đến dữ liệu không đầy đủ

Chính vì những lý do trên, tôi chọn đề tài “Gom cụm dữ liệu không đầy đủ”, tập trung giải quyết vấn đề gom cụm trên tập dữ liệu không đầy đủ, đồng thời cũng đảm bảo mô hình gom cụm có chất lượng cụm cao.

Mục tiêu của đề tài

Đề tài tập trung nghiên cứu bài toán gom cụm với dữ liệu không đầy đủ, từ đó đưa ra giải thuật để giải quyết bài toán đó Đối với vấn đề xử lý dữ liệu bị thiếu, đề tài sẽ giải quyết bên trong giải thuật Kết quả đạt được là mô hình cụm có chất lượng cụm cao chấp nhận được và khả năng xử lý dữ liệu không đầy đủ với độ sai lệch nhỏ

Về mặt khoa học, đề tài xem xét giải quyết bài toán gom cụm dữ liệu không đầy đủ với hai phương pháp gom cụm dựa trên kernel là Kernel-based fuzzy-c-means

(KFCM) và Mean shift, kết quả thu được đảm bảo chất lượng cụm đủ tốt, cụm có hình dạng tùy ý, xử lý được các giá trị bị thiếu và hạn chế thông số đầu vào Với giải thuật KFCM cải tiến, đã gom được các cụm có chất lượng cao, xử lý được dữ liệu bị thiếu Nhưng cụm kết quả của KFCM cải tiến còn bị phụ thuộc dạng siêu cầu, giải thuật Mean shift cải tiến đã giải quyết tốt hơn, giải thuật Mean shift không cần biết trước số lượng cụn, không hạn chế hình dạng cụm, ít thông số đầu vào, cụm có chất lượng cao và xử lý được dữ liệu không đầy đủ

Về mặt thực tiễn, các dữ liệu không đầy đủ là thường gặp, làm tốn kém về chi phí, thời gian, con người Các trường hợp gây ra dữ liệu không đầy đủ phổ biến như là dữ liệu cần xử lý đến trễ, dữ liệu cố tình bị xóa do thông tin không phù hợp hoặc do ngẫu nhiên bị thiếu bởi các nguyên nhân từ con người, thiết bị hỏng hóc Để đối phó với loại dữ liệu này ta có thể thực hiện trong giai đoạn tiền xử lý nhưng kết quả có thể tạo ra các dữ liệu sai lệch làm ảnh hưởng tới chất lượng gom cụm Do đó một giải pháp gom cụm tốt có khả năng xử lý dữ liệu không đầy đủ sẽ giúp ích rất nhiều cho quá trình khám phá tri thức, giảm thiểu được nhiều về chi phí.

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu sẽ được lấy từ tập dữ liệu chuẩn UCI (http://archive.ics.uci.edu/ml/) và tập dữ liệu nhân tạo, với kích thước được xem là đủ lớn Dữ liệu sẽ được xử lý để trở thành không đầy đủ cho bài toán gom cụm Việc xử lý dữ liệu ở đây chỉ là cho một số thành phần mất đi theo nguyên tắc cụ thể sẽ được nói rõ trong thực nghiệm, không xem xét đến các vấn đề tiền xử lý dữ liệu (thu giảm chiều, chuẩn hóa,…)

Mã nguồn được viết trên ngôn ngữ lập trình java

Phạm vi nghiên cứu tập trung xem xét trên toàn bộ thuộc tính của tập dữ liệu, bao gồm trong đó các giá trị bị thiếu Xây dựng mô hình gom cụm xử lý được tập dữ liệu không đầy đủ để sau khi gom cụm đảm bảo được chất lượng gom cụm cao.

Phương pháp nghiên cứu

Việc chuẩn bị tài liệu nghiên cứu : Trong quá trình nghiên cứu, có tham khảo tài liệu về các chủ đề sau đây:

 Các tài liệu về data mining

 Tài liệu về gom cụm dữ liệu và đánh giá các kỹ thuật gom cụm

 Các tài liệu về gom cụm dữ liệu không đầy đủ

 Các tài liệu về đánh giá các kỹ thuật gom cụm không đầy đủ

Việc tiến hành nghiên cứu:

Hình 1.1: Mô hình thủ tục gom cụm cơ bản [20]

Việc tiến hành nghiên cứu sẽ dựa theo hình 1.1 của Rui Xu và Donald C.Wunsch [20], gồm các bước như sau:

Việc chuẩn bị dữ liệu: Một phần sẽ dùng tập dữ liệu nhân tạo theo ý tưởng của

R.J.Hathaway và J.C.Bezdek [3], một phần dữ liệu sẽ được lấy từ data chuẩn UCI, dữ liệu sẽ được xử lý trở thành không đầy đủ cho phù hợp với yêu cầu của bài toán

Việc xây dựng giải pháp gom cụm trên dữ liệu không đầy đủ sẽ dựa trên thuật toán

Mean shift ở [1] và Kernel-based fuzzy-c-means ở [6], các thuật toán này được chọn do được chứng minh về tính hiệu quả, hiện thực với chi phí và thời gian cho phép Đánh giá cụm, đây là khâu quan trọng nhất trong kỹ thuật gom cụm, cũng là khâu quan trọng nhất của đề tài Đánh giá, so sánh và chọn ra phương pháp gom cụm có chất lượng đủ tốt Việc đánh giá kết quả gom cụm dữ liệu không đầy đủ không thể dùng đánh giá ngoại được bởi vì cấu trúc bản thân tập dữ liệu không rõ ràng do chứa các giá trị thiếu, các giá trị này làm mờ đi cấu trúc tập dữ liệu do đó sẽ đánh giá kết quả gom cụm thông qua các chỉ số đánh giá nội về độ phân tách, độ chặt của cụm và thông qua chỉ số đánh giá cho việc xử lý dữ liệu không đầy đủ Các chỉ số đánh giá nội gồm Xie- Beni, Fukuyama-Sugeno và Dunn, đánh giá cho việc xử lý dữ liệu không đầy đủ trên độ đo Input error Tiếp theo sẽ so sánh các kết quả đánh giá gom cụm trên các giải thuật khác nhau Từ các đánh giá, đưa ra nhận xét và xác định cụm kết quả tốt nhất.

TỔNG QUAN VỀ GOM CỤM VÀ DỮ LIỆU KHÔNG ĐẦY ĐỦ

Phân tích cụm

Bốn bước của thủ tục phân tích cụm sẽ dựa theo Rui Xu và Donald C.Wunsch [20] theo như ở hình 1.1

Lựa chọn hoặc khai thác đặc trưng Lựa chọn đặc trưng là lựa chọn các đặc trưng phân biệt từ một tập hợp các ứng viên, trong khi khai thác đặc trưng sử dụng một số biến đổi để tạo ra các đặc trưng hữu ích và mới lạ từ những bản gốc Cả hai đều rất quan trọng đối với hiệu quả của ứng dụng gom cụm Việc lựa chọn các đặc trưng rất có thể làm giảm khối lượng công việc và đơn giản hóa quá trình thiết kế tiếp theo Nói chung, các đặc trưng lý tưởng nên được sử dụng trong phân biệt các mẫu thuộc các cụm khác nhau, phải ít bị nhiễu và dễ dàng để trích xuất và diễn giải

Thiết kế hoặc lựa chọn thuật toán gom cụm Thường được kết hợp với việc lựa chọn một độ đo tương ứng và việc xây dựng một hàm tiêu chuẩn Các đối tượng được nhóm lại theo sự giống nhau Rõ ràng, các độ đo sự tương đồng trực tiếp ảnh hưởng sự hình thành của các cụm kết quả Hầu hết các thuật toán gom cụm là rõ ràng hoặc

C  C C i  C j   tương đồng được chọn, việc xây dựng một hàm mục tiêu cho cụm là một vấn đề tối ưu hóa, và có nhiều giải pháp phong phú Có nhiều thuật toán gom cụm đã được phát triển để giải quyết các vấn đề khác nhau trong các lĩnh vực cụ thể Tuy nhiên, không có thuật toán gom cụm cố định phổ biến được sử dụng để giải quyết tất cả các vấn đề Vì vậy, điều quan trọng là để xác định một cách cẩn thận các đặc điểm của vấn đề, để lựa chọn hoặc thiết kế một chiến lược gom cụm thích hợp Đánh giá cụm Cho một tập dữ liệu, mỗi thuật toán gom cụm luôn có thể tạo ra một sự phân chia, dù cấu trúc tồn tại hay không Hơn nữa, phương pháp tiếp cận khác nhau thường dẫn đến các cụm khác nhau; và ngay cả đối với cùng một thuật toán, việc xác định tham số đầu vào có thể ảnh hưởng đến kết quả cuối cùng Vì vậy, tiêu chuẩn đánh giá hiệu quả là tiêu chí là quan trọng với các thuật toán gom cụm Những đánh giá này cần phải khách quan và không có thiên vị bất kỳ thuật toán nào Ngoài ra, sẽ có ích cho việc trả lời câu hỏi như làm thế nào nhiều cụm được ẩn trong các dữ liệu Nói chung, có ba loại tiêu chuẩn đánh giá: chỉ số đánh giá nội, chỉ số đánh giá ngoại, và chỉ số tương đối Chỉ số đánh giá ngoại được dựa trên một số cấu trúc được xác định trước, đó là sự phản ánh của thông tin có sẵn trong dữ liệu, và sử dụng như một tiêu chuẩn để xác nhận các giải pháp gom cụm Chỉ số đánh giá nội không phụ thuộc vào thông tin bên ngoài (kiến thức sẵn có), ngược lại, nó kiểm tra cấu trúc gom cụm trực tiếp từ dữ liệu gốc Chỉ số tương đối chủ yếu dựa trên sự so sánh các kết quả gom cụm khác nhau ứng với các bộ giá trị thông số khác nhau

Giải thích các kết quả Mục tiêu cuối cùng của gom cụm là cung cấp cho người dùng với những hiểu biết có ý nghĩa từ dữ liệu gốc, để họ có thể giải quyết hiệu quả các vấn đề gặp phải Đi phân tích, thậm chí thực nghiệm thêm, có thể được yêu cầu để đảm bảo độ tin cậy của kiến thức được trích xuất

2.1.2 Các yêu cầu tiêu biểu của việc gom cụm dữ liệu

Trong phần này, các yêu cầu tiêu biểu của việc gom cụm dữ liệu được trình bày dựa trên nội dung tương ứng trong [12], gồm có các tiêu chí sau:

Khả năng co giãn về tập dữ liệu (scalability) Nhiều thuật toán gom cụm hoạt động tốt trên các tập dữ liệu nhỏ chứa ít hơn vài trăm đối tượng dữ liệu Một cơ sở dữ liệu lớn có thể chứa hàng triệu các đối tượng Gom cụm trên một mẫu của một tập dữ liệu lớn nhất định có thể dẫn đến kết quả sai lệch Do đó các thuật toán gom cụm có khả năng mở rộng để gom cụm toàn bộ tập dữ liệu là cần thiết

Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes)

Nhiều thuật toán được thiết kế để gom cụm dữ liệu số Tuy nhiên, các ứng dụng có thể yêu cầu gom cụm nhiều loại dữ liệu, chẳng hạn như nhị phân, danh mục, và dữ liệu thứ tự, hoặc các kết hợp của các loại dữ liệu

Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

Nhiều thuật toán gom cụm xác định các cụm dựa trên các độ đo Euclidean hay Manhattan Các thuật toán dựa trên các độ đo như vậy có xu hướng tìm các cụm hình cầu Tuy nhiên, một cụm có thể có hình dạng bất kỳ Vì vậy điều quan trọng là phát triển các thuật toán có thể phát hiện các cụm có hình dạng tùy ý

Tối thiểu hóa yêu cầu về tri thức trong việc xác định các thông số đầu vào (domain knowledge for input parameters) Nhiều thuật toán gom cụm yêu cầu người dùng nhập các thông số nhất định (như số cụm mong muốn) Các kết quả gom cụm có thể khá nhạy cảm với các thông số đầu vào Các thông số thường khó xác định, nhất là đối với các tập dữ liệu chứa các đối tượng nhiều chiều Điều này làm cho chất lượng của gom cụm khó kiểm soát

Khả năng xử lý dữ liệu bị nhiễu (noisy data) Hầu hết các cơ sở dữ liệu thực tế có giá trị nhiễu hoặc mất tích, không rõ ràng, hoặc dữ sai lệch Một số thuật toán gom cụm rất nhạy cảm với các dữ liệu đó và có thể dẫn đến các cụm có chất lượng kém

Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records) Một số thuật toán gom cụm không thể kết hợp các dữ liệu mới được chèn vào (tức là, cập nhật cơ sở dữ liệu) thành các cấu trúc nhóm hiện có, thay vào đó, phải xác định một gom cụm mới từ đầu Một số thuật toán gom cụm rất nhạy cảm với thứ tự của dữ liệu đầu vào Cho một tập các đối tượng dữ liệu, một thuật toán như vậy có thể trả lại cụm khác nhau đáng kể tùy thuộc vào thứ tự của các đối tượng đầu vào Điều quan trọng là phát triển các thuật toán gom cụm với dữ liệu gia tăng và không nhạy cảm với thứ tự đầu vào

Khả năng xử lý dữ liệu nhiều chiều (high dimensionality) Một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứa một số nhiều các chiều hoặc các thuộc tính Nhiều thuật toán gom cụm xử lý dữ liệu ít chiều, chỉ gồm hai đến ba chiều Tìm cụm của các đối tượng dữ liệu trong không gian nhiều chiều là thách thức

Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering) Các ứng dụng thực tế có thể cần phải thực hiện gom cụm theo các ràng buộc Một nhiệm vụ khó khăn là tìm nhóm dữ liệu với hành vi gom cụm tốt đáp ứng ràng buộc nhất định

Khả diễn và khả dụng (interpretability and usability) Người dùng mong đợi kết quả gom cụm để có giải thích được, dễ hiểu, và có thể sử dụng gom cụm có thể cần phải được gắn với cách giải thích ngữ nghĩa và các ứng dụng cụ thể

2.1.3 Các phương pháp đánh giá việc gom cụm dữ liệu

Với nhiều thuật toán gom cụm như vậy, mà mục đích chung là để tìm các cấu trúc cụm vốn có trong các dữ liệu gốc, mỗi thuật toán có thể gom cụm dữ liệu, nhưng các hay các cấu trúc cụm là có ý nghĩa, và đặc biệt quan trọng Ví dụ, nếu không có cấu trúc phân cụm trong một tập hợp dữ liệu, đầu ra từ một thuật toán gom cụm trở nên vô nghĩa và chỉ là một kết quả của các thuật toán gom cụm Trong trường hợp này, cần thực hiện một số loại kiểm nghiệm để đảm bảo sự tồn tại của các cấu trúc phân cụm trước khi thực hiện bất kỳ phân tích thêm Nhìn chung, có ba tiêu chí đánh giá cụm dựa trên tiêu chuẩn ngoại, tiêu chuẩn nội và tiêu chuẩn tương đối như trong[21] Đánh giá ngoại (external validation): Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước cho tập dữ liệu Giả sử có cấu trúc gồm P phân vùng cho tập X gồm N điểm dữ liệu và cấu trúc này độc lập với cấu trúc C của cụm kết quả từ thuật toán, Khi đó sự đánh giá ngoại của C bằng cách so sánh C và P Với hai điểm dữ liệu x i và x j trong X, có bốn trường hợp xảy ra:

- Trường hợp 1: x i và x j thuộc về cùng một cụm trong C và cùng chung phân vùng trong P

- Trường hợp 2: x i và x j thuộc về cùng cụm trong C nhưng khác phân vùng trong P

- Trường hợp 3: x i và x j khác cụm trong C nhưng cùng phân vùng trong P - Trường hợp 4: x i và x j khác cụm trong C và khác phân vùng trong P

Các công trình liên quan

Các thuật toán gom cụm, được phân loại ở [20] (theo Rui Xu và Donald Wunsch) dựa trên bản chất của các cụm được tạo ra và các kỹ thuật và lý thuyết đằng sau chúng Mục này khảo sát các phương pháp gom cụm làm cơ sở cho nghiên cứa của đề tài là gom cụm mờ và gom cụm dựa trên kernel

Với các kỹ thuật gom cụm cứng, mỗi đối tượng được phân vào chỉ duy nhất một cụm Đối với gom cụm mờ, hạn chế này được nới lỏng, và các đối tượng có thể tham gia tất cả các cụm với một mức độ giá trị thành viên nhất định Điều này đặc biệt hữu ích khi ranh giới giữa các cụm chưa được tách ra và không rõ ràng Hơn nữa, các giá trị thành viên có thể giúp chúng ta khám phá mối quan hệ phức tạp giữa một đối tượng nhất định và các cụm Fuzzy c-means (FCM) [2] [13] là một trong những thuật toán gom cụm mờ phổ biến nhất

Giống như gom cụm cứng, FCM cũng bị sự hiện diện của nhiễu làm ảnh hưởng và khó khăn để xác định các phân vùng ban đầu

Bài toán xen kẽ tối ưu hóa (Alternating Optimization)

Xen kẽ tối ưu hóa [4] (Alternating Optimization-AO) là một thủ tục lặp đi lặp lại để giảm thiểu (hoặc tối đa) hàm f x    f  X 1, X 2, , X t trên tất cả các biến bằng cách xen kẻ sự cực tiểu hóa trong tập con riêng lẻ của các biến AO là cơ sở cho Fuzzy c-means (t = 2), vector lượng tử hóa (t = 2, 3 và 4), và tối đa hóa kỳ vọng (EM) (t = 4) trong phân tích hỗn hợp Ý tưởng cơ bản đơn giản AO là để thay thế việc tối ưu hóa toàn phần đôi khi khó khăn của hàm f trên tất cả biến s với một chuỗi các tối ưu hóa dễ dàng hơn trên các tập con của nhóm các biến

Cách tiếp cận AO bắt đầu với một phân vùng của x   x 1 , , x s  T  R s vào t tập hợp con của các biến không chồng lấp chẳng hạn như x   X 1 , , X t  T , X i  R p i , với i  1, , t và

Ví dụ, cho s = 8, khi đó vector x có thể bị chia vào hai tập con X 1   x x x 1 , 4 , 7  T ;

X  x x , vv Đối với bất kỳ giá trị hợp lý của s, có rất nhiều cách để phân vùng x, vì vậy câu hỏi thú vị về cách tốt nhất để lựa chọn các tập con là một vấn đề quan trọng Sau khi một phân vùng của x được chọn, AO cố gắng để tối ưu hóa hàm

   1 , 2 , , t  f x  f X X X một cách phối hợp trên tất cả các biến bằng cách xen kẽ cực tiểu hóa trong bộ riêng lẻ của các biến vector

Cụ thể, AO định nghĩa một chuỗi lặp:  X 1 (r) , X 2 ( ) r , , X t ( ) r  : r  0,1, bắt đầu với các trị ban đầu  X 1 (0) , X 2 (0) , , X t (0) thông qua một chuỗi các cực tiểu hóa min   1 ( 1) , , ( 1 1) , , (r) 1 , , ( )   ,i 1, , i i pi r r r i i i t

X X X X (15) trong đó {   i R p i }là tập hợp mà ở đó tối ưu hóa (toàn phần) được thực hiện Các ký hiệu in đậm (X) trong (AO) cho biết rằng đó là những vectơ cố định với bài toán con hiện tại tại chỉ số i

Các đặc tính hội tụ và tối ưu toàn phần và cục bộ của AO cũng được thảo luận trong [4],[5]

Thuật toán tối ưu hóa luân phiên

Khởi trị x (0)  X 1 (0) ,X 2 (0) , ,X t (0)  T chọn chuẩn vector, giá trị ngưỡng ε, giới hạn lặp L, đặt r = 0

3) Nếu x ( r  1)  x ( ) r hoặc r > L, thì thoát; ngược lại, đặt r = r+1 và quay lại 2) Thuật toán FCM FCM [2], [13]cố gắng để đồng thời tạo ra cụm (mờ) của X cùng với những mẫu đại diện cho mỗi cụm thông qua một chương trình lặp đi lặp lại để giải quyết hàm tối ưu     2 , 1 1 min , c n m m ik k i A

J U v U x v            (17) với m>1 gọi là hệ số mờ, ||𝑥|| 𝐴

Khi 𝐴 = 𝐼 𝑠×𝑠 , ‖𝑥‖ 𝐴 = ‖𝑥‖ 2 Các phần tử của ma trận thành viên U đại diện cho mức độ thành viên của mỗi đối tượng trong mỗi cụm Giá trị của U ít mờ hơn khi m gần bằng 1 Thường người ta chọn m = 2 𝑀 𝑓𝑐𝑚 được gọi là tập không suy biến của ma trận mờ 𝑐 × 𝑛 𝑣 𝑖 là trung tâm cụm thứ i Giải thuật FCM giải quyết tối ưu hóa 𝐽 𝑚 thông qua tính toán luân phiên các giá trị của U và 𝑣 Thuật toán FCM: 1) Khởi tạo các giá trị m, c và 𝜀 thỏa mãn: 𝑚 > 1, 1 < 𝑐 < 𝑛 , 𝜀 > 0 Chọn 𝑣 (0) ⊂ 𝑅 𝑠 2) Tính 𝑈 (𝑟+1) = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑈∈𝑀 𝑓𝑐𝑚 { 𝐽 𝑀 (𝑈, 𝑣 (𝑟) ) } thông qua 1 1 ( 1) 1 1 1 m r ik ik c m j ik

 (21) với 1 ≤ 𝑖 ≤ 𝑐 và 1 ≤ 𝑘 ≤ 𝑛 4) So sánh 𝑣 (𝑟+1) với 𝑣 𝑟 , nếu thỏa ||𝑣 (𝑟+1) − 𝑣 (𝑟) || < 𝜀 thì ngừng giải thuật, nếu không thỏa, thì đặt 𝑟 = 𝑟 + 1 và quay lại bước 2)

2.2.2 Gom cụm dựa trên hạt nhân (kernel)

Một xu hướng trong cộng đồng học máy gần đây đó là xây dựng một phiên bản phi tuyến của một thuật toán tuyến tính bằng cách sử dụng "phương pháp kernel" [9], [10] Ví dụ: Support Vector Machines (SVM), phân tích thành phần chính kernel

Các giải thuật kernel dựa trên định lý Cover Trong thuật toán gom cụm không giám sát sử dụng phương pháp kernel, thông thường, một ánh xạ phi tuyến được sử dụng đầu tiên để ánh xạ dữ liệu vào một không gian đặc trưng nhiều chiều tiềm năng, việc gom cụm sau đó được thực hiện Bằng cách thiết kế và tính toán một kernel bên trong đối tượng, làm xuất hiện các cấu trúc còn ẩn, chúng ta có thể tránh tốn thời gian

Một nhược điểm của các thuật toán gom cụm kernel là mẫu cụm nằm trong không gian đặc trưng nhiều chiều và do đó thiếu mô tả rõ ràng và trực quan

Trong khi đó, cũng có một số vấn đề cần phải tiếp tục xem xét Giống như nhiều thuật toán khác, làm thế nào để xác định các thông số thích hợp, ví dụ, chiều rộng của Gaussian kernel, là không đơn giản Vấn đề về độ phức tạp tính toán có thể trở nên nghiêm trọng đối với các tập dữ liệu lớn

Thuật toán Mean shift [7] là một trong các giải thuật gom cụm trên kernel

Thuật toán Mean shift là một kỹ thuật gom cụm mà không đòi hỏi kiến thức về số lượng các cụm, và không hạn chế các hình dạng của các cụm

Cho n điểm dữ liệu x i, i = 1, ,n trên không gian d-chiều, ước tính mật độ hạt nhân đa biến thu được với hạt nhân K(x) và giá trị băng thông h là

Một profile của hạt nhân K(x) thỏa mãn K x    c k x k d ,   2 (23) với giá trị c k d , được chuẩn hóa hàm K(x) theo 1 Mô hình của hàm mật độ được chọn tại giá trị hàm độ dốc bằng không

(24) với g x     k s '( ) Số hạng đầu tỉ lệ với mật độ ước tính tại x được tính với hạt nhân

G x c g x và số hạng thứ hai:

(25) chính là vector mean shift Các vector mean shift luôn luôn chỉ theo hướng tăng tối đa mật độ Thủ tục mean shift, thu được bằng cách lặp liên tiếp

 Tính toán của các vector mean shift m x h   ( ) r

 Chuyển dịch băng thông x ( r  1)  x ( ) r m x h   ( ) r (26) cho tới khi đảm bảo hội tụ đến một điểm mà độ chênh lệch của hàm mật độ là số không.

Dữ liệu không đầy đủ hoặc dữ liệu bị thiếu

Sơ lược về dữ liệu không đầy đủ

Dữ liệu bị thiếu, hoặc không đầy đủ, xảy ra khi không có giá trị dữ liệu được lưu trữ trong các biến trong một quan sát Dữ liệu bị thiếu xuất hiện phổ biến và có thể có một tác động đáng kể đến kết luận có thể được rút ra từ các dữ liệu

Rất nhiều các nghiên cứu gần đây trong lĩnh vực khai phá dữ liệu có liên quan đến dữ liệu không đầy đủ Những cách khiến dữ liệu không đầy đủ [17] bao gồm:

- Thiếu hoàn toàn ngẫu nhiên Các giá trị trong một tập dữ liệu bị thiếu hoàn toàn ngẫu nhiên (MCAR) nếu xác suất của một bộ dữ liệu có một giá trị thiếu cho một thuộc tính không phụ thuộc vào các giá trị đã biết cũng như các dữ liệu bị thiếu

- Thiếu một cách ngẫu nhiên Thiếu một cách ngẫu nhiên (MAR), xảy ra có liên quan đến một biến cụ thể, một giá trị thiếu có thể phụ thuộc vào các giá trị được biết đến, nhưng không phải trên bản thân giá trị của dữ liệu bị thiếu Một ví dụ của việc này là vô tình bỏ qua một câu trả lời trên một bảng câu hỏi

- Thiếu không phải ngẫu nhiên Thiếu không ngẫu nhiên (MNAR) là dữ liệu mà quan đến lý do nó thiếu) Một ví dụ của việc này là nếu câu hỏi nhất định trên một bảng câu hỏi có xu hướng cố tình bị bỏ qua bởi những người tham gia với những đặc điểm nhất định

Những cách đối phó với dữ liệu không đầy đủ trong giai đoạn tiền xử lý

Phương pháp xóa Phương pháp này giảm tập dữ liệu trong đó có dữ liệu thiếu về tập dữ liệu không còn giá trị thiếu gồm có Listwise deletion và Pairwise deletion Phương pháp gán giá trị Gán giá trị cho biến không đầy đủ bằng các kỹ thuật phân tích dữ liệu Các kỹ thuật thường dùng là Mean/mode substitution, dummy variable method, single regression

Phương pháp dựa trên mô hình Xác định mô hình phân bố dữ liệu từ các dữ liệu rõ ràng được quan sát Thuật toán EM là một kỹ thuật dựa trên mô hình để đối phó với dữ liệu không đầy đủ, ngoài ra còn kỹ thuật Multiple inputation.

Dạng hình học của dữ liệu bị thiếu

Phần này sẽ thảo luận về hình dạng trực quan của các bộ dữ liệu không đầy đủ được nói đến trong [3] Trong trường hợp đặc biệt mà 𝑋 ⊂ 𝑅 2 , có thể biểu diễn rõ ràng cả dữ liệu đầy đủ và không đầy đủ qua các đồ thị phân bố Để làm điều này, một dữ kiện 𝑥 𝑘 = (𝑥 𝑘1 , ? ) 𝑇 không đầy đủ biểu diễn theo một đường thẳng đứng với thành phần nằm ngang 𝑥 𝑘1 và 𝑥 𝑘 = (?, 𝑥 𝑘2 ) 𝑇 như một đường nằm ngang với các thành phần dọc 𝑥 𝑘2 (Tất nhiên dữ kiê ̣n null (?,?) Không thể được biểu diễn một cách hữu ích trong một hình vẽ như vậy) Với số chiều nhiều hơn, một dữ kiện không đầy đủ có thể tương ứng với một đường thẳng, mặt phẳng, v.v , tùy thuộc vào số lượng các giá trị đặc trưng bị thiếu Sơ đồ phân bố bên trái (hình 2.1 (a)) tương ứng với một bộ dữ liệu hoàn chỉnh Đồ thị phải (hình 2.1 (b)) mô tả một phiên bản chưa hoàn chỉnh của dữ liệu, trong đó 25% của (20) giá trị đặc trưng bị thiếu Trong ví dụ này, ba giá trị của đặc trưng đầu tiên và hai trong số những đặc trưng thứ hai là mất tích Chú ý những khó khăn gia tăng trong khi xác định sự hiện diện (và vị trí) của hai cụm khi một tỷ lệ đáng kể giá trị đặc trưng là bị thiếu

Có một trường hợp thú vị của những khó khăn thể hiện hình ảnh trong hình 2.1 có liên quan đến những gì được gọi là "các cụm ảo." Hãy đề cập đến một tập dữ liệu X dưới dạng tối đa không đầy đủ nếu mỗi dữ kiện trong X chỉ được biết chính xác một giá trị đặc trưng Trong trường hợp của một tập dữ liệu tối đa không đầy đủ 𝑋 ⊂ 𝑅 2 , chính xác 50% giá trị đặc trưng bị thiếu Đối với trường hợp này, nó giống như phía bên phải của hình 2.1 nhưng sẽ không có chứa điểm; thay vào đó, nó sẽ bao gồm toàn bộ một mạng n đường ngang / dọc như trong hình 2.2 Tổng quát hơn, một tập dữ liệu tối đa không đầy đủ 𝑋 ⊂ 𝑅 2 thiếu chính xác 100 ( 𝑠−1 )

𝑠 % giá trị đặc trưng của nó Điều này thường không thể tìm thấy ước lượng tốt cho các trung tâm cụm nếu X là tối đa không đầy đủ; điều này được chứng minh bằng cách sử dụng các ví dụ trong hình

Hình 2.1 Biểu diễn các giá trị trong không gian hai chiều [3]

Hình 2.2 Các cụm tối đa không đầy đủ [3]

Một trong số hai đồ thị trong Hình 2.2 mô tả một tập hợp dữ liệu hai chiều (2-D) tối đa không đầy đủ, trong đó, nếu hoàn thành, sẽ có hai cụm hình ảnh Những bộ dữ liệu tối đa không đầy đủ đã thu được bằng cách bắt đầu với dữ liệu đầy đủ, mà vị trí được chỉ định bởi các chấm tròn; và sau đó cho mỗi đối tượng, chỉ định cho một trong hai giá trị đặc trưng của nó như là "mất tích" Nếu ta biết rằng 𝑐 = 2, khi đó ta có thể khôi phục lại các ước tính (đầy đủ) hợp lý của các trung tâm cụm dữ liệu ban đầu từ các dữ liệu tối đa không đầy đủ? Đây là một mục tiêu của phân tích cụm trong một tập hợp dữ liệu không đầy đủ Câu trả lời là có cho dữ liệu biểu diễn ở bên trái hình

2.2 (hình 2.2(a)), nhưng không với hình bên phải, nơi hai "cụm ảo" bổ sung được nêu

(Trong thực tế, một trong hai đồ thị trong Hình 2.2 phù hợp với một số bộ dữ liệu hoàn chỉnh khác có nhiều hơn hai cụm.) Gom cụm là khó khăn, và ví dụ này minh họa một khó khăn thêm vốn có trong gom cụm dữ liệu không đầy đủ.

Kết luận chương 2

Trong chương này, những nội dung liên quan đến bài toán gom cụm đã được trình pháp gom cụm được ứng dụng trong nhiều lĩnh vực Đồng thời cũng giới thiệu hướng tiếp cận về dữ liệu không đầy đủ một cách khái quát nhất

Một nhiệm vụ mới đối với các phương pháp gom cụm là phải làm sao giải quyết bài toán gom cụm với tập dữ liệu không đầy đủ Trên cơ sở đó chương tiếp theo sẽ trình bày một số thuật toán tiếp cận với vấn đề dữ liệu không đầy đủ

Ta cũng dễ nhận thấy rằng không có một giải thuật gom cụm nào có thể giải quyết được mọi vấn đề, thường là mỗi giải thuật được thiết kế để giải quyết một giả định cụ thể nào đó Các công nghệ mới ra đời đòi hỏi nhiều giải thuật gom cụm mạnh hơn nữa để giải quyết các nhiệm vụ phức tạp Các tiêu chí sau đây là quan trọng đối với hiệu quả của một thuật toán gom cụm mới:

1) Có thể tạo ra cụm với hình dạng tùy ý

2) Thao tác trên lượng dữ liệu lớn và nhiều chiều với độ phức tạp cho phép

3) Phát hiện và loại bỏ nhiễu cùng các giá trị ngoại lai

4) Giảm sự phụ thuộc của thuật toán vào thông số chủ quan của người dùng

5) Có thể xử lý dữ liệu phát sinh

6) Không bị ảnh hưởng của mẫu đầu vào

7) Trực quan dữ liệu tốt để có thể phân tích sâu sắc hơn

8) Dễ dàng thích nghi với loại dữ liệu khác.

CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN GOM CỤM DỮ LIỆU KHÔNG ĐẦY ĐỦ 18

K-means với ràng buộc mềm

Trong [18] phương pháp gom cụm K-means với các giá trị bị thiếu được trình bày dựa trên ràng buộc mềm Ý tưởng của phương pháp này là xác định những ràng buộc mềm của các đặc trưng với các giá trị bị thiếu tích và sử dụng các thông tin thêm Tập trị đặc trưng F 1, , F d được chia thành tập các đặc trưng được quan sát hoàn toàn F obs và tập các đặc trưng với giá trị bị thiếu F mis Một hạn chế mềm giữa hai điểm dữ liệu đầy đủ x i và x j cho i, j ∈ {1, , n} được định nghĩa là một bộ ba: x ,x ,s i j với giá trị s được tính theo

2 ik jk k F s = - x - x (27) Độ mạnh (strong) của s tỷ lệ thuận với khoảng cách trong F mis và xác định mức độ mà các điểm dữ liệu x i và x j nên được tách ra Lưu ý rằng ràng buộc mềm được xác định là duy nhất giữa các mục dữ liệu đầy đủ, các mục dữ liệu với các giá trị bị thiếu không có ràng buộc nào được tạo ra

Thuật toán gom cụm K-means với ràng buộc mềm (KSC) phân loại tập dữ liệu X trên các giá trị đặc trưng của tập F obs Các giá trị đặc trưng trên tập F mis chỉ cung cấp cơ sở xác định các ràng buộc mềm Tập các ràng buộc mềm được xem như tham số bổ sung lúc đầu KSC làm việc cùng kiểu với K-means chỉ khác K-means là ở đầu mỗi vòng lặp việc gán các điểm dữ liệu vào cụm theo công thức

V CV (28) cho đến khi hội tụ Số hạng đầu tiên là bình phương khoảng cách giữa điểm dữ liệu liệu trong tập dữ liệu X Số hạng thứ hai CV x tương ứng tổng bình phương s của các vi phạm ràng buộc mềm Một ràng buộc mềm x ,x ,s i j được coi là vi phạm nếu x i và x j được gán vào chung cụm dù chúng thuộc các cụm khác nhau Và bình phương giá trị x là giá trị bù cho việc gán sai Giá trị CV x chuẩn hóa bởi CV max , tổng của độ mạnh s của tất cả ràng buộc mềm một cách độc lập Trọng số w    0 1 , tương ứng độ quan trọng giữa khoảng cách chuẩn hóa và các ràng buộc

Mục này trình bày một cách tiếp cận mới mà chia các đối tượng dữ liệu vào F obs , các đối tượng được quan sát, và F mis , các đối tượng không đầy đủ Và tạo ra một tập các ràng buộc mềm dựa trên khoảng cách tính trên giá trị được biết cho F mis

K-means với chiến lược khoảng cách từng phần

Bản thân K-means không thể ứng phó với dữ liệu không đầy đủ, nhưng có khả năng thích nghi với các giá trị bị thiếu khi sử dụng hàm khoảng cách từng phần thay vì sử dụng hàm khảng cách Euclidean để tính độ tương tự giữa các điểm dữ liệu

Chiến lược này được gọi là chiến lược khoảng cách từng phần Hathaway và Bezděk cũng có sử dụng chiến lược này cho gom cụm mờ với dữ liệu không đầy đủ Áp dụng chiến lược này cho K-means với dữ liệu không đầy đủ, thuật toán tương ứng chiến lược này được gọi là thuật toán K-means trên khoảng cách từng phần-PDS K-Means (Partial Distance Strategy K-Means Algorithm) [8]

Khoảng cách từng phần giữa hai điểm dữ liệu x và y trong một không gian vectơ d-chiều được tính như sau part     2

1, nếu nếu 𝑥 𝑖 hoặc 𝑦 𝑖 bị thiếu Hàm khoảng cách một phần tính toán khoảng cách Euclidean bình phương giữa tất cả các giá trị đặc trưng sẵn có của các điểm dữ liệu và chuẩn hoá nó Nếu cho hai đối tượng dữ liệu tất cả các giá trị đặc trưng có sẵn, hàm khoảng cách từng phần trở thành hàm tính toán khoảng cách Euclidean bình phương giữa chúng

Khi các điểm dữ liệu trong một cụm có thể có giá trị bị thiếu, tọa độ của tâm cụm được tính theo trung bình số học của tất cả các đặc trưng có sẵn của các điểm dữ liệu trong cụm theo công thức sau

Phương pháp này sử dụng tất cả các giá trị đặc trưng có sẵn vào gom cụm để toàn bộ thông tin về các điểm dữ liệu với các giá trị bị thiếu có thể được sử dụng một cách có ý nghĩa.

Giải thuật di truyền lai với Fuzzy c-means (IGA-FCM)

Trong chiến lược lai giữa giải thuật di truyền và Fuzzy c-means [11] để đo sự tương đồng giữa các điểm dữ liệu không đầy đủ thay vì sử dụng thước đo Euclidean truyền thống, họ đề xuất một khoảng lân cận gần nhất Khoảng lân cận này được xem xét như sau, với mỗi dữ kiện không đầy đủ x ~ b , tìm q lân cận gần nhất với nó để hình thành một khoảng dữ liệu thiếu

~  x jb là các trị cực đại và cực tiểu của thuộc tính thứ j của lân cận, khi đó biểu diễn khoảng của

Các thuộc tính còn thiếu này sẽ được dùng như chuỗi gen trong di truyền như sau

Trong đó E là dân số, M là quy mô dân số, với dữ liệu X = x ,x , ,x ~  ~ 1 ~ 2 ~ n không đầy đủ s-chiều, nhiễm sắc thể thứ p của dân số ở thế hệ t có h thành phần Trong tiến trình di truyền mỗi phần tử e pg trong nhiễm sắc thể E p   t thỏa mãn ràng buộc khoảng

  - +  pg g g e e ,e Dân số ban đầu của các giải pháp có thể được tạo ra ngẫu nhiên tương ứng với khoảng lân cận gần nhất, đó là

Hàm fitness được tính như sau fitness      p  c n 2 m ik k i i=1 k=1 2

(33) Áp dụng trong các cơ chế di truyền:

2 2 p f max min w E t + E t +( - w)(E + E ) offsp = (36) offsp = 3 max  E t ,E t p     f  w+  1 - w E  max (37) offsp = 4 min  E t ,E t p     f  w+  1 - w E  min (38)

 Đột biến: thống nhất sử dụng ở đây là lựa chọn ngẫu nhiên một nhiễm sắc thể

E p t thay thế bằng E t + p   1 , trong đó mỗi phần tử e pj là một giá trị ngẫu nhiên trong khoảng lân cận gần nhất e ,e - j + j  tương ứng

Thông thường giải thuật di truyền sẽ kết thúc khi mà đạt được số lượng thế hệ tối đa hoặc đủ thỏa mãn hàm fitness

~ x b không đầy đủ có thuộc tính

~ x jb bị thiếu, tìm q lân cận gần nhất với nó theo khoảng cách từng phần và xác định khoảng  

~ ~ jb jb x ,x Đánh số lại theo thứ tự để có khoảng e ,e - g + g  2) chọn m, c và ε cho gom cụm, ε > 0, quy mô dân số M, số thế hệ tối đa G, và giá trị xác suất P c cho lai ghép, xác suất đột biến P m Khởi tạo thế hệ đầu tiên

3) Khi chỉ số thế hệ di truyền là t , phục hồi dữ liệu không đầy đủ

X sử dụng mỗi nhiễm sắc thể E p   t để được dữ liệu hoàn chỉnh X, thực thi FCM trên

4) Tính hàm fitness cho mỗi nhiễm sắc thể Xếp tăng dần các cá thể theo hàm fitness Lưu lại hai cá thể tốt nhất

5) Thực hiện vòng quay roulette theo công thức xác suất cơ chế lựa Chọn M-2 cá thể và giữ hai cá thể tốt nhất

6) Ngoại trừ hai cá nhân tốt nhất, thực hiện lai ghép dựa trên cạnh tranh và lựa chọn tối ưu theo xác xuất lai gép P c và tạo ra bốn con là offsp1, offsp2, offsp3, offsp4, và chọn ra hai con có fitness cao nhất để thay thế nhiễm sắc thể cha mẹ

7) Ngoại trừ hai cá nhân tốt nhất, thực hiện đột biến theo xác suất đột biến P m

8) Nếu t=G, dừng giải thuật, nếu không thỏa đặt t=t+1 sau đó quay lại 3)

Phần này đã trình bày tiếp cận giải thuật di truyền lai Fuzzy c-means trong bài toán gom cụm dữ liệu không đầy đủ Thuật toán được đề xuất có hai đặc điểm chính Thứ nhất, dựa vào khoảng cách giữa các phần dữ liệu không đầy đủ và các mẫu khác trong tập dữ liệu, các thuộc tính mất tích được đại diện bởi các khoảng lân cận gần nhất có thể nắm bắt được bản chất của mô hình tương đồng trong bộ dữ liệu Theo đó, việc tính toán thành phần bị thiếu có thể được giới hạn trong các tập con có chứa láng giềng gần nhất của dữ liệu không đầy đủ chứ không phải là toàn bộ không gian thuộc tính, có thể tránh được những tác động của thông tin không đúng về ước lượng một cách hiệu quả thuộc tính bị thiếu Thứ hai, dựa vào biểu diễn khoảng thuộc tính bị thiếu, việc tối ưu hóa thuộc tính còn thiếu trong khoảng lân cận gần nhất tương ứng và kết quả gom cụm của tập dữ liệu không đầy đủ có thể đạt được cùng một lúc.

Thuật toán gom cụm Mean shift với dữ liệu không đầy đủ

Để áp dụng thuật toán Mean shift cho dữ liệu không đầy đủ theo [1] họ xem xét lại hàm đo khoảng cách một cách khái quát cho A là một tập các điểm dữ liệu, đối với đặc trưng thứ i là C i , xác suất có điều kiện C i sẽ được tính theo giá trị đã biết cho đặc trưng này từ A với χ i là phân bố của đặc trung thứ i Cho hai đểm dữ liệu mẫu X và Y trong A, ta cần tính khoảng cách giữa chúng, vớix i vày i là các giá trị của đặc trưng thứ i tương ứng của X và Y Có ba trường hợp xảy ra với các giá trịx i vày i , với mỗi trường hợp hàm khoảng cách được tính như sau:

Hai giá trị được biết : lúc này khoảng cách được đo bằng khoảng cách Euclidean

Một giá trị bị thiếu : Ta không thể dùng khoảng cách Euclidean Thay vì vậy khoảng cách được mô hình như là việc chọn ngẫu nhiên các điểm dữ liệu từ phân bố của đặc trưngχ i và sau đó tính khảng cách từ mỗi điểm dữ liệu, giá trị trung bình của tính toán này sẽ là khoảng cách cần tính Với i và  i là số trung bình (mean) và phương sai (variance) của thuộc tính, ta có hàm khoảng cách được tính như sau:

Cả hai giá trị bị thiếu : Chọn ngẫu nhiên các giá trị của x i và y i, cả hai giá trị này được chọn từ phân bố χ i , ta có hàm khoảng cách như sau:

Thuật toán Mean shift cho dữ liệu thiếu

Dùng hàm khoảng cách, ước lượng mật độ sẽ được viết lại thành

Số hạng đầu đại diện số thuộc tính đã biết của mỗi x i , số hạng thứ hai đại diện số thuộc tính chưa biết của mỗi x i Áp dụng hàm khoảng cách đối với dữ liệu bị thiếu ta được vector Mean shift sử dụng hàm khoảng cách MD được định nghĩa như sau

Bây giờ chúng ta có thể sử dụng phương trình này để chạy thủ tục Mean shift trên bộ dữ liệu với các giá trị bị thiếu

Mean shift bắt đầu quá trình lặp đi lặp lại từ mỗi điểm trong bộ dữ liệu Vì thế, nó cũng bắt đầu từ điểm không đầy đủ, trong một số trường hợp các khoảng cách từ một điểm không đầy đủ đến tất cả các điểm dữ liệu khác là lớn hơn so với băng thông h

Trong trường hợp này, vector Mean shift sẽ là hàng xóm đầu tiên gần nhất với chính nó, lúc này giải thuật Mean shift sẽ dừng lại và điểm này cũng sẽ là mode của điểm

Trong các trường hợp khác các điểm gần nhất sẽ là một điểm khác từ các dữ liệu và sau đó quá trình lặp lại của các thủ tục Mean shift sẽ bắt đầu với điểm này, và các thuật toán sẽ lặp đi lặp lại cho đến khi tiếp tục hội tụ

Trong phần này, đã đề xuất một thuật toán gom cụm Mean shift mới trên bộ dữ liệu với các giá trị bị thiếu bằng cách sử dụng khoảng cách MD đã được trình bày trong (43) Các tính toán để tính vector Mean shift sử dụng khoảng cách MD là tương tự như vector Mean shift sử dụng khoảng cách Euclidean.

Bốn chiến lược gom cụm dữ liệu không đầy đủ dựa trên FCM

FCM là một công cụ hữu ích để gom các cụm có ranh giới không rõ ràng, nhưng nó không được áp dụng trực tiếp với trường hợp dữ liệu không đầy đủ Bốn chiến lược dùng FCM gom cụm các tập dữ liệu không đầy đủ được đưa ra ở [3] và [8] ba trong số đó liên quan đến phiên bản sửa đổi của thuật toán FCM Tính hội tụ của các thuật toán mới được thảo luận, và tất cả các phương pháp được kiểm tra qua các bộ dữ liệu không đầy đủ thực tế và nhân tạo được tạo ra ở [3]

Các kí hiệu được dùng:

𝑥 𝑘𝑗 = 𝑗 𝑡ℎ , giá trị đặc trưng của data vector thứ k, 1 ≤ 𝑗 ≤ 𝑠 1 ≤ 𝑘 ≤ 𝑛;

𝑋 = {𝑥 1 , , 𝑥 𝑛 } ; 𝑋 𝑊 = {𝑥 𝑘 ∈ 𝑋|𝑥 𝑘 là một dữ kiện đầy đủ}

𝑋 𝑃 = {𝑥 𝑘𝑗 với 1 ≤ 𝑗 ≤ 𝑠, 1 ≤ 𝑘 ≤ 𝑛| giá trị 𝑥 𝑘𝑗 được biểu diễn trong 𝑋}

𝑋 𝑀 = {𝑥 𝑘𝑗 =? với 1 ≤ 𝑗 ≤ 𝑠, 1 ≤ 𝑘 ≤ 𝑛| giá trị 𝑥 𝑘𝑗 không có trong 𝑋}

Ví dụ với s=3 và n= 4, dữ liệu X sau bị thiếu

Nếu tỉ lệ dữ liệu không đầy đủ là nhỏ, P 0.75 s n n  , với n P  X P , n s  X s , khi đó tả có thể đơn giản loại bỏ các dữ liệu không đủ đó rồi áp dụng giải thuật FCM lên phần dữ liệu đầy đủ còn lại

Partial Distance Strategy (PDS) Đây là chiến lược cho các trường hợp |𝑋 𝑀 | đủ lớn mà WDS không thỏa mãn, chiến lược này đi tính toán khoảng cách từng phần sử dụng các giá trị đặc trưng không bị thiếu

Giải thuật PDSFCM được hiện thực qua hai thay đổi trên FCM:

1) Tính 𝐷 𝑖𝑘 cho dữ liệu không đầy đủ (44) với 𝐼 𝑘𝑗 = {0, nếu 𝑥 𝑘𝑗 ∈ 𝑋 𝑀

Cách tiếp cận này được hưởng tất cả các đặc tính hội tụ tiêu chuẩn của FCM bởi vì nó là sự tối ưu hóa luân phiên

Chiến lược này xem các thành phần bị thiếu như các biến cần tối ưu để đạt được giá trị 𝐽 𝑚 nhỏ nhất có thể Bằng cách hoàn chỉnh các dữ liệu bị thiếu thông qua giá trị nhỏ nhất 𝐽 𝑚 cho bởi 𝑋 𝑃

Optimal Completion Strategy Fuzzy c-Means Algorithm (OCSFCM):

( 1) 1 n r m ik kj kj r k ij n r m ik kj k

𝑚 > 1,1 < 𝑐 < 𝑛 , 𝜀 > 0 Chọn 𝑣 (0) ⊂ 𝑅 𝑠 và 𝑋 𝑀 (0) 2) Tính thông qua

(46) với với và 3) Tính thông qua

4) So sánh với , nếu thỏa thì ngừng giải thuật, nếu không thỏa thực hiện tiếp bước 5)

5) Tính cho các thông qua

(48) đặt r=r +1 sau đó quay lại bước 2)

Các bước 2), 3), và 5) cho thấy rằng OCSFCM tối ưu ba mức xen kẽ nhau Như vậy, nó có đặc tính hội tụ của tối ưu hóa ba mức xen kẽ nhau

Thuật toán này được xem như sự thay đổi đơn giản của OCSFCM, với bước 5) của OCSFCM được thay bằng

(49) đặt r=r +1 sau đó quay lại bước 2)

Khi NPSFCM kết thúc, chưa có lý thuyết rằng thủ tục này sẽ hội tụ

Chúng ta đã xem xét bốn chiến lược dựa trên FCM để gom cụm dữ liệu không đầy đủ và xem xét tính hội tụ của chúng Có nhiều hình thức không đầy đủ các dữ liệu khác hơn so với trường hợp giá trị bị thiếu đặc trưng thảo luận ở đây, ví dụ chúng ta không biết chính xác 𝑥 𝑘𝑗 là bao nhiêu khi chỉ biết là 𝑥 𝑘𝑗 ≥ 10 Trong trường hợp này lựa chọn giải thuật OCS là hợp lý nhất, và do vậy, OCS được xem là có tiềm năng hơn các chiến lược khác

Bốn cách tiếp cận khác nhau của FCM cho dữ liệu không đầy đủ đã được xem xét WDSFCM bỏ đi các đối tượng bị thiếu dữ liệu PDSFCM thay đổi các tính toán bằng cách sử dụng hết các thông tin có sẵn OCSFCM xử lý các dữ liệu bị thiếu như các biến đó sẽ được tối ưu hóa để có được giá trị nhỏ nhất có thể được của hàm mục tiêu J m NPSFCM ước tính các giá trị dữ liệu bị thiếu dựa trên các giá trị thành phần của cụm đại diện gần nhất Các tính chất hội tụ của PDSFCM và OCSFCM chính xác như FCM, và nó tuân theo tối ưu hóa xen kẽ Thực tế tất cả các kỹ thuật kế thúc trong các trường hợp, nhưng theo lý thuyết sự hội tụ của NPSFCM không được đảm bảo

WDSFCM hoạt động tốt với tỷ lệ phần trăm nhỏ của dữ liệu bị thiếu (ít hơn 15-20%)

OCSFCM tạo ra các mẫu cụm chính xác nhất trong trường hợp bộ dữ liệu tối đa không đầy đủ.

Gom cụm dữ liệu không đầy đủ dùng kernel-based fuzzy c-means

Trong phần này, một thuật toán gom cụm mới bằng cách sử dụng phương pháp hạt nhân dựa trên thuật toán gom cụm mờ FCM được đề xuất và được gọi là kernel-based fuzzy c-means [6] KFCM áp dụng thước đo kernel-induced trong không gian dữ liệu để thay thế thước đo chuẩn Euclidean ban đầu của FCM và các nguyên mẫu nhóm vẫn nằm trong không gian dữ liệu cũ ban đầu để các kết quả gom cụm có thể được dựng lại và giải thích trong không gian ban đầu Phân tích cho thấy rằng KFCM là mạnh mẽ với nhiễu và sự chênh lệch và cũng có thể gom các cụm có kích thước không đồng đều Và cuối cùng đặc tính này được sử dụng để gom cụm dữ liệu không đầy đủ Các thí nghiệm trong [6] cho thấy KFCM có hiệu suất gom cụm tốt hơn và mạnh mẽ hơn so với một số chiến lược của FCM cho gom cụm dữ liệu không đầy đủ

Thuật toán KFCM được đề xuất gom cụm dữ liệu không đầy đủ Hơn nữa, vì KFCM thích nghi với giá trị ngoại lai và nhiễu tốt hơn so với FCM, nó đặc biệt thích hợp để đối phó với dữ liệu không đầy đủ

Kernel-based fuzzy c-means (KFCM)

Giả sử chúng ta có một ánh xạ phi tuyến  : x   ( ) x  F , với xX X là không gian dữ liệu, và F là không gian đặc trưng đã được biến đổi với số chiều nhiều hơn hoặc thậm chí là vô hạn chiều KFCM tối thiểu hóa hàm mục tiêu sau

K x y   x  y là một hàm kernel Nếu ta áp dụng hàm Gaussian như một hàm hạt nhân, chẳng hạn K x y( , )exp( x y 2 / 2 ), khi đó K x x ( , )  1, hàm mục tiêu có thể viết lại thành

Công thức trên có được khi ta dùng hàm kernel Gaussian, chúng ta cũng có thể dùng hàm kernel khác thỏa mãn K x x ( , )  1, trong các ứng dụng thực tế ta có thể dùng hàm kernel RBF (Radial basic function) hoặc hàm hyper tangent

Gom cụm dữ liệu không đầy đủ với KFCM Để thực hiện gom cụm trên dữ liệu không đầy đủ, chúng ta dùng thuật toán sau đây dựa trên KFCM với hàm kernel Gaussian cho các công thức

1) Chọn c, m1 và  0; 2) Thiết lập x kj =0 , nếu x kj là một đặc trưng còn thiếu;

3) Khởi tạo các nguyên mẫu cụm v i từ giải thuật FCM;

4) For a Cập nhật thành viên u ik ( r  1) bằng công thức

(56) b Cập nhật các tâm cụm v i ( r  1) bằng công thức

(57) c Tính giá trị thiếu với công thức

1, 2, , max t  t d Tính , nếu thỏa thì ngừng giải thuật

Nếu không thỏa, gán r=r +1 sau đó quay lại bước 4.a

Với các bước 4.a, 4.b, và 4.c, khi mà   thì K x v  k , i  ~ 1 x k v i 2 / 2 , lúc này KFCM trở thành FCM cổ điển, lúc này trở thành WPSFCM, nếu  0, 5) trở thành kj pj x  v với pmin i  x k v i 2 , đây chính là NPSFCM

Phần này đã đề xuất một độ đo mới kernel-induced để thay thế các chẩn Euclidean trong thuật toán FCM trong không gian ban đầu và sau đó thay thế bằng thuật toán KFCM Nó cho thấy các thuật toán gom cụm kernel được đề xuất là mạnh mẽ với nhiễu và cũng cho phép cụm có kích thước không đồng đều.

Fuzzy self-organizing maps

Self-organizing maps (SOM) [14] đã trở thành một kỹ thuật phân tích cụm thường được sử dụng trong khai phá dữ liệu Tuy nhiên, SOM không có khả năng xử lý dữ liệu không đầy đủ Để tăng khả năng hơn nữa của khai thác dữ liệu trong SOM, một đề xuất đó là mô hình SOM-based fuzzy map [15] cho khai phá dữ liệu với dữ liệu không đầy đủ Sử dụng mô hình này, dữ liệu không đầy đủ được chuyển thành dữ liệu mờ, và được sử dụng để tạo ra các quan sát mờ Những quan sát mờ, cùng với các quan sát không bị thiếu giá trị, sau đó được sử dụng để đào tạo các SOM để tạo ra đồ thị mờ So với các phương pháp tiếp cận SOM tiêu chuẩn, đồ thị mờ được tạo ra bởi phương pháp này có thể cung cấp thêm thông tin để khám phá tri thức

Quan sát mờ với các giá trị bị thiếu

Giả định rằng một quan sát X x x ( 1 , 2 , x m ) đại diện cho một sự kiện rời rạc trong không gian mẫu, trong đó mỗi biến x j  j  1, 2, m  có giá trị rời rạc Trong trường hợp một biến có giá trị liên tục, người ta có thể tạo các bin dựa trên tiêu chí nhất định trong một khoảng Số lượng các bin có thể ảnh hưởng đến thời gian tính toán, nhưng đặc biệt là không ảnh hưởng đến khám phá tri thức trong khai phá dữ liệu

Nếu một quan sát không bị thiếu dữ liệu được coi là rõ ràng, thì quan sát với dữ liệu thiếu trở nên mờ do sự không chắc chắn của các giá trị thiếu Tuy nhiên, trong trường hợp rời rạc, các giá trị có thể của dữ liệu bị thiếu có thể được biết đến Ngoài ra, người ta có thể ước tính khả năng giá trị thiếu cho biến dữ liệu bị thiếu dựa trên kiến thức chung hoặc phân bố dữ liệu có sẵn Sự kiện mờ này sau đó được chấp nhận như một tập hợp các quan sát rõ ràng bằng cách gán trọng số cho khả năng của các giá trị bị thiếu tích, được gọi là quan sát mờ Ví dụ, giả sử chúng ta có một quan sát

E    u E t  một trong các giá trị từ {1 , 2, 3, 4, 5} Nếu dữ liệu có sẵn cho thấy cơ hội trong năm giá trị bằng nhau, khi đó quan sát mờ có thể được coi là tổng của năm trọng số quan sát: 0.2  1, 2, , , , m  i X x x i x

 (i=1, , 5) Năm quan sát có thể được sử dụng để đào tạo các SOM để tạo ra đồ thị mờ

Cho A là một sự kiện không mờ, A trong đó là không gian mẫu dữ liệu

Hàm thành viên A của quan sát X x x ( 1 , 2 , x m ) không có giá trị bị thiếu được xác định là 1; nghĩa là

Giả sử các quan sát có giá trị thiếu x c và x c  R , trong đó R = {r 1 , r 2 , , r p } là sự các giá trị có thể có của x c Các quan sát trở nên mờ; khi đó

X x x ( 1 , 2 , , x c , x m )  A ~ (60) trong đó A ~ là một sự kiện mờ  j ký hiệu cho mức độ mờ của thành viên của các quan sát mờ thuộc về khả năng của quan sát rõ ràng

Nói cách khác j là khả năng mà các biến dữ liệu bị thiếu có giá trị r j , hay nói một cách mờ, các thành viên mờ mà biến dữ liệu bị thiếu thuộc r j Sự kiện mờ A ~ có thể được viết như sau

A  A x r   A x r   A x r  (62) Trường hợp j là thành viên mờ của các quan sát mờ thuộc về khả năng một quan sát rõ ràng tương ứng và khi đó

Nếu một quan sát có nhiều hơn một biến mất dữ liệu, người ta có thể làm việc trên một biến dữ liệu thiếu mỗi lần, và lặp lại các thủ tục để tạo ra quan sát mờ cho nó Để xác định  j người ta phải chọn hàm thành viên mờ cho biến dữ liệu bị thiếu dựa trên kiến thức tổng quát hoặc dữ liệu có sẵn Ví dụ, giả sử một câu hỏi khảo sát về đánh giá giảng dạy đòi hỏi năm cấp điểm số Một hàm thành viên mờ có thể được tìm thấy, chẳng hạn như {0.3/5, 0.3/4, 0.2/3, 0.13/2, 0.07/1} cho các giá trị bị thiếu dựa trên các bảng ghi dữ liệu hoàn chỉnh trong cơ sở dữ liệu

Một ví dụ đơn giản để giải thích các thủ tục sinh các quan sát mờ Giả sử chúng ta có một quan sát với dữ liệu thiếu X = [1, Z, 2], trong đó Z là biến với giá trị bị thiếu và Z = {0.2/2, 0,8/3} Sau đó, các quan sát mờ cho các sự kiện mờ A ~ = {0,2 [1, 2, 2] và 0,8 [1, 3, 2]} j 1 j

Khi có nhiều hơn một biến có giá trị bị thiếu, chúng ta có thể làm việc trong một biến dữ liệu bị thiếu mỗi lần, và lặp lại các thủ tục với biến dữ liệu bị thiếu tiếp theo để tạo ra một tập hợp các quan sát mờ mờ cho các sự kiện Ví dụ, giả sử chúng ta có một quan sát với thiếu dữ liệu X = [1, z, y], trong đó z và y là các biến với các giá trị bị thiếu, và z = {0,2/2, 0,8/3} và y = {0,7/4, 0,3/5} Khi đó ta có bốn quan sát mờ cho các sự kiện mờ A~ = {0.14[1, 2, 4] và 0.06[1, 2, 5] và 0.56[1, 3, 4] và 0.24[1, 3, 5]}

Phương pháp đề xuất là chuyển đổi quan sát với giá trị bị thiếu thành những quan sát mờ và sau đó sử dụng chúng để đào tạo các SOM để tạo ra một đồ thị mờ Sau khi quan sát với dữ liệu bị thiếu đã được chuyển thành những quan sát mờ, mỗi một trong số các quan sát mờ được tạo ra sẽ trở thành một quan sát với dữ liệu đầy đủ, nhưng sở hữu mức thành viên mờ Tất cả quan sát rõ ràng và mờ sau đó được sử dụng để đào tạo các SOM Mô hình đồ thị mờ dựa trên SOM này khác với cách tiếp cận thông thường của SOM Nó nhớ độ mờ của một quan sát nếu nó được bắt nguồn từ một quan sát mờ, và tích lũy giá trị của thành viên mờ cho mỗi nút đầu ra cho các thế hệ đồ thị mờ Phương pháp này không làm thay đổi thuật toán huấn luyện của SOM cho mỗi đầu vào Tuy nhiên, sau khi đào tạo, đồ thị mờ được mô tả không chỉ dựa trên SOM được đào tạo, mà còn trên các thành viên mờ của những quan sát huấn luyện

Quy trình của phương pháp đề xuất được tóm tắt dưới đây

(1.1) Gọi S là số quan sát có sẵn, S1 số quan sát mà không bị thiếu giá trị, và S2 số quan sát với các giá trị bị thiếu Quan sát thứ f (f = 1 S2) với giá trị bị thiếu, tạo ra quan sát mờ F f , và F f = {p 1 , p 2 , , p q }, trong đó p g (g 1, , q) là số các giá trị có thể có của x g , và q là số lượng các biến có giá trị thiếu tổng số quan sát trở thành S'= S1 + (F l + F 2 + + F S2 )

(1.2) Đặt s là chỉ số của tất cả các quan sát sắc nét và mờ Mỗi quan sát cho huấn luyện SOM là Xs(s = 1,2, , S') A s là mảng ghi thành viên mờ của mỗi Xs(s =1,2, , S') A s = 1, nếu Xs là một quan sát rõ nét hoặc A s = A~, nếu Xs là một quan sát mờ

2) Khởi tạo các thủ tục đào tạo SOM

(2.1) Đặt thời gian t =0 (2.2) Đặt SOM với các nút m đầu vào và N nút đầu ra, trong đó m là số chiều của đầu vào X, và N là số lượng cột của đồ thị Khởi tạo các trọng số w ij

(t = 0), từ nút đầu vào i(i = 1 , 2, , m) nút đầu ra j(j = 1, 2, , N), để số ngẫu nhiên nhỏ

(2.3) Thiết lập các khu vực lân cận ban đầu v(t = 0) = k, và k là một số nguyên

(2.4) Cho tốc độ learning ban đầu (t = 0) = p, trong đó 0 0, giá trị dừng 𝜀 > 0

2) Tìm các mode tương ứng theo công thức sau ( ) ( ) ( ) 2 r r n r x x i x g  

3) Kiểm tra nếu thỏa điều kiện x i ( r  1) x i ( ) r thì dừng giải thuật gán các giá trị thành phần bị thiếu của dữ liệu gốc bằng với giá trị thành phần tương ứng của mode tương ứng theo:

( ) o ( r 1) ij ij x  x  với x ij ( ) o là thành phần ban đầu bị thiếu (68) 4) Nếu chưa thỏa thì gán x kj ( r  1)  x ij ( r  1) với D ik min{D 1 k ,D 2 k , ,D nk } (69) Đặt r r 1sau đó quay lại bước 2)

Như vậy giá trị dữ liệu bị thiếu sẽ được cập nhật thông qua mode của các đối tượng tương ứng.

Chương này đã nêu rõ các vấn đề cụ thể của bài toán gom cụm, nhiệm vụ mà luận văn cần phải giải quyết, đó là chất lượng cụm tốt và xử lý được dữ liệu không đầy đủ

Với hướng tiếp cận phương pháp gom cụm dựa trên kernel, vấn đề của bài toán đã được giải quyết với hai thuật giải KFCM cải tiến và Mean shift với mode gần nhất.

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Môi trường và tập dữ liệu thực nghiệm

Các giải pháp đưa ra được hiện thực bằng ngôn ngữ java trên IDE IntelliJ IDEA

Môi trường hiện thực là trên máy Samsung, core i7, ram 8gb và sử dụng hệ điều hành window 8.1

Tập dữ liệu thực nghiệm

Tập dữ liệu thực nghiệm gồm:

- Tập dữ liệu nhân tạo hai chiều , mỗi tập gồm hai cụm theo ý tưởng của mô tả trong [6] gồm bốn tập dữ liệu:

 DS (Diagonally-positioned Small) với bán kính 20 tâm (50,50) và

 HS (Horizontally-positioned Small) với bán kính 20 tâm (50,50) và

 DL (Diagonally-positioned Large) với bán kính 40 tâm (50,50) và

 HL (Horizontally-positioned Large) với bán kính 40 tâm (50,50) và (150,50)

- Tập dữ liệu Iris , gồm 150 đối tượng hoa Iris với 4 thuộc tính , và 3 nhãn lớp

Ba lớp gồm Setosa, Versicolor và Virginica, trong đó Setosa phân tách với hai lớp còn lại, còn Versicolor và Virginica bị chồng lấp các vector thuộc tính

Mỗi lớp gồm 50 đối tượng

- Tập dữ liệu seed, gồm 210 đối tượng hạt giống cây lúa mì, với 7 thuộc tính, và 3 nhãn lớp thuộc ba giống khác nhau: Kama, Rosa, Canadian Mỗi lớp gồm 70 đối tượng Để tạo ra bộ dữ liệu không đầy đủ, đầu tiên một bộ dữ liệu hoàn chỉnh X được chọn Sau đó, X được sửa đổi để có được một dữ liệu không đầy đủ bằng cách cho ngẫu nhiên một tỷ lệ phần trăm 10-50% các thành phần {x kj } của nó mất đi Việc lựa chọn ngẫu nhiên của các giá trị mất được ràng buộc bởi:

1 Mỗi đối tượng x k vẫn giữ được ít nhất một thành phần;

2 Mỗi đặc trưng có ít nhất một giá trị hiện diện trong các dữ liệu không đầy đủ

Các chỉ số dùng đánh giá chất lượng cụm trong thực nghiệm gồm:

- Xie-Beni (X-B), giá trị càng nhỏ càng tốt

- Fukuyama-Sugeno (F-S), giá trị càng nhỏ càng tốt

- Dunn, giá trị càng lớn càng tốt

- Chỉ số Error input để đo lường hiệu quả của việc xử lý dữ liệu bị thiếu khi thực hiện gom cụm trên tập dữ liệu không đầy đủ Giá trị thể hiện của chỉ số càng nhỏ càng tốt

Với x o gồm các đối tượng trong dữ liệu gốc, x m là các đối tượng sau khi gom cụm, n miss , số lượng các đối tượng không đầy đủ

Riêng Mean shift, các kết quả tổng kết sẽ bỏ qua giải thuật có kết quả trả về một cụm duy nhất

Các giải thuật dùng trong thực nghiệm được mô tả ở bảng II bên dưới

Bảng II: Mô tả các giải thuật dùng trong thực nghiệm

Tên thuật toán Mô tả thuật toán Công trình ocs Thuật toán OCS-FCM với chiến lược optimal completion

[3] nps Thuật toán NPS-FCM với chiến lược nearest prototype

[3] kfcm-gauss Thuật toán KFCM với kernel là hàm gauss

[6] kfcm-HT Thuật toán KFCM với kernel là hàm

[6] kfcm-RBF Thuật toán KFCM với kernel là hàm

[6] new-kfcm-gauss Cải tiến thuật toán KFCM với kernel là hàm gauss Đề xuất của luận văn new-kfcm-HT Cải tiến thuật toán KFCM với kernel là hàm Hyper tangent Đề xuất của luận văn new-kfcm-RBF Cải tiến thuật toán KFCM với kernel là hàm RBF Đề xuất của luận văn

MSM Thuật toán Mean shift dùng độ đo khoảng cách theo mean và variance

MSNM-initMean Mean shift cải tiến khởi tạo bằng các mean Đề xuất của luận văn

Mean shift cải tiến khởi tạo bằng các nearest Đề xuất của luận văn

Kết quả thực nghiệm

Thông số được cho như sau: Với các giải thuật FCM, KFCM m=2, 𝛿 = 100 , a=1.2, b=2 Mean shift dùng h

Trong tập DS, new-kfcm-gauss đo ở chỉ số Xie-Beni, Fukuyama-Sugeno trong các trường hợp bị thiếu đều cho kết quả tương đương hoặc tốt hơn kfcm-gauss Giải thuật Mean shift cải tiến đo ở chỉ số Dunn khoảng chỉ thấp hơn giá trị tốt nhất ở giải thuật

Mean shift ở [1] rất nhỏ Trong khoảng 10-20% dữ liệu bị thiếu, giá trị lệch trung bình của giải thuật Mean shift chỉ lệch rất nhỏ so với độ lệch thấp nhất, từ khoảng 30- 50% dữ liệu bị thiếu giá trị lệch trung bình tăng lên

Bảng III: Kết quả gom cụm tập DS với 10% bị thiếu

Algorithm C Xie-Beni F-S Dunn Error Input ocs 2 0.017571 -777406 2.591792 7.684944 nps 2 0.017661 -777689 2.36408 8.12116 kfcm-gauss 2 0.010417 -962544 2.595985 7.397903 kfcm-HT 2 0.010433 -959495 2.596433 7.396944 kfcm-RBF 2 0.032083 -687600 0.879558 12.40127 new-kfcm-gauss 2 0.010417 -962544 2.595985 7.397903 new-kfcm-HT 2 0.010433 -959495 2.596433 7.396944 new-kfcm-RBF 2 1.719555 36085.24 1.092469 37.55875

- Với tỉ lệ dữ liệu bị thiếu là 10% trên tập DS, dựa trên độ đo Xie-Beni và Fukuyama-Sugeno, thuật toán new-kfcm-gauss và kfcm-gauss cho kết quả tốt nhất Trên độ đo Dunn MSM cho kết quả tốt nhất Trên độ đo Error input new- kfcm-ht cho kết quả tốt nhất

- Xét riêng KFCM cải tiến cho kết quả tốt ngang KFCM ở [6] MSNM-initMean cho kết quả tốt hơn MSM ở hai độ đo Xie-Beni, Fukuyama-Sugeno, ở độ đo Dunn tốt gần như MSM và độ đo Error input gần kết quả tốt nhất

Bảng IV: Kết quả gom cụm tập DS với 20% bị thiếu

- Với tỉ lệ dữ liệu bị thiếu là 20% trên tập DS, dựa trên độ đo Xie-Beni và Fukuyama-Sugeno, thuật toán new-kfcm-gauss và kfcm-gauss cho kết quả tốt nhất Trên độ đo Dunn MSM cho kết quả tốt nhất Trên độ đo Error input, ocs cho kết quả tốt nhất

- Xét riêng KFCM cải tiến cho kết quả tốt ngang KFCM ở [6] MSNM-initMean cho kết quả tốt hơn MSM ở hai độ đo Xie-Beni, Fukuyama-Sugeno, ở độ đo Dunn tốt gần như MSM và độ đo Error input gần kết quả tốt nhất

Bảng V: Kết quả gom cụm tập DS với 30% bị thiếu

Algorithm C Xie-Beni F-S Dunn Error Input ocs 2 0.015675 -804547 2.626142 8.287239 nps 2 0.015886 -805883 2.3881 8.901119 kfcm-gauss 2 0.009233 -983812 2.631172 8.676454 kfcm-HT 2 0.009253 -979557 2.631595 8.603879 kfcm-RBF 2 0.02801 -741621 0.882864 10.48819 new-kfcm-gauss 2 0.009233 -983812 2.631172 8.676454 new-kfcm-HT 2 0.009253 -979557 2.631595 8.603879 new-kfcm-RBF 2 1.659824 -156736 1.393605 38.48913

- Xét riêng KFCM cải tiến cho kết quả tốt ngang KFCM ở [6] MSNM cho kết quả không tốt hơn MSM ở hai độ đo Xie-Beni, Fukuyama-Sugeno và độ đo Dunn, ở độ đo Error input MSNM cho giá trị không tốt

Bảng VI: Kết quả gom cụm tập DS với 40% bị thiếu

Bảng VII: Kết quả gom cụm tập DS với 50% bị thiếu

Các kết quả gom cụm ở tập HS cho kết quả tốt và ổn định, với giải thuật new- kfcm-gauss đều tốt ở ba chỉ số, Xie-Beni, Fukuyama-Sugeno và Dunn, giải thuật Mean shift cải tiến luôn cho độ lệch nhỏ

Bảng VIII: Kết quả gom cụm tập HS với 10% bị thiếu

- Với tỉ lệ dữ liệu bị thiếu là 10% trên tập HS, dựa trên độ đo Xie-Beni, new- kfcm-gauss cho kết quả tốt nhất Trên độ đo Fukuyama-Sugeno, new-kfcm-HT cho kết quả tốt nhất Trên độ đo Dunn, đa số ngoại trừ new-kfcm-RBF cho kết quả tốt nhất Trên độ đo Error input, MSNM-initMean cho kết quả tốt nhất

- Xét riêng KFCM cải tiến cho kết quả tốt hơn KFCM ở [6] MSNM cho kết quả tốt hơn MSM ở hai độ đo Xie-Beni, Fukuyama-Sugeno và độ đo Error input Ở độ đo Dunn, các giải thuật Mean shift cho kết quả tốt ngang nhau

Bảng IX: Kết quả gom cụm tập HS với 20% bị thiếu

Các kết quả thực nghiệm ở chương 5 đã giúp chứng minh việc cải tiến giải thuật để giải quyết bài toán gom cụm trên dữ liệu không đầy đủ mang lại hiệu quả tốt, các cụm kết quả có chất lượng, xử lý được các giá trị bị thiếu và sai số tương đối ổn định.

Tiêu đề	Gom cụm dữ liệu không đầy đủ
Tác giả	Phan Hữu Lộc
Người hướng dẫn	TS. Võ Thị Ngọc Châu
Trường học	Đại học Quốc gia Tp. HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hồ Chí Minh

Định dạng
Số trang	69
Dung lượng	1,48 MB