Nghiên cứu các phương pháp phân cụm dữ liệu mờ và ứng dụng trong xử lý ảnh

MỤC LỤC

Các lĩnh vực ứng dụng thực tiễn của KPDL

KPDL là một lĩnh vực mới phát triển nhƣng thu hút đƣợc khá nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. - Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học - Phân tích tình hình tài chính, thị trường, dự báo gía cổ phiếu trong tài.

Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL

- Mô tả khái niệm (concept desccription & summarization): Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm (Ví dụ: tóm tắt văn bản).

Khái niệm và mục tiêu của phân cụm dữ liệu

Phân cụm đƣợc sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường..Với tƣ cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể đƣợc sử dụng nhƣ một công cụ độc lập chuẩn để quan sát đặc trƣng của mỗi cụm thu đƣợc bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích đạt kết quả. Ngoài ra, dò tìm phần tử ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong CSDL, tức là các đối tƣợng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm.

Hình 2.1: Mô tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm.
Hình 2.1: Mô tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm.

Các ứng dụng của phân cụm dữ liệu

Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các CDL, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp. Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực KPDL.

Các yêu cầu của phân cụm

Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả. Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, nhận dạng gian lận thương mại. Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí,.. nhằm cung cấp thông tin cho quy hoạch đô thị. Nghiờn cứu trỏi đất: Phõn cụm để theo dừi cỏc tõm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm. WWW: Có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa trong môi trường Web. Các lớp tài liệu này trợ giúp cho việc KPTT từ dữ liệu. không thứ tự), và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này. Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ nhƣ với cùng một tập dữ liệu, khi đƣợc đƣa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau.

Những kỹ thuật tiếp cận trong phân cụm dữ liệu

Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm. Sự phát triển của PCDL không gian trên CSDL lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải đƣợc thỏa mãn trong quá trình phân cụm.

Hình 2.2:  Các chiến lƣợc phân cụm phân cấp
Hình 2.2: Các chiến lƣợc phân cụm phân cấp

Một số thuật toán cơ bản trong phân cụm dữ liệu

    Nhƣ vậy, do k-means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn.Tuy nhiên, nhƣợc điểm của k-means là chỉ áp dụng với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. Để xử lí đƣợc các CSDL 1ớn, CURE sử dụng mẫu ngẫu nhiên và phân hoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch, và sau đó tiến hành phân cụm trên mỗi phân hoạch, nhƣ vậy mỗi phân hoạch là từng phần đã đƣợc phân cụm, các cụm thu đƣợc lại đƣợc phân cụm lần thứ hai để thu đƣợc các cụm con mong muốn, nhƣng mẫu ngẫu nhiên không nhất thiết đƣa ra một mô tả tốt cho toàn bộ tập dữ liệu. Khi hoà nhập các ô của cấu trúc lưới để hình thành các cụm, nó không xem xét quan hệ không gian giữa các nút của mức con không đƣợc hoà nhập phù hợp (do chúng chỉ tương ứng với các cha của nó) và hình dạng của các cụm dữ liệu khám phá đƣợc, tất cả ranh giới của các cụm có các biên ngang và dọc, theo biên của các ô và không có đường biên chéo được phát hiện ra.

    Hình 2.6:  Tính toán trọng tâm của các cụm mới
    Hình 2.6: Tính toán trọng tâm của các cụm mới

    Các thuật toán trong phân cụm mờ

    Thuật toán FCM(Fuzzy C-means) 1. Hàm mục tiêu

    Kỹ thuật này phân hoạch một tập n vectơ đối tƣợng dữ liệu X = {x1,…, xn}  Rs thành c các nhóm mờ dựa trên tính toán tối thiểu hóa hàm mục tiêu để đo chất lƣợng của phân hoạch và tìm trung tâm cụm trong mỗi nhóm, sao cho chi phí hàm đo độ phi tương tự là nhỏ nhất. Thuật toán FCM cung cấp một quá trình lặp qua lại giữa phương trình (5) và (6) để tối ưu(xấp xỉ cực tiểu) hàm mục tiêu dựa trên đo đạc độ tương tự có trọng số giữa xk và trung tâm cụm vi, sau mỗi vòng lặp, thuật toán tính toán và cập nhật các phần tử ujk trong ma trận phân hoạch U. Tóm lại, thuật toán phân cụm mờ FCM là một mở rộng của thuật toán k-means nhằm để khám phá ra các cụm chồng lên nhau, tuy nhiên, FCM vẫn chứa đựng các nhƣợc điểm của thuật toán k-means trong việc xử lí đối với các phần tử ngoại lai và nhiễu trong dữ liệu.

    Hình 3.1:  Mô phỏng về tập dữ liệu đơn chiều
    Hình 3.1: Mô phỏng về tập dữ liệu đơn chiều

    Thuật toán FCM-Cải tiến

    Thuật toán 3: Thuật toán chọn các ứng viên làm cực tiểu HMT Sau khi kết thúc thuật toán 1 và thuật toán 2 thì ta thu đƣợc tập các điểm dữ liệu làm ứng viên cho trung tâm các cụm là  1, 2,.., p. Bước 4: Tìm các điểm nằm trên đường dây nối ccicvà cccj (thường đường dây này dựa vào đặc điểm của đường cong cần nhận dạng, chẳng hạn lông mày thì ta dùng một đường cong parabol) là v v1, 2,.,vk. Thuật toán phân cụm mờ là một cỏch thức mở rộng cho cỏc thuật toỏn phõn cụm rừ nhằm khỏm phỏ ra cỏc cụm dữ liệu chồng lên nhau trên các tập dữ liệu có kích thước lớn, nhiều chiều và nhiều nhiễu.

    Cấu trúc mạng Nơron 1. Hàm kích hoạt

    Bài toán huấn luyện mạng

    Tiếp theo chúng ta tìm hiểu một mô hình mạng Nơron đƣợc áp dụng rất nhiều là mạng Hopfield.

    Mạng HOPFIELD

    Mạng Nơron đa khớp dùng cho phân cụm

    Xây dựng lớp mạng Layer1 cho tối ƣu các trung tâm cụm

    Lớp Layer1 của FBACN có thể sử dụng mạng Hopfield hoặc mạng Nơron đa khớp tuỳ thuộc vào các ràng buộc của FC-partition (FC- fuzzy c). Để đánh giá tính ổn định của hệ thống trong hình 4.4, chúng ta dùng hàm tính toán năng lƣợng CEF(computational energy function-CEF). Trong mạng Nơron, thì các hoạt động ra của các Nơron được ký hiệu một cách duy nhất bằng một ký hiệu dưới dòng.

    Xây dựng lớp mạng Layer2 cho tối ƣu các độ thuộc

    Theo phương pháp mà ta đã thiết kế thì cách lựa chọn giá trị của nó là phù hợp với tiến triển của Layer1. Khi hàm mục tiêu (18) đƣợc cân bằng với hàm tính toán năng lƣợng (25) và gradient tính toán năng lƣợng đƣợc liên kết với giá trị net vào, kết quả tối ƣu dần đạt đƣợc khi mạng tiến triển.  (31) Với vectơ năng lƣợng gradient luôn âm và công thức (31), đảm bảo mạng Layer2 sẽ tối ƣu trong quá trình tiến hoá.

    Hình 4.5:  Mô hình Lớp Layer2 của FBACN
    Hình 4.5: Mô hình Lớp Layer2 của FBACN

    Sự hội tụ của FBACN

    Định lý về ánh xạ co(ánh xạ thu gọn-AXC): Ánh xạ co của không gian Metric đầy đủ có duy nhất một điểm cố định. Định lý 1: Cho mạng Nơron nhân tạo hồi quy kết nối đầy đủ gồm các Nơron s với kích hoạt động . Chứng minh: Theo định lý về ánh xạ co, để chứng minh FBACN là hội tụ đến một điểm duy nhất thì chúng ta phải chỉ ra tồn tại một hằng số.

    Giải thuật của FBACN và FBACN với việc học

    Trước hết ta định nghĩa một số tham số: p0 là hằng số tỉ lệ xác suất nằm trong [0,1], sử dụng để tính xác suất. EquiCycle là chu kỳ thăng bằng ấm(có nghĩa là khi vòng lặp đang xử lý cần giữ thăng bằng ấm tại nhiệt độ T).

    Cài đặt thử nghiệm thuật toán FCM

    Khi người sử dụng nhập số cụm vào khung “Nhập số cụm”, kích chuột vào khung chương trình để tạo ra các điểm của cụm, vị trí của các điểm được thể hiện ở khung “Toạ độ xy”. Chương trình sẽ tự động tạo ra các cụm dữ liệu bằng cách tối giản tổng bình phương các khoảng cách giữa dữ liệu và trọng tâm cụm tương ứng khi ta kích chuột vào khung chương trình để tạo ra mỗi điểm. Mỗi điểm và tọa độ của nó biểu thị cho một đối tƣợng với mô tả hai thuộc tính của đối tƣợng đó là màu sắc của điểm và số nhãn biểu thị cho cụm.

    Hình 5.2: Giao diện của chương trình khi làm việc
    Hình 5.2: Giao diện của chương trình khi làm việc

    Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh

    Chương trình sẽ thực hiện quá trình nhận dạng và phân cụm màu theo thuật toán FCM-Cải tiến và hiển thị kết quả ở khung “Ảnh Đích” như Hình 5.5 dưới đây.

    Hình 5.3: Giao diện của chương trình khi khởi động
    Hình 5.3: Giao diện của chương trình khi khởi động