- Thuật toán EM
Và rb thường được chọn là rb =1.5 ra và tiếp tục chọn điểm có mật độ lớn
3.6 Thuật toán phân cụm trừ mở rộng
Trong thuật toán phân cụm trừ có 4 tham số ta phải thiết lập: e , e, ra và
h (hay rb). Các tham số này ảnh hưởng rất lớn đến kết quả phân cụm của thuật toán và gây nên sự không chắc chắn cho thuật toán. Nếu chọn e , e lớn sẽ làm giảm số cụm ngược lại nếu chọn e , e giá trị nhỏ quá sẽ làm tăng số lượng cụm.
Tương tự, việc lựa chọn ra và h (hay rb) cũng ảnh hưởng tới số lượng cụm được tạo ra nhiều hoặc ít. Như vậy, chúng ta không thể biết các tham số tốt nhất một tập dữ liệu thậm chí việc tìm kiếm theo một tham số cho thuật toán để đưa ra kết quả phân cụm tốt nhất cũng là khó khăn.
Ở hình 3.8 cho thấy kết quả phân cụm khi áp dụng giải thuật phân cụm trừ để phân cụm cho 100 mẫu dữ liệu được tạo thành qua việc mô hình hóa hàm không tuyến tính
sin( )x y
x
= với xÎ [-10;10].
Hình 3.8 Kết quả phân cụm dữ liệu của SC theo Chiu
Theo Chiu, ta lựa chọn các tham số lần lượt là e = 0.5 , e= 0.15,
a 0.25
66
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Còn ở hình 3.9 (a-b) là các đô thị mô tả sự phục thuộc của SC vào các tham số ra và h. Trong đó hình 3.9a biểu thị sự phụ thuộc kết quả phân cụm của thuật toán SC vào tham số ra khi các tham số còn lại lần lượt được chọn là
0.5
e= , e= 0.15 và h= 1.5 và hình 3.9b biểu thị sự phụ thuộc kết quả phân cụm của thuật toán SC vào tham số h khi các tham số còn lại lần lượt được chọn là e = 0.5 , e = 0.15 và ra = 0.25.
Hình 3.9 a-b Sự phụ thuộc của SC vào các tham số ra và h
Thuật toán phân cụm trừ ước lượng đánh giá khả năng một mẫu dữ liệu có thể trở thành tâm của một cụm dữ liệu hay không qua hàm tính mật độ (khả năng) các mẫu dữ liệu bao quanh của mẫu đó mà thực chất là dựa vào khoảng cách giữa mẫu đó với các mẫu còn lại. Nếu một mẫu dữ liệu có rất nhiều mẫu khác baoquanh trong một phạm vi nhất định (trong khoảng bán kính cụm r) thì khả năng nó trở thành tâm cụm là rất lớn. Và việc xác định độ thuộc của một mẫu vào một cụm nào đó được dựa vào hàm thuộc Gaussian. Vì vậy, ta xem xét tới một tham số mờ có vai trò điều khiển quá trình phân chia thành các cụm dữ liệu thông qua việc đưa tham số m vào hàm tính mật độ cho các mẫu dữ liệu như sau: ( ) 2 1 2 4 1 m j i a x x n r i j P e - - - = = å (33)
67
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Nếu *
k
x là vị trí tâm cụm thứ k, có mật độ là *
k
P thì mật độ cho các mẫu dữ liệu còn lại được tính theo công thức:
( ) 2 1 2 4 * ; 1,..., m i k b x x r i i k P P P e i n - - - = - = (34)
Khi đó việc lựa chọn giá trị của tham số m sẽ ảnh hưởng rất lớn tới kết quả phân chia thành các cụm dữ liệu.
Qua điều chỉnh tham số mờ m ta cũng dễ dàng thu được kết quả phân cụm tốt mà không phụ thuộc nhiều vào việc điều chỉnh thiết lập các tham số ban đầu cho thuật toán phân cụm trừ. Hình 3.10 a minh họa số tâm cụm tạo hình thành từ việc lựa chọn các tham số ban đầu là e = 0.5, e= 0.15, ra= 0.25 và h=1.5được đánh giá là tốt nhất. Hình 3.10 b minh họa số tâm cụm được tạo thành theo thuật toán SC mở rộng với các tham số e= 0.5 , e= 0.15, ra = 0.4,
1.35
h= và m= 2.47.
Hình 3.10a-b. Sự phụ thuộc của SC vào tham số m
Như vậy với việc điều chỉnh tham số m thì cũng có thể thu được kết quả phân cụm là tương đối tốt mà không phụ thuộc vào việc lựa chọn bốn tham số ban đầu.
68
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
KẾT LUẬN
Khai phá dữ liệu là một lĩnh vực khá quan trọng, nó bao gồm nhiều lĩnh vực và nhiều kỹ thuật khác nhau. Vì vậy trong quá trình tìm hiểu và hoàn thành luận văn tốt nghiệp với đề tài “Nghiên cứu xây dựng luật mờ từ dữ liệu theo phân cụm”, dù đã đạt được một số kết quả nhất định, nhưng tôi nhận thấy phân cụm dữ liệu trong khai phá dữ liệu là một lĩnh vực nghiên cứu lớn và có nhiều triển vọng để áp dụng trong các ngành khác nhau. Trong thời gian vừa qua tôi đã đạt được một số kết quả như sau:
- Nắm bắt các khái niệm và ứng dụng liên quan đến phân cụm dữ liệu. - Cài đặt được ứng dụng áp dụng thuật toán phân cụm trừ.
Một số mặt hạn chế của đề tài:
- Chương trình ứng dụng chưa được áp dụng thực tế. - Dữ liệu đầu vào còn hạn chế.
Trên cơ sở những nghiên cứu và tìm hiểu trong luận văn, tôi đã đưa ra được một số điểm đạt được và những điểm còn hạn chế của đề tài. Vì vậy hướng nghiên cứu tiếp theo:
-Xây dựng, thiết kế các bài toán cho hệ thống mờ và nhiều lĩnh vực khác như xử lý ảnh, y tế..
-Kết hợp với các phương pháp khác hình thành và giải các bài toán tối ưu
Trong quá trình tìm hiểu và cài đặt, tôi đã cố gắng tập trung tìm hiểu và tham khảo các tài liệu liên quan. Tuy nhiên, trình độ và thời gian có hạn nên tôi không tránh khỏi những thiếu sót, rất mong nhận được sự đóng góp ý kiến của quý thầy cô cùng các bạn.
69
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn