Ưu điểm:
Áp dụng thành công trong giải quyết một số lớn các bài toán Phân cụm dữ liệu như trong nhận dạng mẫu, xử lý ảnh, y học,…
Nhược điểm:
Lớn nhất của thuật toán FCM là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, nghĩa là các trung tâm cụm có thể nằm xa so với trung tâm thực của cụm. Do đó các cụm dữ liệu được khám phá có thể rất lệch so với các cụm trong thực tế.Việc khử nhiễu và phần tử ngoại lai là một vấn đề cần phải được giải quyết.
3.4.3. Mạng noron Kohonen (SOM)
Ưu điểm:
Tự tổ chức trong mạng nơron là một trong những chủ đề cuốn hút trong mạng nơron. Một mạng nơron như vậy có thể được luyện để tìm ra các quy
luật và các tương quan, các giá trị nhập vào và dự đoán các kết quả tiếp theo. Các nơron của mạng thông qua quá trình luyện cạnh tranh để nhận ra một nhóm các đối tượng đầu vào tương đương nhau. Mục đích chính của việc luyện trong mạng nơron Kohonen là gom cụm các vector đầu vào cùng loại.
Các thuộc tính cơ bản nhằm phân biệt SOM với các mạng nơron khác là nó sử dụng ký số thay cho ký tự không tham số, và học không giám sát. Phương pháp dùng số tự nhiên cho phép SOM xem xét, xử lý dữ liệu số tự nhiên thống kê được và nhằm để biểu diễn các mối quan hệ đã được chọn lọc. Bởi do SOM không yêu cầu học có giám sát và là một dạng không tham số cho nên nó có thể tìm ra những cấu trúc không hề mong muốn từ dữ liệu đã cho.
Nhược điểm:
Khó khăn thứ nhất là việc phát hiện số lượng và biên cụm theo nội dung của ảnh: nếu áp dụng thuật toán tích tụ cần biết trước số cụm cần hình thành; còn áp dụng thuật toán loang thường thất bại do khó xác định được ranh giới chính xác giữa các cụm khi các điểm màu trên ảnh có sự biến thiên nhỏ.
Khó khăn thứ hai là tốc độ hội tụ của giải thuật chậm do khối lượng tính toán lớn. Xét một mạng SOM với kích thước 20x30=600 nơron, độ phân giải của bức ảnh đầu vào được tính bằng đơn vị megapixel tức là có tới hàng triệu điểm ảnh. Như vậy riêng trong quá trình huấn luyện, việc tìm BMU đã phải duyệt qua khoảng 600 triệu lần các nơron. Ngoài ra, các thuật toán để hình thành cụm cũng đòi hỏi số lần lặp tương đối lớn. Để khắc phục hai hạn chế đó cần một giải pháp hình thành cụm phù hợp và tăng tốc độ giải thuật.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Mạng nơron là một lĩnh vực nghiên cứu tương đối rộng và đòi hỏi
nhiều công sức và nỗ lực trong quá trình nghiên cứu. Bên cạnh đó việc cài
đặt và ứng dụng mạng nơron gặp nhiều khó khăn do độ phức tạp tương đối
cao của giải thuật. Vì lí do đó trong khuôn khổ đồ án chỉ hướng tới mạng
nơron dùng để phân cụm dữ liệu ảnh là mạng SOM để nghiên cứu và phát
triển. Thực tế đã chứng minh mạng SOM có rất nhiều ứng dụng và việc
nghiên cứu khai thác mạng này sẽ đem lại nhiều kết quả thực tiễn.
1. Luận văn đã thực hiệnđược kết quả sau:
- Giới thiệu tổng quan vềcác phương pháp phân cụm dữ liệu.
- Trình bày một cách tổng quát về mô hình mạng nơron và ứng dụng
mạng nơron trong khai phá dữ liệu. Trình bày một cách hệ thống các giải
pháp học mạng nơron không giám sát và có giám sát.
- Nghiên cứu, phân tích việc sử dụng thuật toán SOM giải quyết bài
toán phân cụm màu ảnh theo mô hình mạng nơron.
- Xây dựng được chương trình phân cụm ảnh với ảnh đầu vào có kích
thước 40x40=1600 nơron. Mỗi nơron có chứa một vector trọng số tương ứng
với giá trị RGB của nó. Trọng số nơron được khởi tạo ngẫu nhiên. Sau khi thực hiện phân cụm sử dụng thuật toán SOM.
2. Hạn chế
Phân cụm dữ liệu và ứng dụng mạng nơron vào phân cụm dữ liệu là hướng nghiên cứu cần thiết và quan trọng. Tuy nhiên đây cũng là một mảng rất rộng, bao hàm nhiều phương pháp, kỹ thuật và hình thành nhiều nhóm khác nhau.
Trong quá trình nghiên cứu, thực hiện luận văn mặc dù đã cố gắng tập trung nghiên cứu và tham khảo nhiều tài liệu, bài báo, tạp chí khoa học trong
và ngoài nước, nhưng do trình độ còn có nhiều giới hạn không thể tránh khỏi thiếu sót và hạn chế. Em rất mong được sự chỉ bảo đóng góp nhiều hơn nữa của các thầy, cô giáo, đồng nghiệp, các nhà khoa học…
3. Hướng phát triển
- Tiếp tục nghiên cứu thêm về lý thuyết về phân cụm dữ liệu, mạng nơron.
- Xây dựng, phát triển thêm các kỹ thuật, ứng dụng của Phân cụm dữ liệu, ứng dụng của mạng nơron trong phân cụm dữ liệu nói riêng và trong các lĩnh vực khác.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Lê Bá Dũng, Bài giảng cao học Mạng nơ–ron và ứng dụng, ĐHCNTT và TT, Đại Học Thái Nguyên.
[2] Đỗ Phúc, Giáo trình khai thác dữ liệu, NXB Đại học quốc gia TP HCM, 2005.
[3] Bùi Công Cường và Nguyễn Doãn Phước, (2006), Hệ mờ, mạng nơron
và ứng dụng, NXB Khoa học và Kỹ thuật.
[4] Nguyễn Đình Thúc, (2000), Trí tuệ nhân tạo – Mạng nơron – Phương pháp và ứng dụng, NXB Giáo dục.
Tiếng Anh
[5] A.K. Jain, R.C. Dubes, (1988), Algorithms for clustering data, Ptentice
Hall, Englewood Cliffs, NJ.
[6] W.Pedrycz, (1990) Algorithms of fuzzy clustering with partial supervision, Pattern Recognition, vol. 23, pp.121-146.
[7] J. Han, M. Kamber, (2001), Data Mining Concepts and Techniques, Morgan Kaufmann Publishers.