dist: Khoảng cách từ một nơron đến nơron chiến thắng t: Bƣớc lặp hiện tại
L: Tốc độ học (sẽ giảm dần theo số lần lặp)
- Biểu thức trên cho thấy trọng số của mỗi nút sau khi hiệu chỉnh chính là giá trị trọng số cũ W của nó cộng thêm phần giá trị khác biệt giữa trọng số W và vector nhập V theo hệ số tốc độ học
- Hàm nội suy tốc độ học L (t) cho mỗi bƣớc lặp đƣợc tính theo công thức sau:
(4.4)
L0: giá trị khởi tạo ban đầu của tốc độ học.
- Càng tiến gần về điểm giữa thì tốc độ học càng giống với hàm mũ nội suy của phép co. Tốc độ học sẽ đƣợc nội suy dần theo tốc độ học và giá trị của hàm sẽ tiến dần về không khi số lần lặp đạt tới những bƣớc cuối cùng.
d) Điều kiện dừng: Có thể dựa trên số lần lặp hay số mẫu học hay độ cân bằng của
mạng (các trọng số thay đổi dƣới một ngƣỡng nhất định).
4.2 Giới thiệu môi trƣờng cài đặt
Phần cứng: Một máy tính Pentium V trở lên. Card đồ họa 512MB.
Ổ cứng 1GB.
Phần mềm: Chƣơng trình đƣợc cài đặt trên ngôn ngữ lập trình C# của Microsoft
4.3 Giới thiệu giao diện chƣơng trình 4.3.1 Thử nghiệm 1 4.3.1 Thử nghiệm 1
Bản đồ là mạng lƣới các nơron có kích thƣớc 40 x 40. Mỗi nơron có chứa một vector trọng số tƣơng ứng với giá trị RGB của nó. Trọng số nơron đƣợc khởi tạo ngẫu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhiên. Việc huấn luyện liên quan đến việc lựa chọn ngẫu nhiên một đầu vào từ một trong 48 màu duy nhất, việc tìm kiếm một nơron chiến thắng bằng cách sử dụng khoảng cách Euclide, và điều chỉnh trọng số của nơron lân cận. Bởi vì trọng số nơron đƣợc khởi tạo ngẫu nhiên nên bản đồ hội tụ khác nhau ở mỗi lần.
Giao diện chính
Hình 4.1: Giao diện chƣơng trình
- Bƣớc 1: Khởi tạo mạng
Mạng đƣợc khởi tạo nhƣ hình 4.2. Mỗi ô vuông là một nút trong mạng. Phƣơng thức khởi tạo ở đây là chỉ định một giá trị ngẫu nhiên cho mỗi thành phần (R, G, B) của mỗi nút
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 4.2: Khởi tạo mạng ngẫu nhiên
- Bƣớc 2: Chọn 1 vector ngẫu nhiên từ tập các vector đầu vào. Trong ví dụ này sử dụng 8 vector đầu vào. Tiếp theo duyệt qua tất cả các nút và tìm BMU. Hình 4.3 cho thấy BMU đƣợc lựa chọn trong mạng 4x4
Hình 4.3: Xác định BMU
Tiếp theo cập nhật trọng số các nơron nằm trong bán kính lân cận với BMU. Sau đó quay trở về bƣớc 2 và lặp lại.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Cuối cùng ta đƣợc ảnh kết quả ở hình 4.8
Hình 4.4: Kết quả gom cụm 4.3.2 Thử nghiệm 2
- Input: đầu vào là một ảnh màu - Output: ảnh kết quả đã gom cụm
Giao diện bắt đầu: vào File Open, chọn ảnh cần phân cụm. Sau đó chọn vào nút Clustering image để thực hiện quá trình phân cụm.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 4.6: Kết quả sau khi phân cụm
4.4 Hạn chế của giải thuật SOM khi áp dụng phân cụm màu trên ảnh
Khó khăn thứ nhất là việc phát hiện số lƣợng và biên cụm theo nội dung của ảnh: nếu áp dụng thuật toán tích tụ cần biết trƣớc số cụm cần hình thành; còn áp dụng thuật toán loang thƣờng thất bại do khó xác định đƣợc ranh giới chính xác giữa các cụm khi các điểm màu trên ảnh có sự biến thiên nhỏ.
Khó khăn thứ hai là tốc độ hội tụ của giải thuật chậm do khối lƣợng tính toán lớn. Xét một mạng SOM với kích thƣớc 20x30=600 nơron, độ phân giải của bức ảnh đầu vào đƣợc tính bằng đơn vị megapixel tức là có tới hàng triệu điểm ảnh. Nhƣ vậy riêng trong quá trình huấn luyện, việc tìm BMU đã phải duyệt qua khoảng 600 triệu lần các nơron. Ngoài ra, các thuật toán để hình thành cụm cũng đòi hỏi số lần lặp tƣơng đối lớn.
Để khắc phục hai hạn chế đó cần một giải pháp hình thành cụm phù hợp và tăng tốc độ giải thuật.
Hƣớng khắc phục hạn chế của SOM
Qua quá trình khi nghiên cứu các phƣơng pháp phân chia nhom trên các mạng SOM đã đƣợc huấn luyện có thể chỉ ra một số đặc điểm của mạng SOM sau khi huấn luyện nhƣ sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Các nơron trong lớp Kohonen biến đổi liên tục và ranh giới giữa các cụm biến thiên liên tục. Vì vậy mà giữa các nhóm hình thành những ranh giới không rõ ràng rất khó khăn cho quá trình phân nhóm các nơron.
- Việc xác định đâu là nhóm mới và rành giới giữa 2 nhóm không có một chuẩn nào cả dẫn đến tình trạng hỗn tạp giữa các nhóm.
- Không thể xác định đâu là trung tâm một nhóm hay đặc trƣng riêng có của nhóm đấy khi chƣa phân cụm.
Vì những nguyên nhân trên mà một giải pháp phân cụm các nhóm là điều vô cùng khó khăn mà nguyên nhân trực tiếp là ranh giới giữa các nhóm là rất mờ nhạt. Vì vậy đòi hỏi một giải pháp mới. Sau khi nghiên cứu tiến hành cài đặt huấn luyện mạng SOM có thể thấy trong quá trình huấn luyện mạng về bản chất chính là quá trình hình thành lên các nhóm. Chính vì vậy một phƣơng pháp phân chia nhóm ngay từ trong quá trình huấn luyện là một giải pháp hợp lý.
Phƣơng pháp
Mạng đƣợc hình thành và huấn luyện từ những Nơron chiến thắng và các nhóm sẽ đƣợc phân chia trong quá trình này. Nhƣ vậy các nhóm sẽ đƣợc hình thành và mang đặc điểm của các nơron chiến thắng.
Dựa vào tính chất ta có thể phân chia nhóm theo một giải thuật đƣợc để ra theo nguyên tắc cơ bản đối vơi những nơron bị tác động bởi nơron chiến thắng tại một bƣớc trong quá trinh huấn luyện nhƣ sau:
- Với các nơron bị tác động khi chúng chƣa thuộc một nhóm nào sẽ hình thành một nhóm mới mang đặc tính của nơron chiến thắng.
- Với những nơron bị tác động đã thuộc một nhóm nhất định khi nhóm đó không đồng nhất với nơron chiến thắng sẽ xảy ra quá trình tranh chấp giữa các nhóm. - Với những đọ phân ly quá lớn giữa nơ ron chiến thắng và nhóm cũ vƣợt qua
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Nhƣ vậy phƣơng pháp đề ra thực chất là quá trình hình thành nhóm, phân ly nhóm và tranh chấp nơron giữa các nhóm. Với một phát biểu tổng quát hơn ta có thể hình dung quá trình này một cách dễ hiểu hơn nhƣ sau:
* Nguyên tắc hình thành và củng cố nhóm
Khi một nơron chiến thắng đƣợc xác định nếu nó không thuộc một nhóm nào sẽ hình thành một nhóm mới và thực hiện quá trình tranh chấp nơron cho nhóm đó. Nếu nó thuộc một nhóm đã tồn tại sẽ có sự phân ly hoặc củng cố nhóm.
* Nguyên tắc phân li nhóm
Khi một nơron chiến thắng xác định thỏa mãn điều kiện phân li (khoảng cách của nơron chiến thắng với đặc trƣng của nhóm là quá lớn vƣợt qua ngƣỡng phân ly) sẽ hình thành một nhóm mơi mang đặc tính nơron này và tranh chấp nơron với nhóm cũ. * Nguyên tắc củng cố nhóm
Khi một nơron chiến thắng không thỏa mãn điều kiện phân ly sẽ củng cố đặc trƣng nhóm theo nơron đó. Đồng thời tranh chấp nơron với các nhóm gần đó theo nguyên tắc tranh chấp.
* Nguyên tắc tranh chấp Nơron giữa các nhóm
Khi một nơron nằm trong vùng giao giữa các nhóm và xảy ra quá trình tranh chấp nơron giữa các nhóm. Khi đó sẽ tính khoảng cách từ nơron đó tới các nhóm theo đặc trƣng nhóm. Khoảng cách nào ngắn nhất nơron sẽ thuộc về nhóm đó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Mạng nơron là một lĩnh vực nghiên cứu tƣơng đối rộng và đòi hỏi nhiều công sức và nỗ lực trong quá trình nghiên cứu. Bên cạnh đó việc cài đặt và ứng dụng mạng nơron gặp nhiều khó khăn do độ phức tạp tƣơng đối cao của giải thuật. Vì lí do đó trong khuôn khổ đồ án chỉ hƣớng tới mạng nơron dùng để phân cụm dữ liệu ảnh là mạng SOM để nghiên cứu và phát triển. Thực tế đã chứng minh mạng SOM có rất nhiều ứng dụng và việc nghiên cứu khai thác mạng này sẽ đem lại nhiều kết quả thực tiễn.
1. Luận văn đã thực hiện đƣợc kết quả sau:
- Giới thiệu tổng quan về khai phá dữ liệu, các phƣơng pháp phân cụm dữ liệu. - Trình bày một cách tổng quát về mô hình mạng nơron và ứng dụng mạng nơron trong khai phá dữ liệu. Trình bày một cách hệ thống các giải pháp học mạng nơron không giám sát và có giám sát.
- Nghiên cứu, phân tích việc sử dụng thuật toán SOM giải quyết bài toán phân cụm màu ảnh theo mô hình mạng nơron.
- Xây dựng đƣợc chƣơng trình phân cụm ảnh với 2 thử nghiệm. Thử nghiệm 1 là ảnh đầu vào có kích thƣớc 40x40=1600 nơron. Mỗi nơron có chứa một vector trọng số tƣơng ứng với giá trị RGB của nó. Trọng số nơron đƣợc khởi tạo ngẫu nhiên. Sau khi thực hiện phân cụm sử dụng thuật toán SOM, ta thu đƣợc 8 cụm màu nhƣ hình 4.4. Thử nghiệm 2 là đọc một ảnh bất kỳ, sau khi thực hiện phân cụm ta thu đƣợc ảnh kết quả nhƣ hình 4.7.
2. Han chế
Phân cụm dữ liệu và ứng dụng mạng nơron vào phân cụm dữ liệu là hƣớng nghiên cứu cần thiết và quan trọng. Tuy nhiên đây cũng là một mảng rất rộng, bao hàm nhiều phƣơng pháp, kỹ thuật và hình thành nhiều nhóm khác nhau.
Trong quá trình nghiên cứu, thực hiện luận văn mặc dù đã cố gắng tập trung nghiên cứu và tham khảo nhiều tài liệu, bài báo, tạp chí khoa học trong và ngoài nƣớc,
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhƣng do trình độ còn có nhiều giới hạn không thể tránh khỏi thiếu sót và hạn chế. Em rất mong đƣợc sự chỉ bảo đóng góp nhiều hơn nữa của các thầy, cô giáo, đồng nghiệp, các nhà khoa học…
3. Hƣớng phát triển
- Tiếp tục nghiên cứu thêm về lý thuyết về phân cụm dữ liệu, mạng nơron. - Xây dựng, phát triển thêm các kỹ thuật, ứng dụng của Phân cụm dữ liệu, ứng dụng của mạng nơron trong phân cụm dữ liệu nói riêng và trong các lĩnh vực khác.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] PGS.TS Đỗ Năng Toàn – TS Phạm Việt Bình, Giáo trình xử lý ảnh, 2007. [2] Đỗ Phúc, giáo trình khai thác dữ liệu, NXB Đại học quốc gia TP HCM, 2005. [3]Ts Nguyễn Trọng Phúc, Đại học Giao thông vận tải, Mô hình phân lớp FCM trong
phân đoạn ảnh và thuật toán DCA.
[4] Bùi Công Cƣờng và Nguyễn Doãn Phƣớc, Hệ mờ, mạng nơron và ứng dụng, NXB Khoa học và Kỹ thuật, 2006.
[5] Ts.Nguyễn Đình Thúc, Trí tuệ nhân tạo – Mạng nơron – Phương pháp và
ứng dụng, NXB Giáo dục, 2000.
Tiếng Anh
[6] S. Nascimento, B. Mirkin and F. Moura-Pires, A Fuzzy Clustering Model of Data
and Fuzzy c-Means
[7] A.K. Jain, R.C. Dubes, “Algorithms for clustering data”, Ptentice Hall, Englewood Cliffs, NJ, 1988.
[8] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern
Recognition, vol. 23, pp.121-146, 1990.
[9] J. Han, M. Kamber, “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, 2001.