Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,22 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÙI ĐỨC VIỆT PHÂN CỤM DỮ LIỆU CHO NHẬN DẠNG ẢNH SỬ DỤNG MẠNG NƠRON LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trƣớc tiên em gửi lời cảm ơn chân thành sâu sắc tới thầy cô giáo Viện Công nghệ thông tin Việt Nam, thầy cô trƣờng Đại học Công nghệ thông tin & Truyền thông - Đại học Thái Nguyên tận tình truyền đạt, giảng dạy cho em kiến thức, kinh nghiện quý báu suốt thời gian qua Đặc biệt em xin gửi lời cảm ơn đến PGS.TS Lê Bá Dũng tận tình giúp đỡ, trực tiếp bảo em suốt thời gian làm luận văn Trong thời gian làm việc với Thầy, em khơng tiếp thu thên nhiều kiến thức bổ ích mà học đƣợc tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho em trình học tập công tác Sau xin gửi lời cảm ơn chân thành tới gia đình, bạn bè động viên, đóng góp ý kiến giúp đỡ q trình học tâp, nghiên cứu hồn thành đề tài Thái Nguyên, tháng 10 năm 2012 Học viên Bùi Đức Việt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƢƠNG GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 11 1.1 Khái niệm khai phá liệu 11 1.2 Kiến trúc hệ thống khai phá liệu 11 1.3 Các giai đoạn trình khai phá 13 1.4 Các phƣơng pháp khai phá liệu 14 1.5 Các sở liệu phục vụ cho khai phá liệu 16 1.6 Các ứng dụng khai phá liệu 17 1.7 Các thách thức khó khăn khai phá liệu 17 1.8 Mạng nơron cho khai phá liệu 18 CHƢƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 20 2.1 Khái niệm mục tiêu phân cụm liệu 20 2.1.1 Khái niệm phân cụm liệu 20 2.1.1.1 Mục tiêu phân cụm liệu 20 2.1.1.2 Các yêu cầu kỹ thuật phân cụm liệu 21 2.1.1.3 Các kiểu liệu thuộc tính phân cụm 23 2.2.Một số thuật toán phân cụm liệu 25 2.2.1 Các thuật toán phân cụm phân hoạch 25 2.2.2 Các thuật toán phân cụm phân cấp 31 2.2.3.Các thuật toán phân cụm dựa mật độ 33 2.2.4.Phân cụm dựa lƣới 34 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.2.5.Phân cụm dựa mơ hình 35 2.2.6 Phân cụm có liệu ràng buộc 36 2.3 Phân cụm cụm mờ 37 2.3.1 Tổng quan phân cụm mờ 37 2.3.2 Các thuật toán phân cụm mờ 38 CHƢƠNG 3: ỨNG DỤNG MẠNG NƠRON KOHONEN CHO PHÂN CỤM DỮ LIỆU 42 3.1 Giới thiệu chung mạng nơron 42 3.1.2 Mơ hình Nơron sinh học 42 3.1.3 Mơ hình Nơron nhân tạo 44 3.1.4 Mơ hình Mạng Nơron nhân tạo 46 3.1.5 Đặc trƣng Mạng Nơron 50 3.1.6 Phân loại mạng 51 3.2.3 Thuật toán mạng SOM 59 3.2.4 Một vài biến thể giải thuật SOM 65 3.2.5 Một số ứng dụng SOM 66 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM 67 4.1 Giới thiệu 67 4.2 Mạng Nơron SOM cho phân cụm ảnh 68 Thiết kế mạng 68 Thuật toán học mạng 68 4.2 Giới thiệu môi trƣờng cài đặt 70 4.3 Giới thiệu giao diện chƣơng trình 70 4.3.1 Thử nghiệm 70 4.3.2 Thử nghiệm 73 4.4 Hạn chế giải thuật SOM áp dụng phân cụm màu ảnh 74 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 77 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn TÀI LIỆU THAM KHẢO 77 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT CSDL Cơ sở liệu PCDL Phân cụm liệu KPDL Khai phá liệu BNU Phần tử nơron chiến thắng MLP MultiLayer Perception BAM Bidirectional Associative Memory SOM Self Organizing Map VQ Vector Quantization LVQ Learning Vector Quantization MST Minimal Spanning Tree Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1: Kiến trúc hệ thống khai phá liệu 11 Hình 1.2: Quá trình khai phá liệu 12 Hình 2.1 : Biểu đồ dạng liệu 22 Hình 2.2: biểu đồ quy mơ liệu 22 Hình 2.3: Cấu trúc phân cấp 27 Hình 2.4: Các cách mà cụm đƣa 28 Hình 2.5: Thiết lập để xác định danh giới cụm ban đầu 30 Hình 2.6: Tính tốn trọng tâm cụm 31 Hình 2.7: Khái qt thuật tốn Cure 36 Hình 2.8: Các cụm liệu đƣợc khám phá thuật tốn Cure 37 Hình 2.9: Hình dạng cụm đƣợc tạo thuật tốn DBSCAN 38 Hình 3.1: Mơ hình nơron sinh học 49 Hình 3.2: Mơ hình nơron nhân tạo 53 Hình 3.2: Mơ hình mạng nơron lớp 52 Hình 3.3: Mơ hình học giám sát 55 Hình 3.4: Mơ hình học khơng giám sát 55 Hình 3.5: Mơ hình mạng perceptron lớp 58 Hình 3.6: Mơ hình Mạng perceptron nhiều lớp 58 Hình 3.7: Mơ hình mạng hồi quy lớp 59 Hình 3.8: Cấu trúc mạng Hopfield 60 Hình 3.9: Cấu trúc mạng BAM 60 Hình 3.10: Mơ hình Mạng Nơron Kohonen 63 Hình 3.11: Mơ hình Mạng Nơron Kohonen thơng thƣờng 65 Hình 3.12: Phần tử nơron chiến thắng BMU 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.13: Các vùng lân cận 67 Hình 4.1: Giao diện chƣơng trình 69 Hình 4.2: Khởi tạo mạng ngẫu nhiên 70 Hình 4.3: Xác định BMU 70 Hình 4.4: Kết gom cụm 71 Hình 4.5: Giao diện chọn ảnh để phân cụm 71 Hình 4.6: Kết sau phân cụm 72 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI NĨI ĐẦU Sự phát triển cơng nghệ thơng tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lƣợng liệu đƣợc quan thu thập lƣu trữ ngày tích lũy nhiều lên Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thƣờng, coi liệu chuỗi bits, số ký hiệu hay đối tƣợng với ý nghĩa gửi cho chƣơng trình dƣới dạng định Các bít thƣờng đƣợc sử dụng để đo thơng tin, xem nhƣ liệu loại bỏ phần tử dƣ thừa, lặp lại rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Tri thức đƣợc xem nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng đƣợc nhận thức, khám phá nghiên cứu Nói cách khác, tri thức đƣợc coi liệu mức độ cao trừu tƣợng tổng quát Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: phân tích, tổng hợp, hợp thức, khả ích hiểu đƣợc Khai phá liệu bƣớc trình khám phá tri thức, gồm thuật toán khai thác liệu chuyên dùng dƣới số quy định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL nhƣng ẩn khối lƣợng lớn liệu Phân cụm liệu (PCDL) q trình nhóm tập đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc cụm tƣơng đồng đối tƣợng thuộc cụm khác khơng tƣơng đồng Phân cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 liệu ví dụ phƣơng pháp học khơng có thầy Khơng giống nhƣ phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trƣớc mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ… Hiện nay, phƣơng pháp phân cụm đƣợc phát triển áp dụng nhiều lĩnh vực khác có số nhánh nghiên cứu đƣợc phát triển sở phƣơng pháp nhƣ: Phân cụm thống kê: Dựa khái niệm phân tích hệ thống, nhánh nghiên cứu sử dụng độ đo tƣơng tự để phân hoạch đối tƣợng, nhƣng chúng áp dụng cho liệu có thuộc tính số Phân cụm khái niệm: Kỹ thuật đƣợc phát triển áp dụng cho liệu hạng mục, chúng phân cụm đối tƣợng theo khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại lƣợc đồ phân cụm thích hợp với tất hoạt động đời sống hàng ngày, chúng xử liệu khơng chắn Luận văn gồm có chƣơng: Chương 1: Giới thiệu khai phá liệu Chương 2: Tổng quan phân cụm liệu Chương 3: Ứng dụng mạng Nơron Kohonen cho phân cụm liệu Chương 4: cài đặt thử nghiệm Luận văn trình bày số vấn đề phân cụm - kỹ thuật để khai phá liệu ứng dụng phân cụm cho nhận dạng ảnh sử dụng mạng nơron Đây hƣớng nghiên cứu có triển vọng sơ lƣợc việc hiểu khai thác CSDL khổng lồ, khám phá thông tin hữu ích ẩn liệu; hiểu đƣợc ý nghĩa thực tế liệu ứng dụng vào tốn cụ thể Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 liệu tập liệu ban lớp thuộc cụm có mẫu gần Một ƣu điểm cách tiếp cận giảm thời gian tính tốn, điều dễ dàng phân biệt đƣợc với thuật toán phân cụm khác mà điển hình phân cấp chí với lƣợng nhỏ ví dụ bao lớp trở nên nặng nề Chính cách tiếp cận hoàn toàn phù hợp cho việc phân cụm tập mẫu làm trực tiếp tập liệu 3.2.4 Một vài biến thể giải thuật SOM Batch SOM Batch SOM biến thể SOM nhƣng có tốc độ nhanh kể có tham số điều chỉnh Mặc dù thuật toán khác nhƣng mặt kiến trúc đồ lại tƣơng tự Bản đồ phụ gồm có đơnvị đồ (map unit) đƣợc xếp có thứ tự lƣới Thơng thƣờng lƣới có hình chữ nhật chiều đƣợc dung để mơ tả hình hóa liệu Tree- structured SOM Tree - Structured SOM phiên đặc biệt nhanh SOM Nó gồm tập lớp (Layer), lớp mức lƣợng tử hồn chỉnh khơng gian liệu Sự khác biệt lớp số lƣợng mẫu tăng theo hàm mũ tƣơng tự nhƣ phát triển hƣớng xuống Ví dụ, lớp có vector mẫu, lớp thứ 16, lớp thứ 64… Nhƣ vector mẫu lớp có bốn lớp lớp Các lớp đƣợc sử dụng việc huấn luyện lớp sau: Thay so sánh vector liệu nhận đƣợc với tất vector mẫu, giả sử lớp 3, so sánh với cá mẫu có lớp thứ nhất, sau so sánh tiếp với lớp lớp chiến thắng thứ lân cận lớp này, tiếp tục Các kết tính tốn số khoảng cách giảm cách đáng kể, đặc biệt lớp thấp Ngoài ra, lớp đƣợc thêm vào theo lớp đồ liệu đƣợc chi tiết dần lên MST-SOM Trong mơ hình MST-SOM, mối quan hệ lân cận đƣợc xác định cách dung cân tối thiểu (MST – Minimal Spanning Tree) MST định nghĩa cách gắn gọn đƣợc tập liên kết tập vector Trong vector lƣợng tử hóa, MST-SOM nhanh ổn định SOM Hay nói cách khác, vị trí mẫu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 lƣới có số chiều thấp khơng đƣợc hồn tồn xác định, việc mơ tả khó khăn Neural Gass Neural Gass biến thể khác SOM với lân cận đƣợc xác định suốt trình huấn luyện Các lân cận đƣợc xác định theo vị trí thứ tự khoảng cách vector mẫu từ tập huấn luyện giải thiết Growing Cell Structures Trong thuật toán Growing Cell Structures, khả thích nghi đƣợc thực bƣớc sâu Thay cho việc phải có số lƣợng cố định vector mẫu, thuật toán bắt đầu với sau thêm vào vector mẫu tùy thuộc vào tiêu chuẩn hàm báo lỗi Các lân cận đƣợc xác định thời điểm mẫu đƣợc thêm vào mạng vector mẫu đƣợc xóa Các giải thuật Parallel SOM Huấn luyện mạng neural theo mơ hình song song thực việc phân chia mạng theo số xử lý (network portioning) thực theo hƣớng phân chia liệu qua xử lý (data portioning) Trong mơ hình network portioning xử lý, tác vụ song song phải xử lý tất ghi huấn luyện xử dụng phần mạng neural đƣợc gắt kết tƣơng ứng với Trong mơ hình data portioning, xử lý đầy đủ mạng sử dụng ghi đƣợc gửi đến cho 3.2.5 Một số ứng dụng SOM Thuật toán SOM đƣợc sử dụng nhiều lĩnh vực khác với nhiều ứng dụng, SOM khẳng định đƣợc ƣu điểm sau: - SOM có hiệu q trình phân tích điểm Nó giúp cho ngƣời phân tích hiểu vấn đề tập liệu tƣơng đối lớn (bản ghi điểm excel với liệu hàng trăm sinh viên) - Có khả biểu diễn liệu đa chiều dùng trình bày làm báo cáo - Xác định cụm liệu (ví dụ nhóm điểm trung bình ) giúp cho việc tối ƣu, phân nhóm số học sinh giỏi, trung bình Khóa luận đề cập đến vấn đề phân cụm màu ảnh, phần giới thiệu SOM thuật toán SOM, đến chƣơng sau trình bày cách thức xây dựng ứng dụng cụ thể SOM toán cụ thể: phân cụm màu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM 4.1 Giới thiệu Màu sắc loại liệu tự nhiên tập hợp chúng tạo nên giới mà ta quan sát đƣợc mắt Trong q trình phát triển cơng nghệ, ngƣời liên tục mã hóa sử dụng màu sắc máy tính ngày nhiều Khi liệu đa phƣơng tiện bùng nổ màu sắc theo trở thành loại liệu phổ biến thông dụng bậc kho liệu ngƣời Trong tốn lấy ví dụ minh họa phân cụm màu sắc cho khả mạng SOM cho phân loại liệu tự nhiên Đối tƣợng mang cụ thể cho loại liệu ảnh số Một loại liệu phổ biến từ máy tính phát triển đồng hành ngƣời Ảnh số ma trận điểm ảnh nhƣ đối tƣợng ảnh số đƣợc mô tả tập điểm ảnh Vậy màu sắc sở đơn giản giúp phân cụm đƣợc điểm ảnh đối tƣợng có ảnh số Xét chi tiết điểm ảnh (Pixel) kiểu liệu đặc trƣng cho màu sắc Trong ảnh nhị phân có màu đen trắng, ảnh đa cấp xám có 256 cấp xám tƣơng ứng với 256 màu, ảnh định dạng thông thƣờng đƣợc sử dụng rộng rãi điểm ảnh kết hợp màu Red, Green, Blue (định dạng RGB), nhƣ có 256*256*256=16777216 màu sắc khác Nhiệm vụ đặt phân biệt tập điểm ảnh màu tƣơng đồng màu sắc chúng Đây sở cho trình nhận dạng phân vùng đối tƣợng ảnh dựa theo màu sắc việc phát triển hƣớng tới khả phân cụm đối tƣợng tách chúng khỏi ảnh để thực trình nhận dạng đối tƣợng mạng nơron khác Trong ảnh màu thông tin đối tƣợng đầy đủ màu sắc sở chủ yếu để phân định đối tƣợng Vì lý mà việc phân loại đối tƣợng ảnh dựa biến thiên màu vùng đối tƣợng Từ đòi hỏi giải thuật xử lý đƣợc liệu màu sắc phân loại chúng xác Tuy nhiên việc kết hợp màu Red, Green, Blue lại tạo vô số màu sắc khác Đây nguyên nhân cho việc ứng dụng mạng SOM vào việc phân cụm liệu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 số, mạng có khả xác định mối quan hệ điểm ảnh phân chúng vào nhóm hợp lý 4.2 Mạng Nơron SOM cho phân cụm ảnh Thiết kế mạng Mạng SOM gồm lớp nơron: lớp đầu vào lớp Kohonen Mỗi nơron đƣợc thiết kế với mục đích phân cụm liệu ảnh số đơn vị cho đầu vào điểm ảnh định dạng RGB Vì nơron đƣợc thiết kế trọng số mô tả giá trị màu điểm ảnh truyền vào gồm trọng số kiểu byte mô tả Red, Green, Blue Việc khởi tạo mạng SOM đƣợc thực khởi tạo ngẫu nhiên cho nơron Khi đƣợc khởi tạo mạng tập hợp nhiều màu sắc chúng chƣa đƣợc phân thành nhóm Giải thuật huấn luyện mạng đƣợc chia thành phƣơng pháp: - Huấn luyện ngẫu nhiên: Tạo tập liệu ngẫu nhiên cho mạng tự học Phƣơng pháp tạo mạng có khả phân biệt hầu hết màu sắc, tập nhóm màu sắc biến thiên khoảng màu nhìn thấy đƣợc cong ngƣời Tuy nhiên ứng dụng mạng huấn luyện kiểu vào ảnh cụ thể chƣa thu đƣợc kết nhƣ mong đợi - Huấn luyện có chủ đích: Khi sử dụng mạng để phân loại liệu ảnh định sẵn để đạt hiệu cao q trình phân cụm ta sử dụng điểm ảnh có sẵn ảnh đầu vào làm tập huấn luyện Khi mạng đƣợc huấn luyện chuyên phân cụm điểm ảnh ảnh đầu vào ảnh có cấu hình tƣơng tự Vì mạng tự học nên ta không cần giám sát q trình học mạng thuật tốn huấn luyện đƣợc định sẵn cho mục đích sử dụng mạng Thuật toán học mạng Thuật toán học SOM đƣợc chia làm bƣớc nhƣ sau: Bƣớc 1: Xác định cấu hình mạng, tham số Bƣớc 2: Khởi tạo ngẫu nhiên trọng số nơron lớp Kohonen Lặp lại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 Bƣớc 3: Đọc mẫu học v, đƣa vào lớp vào Bƣớc 4: Tìm nơron chiến thắng (BMU) lớp Kohonen (gần với mẫu học v nhất) Bƣớc 5: Cập nhật trọng số nơron nằm bán kính lân cận với BMU Cho đến thỏa mãn điều kiện dừng Các điểm cần lưu ý thuật toán học: a) Khởi tạo tham số: SOM bị ảnh hƣởng rất nhiều bởi quá trì nh lƣ̣a chọn các tham số của mạng Các tham số bao gồm : kích thƣớc đồ (Width/Height), sớ lần lặp (N), bán kính khởi tạo (σ0), giá trị khởi tạo cho tốc độ học (L0) Thực tế không có hƣớng dẫn cụ thể cho việc lựa chọn tham số ứng với toán áp dụng SOM, vậy, việc “thƣ̉ sai” (trial and error) cần thiết nhằm xác định tập giá trị thích hợp ứng với tập liệu đầu vào b) Xác định BMU: Để chọn BMU sử dụng ba hàm khoảng cách là Euclidian (thƣờng dùng), Manhattan, Vector Dot Product Duyệt tất nút tính khoảng cách Euclide (Dist) vector trọng số (w) nút vector nhập hành (v) Nút có vector trọng số gần với giá trị vector nhập đƣợc chọn BMU Dist n v w i 0 i i (4.1) c) Xác định bán kính lân cận cập nhật trọng số nơron lân cận BMU: Trọng số phần tử lân cận đƣợc xác định bƣớc bao gồm BMU đƣợc điều chỉnh để chúng có giá trị gần giống với giá trị vector nhập Phần tử gần BMU trọng số dễ bị thay đổi nhiều Các vector trọng số đƣợc tính theo cơng thức: W (t +1) = W (t) + Θ(t)L(t)(V (t) −W (t)) (4.2) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 Θ(t): Hàm nội suy theo thời gian học, thể tác động khoảng cách trình học đƣợc tính theo cơng thức sau: (4.3) dist: Khoảng cách từ nơron đến nơron chiến thắng t: Bƣớc lặp L: Tốc độ học (sẽ giảm dần theo số lần lặp) - Biểu thức cho thấy trọng số nút sau hiệu chỉnh giá trị trọng số cũ W cộng thêm phần giá trị khác biệt trọng số W vector nhập V theo hệ số tốc độ học - Hàm nội suy tốc độ học L (t) cho bƣớc lặp đƣợc tính theo cơng thức sau: (4.4) L0: giá trị khởi tạo ban đầu tốc độ học - Càng tiến gần điểm tốc độ học giống với hàm mũ nội suy phép co Tốc độ học đƣợc nội suy dần theo tốc độ học giá trị hàm tiến dần không số lần lặp đạt tới bƣớc cuối d) Điều kiện dừng: Có thể dựa số lần lặp hay số mẫu học hay độ cân mạng (các trọng số thay đổi dƣới ngƣỡng định) 4.2 Giới thiệu mơi trƣờng cài đặt Phần cứng: Một máy tính Pentium V trở lên Card đồ họa 512MB Ổ cứng 1GB Phần mềm: Chƣơng trình đƣợc cài đặt ngơn ngữ lập trình C# Microsoft 4.3 Giới thiệu giao diện chƣơng trình 4.3.1 Thử nghiệm Bản đồ mạng lƣới nơron có kích thƣớc 40 x 40 Mỗi nơron có chứa vector trọng số tƣơng ứng với giá trị RGB Trọng số nơron đƣợc khởi tạo ngẫu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 nhiên Việc huấn luyện liên quan đến việc lựa chọn ngẫu nhiên đầu vào từ 48 màu nhất, việc tìm kiếm nơron chiến thắng cách sử dụng khoảng cách Euclide, điều chỉnh trọng số nơron lân cận Bởi trọng số nơron đƣợc khởi tạo ngẫu nhiên nên đồ hội tụ khác lần Giao diện Hình 4.1: Giao diện chƣơng trình - Bƣớc 1: Khởi tạo mạng Mạng đƣợc khởi tạo nhƣ hình 4.2 Mỗi vng nút mạng Phƣơng thức khởi tạo định giá trị ngẫu nhiên cho thành phần (R, G, B) nút Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 Hình 4.2: Khởi tạo mạng ngẫu nhiên - Bƣớc 2: Chọn vector ngẫu nhiên từ tập vector đầu vào Trong ví dụ sử dụng vector đầu vào Tiếp theo duyệt qua tất nút tìm BMU Hình 4.3 cho thấy BMU đƣợc lựa chọn mạng 4x4 Hình 4.3: Xác định BMU Tiếp theo cập nhật trọng số nơron nằm bán kính lân cận với BMU Sau quay trở bƣớc lặp lại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 Cuối ta đƣợc ảnh kết hình 4.8 Hình 4.4: Kết gom cụm 4.3.2 Thử nghiệm - Input: đầu vào ảnh màu - Output: ảnh kết gom cụm Giao diện bắt đầu: vào File Open, chọn ảnh cần phân cụm Sau chọn vào nút Clustering image để thực trình phân cụm Hình 4.5: Giao diện chọn ảnh để phân cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 Hình 4.6: Kết sau phân cụm 4.4 Hạn chế giải thuật SOM áp dụng phân cụm màu ảnh Khó khăn thứ việc phát số lƣợng biên cụm theo nội dung ảnh: áp dụng thuật toán tích tụ cần biết trƣớc số cụm cần hình thành; cịn áp dụng thuật tốn loang thƣờng thất bại khó xác định đƣợc ranh giới xác cụm điểm màu ảnh có biến thiên nhỏ Khó khăn thứ hai tốc độ hội tụ giải thuật chậm khối lƣợng tính tốn lớn Xét mạng SOM với kích thƣớc 20x30=600 nơron, độ phân giải ảnh đầu vào đƣợc tính đơn vị megapixel tức có tới hàng triệu điểm ảnh Nhƣ riêng trình huấn luyện, việc tìm BMU phải duyệt qua khoảng 600 triệu lần nơron Ngồi ra, thuật tốn để hình thành cụm đòi hỏi số lần lặp tƣơng đối lớn Để khắc phục hai hạn chế cần giải pháp hình thành cụm phù hợp tăng tốc độ giải thuật Hƣớng khắc phục hạn chế SOM Qua trình nghiên cứu phƣơng pháp phân chia nhom mạng SOM đƣợc huấn luyện số đặc điểm mạng SOM sau huấn luyện nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 75 - Các nơron lớp Kohonen biến đổi liên tục ranh giới cụm biến thiên liên tục Vì mà nhóm hình thành ranh giới khơng rõ ràng khó khăn cho q trình phân nhóm nơron - Việc xác định đâu nhóm rành giới nhóm khơng có chuẩn dẫn đến tình trạng hỗn tạp nhóm - Khơng thể xác định đâu trung tâm nhóm hay đặc trƣng riêng có nhóm chƣa phân cụm Vì ngun nhân mà giải pháp phân cụm nhóm điều vơ khó khăn mà ngun nhân trực tiếp ranh giới nhóm mờ nhạt Vì địi hỏi giải pháp Sau nghiên cứu tiến hành cài đặt huấn luyện mạng SOM thấy q trình huấn luyện mạng chất q trình hình thành lên nhóm Chính phƣơng pháp phân chia nhóm từ q trình huấn luyện giải pháp hợp lý Phƣơng pháp Mạng đƣợc hình thành huấn luyện từ Nơron chiến thắng nhóm đƣợc phân chia q trình Nhƣ nhóm đƣợc hình thành mang đặc điểm nơron chiến thắng Dựa vào tính chất ta phân chia nhóm theo giải thuật đƣợc để theo nguyên tắc đối vơi nơron bị tác động nơron chiến thắng bƣớc trinh huấn luyện nhƣ sau: - Với nơron bị tác động chúng chƣa thuộc nhóm hình thành nhóm mang đặc tính nơron chiến thắng - Với nơron bị tác động thuộc nhóm định nhóm khơng đồng với nơron chiến thắng xảy q trình tranh chấp nhóm - Với đọ phân ly lớn nơ ron chiến thắng nhóm cũ vƣợt qua ngƣỡng xảy q trình sinh nhóm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 Nhƣ phƣơng pháp đề thực chất q trình hình thành nhóm, phân ly nhóm tranh chấp nơron nhóm Với phát biểu tổng qt ta hình dung trình cách dễ hiểu nhƣ sau: * Ngun tắc hình thành củng cố nhóm Khi nơron chiến thắng đƣợc xác định khơng thuộc nhóm hình thành nhóm thực q trình tranh chấp nơron cho nhóm Nếu thuộc nhóm tồn có phân ly củng cố nhóm * Nguyên tắc phân li nhóm Khi nơron chiến thắng xác định thỏa mãn điều kiện phân li (khoảng cách nơron chiến thắng với đặc trƣng nhóm lớn vƣợt qua ngƣỡng phân ly) hình thành nhóm mơi mang đặc tính nơron tranh chấp nơron với nhóm cũ * Nguyên tắc củng cố nhóm Khi nơron chiến thắng không thỏa mãn điều kiện phân ly củng cố đặc trƣng nhóm theo nơron Đồng thời tranh chấp nơron với nhóm gần theo nguyên tắc tranh chấp * Nguyên tắc tranh chấp Nơron nhóm Khi nơron nằm vùng giao nhóm xảy q trình tranh chấp nơron nhóm Khi tính khoảng cách từ nơron tới nhóm theo đặc trƣng nhóm Khoảng cách ngắn nơron thuộc nhóm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 77 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Mạng nơron lĩnh vực nghiên cứu tƣơng đối rộng địi hỏi nhiều cơng sức nỗ lực trình nghiên cứu Bên cạnh việc cài đặt ứng dụng mạng nơron gặp nhiều khó khăn độ phức tạp tƣơng đối cao giải thuật Vì lí khn khổ đồ án hƣớng tới mạng nơron dùng để phân cụm liệu ảnh mạng SOM để nghiên cứu phát triển Thực tế chứng minh mạng SOM có nhiều ứng dụng việc nghiên cứu khai thác mạng đem lại nhiều kết thực tiễn Luận văn thực đƣợc kết sau: - Giới thiệu tổng quan khai phá liệu, phƣơng pháp phân cụm liệu - Trình bày cách tổng qt mơ hình mạng nơron ứng dụng mạng nơron khai phá liệu Trình bày cách hệ thống giải pháp học mạng nơron khơng giám sát có giám sát - Nghiên cứu, phân tích việc sử dụng thuật tốn SOM giải tốn phân cụm màu ảnh theo mơ hình mạng nơron - Xây dựng đƣợc chƣơng trình phân cụm ảnh với thử nghiệm Thử nghiệm ảnh đầu vào có kích thƣớc 40x40=1600 nơron Mỗi nơron có chứa vector trọng số tƣơng ứng với giá trị RGB Trọng số nơron đƣợc khởi tạo ngẫu nhiên Sau thực phân cụm sử dụng thuật toán SOM, ta thu đƣợc cụm màu nhƣ hình 4.4 Thử nghiệm đọc ảnh bất kỳ, sau thực phân cụm ta thu đƣợc ảnh kết nhƣ hình 4.7 Han chế Phân cụm liệu ứng dụng mạng nơron vào phân cụm liệu hƣớng nghiên cứu cần thiết quan trọng Tuy nhiên mảng rộng, bao hàm nhiều phƣơng pháp, kỹ thuật hình thành nhiều nhóm khác Trong q trình nghiên cứu, thực luận văn cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo, tạp chí khoa học ngồi nƣớc, Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 78 nhƣng trình độ cịn có nhiều giới hạn khơng thể tránh khỏi thiếu sót hạn chế Em mong đƣợc bảo đóng góp nhiều thầy, cô giáo, đồng nghiệp, nhà khoa học… Hƣớng phát triển - Tiếp tục nghiên cứu thêm lý thuyết phân cụm liệu, mạng nơron - Xây dựng, phát triển thêm kỹ thuật, ứng dụng Phân cụm liệu, ứng dụng mạng nơron phân cụm liệu nói riêng lĩnh vực khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 79 TÀI LIỆU THAM KHẢO Tiếng Việt [1] PGS.TS Đỗ Năng Tồn – TS Phạm Việt Bình, Giáo trình xử lý ảnh, 2007 [2] Đỗ Phúc, giáo trình khai thác liệu, NXB Đại học quốc gia TP HCM, 2005 [3]Ts Nguyễn Trọng Phúc, Đại học Giao thông vận tải, Mơ hình phân lớp FCM phân đoạn ảnh thuật tốn DCA [4] Bùi Cơng Cƣờng Nguyễn Doãn Phƣớc, Hệ mờ, mạng nơron ứng dụng, NXB Khoa học Kỹ thuật, 2006 [5] Ts.Nguyễn Đình Thúc, Trí tuệ nhân tạo – Mạng nơron – Phương pháp ứng dụng, NXB Giáo dục, 2000 Tiếng Anh [6] S Nascimento, B Mirkin and F Moura-Pires, A Fuzzy Clustering Model of Data and Fuzzy c-Means [7] A.K Jain, R.C Dubes, “Algorithms for clustering data”, Ptentice Hall, Englewood Cliffs, NJ, 1988 [8] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 [9] J Han, M Kamber, “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, 2001 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn