Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
838,49 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MÔ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2012 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MÔ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TSKH. Nguyễn Minh Hải Thái Nguyên – 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn chân thành đến thầy TSKH. Nguyễn Minh Hải - Học viện Công nghệ bƣu chính viễn thông đã tận tình hƣớng dẫn, chỉ bảo cho tôi trong suốt quá trình làm luận văn. Tôi cũng xin gửi lời cảm ơn đến các thầy cô trƣờng Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các thầy cô Viện Công nghệ thông tin đã truyền đạt những kiến thức và giúp đỡ tôi trong suốt quá trình học của mình. Tôi cũng xin gửi lời cảm ơn tới các đồng nghiệp trong Trung tâm Giáo dục thƣờng xuyên An Dƣơng, gia đình và bạn bè những ngƣời đã động viên tạo mọi điều kiện giúp đỡ tôi trong suốt hai năm học. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong luận văn này do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện. Trong luận văn tôi có sử dụng một số tài liệu tham khảo nhƣ đã trình bày trong phần tài liệu tham khảo. Ngƣời viết luận văn Nguyễn Thế Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU 1 Chƣơng 1: TÌM HIỂU VỀ MẠNG NƠRON VÀ MỘT SỐ PHƢƠNG PHÁP PHÂN CỤM 3 1.1 Mạng nơron sinh học 3 1.1.1 Cấu trúc một nơron sinh học 3 1.1.2 Hoạt động của nơron sinh học 4 1.2 Mạng nơron nhân tạo 4 1.2.1 Cấu trúc và mô hình của một nơron nhân tạo 4 1.2.2 Mô hình của mạng nơron nhân tạo 7 1.2.3 Mạng nơron một lớp 9 1.2.4 Mạng nơron truyền thẳng nhiều lớp 10 1.2.5 Mạng Hopfield 11 1.3 Các luật học 12 1.3.1 Quy tắc học của mạng nơron nhân tạo 12 1.3.2 Học có giám sát 13 1.3.3 Học không giám sát 14 1.3.4 Học tăng cƣờng 15 1.4 Một số phƣơng pháp phân cụm dữ liệu 15 1.4.1 Phân cụm và các thành phần trong phân cụm dữ liệu 15 1.4.2 Phƣơng pháp phân cụm phân cấp 16 1.4.3 Phƣơng pháp phân cụm phân hoạch 16 1.4.4 Phƣơng pháp phân cụm dựa trên mật độ 17 1.4.5 Phân cụm dữ liệu dựa trên lƣới 17 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.4.6 Phân cụm dữ liệu dựa trên sự ràng buộc 17 1.5 Kết luận chƣơng 1 18 Chƣơng 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM 19 2.1 Thuật toán phân cụm dữ liệu 19 2.2 Thuật toán phân cụm tuyến tính không giám sát 20 2.2.1 Thuật toán phân cụm K-mean 20 2.2.2 Thuật toán phân cụm mờ C-mean 22 2.2.3 Thuật toán phân cụm phân cấp 24 2.2.4 Thuật toán phân cụm EM (Expectation Maximization) 25 2.2.5 Thuật toán phân cụm chất lƣợng ngƣỡng 26 2.3 Thuật toán phân cụm phi tuyến tính không giám sát 27 2.3.1 Thuật toán phân cụm MST (Minimum spanning tree) 27 2.3.2 Thuật toán phân cụm dữ liệu Kernel K-mean. 28 2.3.3 Thuật toán phân cụm dựa trên mật độ DBSCAN 29 2.4 Mạng nơron Kohonen (SOM) 30 2.4.1 Giới thiệu về mạng Kohonen (SOM) 30 2.4.2 Cấu trúc của SOM 31 2.4.3 Khởi tạo SOM 32 2.4.4 Huấn luyện SOM 33 2.4.5 Tỉ lệ học 34 2.4.6 Hàm lân cận 35 2.4.7 Cập nhật trọng số 37 2.4.8 Xác định nơron chiến thắng 38 2.4.9 Bảo toàn cấu trúc liên kết 39 2.5 SOM sử dụng trong phân cụm dữ liệu 40 2.5.1 SOM phân cụm với bản đồ một chiều 41 2.5.2 SOM phân cụm với bản đồ 2 chiều 41 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.5.3 Xác định ranh giới các cụm 42 2.5.4 Trực quan mạng 43 2.6 Kết luận chƣơng 2 44 Chƣơng 3 : ỨNG DỤNG CỦA MẠNG SOM CHO TRỢ GIÚP HỌC SINH THI ĐẠI HỌC 46 3.1 Giới thiệu về bài toán trợ giúp học sinh thi đại học 46 3.2 Giới thiệu công cụ SOM Toolbox 46 3.3 Chƣơng trình thử nghiệm 47 3.3.1 Thu thập dữ liệu 47 3.3.2 Phân tích tập dữ liệu 51 3.3.3 Khởi tạo và huấn luyện SOM 51 3.3.4 Kết quả và phân tích dữ liệu sau khi huấn luyện SOM 53 3.4 Kết luận chƣơng 3 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT SOM (Self Organizing Maps) Mạng nơron tự tổ chức ĐH Đại học HV Học viện PE (Processing element) Phần tử xử lý U-matrix (unified distance matrix) Ma trận thống nhất khoảng cách EM (Expectation maximization) Thuật toán tối đa hóa MST (Minimum spanning tree) Thuật toán tối thiểu cây mở rộng BMU (Best – Matching unit) Đơn vị phù hợp nhất DBSCAN (Density Based Spatial Clustering of Applications with Noise) Phân cụm dữ liệu dựa trên không gian mật độ ứng dụng với nhiễu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 3.1: Thông tin về một số trƣờng đại học của Việt Nam 49 Bảng 3.2: Kết quả các cụm sau khi huấn luyện SOM 54 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mô hình nơron sinh học 3 Hình 1.2: Mô hình một nơron nhân tạo 5 Hình 1.3: Đồ thị các dạng hàm truyền 7 Hình 1.4: Mạng nơron ba lớp 8 Hình 1.5: Một số dạng mạng nơron 10 Hình 1.6: Cấu trúc mạng Hopfield 11 Hình 1.7: Học có giám sát 14 Hình 1.8: Học không giám sát 14 Hình 2.1: Cấu trúc của mạng SOM 32 Hình 2.2: Cập nhật BMU và lân cận của nó với mẫu đầu vào x 34 Hình 2.3: Hàm tỉ lệ học theo thời gian 35 Hình 2.4: Giá trị của hàm lân cận Gausian(a) và hàm bubble(b) 37 Hình 2.5: Bảo toàn cấu trúc liên kết các cụm 40 Hình 3.1: Trực quan mạng sử dụng U-matrix 54 Hình 3.2: Trực quan các thành phần bản đồ 61 [...]... đời của học sinh trong việc tìm kiếm trƣờng học và công việc trong tƣơng lai Với số lƣợng trên 300 trƣờng đại học và cao đẳng của Việt Nam việc lựa chọn ra một trƣờng để cho học sinh theo học là một công việc hết sức khó khăn Chính vì lý do đó em mạnh dạn đề xuất đề tài ” Tìm hiểu mô hình SOM và ứng dụng trong tư vấn thi đại học” Luận văn tập trung vào tìm hiểu mạng SOM và sử dụng SOM trong phân cụm... nghiên cứu chính là tìm hiểu các tài liệu bài báo viết về mạng SOM và sử dụng công cụ SOM Toolbox để huấn luyện mạng SOM phân cụm các trƣờng đại học, cao đẳng của Việt Nam từ đó đƣa ra những nhận xét, đánh giá, tƣ vấn cho học sinh đăng kí dự thi vào các trƣờng Nội dung luận văn gồm có 3 chƣơng: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 Chƣơng 1: Giới thi u về mạng nơron... nhân tạo và một số phƣơng pháp phân cụm Chƣơng 2: Giới thi u một số thuật toán phân cụm phổ biến, ƣu nhƣợc điểm của từng thuật toán phân cụm Trong chƣơng này trình bày về mạng SOM: Giới thi u về mạng SOM, cấu trúc của SOM, các phƣơng pháp khởi tạo, huấn luyện SOM, tỉ lệ học, các hàm lân cận, phƣơng pháp xác định nơron chiến thắng và sử dụng SOM trong phân cụm dữ liệu Chƣơng 3: Trình bày về sử dụng công... năng trong mạng Hình 1.4 là mô hình hoạt động của một mạng nơron 3 lớp với 8 phần tử nơron Mạng có ba đầu vào là x1, x2, x3 và hai đầu ra y1, y2 Các tín hiệu đầu vào đƣợc đƣa đến 3 nơron đầu vào, 3 nơron này làm thành lớp đầu vào của mạng Các nơron trong lớp này đƣợc gọi là nơron đầu vào Đầu ra của các nơron này đƣợc đƣa đến đầu vào của 3 nơron tiếp theo, 3 nơron này Số hóa bởi Trung tâm Học liệu – Đại. .. thông tin đầu vào, và tƣơng ứng với mỗi nhóm là một đáp ứng đầu ra phù hợp Nhƣ vậy, một nhóm bao gồm một loại thông tin đầu vào và một đáp ứng đầu ra Các nhóm có thể đƣợc hình thành trong quá trình học, và cũng có thể không hình thành trong quá trình học 1.2.3 Mạng nơron một lớp Mỗi một nơron có thể phối hợp với các nơron khác tạo thành một lớp các trọng số Mạng một lớp truyền thẳng nhƣ hình 1.5a Một... Điều này đƣợc minh họa trong hình 1.7, khoảng cách thực tế và khoảng cách mong muốn là biện pháp để tìm ra lỗi và đƣợc sử dụng để điều chỉnh trọng số của mạng Trong phân loại học của các mẫu đầu vào hoặc các trạng thái đầu vào đƣợc biết trƣớc câu trả lời, lỗi này có thể đƣợc sử dụng để thay đổi trọng số nhằm giảm lỗi Học có giám sát là phƣơng thức học phổ biến và đƣợc sử dụng trong nhiều trƣờng hợp... nối và các khớp nối ấy càng mạnh mẽ, hay nói cách khác thì liên kết giữa các nơron càng nhiều càng nhạy bén 1.2 Mạng nơron nhân tạo 1.2.1 Cấu trúc và mô hình của một nơron nhân tạo Mô hình toán học của mạng nơron sinh học đƣợc đề xuất bởi McCulloch và Pitts [2], thƣờng đƣợc gọi là nơron M-P, ngoài ra nó còn đƣợc gọi là phần tử xử lý và đƣợc ký hiệu là PE Mô hình nơron có m đầu vào x1, x2, , xm, và. .. phƣơng pháp phân cụm đƣợc sử dụng rộng rãi trong phân cụm dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 19 Chƣơng 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM 2.1 Thuật toán phân cụm dữ liệu Phân cụm dữ liệu là một lĩnh vực quan trọng trong khai phá dữ liệu Với sự ra đời của nhiều thuật toán phân cụm và đƣợc sử dụng trong nhiều ứng dụng : Xử lý hình ảnh, sinh học dùng máy... là vấn đề ứng dụng rất khác nhau, đƣợc giải quyết chủ yếu dựa trên sự tổ chức hợp nhất giữa các thông tin đầu vào của mạng và các đáp ứng đầu ra Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 Nếu nhiệm vụ của một mạng là hoàn chỉnh hoặc hiệu chỉnh các thông tin thu đƣợc không đầy đủ hoặc bị tác động của nhiễu Mạng nơron kiểu này đƣợc ứng dụng trong lĩnh vực hoàn thi n... lên hệ thống phải sử dụng một số chiến lƣợc tìm kiếm ngẫu nhiên để lựa chọn không gian tìm kiếm từ đó đƣa ra kết quả chính xác nhất Khi có thông tin phản hồi đúng từ môi trƣờng đầu vào học tăng cƣờng khám phá môi trƣờng mới Hệ thống này sẽ nhận đƣợc tín hiệu đầu vào từ môi trƣờng và cho kết quả đầu ra tƣơng ứng Hệ thống sẽ nhận đƣợc thông tin phản hồi tích cực hoặc không tích cực từ môi trƣờng Để nhận . tài ” Tìm hiểu mô hình SOM và ứng dụng trong tư vấn thi đại học . Luận văn tập trung vào tìm hiểu mạng SOM và sử dụng SOM trong phân cụm dữ liệu. Phƣơng pháp nghiên cứu chính là tìm hiểu các. – 2012 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MÔ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC Chuyên ngành: Khoa học máy tính. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MÔ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY