Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
792,67 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MƠ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2012 Tai ngay!!! Ban co the xoa dong chu nay!!! ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Nguyễn Thế Huy TÌM HIỂU MƠ HÌNH SOM VÀ ỨNG DỤNG TRONG TƯ VẤN THI ĐẠI HỌC Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TSKH Nguyễn Minh Hải Thái Nguyên – 2012 LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn chân thành đến thầy TSKH Nguyễn Minh Hải - Học viện Công nghệ bƣu viễn thơng tận tình hƣớng dẫn, bảo cho tơi suốt q trình làm luận văn Tơi xin gửi lời cảm ơn đến thầy cô trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ tơi suốt q trình học Tôi xin gửi lời cảm ơn tới đồng nghiệp Trung tâm Giáo dục thƣờng xuyên An Dƣơng, gia đình bạn bè ngƣời động viên tạo điều kiện giúp đỡ suốt hai năm học Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Trong luận văn tơi có sử dụng số tài liệu tham khảo nhƣ trình bày phần tài liệu tham khảo Ngƣời viết luận văn Nguyễn Thế Huy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU Chƣơng 1: TÌM HIỂU VỀ MẠNG NƠRON VÀ MỘT SỐ PHƢƠNG PHÁP PHÂN CỤM 1.1 Mạng nơron sinh học 1.1.1 Cấu trúc nơron sinh học 1.1.2 Hoạt động nơron sinh học 1.2 Mạng nơron nhân tạo 1.2.1 Cấu trúc mơ hình nơron nhân tạo 1.2.2 Mơ hình mạng nơron nhân tạo 1.2.3 Mạng nơron lớp 1.2.4 Mạng nơron truyền thẳng nhiều lớp 10 1.2.5 Mạng Hopfield 11 1.3 Các luật học 12 1.3.1 Quy tắc học mạng nơron nhân tạo 12 1.3.2 Học có giám sát 13 1.3.3 Học không giám sát 14 1.3.4 Học tăng cƣờng 15 1.4 Một số phƣơng pháp phân cụm liệu 15 1.4.1 Phân cụm thành phần phân cụm liệu 15 1.4.2 Phƣơng pháp phân cụm phân cấp 16 1.4.3 Phƣơng pháp phân cụm phân hoạch 16 1.4.4 Phƣơng pháp phân cụm dựa mật độ 17 1.4.5 Phân cụm liệu dựa lƣới 17 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.4.6 Phân cụm liệu dựa ràng buộc 17 1.5 Kết luận chƣơng 18 Chƣơng 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM 19 2.1 Thuật toán phân cụm liệu 19 2.2 Thuật tốn phân cụm tuyến tính khơng giám sát 20 2.2.1 Thuật toán phân cụm K-mean 20 2.2.2 Thuật toán phân cụm mờ C-mean 22 2.2.3 Thuật toán phân cụm phân cấp 24 2.2.4 Thuật toán phân cụm EM (Expectation Maximization) 25 2.2.5 Thuật toán phân cụm chất lƣợng ngƣỡng 26 2.3 Thuật toán phân cụm phi tuyến tính khơng giám sát 27 2.3.1 Thuật toán phân cụm MST (Minimum spanning tree) 27 2.3.2 Thuật toán phân cụm liệu Kernel K-mean 28 2.3.3 Thuật toán phân cụm dựa mật độ DBSCAN 29 2.4 Mạng nơron Kohonen (SOM) 30 2.4.1 Giới thiệu mạng Kohonen (SOM) 30 2.4.2 Cấu trúc SOM 31 2.4.3 Khởi tạo SOM 32 2.4.4 Huấn luyện SOM 33 2.4.5 Tỉ lệ học 34 2.4.6 Hàm lân cận 35 2.4.7 Cập nhật trọng số 37 2.4.8 Xác định nơron chiến thắng 38 2.4.9 Bảo toàn cấu trúc liên kết 39 2.5 SOM sử dụng phân cụm liệu 40 2.5.1 SOM phân cụm với đồ chiều 41 2.5.2 SOM phân cụm với đồ chiều 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.5.3 Xác định ranh giới cụm 42 2.5.4 Trực quan mạng 43 2.6 Kết luận chƣơng 44 Chƣơng : ỨNG DỤNG CỦA MẠNG SOM CHO TRỢ GIÚP HỌC SINH THI ĐẠI HỌC 46 3.1 Giới thiệu toán trợ giúp học sinh thi đại học 46 3.2 Giới thiệu công cụ SOM Toolbox 46 3.3 Chƣơng trình thử nghiệm 47 3.3.1 Thu thập liệu 47 3.3.2 Phân tích tập liệu 51 3.3.3 Khởi tạo huấn luyện SOM 51 3.3.4 Kết phân tích liệu sau huấn luyện SOM 53 3.4 Kết luận chƣơng 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT SOM (Self Organizing Maps) Mạng nơron tự tổ chức ĐH Đại học HV Học viện PE (Processing element) Phần tử xử lý U-matrix (unified distance matrix) Ma trận thống khoảng cách EM (Expectation maximization) Thuật toán tối đa hóa MST (Minimum spanning tree) Thuật tốn tối thiểu mở rộng BMU (Best – Matching unit) Đơn vị phù hợp DBSCAN (Density Based Spatial Phân cụm liệu dựa không Clustering of Applications with Noise) gian mật độ ứng dụng với nhiễu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 3.1: Thông tin số trƣờng đại học Việt Nam 49 Bảng 3.2: Kết cụm sau huấn luyện SOM 54 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mơ hình nơron sinh học Hình 1.2: Mơ hình nơron nhân tạo Hình 1.3: Đồ thị dạng hàm truyền Hình 1.4: Mạng nơron ba lớp Hình 1.5: Một số dạng mạng nơron 10 Hình 1.6: Cấu trúc mạng Hopfield 11 Hình 1.7: Học có giám sát 14 Hình 1.8: Học khơng giám sát 14 Hình 2.1: Cấu trúc mạng SOM 32 Hình 2.2: Cập nhật BMU lân cận với mẫu đầu vào x 34 Hình 2.3: Hàm tỉ lệ học theo thời gian 35 Hình 2.4: Giá trị hàm lân cận Gausian(a) hàm bubble(b) 37 Hình 2.5: Bảo tồn cấu trúc liên kết cụm 40 Hình 3.1: Trực quan mạng sử dụng U-matrix 54 Hình 3.2: Trực quan thành phần đồ 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 đo khoảng cách Euclide Nơron có trọng số vector gần với vector đầu vào x đƣợc gọi đơn vị phù hợp BMU kí hiệu c x mc x mi i (3.1) Khoảng đƣợc tính tƣơng đối phức tạp lý do: Giá trị thiếu: Các giá trị đƣợc thay giá trị không đƣợc xác định vector học ma trận liệu Các thành phần thiếu đƣợc loại bỏ cách tính khoảng cách Các giá trị giống bị loại bỏ sau lần tính khoảng cách Mặt nạ (mask): Mỗi biến có phần tử trọng số liên quan Các biến đƣợc sử dụng dƣới dạng nhị phân, lấy biến có giá trị loại bỏ biến có giá trị từ trình xử lý tìm kiếm BMU Mặt nạ nhận đƣợc vài giá trị đƣợc dùng vài giá trị kèm theo mức độ quan trọng chúng Với lần thay đổi phƣơng pháp đo khoảng cách đƣợc tính x m w k (x k mk ) 2 (3.2) kK Với k tập biến biết tập vector mẫu x, x k, mk thành phần thứ k mẫu vector trọng số, wk giá trị mặt nạ thứ k Sau tìm đƣợc BMU vector trọng số SOM đƣợc cập nhật BMU đƣợc di chuyển gần với vector đầu vào không gian đầu vào Những lân cận BMU đƣợc xử lý tƣơng tự Công thức cập nhật vector trọng số đơn vị i đƣợc tính: mi (t 1) mi (t) α(t)h ci (t)[x(t)-mi (t)] (3.3) 3.3.3.2 Thuật toán huấn luyện khối Thuật toán huấn luyện khối thuật tốn lặp nhƣng thay sử dụng vector liệu thời điểm tồn tập liệu đƣợc thể ma trận trƣớc có điều chỉnh Trong bƣớc huấn 53 luyện tập hợp liệu đƣợc phân chia theo vùng Voronoi Sau vector trọng số đƣợc tính: n mi (t 1) h j1 n ci h j1 (t)x j (3.4) ci (t) Vector trọng số giá trị trọng số trung bình mẫu, trọng số mẫu giá trị hàm lân cận hci (t) BMU Các giá trị thiếu đƣợc bỏ qua q trình tính trung bình trọng số 3.3.4 Kết phân tích liệu sau huấn luyện SOM 3.3.4.1 Kết chạy chương trình huấn luyện SOM %///////////////////////////////////////////////////////////////////////////////////////////////////////////// %// Exploratory Analysis of %// "DU LIEU THONG KE CAC TRUONG DAI HOC VIET NAM" // %// Using Self Organizing Maps %// // // // %// NGUYEN THE HUY // %// CAO HOC // %// THAI NGUYEN University // %// April 20, 2012 %// // // %// Make the data "DU LIEU THONG KE TRONG DANH SACH %// DUOC DIEU TRA KHAO SAT THEO CAC WEBSITE // // %// CUA CAC TRUONG VA CUON HUONG DAN THI DAI HOC // %// CUNG NHU PHONG VAN // %// %sD=som_read_data ('final_data.dat','x') // %//////////////////////////////////////////////////////////////////////////////////////////////////////////// 54 sD=som_read_data ('danhsach.dat','x') 3.3.4.2 Trực quan mạng sử dụng U-matrix Hình 3.1: Trực quan mạng sử dụng U-matrix a, Phân tích kết sau phân cụm Kết huấn luyện SOM sử dụng phƣơng pháp trực quan U-matrix cho cụm trƣờng đại học: Bảng 2: Kết cụm sau huấn luyện SOM Cụm Cụm Cụm Cụm Mã Tên trƣờng trƣờng DKY ĐH Kĩ thuật y tế Hải Dƣơng DHY ĐH Y Dƣợc Huế YHB ĐH Y Hà Nội SPH ĐH Sƣ phạm Hà Nội BKA ĐH Bách khoa Hà Nội DDK ĐH Bách khoa Đà Nẵng 55 Cụm Cụm Cụm Cụm Cụm Cụm YDS ĐH Y Dƣợc TP Hồ Chí Minh QSB ĐH Bách khoa TP Hồ Chí Minh TGC HV Báo chí tuyên truyền NHS ĐH Ngân hàng TP Hồ Chí Minh NHH HV Ngân hàng DCN ĐH Công nghiệp Hà Nội HUI ĐH Cơng nghiệp TP Hồ Chí Minh TDV ĐH Vinh TMA ĐH Thƣơng mại HTC HV Tài DQN ĐH Quy Nhơn DHT ĐH Khoa học Huế TCT ĐH Cần Thơ TTN ĐH Tây Nguyên HHA ĐH Hàng Hải THP ĐH Hải Phịng QSC ĐH Cơng nghệ thơng tin QHT ĐH Khoa học tự nhiên - ĐH Quốc gia Hà Nội DNU ĐH Đồng Nai SKH ĐH Sƣ phạm kĩ thuật Hƣng Yên DTK ĐH Kỹ thuật công nghiệp ĐH Thái Nguyên TDL ĐH Đà Lạt DTC ĐH Công nghệ thông tin Truyền thông -ĐH Thái Nguyên DQU ĐH Quảng Nam Cụm 1: ĐH kĩ thuật y tế Hải Dƣơng tiêu chí đƣợc thống kê cụm cao so với cụm lại tỉ lệ giáo viên sinh viên 10.8 Số chỗ 56 kí túc xá đáp ứng đƣợc cho tất sinh viên nhập học Diện tích phịng thực hành thí nghiệm số đầu sách phục vụ thƣ viên cao so với cụm cịn lại Điều cho thấy sở vật chất trang thiết bị trƣờng đƣợc trang bị tốt để phục vụ nhu cầu học tập cho sinh viên Tỉ lệ sinh viên trƣờng tỉ lệ sinh viên trƣờng có việc làm cao lần lƣợt 95% 98% Tỉ lệ chọi vào trƣờng 1:26 tiêu tuyển sinh vào trƣờng 450 cho thấy nhu cầu đƣợc vào học trƣờng lớn tiêu tuyển sinh vào trƣờng thấp so với cụm lại Cụm 2: Trƣờng ĐH Y Hà Nội, ĐH Y Dƣợc Huế: Qua bảng thơng kê số tiêu chí hai trƣờng cho ta thấy đƣợc số điểm giống hai trƣờng là: Số khoa ngành lần lƣợt 7; Diện tích phịng thực hành/thí nghiệm 0.4; 0.4 Học phí hai trƣờng 340.000 Tỉ lệ sinh viên trƣờng có việc làm 95.5; 98.5 Chỉ tiêu tuyển sinh 1000; 1020 Tỉ lệ dự thi 83.9; 86.1 Điểm tuyển sinh đầu vào nguyện vọng 22.6; 20.4 Điểm tuyển sinh đầu vào nguyện vọng 24.7; 22.8 Những điểm khác biệt cụm là: Tổng số sinh viên trƣờng Trƣờng ĐH Y Hà Nội 5600 cao so với số sinh viên trƣờng ĐH Y Dƣợc Huế 3800 Tỉ lệ chọi hai trƣờng lần lƣợt 18.7; 12.8 Số chỗ kí túc xá cho sinh viên 26.8; 92.1 Cụm cụm có hầu hết tiêu chí đƣợc thống kê cao so với cụm cịn lại từ số kí túc xá sinh viên, diện tích mặt sinh viên, số học bổng hàng năm, tỉ lệ sinh viên trƣờng, tỉ lệ sinh viên có việc làm Qua phần cho thấy đƣợc trƣờng thuộc cụm trƣờng có chất lƣợng đào tạo tốt, ngành đào tạo ngành mà xã hội có nhu cầu cao số tiêu tuyển sinh hàng năm tƣơng đối thấp Cụm 3: ĐH Sƣ phạm Hà Nội, ĐH Bách khoa Hà Nội, ĐH Bách khoa Đà Nẵng, ĐH Y Dƣợc TP Hồ Chí Minh, ĐH Bách khoa TP Hồ Chí Minh, HV Báo chí tuyên truyền, ĐH Ngân hàng TP Hồ Chí Minh Cụm có tỉ lệ giáo 57 viên/100 sinh viên, tỉ lệ diện tích phịng thí nghiệm, thực hành/ sinh viên tƣơng đối đồng cao cụm lại Số tài liệu thƣ viện/ sinh viên lần lƣợt 2.9; 2.4; 1.4; 4.0; 2.8; 2.4; 4.5 Tỉ lệ sinh viên trƣờng cao với tỉ lệ 77.8; 75.5; 89.5; 93.7; 78.9; 91.5; 88.9 Tỉ lệ thí sinh đến dự thi thực tế so với số lƣợng hồ sơ đăng kí dự thi 77.4; 87.7; 80.0; 71.5; 75.0; 64.3; 65.0 Điểm tuyển sinh đầu vào nguyện vọng 1, nguyện vọng cao lần lƣợt 18.2; 21.4; 16.9; 18.6; 23.6; 19.1; 17.0 Sự khác biệt tiêu chí thuộc cụm tiêu chí kí túc xá, diện tích mặt bằng, số học bổng hàng năm, tỉ lệ sinh viên trƣờng có việc làm tỉ lệ chọi Từ Bảng 3.1 cho thấy đƣợc sở vật chất trƣờng thuộc cụm tƣơng đối tốt tiêu chí thống kê cho thấy tiêu chí sở vật chất mức cao Tỉ lệ sinh viên trƣờng có việc làm cao Cụm 4: HV Ngân hàng, ĐH Công nghiệp Hà Nội, ĐH Cơng nghiệp TP Hồ Chí Minh Tổng số sinh viên theo học trƣờng lần lƣợt 14800; 18000; 15300 Diện tích phịng thí nghiệm, thực hành 0.1; 0.9; 2.9 Số học bổng hàng năm, số sinh viên đƣợc cử học nƣớc ngoài, tỉ lệ có việc làm sau tốt nghiệp, tiêu tuyển sinh hàng năm, tỉ lệ chọi cụm cao cụm cịn lại Trong cụm có tiêu chí đƣợc thống kê thấp cụm khác nhƣ diện tích mặt trƣờng/ sinh viên thấp Cụm 5: ĐH Vinh, ĐH Thƣơng mại, HV Tài Tỉ lệ giáo viên lần lƣợt 3.6; 2.9; 5.2 Diện tích phịng thực hành thí nghiệm số học bổng hàng năm số sinh viên đƣợc cử nƣớc học tập thấp Số tài liệu thƣ viện lần lƣợt 1.0; 1.6;0.7 Chỉ tiêu tuyển sinh nhiều đồng lần lƣợt 4400; 4300; 3400 Cụm 6: ĐH Quy nhơn, ĐH Khoa học Huế, ĐH Cần Thơ, ĐH Tây Nguyên, ĐH Hàng Hải, ĐH Hải Phòng: Cụm trƣờng có số khoa ngành đơng lần lƣợt 39; 22; 14; 31; 18; 18 Diện tích phịng thí nghiệm/ thực hành 58 sinh viên đồng 0.1; 0.2; 0.3; 0.2; 0.1; 0.2 Số sinh viên cử học nƣớc đồng chiếm tỉ lệ lần lƣợt 0.5; 0.6; 0.3; 0.3; 0.3; 0.6 Tỉ lệ sinh viên trƣờng lần lƣợt 84.3; 85.6; 97.3; 98.1; 83.4; 77.1 Tỉ lệ chọi đầu vào tƣơng đối thấp 3.5; 4.7; 5.7; 8.5; 4.7; 5.9 Các trƣờng có điểm chung điểm chuẩn nguyện vọng điểm chuẩn nguyện vọng thấp tƣơng đƣơng với điểm sàn hàng năm Tỉ lệ sinh viên trƣờng có việc làm 71.3; 68.7; 59.3; 61.3; 79.3; 57.3 Số giảng viên 100 sinh viên tƣơng đối đồng Tuy nhiên cụm có chênh lệch tiêu chí nhƣ kí túc xá bố trí cho sinh viên nhập học trƣờng ĐH Khoa học Huế bố trí 88.9 chỗ 100 sinh viên trƣờng cịn lại khả từ 21.5 đến 54.5 Diện tích mặt trƣờng tính sinh viên có trƣờng thấp 1.9m2/sinh viên trƣờng cao 17.3m2/sinh viên Cụm 7: ĐH Công nghệ thông tin, ĐH Khoa học tự nhiên ĐH Quốc gia Hà Nội Tổng số sinh viên trƣờng thuộc cụm thấp so với cụm khác với số sinh viên 3728; 4820 Số học bổng hàng năm 5.5; 5.6 Tỉ lệ sinh viên trƣờng 87.0; 85.0 Tỉ lệ sinh viên trƣờng có việc làm 83.0; 70.5 Điểm nguyện vọng 1, nguyện vọng cao điểm sàn hàng năm Tỉ lệ dự thi thực tế so với số hồ sơ đăng kí dự thi lần lƣợt 73.6; 70.0 Cụm 8: ĐH Đồng Nai, ĐH Sƣ phạm kĩ thuật Hƣng Yên, ĐH Kỹ thuật công nghiệp ĐH Thái Nguyên, ĐH Đà Lạt, ĐH Công nghệ thông tin Truyền thông ĐH Thái Nguyên Tỉ lệ giảng viên trƣờng lần lƣợt 1.9; 3.4; 1.5; 4.7; 2.1 Điểm nguyện vọng 13.0; 13.2; 13.1; 13.0; 13.3 Cụm 9: ĐH Quảng Nam Cụm có tiêu chí đƣợc thống kê thấp so với cụm khác ngoại trừ số tiêu chí mức cao nhƣ khả đáp ứng kí túc xá cho sinh viên vào 43.83, diện tích mặt sinh viên 11.0 , số học bổng 12.3, tỉ lệ sinh viên trƣờng 87.4 59 b, Trợ giúp cho học sinh Qua phân tích liệu kết cụm cho ta thấy: Cụm 1: Có hầu hết tiêu chí thống kê đứng đầu so với cụm cịn lại Khi lựa chọn thi vào cụm thí sinh có thuận lợi: Số liệu thống kê sở vật chất trang thiết bị phục vụ học tập nghiên cứu cụm tốt Sinh viên có đủ điều kiện để học tập nghiên cứu Sinh viên trƣờng có khả xin đƣợc việc làm cao Khi trúng tuyển vào trƣờng đƣợc bố trí kí túc xá Điểm tuyển sinh đầu vào mức độ vừa phải phù hợp với khả học sinh có học lực giỏi Những khó khăn đăng kí dự thi vào cụm tiêu tuyển sinh hàng năm thấp so với cụm trƣờng khác Với tỉ lệ chọi cao khả trúng tuyển vào cụm thấp học sinh có lực học bình thƣờng Cụm 2: Các tiêu chí đƣợc thống kê cao đồng Các tiêu chí sở vật chất cao, tỉ lệ số giáo viên hữu điều kiện thuận lợi cho sinh viên học tập nghiên cứu Tỉ lệ sinh viên trƣờng cao điều cho ta thấy đƣợc chất lƣợng đào tạo cụm trƣờng tốt đào tạo ngành nghề mà xã hội cịn thiếu điều giúp cho sinh viên trƣờng có nhiều hội tìm kiếm việc làm Tuy nhiên với thí sinh đăng kí dự thi vào cụm trƣờng gặp nhiều khó khăn: Thứ số tiêu tuyển sinh hàng năm cụm trƣờng thấp dƣới 1000 sinh viên Thứ số lƣợng dự thi thực tế cao, tỉ lệ chọi nhiều Thứ điểm tuyển sinh đầu vào hàng năm cao Vì thí sinh có lực học giỏi thực có khả thi đƣợc điểm trung bình điểm lên đăng kí dự thi vào trƣờng thuộc cụm Cụm 3: Các tiêu chí thống kê cụm trƣờng cao nhiều tiêu chí nhƣ số tiêu chí tỉ lệ sinh viên trƣờng có việc làm, tỉ lệ dự thi thực tế cao, điểm chuẩn vào trƣờng cao Số khoa ngành thuộc cụm trƣờng nhiều giúp cho thí sinh có nhiều lựa chọn ngành học Thí sinh đăng kí 60 chọn số trƣờng thuộc cụm khả tìm đƣợc việc làm lớn Trong cụm điểm tuyển đầu vào cao đặc biệt có trƣờng điểm tuyển đầu vào trung bình mơn điểm nhƣ trƣờng ĐH Bách khoa Hà Nội, Đại học Y TP Hồ Chí Minh đăng kí hồ sơ thí sinh cần xem xét kĩ lực học xem có khả thi đạt đƣợc mức điểm hay khơng Cụm 4: Sinh viên trƣờng thuộc cụm có khả tìm đƣợc việc làm sau trƣờng cao Chỉ tiêu tuyển sinh đầu vào hàng năm trƣờng thuộc cụm cao đồng Điểm tuyển sinh đầu vào không cao trừ Học viện Ngân hàng trƣờng lại điểm tuyển sinh đầu vào cao đến điểm so với điểm sàn đại học hàng năm Cụm 5: Tổng số sinh viên trƣờng thuộc cụm cao so với cụm khác Khả tìm đƣợc việc làm trƣờng thuộc cụm cao Tỉ lệ sinh viên trƣờng thuộc cụm thấp Các trƣờng thuộc cụm có tỉ lệ chọi, điểm tuyển đầu vào cao điều cho thấy đƣợc thí sinh đăng kí dự thi vào cụm trƣờng hầu hết thí sinh có học lực giỏi mơn thuộc khối thi Cụm 6, cụm 7: Các trƣờng hai cụm với tiêu chí đƣợc đánh giá cao không nhiều Tỉ lệ chọi điểm tuyển sinh đầu vào thấp điều mở hội cho thí sinh đạt đƣợc ƣớc mơ đƣợc học đại học Cụm 8, cụm 9: Khả đáp ứng chỗ kí túc xá cao giúp cho sinh viên có nhiều khả tìm đƣợc chỗ kí túc xá Tỉ lệ sinh viên trƣờng có việc làm cao Số khoa ngành làm cho thí sinh có khả lựa chọn ngành học Một số tiêu chí sở vật chất khác thấp điều khó khăn cho sinh viên q trình học tập nghiên cứu Tỉ lệ chọi điểm tuyển sinh đầu vào thấp khả thi đỗ vào trƣờng thuộc cụm cao 61 3.3.4.3 Trực quan mạng sử dụng đồ thành phần Hình 3.2: Kết phân cụm sử dụng phƣơng pháp trực quan thành phần đồ a, Phân tích kết sau phân cụm Kết phân cụm sử dụng phƣơng pháp trực quan đồ thành phần nhƣ hình 3.2 cho ta thấy đƣợc - Số khoa ngành : Số khoa ngành có chênh lệch lớn điều đƣợc thể đồ thành phần khoa ngành nhƣ hình 3.2 Trên đồ thành phần cho ta thấy số khoa ngành trƣờng từ 4.16 đến 27.2 Số khoa ngành hầu hết trƣờng đƣợc thống kê nhiều ngoại trừ số trƣờng thuộc ngành y, dƣợc Trƣờng có số khoa ngành nhiều trƣờng ĐH Quy Nhơn, trƣờng có số khoa ngành trƣờng ĐH Kỹ thuật y tế Hải Dƣơng - Tổng số sinh viên: Số sinh viên trƣờng có dải màu đỏ sẫm trƣờng có số lƣợng sinh viên đơng nhƣ trƣờng ĐH Vinh, trƣờng có dải màu vàng trƣờng có số lƣợng sinh viên trung bình, số trƣờng có dải màu xanh nhạt xanh sẫm trƣờng có số lƣợng sinh viên nhƣ 62 trƣờng ĐH Kỹ thuật y tế Hải Dƣơng, trƣờng ĐH Công nghệ thông tin trƣờng Đại học Y dƣợc Huế - Tỉ lệ giảng viên sinh viên: Số trƣờng có tỉ lệ cao có trƣờng ĐH Cơng nghiệp TP Hồ Chí Minh có tỉ lệ giáo viên sinh viên cao 15.0 Các trƣờng có tỉ lệ 10.0 trƣờng ĐH Y Hà Nội, ĐH Khoa học Huế, ĐH Sƣ phạm Hà Nội, ĐH Khoa học tự nhiên Hà Nội, ĐH Kỹ thuật Y tế Hải Dƣơng nhiên trƣờng có tỉ lệ giảng viên cao so với nhóm cịn lại - Tỷ lệ sinh viên nhập học đƣợc kí túc xá: Số trƣờng đáp ứng gần đủ đủ đƣợc nhu cầu chỗ ký túc xá Có trƣờng đáp ứng đƣợc 80% nhu cầu chỗ cho sinh viên nhập học trƣờng ĐH Y Dƣợc Huế, ĐH Khoa học Huế, ĐH Khoa học tự nhiên, Đại học Kỹ thuật y tế Hải Dƣơng Trƣờng có khả đáp ứng đƣợc nhu cầu chỗ cho sinh viên thấp trƣờng ĐH Đồng Nai với khả bố trí đƣợc cho 5.8 chỗ 100 sinh viên - Diện tích phịng thí nghiệm, thực hành: Số lƣợng trƣờng có tỉ lệ diện tích phịng thí nghiệm, thực hành có tỉ lệ thấp chiếm tỉ lệ lớn nhiều so với trƣờng có tỉ lệ mức trung bình mức cao - Diện tích mặt sinh viên: Các trƣờng có tỉ lệ diện tích mặt bằng/sinh viên cao thấp có số lƣợng chủ yếu trƣờng có tỉ lệ mức độ trung bình - Số học bổng trƣờng: Số trƣờng có số lƣợng học bổng thấp chiếm số lƣợng lớn trƣờng có số học bổng cao trung bình chiếm tỉ lệ thấp - Số tài liệu thƣ viện:Tỉ lệ số tài liệu thƣ viện trƣờng đƣợc thể rõ đồ thành phần với tỉ lệ từ 0.95 đến 18.2 Các trƣờng có tỉ lệ tài liệu thƣ viện sinh viên cao nhƣ trƣờng ĐH Cơng nghiệp TP Hồ 63 Chí Minh, ĐH Kỹ thuật y tế Hải Dƣơng có tỉ lệ cao lần lƣợt 22.9;23.1 Các trƣờng có tỉ lệ thấp nhƣ ĐH Cần Thơ, HV Tài với tỉ lệ 0.6;0.7 - Tỉ lệ sinh viên trƣờng, tỉ lệ sinh viên có việc làm: Trên hình 3.2 cho thấy đƣợc số lƣợng trƣờng có sinh viên trƣờng số sinh viên có việc làm cao tƣơng nhiều hẳn so với trƣờng có tỉ lệ thấp Trƣờng có tỉ lệ sinh viên trƣờng cao trƣờng ĐH Tây Nguyên trƣờng có tỉ lệ sinh viên trƣờng có việc làm cao trƣờng ĐH Y Dƣợc Huế Với tỉ lệ trƣờng có tỉ lệ thấp trƣờng ĐH Kỹ thuật công nghiệp – ĐH Thái Nguyên trƣờng ĐH Quảng Nam - Chỉ tiêu tuyển sinh: Chỉ tiêu tuyển sinh hầu hết trƣờng đƣợc thống kê đơng, có số trƣờng tuyển sinh với tiêu thấp nhƣ trƣờng ĐH Công nghệ thông tin trƣờng ĐH Kỹ thuật y tế Hải Dƣơng - Tỉ lệ chọi: Trên đồ thành phần tỉ lệ chọi có sai khác lớn từ 2.48 đến 16.9 Cho ta thấy đƣợc chênh lệch tỉ lệ chọi trƣờng đƣợc thống kê Có trƣờng tỉ lệ chọi cao nhƣ ĐH Kỹ thuật y tế Hải Dƣơng tỉ lệ 26.0 Trƣờng có tỉ lệ chọi thâp trƣờng ĐH Cơng nghệ thơng tin có tỉ lệ 1.3 - Điểm tuyển sinh nguyện vọng 1, nguyện vọng 2: Ở dải màu đỏ thể trƣờng lấy điểm tuyển sinh đầu vào cao với điểm trung bình điểm mơn số lƣợng trƣờng so với trƣờng lấy mức điểm nguyện vọng thấp Với điểm nguyện vọng 1, nguyện vọng chủ yếu trƣờng lấy điểm từ 14 đến 17 điểm b, Trợ giúp cho học sinh Hình 3.2 thể liệu thành phần bảng thống kê trƣờng Qua đồ thành phần thấy đƣợc chênh lệch số thành phần thuộc tính đƣợc thống kê Từ hình 3.2 bảng 3.1 tự đánh 64 giá khả để lựa chọn trƣờng thi cho phù hợp với khả 3.4 Kết luận chƣơng Sử dụng mạng SOM áp dụng để thực trợ giúp cho học sinh thi đại học Nội dung chƣơng gồm có phần chính: Lý đƣa tiêu chí đƣợc lựa chọn bảng thống kê, phƣơng pháp trực quan mạng, phƣơng pháp xác định ranh giới cụm Sử dụng công công cụ SOM Toolbox huấn luyện mạng SOM đƣa hình ảnh trực quan Từ hình ảnh trực quan mạng kết hợp với bảng thống kê liệu đƣa đánh giá nhận xét, tƣ vấn cho học sinh lựa chọn trƣờng đại học mà dự thi 65 KẾT LUẬN Mạng SOM đƣợc ứng dụng vào nhiều lĩnh vực nhƣ nhận dạng, khai phá liệu, chuẩn đoán dự đoán y học… Trong luận văn mạng SOM đƣợc ứng dụng gom cụm liệu Luận văn thực đƣợc số kết sau: - Trình bày tổng quan mạng nơron nhân tạo Giới thiệu số phƣơng pháp học mạng nơron - Trình bày số phƣơng pháp phân cụm số thuật toán phân cụm - Trình bày tƣơng đối chi tiết mạng SOM ứng dụng SOM phân cụm liệu - Tìm hiểu cơng cụ SOM Toolbox sử dụng cơng cụ SOM Toolbox phân cụm liệu - Thu thập liệu thông tin trƣờng đại học đại diện cho vùng miền Việt Nam sử dụng công cụ SOM Toolbox đƣa kết cụm thành phần từ phân tích đánh giá trợ giúp cho học sinh Những hạn chế luận văn: - Do việc thống kê liệu trƣờng đại học gặp nhiều khó khăn lên số lƣợng trƣờng cịn chƣa phong phú làm cho kết cụm chƣa phản ánh đƣợc rõ nét trƣờng đại học, cao đẳng Việt Nam - Hƣớng nghiên cứu: Sử dụng kết đạt đƣợc luận văn để tiếp tục xây dựng tập liệu hoàn chỉnh tất trƣờng đại học cao đẳng Việt Nam 66 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ban liên lạc trƣờng đại học cao đẳng Việt Nam(2010), Hội thảo khoa học:”Đánh giá xếp hạng trường đại học cao đẳng Việt Nam”, TP Hồ Chí Minh [2] Lê Bá Dũng(2011), Bài giảng mạng nơron nhân tạo ứng dụng, ĐH Công nghệ thông tin Truyền thông- Đại học Thái Nguyên Tiếng Anh [3] Data Clustering Algorithms, https://sites.google.com /site/ dataclusteringalgorithms/ ngày 12/4/2012 [4] Juha Vesanto, Johan Himberg, Esa Alhoniemi, and Juh Parhankangas (2000), SOM Toolbox for Matlab 5, Helsinki University of Technology [5] Juha Vesanto (2000), Using SOMs in Data Mining, Licentiate’s thesis, Helsinki University of Technology [6] Flynn.P.J, Murty M.N, Jain.A.K(1999), Data Clustering: A Review, ACM Computing Surveys, Vol 31, No 3, [7] Tom Germano (1999), Self Organizing Maps [8] Teuvo Kohonen(2001), Self-Organizing Maps, Third Edition, Springer, Heidelberg