Tiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin họcTiếp cận SVM (Support Vector Machine) để chọn học sinh vào đội tuyển tin học
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Nguyễn Thị Kiều Oanh
TIẾP CẬN SVM (SUPPORT VECTOR MACHINE)
ĐỂ CHỌN HỌC SINH VÀO ĐỘI TUYỂN TIN HỌC
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8.48.01.04
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
TP HỒ CHÍ MINH – NĂM 2024
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Nguyễn Thị Kiều Oanh
TIẾP CẬN SVM (SUPPORT VECTOR MACHINE)
ĐỂ CHỌN HỌC SINH VÀO ĐỘI TUYỂN TIN HỌC
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, trong đó có sự giúp
đỡ rất lớn của Thầy PGS.TS Trần Vĩnh Phước
Các số liệu, kết quả nêu trong đề án là hoàn toàn trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác
TP Hồ Chí Minh, ngày 09 tháng 05 năm 2024
Học viên thực hiện đề án
Nguyễn Thị Kiều Oanh
Trang 4LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn Thầy PGS.TS Trần Vĩnh Phước,
thầy đã tận tình hướng dẫn, chỉ bảo và luôn có sự phản hồi tỉ mỉ trong thời gian nhanh nhất nhằm giúp em trong suốt thời gian qua để có thể hoàn thành đề án
Em cũng xin cảm ơn các Thầy/Cô Khoa Công Nghệ Thông Tin và Phòng Đào tạo sau đại học của Học Viện Công Nghệ Bưu Chính Viễn Thông cơ sở Thành Phố
Hồ Chí Minh đã nhiệt tình giảng dạy và tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu, hoàn thành chương trình đào tạo và đề án của khóa học
Lời cuối, em xin cảm ơn tập thể Giáo viên và đồng nghiệp Trường Trung cấp Kinh tế Kỹ thuật – Tây Ninh cũng như bạn bè, gia đình đã tạo điều kiện để em có thể hoàn thành đề án trong thời gian sớm nhất
Do điều kiện về thời gian và năng lực còn hạn chế, sai sót là không thể tránh khỏi Vì vậy những đóng góp quý báu từ quý thầy cô sẽ giúp em khắc phục những sai sót và có thể hoàn thiện đề án nghiên cứu tốt hơn
Em xin cảm ơn quý Thầy Cô!
TP Hồ Chí Minh, ngày 09 tháng 05 năm 2024
Học viên thực hiện đề án
Nguyễn Thị Kiều Oanh
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi
DANH SÁCH BẢNG vii
DANH SÁCH HÌNH VẼ viii
MỞ ĐẦU 1
1 Lý do chọn đề án: 1
2 Tổng quan về vấn đề nghiên cứu: 1
3 Mục tiêu nghiên cứu: 2
4 Đối tượng và phạm vi nghiên cứu: 2
5 Phương pháp nghiên cứu 2
CHƯƠNG 1: GIỚI THIỆU 3
1.1 Giới thiệu 3
1.2 Cấu trúc đề án 4
CHƯƠNG 2: THUẬT TOÁN MÁY VECTOR HỖ TRỢ SVM 6
2.1 Giới thiệu 6
2.2 Support Vector Machine (SVM) 6
2.2.1 Giới thiệu về SVM 6
2.2.2 Không gian đặc trưng 7
2.2.3 Ý tưởng của phương pháp SVM 8
2.2.4 Khoảng cách từ một điểm tới một siêu mặt phẳng 10
2.2.5 Các bước chính của phương pháp SVM 11
2.3 Tổng kết chương 2 11
CHƯƠNG 3: MIỀN NĂNG LỰC CỦA NHỮNG HỌC SINH ĐÃ TỪNG THẮNG GIẢI 12
3.1 Giới thiệu 12
3.2 Các đặc trưng Non–Learning 13
Trang 63.2.1 Kỹ năng tư duy (F19) 13
3.2.2 Kỹ năng nhận biết (F20) 14
3.2.3 Kỹ năng tư duy nhận xét (F21) 16
3.2.4 Kỹ năng sáng tạo (F22) 16
3.2.5 Kỹ năng quản lý thời gian (F23) 17
3.2.6 Kỹ năng nghiên cứu (F24) 18
3.2.7 Kỹ năng phân tích (F25) 19
3.2.8 Tập trung (F26) 19
3.2.9 Tự lực, không dựa dẫm (F27) 20
3.2.10 Tự tin (F28) 20
3.2.11 Sinh hoạt cá nhân (F29) 21
3.2.12 Đam mê tin học (F30) 21
3.2.13 Kiên nhẫn (F31) 23
3.2.14 Quan hệ khác giới (F32) 23
3.2.15 Sự quan tâm của gia đình (F33) 24
3.2.16 Kinh tế gia đình (F34) 24
3.3 Kết luận 25
CHƯƠNG 4: GIẢI THUẬT TUYỂN CHỌN HỌC SINH VÀO ĐỘI TUYỂN HỌC SINH GIỎI TIN HỌC 26
4.1 Giới thiệu 26
4.2 Môi trường thực nghiệm 26
4.3 Dữ liệu thực nghiệm 27
4.4 Tổ chức dữ liệu 27
4.5 Tiền xử lý dữ liệu 30
4.6 Tiếp cận miền thắng giải (Winner – Domain) 35
4.7 Tổng kết chương 4 46
CHƯƠNG 5: KẾT LUẬN 47
5.1 Kết quả đạt được 47
5.2 Hướng phát triển 47
Trang 7TÀI LIỆU THAM KHẢO 48
Trang 8DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
SVM Support Vector Machine Thuật toán máy vectơ hỗ trợ THPT High school Trung học phổ thông
TCN B.C Trước công nguyên
KNN K-Nearest Neighbor Thuật toán K láng giềng gần nhất
FP False Positive Tỷ lệ sai dương
FN False Negative Tỷ lệ sai âm
TP True Positive Tỷ lệ đúng dương
TN True Negative Tỷ lệ đúng âm
ACC Accurary Độ chính xác
Trang 9DANH SÁCH BẢNG
Bảng 3.1.1: Mô hình hóa các đặc trưng 13
Bảng 4.1 Xử lý điểm các môn 27
Bảng 4.2 Xử lý thuộc tính team, Degree 28
Bảng 4.3 Xử lý thuộc tính Like Informatic, Game 28
Bảng 4.4 Xử lý thuộc tính Personality 28
Bảng 4.5 Xử lý thuộc tính Interest 28
Bảng 4.6 Xử lý thuộc tính Datetime, Weektime 29
Bảng 4.7 Xử lý thuộc tính Parents, Lover 29
Bảng 4.8 Xử lý thuộc tính Family, Opinion 29
Bảng 4.9 Xử lý thuộc tính Mentality 29
Bảng 4.10 Xử lý thuộc tính Sport, Sports 30
Bảng 4.11 Xử lý thuộc tính Program 30
Bảng 4.12 Kết quả đánh giá độ tin cậy 44
Trang 10DANH SÁCH HÌNH VẼ
Hình 2.1: Tổng quan quy trình SVM 7
Hình 2.2: Chuyển đổi từ không gian dữ liệu sang không gian đặc trưng 8
Hình 2.3: Phân loại hai nhóm dữ liệu xanh và đỏ 8
Hình 2.4: Tạo ra nhiều siêu phẳng 9
Hình 2.5: Margin giữa hai support vector 9
Hình 2.6: Minh họa bài toán 2 phân lớp bằng phương pháp SVM 10
Hình 3.2.1: Kỹ năng tư duy 14
Hình 3.2.2: Kỹ năng nhận biết 15
Hình 3.2.3: Kỹ năng tư duy nhận xét 16
Hình 3.2.4: Kỹ năng sáng tạo 17
Hình 3.2.5: Kỹ năng quản lý thời gian 18
Hình 3.2.6: Kỹ năng nghiên cứu 18
Hình 3.2.7: Kỹ năng tập trung 19
Hình 3.2.8: Tự lực, không dựa dẫm 20
Hình 3.2.9: Đam mê tin học 22
Hình 3.2.10: Kiên nhẫn 23
Trang 11MỞ ĐẦU
1 Lý do chọn đề án
Ở Việt Nam, các kỳ thi học sinh giỏi cấp tỉnh, cấp quốc gia dành cho học sinh các trường trung học phổ thông được tổ chức hàng năm Các kỳ thi này là cơ hội để các trường trung học phổ thông gặt hái được nhiều thành tích Do đó, lãnh đạo các trường rất quan tâm đến việc chọn học sinh vào đội tuyển và huấn luyện đội tuyển để tạo thành tích cho trường
Trong thực tế, một số trường trung học phổ thông thành lập các lớp năng khiếu
để đào tạo nâng cao cho các học sinh được chọn trong từng bộ môn Hằng năm, mỗi trường tuyển chọn những học sinh xuất sắc để thành lập các đội tuyển tham gia các
kỳ thi cấp tỉnh, cấp quốc gia Việc lựa chọn đang được thực hiện dựa trên kết quả học tập của học sinh, kinh nghiệm và khả năng cảm nhận của giáo viên
Bài toán đặt ra cho nghiên cứu này là làm thế nào để đánh giá một học sinh có thể được chọn vào đội tuyển của một ngành học nào đó
2 Tổng quan về vấn đề nghiên cứu
Hiện nay ở nước ta, hàng năm các kỳ thi học sinh giỏi cấp tỉnh, cấp quốc gia dành cho học sinh các trường trung học phổ thông được tổ chức Các kỳ thi này là cơ hội để các trường trung học phổ thông gặt hái được nhiều thành tích Do đó, lãnh đạo các trường rất quan tâm đến việc chọn học sinh vào đội tuyển và huấn luyện đội tuyển
để tạo thành tích cho trường Các đội tuyển được bồi dưỡng với một chương trình nâng cao, chuyên sâu và cụ thể
Đề án “Tiếp cận SVM (Support vector machine) để chọn học sinh vào đội tuyển tin học” nghiên cứu thuật toán tuyển chọn học sinh vào đội tuyển tin học của một trường THPT Những học sinh có năng lực tương tự với các học sinh đã thắng giải
có khả năng thắng giải cao hơn Dựa vào các đặc trưng của các học sinh thắng giải,
ta xây dựng miền của những người thắng giải Những ứng cử viên thuộc miền thắng giải được đưa vào đội tuyển, ngược lại bị loại ra Thuật toán giúp các thầy cô huấn
Trang 12luyện viên lựa chọn đội tuyển một cách nhanh chóng, chính xác, khoa học và khách quan Giúp tăng khả năng mang thành tích về cho trường
3 Mục tiêu nghiên cứu
Nghiên cứu này tiếp cận kỹ thuật SVM để xác định miền của những người thắng giải, từ đó xây dựng thuật toán chọn học sinh vào đội tuyển tham gia các kỳ thi học sinh giỏi cấp tỉnh và cấp quốc gia
4 Đối tượng và phạm vi nghiên cứu
4.1 Đối tượng
- Đặc trưng năng lực do học tập và không do học tập (tại trường lớp) của học sinh tin học hiện tại của trường và học sinh tin học đã đạt các giải của những năm trước
- Dữ liệu giáo dục về đặc trưng năng lực học sinh tin học
5 Phương pháp nghiên cứu
- Phương pháp khảo sát được áp dụng để thu thập dữ liệu
- Phương pháp phân tích để xác định đặc trưng năng lực do học và không do học của các học sinh ngành tin học
- Phương pháp toán học được áp dụng để thiết lập không gian năng lực học sinh, định nghĩa vector đặc trưng năng lực của học sinh, tiếp cận thuật toán SVM để xác định miền năng lực của những học sinh đoạt giải, chỉ định vị trí của từng học sinh trong không gian năng lực
- Phương pháp lập trình được áp dụng để viết chương trình thực nghiệm
Trang 13CHƯƠNG 1: GIỚI THIỆU 1.1 Giới thiệu
Hàng năm, các kỳ thi học sinh giỏi các cấp dành riêng cho các trường trung học phổ thông được tổ chức Các kỳ thi này là cơ hội của các trường để thu được thành tích Riêng đối với các thầy/ cô – người huấn luyện, nếu đội tuyển mình huấn luyện thắng giải, có thành tích thì cũng chứng tỏ được khả năng của bản thân, là người
có năng lực, có tâm huyết, lúc đó người thầy sẽ được phụ huynh học sinh và trường tôn trọng nhiều hơn
Ngoài ra, phụ huynh và học sinh cũng rất quan tâm đến các kỳ thi học sinh giỏi Khi đạt được thành tích, người học ngoài việc nhận được các giải thưởng, mang lại niềm vinh dự, tự hào cho bản thân và gia đình, điều quan trọng hơn hết là có cơ hội để được tuyển thẳng vào các trường đại học Đây là điều mà bất cứ phụ huynh và học sinh nào cũng mong muốn sau 12 năm học phổ thông
Trên thực tế, Ban giám hiệu các trường Trung học phổ thông sẽ chỉ định giáo viên của mỗi bộ môn: Toán, Văn, Anh, Hóa, Sinh, Sử, Địa, Lý, Tin,…chọn học sinh trong các khối lớp 10, 11, 12 để thành lập đội tuyển Các giáo viên sẽ dựa vào kết quả học tập, học bạ của học sinh, dựa vào kinh nghiệm và khả năng cảm nhận của bản thân để lựa chọn đưa vào đội tuyển của bộ môn mình, sau đó các em sẽ được bồi dưỡng, đào tạo với một chương trình cụ thể
Hiện nay, còn một số phụ huynh học sinh chưa hiểu hết tầm quan trọng của việc thắng giải trong các kỳ thi học sinh giỏi, trong tương lai không xa những phụ huynh sau khi đã thật sự nắm được những ưu thế khi đạt thành tích thì việc chạy trường, chạy thầy để được vào đội tuyển là việc không thể tránh khỏi Đây cũng là một hạn chế cần tránh trong ngành giáo dục Vì thế, việc tuyển chọn thành viên đội tuyển là rất quan trọng, cần phải được thực hiện khách quan
Tuy nhiên, hiện nay việc lựa chọn của những huấn luyện viên chưa có một phương pháp rõ ràng, còn mang tính chủ quan, dựa vào cảm nhận của người thầy đôi khi lại bị chi phối bởi nhiều yếu tố như: các mối quan hệ, thành kiến hoặc thiện cảm của người thầy,… Chính vì thế việc lựa chọn này thường mang lại kết quả không cao
Trang 14Các kỳ thi đấu giải hoàn toàn khác với các kỳ thi thông thường được tổ chức tại trường lớp, nó đặt ra thách thức rất lớn đối với thí sinh Thi đấu giải có sự đối chọi, mang tính chất cạnh tranh khốc liệt nên các thí sinh thường phải chịu áp lực, căng thẳng, mang tâm thế không được thoải mái không tự tin Chính vì thế những học sinh được cử đi thi ngoài việc có học lực giỏi, xuất sắc cần phải có nhiều kỹ năng Năng lực của người học phải bao gồm cả kiến thức và kỹ năng
Chính những thách thức và bất cập nêu trên nên rất cần một phương pháp phân loại thông tin Thuật toán máy vector hỗ trợ SVM được đề án chọn để xác định miền năng lực của những học sinh thắng giải Bằng cách mô hình hóa mỗi học sinh, một học sinh đã thắng giải là một vector đặc trưng nhiều chiều Mỗi học sinh gồm các đặc trưng về kiến thức và các đặc trưng về kỹ năng
Nghiên cứu, sưu tầm các đặc trưng về kiến thức và kỹ năng của những học sinh đã thắng giải trong các kỳ thi học sinh giỏi các cấp trong những năm trước đây
Từ đó, xác định miền của những người thắng giải trong không gian đặc trưng Khảo sát trong số các ứng cử viên nếu thuộc miền năng lực đó sẽ được đưa vào đội tuyển
Để thực hiện việc lựa chọn này chúng ta cần đưa ra một giải thuật, một thuật toán tuyển chọn để thành lập đội tuyển đạt hiệu quả cao
1.2 Cấu trúc đề án
Đề án được bố cục thành 5 chương như sau:
Chương 1: GIỚI THIỆU
Chương 1 trình bày tổng quan các nội dung liên quan đề án như mục tiêu nghiên cứu, động lực xây dựng đề án, phạm vi nghiên cứu và cấu trúc của đề án
Chương 2: THUẬT TOÁN MÁY VECTOR HỖ TRỢ SVM
Chương 2 trình bày cơ sở thuật toán học máy SVM, sử dụng thuật toán khám
phá các giá trị ẩn trong dữ liệu giáo dục để dự đoán kết quả học tập của học sinh
Chương 3: MIỀN NĂNG LỰC CỦA NHỮNG HỌC SINH ĐÃ TỪNG THẮNG GIẢI
Trang 15Chương 3 trình bày mô hình năng lực của những học sinh đã thắng giải trong
kỳ thi học sinh giỏi tin học cấp tỉnh và quốc gia, để xác định miền năng lực của những người thắng giải
Chương 4: GIẢI THUẬT TUYỂN CHỌN HỌC SINH VÀO ĐỘI TUYỂN TIN HỌC
Chương 4 trình bày giải thuật tuyển chọn những học sinh có vector năng lực nằm trong miền năng lực của những người thắng giải để chọn vào đội tuyển
Chương 5: KẾT LUẬN
Chương 5 đề án trình bày một số kết quả đã đạt được và hướng phát triển tiếp theo
Trang 16CHƯƠNG 2: THUẬT TOÁN MÁY VECTOR HỖ TRỢ SVM
2.1 Giới thiệu
Trong những năm gần đây, sự phát triển tài nguyên dữ liệu dẫn tới việc cần thiết phải phân lớp dữ liệu Hiện nay, kỹ thuật phân lớp dữ liệu được sử dụng phổ biến và nghiên cứu ngày càng mở rộng Support vector machine (SVM) là thuật toán được sử dụng nhiều trong nhiều ứng dụng, mang lại hiệu suất cao, hoạt động rất tốt trong thực tế
SVM có nhiều ưu điểm như: giải quyết tốt các bài toán có dữ liệu nhiều chiều, tập dữ liệu rời rạc, tập training nhỏ SVM có tốc độ phân lớp nhanh, hiệu suất tổng hợp tốt và khả năng tính toán cao, hỗ trợ các hàm kernel Do đó, sử dụng thuật toán SVM để phân loại dữ liệu trong đề án này là sự lựa chọn phù hợp
Chương này nghiên cứu cơ sở lý thuyết về thuật toán máy vector hỗ trợ Support vector machine (SVM), phân loại tập dữ liệu thành hai miền: miền những người thắng giải và miền những người không thắng giải, phân loại những ứng cử viên thuộc trong miền thắng giải để đưa vào đội tuyển, ngược lại sẽ bị loại [1]
2.2 Support Vector Machine (SVM)
2.2.1 Giới thiệu về SVM
Support Vector Machines (SVM) là phương pháp máy vector hỗ trợ được xây dựng năm 1995 bởi hai tác giả Vapnik và Chervonekis Trong thực tế, SVM có tiềm năng phát triển về mặt lý thuyết và cả mặt ứng dụng SVM có rất nhiều ứng dụng trong các lĩnh vực như nhận dạng ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói
và nhiều ứng dụng khác [2]
Ý tưởng cơ bản của SVM là: trong không gian nhiều chiều tìm ra một siêu phẳng để tối đa hóa khoảng cách giữa các điểm dữ liệu thuộc các lớp khác nhau Siêu phẳng này được chọn sao cho có thể tách biệt hai lớp dữ liệu và có độ dự đoán tốt trên các điểm dữ liệu mới [3]
Trang 17Hình 2.1: Tổng quan quy trình SVM
Do đó SVM còn được gọi là thuật toán phân loại nhị phân Tuy nhiên, SVM vẫn có thể được áp dụng để phân thành nhiều lớp SVM có khả năng xử lý các bài toán phân loại tuyến tính và phi tuyến tính và thường được sử dụng cho các bài toán phân loại nhị phân hoặc phân loại đa lớp
2.2.2 Không gian đặc trưng
Quá trình học máy phụ thuộc vào cách diễn tả của độ phức tạp hàm mục tiêu
Dữ liệu khi được diễn tả một cách phù hợp thì vấn đề sẽ trở nên dễ dàng Vì vậy, chuyển đổi dữ liệu từ không gian đầu vào X sang không gian đặc trưng là việc làm được sử dụng nhiều trong học máy [4]:
𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) → Φ(𝑥) = (Φ1(𝑥), …, ΦN (𝑥)) (2.1) Trong đó, số chiều của đầu vào (số thuộc tính) là n và số chiều của không gian đặc trưng là N Dữ liệu sẽ được ánh xạ sang không gian đặc trưng với N > n
Không gian đặc trưng ký hiệu là F:
F = { Φ(𝑥)| 𝑥 ∈ 𝑋} (2.2)
Trang 18Hình 2.2: Chuyển đổi từ không gian dữ liệu sang không gian đặc trưng
2.2.3 Ý tưởng của phương pháp SVM
Với một tập dữ liệu huấn luyện gồm n đặc trưng cho trước, mỗi đặc trưng là một điểm trong không gian vector nhiều chiều SVM tạo ra một đường phân định trên không gian hai chiều hoặc nói một cách tổng quát hơn đó là siêu phẳng (hyperplane) trên không gian nhiều chiều nhằm phân loại dữ liệu [5]
Hình 2.3: Phân loại hai nhóm dữ liệu xanh và đỏ
Trang 19Tuy nhiên, chúng ta có thể dễ dàng nhận thấy ngoài siêu phẳng như đã vẽ trên chúng ta cũng có thể vẽ ra được rất nhiều siêu phẳng khác và nó cũng có thể phân loại được dữ liệu như hình 2.4
Hình 2.4: Tạo ra nhiều siêu phẳng
Vấn đề đặt ra là trong số các siêu phẳng đó thì siêu phẳng nào tốt nhất! SVM sử dụng các vector hỗ trợ (support vector) Support vector là các đặc trưng gần với siêu phẳng nhất Lề (margin) giữa hai vector hỗ trợ ở hai nhóm là yếu tố quyết định độ tối ưu của một siêu phẳng [3] Nói một cách trực quan hơn thì siêu phẳng nào có lề lớn nhất thì đó là siêu phẳng tốt nhất [6]
Hình 2.5: Margin giữa hai support vector
Trang 20SVM chỉ quan tâm đến các support vector, còn các đặc trưng khác đều có thể
bỏ qua trong quá trình xây dựng siêu phẳng [7]
Hình 2.6: Minh họa bài toán 2 phân lớp bằng phương pháp SVM
Support Vector là các điểm nằm trên hai siêu phẳng phân tách
2.2.4 Khoảng cách từ một điểm tới một siêu mặt phẳng
Khoảng cách từ một điểm có tọa độ (x0, y0) đến một đường thẳng có phương trình w1x + w2y + b = 0 trong không gian 2 chiều, được xác định bởi công thức [6]:
|𝑤1𝑥0+ 𝑤2𝑦0+𝑏|
√𝑤12+𝑤22 (2.3)
Tương tự, trong không gian 3 chiều khoảng cách từ một điểm có tọa độ (x0,
y0, z0) đến một mặt phẳng có phương trình w1x + w2y + w3z + b = 0 được xác định bởi công thức [6]:
|𝑤1𝑥0+ 𝑤2𝑦0+𝑤3𝑧0+𝑏|
√𝑤12+𝑤22+𝑤32 (2.4)
Tổng quát trong không gian nhiều chiều (n chiều), khoảng cách từ một điểm (vector) tọa độ x0 đến siêu phẳng (hyperplane) có phương trình wTx + b = 0 được xác định bởi công thức [6]:
Trang 21|𝑤1𝑥0+ 𝑤2𝑦0+ 𝑤3𝑧0+ ⋯ + 𝑤𝑛𝑧𝑛+ 𝑏|
√𝑤12+ 𝑤22+ 𝑤32+ ⋯ + 𝑤𝑛2
|𝑤𝑇𝑥0 + 𝑏|
Trong đó ||w||2 = √∑𝑛𝑖=1𝑤𝑖2 , với n là số chiều của không gian
2.2.5 Các bước chính của phương pháp SVM
Thông thường, SVM được thực hiện thông qua các bước sau:
− Chuẩn bị dữ liệu huấn luyện: Thu thập và chuẩn bị các mẫu dữ liệu huấn luyện, trong đó mỗi mẫu được gán nhãn thuộc về một lớp cụ thể
− Tiền xử lý dữ liệu: Thao tác biến đổi, lọc dữ liệu trước khi đưa vào thử nghiệm
− Sử dụng các tham số cho việc huấn luyện với tập mẫu
− Huấn luyện mô hình và đánh giá mô hình
− Kiểm thử tập dữ liệu
2.3 Tổng kết chương 2
Chương này nghiên cứu cơ sở lý thuyết về thuật toán máy vector hỗ trợ SVM SVM là một thuật toán phân loại dữ liệu nhanh, hiệu quả trong việc giải quyết các bài toán dữ liệu nhiều chiều, các trường hợp về tập dữ liệu có nhiễu, tập huấn luyện quá ít Với những đặc tính đó, SVM được sử dụng phổ biến trong các ứng dụng hiện nay
Trang 22CHƯƠNG 3: MIỀN NĂNG LỰC CỦA NHỮNG HỌC SINH
ĐÃ TỪNG THẮNG GIẢI
3.1 Giới thiệu
Đề án nghiên cứu rằng những học sinh có năng lực tương tự như những học sinh đã từng thắng giải sẽ có nhiều khả năng thắng giải hơn Vì vậy nên đưa các học sinh này vào đội tuyển, đào tạo để tham gia kỳ thi học sinh giỏi các cấp Những đặc trưng năng lực của học sinh gồm những yếu tố do học tập và những yếu tố phi học tập [8, 9] Các yếu tố do học tập còn gọi là các đặc trưng learning và các yếu tố phi học tập gọi là các đặc trưng non–learning Các đặc trưng learning là kết quả, điểm,
sổ học bạ của học sinh, trong khi đó các đặc trưng non–learning là các đặc trưng về
kỹ năng, thói quen, gia đình và sinh hoạt cá nhân [10] Mỗi đặc trưng được biểu diễn bởi một ký hiệu toán học (xem Bảng 3.1.1) [1]
Các đề tài trong lĩnh vực giáo dục tập trung vào việc nghiên cứu và xác định những yếu tố ảnh hưởng đến kết quả học tập [2, 4] của học sinh Nhiều tác giả đã nỗ lực để xác định và tìm hiểu những yếu tố này, nhằm hiểu rõ hơn về những yếu tố nào
có tác động đến hiệu suất học tập của học sinh [2]
Một số tác giả đã đưa ra quan điểm rằng các kỹ năng và thái độ cá nhân của học sinh, chẳng hạn như động cơ bản thân [7], tự tin, tự lực [8], khả năng tự tìm tòi, khả năng tự nghiên cứu [9], khả năng tự phân tích [10], tư duy phản biện [11], khả năng sáng tạo tư duy, và khả năng làm việc nhóm [12] cũng có tác động đáng kể đến kết quả học tập của học sinh Hơn nữa, những yếu tố bên ngoài cũng ảnh hưởng đến hiệu suất học tập của học sinh Điều này bao gồm nền kinh tế và xã hội, gia đình và hành vi của học sinh [2] Tất cả những yếu tố này cùng đóng vai trò quan trọng trong việc xác định thành tích học tập của học sinh [13]
Trang 23Bảng 3.1.1: Mô hình hóa các đặc trưng
Ký hiệu toán học Ý nghĩa đặc trưng
F19 Kỹ năng tư duy
F20 Kỹ năng nhận biết
F21 Kỹ năng nhận xét
F22 Kỹ năng sáng tạo
F23 Kỹ năng quản lý thời gian
F24 Kỹ năng nghiên cứu
Và những học sinh có đặc trưng năng lực tương tự với các đặc trưng này sẽ được đưa vào đội tuyển để đào tạo, huấn luyện để tranh giải trong các kỳ thi học sinh giỏi tin học các cấp
3.2 Các đặc trưng Non–Learning
3.2.1 Kỹ năng tư duy (F19)
Trang 24Hình 3.2.1: Kỹ năng tư duy
Người có kỹ năng tư duy là người chịu khó suy nghĩ, dù gặp bất kỳ vấn đề nào cũng suy nghĩ, khó đến mấy cũng không bỏ cuộc, luôn có cách suy nghĩ để giải quyết vấn đề, lúc đó não mới hoạt động Bộ não cũng như một cỗ máy, một thiết bị điện tử, người ta thường nói máy móc điện tử mà lâu ngày không sử dụng sẽ bị hư, não chúng
ta cũng vậy, nếu não không hoạt động không suy nghĩ lâu ngày sẽ vô tình trở thành thói quen, bị thụ động
Một học sinh khi được giao bài tập khó, cảm thấy chán nản và dễ dàng bỏ cuộc, không động não suy nghĩ để giải quyết vấn đề, thì học sinh này rất khó đạt kết quả cao trong học tập Đặc biệt là trong các kỳ thi tuyển, đề bài không phải đơn giản như bài tập ở lớp, độ khó đã được nâng lên nên thí sinh cần phải có kỹ năng tư duy,
kỹ năng tư duy càng cao thì khả năng thắng giải càng lớn Do đó, học sinh có kỹ năng
tư duy nên được chọn vào đội tuyển học sinh giỏi
3.2.2 Kỹ năng nhận biết (F20)
Kỹ năng nhận biết là kỹ năng của một người khi được nghe hoặc được nhìn một sự vật, sự việc, hiện tượng nào đó thì có thể hiểu ngay vấn đề Khi người giáo viên giảng bài, trình bày nội dung bài học hay một vấn đề nào đó thì học sinh có kỹ năng nhận biết sẽ hiểu và nhận biết ngay vấn đề cần giải quyết là gì thậm chí biết cách giải quyết như thế nào
Trang 25Hình 3.2.2: Kỹ năng nhận biết
Người học sinh nhờ vào những kiến thức đã học, đã được tích lũy từ trước, qua quá trình dạy của thầy cô, gia đình hoặc tự nghiên cứu tìm hiểu thông qua các khái niệm, định nghĩa, định lý, tính chất, quy luật, … mà người học có thể liên hệ và tái hiện lại những thông tin liên quan Từ đó người học hiểu được vấn đề đặt ra, hiểu được yêu cầu đề bài
Kỹ năng nhận biết là một trong những kỹ năng mà giáo viên dễ nhận biết và đánh giá một học sinh có năng lực hay không Nếu nhận biết sai vấn đề thì dù cách giải quyết có hay đến đâu chăng nữa thì cũng không đúng theo yêu cầu Kỹ năng nhận biết góp phần đáng kể vào thành công của một học sinh, đặc biệt đối với những học sinh có năng lực lại càng không thể thiếu kỹ năng này Đây chính là dấu hiệu để giáo viên có thể nhận ra học sinh nào là người có năng lực
Những kỳ thi ở trường lớp chưa bộc lộ hết tầm quan trọng của kỹ năng nhận biết vì đa số các đề thi này đều nằm trong đề cương, sách giáo khoa, sách bài tập Tuy nhiên, khi tham gia các kỳ thi tuyển học sinh giỏi các cấp thì phần lớn các đề thi sẽ rộng hơn, đánh đố hơn nên học sinh cần có kỹ năng nhận biết để xác định được yêu cầu của đề bài, từ đó có hướng giải quyết tốt nhất Do đó, kỹ năng nhận biết đối với các thí sinh tham gia các kỳ thi đấu giải là rất quan trọng và cần thiết
Trang 263.2.3 Kỹ năng tư duy nhận xét (F21)
Hình 3.2.3: Kỹ năng tư duy nhận xét
Kỹ năng tư duy nhận xét còn được gọi là kỹ năng phản biện Gồm các quá trình: phân tích, nhận xét và đánh giá vấn đề theo hướng khác, làm sáng tỏ và khẳng định mức độ chính xác của vấn đề Kỹ năng phản biện không đơn giản chỉ là tích lũy thông tin [11] Một học sinh có trí nhớ tốt và hiểu biết nhiều kiến thức thì chưa hẳn học sinh đó có khả năng phản biện tốt Nhưng ngược lại, một học sinh có kỹ năng phản biện tốt sẽ có khả năng suy luận ra hệ quả từ những gì học sinh đó hiểu cũng như cách áp dụng những kiến thức đó để giải quyết vấn đề [12]
Trong các kỳ thi tuyển, thí sinh không nên vội vã làm bài vì như thế rất dễ mắc sai lầm, ví dụ như: lạc đề, không đủ ý,…Thí sinh cần phải phân tích, nhận xét và đánh giá yêu cầu đề bài từ đó đưa ra hướng giải quyết tốt nhất Kỹ năng này thể hiện khá
rõ trong quá trình học sinh học tập tại lớp nên không quá khó để giáo viên nhận ra học sinh nào có được kỹ năng này, điều này rất có lợi cho việc tuyển chọn học sinh vào đội tuyển Vì nếu học sinh có được kỹ năng này khi tham gia các kỳ thi tuyển sẽ nắm được lợi thế
3.2.4 Kỹ năng sáng tạo (F22)
Kỹ năng sáng tạo là kỹ năng phát hiện ra vấn đề mới, có hướng giải thích vấn
đề theo một cách hoàn toàn mới không giống những cách đã có trước đó [11] Kỹ năng sáng tạo là một khả năng đặc biệt của con người, khả năng này có thể diễn ra ở bất cứ nơi đâu, bất cứ lĩnh vực nào Kỹ năng sáng tạo rất quan trọng và cần thiết đối với tất cả mọi người [13]
Trang 27Hình 3.2.4: Kỹ năng sáng tạo
Trong cùng một bài toán, một học sinh giải đúng theo cách giáo viên hướng dẫn và một học sinh có cách giải khác vẫn ra kết quả đúng nhưng cách tiếp cận dễ hiểu hơn Dĩ nhiên, bất kì ai cũng nhận ra rằng người học sinh có cách giải khác là người có năng lực hơn Khi tham gia các kỳ thi tuyển, việc ra đề không gò bó theo một khuôn khổ một quy luật nào, kiến thức rộng mở Do đó, sự nhanh nhạy, uyển chuyển, kỹ năng sáng tạo của thí sinh là rất cần thiết và ảnh hưởng rất lớn đến kết quả thi tuyển, trong cuộc thi không đơn giản chỉ cần đúng mà cần phải mới, tốc độ nhanh [14]
3.2.5 Kỹ năng quản lý thời gian (F23)
Quản lý thời gian sinh hoạt trong ngày là thói quen thực hiện các công việc hằng ngày Mọi người rất dễ nhầm lẫn giữa thói quen với kỹ năng, vì thói quen quản
lý thời gian có liên quan mật thiết đến kỹ năng quản lý thời gian Nếu một người có
kỹ năng quản lý thời gian tốt mà không có thói quen quản lý thời gian thì lúc đó giá trị của kỹ năng không được phát huy và ngược lại nếu chỉ có thói quen quản lý thời gian tốt mà không có kỹ năng quản lý thời gian thì sẽ không đạt hiệu quả cao Cả hai tương trợ lẫn nhau, đều rất cần thiết và quan trọng
Trang 28Hình 3.2.5: Kỹ năng quản lý thời gian
Trong các kỳ thi tuyển chọn học sinh giỏi các cấp, kỹ năng quản lý thời gian
là yếu tố cần thiết Khi làm bài, không phải chỉ cần biết cách làm là đủ mà phải biết cân nhắc đến thời gian, phải biết sắp xếp câu nào làm trước, câu nào làm sau và cần phải phân chia thời gian làm bài sao cho hợp lí, tránh trường hợp: thí sinh mất quá nhiều thời gian vào một câu trong khi đó bỏ lỡ nhiều câu khác, dẫn đến kết quả không cao
3.2.6 Kỹ năng nghiên cứu (F24)
Kỹ năng nghiên cứu là tìm ra các kiến thức mới nhờ sự vận dụng các ý tưởng, nguyên lý và phương pháp để đưa ra hướng giải quyết mới cho một vấn đề nào đó Học sinh có thể hình thành các kỹ năng, kỹ xảo để củng cố và nâng cao kiến thức đã
có một cách nhanh chóng thông qua quá trình nghiên cứu Bên cạnh đó, nghiên cứu còn giúp cho học sinh thói quen, hứng thú, có phương pháp tự nghiên cứu thường xuyên và suốt đời [14]
Hình 3.2.6: Kỹ năng nghiên cứu
Việc nghiên cứu có ý nghĩa quan trọng đối với học sinh Qua quá trình nghiên cứu giúp cho học sinh có khả năng học tập và làm việc độc lập, nâng cao khả năng tìm tòi và trí sáng tạo
Trang 29Một học sinh có kỹ năng nghiên cứu luôn luôn là học sinh có năng lực, được đánh giá cao Và đội tuyển học sinh giỏi rất cần những học sinh ưu tú này
3.2.7 Kỹ năng phân tích (F25)
Kỹ năng phân tích là khả năng dựa trên các thông tin có sẵn có thể nhìn ra vấn
đề và làm sáng tỏ vấn đề từ đơn giản đến phức tạp bằng cách đưa ra các quyết định hợp lý Người có khả năng tư duy về trực quan, phản biện, thu thập và xử lý thông tin sẽ có kỹ năng phân tích vấn đề [14]
Người học có kỹ năng phân tích sẽ là người được đánh giá cao, luôn được giáo viên xem trọng Kỹ năng này áp dụng được cho tất cả các môn học từ toán đến văn,…Môn nào cũng cần đến kỹ năng phân tích Học sinh có kỹ năng này sẽ có lợi trong việc học, thường sẽ có kết quả học tập cao Vì thế, nên được đưa vào đội tuyển học sinh giỏi
3.2.8 Tập trung (F26)
Tập trung là dành tất cả sự quan tâm, chú ý đến một vấn đề duy nhất để đạt được mục đích đề ra Một người tập trung làm một việc gì đó, sau khi hoàn thành sẽ đạt được kết quả như mong muốn và cảm thấy có ý nghĩa trong cuộc sống Tập trung cũng là bản chất của mỗi người, có người khi làm việc gì đó thì rất tập trung, ngược lại có người lại rất mất tập trung [15]
Hình 3.2.7: Kỹ năng tập trung
Kỹ năng tập trung được hiểu là một hiện trạng, trong số đó tất cả sự quan tâm của con người chỉ chú ý vào một thứ độc nhất và không để ý đến mọi thứ khác Trong đầu, trong mắt, trong tai chỉ nghĩ, chỉ thấy và chỉ nghe về một vấn đề duy nhất
Ví dụ, khi đọc sách, nghe nhạc, trò chuyện hay giải quyết các vấn đề chuyên môn trong học tập và công việc
Trang 30Trong những buổi lên lớp, giáo viên dễ dàng nhận biết học sinh nào tập trung
và học sinh nào không tập trung Với học sinh tập trung vào bài học, giáo viên giảng bài sẽ nắm được toàn bộ kiến thức tiết học đó, hiểu bài dẫn đến sự kích thích, ham muốn học Từ đó học sinh có kỹ năng tập trung sẽ đạt kết quả cao trong học tập, một đội tuyển học sinh giỏi rất cần những thành viên có kỹ năng tập trung
Hình 3.2.8: Tự lực, không dựa dẫm
Tự lực, không dựa dẫm người khác là nói đến sự nỗ lực của chính bản thân mình nhằm đạt được mục đích hay điều gì đó mà không nhờ vả, trông chờ sự giúp đỡ của người khác, tự mình làm mọi việc tinh thần tự lực tự cường [16] Ví dụ, để đạt kết quả cao trong học tập thì bản thân học sinh phải tự cố gắng chăm chỉ học tập
Trái lại với tự lực, không dựa dẫm là thói ỷ lại – là một thói xấu cần phải loại trừ Ỷ lại là không có ý thức tự giác trong học tập, công việc,…tất cả phải nhờ người khác giúp đỡ Học sinh không biết tự lực khi đi học không chịu học bài, không chịu làm bài tập, đến khi thi hoặc kiểm tra thì trông cậy vào bạn bè hoặc phao cứu hộ Những học sinh có dấu hiệu này, tuyệt đối không đưa vào đội tuyển
3.2.10 Tự tin (F28)
Tự tin là thái độ luôn tin tưởng vào khả năng của mình, luôn tự lực, tự giác và chủ động tích cực trong mọi việc Tự tin sẽ giúp học sinh có kiến thức và hiểu biết sâu rộng, chịu khó tìm hiểu và khám phá nhiều điều xung quanh [16]
Trong lớp học học sinh tự tin sẽ thường xuyên phát biểu trong lớp, đứng lên thuyết trình trước đám đông, dám đưa ra các quan điểm của bản thân, thậm chí dám nhận lỗi và chấp nhận sửa sai Tự tin là con đường nhanh chóng đi đến thành công và biến ước mơ thành hiện thực
Trang 31Tự tin khác với tự cao Học sinh tự cao thường luôn đưa ra những ý kiến và cho rằng mình đúng, mình là tài giỏi, không hòa đồng, không giúp đỡ bạn bè Còn đối với học sinh tự tin thì biết rằng họ đúng hay sai, không ngừng cố gắng thay đổi
để dần hoàn thiện bản thân tốt hơn, sự hiểu biết ngày càng nhiều hơn, kiến thức tăng lên, vững bước trên con đường đi của bản thân mình.Thành viên trong đội tuyển học sinh giỏi rất cần sự tự tin Vì tự tin dẫn đến thành công nhanh hơn, người tự tin luôn
có kết quả học tập cao, được bạn bè ngưỡng mộ, thầy cô tin yêu
3.2.11 Sinh hoạt cá nhân (F29)
Sinh hoạt cá nhân bao gồm các hoạt động như cafe, rượu chè, thuốc lá, la cà quán nước, lướt internet, chơi game điện tử, Tất cả các hoạt động đó, thông thường được cho là việc nhỏ, là giải trí nhất thời, rất đơn giản và không ảnh hưởng đến việc học và công việc Nhưng qua quá trình tìm hiểu, khảo sát đề án đưa ra một nhận định rằng: Thưa không, những suy nghĩ ấy hoàn toàn sai lầm, không chính xác
Sinh hoạt cá nhân của học sinh có tầm ảnh hưởng rất lớn và trực tiếp đến kết quả học tập Một học sinh thường xuyên la cà quán nước, tán gẫu với bạn bè, hút thuốc hoặc nghiện game trầm trọng thì không thể đạt kết quả cao trong học tập Nhưng ngược lại nếu biết giới hạn, biết điểm dừng thì sẽ đạt kết quả tốt Nếu biết quản lý tốt các sinh hoạt cá nhân, không những không ảnh hưởng tiêu cực đến việc học mà còn giúp ngày càng tiến bộ hơn
Học sinh phải giao lưu với bạn bè, tham gia các hoạt động xã hội và cũng nên tham gia vài trò chơi điện tử nhằm rèn luyện sự nhạy bén, tăng trí thông minh, giảm căng thẳng sau những giờ học vất vả Nhưng tất cả chỉ nên dừng ở mức độ vừa phải, chỉ tham gia khi đã hoàn thành xong việc học Như thế, không những không ảnh hưởng xấu đến kết quả học tập mà ngược lại sẽ giúp học sinh đạt kết quả cao hơn
3.2.12 Đam mê tin học (F30)
Đam mê là sự yêu thích và khát khao trong một lĩnh vực Đam mê cũng được hiểu là bị hấp dẫn bởi một sự vật, sự việc nào đó, là sự yêu thích đối với việc mình muốn theo đuổi và thực hiện [17]