Các nghiên cứu liên quan Đối với hệ thống tư vấn cho học sinh hoặc phân loại học sinh theo năng lực, nhiều nhóm nghiên cứu đã đưa ra các giải pháp khác nhau cho từng bài toán cụ thể nhằm
TỔNG QUAN VỀ NHU CẦU HỆ TƯ VẤN CHỌN MÔN THI
Sự cần thiết của hệ tư vấn
Trước năm 2016, Bộ GD&ĐT đã công bố phương án thi tốt nghiệp đối với học sinh THPT gồm ít nhất 4 môn: 3 môn bắt buộc Toán, Ngữ văn, Ngoại ngữ và 1 môn tự chọn trong các môn Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý [1] Trên cơ sở này, các trường THPT tiến hành cho học sinh đăng ký chọn môn theo năng lực của mình
Vào ngày 28/9/2016 Bộ GD&ĐT công bố phương án thi THPT Quốc gia, đó là học sinh THPT thi 4 bài thi gồm: 3 bài thi bắt buộc Toán, Ngữ văn, Ngoại ngữ và 1 bài thi tự chọn: bài thi Khoa học Tự nhiên hoặc bài thi Khoa học Xã hội Với bài thi Ngoại ngữ, học sinh có thể chọn thi một trong các thứ tiếng: Anh, Nga, Pháp, Trung, Đức, Nhật Học sinh có thể dự thi cả 5 bài thi để sử dụng kết quả xét tuyển vào ĐH, CĐ [2]
Với mô hình thi này, bắt đầu năm học 2016 – 2017, các trường THPT gặp rất nhiều khó khăn như nhà trường phải sắp xếp và chia lại lớp cho học sinh lớp 12, phân công lại chuyên môn, xếp lại thời khóa biểu… Tuy nhiên, tất cả việc sắp xếp lại của nhà trường đều dựa trên mong muốn của PH và HS, tức là chỉ dựa trên ý muốn chủ quan Phương án này mặc dù thỏa mãn được nguyện vọng của PH và HS nhưng có thể chưa phát huy hết năng lực của học sinh vì việc đăng ký chọn môn thi phần lớn dựa vào ý muốn chủ quan hoặc theo ý kiến của số đông hoặc theo nguyện vọng của PH…
Việc lựa chọn này không theo sự đánh giá năng lực của bản thân cũng như không dựa trên một phương pháp phân tích có cơ sở khoa học nhất định
Vì vậy, đề tài luận văn xây dựng một hệ thống tư vấn hỗ trợ cho HS và PH chọn lựa tổ hợp môn theo đúng năng lực học tập.
Các nghiên cứu liên quan
Đối với hệ thống tư vấn cho học sinh hoặc phân loại học sinh theo năng lực, nhiều nhóm nghiên cứu đã đưa ra các giải pháp khác nhau cho từng bài toán cụ thể nhằm tư vấn cho học sinh, cho nhà trường chọn lựa những định hướng để quyết định trong những trường hợp khác nhau như: sử dụng thuật toán K-means để gom cụm các học sinh theo năng lực (gồm 6 mức năng lực) dựa trên điểm số của các môn học [3], sử dụng kỹ thuật cây quyết định, Bayesian, mạng nơ-ron, kỹ thuật láng giềng, K-MEDIODS để phân lớp và gom cụm học sinh theo các thuộc tính về các mối tương quan giữa học sinh và giáo viên để phân chia học sinh vào các lớp học phù hợp [4], chia nhóm học sinh bằng thuật toán K-means dựa trên điểm trung bình của từng môn theo học kỳ để từ đó đưa ra các tư vấn phù hợp [5], phân loại học sinh dựa trên các thông tin cá nhân và nguyện vọng để từ đó tư vấn nghề nghiệp cho học sinh THPT bằng phương pháp phân cụm, phân cấp kết hợp với K-means [6], phân nhóm học sinh nhằm mở các lớp học phù hợp bằng kỹ thuật bảng đồ tự tổ chức SOM (Self-Organizing Map) và cấu trúc phân cụm phân cấp [7], sử dụng kỹ thuật học sâu kết hợp cây FP-Tree trên tiếp cận Adaboost để phân loại học sinh dựa trên điểm trung bình từng môn học theo học kỳ để từ đó định hướng cho học sinh nâng cao hiệu suất học tập [8], phân tích điểm số và đưa ra phương án học tập phù hợp bằng kỹ thuật phân cụm và phân lớp trên mạng SOM [9], nghiên cứu phương pháp học không giám sát để phân loại học sinh dựa trên kỹ thuật luật kết hợp và phân tích thành phần chính PCA (Principal component analysis) để giảm số chiều dữ liệutừ đó đánh giá hiệu suất học tập của học sinh [10], phân nhóm học sinh dựa trên mức độ học tập theo từng môn học bằng kỹ thuật SOM [11]…
Oyelade và cộng sự (2010) đã tiếp cận thuật toán gom cụm K-means để dự báo hiệu suất học tập cho sinh viên Trong bài báo này, nhóm tác giả đã thực hiện phân nhóm các học sinh theo 6 mức độ học lực khác nhau (Excellent, Very Good, Good, Very Fair, Fair, Poor) để từ đó định hướng cho học sinh có kế hoạch học tập tiếp theo [3] Với kết quả này, phương pháp chỉ tiếp cận thuật toán K-means nhằm phân nhóm các học sinh với số nhóm phải được phân hoạch từ trước, do đó nếu dữ liệu tăng trưởng thì việc phân hoạch phải thực hiện lại từ đầu và có thể tạo ra một kết quả khác
Khadir và cộng sự (2015) đã tiếp cận kỹ thuật phân cụm dựa trên bảng đồ tự tổ chức SOM nhằm phân tích hiệu suất học tập của học sinh để từ đó theo dõi định hướng các khóa học kế tiếp [9] Quá trình phân cụm học sinh của phương pháp này được chọn lựa dựa trên việc gom cụm bộ dữ liệu để từ đó huấn luyện trọng số cho mô hình SOM Tuy nhiên, việc phân cụm dữ liệu chỉ dựa vào việc gom nhóm các đặc tính tương tự của học sinh, do đó cần phải có một thuật toán gom cụm phù hợp cho dữ liệu tăng trưởng
Z Fan và cộng sự (2017) sử dụng phương pháp phân cụm K-means để phân nhóm các học sinh dựa trên điểm trung bình của các môn học theo từng học kỳ [5] Đối với phương pháp của nhóm tác giả này, các tâm cụm khởi tạo cho thuật toán K-means được chọn bằng cách chia theo từng nhóm dữ liệu, từ đó các nhóm học sinh được phân loại Việc áp dụng thuật toán K-means cho bộ dữ liệu điểm số của học sinh chưa thể bổ sung các phần tử dữ liệu mới, hơn nữa với mỗi phần tử dữ liệu mới này chưa thể phân loại và phân lớp các học sinh
Lee và cộng sự (2019) kết hợp mạng SOM và phương pháp phân cụm phân cấp để thực hiện gom cụm học sinh theo năng lực và phân loại học sinh trên mạng SOM Theo kết quả thực nghiệm của bài báo cho thấy việc đánh giá và phân loại học sinh có độ chính xác cao và có thể theo dõi học sinh theo dữ liệu của dòng thời gian cho mỗi học sinh [7]
Purbasari và cộng sự (2020) xây dựng một mạng SOM nhằm huấn luyện các trọng số để từ đó phân loại học sinh qua các giá trị mức độ điểm trung bình theo từng môn học [11] Trong công trình này, nhóm tác giả đưa ra các nhóm phân loại dựa vào véc-tơ chiến thắng trên mạng SOM, chưa kết hợp các phần tử láng giềng để phân loại học sinh cũng như chưa đưa ra định hướng cho học sinh về việc nâng cao hiệu suất cũng như kế hoạch học tập tiếp theo
Theo các công trình khảo sát trên, việc phân loại học sinh kết hợp giữa phân cụm K-means và mạng SOM là một phương pháp khả thi và là một chủ đề nghiên cứu thời sự Việc đánh giá và phân loại này giúp cho quá trình phân loại không mang tính chủ quan của con người Hơn nữa, với mỗi bộ dữ liệu mới của mỗi học sinh, phương pháp này có thể dự báo về năng lực của học sinh, phân nhóm học sinh để từ đó đưa ra những tư vấn phù hợp
Trên cơ sở này, nội dung luận văn thực hiện xây dựng một hệ tư vấn chọn lựa cho học sinh trên cơ sở dữ liệu quá khứ và dữ liệu huấn luyện để phân loại dự báo và tư vấn cho học sinh Dữ liệu huấn luyện của học sinh được sưu tập theo năng lực điểm số và phân cụm dựa trên phương pháp K-means để từ đó làm đầu vào cho các nhóm phần tử láng giềng của mạng SOM Trên cơ sở các phân cụm này, mạng SOM được huấn luyện các véc-tơ trọng số dựa trên bộ dữ liệu mẫu bằng cách tinh chỉnh trọng số theo phân lớp của cụm đầu ra Sau quá trình huấn luyện, mô hình phân loại là các véc-tơ trọng số nhằm phân loại một học sinh đầu vào bất kỳ Sau khi phân loại dựa trên véc-tơ chiến thắng, các phần tử láng giềng trong mạng SOM được trích xuất để làm cơ sở phân lớp bằng phương pháp láng giềng gần nhất k-NN Đối với luận văn này, dữ liệu được thống kê từ các nguồn học sinh khác nhau tại các trường THPT khác nhau để từ đó xây dựng mô hình phân loại trên mạng SOM kết hợp với k-NN Với việc phân loại này, học sinh được hỗ trợ trong việc chọn lựa các tổ hợp môn trong kỳ thi tốt nghiệp THPT Quốc gia Ngoài ra, hệ thống này là sự kết hợp của việc cải tiến phương pháp K-means và phương pháp phân nhóm đối tượng bán giám sát theo SOM và k-NN.
Cơ sở lý thuyết liên quan đến luận văn
1.1.3.1 Phương pháp học giám sát
Học có giám sát (Supervised learning)là một kỹ thuật học máy nhằm tạo ra mô hình dự báo (có thể sử dụng các phương pháp phân lớp, hồi qui) từ bộ dữ liệu huấn luyện (training data) bao gồm các cặp đối tượng đầu vào và nhãn đầu ra mong muốn.Từ đó, mô hình đã huấn luyện được sử dụng đểdự đoán nhãn lớp cho đối tượng đầu vào
Hình 1.1 Mô hình học có giám sát
Cho một tập hợp biến đầu vào 𝑋 = {𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 } và một tập nhãn tương ứng 𝑌 = {𝑦 1 , 𝑦 2 , 𝑦 3 , … , 𝑦 𝑁 }, trong đó 𝑥 𝑖 , 𝑦 𝑖 là các véc-tơ Các cặp dữ liệu biết trước (𝑥 𝑖 , 𝑦 𝑖 ) ∈ 𝑋 × 𝑌 được gọi là tập dữ liệu huấn luyện (training data) Trong tập dữ liệu này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập 𝑋 sang một phần tử (xấp xỉ) tương ứng của tập 𝑌
Mục đích là xấp xỉ hàm số 𝑓 thật tốt để khi có một dữ liệu 𝑥 𝑘 mới, chúng ta có thể dự đoán nhãn tương ứng 𝑦 𝑘 = 𝑓(𝑥 𝑘 )
Thuật toán học có giám sát được chia thành hai loại chính:
Phân loại (Classification): phân loại dữ liệu là một kỹ thuật dựa trên tập huấn luyện và những giá trị là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Kỹ thuật phân lớp được tiến hành gồm hai bước: xây dựng mô hình và sử dụng mô hình Xây dựng mô hình là mô tả một tập những lớp được định nghĩa trước, trong đó mỗi bộ được gán nhãn thuộc về một lớp được định nghĩa trước, được xác định bởi thuộc tính
Kết quả dự đoán nhãn lớp, tập hợp của những bộ được sử dụng trong việc xây dựng mô hình được gọi là tập huấn luyện Sử dụng mô hình nhằm mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa được gán nhãn Trước khi sử dụng mô hình người ta thường đánh giá tính chính xác của mô hình, trong đó: nhãn được biết của bộ kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm tập hợp mẫu kiểm tra mà được phân lớp đúng dựa vào mô hình đã xây dựng, tập kiểm tra độc lập với tập được sử dụng để huấn luyện
Hồi qui (Regression): là một kỹ thuật xác định mối quan hệ giữa hai biến số Mô hình hồi qui cần đưa ra một dự đoán hoặc ước lượng giá trị của một biến số từ một giá trị của một hay nhiều biến số khác
1.1.3.2 Phương pháp học không giám sát
Học không giám sát (Unsupervised Learning) là một phương pháp của ngành học máy nhằm tìm ra một mô hình phù hợp với các tập dữ liệu ban đầu chưa được gán nhãn, có nghĩa là không có tập dữ liệu đầu ra đúng cho mỗi dữ liệu đầu vào Trong phương pháp học không giám sát, một mô hình sẽ được huấn luyện để tìm ra cấu trúc hoặc các mối quan hệ giữa các tập dữ liệu đầu vào Một trong những phương pháp học không giám sát quan trọng nhất là gom cụm (clustering) Phương pháp gom cụm nhằm tạo ra các cụm khác nhau, với mỗi cụm biểu diễn một đặc trưng nào đó của dữ liệu và phân các đầu vào mới vào các cụm theo đặc trưng của cụm đầu vào đó, có nghĩa là các dữ liệu thuộc một cụm sẽ có đặc trưng tương tự nhau
Hình 1.2 Mô hình học không giám sát
Dữ liệu không được gán nhãn
Thuật toán để gom cụm
Các cụm chứa các phần tử tương tự nhau
1.1.3.3 Phương pháp học bán giám sát
Học bán giám sát (Semi-Supervised Learning) là bao gồm học có giám sát và học không giám sát, điều đó có nghĩa học với tập dữ liệu huấn luyện đã được gán nhãn và dữ liệu chưa được gán nhãn.Tùy vào từng mục đích cụ thể, học bán giám sát có thể sử dụng thuật toán k-NN để phân lớphoặc phân cụm các đối tượngchưa được gán nhãn, sử dụng thuật toán K-Means để dự đoán kết quả đầu ra cho dữ liệu đã được gắn nhãn Sau khi đạt được kết quả mong muốn, ta sử dụng thuật toán này cho bộ dữ liệu đã được phân cụm trước đó để gắn nhãn cho các cụm
Gom cụm (Clustering) là mô hình gom cụm dữ liệu không có nhãn sao cho các dữ liệu cùng cụm có các tính chất tương đồng nhau và dữ liệu của hai cụm khác nhau sẽ có tính chất khác nhau Hay nói cách khác bài toán gom cụm dữ liệu là phương pháp phân chia tập dữ liệu 𝑋 thành các cụm nhỏ dựa trên sự liên quan giữa các bộ dữ liệu trong mỗi nhóm Để thực hiện gom cụm ta thường sử dụng thuật toán K-means, thuật toán SOM, độ đo tương tự Euclide
Gom cụm trên thuật toán K-Means: Thuật toán K-Means là một phương pháp gom cụm thuộc loại học không giám sát và được ứng dụng nhiều trong các bài toán gom cụm các dữ liệu tương tự Ý tưởng của thuật toán gom cụm K-Means là phân chia một tập dữ liệu ban đầu thành các cụm khác nhau Dữ liệu trong mỗi cụm có tính chất tương tự nhau Trong đó số lượng cụm được cho trước là k Công việc gom cụm được xây dựng trên quy tắc: các dữ liệu trong cùng một cụm phải có cùng một số đặc trưng nhất định Hay nói cách khác, các dữ liệu trong cùng một cụm phải có sự liên quan lẫn nhau
Thuật toán gom cụm K-Means:
Dữ liệu đầu vào: Một bộ dữ liệu 𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 , với mỗi dữ liệu là véc- tơ đặc trưng của đối tượng đầu vào Số cụm cho trước k cụm
Dữ liệu đầu ra: Bộ dữ liệu đầu vào được phân thành k cụm
Trước khi thực hiện gom cụm ta chuẩn hóa dữ liệu bằng cách chuyển dữ liệu về miền giá trị [0,1]
Bước 1: Chọn k tâm cụm ngẫu nhiên𝑐 1 , 𝑐 2 , 𝑐 3 , … , 𝑐 𝑘
Bước 2: Với mỗi dữ liệu 𝑥 𝑖 , xác định cụm của nó Tìm tâm cụm gần nhất
Ta có thể sử dụng độ đo Euclide để tính khoảng cách giữa 𝑥 𝑖 đến các tâm cụm
Bước 3: Phân phối các mẫu dữ liệu vào k cụm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm
Bước 4: Bước 2 và Bước 3 được lặp cho tới khi vị trí của tâm cụm không thay đổi (hội tụ)
Hình 1.3 Mô hình gom cụm K-means
Phân lớp (Classification) là quá trình phân lớp cho một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước Quá trình phân lớp là quá trình gắn nhãn cho đối tượng dữ liệu Quá trình gồm hai bước: (1) Bước học (giai đoạn huấn luyện) là quá trình xây dựng mô hình phân lớp dữ liệu bằng cách phân tích tập dữ liệu huấn luyện đã được gán nhãn; (2) Bước phân lớp là quá trình phân lớp dữ liệu mới dựa trên mô hình đã xây dựng
Hình 1.4 Mô hình phân lớp
Phương pháp phân lớp k-NN k-NN (K-Nearest Neighbors algorithm) dùng để phân lớp các đối tượng đã được gắn nhãn dựa vào khoảng cách gần nhất giữa các đối tượng cần xếp lớp Mỗi đối tượng được phân lớp dựa vào k láng giềng của nó, ta thường dùng khoảng cách Euclide để đo khoảng cách giữa các đối tượng
Thuật toán k-NN được mô tả như sau:
Bước 1: Xác định k láng giềng gần nhất
Bước 2: Dùng độ đo Euclide để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với các đối tượng cần phân lớp
Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định
Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho các đối tượng cần phân lớp
Hình 1.5 Mô hình thuật toán k-NN
Trong hình trên, dữ liệu huấn luyện (training data) được mô tả bởi dấu (+) và dấu (-), đối tượng cần được xác định lớp cho nó (Query point) là hình tròn xám Ta thấy rằng:
Trong trường hợp k láng giềng là 1 thì đối tượng cần được phân lớp sẽ là lớp –
Trong trường hợp k láng giềng là 2 thì đối tượng cần được phân lớp sẽ không xác định vì không lớp nào có số đối tượng nhiều hơn
Trong trường hợp k láng giềng là 5 thì đối tượng cần được phân lớp sẽ là lớp +
1.1.3.7 Bản đồ tự tổ chức SOM
SOM (Self Organizing Map) là một mạng nơ-ron tự tổ chức, thường được thiết kế gồm một tầng đầu vào và một tầng đầu ra với véc-tơ có giá trị trọng số tương ứng với mỗi cụm để từ đó tìm cụm có giá trị nhỏ nhất là cụm chiến thắng Tính tự tổ chức của SOM được thực hiện bởi nguyên tắc học cạnh tranh, không giám sát nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn Điều này có nghĩa là các dữ liệu có đặc trưng tương đồng nhau thì sẽ được đại diện bởi một nơ-ron hoặc các nơ-ron gần nhau Kết quả là hình thành nên bản đồ đặc trưng của tập dữ liệu đầu vào
Thuật toán SOM được mô tả như sau:
Dữ liệu đầu vào: tập 𝑁 véc-tơ đặc trưng của bộ dữ liệu 𝑋 = {𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 } Trong đó, mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều 𝑥 𝑖 = {𝑥 𝑖1 , 𝑥 𝑖2 , 𝑥 𝑖3 , … , 𝑥 𝑖𝑑 }
Dữ liệu đầu ra: bộ véc-tơ trọng số 𝑊 = {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }
Bước 1: Khởi tạo véc-tơ trọng số cho mỗi nơ-ron
Tương ứng với mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều, khởi tạo một véc-tơ trọng số
𝑤 𝑖 = {𝑤 𝑖1 , 𝑤 𝑖2 , 𝑤 𝑖3 , … , 𝑤 𝑖𝑑 } Tập véc-tơ trọng số của 𝑁 bộ dữ liệu là 𝑊 {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }
Bước 2: Chọn ngẫu nhiên một véc-tơ 𝑥 𝑖 trong tập dữ liệu làm mẫu huấn luyện
Bước 3: Tìm phần tử nơ-ron chiến thắng
Tìm phần tử khớp nhất giữa các véc-tơ trọng số 𝑤 𝑖 và véc-tơ đầu vào 𝑥 𝑖 Nơ-ron nào có véc-tơ trọng số 𝑤 𝑖 gần với véc-tơ đầu vào 𝑥 𝑖 nhất là nơ-ron chiến thắng Để xác định nơ-ron chiến thắng ta có thể sử dụng khoảng cách Euclide giữa các véc-tơ trọng số 𝑤 𝑖 với véc-tơ đầu vào 𝑥 𝑖
Bước 4: Xây dựng các phần tử lân cận
Bước này sẽ xác định các nơ-ron nào thuộc vùng lân cận của nơ-ron chiến thắng Để xác định vùng lân cận, sử dụng một ngưỡng 𝛿 ∈ (0,1) gọi là bán kính lân cận Tính khoảng cách Euclide từ tâm là phần tử nơ-ron chiến thắng đến các phần tử nơ-ron lân cận Những phần tử nằm trong phạm vi bán kính 𝛿 là các phần tử lân cận của cụm chiến thắng
Bước 5: Hiệu chỉnh trọng số các phần tử lân cận
Cấu trúc hệ thống
Hệ thống này dựa trên kỹ thuật học không giám sát bằng cách phân cụm năng lực học sinh bằng thuật toán K-means [7], các cụm được tổ chức theo mô hình các phần tử láng giềng dựa trên mạng SOM (Self-Organizing Map) [12] Việc lựa chọn các cụm chiến thắng để phân loại một học sinh được thực hiện theo quy tắc suy luận mờ, trong trường hợp này sử dụng quy tắc suy luận mờ Takagi-Sugono [13] Sau khi suy luận mờ để tìm được cụm chiến thắng, trên cơ sở kỹ thuật học bán giám sát, phương pháp k-NN (k-nearest neighbour) [14] được áp dụng để phân lớp năng lực học tập của học sinh trong cùng một cụm và phân loại mỗi học sinh thuộc về nhóm môn tổ hợp 1 (Lý, Hóa, Sinh) hoặc nhóm môn tổ hợp 2 (Sử, Địa, Công dân) Trong Hình 1.6, quá trình xử lý dữ liệu và thực hiện tư vấn gồm 2 pha.Trong pha đầu tiên thực hiện quá trình phân cụm bằng thuật toán K-means dựa trên bộ dữ liệu điểm số của 2 năm học (lớp
10, lớp 11), trong pha thứ 2, việc phân loại dựa trên sự kết hợp của 2 phương pháp là mạng SOM và suy luận mờ, sau đó kết quả cụm chiến thắng được sử dụng để phân lớp cho học sinh Quá trình phân lớp được thực hiện dựa trên phương pháp k-NN nhằm phân loại học sinh có năng lực thuộc nhóm môn tổ hợp nào (Môn tổ hợp 1, Môn tổ hợp 2)
Hình 1.6 Mô hình tổng quát hệ thống tư vấn
DL một hs Kết quả phân tích
Tư vấn chọn tổ hợp môn
Các bước thực hiện của hệ thống tư vấn chọn tổ hợp môn cho học sinh được mô tả theo Hình 1.6, trong đó cơ sở dữ liệu điểm trung bình của học sinh được sưu tập từ các nguồn dữ liệu của các trường THPT, từ đó chuẩn hóa trên miền giá trị [0,1] làm đầu vào cho thuật toán gom cụm tạo ra các phần tử nhóm láng giềng ban đầu để huấn luyện trọng số của mạng SOM Việc dự báo, tư vấn cho học sinh được thực hiện bằng cách phân loại trên mạng SOM kết hợp với suy luận mờ để tìm phần tử chiến thắng và cụm chiến thắng Sau đó, thuật toán k-NN được áp dụng trên cụm chiến thắng để phân lớp dữ liệu cho học sinh nhằm tư vấn chọn tổ hợp môn thi trong kỳ thi tốt nghiệp THPT Quốc gia Quá trình xây dựng hệ thống này bao gồm 2 pha được mô tả như sau:
Pha 1: Pha xử lý dữ liệu
Bước 1: Chuẩn hóa dữ liệu điểm trung bình của học sinh: đây là bước chuyển những giá trị điểm trung bình về một dạng thứ nguyên để từ đó áp dụng kỹ thuật phân cụm K-means
Bước 2: Thực hiện phân cụm dữ liệu đã được chuẩn hóa bằng thuật toán K-means: với dữ liệu đầu vào đã được chuẩn hóa, thuật toán K- means được áp dụng bằng cách dò tìm các tâm cụm là nơi có mật độ dữ liệu nhiều nhất trong một bán kính cho trước Nếu một phần tử nằm ngoài bán kính của một cụm gần nhất thì tạo nên một cụm mới
Do đó, quá trình tạo cụm phù hợp dữ liệu tăng trưởng
Bước 3: Huấn luyện mạng SOM: các véc-tơ trọng số của mạng SOM được khởi tạo một cách ngẫu nhiên và được huấn luyện theo mô hình véc-tơ chiến thắng trên bộ dữ liệu huấn luyện đã được phân cụm trước đó bằng thuật toán K-means Kết quả của quá trình huấn luyện này là một mô hình phân loại bao gồm các trọng số của mạng SOM
Pha 2: Pha tư vấn học sinh
Bước 1: Chuẩn hóa dữ liệu điểm trung bình môn cho mỗi học sinh: với mỗi dữ liệu điểm của một học sinh bất kỳ, thực hiện chuẩn hóa theo phương pháp đã chuẩn hóa trên cơ sở dữ liệu đã huấn luyện để từ đó làm đầu vào cho việc phân loại trên mạng SOM
Bước 2: Thực hiện phân loại dựa trên kỹ thuật mạng SOM với phương pháp lựa chọn cụm chiến thắng bằng kỹ thuật suy luận mờ Takagi- Sugano Đối với bước này, phương pháp suy luận mờ được kết hợp để tìm ra cụm chiến thắng ngoài khoảng cách theo độ đo
Bước 3: Thực hiện phân lớp bằng kỹ thuật k-NN dựa trên cụm chiến thắng và các cụm lân cận nhằm tìm ra môn tổ hợp cho mỗi học sinh.
Sự đóng góp của hệ thống
Việc chọn môn thi tổ hợp của học sinh ảnh hưởng đến quá trình học tập cũng như ảnh hưởng đến chất lượng đào tạo của nhà trường Nếu việc chọn lựa này không đúng với năng lực của học sinh thì kết quả thi của học sinh không đạt theo mong muốn và ảnh hưởng đến định hướng nghề nghiệp sau này Hơn nữa, nhà trường và phụ huynh khó khăn trong việc giảng dạy, định hướng cho học sinh nếu như việc chọn lựa không đúng Mặt khác, số lượng thí sinh trong cả nước tham gia kỳ thi tốt nghiệp THPT Quốc gia là rất lớn để tạo ra nguồn lực cho xã hội Nếu tỷ lệ thí sinh chọn lựa sai nhiều, đặc biệt là các vùng thiếu thông tin như vùng núi (KV1, KV2-NT) thì ảnh hưởng đến nguồn nhân lực cũng như định hướng về tương lai nghề nghiệp của mỗi thí sinh vì điểm số này được sử dụng để xét vào các trường Đại học Để giải quyết những khó khăn và sự cấp thiết nêu trên, một hệ thống tư vấn cần được xây dựng nhằm trợ giúp cho học sinh, nhà trường cũng như phụ huynh Với mong muốn hỗ trợ phát hiện năng lực của các em học sinh và tư vấn các em chọn đúng năng lực của mình dựa vào kết quả học tập theo tổ hợp môn thi tốt nghiệp THPT Quốc gia, đề tài luận văn tiến hành thực hiện “Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia”.
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Đối tượng nghiên cứu
Đề tài lần lượt nghiên cứu việc phân tích các thông tin điểm số của học sinh, thông tin cơ sở của việc đánh giá năng lực học sinh để từ đó phân loại học sinh theo tổ hợp môn thi phù hợp Các thuật toán cũng được nghiên cứu đề xuất để phân cụm học sinh dựa vào kết quả học tập và tư vấn cho học sinh chọn môn thi phù hợp Cụ thể, các đối tượng nghiên cứu bao gồm:
(1) Cấu trúc điểm số của học sinh liên quan đến các môn tổ hợp
(2) Véc-tơ đặc trưng mô tả năng lực của học sinh
(3) Phương pháp phân cụm K-means nhằm phân nhóm năng lực học sinh (4) Phương pháp suy luận mờ kết hợp mạng SOM để chọn lựa cụm chiến thắng đối với mỗi học sinh
(5) Phương pháp phân lớp k-NN nhằm phân loại học sinh thuộc năng lực phù hợp đối với các môn thi tổ hợp
(6) Mô hình và thuật toán nhằm xây dựng công cụ tư vấn cho học sinh chọn lựa các môn thi tổ hợp.
Phương pháp nghiên cứu
Để thực hiện đề tài này, các phương pháp nghiên cứu sau đây được áp dụng:
(1) Phương pháp đánh giá, so sánh: các phương pháp đánh giá năng lực học sinh lần lượt được khảo sát để từ đó phân tích các ưu, khuyết điểm của từng phương pháp Trên cơ sở này, một phương pháp cải tiến được đề xuất nhằm phù hợp với môi trường thực nghiệm cũng như phù hợp với bối cảnh, cụ thể là kỳ thi tốt nghiệp THPT Quốc gia
(2) Phân tích cơ sở lý thuyết: dựa trên nền tảng về khoa học dữ liệu, khai phá dữ liệu, các phương pháp phù hợp được phân tích và lựa chọn nhằm tạo ra một phương pháp tư vấn chọn môn thi tổ hợp cho học sinh
(3) Phương pháp mô hình hóa: dựa trên cơ sở lý thuyết đã được lựa chọn và cơ sở thực tế của kỳ thi tốt nghiệp THPT Quốc gia, một mô hình được xây dựng nhằm làm nền tảng cho quá trình tạo ra công cụ hỗ trợ tư vấn cho học sinh cũng như đề xuất các thuật toán phù hợp
(4) Phương pháp thực nghiệm: trên cơ sở lý thuyết đã được đề xuất, một ứng dụng thực nghiệm được xây dựng nhằm minh chứng tính đúng đắn của mô hình và các thuật toán Quá trình thực nghiệm được thực hiện theo 2 giai đoạn gồm huấn luyện mô hình và kiểm thử tính đúng đắn của dữ liệu.
LĨNH VỰC NGHIÊN CỨU
Đề tài luận văn tiếp cận xây dựng một hệ tư vấn cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia Công cụ này được xây dựng dựa trên phân tích dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Các lĩnh vực nghiên cứu này được kết hợp nhằm xây dựng một hệ thống tư vấn để từ đó áp dụng cho học sinh THPT Trên cơ sở này, kết quả đề tài có thể áp dụng trong các hệ tư vấn khác: tư vấn sản phẩm khách hàng, tư vấn chọn sản phẩm, tư vấn trong sản xuất… Đối với lĩnh vực khai phá dữ liệu, đề tài luận văn thực hiện việc trích xuất các dữ liệu hữu ích của học sinh để từ đó đưa ra quyết định lựa chọn môn thi tổ hợp phù hợp Trong lĩnh vực nghiên cứu này, phương pháp gom cụm K- means và phân lớp k-NN được áp dụng làm cơ sở cho hệ thống tư vấn Đối với lĩnh vực trí tuệ nhân tạo, đề tài luận văn áp dụng kỹ thuật học không giám sát, bán giám sát nhằm tạo ra một hệ thống thông minh để trích xuất dữ liệu phù hợp cho mỗi học sinh Từ đó, một hệ thống tự động tư vấn cho học sinh được thực hiện dựa trên một cơ sở khoa học nhất định
Hệ thống phân tích dữ liệu của học sinh THPT tạo ra các phân nhóm Phương pháp phân tích dữ liệu trên mạng SOM và suy luận mờ được áp dụng nhằm tìm ra dữ liệu phù hợp phục vụ tư vấn cho học sinh Dữ liệu này được phân lớp bằng k-NN để phân loại năng lực học sinh đối với các môn thi tổ hợp
Như vậy, công cụ tư vấn cho học sinh chọn môn thi tổ hợp là sự kết hợp của các lĩnh vực về khoa học dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Kết quả của đề tài luận văn là một mô hình, thuật toán và công cụ hỗ trợ cho học sinh Công cụ này có thể giúp ích trong các hệ thống tư vấn khác nhau trong từng lĩnh vực Đồng thời, đây là một minh chứng áp dụng trí tuệ nhân tạo trong việc quyết định hỗ trợ cho người dùng.
NỘI DUNG NGHIÊN CỨU
Hệ thống theo dõi kết quả học tập của học sinh THPT và tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia giúp học sinh phát triển năng lực Hệ thống hỗ trợ tư vấn được xây dựng dựa trên kỹ thuật phân cụm, suy luận mờ và kỹ thuật phân lớp Đề tài tiếp cận thuật toán K-means phân cụm theo năng lực học sinh và đưa ra những tư vấn phù hợp với năng lực giúp học sinh dễ dàng đăng ký chọn tổ hợp môn thi Kết quả của đề tài được ứng dụng trong chính ngôi trường THPT tôi đang công tác Nội dung nghiên cứu cụ thể như sau:
(1) Nghiên cứu các công trình liên quan đã có đồng thời phân tích các ưu, nhược điểm để từ đó đưa ra các kỹ thuật cải tiến phù hợp cho bài toán
(2) Nghiên cứu các kỹ thuật khai phá dữ liệu, phân tích dữ liệu nhằm tạo ra một nguồn cho bài toán tư vấn chọn môn thi tổ hợp của học sinh
(3) Nghiên cứu các kỹ thuật học không giám sát, bán giám sát để từ đó thực hiện gom cụm, phân lớp dữ liệu của học sinh THPT
(4) Nghiên cứu phương pháp phân cụm K-means và mô hình phân loại SOM kết hợp với k-NN.
QUÁ TRÌNH THỰC HIỆN
Các bước thực hiện
Để thực hiện hệ tư vấn cho học sinh chọn tổ hợp môn cho kỳ thi tốt nghiệp THPT Quốc gia, nội dung luận văn được thực hiện theo các bước như sau:
(1) Tìm các tài liệu của Bộ GD&ĐT liên quan đến thông tin kỳ thi tốt nghiệp THPT Quốc gia, đồng thời nghiên cứu các quy chế đánh giá năng lực của học sinh
(2) Phân tích các công trình liên quan và chọn các phương pháp phù hợp:
- Phân tích thông tin về đặc trưng đánh giá kết quả học tập của học sinh để phân cụm theo năng lực học sinh
- Xây dựng mô hình thực hiện công cụ tư vấn cho học sinh
- Nghiên cứu các phương pháp phân cụm K-means, phân loại trên mạng SOM, phân lớp k-NN và hệ suy luận mờ
- Xây dựng một hệ tư vấn hỗ trợ ra quyết định cho học sinh về đánh giá năng lực cũng như khả năng của học sinh cho từng tổ hợp môn thi cụ thể
- Đề xuất thuật toán nhằm chuyển đổi dữ liệu đánh giá học sinh và tư vấn chọn môn thi
- Xây dựng ứng dụng thực nghiệm và đánh giá hiệu suất của phương pháp đồng thời so sánh với các phương pháp khác.
Các kỹ thuật cần nghiên cứu
Trong hệ thống này, một mô hình mạng SOM cần được xây dựng để dự báo cho từng học sinh dựa trên điểm số Do đó, một cơ chế suy luận cần phải được thực hiện trên hệ thống này Có hai phương pháp thông dụng để thực hiện đó là kỹ thuật học có giám sát và kỹ thuật học không giám sát Trong mô hình phân cụm của thuật toán K-means, các đặc trưng của mỗi dữ liệu được kết hợp và đánh giá độ đo tương tự sao cho hai phần tử bất kỳ trong cùng một cụm có độ đo gần nhau và hai phần tử khác cụm có độ đo khác biệt lớn
Mặt khác, phương pháp học có giám sát được xây dựng dựa trên các mẫu dữ liệu huấn luyện có gán nhãn trước để từ đó xây dựng mô hình cho việc phân loại Trong luận văn này, mạng SOM được thực hiện huấn luyện để tạo các trọng số nhằm phân lớp dữ liệu đầu vào Do đó, kỹ thuật học có giám sát được áp dụng trên mạng SOM với bộ dữ liệu huấn luyện mẫu được lấy từ kết quả của thuật toán K-means trong quá trình phân cụm học sinh Đây là quá trình kết hợp giữa việc học không giám sát và có giám sát Tuy nhiên, để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng gần nhất Đây là phương pháp không cần huấn luyện mô hình nhưng có thể phân lớp dựa trên bộ dữ liệu mẫu Vì vậy, kỹ thuật học bán giám sát cần phải được thực hiện và áp dụng trên bộ dữ liệu học sinh trên cơ sở thuật toán k-NN.
Các công cụ áp dụng
Để thực hiện các kỹ thuật học không giám sát, có giám sát và bán giám sát nhằm tạo ra một hệ tư vấn chọn tổ hợp môn cho học sinh thi tốt nghiệp THPT Quốc gia, các đối tượng sau đây được áp dụng:
(1) Phân cụm đối tượng K-means: đây là kỹ thuật học không giám sát nhằm gom cụm các học sinh có mức độ tương tự nhau trở thành một nhóm Quá trình này độc lập với việc gán nhãn các bộ dữ liệu mẫu ban đầu mà chỉ phụ thuộc vào độ đo tương tự dựa trên các thuộc tính của mỗi học sinh
(2) Phân loại đối tượng trên SOM: trên cơ sở các cụm của thuật toán K- means đã được tạo ra, mỗi cụm là một phân loại cho mạng SOM, đồng thời hai cụm có thể đánh dấu láng giềng với nhau nếu như hai tâm cụm có độ tương tự nhỏ hơn một ngưỡng cho trước Để thực hiện phân loại trên mạng SOM, các trọng số được huấn luyện dựa trên mẫu phân loại do thuật toán K-means tạo ra Đây là quá trình học có giám sát và áp dụng trên bộ dữ liệu của học sinh với việc gán nhãn là các phân nhóm của các cụm
(3) Trên mỗi một cụm chiến thắng thì ứng với một bộ dữ liệu của học sinh, phương pháp k-NN được thực hiện để phân loại các học sinh theo các phân lớp đã được gán nhãn Việc lựa chọn này dựa trên các tần suất xuất hiện của các phân lớp trên cụm chiến thắng Trên cơ sở này, dữ liệu mới của mỗi học sinh được phân lớp vào các lớp chiếm ưu thế Do đó, thực hiện được quá trình tư vấn chọn tổ hợp môn học cho từng học sinh Quá trình này được thực hiện trên cơ sở phương pháp học bán giám sát vì thuật toán k-NN không cần phải huấn luyện mô hình nhưng phải dựa trên các mẫu phân lớp đã được gán nhãn trước.
Nội dung các chương trong luận văn
Đề tài luận văn thực hiện xây dựng một công cụ hỗ trợ cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, qua đó các phương pháp xử lý và phân tích dữ liệu được áp dụng nhằm tạo ra một mô hình, kỹ thuật xử lý dữ liệu của học sinh Trên cơ sở này, nội dung của đề tài luận văn được thực hiện gồm ba chương và phần kết luận, cụ thể như sau:
Chương 1 Tổng quan về hệ tư vấn cho học sinh chọn môn thi: trong chương này, các thông tin của học sinh được khảo sát và phân tích Từ đó, các công cụ về trí tuệ nhân tạo, khai phá dữ liệu lần lượt được khảo sát và chọn lựa Các đối tượng nghiên cứu, phương pháp nghiên cứu, quá trình thực hiện cũng được đề xuất nhằm áp dụng xây dựng công cụ hỗ trợ tư vấn cho học sinh
Chương 2 Hệ tư vấn chọn môn thi tổ hợp cho học sinh: trong chương này lần lượt phân tích các công cụ khai phá dữ liệu nhằm áp dụng cho hệ tư vấn, gồm: phương pháp phân cụm K-means, phương pháp chọn lựa cụm dựa trên mạng SOM và suy luận mờ, phương pháp phân lớp dựa trên k-NN Các phương pháp được thực hiện trên các dữ liệu cụ thể của học sinh THPT nhằm làm cơ sở cho việc xây dựng hệ thống tư vấn chọn môn thi tổ hợp trong kỳ thi tốt nghiệp THPT Quốc gia Trong chương này cũng phân tích sự phù hợp của từng phương pháp đối với dữ liệu học sinh và sự phù hợp về mặt khoa học cũng như quá trình xử lý
Các bước thực hiện của mô hình được phân tích và trình bày nhằm làm cơ sở xây dựng ứng dụng thực nghiệm Các thuật toán dựa trên mô hình được đề xuất nhằm làm cơ sở thực nghiệm, minh chứng tính đúng đắn của mô hình
Chương 3 Thực nghiệm: trong chương này thiết kế một hệ thống thực nghiệm trên một môi trường lập trình cụ thể Các dữ liệu thực nghiệm và kết quả thực nghiệm cũng được phân tích và đánh giá nhằm minh chứng tính hiệu quả của phương pháp đề xuất Mỗi thuật toán cũng sẽ được mô tả cụ thể và các ví dụ được áp dụng nhằm minh chứng tính đúng đắn và khả thi.Các kết quả thực nghiệm này cũng sẽ được đánh giá và phân tích tính khả thi trên nhiều bộ dữ liệu khác nhau theo từng năm ứng với các trường THPT trong địa bàn Thành phố Vũng Tàu Từ đó, một kết luận và định hướng phát triển được đề nghị nhằm xây dựng các hệ thống, công cụ tư vấn cho từng lĩnh vực.
HỆ TƯ VẤN CHỌN MÔN THI TỔ HỢP CHO HỌC SINH
TỔNG QUAN
Trên cơ sở lý thuyết đã khảo sát tại chương 1, nội dung chương này tiếp cận các công cụ xử lý dữ liệu bao gồm phương pháp gom cụm, phương pháp chọn cụm chiến thắng và phân lớp dữ liệu Để thực hiện các phương pháp này, nội dung của chương lần lượt tiếp cận phương pháp gom cụm K-means nhằm gom nhóm các dữ liệu học sinh, sau đó thực hiện chọn cụm chiến thắng bằng cách huấn luyện mạng SOM Để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng của cụm chiến thắng Các công cụ này lần lượt được phân tích dựa trên các bộ dữ liệu cụ thể của học sinh nhằm làm cơ sở xây dựng thực nghiệm về hệ tư vấn chọn tổ hợp môn
Dữ liệu HS được sưu tập từ các trường THPT tại Thành phố Vũng Tàu, sau đó tổng hợp, chuẩn hóa và áp dụng thuật toán K-means để phân nhóm cho các học sinh theo mức độ học lực Tại mỗi cụm, một véc-tơ trọng số được khởi tạo và huấn luyện để làm cơ sở chọn lựa véc-tơ chiến thắng trong mô hình mạng SOM Trong quá trình huấn luyện này được thực hiện bằng cách cập nhật trọng số sao cho giảm sai số của quá trình lựa chọn cụm chiến thắng Việc huấn luyện được thực hiện cho đến khi mạng hội tụ nghĩa là đạt được một sai số đủ nhỏ để có thể chọn lựa cụm chiến thắng ứng với dữ liệu của một học sinh đầu vào
Với mỗi học sinh, dữ liệu điểm số được trích xuất và chuẩn hóa nhằm thực hiện chọn một cụm chiến thắng và các cụm láng giềng trên mạng SOM Trên cơ sở các phần tử chiến thắng, thuật toán k-NN được áp dụng để phân loại học sinh trên cơ sở các phần tử láng giềng và tính toán tần suất xuất hiện của các phân lớp gần nhất trên cụm chiến thắng và trên các cụm láng giềng Vì vậy, trong chương này xây dựng mô hình và tiếp cận các nội dung về một hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia.
PHÂN CỤM DỮ LIỆU DỰA TRÊN K-MEANS
Thuật toán K-Means nhằm thực hiện gom cụm các dữ liệu sao cho hai phần tử thuộc cụm có độ tương đồng gần nhau và hai phần tử khác cụm có độ tương đồng xa nhau [3, 5, 6] Quá trình phân cụm được thực hiện trên N điểm dữ liệu mà mỗi điểm dữ liệu thuộc không gian R d , tức là mỗi điểm dữ liệu có d chiều Số cụm dữ liệu được chọn trước tương ứng với số phân nhóm học sinh theo học lực (Giỏi, Khá, Trung bình, Yếu, Kém); trong đó tâm cụm ban đầu được chọn một cách ngẫu nhiên và huấn luyện sao cho các tâm cụm này hội tụ nghĩa là các tâm cụm không thay đổi sau các bước phân cụm Để đánh giá độ đo giữa hai điểm trong quá trình phân cụm, khoảng cách Euclide được sử dụng trên không gian dữ liệu d chiều
Cho một tập dữ liệu có N điểm dữ liệu x 1 , x 2 ,…,x N sao cho mỗi điểm dữ7 liệu x i thuộc không gian R d Thuật toán K-means được thực hiện như sau:
Thuật toán: K-means Đầu vào: N điểm dữ liệu x 1 , x 2 ,…,x N Đầu ra: tập các cụm = { i , i = 1 k}
Bước 1: Khởi tạo k tâm cụm ngẫu nhiên {c 1 , c 2 ,…, c k } từ tập dữ liệu
For i=1 to k do ci= random(x 1 , x 2 ,…,x N ), ci ≠cj, với 0 sigmoid(a)) then min = sigmoid(a);
Trong thuật toán SOMWinner, đầu vào là một mẫu dữ liệu X mô tả điểm của học sinh và tập các trọng số đã được huấn luyện W, đầu ra là một cụm chiến thắng Thuật toán sẽ duyệt trọng số của từng cụm, với mỗi trọng số được tính tích vô hướng với mẫu dữ liệu X Từ đó, một giá trị tổng hợp được tính toán dựa trên một hàm sigmoid(a) = 1
1+𝑒 −𝑎 Thuật toán được duyệt k lần tương ứng với số cụm, mỗi lần thực hiện các phép toán cơ sở Do đó, độ phức tạp của thuật toán là O(k), nếu k là một số cụm không đáng kể thì thuật toán thực hiện với độ phức tạp là một hằng số
2.3.4 Ví dụ thực nghiệm cho việc chọn cụm chiến thắng
Giả sử sau khi huấn luyện 5 cụm, tập các véc-tơ trọng số là:
Với một mẫu dữ liệu học sinh X như sau
Thực hiện thuật toán SOMWinner, ta có bảng sau: wi1
Theo như dữ liệu bảng kết quả trên, cụm chiến thắng được chọn, đó là cụm 4
PHƯƠNG PHÁP PHÂN LỚP K-NN
2.4.1 Thuật toán phân lớp k-NN
Sau khi chọn cụm chiến thắng, các phần tử trong cụm được sử dụng để phân lớp cho một phần tử X đầu vào để nhằm tư vấn cho học sinh chọn môn tổ hợp thi tốt nghiệp THPT Quốc gia Quá trình phân lớp này được thực hiện dựa trên các phần tử láng giềng và tần suất xuất hiện của các nhãn lớp trong cụm chiến thắng Thuật toán k-NN phân lớp học sinh được thực hiện như sau:
Thuật toán: k-NN Đầu vào: Cụm chiến thắng Winner, mẫu dữ liệu X Đầu ra: Phân lớp học sinh Bestclass
Bước 1: Sắp xếp các phần tử trong cụm chiến thắng
Bước 2: Lấy k phần tử để phân lớp
For i = 1 to k do class = class {Li.class};
Bước 3: Chọn lớp có tần suất hiện nhiều nhất
Bestclass = Max{Frequence(classi), classi class}; return Bestclass;
Thuật toán k-NN thực hiện phân lớp cho mẫu dữ liệu đầu vào X dựa trên cụm chiến thắng Winner; kết quả là chọn một lớp tốt nhất cho mẫu dữ liệu X Để thực hiện vấn đề này, các mẫu dữ liệu trong tập Winner được sắp xếp theo độ đo Euclide với mẫu dữ liệu X nhằm tìm ra các phần tử láng giềng Sau đó, k phần tử gần nhất được lựa chọn và các phân lớp tương ứng được trích xuất; trên cơ sở các phân lớp này, lớp có tần suất xuất hiện nhiều nhất được lựa chọn là Bestclass dùng để tư vấn cho học sinh ứng với mẫu dữ liệu đầu vào X
2.4.2 Ví dụ thực nghiệm cho thuật toán k-NN
Giả sử cụm chiến thắng được chọn lựa như sau:
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
Giả sử cần dự báo cho một mẫu dữ liệu X là
Thực hiện sắp xếp theo độ đo Euclide ta có bảng sau:
Giả sử chọn k láng giềng với k=3, ta có các nhãn lớp như sau:
44 Khá Tốt HS Tiên tiến Được lên lớp
27 Khá Khá HS Tiên tiến Được lên lớp
24 Khá Tốt HS Tiên tiến Được lên lớp
Thực hiện đếm tần suất trên cụm chiến thắng, ta có:
Mẫu lớp tốt nhất sẽ là:
HS Tiên tiến Được lên lớp
Trên cơ sở chọn lựa mẫu lớp tốt nhất, mẫu dữ liệu X đầu vào được phân về lớp học sinh học lực Khá, hạnh kiểm Tốt, xếp loại Học sinh Tiên tiên, Được lên lớp Đồng thời mẫu dữ liệu X được tư vấn chọn tổ hợp môn thi là KHXH.
HỆ TƯ VẤN CHO HỌC SINH THI TỐT NGHIỆP THPT
Hình 2.2 Mô hình hệ thống tư vấn học sinh
Trong hình 2.2, hệ thống tư vấn học sinh được mô tả bằng cách kết hợp phương pháp phân cụm dữ liệu K-means và phân loại dựa trên mạng SOM Trong mô hình này, hệ thống tư vấn được thực hiện dựa trên hai pha bao gồm pha xử lý dữ liệu và pha dự báo, tư vấn Đối với pha xử lý dữ liệu, cơ sở dữ liệu của học sinh được sưu tập từ nhiều nguồn dữ liệu khác nhau của các trường THPT, sau đó dữ liệu này được chuẩn hóa trong [0,1] để làm đầu vào cho thuật toán phân cụm K-means Sau quá trình phân cụm, dữ liệu của học sinh được gom nhóm tạo thành k cụm sao cho mỗi cụm gồm các phần tử gần nhau Kết quả gom cụm này làm đầu vào cho quá trình huấn luyện của mạng SOM để từ đó tạo ra một mô hình dự báo trên mạng SOM (là các véc-tơ trọng số) Đối với pha phân lớp và tư vấn cho học sinh, đầu vào là một mẫu dữ liệu bất kỳ và chưa biết mẫu kết quả Dựa trên các véc-tơ trọng số đã được huấn luyện, cụm chiến thắng được lựa chọn và từ đó thực hiện phân lớp bằng thuật toán láng giềng gần nhất Trong thuật toán k-NN này, tần suất xuất hiện của nhãn lớp được mở rộng cho toàn cụm chiến thắng nhằm nâng cao độ chính xác của quá trình phân lớp cũng như việc tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia Các bước xây dựng hệ thống được tóm tắt như sau:
Pha xử lý dữ liệu: tạo mô hình SOM
Bước 1: chuẩn hóa dữ liệu đầu vào cho cơ sở dữ liệu học sinh THPT Bước 2: phân cụm dữ liệu bằng thuật toán K-means
Bước 3: huấn luyện mạng SOM để tạo ra bộ trọng số
Pha dự báo, tư vấn: phân lớp và tư vấn cho học sinh
Bước 1: chuẩn hóa mẫu dữ liệu X đầu vào
Bước 2: tìm cụm chiến thắng trên mạng SOM
Bước 3: phân lớp và tư vấn cho học sinh dự trên thuật toán k-NN
2.5.2 Quá trình huấn luyện mạng SOM
Hình 2.3 Lưu đồ quá trình huấn luyện mạng SOM Hình 2.3 mô tả lưu đồ của quá trình phân cụm và huấn luyện mạng SOM từ một tập dữ liệu đầu vào X 1 , X 2 ,…, X N Thuật toán phân cụm K-means được áp dụng để phân tập dữ liệu ban đầu thành k cụm Trên cơ sở mạng SOM, các
Tập dữ liệu đầu vào
Tập véc-tơ trọng số
End trọng số của cụm được huấn luyện, kết quả đầu ra của quá trình huấn luyện này là tập các trọng số W = {Wi, i = 1 k}
2.5.3 Quá trình phân lớp, tư vấn
Hình 2.4 Lưu đồ dự báo và tư vấn học sinh Hình 2.4 mô tả quá trình phân lớp và dự báo cho mẫu dữ liệu X dựa trên cụm chiến thắng là phân lớp k-NN, đồng thời tư vấn cho học sinh Bắt đầu từ mẫu dữ liệu X và tập trọng số W = {Wi, i = 1 k}, cụm chiến thắng được lựa chọn bằng độ đo tốt nhất trên giá trị tổng hợp của hàm sigmoid Trên cơ sở các láng giềng gần nhất, quá trình phân lớp cho mẫu dữ liệu X được thực hiện và chọn ra mẫu lớp có tần suất xuất hiện nhiều nhất cũng như độ tương đồng tốt nhất đối với mẫu dữ liệu X để làm cơ sở cho quá trình tư vấn cho học sinh.
THỰC NGHIỆM
GIỚI THIỆU
Trên cơ sở lý thuyết đã được đề xuất tại chương 2, chương này trình bày một hệ thống thực nghiệm nhằm dự báo về năng lực học sinh cũng như tư vấn chọn tổ hợp môn KHTN và KHXH Vì vậy, các thuật toán tại chương 2 lần lượt được mã hóa trên một ngôn ngữ lập trình cụ thể và thực thi trên các bộ dữ liệu khác nhau để đánh giá tính khả thi và hiệu suất của hệ tư vấn này
Một hệ thống tư vấn cho học sinh được xây dựng bao gồm hai chương trình khác nhau là: (1) chương trình tạo dữ liệu và huấn luyện được thực thi trên hệ thống máy server nhằm tạo ra dữ liệu cho người dùng và độc lập bởi người dùng, nghĩa là thực thi pha chuẩn bị dữ liệu cho người dùng; (2) chương trình phân loại và tư vấn cho người dùng được thực thi trên máy client trên cơ sở dữ liệu đã được tạo ra từ hệ thống server Pha thực thi từ phía người dùng được kết nối đến server và thực hiện chọn cụm chiến thắng, sau đó phân loại bằng phương pháp k-NN nhằm đưa ra dự báo ứng với mỗi bộ dữ liệu học sinh
Dữ liệu được chia ra thành hai phần gồm dữ liệu huấn luyện (training) và dữ liệu kiểm thử (testing) nhằm đánh giá độ chính xác cũng như hiệu suất của hệ thống Đối với dữ liệu huấn luyện, hệ thống thực hiện phân cụm và tạo ra các trọng số cụm để kết nối các cụm láng giềng và tạo ra một mạng SOM cho quá trình phân lớp k-NN Đối với dữ liệu kiểm thử, hệ thống sẽ kiểm tra từng bộ dữ liệu giữa đầu ra của kết quả dự đoán và kết quả thực tế trên cơ sở tìm kiếm cụm chiến thắng trên SOM và phân lớp k-NN Từ đó, độ chính xác của quá trình dự đoán và khuyến nghị cho người dùng được kết xuất
Các số liệu về hiệu suất của hệ thống được đo đạc trực tiếp trong quá trình thực thi chương trình đồng thời được tổng hợp nhằm đánh giá kết quả về độ chính xác về dự đoán năng lực học sinh, dự báo điểm các môn thi tổ hợp và kiến nghị chọn môn thi tổ hợp cho học sinh.
MÔ HÌNH THỰC NGHIỆM
Hình 3.1 Mô hình thực nghiệm hệ thống dự báo Kiến trúc hệ thống dự báo và tư vấn cho học sinh được mô tả tại hình 3.1 bao gồm hai giai đoạn: (1) giai đoạn tạo cụm và mạng SOM được thực hiện từ phía server với đầu vào là dữ liệu huấn luyện chiếm 70% tổng số dữ liệu Kết quả của giai đoạn này là một danh sách các cụm và các nhóm cụm láng giềng dưới dạng mạng SOM mà mỗi nhóm cụm được liên kết qua trọng số của cụm, với trọng số của cụm được tổng hợp từ các mẫu dữ liệu có cùng nhãn học lực của học sinh mà xuất hiện nhiều nhất trong cụm đó; (2) giai đoạn dự báo được thực hiện từ phía người dùng với đầu vào là dữ liệu do người dùng cung cấp để từ đó chọn cụm chiến thắng trong mạng SOM, sau đó thực hiện phân lớp k-NN nhằm đưa ra kết quả dự báo và tư vấn cho học sinh
Hệ thống phía người dùng
XÂY DỰNG HỆ THỐNG
3.3.1 Thiết kế sơ đồ lớp
Hình 3.2 Sơ đồ lớp của hệ thống class RootCluster List ListCW List ListFile
get/set method has-a class HocSinhCluster
get/set method abstractclass ClusterMethod
vector String2Vector (string str)
GetCenter() has-a class SOM-kNN
kNN has-a class CenterWeight List Center List Weight
get/set method has- a class HocSinh string MasoHocSinh List Diem List MonHoc double khtn double khxh string HocLuc string DanhHieu
Trong sơ đồ lớp được mô tả tại hình 3.2 được thiết kế bao gồm 7 lớp, trong đó lớp đầu tiên là lớp trừu tượng ClusterMethod được dùng để chứa tất cả các thao tác chung trong quá trình xử lý các cụm dữ liệu và lớp này không tạo đối tượng để thực thi Lớp tiếp theo là HocSinhCluster nhằm lưu trữ các cụm dữ liệu là thông tin của học sinh đồng thời lưu trữ trọng số cho mạng SOM và tâm cụm cho toàn bộ dữ liệu trong cụm đó Lớp HocSinhCluster được kế thừa (is-a) trực tiếp từ lớp ClusterMethod nhằm sử dụng các hàm đã được thiết kế trước đó Dựa trên lớp HocSinhCluster, lớp phân cụm dữ liệu Clustering và lớp SOM- kNN được thiết kế, cả hai lớp đều kế thừa (has-a) lớp HocSinhCluster, nghĩa là hai lớp này đều có các thuộc tính tham chiếu đến đối tượng của lớp
HocSinhCluster Ngoài ra, lớp HocSinhCluster có hai thuộc tính là tâm trọng số (CenterWeight) và thuộc tính DanhSachHS lần lượt tham chiếu đến hai lớp
CenterWeight và HocSinh Để quản lý các cụm đã được phân tách, một lớp RootCluster được thiết kế nhằm tăng tốc độ quá trình tìm kiếm cụm chiến thắng cũng như liên kết đến cụm chiến thắng
3.3.2 Cài đặt cấu trúc lớp a Lớp trừu tượng ClusterMethod abstract classClusterMethod
{ publicint ToInt32(string myStr){ } publicdouble ToDecimal(string myStr){ } publicstring Vector2String(List Vector){ } publicList String2Vector(string[] DigitString){ } publicdouble EuclideDistance(List V1, List V2){ }
Lớp ClusterMethod được thiết kế nhằm đưa ra các phương thức chung cho quá trình xử lý và thao tác trên các cụm dữ liệu cũng như các dữ liệu trực tiếp từ học sinh Lớp này không tạo trực tiếp các đối tượng mà cung cấp các chức năng cho các lớp được kế thừa đồng thời ẩn đi các thao tác xử lý cụ thể nếu một đối tượng được tạo ra từ một lớp được kế thừa b Lớp HocSinhCluster classHocSinhCluster
List DSHocSinh; public HocSinhCluster(){ } publicCenterWeight CWp {get; set;} publicList DSHS {get; set;}
Lớp HocSinhClusternhằm lưu trữ các cụm dữ liệu học sinh tương đồng nhau theo độ đo Euclide để từ đó thực hiện các thao tác xử lý dữ liệu trên cụm Lớp này lưu trữ một danh sách học sinh với mỗi học sinh chứa các thuộc tính đã được quy định trong lớp HocSinhđồng thời lưu trữ tâm của cụm và trọng số đại diện để tìm kiếm trên mạng SOM c Lớp Clustering classClustering
HocSinhCluster HSc; public K_MeanClustering(){ } public SaveCluster(){ } public GetCenter(){ } public GetWeight(){ }
Lớp Clusteringnhằm thực hiện phân cụm dữ liệu huấn luyện dựa trên thuật toán K-Means, sau đó lưu trữ các cụm trên các tập tin nhằm thực hiện việc tìm kiếm cụm chiến thắng và phân loại dữ liệu d Lớp SOM-kNN classSOM-kNN
HocSinhCluster HSc; public SOM(){ } public kNN(){ }
Lớp SOM-kNN được thiết kế nhằm thực hiện quá trình huấn luyện tạo ra được mạng SOM, sau đó phân lớp để dự báo và khuyến nghị cho học sinh e Lớp HocSinh classHocSinh
List MonHoc; double khtn; double khxh; string HocLuc; string DanhHieu; public HocSinh(){ } publicstring MASOHS {get;set;} publicList DIEM {get;set;} publicList MONHOC {get;set;} publicdouble KHTN {get;set;} publicdouble KHXH {get;set;} publicstring HOCLUC {get;set;} publicstring DANHHIEU {get;set;}
Lớp HocSinh được thiết kế nhằm lưu trữ dữ liệu cho các đối tượng là học sinh bao gồm mã số học sinh, điểm, môn học, học lực, danh hiệu… Các đối tượng học sinh này được gom cụm dựa trên thuật toán K-Means đã được thiết kế trong lớp Clustering, sau đó đánh dấu láng giềng cũng như huấn luyện trọng số dựa trên các phương thức trong lớp SOM-kNN f Lớp CenterWeight classCenterWeight
List Weight; public CenterWeight(){ } publicList CENTER {get;set} publicList WEIGHT {get;set}
Lớp CenterWeight lưu trữ các đối tượng chứa dữ liệu là tâm của một cụm là trọng số kết nối giữa các cụm để làm cơ sở cho lớp HocSinhCluster g Lớp RootCluster
Lớp RootClusterđược thiết kế nhằm quản lý và tra cứu nhanh các cụm trong quá trình phân loại và tìm kiếm thông tin classRootCluster
List ListFilenameCluster; public RootCluster() { } publicList LISTCW {get;set} publicList LISTFILE {get;set}
MÔI TRƯỜNG THỰC NGHIỆM
Toàn bộ chương trình được thực hiện trên ngôn ngữ lập trình C# trên cơ sở nền tảng dotNetFramework 4.6.1, các lớp và các phương thức của lớp được mã hóa bằng ngôn ngữ cấu trúc C# nhằm giúp cho phía người dùng có thể dễ dàng ứng dụng trên hệ điều hành Windows Ngoài ra, trình Client và trình Server đều thực hiện trên ngôn ngữ C# để thuận tiện trong quá trình đóng gói chương trình, triển khai dễ dàng
Hệ thống chương trình tư vấn cho học sinh được chia ra thành hai phân hệ và được thực thi trên Client và Server được mô tả như sau:
Phân hệ Server được thực hiện trên máy tính có hệ điều hành Windows 10 Pro; bộ xử lý Intel(R) Core(TM) i9-9880H CPU @ 2.30GHz 2.30 GHz; RAM 16.0 GB (15.9 GB usable); hệ điều hành 64bit
Phân hệ Client được thực thi trên máy tính có hệ điều hành Windows
10 Home; bộ xử lý Intel(R) Core(TM) i5-5200U CPU @ 2.20GHz 2.20 GHz; RAM 8.0 GB (7.89 GB usable); hệ điều hành 64bit
Dữ liệu được sưu tập từ nhiều nguồn khác nhau của các trường THPT tại Thành phố Vũng Tàu từ 2015 đến 2019 Mỗi bộ dữ liệu được chia thành hai phần gồm dữ liệu huấn luyện (70%) và dữ liệu kiểm thử (30%) Trong luận văn này, hai bộ dữ liệu được sưu tập lần lượt có 1075 mẫu và 5231 mẫu
3.4.4 Ứng dụng thực nghiệm trên Server
Hình 3.3 Phân cụm dữ liệu học sinh (1075 mẫu) trên máy server
Hình 3.4 Một mô tả dữ liệu cho cụm thứ nhất Hình 3.3 và hình 3.4 mô tả quá trình thực hiện phân cụm dữ liệu và kết quả sau khi thực hiện Trong đó, tại hình 3.3 thực hiện quá trình phân cụm dữ liệu từ một bộ sưu tập các dữ liệu học sinh, sau đó quá trình phân cụm K-Means được thực hiện, trên cơ sở này trọng số mỗi cụm được trích xuất theo tầng suất xuất hiện của các bộ dữ liệu tương ứng với học lực của học sinh Hình 3.4 mô tả kết quả của một cụm gồm tâm cụm, trọng số, và các phần tử dữ liệu
Hình 3.5 Một cụm Root dùng để quản lý các cụm dữ liệu khác Để quản lý và trích xuất nhanh danh sách các cụm, một lớp RootCluster được thiết kế Hình 3.5 là một kết quả mô tả cho quá trình phân cụm và tạo thành một RootCluster, trong đó mỗi một cụm được quản lý bởi định danh của cụm (tên tập tin cụm), tâm của cụm và trọng số của cụm
3.4.5 Ứng dụng thực nghiệm trên Client
Hình 3.6 Quá trình dự báo chọn môn thi cho học sinh Hình 3.6 mô tả quá trình dự báo và khuyến nghị chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia với đầu vào là thông tin của học sinh, kết quả là dự báo về học lực, danh hiệu, điểm tổ hợp môn KHTN, điểm tổ hợp môn KHXH và từ đó đưa ra kiến nghị chọn môn tổ hợp phù hợp với năng lực học sinh
3.4.6 Kết quả thực nghiệm trên bộ dữ liệu có 1073 mẫu
Bảng 3.1 Độ chính xác dự báo trên 30% mẫu dữ liệu
Bộ dữ liệu Mẫu dữ liệu Dự báo học lực
Dự báo tổ hợp môn thi TB thời gian
Theo như kết quả dự báo trên 30% bộ dữ liệu tại Bảng 3.1, có tổng số bộ dữ liệu kiểm thử là 359 mẫu dữ liệu và được chia thành 7 bộ dữ liệu ngẫu nhiên khác nhau, mỗi bộ trung bình có 50 mẫu dữ liệu để thực hiện dự báo và tư vấn tổ hợp môn thi Theo như kết quả dự báo về học lực thì độ chính xác dao động trong khoảng 68% đến 100% (giá trị trung bình là 87.91%), độ chính xác dự báo cho danh hiệu học sinh từ 24% đến 100% (độ chính xác trung bình là
61.84%) và dự báo tư vấn chọn tổ hợp môn thi có độ chính xác từ 74% đến 96% (trung bình là 87.69%); tương ứng với thời gian dự báo trung bình là 408 milli giây
Hình 3.7 và hình 3.11 là đồ thị mô tả độ chính xác trung bình của việc dự báo học lực theo từng nhóm học sinh ứng với bộ dữ liệu có 1073 mẫu Theo như đồ thị cho thấy, độ chính xác của việc dự báo là tương đối cao và có thể áp dụng được cho các bộ dữ liệu lớn hơn
Hình 3.8 và hình 3.12 là đồ thị mô tả dự báo danh hiệu cho học sinh theo từ nhóm dữ liệu Qua kết quả dự báo cho thấy, phương pháp đề xuất cho kết quả dự báo với độ chính xác chấp nhận được và có thể cải thiện độ chính xác này nếu như số dữ liệu nhiều hơn
Hình 3.7 Mô tả độ chính xác về học lực của học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Hình 3.8 Mô tả độ chính xác về dự báo danh hiệu cho học sinh
Hình 3.9 và hình 3.13 mô tả về độ chính xác của việc chọn tổ hợp môn thi KHTN và KHXH Theo như kết quả của đồ thị cho thấy, độ chính xác tương đối cao trên từng nhóm học sinh Từ đó, kết quả của phương pháp đề xuất này mang tính khả thi cao và có thể ứng dụng vào việc tư vấn, khuyến nghị cho học sinh khi chọn tổ hợp mô thi
Hình 3.9 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Dự báo tổ hợp môn thi 78.00% 96.00% 74.00% 92.00% 96.00% 88.00% 89.83%
DỰ BÁO TỔ HỢP MÔN THI
Hình 3.10 Thời gian dự báo trung bình cho mỗi mẫu dữ liệu
Theo như hình 3.10 và hình 3.14, thời gian dự báo cho mỗi mẫu dữ liệu là tương đối nhanh và có thể áp dụng cho các bộ dữ liệu thực tế và có thể triển khai cho người dung để thực hiện quá trình tư vấn chọn lựa môn thi tổ hợp
3.4.7 Kết quả thực nghiệm 30% trên 5231 mẫu dữ liệu
Bảng 3.2 Độ chính xác dự báo trên 30% mẫu dữ liệu
Dự báo tổ hợp môn thi
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7 Thời gian trung bình 344.88 484.37 334.06 392.40 562.82 378.39 359.44
Hình 3.11 Mô tả độ chính xác về học lực của học sinh
Hình 3.12 Mô tả độ chính xác về dự báo danh hiệu cho học sinh
Hình 3.13 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Dự báo tổ hợp môn thi 91.60% 97.60% 91.60% 92.00% 95.20% 95.20% 78.00%
DỰ BÁO TỔ HỢP MÔN THI
Hình 3.14 Thời gian dự báo trung bình cho mỗi mẫu dữ liệu
TỔNG KẾT CHƯƠNG
Trong chương này, một ứng dụng thực nghiệm được xây dựng dựa trên cơ sở lý thuyết đã được đề xuất tại chương 2 Dữ liệu đầu vào là điểm của học sinh và được thu thập của nhiều năm khác nhau từ nhiều trường THPT trong địa bàn thành phố Vũng Tàu Sau khi xử lý dữ liệu, hệ thống thực thi quá trình gom cụm theo thuật toán K-Means để từ đó làm cơ sở huấn luyện cho mạng SOM Sau đó, quá trình chọn cụm chiến thắng và phân lớp học sinh được thực hiện nhằm dự báo về năng lực học sinh, dự báo điểm các tổ hợp môn KHTN và KHXN đồng thời tư vấn chọn môn thi cho học sinh Quá trình này được thực nghiệm trên hai bộ dữ liệu có 1073 bộ và 5231 bộ để từ đó đánh giá kết quả Theo như tổng hợp về kết quả thực nghiệm cho thấy, phương pháp đề xuất là hiệu quả và có thể áp dụng dự báo trên nhiều bộ dữ liệu khác nhau
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7