Các nghiên cứu liên quan Đối với hệ thống tư vấn cho học sinh hoặc phân loại học sinh theo năng lực, nhiều nhóm nghiên cứu đã đưa ra các giải pháp khác nhau cho từng bài toán cụ thể nhằm
TỔNG QUAN VỀ NHU CẦU HỆ TƯ VẤN CHỌN MÔN THI
Sự cần thiết của hệ tư vấn
Trước năm 2016, Bộ Giáo dục và Đào tạo đã công bố phương án thi tốt nghiệp đối với học sinh trung học phổ thông, bao gồm ít nhất 4 môn thi, trong đó có 3 môn bắt buộc là Toán, Ngữ văn và Ngoại ngữ, cùng với 1 môn tự chọn từ các môn Vật lý, Hóa học, Sinh học, Lịch sử và Địa lý.
Bộ GD&ĐT đã công bố phương án thi THPT Quốc gia vào ngày 28/9/2016, yêu cầu học sinh THPT thi 4 bài thi, bao gồm 3 bài thi bắt buộc là Toán, Ngữ văn, Ngoại ngữ và 1 bài thi tự chọn giữa Khoa học Tự nhiên và Khoa học Xã hội Đối với bài thi Ngoại ngữ, học sinh có thể lựa chọn một trong các ngôn ngữ như Anh, Nga, Pháp, Trung, Đức, Nhật Ngoài ra, học sinh cũng có thể dự thi cả 5 bài thi để sử dụng kết quả xét tuyển vào các trường Đại học và Cao đẳng.
Mô hình thi bắt đầu từ năm học 2016-2017 đã đặt các trường THPT vào tình thế khó khăn khi phải sắp xếp và chia lại lớp cho học sinh lớp 12, phân công lại chuyên môn và xếp lại thời khóa biểu Tuy nhiên, tất cả việc sắp xếp lại này đều dựa trên mong muốn của phụ huynh (PH) và học sinh (HS), chủ yếu là dựa trên ý muốn chủ quan Mặc dù phương án này đáp ứng được nguyện vọng của PH và HS, nhưng nó có thể chưa phát huy hết năng lực của học sinh vì việc đăng ký chọn môn thi phần lớn dựa vào ý muốn chủ quan hoặc theo ý kiến của số đông, hoặc theo nguyện vọng của PH.
Việc lựa chọn này thường không dựa trên đánh giá khách quan về năng lực của bản thân và cũng không tuân theo một phương pháp phân tích khoa học cụ thể, dẫn đến quyết định thiếu chính xác và hiệu quả.
Xây dựng một hệ thống tư vấn hỗ trợ cho học sinh và phụ huynh trong việc chọn lựa tổ hợp môn học phù hợp với năng lực học tập của từng cá nhân là một đề tài luận văn quan trọng Hệ thống này sẽ cung cấp thông tin và hướng dẫn cụ thể để giúp học sinh và phụ huynh đưa ra quyết định sáng suốt về lựa chọn tổ hợp môn học Qua đó, hệ thống tư vấn hỗ trợ này sẽ góp phần nâng cao hiệu quả học tập và giảm thiểu sai lầm trong việc chọn lựa tổ hợp môn học của học sinh.
Các nghiên cứu liên quan
Các hệ thống tư vấn cho học sinh hoặc phân loại học sinh theo năng lực đã được nhiều nhóm nghiên cứu phát triển với các giải pháp đa dạng Một số nghiên cứu đã áp dụng thuật toán K-means để gom cụm học sinh theo năng lực dựa trên điểm số của các môn học Ngoài ra, kỹ thuật cây quyết định, Bayesian, mạng nơ-ron, kỹ thuật láng giềng, K-MEDIODS cũng được sử dụng để phân lớp và gom cụm học sinh dựa trên các thuộc tính về mối tương quan giữa học sinh và giáo viên Một số phương pháp khác bao gồm sử dụng thuật toán K-means dựa trên điểm trung bình của từng môn theo học kỳ, phân loại học sinh dựa trên thông tin cá nhân và nguyện vọng, và sử dụng kỹ thuật bảng đồ tự tổ chức SOM và cấu trúc phân cụm phân cấp.
Nghiên cứu của Oyelade và cộng sự (2010) đã ứng dụng thuật toán gom cụm K-means để dự báo hiệu suất học tập của sinh viên, trong đó các học sinh được phân nhóm thành 6 mức độ học lực khác nhau, bao gồm Excellent, Very Good, Good, Very Fair, Fair và Poor, nhằm định hướng kế hoạch học tập tiếp theo Tuy nhiên, phương pháp này chỉ dựa trên thuật toán K-means và yêu cầu số nhóm được phân hoạch từ trước, do đó có thể tạo ra kết quả khác khi dữ liệu tăng trưởng và phải thực hiện lại từ đầu.
Nghiên cứu của Khadir và cộng sự (2015) đã áp dụng kỹ thuật phân cụm dựa trên bảng đồ tự tổ chức SOM để phân tích hiệu suất học tập của học sinh, từ đó theo dõi và định hướng các khóa học kế tiếp Quá trình này được thực hiện bằng cách gom cụm dữ liệu để huấn luyện trọng số cho mô hình SOM Tuy nhiên, để phân cụm dữ liệu hiệu quả, cần phải có một thuật toán gom cụm phù hợp, đặc biệt là đối với dữ liệu tăng trưởng, nhằm đảm bảo rằng việc phân nhóm các đặc tính tương tự của học sinh được thực hiện chính xác.
Z Fan và cộng sự (2017) sử dụng phương pháp phân cụm K-means để phân nhóm các học sinh dựa trên điểm trung bình của các môn học theo từng học kỳ [5] Đối với phương pháp của nhóm tác giả này, các tâm cụm khởi tạo cho thuật toán K-means được chọn bằng cách chia theo từng nhóm dữ liệu, từ đó các nhóm học sinh được phân loại Việc áp dụng thuật toán K-means cho bộ dữ liệu điểm số của học sinh chưa thể bổ sung các phần tử dữ liệu mới, hơn nữa với mỗi phần tử dữ liệu mới này chưa thể phân loại và phân lớp các học sinh
Nghiên cứu của Lee và cộng sự (2019) đã kết hợp mạng SOM và phương pháp phân cụm phân cấp để thực hiện việc gom cụm học sinh dựa trên năng lực và phân loại học sinh trên mạng SOM Kết quả thực nghiệm cho thấy phương pháp này đạt được độ chính xác cao trong việc đánh giá và phân loại học sinh, đồng thời cho phép theo dõi tiến trình học tập của từng học sinh thông qua dữ liệu thời gian thực.
Nghiên cứu của Purbasari và cộng sự (2020) đã xây dựng một mạng SOM để huấn luyện trọng số và phân loại học sinh dựa trên giá trị mức độ điểm trung bình theo từng môn học Tuy nhiên, công trình này chỉ đưa ra các nhóm phân loại dựa trên véc-tơ chiến thắng trên mạng SOM mà chưa tận dụng các phần tử láng giềng để phân loại học sinh một cách toàn diện Ngoài ra, nghiên cứu này cũng chưa đề xuất định hướng cụ thể cho học sinh nhằm nâng cao hiệu suất và xây dựng kế hoạch học tập tiếp theo.
Việc phân loại học sinh thông qua sự kết hợp giữa phân cụm K-means và mạng SOM được coi là một phương pháp khả thi và là chủ đề nghiên cứu thời sự Phương pháp này giúp loại bỏ tính chủ quan của con người trong quá trình đánh giá và phân loại học sinh Ngoài ra, với mỗi bộ dữ liệu mới của học sinh, phương pháp này có thể dự đoán năng lực của học sinh và phân nhóm học sinh, từ đó đưa ra những tư vấn phù hợp và hiệu quả.
Nội dung luận văn tập trung vào xây dựng hệ tư vấn chọn lựa cho học sinh dựa trên cơ sở dữ liệu quá khứ và dữ liệu huấn luyện để phân loại dự báo và tư vấn Dữ liệu huấn luyện được thu thập dựa trên năng lực điểm số và phân cụm bằng phương pháp K-means, sau đó được sử dụng làm đầu vào cho mạng SOM Mạng SOM được huấn luyện dựa trên bộ dữ liệu mẫu và phân lớp của cụm đầu ra, tạo ra các véc-tơ trọng số để phân loại học sinh Kết hợp với phương pháp láng giềng gần nhất k-NN, hệ thống có thể hỗ trợ học sinh chọn lựa tổ hợp môn trong kỳ thi tốt nghiệp THPT Quốc gia Ngoài ra, hệ thống này cũng cải tiến phương pháp K-means và phương pháp phân nhóm đối tượng bán giám sát theo SOM và k-NN.
Cơ sở lý thuyết liên quan đến luận văn
1.1.3.1 Phương pháp học giám sát
Học có giám sát (Supervised learning) là một kỹ thuật học máy quan trọng, cho phép tạo ra mô hình dự báo chính xác từ bộ dữ liệu huấn luyện Bộ dữ liệu này bao gồm các cặp đối tượng đầu vào và nhãn đầu ra mong muốn, giúp mô hình học hỏi và cải thiện khả năng dự đoán Sau khi huấn luyện, mô hình có thể được sử dụng để dự đoán nhãn lớp cho đối tượng đầu vào mới, mở ra nhiều ứng dụng thực tế trong lĩnh vực phân tích dữ liệu và trí tuệ nhân tạo.
Hình 1.1 Mô hình học có giám sát
Tập dữ liệu huấn luyện là tập hợp các cặp dữ liệu biết trước (𝑥 𝑖 , 𝑦 𝑖 ) ∈ 𝑋 × 𝑌, trong đó 𝑥 𝑖 và 𝑦 𝑖 là các véc-tơ Mục tiêu của chúng ta là tạo ra một hàm số ánh xạ mỗi phần tử từ tập 𝑋 sang một phần tử (xấp xỉ) tương ứng của tập 𝑌 Điều này cho phép chúng ta xây dựng mô hình dự đoán chính xác và hiệu quả.
𝑦 𝑖 ≈ 𝑓(𝑥 𝑖 ), ∀𝑖 = 1, 2, … , 𝑁 Mục đích là xấp xỉ hàm số 𝑓 thật tốt để khi có một dữ liệu 𝑥 𝑘 mới, chúng ta có thể dự đoán nhãn tương ứng 𝑦 𝑘 = 𝑓(𝑥 𝑘 )
Thuật toán học có giám sát được chia thành hai loại chính:
Tập huấn luyện là tập hợp các bộ dữ liệu được sử dụng để xây dựng mô hình dự đoán nhãn lớp, với mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa được gán nhãn Trước khi sử dụng mô hình, việc đánh giá tính chính xác của mô hình là cần thiết, bao gồm so sánh nhãn được biết của bộ kiểm tra với kết quả phân lớp của mô hình Độ chính xác của mô hình được tính bằng phần trăm tập hợp mẫu kiểm tra được phân lớp đúng dựa vào mô hình đã xây dựng, với điều kiện tập kiểm tra phải độc lập với tập được sử dụng để huấn luyện.
Hồi qui là một kỹ thuật thống kê quan trọng giúp xác định mối quan hệ giữa hai biến số, từ đó đưa ra dự đoán hoặc ước lượng giá trị của một biến số dựa trên giá trị của một hay nhiều biến số khác.
1.1.3.2 Phương pháp học không giám sát
Học không giám sát là một phương pháp học máy tìm ra mô hình phù hợp với dữ liệu chưa được gán nhãn, không có tập dữ liệu đầu ra đúng cho mỗi dữ liệu đầu vào Trong phương pháp này, mô hình được huấn luyện để tìm ra cấu trúc hoặc mối quan hệ giữa dữ liệu đầu vào Một trong những phương pháp học không giám sát quan trọng là gom cụm, tạo ra các cụm khác nhau biểu diễn đặc trưng của dữ liệu và phân các đầu vào mới vào các cụm tương ứng.
Hình 1.2 Mô hình học không giám sát
Dữ liệu không được gán nhãn
Thuật toán để gom cụm
Các cụm chứa các phần tử tương tự nhau
1.1.3.3 Phương pháp học bán giám sát
Học bán giám sát (Semi-Supervised Learning) là một phương pháp học máy kết hợp giữa học có giám sát và học không giám sát, cho phép sử dụng cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn trong quá trình huấn luyện Trong một số trường hợp, học bán giám sát có thể áp dụng thuật toán k-NN để phân loại hoặc phân cụm dữ liệu chưa được gán nhãn, hoặc sử dụng thuật toán K-Means để dự đoán kết quả đầu ra cho dữ liệu đã được gắn nhãn Sau đó, kết quả thu được có thể được sử dụng để gắn nhãn cho các cụm dữ liệu đã được phân cụm trước đó.
Gom cụm (Clustering) là một mô hình phân tích dữ liệu không có nhãn, giúp nhóm các dữ liệu có tính chất tương đồng vào cùng một cụm và phân biệt với các cụm khác Bài toán gom cụm dữ liệu là phương pháp phân chia tập dữ liệu thành các nhóm nhỏ dựa trên sự liên quan giữa các bộ dữ liệu Các thuật toán phổ biến được sử dụng trong gom cụm bao gồm K-means, thuật toán SOM và độ đo tương tự Euclide, giúp phân tích và nhóm dữ liệu một cách hiệu quả.
Thuật toán K-Means là một phương pháp gom cụm thuộc loại học không giám sát, được ứng dụng rộng rãi trong các bài toán gom cụm dữ liệu tương tự Ý tưởng chính của thuật toán này là phân chia một tập dữ liệu ban đầu thành các cụm khác nhau, với số lượng cụm được cho trước là k Mỗi cụm chứa dữ liệu có tính chất tương tự nhau, dựa trên quy tắc rằng các dữ liệu trong cùng một cụm phải có cùng một số đặc trưng nhất định và có sự liên quan lẫn nhau.
Thuật toán gom cụm K-Means:
Dữ liệu đầu vào: Một bộ dữ liệu 𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 , với mỗi dữ liệu là véc- tơ đặc trưng của đối tượng đầu vào Số cụm cho trước k cụm
Bộ dữ liệu đầu vào sẽ được phân thành k cụm để thực hiện gom cụm Trước khi thực hiện quy trình này, dữ liệu cần được chuẩn hóa bằng cách chuyển đổi về miền giá trị [0,1] để đảm bảo tính đồng nhất và chính xác trong quá trình phân tích.
Bước 1: Chọn k tâm cụm ngẫu nhiên𝑐 1 , 𝑐 2 , 𝑐 3 , … , 𝑐 𝑘
Bước 2: Với mỗi dữ liệu 𝑥 𝑖 , xác định cụm của nó Tìm tâm cụm gần nhất
Ta có thể sử dụng độ đo Euclide để tính khoảng cách giữa 𝑥 𝑖 đến các tâm cụm
Bước 3: Phân phối các mẫu dữ liệu vào k cụm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm
Bước 4: Bước 2 và Bước 3 được lặp cho tới khi vị trí của tâm cụm không thay đổi (hội tụ)
Hình 1.3 Mô hình gom cụm K-means
Hình 1.4 Mô hình phân lớp
Phương pháp phân lớp k-NN (K-Nearest Neighbors algorithm) là một thuật toán được sử dụng để phân lớp các đối tượng đã được gắn nhãn dựa vào khoảng cách gần nhất giữa các đối tượng cần xếp lớp Trong phương pháp này, mỗi đối tượng được phân lớp dựa vào k láng giềng của nó, và khoảng cách Euclide thường được sử dụng để đo khoảng cách giữa các đối tượng.
Thuật toán k-NN được mô tả như sau:
Bước 1: Xác định k láng giềng gần nhất
Bước 2: Dùng độ đo Euclide để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với các đối tượng cần phân lớp
Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định
Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho các đối tượng cần phân lớp
Hình 1.5 Mô hình thuật toán k-NN
Trong hình trên, dữ liệu huấn luyện (training data) được biểu diễn bằng dấu (+) và dấu (-), trong khi đối tượng cần được xác định lớp là điểm truy vấn (Query point) được biểu diễn bằng hình tròn xám.
Trong trường hợp k láng giềng là 1 thì đối tượng cần được phân lớp sẽ là lớp –
Trong trường hợp k láng giềng là 2 thì đối tượng cần được phân lớp sẽ không xác định vì không lớp nào có số đối tượng nhiều hơn
Trong trường hợp k láng giềng là 5 thì đối tượng cần được phân lớp sẽ là lớp +
1.1.3.7 Bản đồ tự tổ chức SOM
Mạng tự tổ chức SOM (Self Organizing Map) là một mạng nơ-ron đặc biệt, thường bao gồm một tầng đầu vào và một tầng đầu ra với véc-tơ trọng số tương ứng với mỗi cụm SOM hoạt động dựa trên nguyên tắc học cạnh tranh, không giám sát để tạo ra ánh xạ dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn Quá trình này cho phép các dữ liệu có đặc trưng tương đồng được đại diện bởi một nơ-ron hoặc các nơ-ron gần nhau, từ đó hình thành nên bản đồ đặc trưng của tập dữ liệu đầu vào.
Thuật toán SOM được mô tả như sau:
Dữ liệu đầu vào: tập 𝑁 véc-tơ đặc trưng của bộ dữ liệu 𝑋 = {𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 } Trong đó, mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều 𝑥 𝑖 = {𝑥 𝑖1 , 𝑥 𝑖2 , 𝑥 𝑖3 , … , 𝑥 𝑖𝑑 }
Dữ liệu đầu ra: bộ véc-tơ trọng số 𝑊 = {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }
Bước 1: Khởi tạo véc-tơ trọng số cho mỗi nơ-ron Tương ứng với mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều, khởi tạo một véc-tơ trọng số
𝑤 𝑖 = {𝑤 𝑖1 , 𝑤 𝑖2 , 𝑤 𝑖3 , … , 𝑤 𝑖𝑑 } Tập véc-tơ trọng số của 𝑁 bộ dữ liệu là 𝑊 {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }
Bước 2: Chọn ngẫu nhiên một véc-tơ 𝑥 𝑖 trong tập dữ liệu làm mẫu huấn luyện
Bước 3: Tìm phần tử nơ-ron chiến thắng là bước quan trọng trong quy trình, nơi chúng ta tìm kiếm phần tử khớp nhất giữa các véc-tơ trọng số 𝑤 𝑖 và véc-tơ đầu vào 𝑥 𝑖 Nơ-ron nào có véc-tơ trọng số 𝑤 𝑖 gần với véc-tơ đầu vào 𝑥 𝑖 nhất sẽ được xác định là nơ-ron chiến thắng Để xác định nơ-ron chiến thắng, khoảng cách Euclide giữa các véc-tơ trọng số 𝑤 𝑖 với véc-tơ đầu vào 𝑥 𝑖 thường được sử dụng.
Cấu trúc hệ thống
Hệ thống này áp dụng kỹ thuật học không giám sát để phân cụm năng lực học sinh bằng thuật toán K-means, sau đó tổ chức các cụm theo mô hình mạng SOM Quy tắc suy luận mờ Takagi-Sugono được sử dụng để lựa chọn cụm chiến thắng và phân loại học sinh Tiếp theo, phương pháp k-NN được áp dụng để phân lớp năng lực học tập của học sinh trong cùng một cụm và phân loại mỗi học sinh thuộc về nhóm môn tổ hợp 1 (Lý, Hóa, Sinh) hoặc nhóm môn tổ hợp 2 (Sử, Địa, Công dân) dựa trên kỹ thuật học bán giám sát.
Quá trình phân lớp học sinh được thực hiện qua hai pha Ở pha đầu tiên, học sinh lớp 10 và lớp 11 được phân loại dựa trên kết quả học tập Tiếp đó, ở pha thứ hai, việc phân loại được thực hiện thông qua sự kết hợp của hai phương pháp mạng SOM và suy luận mờ Kết quả cụm chiến thắng từ pha thứ hai được sử dụng để phân lớp cho học sinh Cuối cùng, phương pháp k-NN được áp dụng để phân loại học sinh có năng lực thuộc nhóm môn tổ hợp nào, bao gồm Môn tổ hợp 1 và Môn tổ hợp 2.
Hình 1.6 Mô hình tổng quát hệ thống tư vấn
DL một hs Kết quả phân tích
Tư vấn chọn tổ hợp môn
Hệ thống tư vấn chọn tổ hợp môn cho học sinh được thực hiện theo các bước được mô tả trong Hình 1.6 Cơ sở dữ liệu điểm trung bình của học sinh được thu thập từ các nguồn dữ liệu của các trường THPT, sau đó được chuẩn hóa trên miền giá trị [0,1] làm đầu vào cho thuật toán gom cụm tạo ra các phần tử nhóm láng giềng ban đầu để huấn luyện trọng số của mạng SOM Quá trình dự báo và tư vấn cho học sinh được thực hiện bằng cách phân loại trên mạng SOM kết hợp với suy luận mờ để tìm phần tử chiến thắng và cụm chiến thắng, sau đó áp dụng thuật toán k-NN trên cụm chiến thắng để phân lớp dữ liệu cho học sinh nhằm tư vấn chọn tổ hợp môn thi trong kỳ thi tốt nghiệp THPT Quốc gia.
Pha 1: Pha xử lý dữ liệu
Bước đầu tiên trong việc phân tích dữ liệu điểm trung bình của học sinh là chuẩn hóa dữ liệu Điều này có nghĩa là chuyển đổi các giá trị điểm trung bình về một dạng thứ nguyên thống nhất, giúp áp dụng kỹ thuật phân cụm K-means một cách hiệu quả Bằng cách chuẩn hóa dữ liệu, chúng ta có thể đảm bảo rằng tất cả các giá trị đều nằm trong cùng một khoảng và có thể so sánh được với nhau.
Bước 2: Thực hiện phân cụm dữ liệu đã được chuẩn hóa bằng thuật toán K-means Dữ liệu đầu vào đã được chuẩn hóa sẽ được áp dụng thuật toán K-means để tìm các tâm cụm có mật độ dữ liệu cao nhất trong một bán kính cho trước Nếu một phần tử nằm ngoài bán kính của cụm gần nhất, hệ thống sẽ tự động tạo nên một cụm mới để phân loại dữ liệu hiệu quả hơn.
Do đó, quá trình tạo cụm phù hợp dữ liệu tăng trưởng
Bước 3: Huấn luyện mạng SOM là giai đoạn quan trọng trong quá trình xây dựng mô hình phân loại Các véc-tơ trọng số của mạng SOM được khởi tạo ngẫu nhiên và sau đó được huấn luyện dựa trên mô hình véc-tơ chiến thắng trên bộ dữ liệu huấn luyện đã được phân cụm trước đó bằng thuật toán K-means Quá trình huấn luyện này tạo ra một mô hình phân loại bao gồm các trọng số của mạng SOM, giúp tăng cường khả năng phân loại dữ liệu chính xác.
Pha 2: Pha tư vấn học sinh
Bước đầu tiên trong quá trình phân loại học sinh dựa trên điểm trung bình môn là chuẩn hóa dữ liệu Với mỗi dữ liệu điểm của một học sinh, cần thực hiện chuẩn hóa theo phương pháp đã được áp dụng trên cơ sở dữ liệu đã huấn luyện Điều này giúp tạo ra đầu vào phù hợp cho việc phân loại trên mạng SOM, đảm bảo tính chính xác và đáng tin cậy của kết quả.
Bước 2 trong quá trình phân loại dữ liệu được thực hiện dựa trên kỹ thuật mạng SOM, kết hợp phương pháp lựa chọn cụm chiến thắng bằng kỹ thuật suy luận mờ Takagi-Sugano Phương pháp này cho phép tìm ra cụm chiến thắng không chỉ dựa trên khoảng cách theo độ đo mà còn kết hợp các yếu tố khác, giúp tăng độ chính xác và hiệu quả của quá trình phân loại.
Bước 3: Thực hiện phân lớp bằng kỹ thuật k-NN dựa trên cụm chiến thắng và các cụm lân cận nhằm tìm ra môn tổ hợp cho mỗi học sinh.
Sự đóng góp của hệ thống
Việc chọn môn thi tổ hợp có ảnh hưởng trực tiếp đến quá trình học tập và chất lượng đào tạo của nhà trường, đồng thời quyết định định hướng nghề nghiệp sau này của học sinh Nếu học sinh chọn sai môn thi tổ hợp không phù hợp với năng lực của mình, kết quả thi tốt nghiệp THPT Quốc gia sẽ không đạt như mong muốn, gây khó khăn cho nhà trường và phụ huynh trong việc giảng dạy và định hướng Đặc biệt, tỷ lệ thí sinh chọn sai môn thi tổ hợp ở các vùng thiếu thông tin như vùng núi có thể ảnh hưởng đến nguồn nhân lực và định hướng nghề nghiệp của mỗi thí sinh Vì vậy, việc xây dựng một hệ thống tư vấn để hỗ trợ học sinh, nhà trường và phụ huynh trong việc chọn môn thi tổ hợp phù hợp với năng lực của học sinh là vô cùng cần thiết và cấp thiết.
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Đối tượng nghiên cứu
Nghiên cứu này tập trung vào việc phân tích thông tin điểm số của học sinh và đánh giá năng lực học sinh để phân loại học sinh theo tổ hợp môn thi phù hợp Các thuật toán được đề xuất nhằm mục đích phân cụm học sinh dựa trên kết quả học tập và tư vấn cho học sinh chọn môn thi phù hợp Đối tượng nghiên cứu bao gồm phân tích dữ liệu điểm số, đánh giá năng lực học sinh và tư vấn chọn môn thi, hướng tới việc hỗ trợ học sinh lựa chọn tổ hợp môn thi phù hợp với khả năng và sở thích của mình.
(1) Cấu trúc điểm số của học sinh liên quan đến các môn tổ hợp
(2) Véc-tơ đặc trưng mô tả năng lực của học sinh
(3) Phương pháp phân cụm K-means nhằm phân nhóm năng lực học sinh
(4) Phương pháp suy luận mờ kết hợp mạng SOM để chọn lựa cụm chiến thắng đối với mỗi học sinh
(5) Phương pháp phân lớp k-NN nhằm phân loại học sinh thuộc năng lực phù hợp đối với các môn thi tổ hợp
(6) Mô hình và thuật toán nhằm xây dựng công cụ tư vấn cho học sinh chọn lựa các môn thi tổ hợp.
Phương pháp nghiên cứu
Để thực hiện đề tài này, các phương pháp nghiên cứu sau đây được áp dụng:
Phương pháp đánh giá, so sánh là một trong những phương pháp quan trọng để đánh giá năng lực học sinh Các phương pháp đánh giá năng lực học sinh sẽ được khảo sát và phân tích kỹ lưỡng để xác định ưu và khuyết điểm của từng phương pháp Trên cơ sở phân tích này, một phương pháp cải tiến sẽ được đề xuất để phù hợp với môi trường thực nghiệm và đáp ứng yêu cầu của kỳ thi tốt nghiệp THPT Quốc gia.
Dựa trên nền tảng vững chắc về khoa học dữ liệu và khai phá dữ liệu, chúng tôi đã phân tích và lựa chọn các phương pháp phù hợp để tạo ra một phương pháp tư vấn chọn môn thi tổ hợp hiệu quả cho học sinh, giúp họ đưa ra quyết định sáng suốt trong việc lựa chọn môn thi phù hợp với khả năng và sở thích của mình.
Phương pháp mô hình hóa đóng vai trò quan trọng trong việc xây dựng công cụ hỗ trợ tư vấn cho học sinh Dựa trên cơ sở lý thuyết đã được lựa chọn và cơ sở thực tế của kỳ thi tốt nghiệp THPT Quốc gia, một mô hình được xây dựng để làm nền tảng cho quá trình này Mô hình này sẽ là cơ sở để đề xuất các thuật toán phù hợp và hỗ trợ quá trình tư vấn cho học sinh một cách hiệu quả.
Để minh chứng tính đúng đắn của mô hình và các thuật toán, một ứng dụng thực nghiệm đã được xây dựng dựa trên cơ sở lý thuyết đã đề xuất Quá trình thực nghiệm này được thực hiện qua hai giai đoạn chính, bao gồm huấn luyện mô hình và kiểm thử tính chính xác của dữ liệu thu thập được.
LĨNH VỰC NGHIÊN CỨU
Đề tài luận văn này tập trung xây dựng hệ tư vấn cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia dựa trên phân tích dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Hệ thống này có thể áp dụng rộng rãi trong các lĩnh vực tư vấn khác như tư vấn sản phẩm, tư vấn chọn sản phẩm và tư vấn trong sản xuất Để thực hiện điều này, đề tài đã áp dụng phương pháp gom cụm K-means và phân lớp k-NN trong lĩnh vực khai phá dữ liệu, đồng thời sử dụng kỹ thuật học không giám sát và bán giám sát trong lĩnh vực trí tuệ nhân tạo Mục tiêu cuối cùng là tạo ra một hệ thống thông minh, tự động tư vấn cho học sinh dựa trên cơ sở khoa học, giúp họ lựa chọn môn thi tổ hợp phù hợp và đưa ra quyết định sáng suốt.
Hệ thống phân tích dữ liệu của học sinh THPT được thiết kế để tạo ra các phân nhóm dựa trên thông tin học tập của học sinh Để thực hiện điều này, phương pháp phân tích dữ liệu trên mạng SOM và suy luận mờ được áp dụng nhằm tìm ra dữ liệu phù hợp phục vụ tư vấn cho học sinh Dữ liệu sau đó được phân lớp bằng thuật toán k-NN để phân loại năng lực học sinh đối với các môn thi tổ hợp, giúp đánh giá và tư vấn học sinh một cách chính xác hơn.
Công cụ tư vấn chọn môn thi tổ hợp cho học sinh là sự kết hợp hoàn hảo giữa khoa học dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo, mang lại một mô hình, thuật toán và công cụ hỗ trợ toàn diện Công cụ này không chỉ giúp học sinh lựa chọn môn thi phù hợp mà còn có thể áp dụng trong các hệ thống tư vấn khác nhau trong từng lĩnh vực Với khả năng hỗ trợ quyết định cho người dùng, công cụ này là minh chứng rõ ràng cho việc áp dụng trí tuệ nhân tạo trong thực tiễn.
NỘI DUNG NGHIÊN CỨU
Hệ thống theo dõi kết quả học tập của học sinh THPT và tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia được thiết kế để giúp học sinh phát triển năng lực của mình Với sự hỗ trợ của kỹ thuật phân cụm, suy luận mờ và kỹ thuật phân lớp, hệ thống này cung cấp tư vấn phù hợp với năng lực học sinh, giúp họ dễ dàng đăng ký chọn tổ hợp môn thi phù hợp Đặc biệt, đề tài này áp dụng thuật toán K-means để phân cụm học sinh theo năng lực, từ đó đưa ra những tư vấn chính xác và hữu ích.
Trước khi bắt tay vào giải quyết bài toán, việc nghiên cứu các công trình liên quan là hết sức quan trọng Quá trình này không chỉ giúp chúng ta nắm bắt được các phương pháp và kỹ thuật đã được áp dụng trước đó mà còn cho phép phân tích ưu và nhược điểm của từng phương án Từ đó, chúng ta có thể lựa chọn và cải tiến các kỹ thuật phù hợp để áp dụng vào bài toán, nhằm đạt được hiệu quả cao nhất.
Nghiên cứu các kỹ thuật khai phá dữ liệu và phân tích dữ liệu là bước đầu tiên quan trọng để tạo ra một nguồn thông tin đáng tin cậy cho bài toán tư vấn chọn môn thi tổ hợp của học sinh Bằng cách áp dụng các phương pháp phân tích dữ liệu hiện đại, chúng ta có thể khám phá các mối quan hệ và xu hướng ẩn sâu trong dữ liệu, từ đó đưa ra những gợi ý chính xác và hữu ích cho học sinh trong việc lựa chọn môn thi phù hợp.
(3) Nghiên cứu các kỹ thuật học không giám sát, bán giám sát để từ đó thực hiện gom cụm, phân lớp dữ liệu của học sinh THPT
(4) Nghiên cứu phương pháp phân cụm K-means và mô hình phân loại SOM kết hợp với k-NN.
QUÁ TRÌNH THỰC HIỆN
Các bước thực hiện
Để xây dựng hệ tư vấn cho học sinh chọn tổ hợp môn cho kỳ thi tốt nghiệp THPT Quốc gia, nội dung luận văn được thực hiện theo các bước cụ thể, bao gồm các giai đoạn then chốt nhằm đảm bảo tính chính xác và hiệu quả của hệ tư vấn.
Để có thông tin chính xác về kỳ thi tốt nghiệp THPT Quốc gia, phụ huynh và học sinh nên tìm kiếm các tài liệu chính thức từ Bộ Giáo dục và Đào tạo Đồng thời, nghiên cứu kỹ các quy chế đánh giá năng lực của học sinh sẽ giúp hiểu rõ hơn về tiêu chuẩn và yêu cầu của kỳ thi quan trọng này.
(2) Phân tích các công trình liên quan và chọn các phương pháp phù hợp:
- Phân tích thông tin về đặc trưng đánh giá kết quả học tập của học sinh để phân cụm theo năng lực học sinh
- Xây dựng mô hình thực hiện công cụ tư vấn cho học sinh
- Nghiên cứu các phương pháp phân cụm K-means, phân loại trên mạng SOM, phân lớp k-NN và hệ suy luận mờ
Hệ tư vấn hỗ trợ ra quyết định sẽ giúp học sinh đánh giá chính xác năng lực và khả năng của mình cho từng tổ hợp môn thi cụ thể, từ đó đưa ra quyết định sáng suốt trong việc lựa chọn ngành học và trường đại học phù hợp.
- Đề xuất thuật toán nhằm chuyển đổi dữ liệu đánh giá học sinh và tư vấn chọn môn thi
- Xây dựng ứng dụng thực nghiệm và đánh giá hiệu suất của phương pháp đồng thời so sánh với các phương pháp khác.
Các kỹ thuật cần nghiên cứu
Để dự báo cho từng học sinh dựa trên điểm số, một mô hình mạng SOM cần được xây dựng trong hệ thống này Do đó, một cơ chế suy luận cần phải được thực hiện trên hệ thống này thông qua hai phương pháp thông dụng: kỹ thuật học có giám sát và kỹ thuật học không giám sát Đặc biệt, mô hình phân cụm của thuật toán K-means kết hợp và đánh giá độ đo tương tự của các đặc trưng dữ liệu, sao cho hai phần tử bất kỳ trong cùng một cụm có độ đo gần nhau và hai phần tử khác cụm có độ đo khác biệt lớn.
Phương pháp học có giám sát được xây dựng dựa trên các mẫu dữ liệu huấn luyện có gán nhãn trước để xây dựng mô hình phân loại Trong nghiên cứu này, mạng SOM được huấn luyện để tạo các trọng số nhằm phân lớp dữ liệu đầu vào, kết hợp giữa việc học không giám sát và có giám sát Tuy nhiên, để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng gần nhất, cho phép phân lớp dựa trên bộ dữ liệu mẫu mà không cần huấn luyện mô hình Do đó, kỹ thuật học bán giám sát cần được thực hiện và áp dụng trên bộ dữ liệu học sinh trên cơ sở thuật toán k-NN.
Các công cụ áp dụng
Để tạo ra hệ tư vấn chọn tổ hợp môn cho học sinh thi tốt nghiệp THPT Quốc gia, các kỹ thuật học không giám sát, có giám sát và bán giám sát sẽ được áp dụng cho các đối tượng liên quan.
Phân cụm đối tượng K-means là kỹ thuật học không giám sát giúp gom các học sinh có mức độ tương tự nhau thành một nhóm dựa trên các thuộc tính của mỗi học sinh Quá trình này không phụ thuộc vào việc gán nhãn các bộ dữ liệu mẫu ban đầu, mà chỉ dựa trên độ đo tương tự giữa các học sinh, giúp tạo ra các nhóm có tính đồng nhất cao.
Phân loại đối tượng trên mạng SOM được thực hiện dựa trên các cụm tạo ra bởi thuật toán K-means Mỗi cụm đại diện cho một phân loại và hai cụm có thể được coi là láng giềng nếu độ tương tự giữa hai tâm cụm nhỏ hơn một ngưỡng nhất định Quá trình này áp dụng học có giám sát, trong đó các trọng số được huấn luyện dựa trên mẫu phân loại từ thuật toán K-means và bộ dữ liệu của học sinh được gán nhãn theo các phân nhóm của các cụm.
Trên mỗi cụm chiến thắng, phương pháp k-NN được áp dụng để phân loại học sinh vào các phân lớp đã được gán nhãn dựa trên tần suất xuất hiện của các phân lớp Dữ liệu mới của mỗi học sinh sẽ được phân lớp vào các lớp chiếm ưu thế, từ đó thực hiện quá trình tư vấn chọn tổ hợp môn học phù hợp cho từng học sinh Quá trình này được thực hiện dựa trên phương pháp học bán giám sát, tận dụng thuật toán k-NN không cần huấn luyện mô hình nhưng vẫn đòi hỏi các mẫu phân lớp đã được gán nhãn trước đó.
Nội dung các chương trong luận văn
Đề tài luận văn này tập trung xây dựng một công cụ hỗ trợ cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, áp dụng các phương pháp xử lý và phân tích dữ liệu để tạo ra một mô hình kỹ thuật xử lý dữ liệu của học sinh Đề tài được chia thành ba chương và phần kết luận, cung cấp một khung khổ toàn diện cho việc nghiên cứu và phát triển công cụ hỗ trợ này.
Chương 1 Tổng quan về hệ tư vấn cho học sinh chọn môn thi: trong chương này, các thông tin của học sinh được khảo sát và phân tích Từ đó, các công cụ về trí tuệ nhân tạo, khai phá dữ liệu lần lượt được khảo sát và chọn lựa Các đối tượng nghiên cứu, phương pháp nghiên cứu, quá trình thực hiện cũng được đề xuất nhằm áp dụng xây dựng công cụ hỗ trợ tư vấn cho học sinh
Chương 2 Hệ tư vấn chọn môn thi tổ hợp cho học sinh: trong chương này lần lượt phân tích các công cụ khai phá dữ liệu nhằm áp dụng cho hệ tư vấn, gồm: phương pháp phân cụm K-means, phương pháp chọn lựa cụm dựa trên mạng SOM và suy luận mờ, phương pháp phân lớp dựa trên k-NN Các phương pháp được thực hiện trên các dữ liệu cụ thể của học sinh THPT nhằm làm cơ sở cho việc xây dựng hệ thống tư vấn chọn môn thi tổ hợp trong kỳ thi tốt nghiệp THPT Quốc gia Trong chương này cũng phân tích sự phù hợp của từng phương pháp đối với dữ liệu học sinh và sự phù hợp về mặt khoa học cũng như quá trình xử lý
Để xây dựng ứng dụng thực nghiệm, các bước thực hiện của mô hình được phân tích và trình bày chi tiết Đồng thời, các thuật toán dựa trên mô hình cũng được đề xuất để làm cơ sở thực nghiệm, từ đó minh chứng tính đúng đắn và hiệu quả của mô hình trong thực tế.
Chương 3 Thực nghiệm: trong chương này thiết kế một hệ thống thực nghiệm trên một môi trường lập trình cụ thể Các dữ liệu thực nghiệm và kết quả thực nghiệm cũng được phân tích và đánh giá nhằm minh chứng tính hiệu quả của phương pháp đề xuất Mỗi thuật toán cũng sẽ được mô tả cụ thể và các ví dụ được áp dụng nhằm minh chứng tính đúng đắn và khả thi.Các kết quả thực nghiệm này cũng sẽ được đánh giá và phân tích tính khả thi trên nhiều bộ dữ liệu khác nhau theo từng năm ứng với các trường THPT trong địa bàn Thành phố Vũng Tàu Từ đó, một kết luận và định hướng phát triển được đề nghị nhằm xây dựng các hệ thống, công cụ tư vấn cho từng lĩnh vực.
TỔNG KẾT CHƯƠNG
Chương này tập trung vào việc xây dựng hệ tư vấn chọn tổ hợp môn thi cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia Dựa trên phân tích các công trình liên quan gần đây, các đối tượng nghiên cứu và phương pháp nghiên cứu đã được xác định Hệ thống đề xuất cải tiến trên thuật toán K-means, mạng SOM và thuật toán k-NN, mang tính chất khả thi và hiệu quả Một mô hình tổng quát cho hệ tư vấn này đã được đề xuất và áp dụng trên bộ dữ liệu khảo sát tại các trường THPT trên địa tỉnh Bà Rịa – Vũng Tàu Các kỹ thuật học có giám sát, bán giám sát, không giám sát đã được áp dụng trên mô hình tương ứng với các thuật toán K-means, mạng SOM, k-NN, và sẽ được triển khai chi tiết trong các phần tiếp theo của luận văn.
HỆ TƯ VẤN CHỌN MÔN THI TỔ HỢP CHO HỌC SINH
TỔNG QUAN
Trên cơ sở lý thuyết đã khảo sát, chương này tiếp cận các công cụ xử lý dữ liệu quan trọng, bao gồm phương pháp gom cụm, chọn cụm chiến thắng và phân lớp dữ liệu Để thực hiện các phương pháp này, chương áp dụng phương pháp gom cụm K-means để nhóm các dữ liệu học sinh, sau đó sử dụng mạng SOM để chọn cụm chiến thắng Tiếp theo, phương pháp k-NN được áp dụng để phân loại học sinh dựa trên các láng giềng của cụm chiến thắng Các công cụ này được phân tích dựa trên các bộ dữ liệu cụ thể của học sinh, nhằm xây dựng cơ sở thực nghiệm cho hệ tư vấn chọn tổ hợp môn.
Dữ liệu học sinh được thu thập từ các trường THPT tại Thành phố Vũng Tàu, sau đó được tổng hợp, chuẩn hóa và áp dụng thuật toán K-means để phân nhóm học sinh theo mức độ học lực Quá trình này tạo cơ sở cho việc huấn luyện mạng SOM, tại mỗi cụm, một véc-tơ trọng số được khởi tạo và cập nhật để giảm sai số trong quá trình lựa chọn cụm chiến thắng Mạng SOM được huấn luyện cho đến khi đạt được sai số đủ nhỏ, cho phép chọn lựa cụm chiến thắng ứng với dữ liệu của một học sinh đầu vào.
Để xây dựng hệ tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia, dữ liệu điểm số của học sinh được trích xuất và chuẩn hóa Trên cơ sở đó, thuật toán SOM được áp dụng để chọn một cụm chiến thắng và các cụm láng giềng trên mạng Tiếp theo, thuật toán k-NN được sử dụng để phân loại học sinh dựa trên các phần tử láng giềng và tính toán tần suất xuất hiện của các phân lớp gần nhất trên cụm chiến thắng và các cụm láng giềng Mô hình này giúp cung cấp một hệ tư vấn toàn diện cho học sinh trong việc lựa chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia phù hợp với năng lực và sở thích của mình.
PHÂN CỤM DỮ LIỆU DỰA TRÊN K-MEANS
Thuật toán K-Means là một phương pháp phân cụm dữ liệu giúp nhóm các điểm dữ liệu có độ tương đồng cao lại với nhau và tách biệt với các điểm dữ liệu khác Quá trình này được thực hiện trên N điểm dữ liệu thuộc không gian R d chiều, với số cụm được chọn trước tương ứng với các mức độ học lực của học sinh Tâm cụm ban đầu được chọn ngẫu nhiên và sau đó được huấn luyện để hội tụ, đảm bảo các tâm cụm không thay đổi sau mỗi bước phân cụm Để đo lường khoảng cách giữa các điểm dữ liệu, thuật toán sử dụng khoảng cách Euclide trên không gian dữ liệu d chiều, giúp đánh giá độ tương đồng giữa các điểm dữ liệu một cách chính xác.
Cho một tập dữ liệu có N điểm dữ liệu x 1 , x 2 ,…,x N sao cho mỗi điểm dữ7 liệu x i thuộc không gian R d Thuật toán K-means được thực hiện như sau:
Thuật toán: K-means Đầu vào: N điểm dữ liệu x 1 , x 2 ,…,x N Đầu ra: tập các cụm = { i , i = 1 k}
Bước 1: Khởi tạo k tâm cụm ngẫu nhiên {c 1 , c 2 ,…, c k } từ tập dữ liệu
For i=1 to k do ci= random(x 1 , x 2 ,…,x N ), ci ≠cj, với 0 sigmoid(a)) then min = sigmoid(a);
Thuật toán SOMWinner hoạt động dựa trên đầu vào là mẫu dữ liệu X mô tả điểm của học sinh và tập các trọng số đã được huấn luyện W, nhằm mục đích xác định cụm chiến thắng Quá trình này bao gồm việc duyệt trọng số của từng cụm và tính tích vô hướng với mẫu dữ liệu X, sau đó áp dụng hàm sigmoid(a) = 1 để tính toán giá trị tổng hợp.
Thuật toán này được thực hiện bằng cách duyệt k lần, tương ứng với số cụm, và mỗi lần thực hiện các phép toán cơ sở Điều này dẫn đến độ phức tạp của thuật toán là O(k) Tuy nhiên, nếu số cụm k không đáng kể, thuật toán sẽ thực hiện với độ phức tạp là một hằng số.
2.3.4 Ví dụ thực nghiệm cho việc chọn cụm chiến thắng
Giả sử sau khi huấn luyện 5 cụm, tập các véc-tơ trọng số là:
Với một mẫu dữ liệu học sinh X như sau
Thực hiện thuật toán SOMWinner, ta có bảng sau: wi1
Theo như dữ liệu bảng kết quả trên, cụm chiến thắng được chọn, đó là cụm 4
PHƯƠNG PHÁP PHÂN LỚP K-NN
Sau khi chọn cụm chiến thắng, các phần tử trong cụm được sử dụng để phân lớp cho một phần tử X đầu vào, nhằm tư vấn cho học sinh chọn môn tổ hợp thi tốt nghiệp THPT Quốc gia Quá trình này dựa trên các phần tử láng giềng và tần suất xuất hiện của các nhãn lớp trong cụm chiến thắng, giúp đưa ra quyết định chính xác.
Thuật toán: k-NN Đầu vào: Cụm chiến thắng Winner, mẫu dữ liệu X Đầu ra: Phân lớp học sinh Bestclass
Bước 1: Sắp xếp các phần tử trong cụm chiến thắng L= Sort(Winner, X);
Bước 2: Lấy k phần tử để phân lớp
For i = 1 to k do class = class {Li.class};
Bước 3: Chọn lớp có tần suất hiện nhiều nhất Bestclass = Max{Frequence(classi), classi class}; return Bestclass;
Thuật toán k-NN thực hiện phân lớp cho mẫu dữ liệu đầu vào X dựa trên cụm chiến thắng Winner, từ đó chọn ra lớp tốt nhất cho mẫu dữ liệu X Để thực hiện việc này, các mẫu dữ liệu trong tập Winner được sắp xếp theo độ đo Euclide với mẫu dữ liệu X để tìm ra các phần tử láng giềng gần nhất Sau đó, k phần tử gần nhất được lựa chọn và các phân lớp tương ứng được trích xuất, trên cơ sở đó lớp có tần suất xuất hiện nhiều nhất được chọn làm Bestclass để tư vấn cho học sinh ứng với mẫu dữ liệu đầu vào X.
2.4.2 Ví dụ thực nghiệm cho thuật toán k-NN
Giả sử cụm chiến thắng được chọn lựa như sau:
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
HS Tiên tiến Được lên lớp
Giả sử cần dự báo cho một mẫu dữ liệu X là
Thực hiện sắp xếp theo độ đo Euclide ta có bảng sau:
Giả sử chọn k láng giềng với k=3, ta có các nhãn lớp như sau:
44 Khá Tốt HS Tiên tiến Được lên lớp
27 Khá Khá HS Tiên tiến Được lên lớp
24 Khá Tốt HS Tiên tiến Được lên lớp
Thực hiện đếm tần suất trên cụm chiến thắng, ta có:
Mẫu lớp tốt nhất sẽ là:
HS Tiên tiến Được lên lớp
Trên cơ sở lựa chọn mẫu lớp tốt nhất, mẫu dữ liệu X đầu vào được phân loại về lớp học sinh học lực Khá, hạnh kiểm Tốt, xếp loại Học sinh Tiên tiến và được lên lớp Đồng thời, mẫu dữ liệu X cũng được tư vấn chọn tổ hợp môn thi phù hợp, cụ thể là tổ hợp KHXH, nhằm giúp học sinh phát huy tối đa năng lực và đạt được kết quả tốt nhất.
HỆ TƯ VẤN CHO HỌC SINH THI TỐT NGHIỆP THPT
Hệ thống tư vấn học sinh được mô tả bằng cách kết hợp phương pháp phân cụm dữ liệu K-means và phân loại dựa trên mạng SOM Quá trình tư vấn được thực hiện dựa trên hai pha: xử lý dữ liệu và dự báo, tư vấn Dữ liệu học sinh được sưu tập từ nhiều nguồn, chuẩn hóa và phân cụm bằng thuật toán K-means, sau đó được sử dụng để huấn luyện mạng SOM tạo ra mô hình dự báo Đối với pha phân lớp và tư vấn, hệ thống sử dụng thuật toán láng giềng gần nhất (k-NN) để phân lớp và tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia dựa trên các véc-tơ trọng số đã được huấn luyện.
Pha xử lý dữ liệu: tạo mô hình SOM
Bước 1: chuẩn hóa dữ liệu đầu vào cho cơ sở dữ liệu học sinh THPT Bước 2: phân cụm dữ liệu bằng thuật toán K-means
Bước 3: huấn luyện mạng SOM để tạo ra bộ trọng số
Pha dự báo, tư vấn: phân lớp và tư vấn cho học sinh
Để áp dụng mô hình học máy vào việc tư vấn cho học sinh, chúng ta cần thực hiện ba bước chính Đầu tiên, cần chuẩn hóa mẫu dữ liệu đầu vào để đảm bảo tính nhất quán và chính xác Tiếp theo, sử dụng mạng SOM (Self-Organizing Map) để tìm cụm chiến thắng, giúp phân tích và phân loại dữ liệu một cách hiệu quả Cuối cùng, áp dụng thuật toán k-NN (k-Nearest Neighbors) để phân lớp và đưa ra tư vấn phù hợp cho học sinh dựa trên kết quả phân tích trước đó.
2.5.2 Quá trình huấn luyện mạng SOM
Quá trình huấn luyện mạng SOM được mô tả trong Hình 2.3, bắt đầu từ một tập dữ liệu đầu vào X 1 , X 2 ,…, X N Để phân cụm dữ liệu ban đầu, thuật toán K-means được áp dụng để chia tập dữ liệu thành k cụm Trên cơ sở mạng SOM, các cụm dữ liệu này sẽ được sử dụng để huấn luyện mạng, giúp mạng SOM có thể tự tổ chức và phân cụm dữ liệu một cách hiệu quả.
Tập dữ liệu đầu vào
Tập véc-tơ trọng số
End trọng số của cụm được huấn luyện, kết quả đầu ra của quá trình huấn luyện này là tập các trọng số W = {Wi, i = 1 k}
2.5.3 Quá trình phân lớp, tư vấn
Quá trình phân lớp và dự báo cho mẫu dữ liệu X được thực hiện dựa trên cụm chiến thắng là phân lớp k-NN, đồng thời cung cấp tư vấn cho học sinh Quá trình này bắt đầu từ mẫu dữ liệu X và tập trọng số W, sau đó lựa chọn cụm chiến thắng dựa trên độ đo tốt nhất trên giá trị tổng hợp của hàm sigmoid Dựa trên các láng giềng gần nhất, quá trình phân lớp cho mẫu dữ liệu X được thực hiện và chọn ra mẫu lớp có tần suất xuất hiện nhiều nhất cũng như độ tương đồng tốt nhất để làm cơ sở cho quá trình tư vấn cho học sinh.
TỔNG KẾT CHƯƠNG
Chương này giới thiệu một kiến trúc hệ phân loại và tư vấn cho học sinh, được thiết kế để phù hợp với mẫu dữ liệu đầu vào là thông tin điểm trung bình của học sinh, giúp hệ thống đưa ra quyết định tư vấn chính xác và hiệu quả.
Dữ liệu X Tập trọng số W
Thực hiện phân lớp k-NN
Tính cụm chiến thằng Winner K-means Winner
Hệ tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia được xây dựng dựa trên thuật toán K-means và mạng SOM, nhằm phân cụm các mẫu dữ liệu và chọn cụm chiến thắng cho một mẫu dữ liệu mới Quá trình huấn luyện mạng SOM tạo ra một véc-tơ trọng số làm cơ sở chọn cụm chiến thắng, và thuật toán k-NN được áp dụng để chọn một mẫu lớp tốt nhất dựa trên độ tương đồng và tần suất xuất hiện Hệ tư vấn này được thiết kế để thực hiện quá trình thực nghiệm đối với các bộ cơ sở dữ liệu lớn, và sẽ được cụ thể hóa trên các ngôn ngữ lập trình để đánh giá hiệu suất của hệ dự báo và tư vấn cho học sinh.
THỰC NGHIỆM
GIỚI THIỆU
Dựa trên cơ sở lý thuyết đã được đề xuất tại chương 2, chương này giới thiệu một hệ thống thực nghiệm để dự đoán năng lực học sinh và tư vấn chọn tổ hợp môn Khoa học Tự nhiên (KHTN) và Khoa học Xã hội (KHXH) Các thuật toán được đề xuất đã được mã hóa trên một ngôn ngữ lập trình cụ thể và áp dụng trên các bộ dữ liệu khác nhau để đánh giá tính khả thi và hiệu suất của hệ tư vấn.
Hệ thống tư vấn cho học sinh được thiết kế bao gồm hai chương trình chính, bao gồm chương trình tạo dữ liệu và huấn luyện trên hệ thống máy server và chương trình phân loại và tư vấn trên máy client Chương trình tạo dữ liệu và huấn luyện thực thi độc lập để chuẩn bị dữ liệu cho người dùng, trong khi chương trình phân loại và tư vấn sử dụng dữ liệu đã được tạo ra từ hệ thống server để đưa ra dự báo cho từng bộ dữ liệu học sinh thông qua phương pháp k-NN.
Dữ liệu được chia thành hai phần chính là dữ liệu huấn luyện và dữ liệu kiểm thử để đánh giá độ chính xác và hiệu suất của hệ thống Quá trình này bắt đầu bằng việc phân cụm dữ liệu huấn luyện và tạo ra các trọng số cụm để kết nối các cụm láng giềng, từ đó hình thành mạng SOM phục vụ cho phân lớp k-NN Đối với dữ liệu kiểm thử, hệ thống sẽ so sánh kết quả dự đoán với kết quả thực tế thông qua tìm kiếm cụm chiến thắng trên SOM và phân lớp k-NN, giúp xác định độ chính xác của quá trình dự đoán và khuyến nghị cho người dùng.
Các số liệu về hiệu suất của hệ thống được thu thập và đo đạc trực tiếp trong quá trình thực thi chương trình, giúp đánh giá độ chính xác trong việc dự đoán năng lực học sinh và dự báo điểm các môn thi tổ hợp Qua đó, hệ thống cũng đưa ra kiến nghị chọn môn thi tổ hợp phù hợp cho từng học sinh, hỗ trợ quá trình tư vấn và định hướng giáo dục hiệu quả hơn.
MÔ HÌNH THỰC NGHIỆM
Hệ thống dự báo và tư vấn cho học sinh được thiết kế theo kiến trúc gồm hai giai đoạn chính Giai đoạn đầu tiên là tạo cụm và mạng SOM, được thực hiện trên máy chủ với dữ liệu huấn luyện chiếm khoảng 70% tổng số dữ liệu Kết quả của giai đoạn này là danh sách các cụm và nhóm cụm láng giềng dưới dạng mạng SOM, với mỗi nhóm cụm được liên kết qua trọng số của cụm Trọng số của cụm được tổng hợp từ các mẫu dữ liệu có cùng nhãn học lực của học sinh xuất hiện nhiều nhất trong cụm đó Giai đoạn thứ hai là dự báo, được thực hiện từ phía người dùng với dữ liệu do người dùng cung cấp, từ đó chọn cụm chiến thắng trong mạng SOM và thực hiện phân lớp k-NN để đưa ra kết quả dự báo và tư vấn cho học sinh.
Hệ thống phía người dùng
XÂY DỰNG HỆ THỐNG
Hình 3.2 Sơ đồ lớp của hệ thống class RootCluster List ListCW List ListFile
get/set method has-a class HocSinhCluster
CenterWeight CW List DSHocSinh
get/set method abstractclass ClusterMethod
vector String2Vector (string str)
GetCenter() has-a class SOM-kNN
kNN has-a class CenterWeight List Center List Weight
get/set method has- a class HocSinh string MasoHocSinh List Diem List MonHoc double khtn double khxh string HocLuc string DanhHieu
Sơ đồ lớp được mô tả tại hình 3.2 bao gồm 7 lớp, với lớp đầu tiên là lớp trừu tượng ClusterMethod chứa các thao tác chung trong quá trình xử lý dữ liệu Lớp này không tạo đối tượng thực thi và được kế thừa bởi lớp HocSinhCluster, lớp này lưu trữ thông tin học sinh, trọng số mạng SOM và tâm cụm dữ liệu Lớp HocSinhCluster kế thừa trực tiếp từ lớp ClusterMethod để tận dụng các hàm đã được thiết kế trước đó, đảm bảo tính kế thừa và tái sử dụng mã.
Dựa trên lớp HocSinhCluster, hai lớp phân cụm dữ liệu quan trọng là Clustering và SOM-kNN được thiết kế, trong đó cả hai lớp đều kế thừa các thuộc tính của lớp HocSinhCluster, cho phép chúng tham chiếu đến đối tượng của lớp này một cách hiệu quả.
HocSinhCluster Ngoài ra, lớp HocSinhCluster có hai thuộc tính là tâm trọng số (CenterWeight) và thuộc tính DanhSachHS lần lượt tham chiếu đến hai lớp
Để quản lý các cụm đã được phân tách, một lớp RootCluster được thiết kế nhằm tăng tốc độ quá trình tìm kiếm cụm chiến thắng cũng như liên kết đến cụm chiến thắng, giúp tối ưu hóa hiệu suất của hệ thống.
3.3.2 Cài đặt cấu trúc lớp a Lớp trừu tượng ClusterMethod abstract classClusterMethod { publicint ToInt32(string myStr){ } publicdouble ToDecimal(string myStr){ } publicstring Vector2String(List Vector){ } publicList String2Vector(string[] DigitString){ } publicdouble EuclideDistance(List V1, List V2){ }
Lớp ClusterMethod được thiết kế để cung cấp các phương thức chung cho quá trình xử lý và thao tác trên các cụm dữ liệu cũng như dữ liệu trực tiếp từ học sinh Lớp này đóng vai trò là lớp cơ sở, cung cấp chức năng cho các lớp được kế thừa mà không tạo trực tiếp các đối tượng Đồng thời, nó cũng giúp ẩn đi các thao tác xử lý cụ thể khi tạo ra đối tượng từ lớp được kế thừa.
List DSHocSinh; public HocSinhCluster(){ } publicCenterWeight CWp {get; set;} publicList DSHS {get; set;}
Lớp HocSinhCluster được thiết kế để lưu trữ các cụm dữ liệu học sinh tương đồng nhau dựa trên độ đo Euclide, cho phép thực hiện các thao tác xử lý dữ liệu trên cụm một cách hiệu quả Lớp này bao gồm danh sách học sinh với các thuộc tính đã được quy định trong lớp HocSinh, đồng thời lưu trữ tâm của cụm và trọng số đại diện để tìm kiếm trên mạng SOM.
HocSinhCluster HSc; public K_MeanClustering(){ } public SaveCluster(){ } public GetCenter(){ } public GetWeight(){ }
Lớp Clustering được thiết kế để thực hiện phân cụm dữ liệu huấn luyện dựa trên thuật toán K-Means, sau đó lưu trữ các cụm trên các tập tin Điều này cho phép thực hiện việc tìm kiếm cụm chiến thắng và phân loại dữ liệu một cách hiệu quả Ngoài ra, lớp SOM-kNN (Self-Organizing Map - k-Nearest Neighbor) cũng đóng vai trò quan trọng trong quá trình phân cụm và phân loại dữ liệu.
HocSinhCluster HSc; public SOM(){ } public kNN(){ }
Lớp SOM-kNN được thiết kế để thực hiện quá trình huấn luyện tạo ra mạng SOM, sau đó phân lớp để dự báo và khuyến nghị cho học sinh Lớp này đóng vai trò quan trọng trong việc phân tích và dự đoán kết quả học tập của học sinh Trong lớp HocSinh, thuộc tính MasoHocSinh được sử dụng để lưu trữ mã số học sinh, giúp dễ dàng quản lý và theo dõi thông tin của từng học sinh.
The HocSinh class is initialized with various properties including MASOHS, DIEM, MONHOC, KHTN, KHXH, HOCLUC, and DANHHIEU These properties are represented by data types such as string, double, and List, allowing for the storage of student information and academic performance The MASOHS property is a unique identifier, while DIEM and MONHOC represent the student's grades and subjects, respectively KHTN and KHXH store the student's science and social science scores, and HOCLUC and DANHHIEU reflect the student's academic achievement and honors.
Lớp HocSinh được thiết kế để lưu trữ dữ liệu của các đối tượng học sinh, bao gồm mã số học sinh, điểm, môn học, học lực và danh hiệu Dữ liệu này sau đó được phân cụm dựa trên thuật toán K-Means được tích hợp trong lớp Clustering Tiếp theo, hệ thống sẽ đánh dấu láng giềng và huấn luyện trọng số dựa trên các phương thức trong lớp SOM-kNN.
List Weight; public CenterWeight(){ } publicList CENTER {get;set} publicList WEIGHT {get;set}
Lớp CenterWeight đóng vai trò quan trọng trong việc lưu trữ các đối tượng chứa dữ liệu là tâm của một cụm, đồng thời quản lý trọng số kết nối giữa các cụm này Thông tin này sẽ được sử dụng làm cơ sở dữ liệu quan trọng cho lớp HocSinhCluster, giúp hệ thống phân tích và xử lý dữ liệu một cách hiệu quả hơn.
Lớp RootClusterđược thiết kế nhằm quản lý và tra cứu nhanh các cụm trong quá trình phân loại và tìm kiếm thông tin classRootCluster {
List ListFilenameCluster; public RootCluster() { } publicList LISTCW {get;set} publicList LISTFILE {get;set}
MÔI TRƯỜNG THỰC NGHIỆM
Chương trình được xây dựng hoàn toàn bằng ngôn ngữ lập trình C# trên nền tảng dotNetFramework 4.6.1, cho phép người dùng dễ dàng ứng dụng trên hệ điều hành Windows Các lớp và phương thức của lớp được mã hóa bằng ngôn ngữ C# cấu trúc, giúp tăng cường tính linh hoạt và khả năng tương thích Ngoài ra, cả trình Client và trình Server đều được phát triển bằng C#, đảm bảo quá trình đóng gói và triển khai chương trình trở nên thuận tiện và dễ dàng hơn.
Hệ thống chương trình tư vấn cho học sinh được chia ra thành hai phân hệ và được thực thi trên Client và Server được mô tả như sau:
The server system is implemented on a computer running Windows 10 Pro operating system, equipped with an Intel Core i9-9880H CPU processor at 2.30 GHz, 16 GB of RAM, and a 64-bit operating system, ensuring optimal performance and efficiency.
Phân hệ Client được thực thi trên máy tính có hệ điều hành Windows
10 Home; bộ xử lý Intel(R) Core(TM) i5-5200U CPU @ 2.20GHz 2.20 GHz; RAM 8.0 GB (7.89 GB usable); hệ điều hành 64bit
Dữ liệu được sưu tập từ nhiều nguồn khác nhau của các trường THPT tại
Thành phố Vũng Tàu từ năm 2015 đến 2019 là địa điểm thu thập dữ liệu chính cho nghiên cứu này Dữ liệu được chia thành hai phần chính, bao gồm dữ liệu huấn luyện chiếm khoảng 70% và dữ liệu kiểm thử chiếm khoảng 30% Tổng cộng, hai bộ dữ liệu được thu thập có 1075 mẫu và 5231 mẫu, cung cấp cơ sở vững chắc cho việc phân tích và đánh giá.
3.4.4 Ứng dụng thực nghiệm trên Server
Hình 3.3 Phân cụm dữ liệu học sinh (1075 mẫu) trên máy server
Quá trình phân cụm dữ liệu được thực hiện thông qua hình 3.3 và hình 3.4, trong đó dữ liệu học sinh được thu thập và phân cụm bằng phương pháp K-Means Trên cơ sở này, trọng số mỗi cụm được trích xuất dựa trên tầng suất xuất hiện của các bộ dữ liệu tương ứng với học lực của học sinh Kết quả của một cụm được mô tả ở hình 3.4, bao gồm tâm cụm, trọng số và các phần tử dữ liệu.
Để quản lý và trích xuất nhanh danh sách các cụm dữ liệu, lớp RootCluster được thiết kế Lớp này cho phép tạo ra một cụm Root, như hình 3.5, giúp quản lý các cụm dữ liệu khác một cách hiệu quả Mỗi cụm trong RootCluster được đại diện bởi định danh của cụm, tâm của cụm và trọng số của cụm, giúp dễ dàng truy xuất và quản lý thông tin.
3.4.5 Ứng dụng thực nghiệm trên Client
Quá trình dự báo chọn môn thi cho học sinh được thể hiện qua Hình 3.6, nơi mà thông tin của học sinh được sử dụng làm đầu vào để dự báo học lực, danh hiệu, điểm tổ hợp môn KHTN và KHXH Từ đó, hệ thống sẽ đưa ra khuyến nghị chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia phù hợp với năng lực của từng học sinh.
3.4.6 Kết quả thực nghiệm trên bộ dữ liệu có 1073 mẫu
Bảng 3.1 Độ chính xác dự báo trên 30% mẫu dữ liệu
Bộ dữ liệu Mẫu dữ liệu Dự báo học lực
Dự báo tổ hợp môn thi TB thời gian
Kết quả dự báo trên 30% bộ dữ liệu cho thấy độ chính xác cao trong việc đánh giá học lực và tư vấn tổ hợp môn thi Cụ thể, độ chính xác dự báo học lực dao động từ 68% đến 100% với giá trị trung bình là 87.91%, trong khi độ chính xác dự báo danh hiệu học sinh là từ 24% đến 100% với giá trị trung bình là 61.84% Đặc biệt, dự báo tư vấn chọn tổ hợp môn thi đạt độ chính xác từ 74% đến 96% với giá trị trung bình là 87.69%, tất cả đều được thực hiện trong thời gian trung bình chỉ 408 milli giây.
Đồ thị 3.7 và 3.11 minh họa độ chính xác trung bình của việc dự báo học lực theo từng nhóm học sinh dựa trên bộ dữ liệu gồm 1073 mẫu Kết quả cho thấy độ chính xác của việc dự báo là tương đối cao, đồng thời cho thấy tiềm năng áp dụng cho các bộ dữ liệu lớn hơn.
Dựa trên kết quả phân tích từ hình 3.8 và hình 3.12, đồ thị mô tả dự báo danh hiệu cho học sinh theo nhóm dữ liệu cho thấy phương pháp đề xuất đạt được kết quả dự báo với độ chính xác chấp nhận được Đặc biệt, với việc tăng số lượng dữ liệu, phương pháp này còn có thể cải thiện độ chính xác dự báo, mang lại kết quả đáng tin cậy hơn.
Hình 3.7 Mô tả độ chính xác về học lực của học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Kết quả phân tích cho thấy độ chính xác của phương pháp đề xuất này trong việc dự báo danh hiệu cho học sinh là đáng kể Đặc biệt, khi áp dụng phương pháp này vào việc chọn tổ hợp môn thi KHTN và KHXH, kết quả cho thấy độ chính xác tương đối cao trên từng nhóm học sinh Điều này chứng tỏ phương pháp đề xuất này có tính khả thi cao và có thể ứng dụng hiệu quả vào việc tư vấn, khuyến nghị cho học sinh khi chọn tổ hợp môn thi.
Hình 3.9 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Dự báo tổ hợp môn thi 78.00% 96.00% 74.00% 92.00% 96.00% 88.00% 89.83%
DỰ BÁO TỔ HỢP MÔN THI
Thời gian dự báo trung bình cho mỗi mẫu dữ liệu được thể hiện trong hình 3.10 và hình 3.14 cho thấy kết quả tương đối nhanh chóng Điều này cho phép áp dụng mô hình vào các bộ dữ liệu thực tế và triển khai cho người dùng để thực hiện quá trình tư vấn chọn lựa môn thi tổ hợp một cách hiệu quả.
3.4.7 Kết quả thực nghiệm 30% trên 5231 mẫu dữ liệu
Bảng 3.2 Độ chính xác dự báo trên 30% mẫu dữ liệu
Dự báo tổ hợp môn thi
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7 Thời gian trung bình 344.88 484.37 334.06 392.40 562.82 378.39 359.44
Hình 3.11 Mô tả độ chính xác về học lực của học sinh
Hình 3.12 Mô tả độ chính xác về dự báo danh hiệu cho học sinh
Hình 3.13 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7
Dự báo tổ hợp môn thi 91.60% 97.60% 91.60% 92.00% 95.20% 95.20% 78.00%
DỰ BÁO TỔ HỢP MÔN THI
Hình 3.14 Thời gian dự báo trung bình cho mỗi mẫu dữ liệu
TỔNG KẾT CHƯƠNG
Ứng dụng thực nghiệm được xây dựng dựa trên cơ sở lý thuyết đã được đề xuất, sử dụng dữ liệu điểm của học sinh từ nhiều trường THPT tại Vũng Tàu Dữ liệu này được thu thập từ nhiều năm khác nhau và xử lý để áp dụng thuật toán K-Means, làm cơ sở huấn luyện cho mạng SOM Quá trình này cho phép dự báo năng lực học sinh, điểm các tổ hợp môn KHTN và KHXN, đồng thời tư vấn chọn môn thi phù hợp Kết quả thực nghiệm trên hai bộ dữ liệu với 1073 và 5231 bộ dữ liệu cho thấy phương pháp đề xuất là hiệu quả và có thể áp dụng trên nhiều bộ dữ liệu khác nhau.
Bộ 1 Bộ 2 Bộ 3 Bộ 4 Bộ 5 Bộ 6 Bộ 7