1.5.1. Các bước thực hiện
Để thực hiện hệ tư vấn cho học sinh chọn tổ hợp mơn cho kỳ thi tốt nghiệp THPT Quốc gia, nội dung luận văn được thực hiện theo các bước như sau:
(1) Tìm các tài liệu của Bộ GD&ĐT liên quan đến thơng tin kỳ thi tốt nghiệp THPT Quốc gia, đồng thời nghiên cứu các quy chế đánh giá năng lực của học sinh.
(2) Phân tích các cơng trình liên quan và chọn các phương pháp phù hợp: - Phân tích thơng tin về đặc trưng đánh giá kết quả học tập của học sinh để phân cụm theo năng lực học sinh.
- Xây dựng mơ hình thực hiện cơng cụ tư vấn cho học sinh.
- Nghiên cứu các phương pháp phân cụm K-means, phân loại trên mạng SOM, phân lớp k-NN và hệ suy luận mờ.
- Xây dựng một hệ tư vấn hỗ trợ ra quyết định cho học sinh về đánh giá năng lực cũng như khả năng của học sinh cho từng tổ hợp mơn thi cụ thể.
- Đề xuất thuật tốn nhằm chuyển đổi dữ liệu đánh giá học sinh và tư vấn chọn mơn thi.
- Xây dựng ứng dụng thực nghiệm và đánh giá hiệu suất của phương pháp đồng thời so sánh với các phương pháp khác.
1.5.2. Các kỹ thuật cần nghiên cứu
Trong hệ thống này, một mơ hình mạng SOM cần được xây dựng để dự báo cho từng học sinh dựa trên điểm số. Do đĩ, một cơ chế suy luận cần phải được thực hiện trên hệ thống này. Cĩ hai phương pháp thơng dụng để thực hiện đĩ là kỹ thuật học cĩ giám sát và kỹ thuật học khơng giám sát. Trong mơ hình phân cụm của thuật tốn K-means, các đặc trưng của mỗi dữ liệu được kết hợp và đánh giá độ đo tương tự sao cho hai phần tử bất kỳ trong cùng một cụm cĩ độ đo gần nhau và hai phần tử khác cụm cĩ độ đo khác biệt lớn.
Mặt khác, phương pháp học cĩ giám sát được xây dựng dựa trên các mẫu dữ liệu huấn luyện cĩ gán nhãn trước để từ đĩ xây dựng mơ hình cho việc phân loại. Trong luận văn này, mạng SOM được thực hiện huấn luyện để tạo các trọng số nhằm phân lớp dữ liệu đầu vào. Do đĩ, kỹ thuật học cĩ giám sát được
áp dụng trên mạng SOM với bộ dữ liệu huấn luyện mẫu được lấy từ kết quả của thuật tốn K-means trong quá trình phân cụm học sinh. Đây là quá trình kết hợp giữa việc học khơng giám sát và cĩ giám sát. Tuy nhiên, để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng gần nhất. Đây là phương pháp khơng cần huấn luyện mơ hình nhưng cĩ thể phân lớp dựa trên bộ dữ liệu mẫu. Vì vậy, kỹ thuật học bán giám sát cần phải được thực hiện và áp dụng trên bộ dữ liệu học sinh trên cơ sở thuật tốn k-NN.
1.5.3. Các cơng cụ áp dụng
Để thực hiện các kỹ thuật học khơng giám sát, cĩ giám sát và bán giám sát nhằm tạo ra một hệ tư vấn chọn tổ hợp mơn cho học sinh thi tốt nghiệp THPT Quốc gia, các đối tượng sau đây được áp dụng:
(1) Phân cụm đối tượng K-means: đây là kỹ thuật học khơng giám sát nhằm gom cụm các học sinh cĩ mức độ tương tự nhau trở thành một nhĩm. Quá trình này độc lập với việc gán nhãn các bộ dữ liệu mẫu ban đầu mà chỉ phụ thuộc vào độ đo tương tự dựa trên các thuộc tính của mỗi học sinh.
(2) Phân loại đối tượng trên SOM: trên cơ sở các cụm của thuật tốn K- means đã được tạo ra, mỗi cụm là một phân loại cho mạng SOM, đồng thời hai cụm cĩ thể đánh dấu láng giềng với nhau nếu như hai tâm cụm cĩ độ tương tự nhỏ hơn một ngưỡng cho trước. Để thực hiện phân loại trên mạng SOM, các trọng số được huấn luyện dựa trên mẫu phân loại do thuật tốn K-means tạo ra. Đây là quá trình học cĩ giám sát và áp dụng trên bộ dữ liệu của học sinh với việc gán nhãn là các phân nhĩm của các cụm.
(3) Trên mỗi một cụm chiến thắng thì ứng với một bộ dữ liệu của học sinh, phương pháp k-NN được thực hiện để phân loại các học sinh theo các phân lớp đã được gán nhãn. Việc lựa chọn này dựa trên các tần suất xuất hiện của các phân lớp trên cụm chiến thắng. Trên cơ sở này, dữ liệu mới của mỗi học sinh được phân lớp vào các lớp chiếm ưu thế. Do đĩ, thực hiện được quá
trình tư vấn chọn tổ hợp mơn học cho từng học sinh. Quá trình này được thực hiện trên cơ sở phương pháp học bán giám sát vì thuật tốn k-NN khơng cần phải huấn luyện mơ hình nhưng phải dựa trên các mẫu phân lớp đã được gán nhãn trước.
1.5.4. Nội dung các chương trong luận văn
Đề tài luận văn thực hiện xây dựng một cơng cụ hỗ trợ cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, qua đĩ các phương pháp xử lý và phân tích dữ liệu được áp dụng nhằm tạo ra một mơ hình, kỹ thuật xử lý dữ liệu của học sinh. Trên cơ sở này, nội dung của đề tài luận văn được thực hiện gồm ba chương và phần kết luận, cụ thể như sau:
Chương 1. Tổng quan về hệ tư vấn cho học sinh chọn mơn thi: trong
chương này, các thơng tin của học sinh được khảo sát và phân tích. Từ đĩ, các cơng cụ về trí tuệ nhân tạo, khai phá dữ liệu lần lượt được khảo sát và chọn lựa. Các đối tượng nghiên cứu, phương pháp nghiên cứu, quá trình thực hiện cũng được đề xuất nhằm áp dụng xây dựng cơng cụ hỗ trợ tư vấn cho học sinh.
Chương 2. Hệ tư vấn chọn mơn thi tổ hợp cho học sinh: trong chương
này lần lượt phân tích các cơng cụ khai phá dữ liệu nhằm áp dụng cho hệ tư vấn, gồm: phương pháp phân cụm K-means, phương pháp chọn lựa cụm dựa trên mạng SOM và suy luận mờ, phương pháp phân lớp dựa trên k-NN. Các phương pháp được thực hiện trên các dữ liệu cụ thể của học sinh THPT nhằm làm cơ sở cho việc xây dựng hệ thống tư vấn chọn mơn thi tổ hợp trong kỳ thi tốt nghiệp THPT Quốc gia. Trong chương này cũng phân tích sự phù hợp của từng phương pháp đối với dữ liệu học sinh và sự phù hợp về mặt khoa học cũng như quá trình xử lý.
Các bước thực hiện của mơ hình được phân tích và trình bày nhằm làm cơ sở xây dựng ứng dụng thực nghiệm. Các thuật tốn dựa trên mơ hình được đề xuất nhằm làm cơ sở thực nghiệm, minh chứng tính đúng đắn của mơ hình.
Chương 3. Thực nghiệm: trong chương này thiết kế một hệ thống thực
nghiệm trên một mơi trường lập trình cụ thể. Các dữ liệu thực nghiệm và kết quả thực nghiệm cũng được phân tích và đánh giá nhằm minh chứng tính hiệu quả của phương pháp đề xuất. Mỗi thuật tốn cũng sẽ được mơ tả cụ thể và các ví dụ được áp dụng nhằm minh chứng tính đúng đắn và khả thi.Các kết quả thực nghiệm này cũng sẽ được đánh giá và phân tích tính khả thi trên nhiều bộ dữ liệu khác nhau theo từng năm ứng với các trường THPT trong địa bàn Thành phố Vũng Tàu. Từ đĩ, một kết luận và định hướng phát triển được đề nghị nhằm xây dựng các hệ thống, cơng cụ tư vấn cho từng lĩnh vực.