1. Trang chủ
  2. » Luận Văn - Báo Cáo

[LUẬN VĂN THẠC SĨ] Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia

79 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU

-  -

LÂM THỊ ANH HOÀNG

HỆ TƯ VẤN CHO HỌC SINH CHỌN TỔ HỢP MÔN THI TỐT NGHIỆP TRUNG HỌC PHỔ THÔNG QUỐC GIA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Bà Rịa – Vũng Tàu, tháng 04/2021

Trang 2

TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU

-  -

LÂM THỊ ANH HOÀNG

HỆ TƯ VẤN CHO HỌC SINH CHỌN TỔ HỢP MÔN THI TỐT NGHIỆP TRUNG HỌC PHỔ THÔNG QUỐC GIA

Chuyên ngành: Công nghệ thông tin Mã ngành:8480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VĂN THẾ THÀNH

Bà Rịa – Vũng Tàu, tháng 04/2021

Trang 3

LỜI CẢM ƠN

Trong suốt quá trình nghiên cứu và thực hiện đề tài luận văn “Hệ tư vấn

cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia” tôi đã nhận

được sự giúp đỡ rất nhiều của Quý Thầy Cô ở Viện Đào Tạo Quốc Tế Sau Đại Học của Trường Đại Học Bà Rịa Vũng Tàu, của anh chị đồng nghiệp, của các bạn cùng lớp và đặc biệt là sự hướng dẫn tận tình của Thầy hướng dẫn, đó là TS.Văn Thế Thành

Qua đây, tôi xin cám ơn các trường THPT trên địa bàn Thành phố Vũng Tàu đã tạo điều kiện, cung cấp số liệu của nhà trường để tôi hoàn thành luận văn tốt hơn

Trong luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót Tôi rất mong muốn sẽ nhận được nhiều sự góp ý quý báu của Quý Thầy Cô trong hội đồng, Quý bạn đọc để tôi có thể hoàn thiện luận văn tốt hơn nữa đồng thời có thể áp dụng vào thực tiễn, ít nhiều giúp Quý Thầy Cô tư vấn học sinh THPT chọn được tổ hợp môn thi tốt nghiệp THPT

Một lần nữa, tôi xin chân thành cảm ơn Quý Thầy Cô, đồng nghiệp, bạn bè và đặc biệt là Thầy TS.Văn Thế Thành đã hướng dẫn tôi hoàn thành đề tài luận văn này

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài luận văn “Hệ tư vấn cho học sinh chọn tổ hợp

môn thi tốt nghiệp THPT Quốc gia” là công trình nghiên cứu độc lập của tôi

dưới sự hướng dẫn của giáo viên hướng dẫn Các số liệu, nêu trong luận văn được tôi thu thập từ trường THPT Trần Nguyên Hãn trên địa bàn Thành phố Vũng Tàu, kết quả của luận văn chưa được ai công bố trên bất kỳ công trình nghiên cứu nào Tôi xin hoàn toàn chịu trách nhiệm trước hội đồng, khoa, viện

sau đại học về sự cam đoan này

Trang 5

MỤC LỤC

CHƯƠNG 1 TỔNG QUAN VỀ HỆ TƯ VẤN CHO HỌC SINH CHỌN

MÔN THI 8

1.1.TỔNGQUANVỀNHUCẦUHỆTƯVẤNCHỌNMÔNTHI 8

1.1.1 Sự cần thiết của hệ tư vấn 8

1.1.2 Các nghiên cứu liên quan 9

1.1.3 Cơ sở lý thuyết liên quan đến luận văn 12

1.1.4 Cấu trúc hệ thống 19

1.1.5 Sự đóng góp của hệ thống 21

1.2.ĐỐITƯỢNGVÀPHƯƠNGPHÁPNGHIÊNCỨU 22

1.2.1 Đối tượng nghiên cứu 22

1.2.2 Phương pháp nghiên cứu 22

2.2.PHÂNCỤMDỮLIỆUDỰATRÊNK-MEANS 30

2.2.1 Thuật toán K-Means 30

2.2.2 Ví dụ thực nghiệm cho thuật toán K-means 32

2.3.MẠNGSOM 39

Trang 6

2.3.1 Cấu trúc mạng SOM 39

2.3.2 Một ví dụ thực nghiệm cho việc huấn luyện mạng SOM 41

2.3.3 Thuật toán chọn cụm chiến thắng 43

2.3.4 Ví dụ thực nghiệm cho việc chọn cụm chiến thắng 44

2.4.PHƯƠNGPHÁPPHÂNLỚPK-NN 44

2.4.1 Thuật toán phân lớp k-NN 44

2.4.2 Ví dụ thực nghiệm cho thuật toán k-NN 45

2.5.HỆTƯVẤNCHOHỌCSINHTHITỐTNGHIỆPTHPT 47

2.5.1 Mô hình hệ thống 47

2.5.2 Quá trình huấn luyện mạng SOM 48

2.5.3 Quá trình phân lớp, tư vấn 49

3.4.4 Ứng dụng thực nghiệm trên Server 58

3.4.5 Ứng dụng thực nghiệm trên Client 60

3.4.6 Kết quả thực nghiệm trên bộ dữ liệu có 1073 mẫu 60

3.4.7 Kết quả thực nghiệm 30% trên 5231 mẫu dữ liệu 63

3.5.TỔNGKẾTCHƯƠNG 65

Trang 7

KẾT LUẬN 66

TÀI LIỆU THAM KHẢO 67

PHỤ LỤC 69

CÀIĐẶTCÁCHÀMCHÍNHCỦAHỆTHỐNG 69

Trang 9

DANH MỤC CÁC HÌNH ẢNH

1.1 Mô hình học có giám sát 1.2 Mô hình học không giám sát 1.3 Mô hình gom cụm

1.4 Mô hình phân lớp

1.5 Mô hình thuật toán k-NN

1.6 Mô hình tổng quát hệ thống tư vấn 2.1 Mô hình mạng SOM

2.2 Mô hình hệ thống tư vấn học sinh

2.3 Lưu đồ quá trình huấn luyện mạng SOM 2.4 Lưu đồ dự báo và tư vấn học sinh

3.1 Mô hình thực nghiệm hệ thống dự báo 3.2 Sơ đồ lớp của hệ thống

3.3 Phân cụm dữ liệu học sinh (1075 mẫu) trên máy server 3.4 Một mô tả dữ liệu cho cụm thứ nhất

3.5 Một cụm Root dùng để quản lý các cụm dữ liệu khác 3.6 Quá trình dự báo chọn môn thi cho học sinh

3.7 Mô tả độ chính xác về học lực của học sinh

3.8 Mô tả độ chính xác về dự báo danh hiệu cho học sinh 3.9 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh 3.10 Thời gian dự báo trung bình cho mỗi mẫu dữ liệu 3.11 Mô tả độ chính xác về học lực của học sinh

3.12 Mô tả độ chính xác về dự báo danh hiệu cho học sinh 3.13 Mô tả độ chính xác dự báo tổ hợp môn thi cho học sinh 3.14 Thời gian dự báo trung bình cho mỗi mẫu dữ liệu

Trang 10

Chương 1 TỔNG QUAN VỀ HỆ TƯ VẤN CHO HỌC SINH CHỌN MÔN THI

1.1 TỔNG QUAN VỀ NHU CẦU HỆ TƯ VẤN CHỌN MÔN THI 1.1.1 Sự cần thiết của hệ tư vấn

Trước năm 2016, Bộ GD&ĐT đã công bố phương án thi tốt nghiệp đối với học sinh THPT gồm ít nhất 4 môn: 3 môn bắt buộc Toán, Ngữ văn, Ngoại ngữ và 1 môn tự chọn trong các môn Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý [1] Trên cơ sở này, các trường THPT tiến hành cho học sinh đăng ký chọn môn theo năng lực của mình

Vào ngày 28/9/2016 Bộ GD&ĐT công bố phương án thi THPT Quốc gia, đó là học sinh THPT thi 4 bài thi gồm: 3 bài thi bắt buộc Toán, Ngữ văn, Ngoại ngữ và 1 bài thi tự chọn: bài thi Khoa học Tự nhiên hoặc bài thi Khoa học Xã hội Với bài thi Ngoại ngữ, học sinh có thể chọn thi một trong các thứ tiếng: Anh, Nga, Pháp, Trung, Đức, Nhật Học sinh có thể dự thi cả 5 bài thi để sử dụng kết quả xét tuyển vào ĐH, CĐ [2]

Với mô hình thi này, bắt đầu năm học 2016 – 2017, các trường THPT gặp rất nhiều khó khăn như nhà trường phải sắp xếp và chia lại lớp cho học sinh lớp 12, phân công lại chuyên môn, xếp lại thời khóa biểu… Tuy nhiên, tất cả việc sắp xếp lại của nhà trường đều dựa trên mong muốn của PH và HS, tức là chỉ dựa trên ý muốn chủ quan Phương án này mặc dù thỏa mãn được nguyện vọng của PH và HS nhưng có thể chưa phát huy hết năng lực của học sinh vì việc đăng ký chọn môn thi phần lớn dựa vào ý muốn chủ quan hoặc theo ý kiến của số đông hoặc theo nguyện vọng của PH…

Việc lựa chọn này không theo sự đánh giá năng lực của bản thân cũng như không dựa trên một phương pháp phân tích có cơ sở khoa học nhất định Vì vậy, đề tài luận văn xây dựng một hệ thống tư vấn hỗ trợ cho HS và PH chọn lựa tổ hợp môn theo đúng năng lực học tập

Trang 11

1.1.2 Các nghiên cứu liên quan

Đối với hệ thống tư vấn cho học sinh hoặc phân loại học sinh theo năng lực, nhiều nhóm nghiên cứu đã đưa ra các giải pháp khác nhau cho từng bài toán cụ thể nhằm tư vấn cho học sinh, cho nhà trường chọn lựa những định hướng để quyết định trong những trường hợp khác nhau như: sử dụng thuật toán K-means để gom cụm các học sinh theo năng lực (gồm 6 mức năng lực) dựa trên điểm số của các môn học [3], sử dụng kỹ thuật cây quyết định, Bayesian, mạng nơ-ron, kỹ thuật láng giềng, K-MEDIODS để phân lớp và gom cụm học sinh theo các thuộc tính về các mối tương quan giữa học sinh và giáo viên để phân chia học sinh vào các lớp học phù hợp [4], chia nhóm học sinh bằng thuật toán K-means dựa trên điểm trung bình của từng môn theo học kỳ để từ đó đưa ra các tư vấn phù hợp [5], phân loại học sinh dựa trên các thông tin cá nhân và nguyện vọng để từ đó tư vấn nghề nghiệp cho học sinh THPT bằng phương pháp phân cụm, phân cấp kết hợp với K-means [6], phân nhóm học sinh nhằm mở các lớp học phù hợp bằng kỹ thuật bảng đồ tự tổ chức SOM

(Self-Organizing Map) và cấu trúc phân cụm phân cấp [7], sử dụng kỹ thuật

học sâu kết hợp cây FP-Tree trên tiếp cận Adaboost để phân loại học sinh dựa trên điểm trung bình từng môn học theo học kỳ để từ đó định hướng cho học sinh nâng cao hiệu suất học tập [8], phân tích điểm số và đưa ra phương án học tập phù hợp bằng kỹ thuật phân cụm và phân lớp trên mạng SOM [9], nghiên cứu phương pháp học không giám sát để phân loại học sinh dựa trên kỹ thuật

luật kết hợp và phân tích thành phần chính PCA (Principal component analysis)

để giảm số chiều dữ liệutừ đó đánh giá hiệu suất học tập của học sinh [10], phân nhóm học sinh dựa trên mức độ học tập theo từng môn học bằng kỹ thuật SOM [11]…

Oyelade và cộng sự (2010) đã tiếp cận thuật toán gom cụm K-means để dự báo hiệu suất học tập cho sinh viên Trong bài báo này, nhóm tác giả đã thực

Trang 12

hiện phân nhóm các học sinh theo 6 mức độ học lực khác nhau (Excellent, Very Good, Good, Very Fair, Fair, Poor) để từ đó định hướng cho học sinh có kế hoạch học tập tiếp theo [3] Với kết quả này, phương pháp chỉ tiếp cận thuật toán K-means nhằm phân nhóm các học sinh với số nhóm phải được phân hoạch từ trước, do đó nếu dữ liệu tăng trưởng thì việc phân hoạch phải thực hiện lại từ đầu và có thể tạo ra một kết quả khác

Khadir và cộng sự (2015) đã tiếp cận kỹ thuật phân cụm dựa trên bảng đồ tự tổ chức SOM nhằm phân tích hiệu suất học tập của học sinh để từ đó theo dõi định hướng các khóa học kế tiếp [9] Quá trình phân cụm học sinh của phương pháp này được chọn lựa dựa trên việc gom cụm bộ dữ liệu để từ đó huấn luyện trọng số cho mô hình SOM Tuy nhiên, việc phân cụm dữ liệu chỉ dựa vào việc gom nhóm các đặc tính tương tự của học sinh, do đó cần phải có một thuật toán gom cụm phù hợp cho dữ liệu tăng trưởng

Z Fan và cộng sự (2017) sử dụng phương pháp phân cụm K-means để phân nhóm các học sinh dựa trên điểm trung bình của các môn học theo từng học kỳ [5] Đối với phương pháp của nhóm tác giả này, các tâm cụm khởi tạo cho thuật toán K-means được chọn bằng cách chia theo từng nhóm dữ liệu, từ đó các nhóm học sinh được phân loại Việc áp dụng thuật toán K-means cho bộ dữ liệu điểm số của học sinh chưa thể bổ sung các phần tử dữ liệu mới, hơn nữa với mỗi phần tử dữ liệu mới này chưa thể phân loại và phân lớp các học sinh

Lee và cộng sự (2019) kết hợp mạng SOM và phương pháp phân cụm phân cấp để thực hiện gom cụm học sinh theo năng lực và phân loại học sinh trên mạng SOM Theo kết quả thực nghiệm của bài báo cho thấy việc đánh giá và phân loại học sinh có độ chính xác cao và có thể theo dõi học sinh theo dữ liệu của dòng thời gian cho mỗi học sinh [7]

Purbasari và cộng sự (2020) xây dựng một mạng SOM nhằm huấn luyện các trọng số để từ đó phân loại học sinh qua các giá trị mức độ điểm trung bình

Trang 13

theo từng môn học [11] Trong công trình này, nhóm tác giả đưa ra các nhóm phân loại dựa vào véc-tơ chiến thắng trên mạng SOM, chưa kết hợp các phần tử láng giềng để phân loại học sinh cũng như chưa đưa ra định hướng cho học sinh về việc nâng cao hiệu suất cũng như kế hoạch học tập tiếp theo

Theo các công trình khảo sát trên, việc phân loại học sinh kết hợp giữa phân cụm K-means và mạng SOM là một phương pháp khả thi và là một chủ đề nghiên cứu thời sự Việc đánh giá và phân loại này giúp cho quá trình phân loại không mang tính chủ quan của con người Hơn nữa, với mỗi bộ dữ liệu mới của mỗi học sinh, phương pháp này có thể dự báo về năng lực của học sinh, phân nhóm học sinh để từ đó đưa ra những tư vấn phù hợp

Trên cơ sở này, nội dung luận văn thực hiện xây dựng một hệ tư vấn chọn lựa cho học sinh trên cơ sở dữ liệu quá khứ và dữ liệu huấn luyện để phân loại dự báo và tư vấn cho học sinh Dữ liệu huấn luyện của học sinh được sưu tập theo năng lực điểm số và phân cụm dựa trên phương pháp K-means để từ đó làm đầu vào cho các nhóm phần tử láng giềng của mạng SOM Trên cơ sở các phân cụm này, mạng SOM được huấn luyện các véc-tơ trọng số dựa trên bộ dữ liệu mẫu bằng cách tinh chỉnh trọng số theo phân lớp của cụm đầu ra Sau quá trình huấn luyện, mô hình phân loại là các véc-tơ trọng số nhằm phân loại một học sinh đầu vào bất kỳ Sau khi phân loại dựa trên véc-tơ chiến thắng, các phần tử láng giềng trong mạng SOM được trích xuất để làm cơ sở phân lớp bằng phương pháp láng giềng gần nhất k-NN

Đối với luận văn này, dữ liệu được thống kê từ các nguồn học sinh khác nhau tại các trường THPT khác nhau để từ đó xây dựng mô hình phân loại trên mạng SOM kết hợp với k-NN Với việc phân loại này, học sinh được hỗ trợ trong việc chọn lựa các tổ hợp môn trong kỳ thi tốt nghiệp THPT Quốc gia Ngoài ra, hệ thống này là sự kết hợp của việc cải tiến phương pháp K-means và phương pháp phân nhóm đối tượng bán giám sát theo SOM và k-NN

Trang 14

1.1.3 Cơ sở lý thuyết liên quan đến luận văn

1.1.3.1 Phương pháp học giám sát

Học có giám sát (Supervised learning)là một kỹ thuật học máy nhằm tạo

ra mô hình dự báo (có thể sử dụng các phương pháp phân lớp, hồi qui) từ bộ

dữ liệu huấn luyện (training data) bao gồm các cặp đối tượng đầu vào và nhãn

đầu ra mong muốn.Từ đó, mô hình đã huấn luyện được sử dụng đểdự đoán nhãn lớp cho đối tượng đầu vào

Hình 1.1 Mô hình học có giám sát

Cho một tập hợp biến đầu vào 𝑋 = {𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑁} và một tập nhãn tương ứng 𝑌 = {𝑦1, 𝑦2, 𝑦3, … , 𝑦𝑁}, trong đó 𝑥𝑖, 𝑦𝑖 là các véc-tơ Các cặp dữ liệu biết trước (𝑥𝑖, 𝑦𝑖) ∈ 𝑋 × 𝑌 được gọi là tập dữ liệu huấn luyện (training data) Trong tập dữ liệu này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập 𝑋 sang một phần tử (xấp xỉ) tương ứng của tập 𝑌

𝑦𝑖 ≈ 𝑓(𝑥𝑖), ∀𝑖 = 1, 2, … , 𝑁

Mục đích là xấp xỉ hàm số 𝑓 thật tốt để khi có một dữ liệu 𝑥𝑘 mới, chúng ta có thể dự đoán nhãn tương ứng 𝑦𝑘 = 𝑓(𝑥𝑘)

Thuật toán học có giám sát được chia thành hai loại chính:

Phân loại (Classification): phân loại dữ liệu là một kỹ thuật dựa

trên tập huấn luyện và những giá trị là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Kỹ thuật phân lớp được tiến hành gồm hai bước: xây dựng mô hình và sử dụng mô hình Xây dựng mô hình là mô tả một tập những lớp được định nghĩa trước, trong đó mỗi bộ được gán nhãn thuộc về một lớp được định nghĩa trước, được xác định bởi thuộc tính

Dữ liệu huấn luyện

Phân lớp Hồi qui

Kết quả dự đoán

Trang 15

nhãn lớp, tập hợp của những bộ được sử dụng trong việc xây dựng mô hình được gọi là tập huấn luyện Sử dụng mô hình nhằm mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa được gán nhãn Trước khi sử dụng mô hình người ta thường đánh giá tính chính xác của mô hình, trong đó: nhãn được biết của bộ kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm tập hợp mẫu kiểm tra mà được phân lớp đúng dựa vào mô hình đã xây dựng, tập kiểm tra độc lập với tập được sử dụng để huấn luyện

Hồi qui (Regression): là một kỹ thuật xác định mối quan hệ giữa

hai biến số Mô hình hồi qui cần đưa ra một dự đoán hoặc ước lượng giá trị của một biến số từ một giá trị của một hay nhiều biến số khác

1.1.3.2 Phương pháp học không giám sát

Học không giám sát (Unsupervised Learning) là một phương pháp của

ngành học máy nhằm tìm ra một mô hình phù hợp với các tập dữ liệu ban đầu chưa được gán nhãn, có nghĩa là không có tập dữ liệu đầu ra đúng cho mỗi dữ liệu đầu vào Trong phương pháp học không giám sát, một mô hình sẽ được huấn luyện để tìm ra cấu trúc hoặc các mối quan hệ giữa các tập dữ liệu đầu vào Một trong những phương pháp học không giám sát quan trọng nhất là gom

cụm (clustering) Phương pháp gom cụm nhằm tạo ra các cụm khác nhau, với

mỗi cụm biểu diễn một đặc trưng nào đó của dữ liệu và phân các đầu vào mới vào các cụm theo đặc trưng của cụm đầu vào đó, có nghĩa là các dữ liệu thuộc một cụm sẽ có đặc trưng tương tự nhau

Hình 1.2 Mô hình học không giám sát

Dữ liệu không được

gán nhãn

Thuật toán để gom cụm

Các cụm chứa các phần tử tương tự nhau

Trang 16

1.1.3.3 Phương pháp học bán giám sát

Học bán giám sát (Semi-Supervised Learning) là bao gồm học có giám

sát và học không giám sát, điều đó có nghĩa học với tập dữ liệu huấn luyện đã được gán nhãn và dữ liệu chưa được gán nhãn.Tùy vào từng mục đích cụ thể, học bán giám sát có thể sử dụng thuật toán k-NN để phân lớphoặc phân cụm các đối tượngchưa được gán nhãn, sử dụng thuật toán K-Means để dự đoán kết quả đầu ra cho dữ liệu đã được gắn nhãn Sau khi đạt được kết quả mong muốn, ta sử dụng thuật toán này cho bộ dữ liệu đã được phân cụm trước đó để gắn nhãn cho các cụm

1.1.3.4 Gom cụm

Gom cụm (Clustering) là mô hình gom cụm dữ liệu không có nhãn sao

cho các dữ liệu cùng cụm có các tính chất tương đồng nhau và dữ liệu của hai cụm khác nhau sẽ có tính chất khác nhau Hay nói cách khác bài toán gom cụm dữ liệu là phương pháp phân chia tập dữ liệu 𝑋 thành các cụm nhỏ dựa trên sự liên quan giữa các bộ dữ liệu trong mỗi nhóm Để thực hiện gom cụm ta thường sử dụng thuật toán K-means, thuật toán SOM, độ đo tương tự Euclide

Gom cụm trên thuật toán K-Means: Thuật toán K-Means là một phương

pháp gom cụm thuộc loại học không giám sát và được ứng dụng nhiều trong các bài toán gom cụm các dữ liệu tương tự Ý tưởng của thuật toán gom cụm K-Means là phân chia một tập dữ liệu ban đầu thành các cụm khác nhau Dữ liệu trong mỗi cụm có tính chất tương tự nhau Trong đó số lượng cụm được cho trước là k Công việc gom cụm được xây dựng trên quy tắc: các dữ liệu trong cùng một cụm phải có cùng một số đặc trưng nhất định Hay nói cách khác, các dữ liệu trong cùng một cụm phải có sự liên quan lẫn nhau

Thuật toán gom cụm K-Means:

Dữ liệu đầu vào: Một bộ dữ liệu 𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑁, với mỗi dữ liệu là tơ đặc trưng của đối tượng đầu vào Số cụm cho trước k cụm

Trang 17

véc-Dữ liệu đầu ra: Bộ dữ liệu đầu vào được phân thành k cụm

Trước khi thực hiện gom cụm ta chuẩn hóa dữ liệu bằng cách chuyển dữ liệu về miền giá trị [0,1]

 Bước 1: Chọn k tâm cụm ngẫu nhiên𝑐1, 𝑐2, 𝑐3, … , 𝑐𝑘

 Bước 2: Với mỗi dữ liệu 𝑥𝑖, xác định cụm của nó Tìm tâm cụm gần nhất Ta có thể sử dụng độ đo Euclide để tính khoảng cách giữa 𝑥𝑖 đến các tâm cụm

 Bước 3: Phân phối các mẫu dữ liệu vào k cụm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm

 Bước 4: Bước 2 và Bước 3 được lặp cho tới khi vị trí của tâm cụm không thay đổi (hội tụ)

Hình 1.3 Mô hình gom cụm K-means

1.1.3.5 Phân lớp

Phân lớp (Classification) là quá trình phân lớp cho một đối tượng dữ liệu

vào một hay nhiều lớp đã cho trước Quá trình phân lớp là quá trình gắn nhãn cho đối tượng dữ liệu Quá trình gồm hai bước: (1) Bước học (giai đoạn huấn luyện) là quá trình xây dựng mô hình phân lớp dữ liệu bằng cách phân tích tập dữ liệu huấn luyện đã được gán nhãn; (2) Bước phân lớp là quá trình phân lớp dữ liệu mới dựa trên mô hình đã xây dựng

Trang 18

Hình 1.4 Mô hình phân lớp

Phương pháp phân lớp k-NN

k-NN (K-Nearest Neighbors algorithm) dùng để phân lớp các đối tượng đã được gắn nhãn dựa vào khoảng cách gần nhất giữa các đối tượng cần xếp lớp Mỗi đối tượng được phân lớp dựa vào k láng giềng của nó, ta thường dùng khoảng cách Euclide để đo khoảng cách giữa các đối tượng

Thuật toán k-NN được mô tả như sau:

 Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

 Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho các đối tượng cần phân lớp

Hình 1.5 Mô hình thuật toán k-NN

Trang 19

Trong hình trên, dữ liệu huấn luyện (training data) được mô tả bởi dấu (+) và dấu (-), đối tượng cần được xác định lớp cho nó (Query point) là hình tròn xám Ta thấy rằng:

 Trong trường hợp k láng giềng là 1 thì đối tượng cần được phân lớp sẽ là lớp –

 Trong trường hợp k láng giềng là 2 thì đối tượng cần được phân lớp sẽ không xác định vì không lớp nào có số đối tượng nhiều hơn

 Trong trường hợp k láng giềng là 5 thì đối tượng cần được phân lớp sẽ là lớp +

1.1.3.7 Bản đồ tự tổ chức SOM

SOM (Self Organizing Map) là một mạng nơ-ron tự tổ chức, thường được thiết kế gồm một tầng đầu vào và một tầng đầu ra với véc-tơ có giá trị trọng số tương ứng với mỗi cụm để từ đó tìm cụm có giá trị nhỏ nhất là cụm chiến thắng Tính tự tổ chức của SOM được thực hiện bởi nguyên tắc học cạnh tranh, không giám sát nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn Điều này có nghĩa là các dữ liệu có đặc trưng tương đồng nhau thì sẽ được đại diện bởi một nơ-ron hoặc các nơ-ron gần nhau Kết quả là hình thành nên bản đồ đặc trưng của tập dữ liệu đầu vào

Thuật toán SOM được mô tả như sau:

Dữ liệu đầu vào: tập 𝑁 véc-tơ đặc trưng của bộ dữ liệu 𝑋 = {𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑁} Trong đó, mỗi véc-tơ 𝑥𝑖 có 𝑑 chiều 𝑥𝑖 = {𝑥𝑖1, 𝑥𝑖2, 𝑥𝑖3, … , 𝑥𝑖𝑑}

Dữ liệu đầu ra: bộ véc-tơ trọng số 𝑊 = {𝑤1, 𝑤2, 𝑤3, … , 𝑤𝑚} Trong đó,𝑤𝑖 = {𝑤𝑖1, 𝑤𝑖2, 𝑤𝑖3, … , 𝑤𝑖𝑑}

 Bước 1: Khởi tạo véc-tơ trọng số cho mỗi nơ-ron

Tương ứng với mỗi véc-tơ 𝑥𝑖 có 𝑑 chiều, khởi tạo một véc-tơ trọng số 𝑤𝑖 = {𝑤𝑖1, 𝑤𝑖2, 𝑤𝑖3, … , 𝑤𝑖𝑑} Tập véc-tơ trọng số của 𝑁 bộ dữ liệu là 𝑊 ={𝑤1, 𝑤2, 𝑤3, … , 𝑤𝑚}

Trang 20

 Bước 2: Chọn ngẫu nhiên một véc-tơ 𝑥𝑖 trong tập dữ liệu làm mẫu huấn luyện

 Bước 3: Tìm phần tử nơ-ron chiến thắng

Tìm phần tử khớp nhất giữa các véc-tơ trọng số 𝑤𝑖 và véc-tơ đầu vào 𝑥𝑖 Nơ-ron nào có véc-tơ trọng số 𝑤𝑖 gần với véc-tơ đầu vào 𝑥𝑖 nhất là nơ-ron chiến thắng Để xác định nơ-ron chiến thắng ta có thể sử dụng khoảng cách Euclide giữa các véc-tơ trọng số 𝑤𝑖 với véc-tơ đầu vào 𝑥𝑖

 Bước 4: Xây dựng các phần tử lân cận

Bước này sẽ xác định các nơ-ron nào thuộc vùng lân cận của nơ-ron chiến thắng Để xác định vùng lân cận, sử dụng một ngưỡng 𝛿 ∈ (0,1) gọi là bán kính lân cận Tính khoảng cách Euclide từ tâm là phần tử nơ-ron chiến thắng đến các phần tử nơ-ron lân cận Những phần tử nằm trong phạm vi bán kính 𝛿 là các phần tử lân cận của cụm chiến thắng

 Bước 5: Hiệu chỉnh trọng số các phần tử lân cận

Trọng số của các phần tử lân cận đã được xác định ở bước 4, bao gồm cả phần tử chiến thắng sẽ được hiệu chỉnh để chúng có giá trị gần với giá trị của véc-tơ đầu vào 𝑥𝑖 đang xét

 Bước 6: Lấy bộ dữ liệu 𝑥𝑗 tiếp theo để huấn luyện Lặp lại bước 2 cho đến khi thuật toán tối ưu Kết quả thu được là bộ trọng số 𝑊 ={𝑤1, 𝑤2, 𝑤3, … , 𝑤𝑚} tốt nhất

Chính nhờ khả năng biểu diễn dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn mà vẫn có thể giữ được mối quan hệ của dữ liệu trong không gian đầu vào nên mạng SOM sẽ biểu diễn được một cách trực quan sự phân bố giữa các bộ trong không gian của tập dữ liệu Do đó, mạng SOM được ứng dụng nhiều trong các bài toán gom cụm dữ liệu SOM là phương pháp gom cụm theo hướng tiếp cận mạng nơ-ron nhân tạo và theo thuật toán học ganh đua

Trang 21

1.1.4 Cấu trúc hệ thống

Hệ thống này dựa trên kỹ thuật học không giám sát bằng cách phân cụm năng lực học sinh bằng thuật toán K-means [7], các cụm được tổ chức theo mô

hình các phần tử láng giềng dựa trên mạng SOM (Self-Organizing Map) [12]

Việc lựa chọn các cụm chiến thắng để phân loại một học sinh được thực hiện theo quy tắc suy luận mờ, trong trường hợp này sử dụng quy tắc suy luận mờ Takagi-Sugono [13] Sau khi suy luận mờ để tìm được cụm chiến thắng, trên

cơ sở kỹ thuật học bán giám sát, phương pháp k-NN (k-nearest neighbour) [14]

được áp dụng để phân lớp năng lực học tập của học sinh trong cùng một cụm và phân loại mỗi học sinh thuộc về nhóm môn tổ hợp 1 (Lý, Hóa, Sinh) hoặc nhóm môn tổ hợp 2 (Sử, Địa, Công dân) Trong Hình 1.6, quá trình xử lý dữ liệu và thực hiện tư vấn gồm 2 pha.Trong pha đầu tiên thực hiện quá trình phân cụm bằng thuật toán K-means dựa trên bộ dữ liệu điểm số của 2 năm học (lớp 10, lớp 11), trong pha thứ 2, việc phân loại dựa trên sự kết hợp của 2 phương pháp là mạng SOM và suy luận mờ, sau đó kết quả cụm chiến thắng được sử dụng để phân lớp cho học sinh Quá trình phân lớp được thực hiện dựa trên phương pháp k-NN nhằm phân loại học sinh có năng lực thuộc nhóm môn tổ hợp nào (Môn tổ hợp 1, Môn tổ hợp 2)

Hình 1.6 Mô hình tổng quát hệ thống tư vấn

DL học sinh

Phân tích Dự báo

Dữ liệu gom cụm

DL một hs Tư vấn chọn tổ hợp môn Kết quả phân tích

Trang 22

Các bước thực hiện của hệ thống tư vấn chọn tổ hợp môn cho học sinh được mô tả theo Hình 1.6, trong đó cơ sở dữ liệu điểm trung bình của học sinh được sưu tập từ các nguồn dữ liệu của các trường THPT, từ đó chuẩn hóa trên miền giá trị [0,1] làm đầu vào cho thuật toán gom cụm tạo ra các phần tử nhóm láng giềng ban đầu để huấn luyện trọng số của mạng SOM Việc dự báo, tư vấn cho học sinh được thực hiện bằng cách phân loại trên mạng SOM kết hợp với suy luận mờ để tìm phần tử chiến thắng và cụm chiến thắng Sau đó, thuật toán k-NN được áp dụng trên cụm chiến thắng để phân lớp dữ liệu cho học sinh nhằm tư vấn chọn tổ hợp môn thi trong kỳ thi tốt nghiệp THPT Quốc gia Quá trình xây dựng hệ thống này bao gồm 2 pha được mô tả như sau:

Pha 1: Pha xử lý dữ liệu

 Bước 1: Chuẩn hóa dữ liệu điểm trung bình của học sinh: đây là bước chuyển những giá trị điểm trung bình về một dạng thứ nguyên để từ đó áp dụng kỹ thuật phân cụm K-means

 Bước 2: Thực hiện phân cụm dữ liệu đã được chuẩn hóa bằng thuật toán K-means: với dữ liệu đầu vào đã được chuẩn hóa, thuật toán K-means được áp dụng bằng cách dò tìm các tâm cụm là nơi có mật độ dữ liệu nhiều nhất trong một bán kính  cho trước Nếu một phần tử nằm ngoài bán kính  của một cụm gần nhất thì tạo nên một cụm mới Do đó, quá trình tạo cụm phù hợp dữ liệu tăng trưởng

 Bước 3: Huấn luyện mạng SOM: các véc-tơ trọng số của mạng SOM được khởi tạo một cách ngẫu nhiên và được huấn luyện theo mô hình véc-tơ chiến thắng trên bộ dữ liệu huấn luyện đã được phân cụm trước đó bằng thuật toán K-means Kết quả của quá trình huấn luyện này là một mô hình phân loại bao gồm các trọng số của mạng SOM

Pha 2: Pha tư vấn học sinh

 Bước 1: Chuẩn hóa dữ liệu điểm trung bình môn cho mỗi học sinh:

Trang 23

với mỗi dữ liệu điểm của một học sinh bất kỳ, thực hiện chuẩn hóa theo phương pháp đã chuẩn hóa trên cơ sở dữ liệu đã huấn luyện để từ đó làm đầu vào cho việc phân loại trên mạng SOM

 Bước 2: Thực hiện phân loại dựa trên kỹ thuật mạng SOM với phương pháp lựa chọn cụm chiến thắng bằng kỹ thuật suy luận mờ Takagi-Sugano Đối với bước này, phương pháp suy luận mờ được kết hợp để tìm ra cụm chiến thắng ngoài khoảng cách theo độ đo

 Bước 3: Thực hiện phân lớp bằng kỹ thuật k-NN dựa trên cụm chiến thắng và các cụm lân cận nhằm tìm ra môn tổ hợp cho mỗi học sinh

1.1.5 Sự đóng góp của hệ thống

Việc chọn môn thi tổ hợp của học sinh ảnh hưởng đến quá trình học tập cũng như ảnh hưởng đến chất lượng đào tạo của nhà trường Nếu việc chọn lựa này không đúng với năng lực của học sinh thì kết quả thi của học sinh không đạt theo mong muốn và ảnh hưởng đến định hướng nghề nghiệp sau này Hơn nữa, nhà trường và phụ huynh khó khăn trong việc giảng dạy, định hướng cho học sinh nếu như việc chọn lựa không đúng Mặt khác, số lượng thí sinh trong cả nước tham gia kỳ thi tốt nghiệp THPT Quốc gia là rất lớn để tạo ra nguồn lực cho xã hội Nếu tỷ lệ thí sinh chọn lựa sai nhiều, đặc biệt là các vùng thiếu thông tin như vùng núi (KV1, KV2-NT) thì ảnh hưởng đến nguồn nhân lực cũng như định hướng về tương lai nghề nghiệp của mỗi thí sinh vì điểm số này được sử dụng để xét vào các trường Đại học

Để giải quyết những khó khăn và sự cấp thiết nêu trên, một hệ thống tư vấn cần được xây dựng nhằm trợ giúp cho học sinh, nhà trường cũng như phụ huynh Với mong muốn hỗ trợ phát hiện năng lực của các em học sinh và tư vấn các em chọn đúng năng lực của mình dựa vào kết quả học tập theo tổ hợp

môn thi tốt nghiệp THPT Quốc gia, đề tài luận văn tiến hành thực hiện “Hệ tư

vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia”

Trang 24

1.2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 1.2.1 Đối tượng nghiên cứu

Đề tài lần lượt nghiên cứu việc phân tích các thông tin điểm số của học sinh, thông tin cơ sở của việc đánh giá năng lực học sinh để từ đó phân loại học sinh theo tổ hợp môn thi phù hợp Các thuật toán cũng được nghiên cứu đề xuất để phân cụm học sinh dựa vào kết quả học tập và tư vấn cho học sinh chọn môn thi phù hợp Cụ thể, các đối tượng nghiên cứu bao gồm:

(1) Cấu trúc điểm số của học sinh liên quan đến các môn tổ hợp (2) Véc-tơ đặc trưng mô tả năng lực của học sinh

(3) Phương pháp phân cụm K-means nhằm phân nhóm năng lực học sinh (4) Phương pháp suy luận mờ kết hợp mạng SOM để chọn lựa cụm chiến thắng đối với mỗi học sinh

(5) Phương pháp phân lớp k-NN nhằm phân loại học sinh thuộc năng lực phù hợp đối với các môn thi tổ hợp

(6) Mô hình và thuật toán nhằm xây dựng công cụ tư vấn cho học sinh chọn lựa các môn thi tổ hợp

1.2.2 Phương pháp nghiên cứu

Để thực hiện đề tài này, các phương pháp nghiên cứu sau đây được áp dụng:

(1) Phương pháp đánh giá, so sánh: các phương pháp đánh giá năng lực học sinh lần lượt được khảo sát để từ đó phân tích các ưu, khuyết điểm của từng phương pháp Trên cơ sở này, một phương pháp cải tiến được đề xuất nhằm phù hợp với môi trường thực nghiệm cũng như phù hợp với bối cảnh, cụ thể là kỳ thi tốt nghiệp THPT Quốc gia

(2) Phân tích cơ sở lý thuyết: dựa trên nền tảng về khoa học dữ liệu, khai phá dữ liệu, các phương pháp phù hợp được phân tích và lựa chọn nhằm tạo ra một phương pháp tư vấn chọn môn thi tổ hợp cho học sinh

Trang 25

(3) Phương pháp mô hình hóa: dựa trên cơ sở lý thuyết đã được lựa chọn và cơ sở thực tế của kỳ thi tốt nghiệp THPT Quốc gia, một mô hình được xây dựng nhằm làm nền tảng cho quá trình tạo ra công cụ hỗ trợ tư vấn cho học sinh cũng như đề xuất các thuật toán phù hợp

(4) Phương pháp thực nghiệm: trên cơ sở lý thuyết đã được đề xuất, một ứng dụng thực nghiệm được xây dựng nhằm minh chứng tính đúng đắn của mô hình và các thuật toán Quá trình thực nghiệm được thực hiện theo 2 giai đoạn gồm huấn luyện mô hình và kiểm thử tính đúng đắn của dữ liệu

1.3 LĨNH VỰC NGHIÊN CỨU

Đề tài luận văn tiếp cận xây dựng một hệ tư vấn cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia Công cụ này được xây dựng dựa trên phân tích dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Các lĩnh vực nghiên cứu này được kết hợp nhằm xây dựng một hệ thống tư vấn để từ đó áp dụng cho học sinh THPT Trên cơ sở này, kết quả đề tài có thể áp dụng trong các hệ tư vấn khác: tư vấn sản phẩm khách hàng, tư vấn chọn sản phẩm, tư vấn trong sản xuất…

Đối với lĩnh vực khai phá dữ liệu, đề tài luận văn thực hiện việc trích xuất các dữ liệu hữu ích của học sinh để từ đó đưa ra quyết định lựa chọn môn thi tổ hợp phù hợp Trong lĩnh vực nghiên cứu này, phương pháp gom cụm K-means và phân lớp k-NN được áp dụng làm cơ sở cho hệ thống tư vấn

Đối với lĩnh vực trí tuệ nhân tạo, đề tài luận văn áp dụng kỹ thuật học không giám sát, bán giám sát nhằm tạo ra một hệ thống thông minh để trích xuất dữ liệu phù hợp cho mỗi học sinh Từ đó, một hệ thống tự động tư vấn cho học sinh được thực hiện dựa trên một cơ sở khoa học nhất định

Hệ thống phân tích dữ liệu của học sinh THPT tạo ra các phân nhóm Phương pháp phân tích dữ liệu trên mạng SOM và suy luận mờ được áp dụng nhằm tìm ra dữ liệu phù hợp phục vụ tư vấn cho học sinh Dữ liệu này được phân lớp bằng k-NN để phân loại năng lực học sinh đối với các môn thi tổ hợp

Trang 26

Như vậy, công cụ tư vấn cho học sinh chọn môn thi tổ hợp là sự kết hợp của các lĩnh vực về khoa học dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Kết quả của đề tài luận văn là một mô hình, thuật toán và công cụ hỗ trợ cho học sinh Công cụ này có thể giúp ích trong các hệ thống tư vấn khác nhau trong từng lĩnh vực Đồng thời, đây là một minh chứng áp dụng trí tuệ nhân tạo trong việc quyết định hỗ trợ cho người dùng

1.4 NỘI DUNG NGHIÊN CỨU

Hệ thống theo dõi kết quả học tập của học sinh THPT và tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia giúp học sinh phát triển năng lực Hệ thống hỗ trợ tư vấn được xây dựng dựa trên kỹ thuật phân cụm, suy luận mờ và kỹ thuật phân lớp Đề tài tiếp cận thuật toán K-means phân cụm theo năng lực học sinh và đưa ra những tư vấn phù hợp với năng lực giúp học sinh dễ dàng đăng ký chọn tổ hợp môn thi Kết quả của đề tài được ứng dụng trong chính ngôi trường THPT tôi đang công tác Nội dung nghiên cứu cụ thể như sau:

(1) Nghiên cứu các công trình liên quan đã có đồng thời phân tích các ưu, nhược điểm để từ đó đưa ra các kỹ thuật cải tiến phù hợp cho bài toán

(2) Nghiên cứu các kỹ thuật khai phá dữ liệu, phân tích dữ liệu nhằm tạo ra một nguồn cho bài toán tư vấn chọn môn thi tổ hợp của học sinh

(3) Nghiên cứu các kỹ thuật học không giám sát, bán giám sát để từ đó thực hiện gom cụm, phân lớp dữ liệu của học sinh THPT

(4) Nghiên cứu phương pháp phân cụm K-means và mô hình phân loại SOM kết hợp với k-NN

1.5 QUÁ TRÌNH THỰC HIỆN 1.5.1 Các bước thực hiện

Để thực hiện hệ tư vấn cho học sinh chọn tổ hợp môn cho kỳ thi tốt nghiệp THPT Quốc gia, nội dung luận văn được thực hiện theo các bước như sau:

Trang 27

(1) Tìm các tài liệu của Bộ GD&ĐT liên quan đến thông tin kỳ thi tốt nghiệp THPT Quốc gia, đồng thời nghiên cứu các quy chế đánh giá năng lực của học sinh

(2) Phân tích các công trình liên quan và chọn các phương pháp phù hợp: - Phân tích thông tin về đặc trưng đánh giá kết quả học tập của học sinh để phân cụm theo năng lực học sinh

- Xây dựng mô hình thực hiện công cụ tư vấn cho học sinh

- Nghiên cứu các phương pháp phân cụm K-means, phân loại trên mạng SOM, phân lớp k-NN và hệ suy luận mờ

- Xây dựng một hệ tư vấn hỗ trợ ra quyết định cho học sinh về đánh giá năng lực cũng như khả năng của học sinh cho từng tổ hợp môn thi cụ thể

- Đề xuất thuật toán nhằm chuyển đổi dữ liệu đánh giá học sinh và tư vấn chọn môn thi

- Xây dựng ứng dụng thực nghiệm và đánh giá hiệu suất của phương pháp đồng thời so sánh với các phương pháp khác

1.5.2 Các kỹ thuật cần nghiên cứu

Trong hệ thống này, một mô hình mạng SOM cần được xây dựng để dự báo cho từng học sinh dựa trên điểm số Do đó, một cơ chế suy luận cần phải được thực hiện trên hệ thống này Có hai phương pháp thông dụng để thực hiện đó là kỹ thuật học có giám sát và kỹ thuật học không giám sát Trong mô hình phân cụm của thuật toán K-means, các đặc trưng của mỗi dữ liệu được kết hợp và đánh giá độ đo tương tự sao cho hai phần tử bất kỳ trong cùng một cụm có độ đo gần nhau và hai phần tử khác cụm có độ đo khác biệt lớn

Mặt khác, phương pháp học có giám sát được xây dựng dựa trên các mẫu dữ liệu huấn luyện có gán nhãn trước để từ đó xây dựng mô hình cho việc phân loại Trong luận văn này, mạng SOM được thực hiện huấn luyện để tạo các trọng số nhằm phân lớp dữ liệu đầu vào Do đó, kỹ thuật học có giám sát được

Trang 28

áp dụng trên mạng SOM với bộ dữ liệu huấn luyện mẫu được lấy từ kết quả của thuật toán K-means trong quá trình phân cụm học sinh Đây là quá trình kết hợp giữa việc học không giám sát và có giám sát Tuy nhiên, để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng gần nhất Đây là phương pháp không cần huấn luyện mô hình nhưng có thể phân lớp dựa trên bộ dữ liệu mẫu Vì vậy, kỹ thuật học bán giám sát cần phải được thực hiện và áp dụng trên bộ dữ liệu học sinh trên cơ sở thuật toán k-NN

1.5.3 Các công cụ áp dụng

Để thực hiện các kỹ thuật học không giám sát, có giám sát và bán giám sát nhằm tạo ra một hệ tư vấn chọn tổ hợp môn cho học sinh thi tốt nghiệp THPT Quốc gia, các đối tượng sau đây được áp dụng:

(1) Phân cụm đối tượng K-means: đây là kỹ thuật học không giám sát nhằm gom cụm các học sinh có mức độ tương tự nhau trở thành một nhóm Quá trình này độc lập với việc gán nhãn các bộ dữ liệu mẫu ban đầu mà chỉ phụ thuộc vào độ đo tương tự dựa trên các thuộc tính của mỗi học sinh

(2) Phân loại đối tượng trên SOM: trên cơ sở các cụm của thuật toán means đã được tạo ra, mỗi cụm là một phân loại cho mạng SOM, đồng thời hai cụm có thể đánh dấu láng giềng với nhau nếu như hai tâm cụm có độ tương tự nhỏ hơn một ngưỡng cho trước Để thực hiện phân loại trên mạng SOM, các trọng số được huấn luyện dựa trên mẫu phân loại do thuật toán K-means tạo ra Đây là quá trình học có giám sát và áp dụng trên bộ dữ liệu của học sinh với việc gán nhãn là các phân nhóm của các cụm

K-(3) Trên mỗi một cụm chiến thắng thì ứng với một bộ dữ liệu của học sinh, phương pháp k-NN được thực hiện để phân loại các học sinh theo các phân lớp đã được gán nhãn Việc lựa chọn này dựa trên các tần suất xuất hiện của các phân lớp trên cụm chiến thắng Trên cơ sở này, dữ liệu mới của mỗi học sinh được phân lớp vào các lớp chiếm ưu thế Do đó, thực hiện được quá

Trang 29

trình tư vấn chọn tổ hợp môn học cho từng học sinh Quá trình này được thực hiện trên cơ sở phương pháp học bán giám sát vì thuật toán k-NN không cần phải huấn luyện mô hình nhưng phải dựa trên các mẫu phân lớp đã được gán nhãn trước

1.5.4 Nội dung các chương trong luận văn

Đề tài luận văn thực hiện xây dựng một công cụ hỗ trợ cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, qua đó các phương pháp xử lý và phân tích dữ liệu được áp dụng nhằm tạo ra một mô hình, kỹ thuật xử lý dữ liệu của học sinh Trên cơ sở này, nội dung của đề tài luận văn được thực hiện gồm ba chương và phần kết luận, cụ thể như sau:

Chương 1 Tổng quan về hệ tư vấn cho học sinh chọn môn thi: trong

chương này, các thông tin của học sinh được khảo sát và phân tích Từ đó, các công cụ về trí tuệ nhân tạo, khai phá dữ liệu lần lượt được khảo sát và chọn lựa Các đối tượng nghiên cứu, phương pháp nghiên cứu, quá trình thực hiện cũng được đề xuất nhằm áp dụng xây dựng công cụ hỗ trợ tư vấn cho học sinh

Chương 2 Hệ tư vấn chọn môn thi tổ hợp cho học sinh: trong chương

này lần lượt phân tích các công cụ khai phá dữ liệu nhằm áp dụng cho hệ tư vấn, gồm: phương pháp phân cụm K-means, phương pháp chọn lựa cụm dựa trên mạng SOM và suy luận mờ, phương pháp phân lớp dựa trên k-NN Các phương pháp được thực hiện trên các dữ liệu cụ thể của học sinh THPT nhằm làm cơ sở cho việc xây dựng hệ thống tư vấn chọn môn thi tổ hợp trong kỳ thi tốt nghiệp THPT Quốc gia Trong chương này cũng phân tích sự phù hợp của từng phương pháp đối với dữ liệu học sinh và sự phù hợp về mặt khoa học cũng như quá trình xử lý

Các bước thực hiện của mô hình được phân tích và trình bày nhằm làm cơ sở xây dựng ứng dụng thực nghiệm Các thuật toán dựa trên mô hình được đề xuất nhằm làm cơ sở thực nghiệm, minh chứng tính đúng đắn của mô hình

Trang 30

Chương 3 Thực nghiệm: trong chương này thiết kế một hệ thống thực

nghiệm trên một môi trường lập trình cụ thể Các dữ liệu thực nghiệm và kết quả thực nghiệm cũng được phân tích và đánh giá nhằm minh chứng tính hiệu quả của phương pháp đề xuất Mỗi thuật toán cũng sẽ được mô tả cụ thể và các ví dụ được áp dụng nhằm minh chứng tính đúng đắn và khả thi.Các kết quả thực nghiệm này cũng sẽ được đánh giá và phân tích tính khả thi trên nhiều bộ dữ liệu khác nhau theo từng năm ứng với các trường THPT trong địa bàn Thành phố Vũng Tàu Từ đó, một kết luận và định hướng phát triển được đề nghị nhằm xây dựng các hệ thống, công cụ tư vấn cho từng lĩnh vực.

1.6 TỔNG KẾT CHƯƠNG

Trong chương này, nội dung luận văn đã tiếp cận quá trình xây dựng một hệ tư vấn cho học sinh chọn tổ hợp môn thi cho kỳ thi tốt nghiệp THPT Quốc gia Các đối tượng nghiên cứu và phương pháp nghiên cứu lần lượt được xác định dựa trên quá trình phân tích các công trình liên quan đã được công bố gần đây Qua việc phân tích này, hệ thống được đề xuất mang tính chất khả thi và cải tiến trên thuật toán K-means, mạng SOM và thuật toán k-NN Từ đó, một mô hình tổng quát cho hệ tư vấn này được đề xuất và áp dụng trên bộ dữ liệu khảo sát tại các trường THPT trên địa tỉnh Bà Rịa – Vũng Tàu Các kỹ thuật học có giám sát, bán giám sát, không giám sát lần lượt được áp dụng trên mô hình tương ứng với các thuật toán K-means, mạng SOM, k-NN Trên cơ sở này, các kỹ thuật được triển khai và mô tả chi tiết trong các phần tiếp theo của luận văn bao gồm việc xây dựng hệ thống tư vấn trên các bộ dữ liệu cụ thể và thực hiện đánh giá hiệu suất của quá trình gom cụm, phân lớp trên từng mỗi bộ dữ liệu cụ thể

Trang 31

Chương 2 HỆ TƯ VẤN CHỌN MÔN THI TỔ HỢP CHO HỌC SINH

2.1 TỔNG QUAN

Trên cơ sở lý thuyết đã khảo sát tại chương 1, nội dung chương này tiếp cận các công cụ xử lý dữ liệu bao gồm phương pháp gom cụm, phương pháp chọn cụm chiến thắng và phân lớp dữ liệu Để thực hiện các phương pháp này, nội dung của chương lần lượt tiếp cận phương pháp gom cụm K-means nhằm gom nhóm các dữ liệu học sinh, sau đó thực hiện chọn cụm chiến thắng bằng cách huấn luyện mạng SOM Để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng của cụm chiến thắng Các công cụ này lần lượt được phân tích dựa trên các bộ dữ liệu cụ thể của học sinh nhằm làm cơ sở xây dựng thực nghiệm về hệ tư vấn chọn tổ hợp môn

Dữ liệu HS được sưu tập từ các trường THPT tại Thành phố Vũng Tàu, sau đó tổng hợp, chuẩn hóa và áp dụng thuật toán K-means để phân nhóm cho các học sinh theo mức độ học lực Tại mỗi cụm, một véc-tơ trọng số được khởi tạo và huấn luyện để làm cơ sở chọn lựa véc-tơ chiến thắng trong mô hình mạng SOM Trong quá trình huấn luyện này được thực hiện bằng cách cập nhật trọng số sao cho giảm sai số của quá trình lựa chọn cụm chiến thắng Việc huấn luyện được thực hiện cho đến khi mạng hội tụ nghĩa là đạt được một sai số đủ nhỏ để có thể chọn lựa cụm chiến thắng ứng với dữ liệu của một học sinh đầu vào

Với mỗi học sinh, dữ liệu điểm số được trích xuất và chuẩn hóa nhằm thực hiện chọn một cụm chiến thắng và các cụm láng giềng trên mạng SOM Trên cơ sở các phần tử chiến thắng, thuật toán k-NN được áp dụng để phân loại học sinh trên cơ sở các phần tử láng giềng và tính toán tần suất xuất hiện của các phân lớp gần nhất trên cụm chiến thắng và trên các cụm láng giềng Vì vậy, trong chương này xây dựng mô hình và tiếp cận các nội dung về một hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia

Trang 32

2.2 PHÂN CỤM DỮ LIỆU DỰA TRÊN K-MEANS 2.2.1 Thuật toán K-Means

Thuật toán K-Means nhằm thực hiện gom cụm các dữ liệu sao cho hai phần tử thuộc cụm có độ tương đồng gần nhau và hai phần tử khác cụm có độ

tương đồng xa nhau [3, 5, 6] Quá trình phân cụm được thực hiện trên N điểm

dữ liệu mà mỗi điểm dữ liệu thuộc không gian Rd, tức là mỗi điểm dữ liệu có d

chiều Số cụm dữ liệu được chọn trước tương ứng với số phân nhóm học sinh theo học lực (Giỏi, Khá, Trung bình, Yếu, Kém); trong đó tâm cụm ban đầu được chọn một cách ngẫu nhiên và huấn luyện sao cho các tâm cụm này hội tụ nghĩa là các tâm cụm không thay đổi sau các bước phân cụm Để đánh giá độ đo giữa hai điểm trong quá trình phân cụm, khoảng cách Euclide được sử dụng

trên không gian dữ liệu d chiều

Cho một tập dữ liệu có N điểm dữ liệu x1, x2,…,xN sao cho mỗi điểm dữ7

liệu xi thuộc không gian Rd Thuật toán K-means được thực hiện như sau:

Thuật toán: K-means

Đầu vào: N điểm dữ liệu x1, x2,…,xN

Trang 33

Bước 3: Cập nhật tâm cụm

For i = 1 to k do

ci= average {xti: t = 1 |i|};

EndFor

Bước 4: Kiểm tra tâm cụm

If (ci thay đổi, i = 1 k) then

Quay lại Bước 2;

ElseIf

return ;

EndIf End

Thuật toán K-means được thực hiện bằng cách khởi tạo ngẫu nhiên các

tâm cụm c1, c2,…, ck Sau đó, mỗi phần tử xi trong tập dữ liệu ban đầu được phân bố vào cụm j (j = 1 k) dựa trên độ đo Euclide nhỏ nhất Sau quá trình

này, mỗi một cụm là một tập các phần tử gần nhau theo độ đo Euclide Sau quá trình phân bố, các tâm cụm được cập nhật bằng cách tính giá trị trung bình của các phần tử trong mỗi cụm Sau khi cập nhật tâm cụm, việc kiểm tra sự thay đổi tâm cụm được thực hiện Nếu một tâm cụm bất kỳ có sự thay đổi về mặt giá trị thì quá trình phân bố cụm được thực hiện lại (tức thực hiện lại bước 2) Ngược lại, tức là tâm cụm hội tụ thì kết quả là tâm các cụm được trả về

Tại bước 1 của thuật toán, các tâm cụm được chọn ngẫu nhiên và kiểm

tra sự khác biệt giữa các tâm cụm Quá trình này thực hiện k lần, mỗi lần so

sánh sự khác biệt, do đó số phép toán kiểm tra là: 1 + 2 + … + (k − 1) = [1 + (𝑘 − 1)][𝑘 − 1]

𝑘(𝑘 − 1)

2− 𝑘)

Vì k là số cụm có độ lớn là cố định và không đáng kể nên độ phức tạp tại

bước 1 là hằng số

Trang 34

Tại bước 2 của thuật toán, thực hiện quá trình phân bố tập dữ liệu vào các cụm, mỗi lần phân bố thực hiện so sánh để tìm cụm gần nhất Do đó, số phép toán tại bước 2 là:

∑(1 + 𝑘) = 𝑁 + 𝑘 ∗ 𝑁 = 𝑁(1 + 𝑘)

Tại bước 3, thực hiện quá trình cập nhật tâm bằng cách tính giá trị trung

bình và được thực hiện k lần Do đó, số phép toán là:

∑ 1 = 𝑘

𝑖 = 1

Bước 4 của thuật toán kiểm tra sự thay đổi và gọi lại bước 2 của thuật

toán Trong trường hợp xấu nhất, thuật toán được gọi lại N lần Do đó, số phép

toán trong trường hợp xấu nhất là:

𝑁(𝑁(1 + 𝑘) + 𝑘) = 𝑁2(1 + 𝑘) + 𝑁 ∗ 𝑘

Trong trường hợp dữ liệu lớn, tức là N là số rất lớn thì k là số không đáng kể, nên độ phức tạp của thuật toán K-means là O(N2)

2.2.2 Ví dụ thực nghiệm cho thuật toán K-means

Để minh họa việc áp dụng của thuật toán K-means, trong phần này mô tả gom cụm một bộ dữ liệu mẫu của học sinh Dữ liệu bao gồm điểm trung bình cả năm các môn Toán, Văn, Anh, KHTN (Lý, Hóa Sinh), KHXH (Sử, Địa, Giáo dục công dân) của 50 em học sinh lớp 11 trường THPT Trần Nguyên Hãn năm học 2018-2019, được mô tả như sau:

CD KHXH

Ng.ngữ

1 Nguyễn Văn An 4.5 6.4 5.0 6.6 6.0 5.3 7.4 6.9 5.8 6.7 5.6 2 Nguyễn Hương Anh 7.8 7.0 7.1 7.7 7.3 6.9 8.3 7.4 6.7 7.5 8.4 3 Nguyễn Tr Phương Anh 5.4 5.9 5.3 6.4 5.9 6.5 7.4 8.2 5.1 6.9 5.6 4 Nguyễn Vân Anh 5.7 6.2 5.4 6.9 6.2 6.2 7.7 7.6 5.8 7.0 5.5 5 Trần Ngọc Anh 4.9 6.3 5.3 8.0 6.5 6.2 7.6 7.9 6.9 7.5 5.4

Trang 35

STT Họ và tên Toán Lí Hóa Sinh KH

CD KHXH

Ng.ngữ

6 Lê Phạm Hải Bình 5.9 6.7 5.5 6.9 6.4 5.5 8.6 8.1 6.2 7.6 7.0 7 Trần Văn Chung 6.2 6.9 6.5 6.8 6.7 7.1 8.5 8.3 5.4 7.4 5.9 8 Huỳnh Quốc H Cường 7.2 6.9 6.2 6.1 6.4 6.2 8.0 8.3 5.6 7.3 5.2 9 Phạm Công Danh 6.6 6.3 6.1 6.6 6.3 4.8 8.5 7.8 5.8 7.4 6.6 10 Trần Quốc Dũng 5.7 6.8 6.7 7.0 6.8 5.5 7.5 7.3 6.1 7.0 5.7 11 Phạm Thị Mỹ Duyên 5.4 5.8 5.1 7.1 6.0 6.9 8.8 8.0 7.5 8.1 4.8 12 Trần Như Tiến Đạt 5.5 5.0 5.3 5.2 5.2 4.4 6.8 7.2 5.1 6.4 4.0 13 Võ Thành Đạt 6.1 6.7 5.3 7.1 6.4 6.7 8.4 8.7 7.0 8.0 7.5 14 Nguyễn Văn Hải 6.9 6.0 5.6 7.4 6.3 5.8 7.5 8.7 6.5 7.6 4.9 15 Hứa Thị Mỹ Hiền 6.0 6.0 5.3 7.7 6.3 7.3 8.5 8.2 6.8 7.8 7.1 16 Vũ Tuấn Hoan 5.1 4.8 4.7 4.8 4.8 4.7 7.1 8.4 5.5 7.0 5.0 17 Lê Đức Huy 6.0 7.3 6.1 7.6 7.0 4.8 7.8 7.6 6.2 7.2 5.0 18 Phan Thanh Huy 5.6 5.4 5.1 6.7 5.7 4.6 7.2 7.7 5.3 6.7 5.4

19 Tống Công Huy 6.5 6.6 6.2 6.6 6.5 6.0 7.8 8.3 5.6 7.2 5.9 20 Dương Trung Kiên 5.4 5.0 4.6 5.9 5.2 3.7 6.7 6.9 6.8 6.8 6.7 21 Lê Bảo Lộc 6.9 6.9 6.2 7.6 6.9 7.0 9.0 9.1 8.2 8.8 5.6 22 Nguyễn Ngọc Thảo Ly 6.6 6.8 6.7 7.4 7.0 7.2 6.5 8.1 5.5 6.7 6.7 23 Vũ Hải Nam 6.0 5.2 6.9 4.9 5.7 3.9 6.8 7.2 5.5 6.5 5.1 24 Trần Trung Nghị 8.1 8.1 7.3 7.8 7.7 5.8 8.7 7.6 6.8 7.7 6.9 25 Nguyễn Hoài Nhi 5.1 6.0 6.3 7.3 6.5 6.7 8.2 7.0 4.5 6.6 5.6 26 Nguyễn Thái Phúc 6.7 6.4 5.2 7.0 6.2 5.9 8.2 8.2 6.4 7.6 5.8 27 Lê Chí Tâm 7.6 7.8 7.9 7.8 7.8 6.7 8.6 8.3 6.2 7.7 5.8

28 Lê Thị Thanh Tâm 5.3 6.4 5.0 7.4 6.3 6.3 8.8 8.8 7.3 8.3 4.6 29 Trần Như Tiến Thành 5.0 4.6 5.8 5.8 5.4 4.9 7.8 7.5 5.0 6.8 3.5 30 Nguyễn Thanh Thảo 4.8 5.5 4.7 6.6 5.6 6.5 8.0 6.9 6.5 7.1 6.4 31 Đinh Thị Diễm Thúy 4.1 6.3 5.3 7.4 6.3 6.3 8.5 7.5 6.1 7.4 4.9 32 Võ Phạm Anh Thư 7.7 7.9 7.6 8.1 7.9 7.1 8.1 8.9 7.5 8.2 7.9 33 Thái Thanh Thương 7.5 7.1 6.2 7.4 6.9 5.6 7.6 7.6 7.2 7.5 5.1 34 Đỗ Thị Thủy Tiên 7.1 6.6 6.1 7.7 6.8 6.1 8.1 8.9 7.0 8.0 6.4 35 Lê Sinh Tiến 5.7 6.3 5.0 5.2 5.5 4.0 7.8 7.1 5.8 6.9 5.9 36 Đường Minh Trang 5.4 7.5 6.2 7.7 7.1 6.4 8.3 7.6 7.2 7.7 6.1

Trang 36

STT Họ và tên Toán Lí Hóa Sinh KH

CD KHXH

Ng.ngữ

37 Lê Nguyễn Hiền Trang 8.5 7.6 7.4 7.9 7.6 7.3 8.8 9.2 7.7 8.6 6.4 38 Bùi Thị Thẩm Trân 6.4 5.9 6.3 7.7 6.6 6.5 8.9 9.1 7.4 8.5 6.2 39 Nguyễn Thanh Trúc 6.2 6.7 5.7 8.1 6.8 6.3 8.1 8.3 6.9 7.8 5.1 40 Nguyễn Minh Tùng 5.0 5.8 6.0 6.7 6.2 6.0 7.3 7.9 5.5 6.9 5.0 41 Nguyễn Thị Ánh Tuyết 7.4 6.5 5.7 8.1 6.8 7.0 8.2 8.3 6.1 7.5 5.4 42 Ngô Thi Khả Vy 4.9 6.2 5.6 8.0 6.6 7.3 8.7 8.9 7.2 8.3 4.9 43 Bùi Minh Đông Anh 6.5 5.5 7.0 7.2 6.6 5.3 7.2 7.3 7.0 7.2 5.5 44 Bùi Minh Xuân Anh 7.5 6.5 7.8 7.8 7.4 6.4 7.6 8.3 7.6 7.8 7.0

45 Ngô Xuân Tú Anh 7.4 6.2 5.3 6.9 6.1 5.1 6.4 6.8 6.8 6.7 5.2

46 Bùi Thanh Bình 5.8 4.8 5.4 5.8 5.3 3.8 6.3 6.4 6.1 6.3 5.9

47 Phạm Tú Chi 6.9 5.4 6.2 6.6 6.1 5.4 7.8 7.4 7.4 7.5 5.8 48 Phạm Đức Doanh 4.8 3.9 3.8 5.9 4.5 3.8 6.7 5.0 5.3 5.7 2.9 49 Vũ Hương Giang 6.5 6.1 6.5 7.2 6.6 5.9 7.5 6.8 7.2 7.2 5.6 50 Đào Văn Hạnh 8.0 6.5 6.9 6.4 6.6 5.2 7.8 7.7 7.2 7.6 7.2

Để thực hiện quá trình phân cụm, bước đầu tiên cần chuẩn hóa dữ liệu nhằm chuyển đổi miền giá trị về [0,1], kết quả chuẩn hóa như sau:

1 0.09 0.44 0.44 0.33 0.49 2 0.84 0.82 0.89 0.58 1 3 0.3 0.4 0.78 0.4 0.49 4 0.36 0.49 0.69 0.44 0.47 5 0.18 0.6 0.69 0.58 0.45 6 0.41 0.55 0.5 0.63 0.75 7 0.48 0.66 0.94 0.56 0.55 8 0.7 0.56 0.69 0.53 0.42 9 0.57 0.54 0.31 0.55 0.67 10 0.36 0.69 0.5 0.42 0.51 11 0.3 0.44 0.89 0.78 0.35 12 0.32 0.19 0.19 0.23 0.2 13 0.45 0.55 0.83 0.76 0.84 14 0.64 0.54 0.58 0.61 0.36 15 0.43 0.54 1 0.7 0.76 16 0.23 0.07 0.28 0.43 0.38 17 0.43 0.74 0.31 0.49 0.38 18 0.34 0.36 0.25 0.34 0.45 19 0.55 0.58 0.64 0.51 0.55

Trang 37

STT Toán KHTN Văn KHXH Ng.ngữ

20 0.3 0.19 0 0.37 0.69 21 0.64 0.71 0.92 1 0.49 22 0.57 0.73 0.97 0.33 0.69 23 0.43 0.34 0.06 0.27 0.4 24 0.91 0.96 0.58 0.66 0.73 25 0.23 0.6 0.83 0.29 0.49 26 0.59 0.5 0.61 0.62 0.53 27 0.8 0.99 0.83 0.66 0.53 28 0.27 0.52 0.72 0.85 0.31 29 0.2 0.26 0.33 0.35 0.11 30 0.16 0.32 0.78 0.47 0.64 31 0 0.54 0.72 0.55 0.36 32 0.82 1 0.94 0.81 0.91 33 0.77 0.71 0.53 0.58 0.4 34 0.68 0.68 0.67 0.75 0.64 35 0.36 0.29 0.08 0.4 0.55 36 0.3 0.78 0.75 0.66 0.58 37 1 0.93 1 0.94 0.64 38 0.52 0.63 0.78 0.9 0.6 39 0.48 0.69 0.72 0.68 0.4 40 0.2 0.49 0.64 0.4 0.38 41 0.75 0.67 0.92 0.6 0.45 42 0.18 0.62 1 0.84 0.36 43 0.55 0.61 0.44 0.48 0.47 44 0.77 0.85 0.75 0.7 0.75 45 0.75 0.48 0.39 0.32 0.42 46 0.39 0.24 0.03 0.19 0.55 47 0.64 0.46 0.47 0.6 0.53 48 0.16 0 0.03 0 0 49 0.55 0.62 0.61 0.48 0.49 50 0.89 0.62 0.42 0.61 0.78

Bước 1: Chọn k tâm ngẫu nhiên (k=5); bộ dữ liệu thứ 10, 20, 30, 37, 47 c1 0.36 0.69 0.5 0.42 0.51

Trang 38

1 2 3 4 5 6 7 8 9 10 c4 1.33 0.56 1.06 0.99 1.02 0.92 0.71 0.73 0.98 1

Trang 39

Cụm 1 Toán KHTN Văn KHXH Ng.ngữ 36 0.3 0.78 0.75 0.66 0.58

Ngày đăng: 19/08/2024, 05:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN