Luận văn thạc sĩ Khoa học máy tính: Phát triển phương pháp học bán giám sát cho vấn đề dữ liệu thưa trong phân loại sinh viên sớm

NHIỆM VỤ LUẬN VĂN: Để thực hiện đề tài này, những nội dung chính cần được thực hiện như sau: - Tìm hiểu tổng quan về bài toán của đề tài, đặc biệt là vấn đề xử lý dữ liệu thưa trong bài

TỔNG QUAN

Giới thiệu

Ngày nay, với sự phát triển nhanh chóng trong lĩnh vực khai phá dữ liệu người ta đã có thể áp dụng các kỹ thuật khai phá dữ liệu để khám phá thông tin ẩn chứa trong khối lượng dữ liệu lớn ở nhiều ngành nghề, nền công nghiệp, trong đó có lĩnh vực giáo dục Khai phá dữ liệu trong môi trường giáo dục (Educational Data Mining – EDM) liên quan đến công việc phát triển các phương pháp khám phá tri thức từ dữ liệu có nguồn gốc từ môi trường giáo dục [10] và hỗ trợ việc ra quyết định ở các cơ sở giáo dục [14]

Bằng cách sử dụng các kỹ thuật này, nhiều loại tri thức có thể được khám phá như các luật kết hợp (association rule), phân loại (classification) hay gom cụm (clustering) Một trong những kết quả quan trọng mà EDM có thể hỗ trợ giáo viên hay cấp quản lý là việc đưa ra những dự báo về kết quả học tập của sinh viên Việc dự báo sớm kết quả học tập của sinh viên từ những năm học đầu giúp nhà trường hay khoa quản lý chuyên ngành có những biện pháp khuyến khích các sinh viên giỏi phát triển hay hỗ trợ kịp thời các sinh viên gặp khó khăn trong học tập Ở trường đại học Bách Khoa – Đại học quốc gia Thành phố Hố Chí Minh (gọi tắt là trường đại học Bách Khoa TP.HCM), vấn đề dự báo sớm kết quả học tập của sinh viên chính quy đang nhận được sự quan tâm đáng kể, thể hiện qua các công trình [1][2][3][4][5] Nhìn chung các nghiên cứu gần đây của các học viên cao học và giảng viên khoa Khoa học và Kỹ thuật máy tính (KH&KTMT) đặc biệt quan tâm đến việc phát hiện sớm những sinh viên gặp khó khăn trong học tập

Có nhiều yếu tố tác động đến kết quả học tập của sinh viên, cũng như có nhiều nguyên nhân làm sinh viên có kết quả học tập kém Chẳng hạn, sinh viên có hoàn cảnh gia đình khó khăn sẽ tìm việc làm thêm ngoài giờ học để trang trải chi phí

Chính điều này làm sinh viên dành ít thời gian cho học tập, dẫn đến việc học đạt kết quả thấp Tuy nhiên, để có được các thông tin bên ngoài cánh cửa nhà trường thế này là một việc khó khăn và tốn kém chi phí khi phải làm khảo sát Hơn nữa việc khảo sát có thể không đạt được kết quả như mong muốn, tức là tìm ra nguyên nhân chính dẫn đến việc học tập gặp trở ngại, vì sinh viên có thể không trả lời thành thật

2 (vì mặc cảm, chẳng hạn) hay vì chỉ khảo sát trên một số lượng ít sinh viên nên không thể đại diện cho tất cả sinh viên được

Do đó, nghiên cứu này, cũng như các nghiên cứu gần đây thực hiện ở trường đại học Bách Khoa, chỉ tập trung đến những gì sinh viên thể hiện ra trong học tập của mình, đó là điểm số cuối môn học của sinh viên.

Mục tiêu

Trước những vấn đề vừa nêu, mục tiêu chính của nghiên cứu này là phát triển một mô hình dự báo sớm kết quả học tập của sinh viên đại học trong hệ giáo dục theo học chế tín chỉ Nghiên cứu mong muốn mô hình này sẽ được dùng để phát hiện những sinh viên được dự báo là sẽ không tốt nghiệp sau thời gian học chính thức theo chương trình Việc dự báo sớm này nhằm giúp nhà trường, ban chủ nhiệm khoa và giáo viên chủ nhiệm đưa ra những biện pháp hỗ trợ kịp thời cho những sinh viên gặp khó khăn Đối tượng cụ thể để dự báo phân loại là sinh viên khoa KH&KTMT thuộc trường đại học Bách Khoa TP.HCM Để thực hiện được mục tiêu, với xem xét đến đặc điểm của dữ liệu đang nghiên cứu là dữ liệu thưa và dữ liệu chưa có nhãn lớp hiện hữu với số lượng lớn so với lượng dữ liệu đã có nhãn lớp, nghiên cứu này sẽ vận dụng các kỹ thuật xử lý dữ liệu thưa kết hợp với phương pháp học bán giám sát để đưa ra mô hình dự báo có độ chính xác cao nhất có thể.

Ý nghĩa khoa học và thực tiễn

Một mô hình phân lớp truyền thống sử dụng một tập huyến luyện (training set) gồm các mẫu đã có nhãn lớp để xây dựng một bộ phân lớp và sử dụng một tập thử (test set) gồm dữ liệu đã có nhãn khác để củng cố bộ phân lớp Trong bối cảnh của nghiên cứu này, dữ liệu có nhãn lớp chỉ đạt được khi sinh viên hoàn thành xong chương trình học chính thức (từ 4 đến 5 năm), và một bộ phân lớp có giám sát nếu được sử dụng thì chỉ được huấn luyện trên tập dữ liệu sinh viên đã hoàn thành thời gian học chính thức Trong khi đó, lượng dữ liệu chưa có nhãn lớp tồn tại rất nhiều

Do đó, nghiên cứu sẽ vận dụng và phát triển phương pháp phân lớp bán giám sát để có thể tận dụng dữ liệu chưa có nhãn cùng với dữ liệu đã có nhãn Việc làm này có

3 ý nghĩa khoa học ở chỗ hiện chưa có nhiều nghiên cứu vận dụng các kỹ thuật học bán giám sát trong lĩnh vực EDM

Ngoài ra, xét đến đặc điểm của dữ liệu đang nghiên cứu là dữ liệu thưa, nghiên cứu này sẽ phát triển một phương pháp học bán giám sát có tích hợp việc xử lý dữ liệu thưa một cách hiệu quả nhất Đây là một nét mới trong các nghiên cứu về các kỹ thuật học bán giám sát

Việc dự báo sớm những sinh viên gặp khó khăn trong học tập có ý nghĩa thực tiễn to lớn Kết quả dự báo giúp nhà trường hay khoa quản lý chuyên ngành có những biện pháp hỗ trợ kịp thời các sinh viên này

Nếu có thể xây dựng một bộ phân lớp có thể đưa ra dự báo một sinh viên có nguy cơ không tốt nghiệp ngay khi sinh viên vừa hoàn thành xong năm thứ hai thì việc đợi đến sau khi sinh viên này hoàn thành năm thứ ba hay thứ tư mới đưa ra dự báo thì dễ thấy việc dự báo trễ hơn sẽ ảnh hưởng đến việc giúp đỡ sinh viên này cũng như làm mất đi ý nghĩa của việc dự báo sớm.

Giới hạn của đề tài

Đề tài chỉ tập trung xử lý đặc điểm thưa của dữ liệu dùng trong nghiên cứu, do đó, không quan tâm đến việc xử lý các đặc điểm khác (nếu có) của tập dữ liệu này như không cân bằng nhãn lớp (class imbalance) hay dữ liệu chồng chập (overlapping).

Dữ liệu thưa

Định nghĩa dữ liệu không đầy đủ: Trong không gian N chiều cho tập dữ liệu trong đó mỗi đối tượng X được biểu diễn bằng N thuộc tính Tập dữ liệu này được gọi là không đầy đủ nếu một hoặc nhiều thuộc tính của một hoặc nhiều đối tượng không có giá trị

Trong tập dữ liệu dùng cho nghiên cứu này, mỗi sinh viên là một đối tượng và mỗi môn học trong chương trình là một thuộc tính Do trường đại học Bách Khoa đào tạo theo học chế tín chỉ nên sinh viên có quyền tự do chọn lựa các môn học, đồng thời không phải tất cả sinh viên đều học hết tất cả các môn có trong chương trình đào tạo Mặt khác, trong dữ liệu có các sinh viên với thời gian học ngắn, như sinh

4 viên mới hoàn thành năm thứ nhất, nên sẽ có rất nhiều môn chưa được học và do đó điểm số tại các môn đó là chưa có Điều này dẫn đến tập dữ liệu nghiên cứu là dữ liệu không đầy đủ, hay thưa, và mức độ thưa của dữ liệu được biểu diễn qua tỉ lệ phần trăm giá trị bị thiếu trong toàn bộ tập dữ liệu Các môn học chưa có điểm của sinh viên sẽ được gán giá trị là NULL như minh họa trong Bảng 1 dưới đây

Bảng 1 Minh họa dữ liệu thưa

MSSV MH01 MH02 MH03 … MH26 MH27 MH28 Nhãn / Trạng thái 50800001 8.0 7.0 7.5 … 8.0 NULL 7.1 Tốt nghiệp 50900001 3.0 2.0 3.5 … 5.0 6.0 NULL Buộc thôi học 51000001 7.0 9.0 8.1 … 7.0 NULL 0.0 Tốt nghiệp 51100001 8.0 8.0 7.2 … NULL NULL 8.0 Đang học 51200001 6.0 6.0 6.6 … 7.0 NULL NULL NULL

Trong Bảng 1, mỗi sinh viên được phân biệt qua Mã số sinh viên (MSSV) Giả sử các môn học MH01, MH02 và MH03 là các môn học bắt buộc, thì tại các môn này đều có dữ liệu điểm số của sinh viên Giả sử các môn MH26, MH27 và MH28 là các môn học tự chọn, do đó, dữ liệu điểm số tại các môn này có thể có hoặc có thể không (do sinh viên không chọn hoặc chưa được học, như một sinh viên ở Khóa 2015 có MSSV là 51500001)

Như vậy, dữ liệu không đầy đủ có thể xảy ra ở bất kỳ vector nào ở bất kỳ chiều nào trong tập dữ liệu điểm số môn học từ cơ sở giáo dục theo học chế tín chỉ.

Phương pháp phân lớp bán giám sát (SSC)

Một trong những phương pháp phổ biến để giải bài toán dự báo nhãn (mô tả về lớp/nhóm của các đối tượng dữ liệu) là phương pháp phân lớp

Bộ phân lớp truyền thống sử dụng dữ liệu đã được gắn nhãn để huấn luyện Dữ liệu gắn nhãn thường khó có được, hay tốn nhiều chi phí, thời gian để có được Trong khi đó, dữ liệu chưa được gắn nhãn thì tương đối dễ thu thập, nhưng hiện chỉ có ít cách sử dụng chúng Phương pháp phân lớp bán giám sát (Semi-Supervised Classi- fication – SSC) giải quyết vấn đề này bằng cách sử dụng nhiều dữ liệu chưa gắn

5 nhãn, cùng với dữ liệu đã gắn nhãn, để xây dựng các bộ phân lớp tốt hơn Bởi vì phương pháp phân lớp bán giám sát đòi hỏi ít sức người và cho độ chính xác cao hơn, phương pháp này được quan tâm ở cả trong lý thuyết và thực tế [43]

Trong nghiên cứu này chúng tôi sử dụng phương pháp phân lớp bán giám sát và phát triển phương pháp này trong ngữ cảnh của dữ liệu thưa để tạo ra một bộ phân lớp có khả năng sử dụng hiệu quả dữ liệu chưa gắn nhãn cho việc củng cố mô hình phân lớp

Sự lựa chọn này có những lý do sau:

• Tập dữ liệu gồm có điểm số các môn học của sinh viên trong chương trình đào tạo tại khoa KH&KTMT Trong đó, có các sinh viên đã hoàn thành thời gian học chính thức theo chương trình chính quy và trạng thái học tập (hay nhãn lớp) của các sinh viên này đã biết tại thời điểm thực hiện nghiên cứu

Tuy nhiên, trạng thái học tập của những sinh viên khác thì vẫn chưa có SSC có thể tận dụng dữ liệu chưa có nhãn lớp này, cùng với dữ liệu đã có nhãn lớp, để xây dựng mô hình phân lớp có độ chính xác cao hơn bộ phân lớp có giám sát chỉ được huấn luyện trên dữ liệu đã có nhãn [43]

• Việc dự báo sớm những sinh viên gặp khó khăn trong học tập có ý nghĩa quan trọng và SSC có thể tận dụng ngay dữ kiện chưa đầy đủ về điểm số của sinh viên để đưa ra dự báo sớm Như đã trình bày, nếu bộ phân lớp có thể đưa ra dự báo một sinh viên có nguy cơ không tốt nghiệp ngay khi sinh viên vừa hoàn thành xong năm thứ hai thì việc đợi đến sau khi sinh viên này hoàn thành năm thứ ba hay thứ tư mới đưa ra dự báo thì dễ thấy việc dự báo trễ hơn sẽ ảnh hưởng đến việc hỗ trợ kịp thời các sinh viên này

Kết luận chương: Khai phá dữ liệu trong môi trường giáo dục là một lĩnh vực đang nhận được sự quan tâm của các nhà nghiên cứu Tri thức có được từ việc khai phá dữ liệu giáo dục giúp nhà quản lý và giáo viên đưa ra quyết định đúng và kịp thời, đặc biệt trong việc phát hiện và giúp đỡ các sinh viên được dự báo là sẽ gặp khó khăn trong học tập

Trong chương này chúng tôi đã trình bày mục tiêu chính của đề tài là dự báo sớm kết quả học tập của sinh viên Để thực hiện mục tiêu này, giải pháp của đề tài là phát triển phương pháp học bán giám sát kết hợp với xử lý dữ liệu thưa một cách hiệu quả Việc lựa chọn giải pháp này có những ý nghĩa khoa học và thực tiễn nhất định Chúng tôi cũng đã giải thích sự không đầy đủ của dữ liệu nghiên cứu và lý do lựa chọn phương pháp phân lớp bán giám sát

CƠ SỞ LÝ THUYẾT

Dữ liệu

Định nghĩa 2.1 Mẫu Một mẫu 𝒙 đại diện một đối tượng cụ thể Mẫu thường được biểu diễn bởi một vector D-chiều 𝐱 = (𝑥 1 , … , 𝑥 𝐷 ) ∈ 𝑅 𝐷 với mỗi chiều được gọi là một thuộc tính (attribute) hay đặc trưng (feature) D gọi là chiều của vector Định nghĩa 2.2 Tập huấn luyện Một tập huấn luyện là một tập hợp các mẫu

(𝐱 𝑖 ) 𝑖=1 𝑛 = (𝑥 1 , … , 𝑥 𝑛 ) đóng vai trò là đầu vào của tiến trình học Ta giả sử các mẫu được lấy mẫu một cách độc lập từ một phân bố 𝑃(𝑥) mà ta chưa biết Ngoài ra, mỗi mẫu được gắn nhãn 𝑦 𝑖 , với i = 1 n Các nhãn 𝑦 𝑖 , thuộc tập hợp Y gồm hữu hạn các phần tử rời rạc.

Phương pháp học bán giám sát

Hầu hết các kỹ thuật học bán giám sát (Semi-Supervised Learning – SSL) dựa vào việc mở rộng hoặc cơ chế học có giám sát hoặc cơ chế học không giám sát để tận dụng thêm các thông tin đặc trưng của cơ chế kia Cụ thể, SSL bao gồm nhiều kịch bản khác nhau, trong đó có:

• Phân lớp bán giám sát (Semi-Supervised Classification – SSC) Phương pháp này còn được biết đến như phương pháp phân lớp sử dụng dữ liệu có nhãn và dữ liệu chưa có nhãn (hay dữ liệu đã có nhãn một phần) SSC là mở rộng của bài toán phân lớp có giám sát Tập huấn luyện gồm các mẫu đã có nhãn (𝐱 𝑖 , 𝑦 𝑖 ) 𝑖=1 𝑙 và các mẫu chưa gắn nhãn (𝐱 𝑗 ) 𝑗=𝑙+1 𝑙+𝑢 Người ta thường giả định rằng có nhiều dữ liệu chưa gắn nhãn hơn dữ liệu đã có nhãn, tức là 𝑢 ≫ 𝑙

Mục đích của SSC là huấn luyện bộ phân lớp 𝑓 từ cả dữ liệu đã có nhãn và dữ liệu chưa gắn nhãn, sao cho 𝑓 tốt hơn bộ phân lớp có giám sát được huấn luyện chỉ từ dữ liệu đã có nhãn

• Gom cụm có ràng buộc (constrained clustering) Đây là một mở rộng cho bài toán gom cụm không giám sát Tập huấn luyện gồm các mẫu chưa gắn nhãn (𝐱 𝑖 ) 𝑖=1 𝑛 , cùng với vài “thông tin có giám sát” về các cụm Ví dụ, một trong những thông tin đó là điều kiện must-link, ràng buộc hai mẫu 𝐱 𝑖 , 𝐱 𝑗 phải ở trong cùng một cụm, và ràng buộc cannot-link yêu cầu 𝐱 𝑖 , 𝐱 𝑗 không thể ở

8 cùng một cụm Ta cũng có thể đặt ràng buộc lên kích cỡ của cụm Mục tiêu của gom cụm có ràng buộc là để đạt được cách gom cụm tốt hơn cách gom cụm chỉ dùng dữ liệu chưa có nhãn

Ngoài ra còn có nhiều kịch bản SSL khác như hồi quy (regression) với dữ liệu đã có giá trị được quan sát và dữ liệu chưa có giá trị được quan sát, thu giảm số chiều (dimensionality reduction) khi mà dữ liệu đã có nhãn với số thuộc tính đã được thu giảm đã được cho trước

Trong nghiên cứu này chúng tôi tập trung vào phương pháp phân lớp bán giám sát

Phương pháp học bán giám sát có giá trị thực tiễn to lớn Trong nhiều bài toán, chỉ có một lượng nhỏ dữ liệu đã có nhãn Các nhãn 𝒚 có thể khó có được vì đòi hỏi cần có hỗ trợ từ con người, các dụng cụ đặc biệt, hoặc tốn kém và chậm có được Chẳng hạn, một số ứng dụng có thể kể đến như:

• Trong việc lọc thư điện tử rác (spam email), một mẫu 𝒙 là một thư điện tử, nhãn 𝒚 là đánh giá của người dùng (thư rác hay thư bình thường) Trong trường hợp này, vấn đề là kiên nhẫn của một người dùng trung bình trong việc phân loại một số lượng lớn email

• Trong việc theo dõi qua camera, một mẫu 𝒙 là một khung hình ảnh (video frame) và nhãn là đối tượng trong video đó Việc gắn nhãn một cách thủ công các đối tượng trong một số lượng lớn video ghi được là một việc nhàm chán và rất mất thời gian

• Trong môi trường giáo dục, một mẫu 𝒙 là một sinh viên và nhãn là trạng thái học tập khi sinh viên đi đến thời điểm cuối cùng của chương trình học Như vậy, để có được các nhãn này cần mất nhiều thời gian và khi có được nhãn, phát hiện những sinh viên còn đang gặp khó khăn chưa thể tốt nghiệp, nhà trường cũng khó có các biện pháp hỗ trợ kịp thời vì thời gian cho phép còn lại rất ngắn.

Phương pháp học bán giám sát inductive và transductive

Trong học bán giám sát có hai ngữ cảnh tương đối khác nhau, gọi là học bán giám sát inductive và transductive

Phương pháp học bán giám sát inductive: bộ phân lớp 𝑓 dự báo tốt dữ liệu trong tương lai Tương tự như trong học có giám sát, ta có thể đánh giá hiệu quả của 𝑓 lên dữ liệu tương lai bằng cách sử dụng một tập thử không có sẵn trong giai đoạn huấn luyện

Phương pháp học bán giám sát transductive: bộ phân lớp 𝑓 được xác định trên tập huấn luyện cho trước, và không yêu cầu dự báo cho dữ liệu bên ngoài khác.

Các bộ phân lớp nền

Bộ phân lớp C4.5 [32] là phiên bản mở rộng và cải tiến của ID.3 C4.5 sử dụng độ lợi thông tin đã chuẩn hóa (normalized information gain) hay tỉ suất độ lợi (gain ratio) như tiêu chuẩn để chia tách Thuộc tính nào có tỉ suất độ lợi cao nhất sẽ được chọn làm gốc của cây Giải thuật C4.5 lặp lại với một danh sách ít các thuộc tính hơn

Cho một tập huấn luyện D, tỉ suất độ lợi của một thuộc tính A dùng để phân hoạch D được tính theo công thức sau:

Trong đó, Gain(A) là độ sai biệt giữa trị thông tin Info(D) ban đầu (trước phân hoạch) và trị thông tin mới 𝐼𝑛𝑓𝑜 𝐴 (𝐷) (sau phân hoạch với A)

Trong đó, 𝐼𝑛𝑓𝑜(𝐷) là lượng thông tin cần để phân loại một phần tử trong D (= En- tropy của D); 𝑝 𝑖 là xác suất để một phần tử bất kỳ trong D thuộc về lớp 𝐶 𝑖 với 𝑖 10 1 𝑚; 𝐶 𝑖,𝐷 là tập các phần tử của lớp 𝐶 𝑖 trong D; 𝐷 𝑗 (𝑗 = 1 𝑣) là các phân hoạch tách bởi A, mỗi phân hoạch 𝐷 𝑗 gồm |𝐷 𝑗 | phần tử trong D

Cuối cùng, 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜 𝐴 (𝐷) là trị thông tin phân tách, được tính bởi công thức

2.4.2 Bộ phân lớp Random Tree

Random Tree [13] được dùng để tạo ra một cây có xem xét K thuộc tính được lựa chọn ngẫu nhiên ở mỗi nút Random Tree không sử dụng kỹ thuật tỉa (prune) cây

Random Tree (RT) là một bộ phân lớp có giám sát RT là một giải thuật học máy gộp tạo ra nhiều bộ học máy đơn RT chủ yếu là sự kết hợp của hai giải thuật học máy: cây mô hình đơn lẻ kết hợp với Random Forest [13] Random Forest là mô hình gồm các cây quyết định với mỗi nút lá giữ một mô hình tuyến tính được tối ưu hóa cho không gian thuộc tính phụ cục bộ mà nút lá này mô tả Random Forest đã được chứng minh cải thiện hiệu quả của cây quyết định đơn lẻ một cách đáng kể: sự phân biệt giữa các cây được tạo ra theo hai cách lấy ngẫu nhiên Đầu tiên, tập huấn luyện được lấy mẫu có thay thế cho mỗi cây đơn lẻ như trong bagging Thứ hai, khi phát triển một cây, thay vì phải luôn tính cách chia tách tốt nhất có thể cho mỗi nút, chỉ một tập con ngẫu nhiên của tất cả thuộc tính được xem xét ở mỗi nút, và cách chia tách tốt nhất cho tập con đó được tính

2.4.3 Bộ phân lớp Random Forest

Random Forest [13] là một bộ phân lớp gộp (ensemble) gồm nhiều cây quyết định random tree Giả thuyết cuối cùng của Random Forest hình thành bởi cơ chế biểu quyết đa số (majority vote) giữa các cây quyết định Để phân lớp một đối tượng mới từ một vector đầu vào, vector đầu vào được truyền xuống mỗi cây trong rừng cây (forest) Mỗi cây sẽ đưa ra kết quả phân lớp của mình Rừng cây chọn kết quả phân lớp được nhiều cây đưa ra nhất

Random Forest có thể được xây dựng qua các bước sau:

• Bước 1: Với một tập huấn luyện cho trước, trích xuất một tập mẫu mới bằng cách lấy mẫu ngẫu nhiên lặp lại n lần sử dụng phương pháp bootstrap

• Bước 2: Xây dựng một cây quyết định hay một cây hồi quy dựa vào tập mẫu có được từ bước 1

• Bước 3: Lặp lại bước 1 và 2, dẫn đến việc tạo ra nhiều cây, tạo thành một rừng cây (forest)

• Bước 4: Mỗi cây trong rừng cây gán nhãn lớp cho mỗi đối tượng 𝑥 𝑖 thuộc U

• Bước 5: Tính tổng các biểu quyết của mỗi lớp, lớp nào có nhiều biểu quyết nhất sẽ là lớp của 𝑥 𝑖

Các kỹ thuật học máy bán giám sát

Kỹ thuật học máy này có đặc điểm là tiến trình học máy sử dụng dự báo của nó để huấn luyện chính nó Vì vậy mà kỹ thuật này có tên gọi là kỹ thuật tự huấn luyện

(Self-Training) Self-Training là một phương pháp “bao ngoài” (wrapper) và có thể inductive hoặc transductive tùy thuộc vào bản chất của bộ phân lớp 𝑓

Giả định của phương pháp Self-Training: Self-Training giả định rằng những dự báo của chính nó, ít nhất là những dự báo có độ tự tin cao nhất, có xu hướng đúng Điều này rất có thể xảy ra trong trường hợp các lớp hình thành các cụm tách biệt tốt với nhau Ý tưởng chính là huấn luyện 𝑓 từ dữ liệu đã có nhãn Sau đó hàm 𝑓 được dùng để dự đoán nhãn cho dữ liệu chưa có nhãn Một tập con 𝑆 gồm các dữ liệu chưa có nhãn cùng với nhãn được dự đoán của chúng được chọn để làm tăng lượng dữ liệu có nhãn Thông thường 𝑆 chứa những mẫu có nhãn dự đoán với độ tự tin cao nhất

Sau đó hàm 𝑓 được huấn luyện lại trên một tập dữ liệu có nhãn lớn hơn 𝑆 cũng có thể là toàn bộ tập dữ liệu chưa có nhãn Trong trường hợp này thì 𝐿 và 𝑈 vẫn là toàn bộ tập huấn luyện, nhưng nhãn dự báo cho dữ liệu chưa có nhãn có thể thay đổi qua các lần lặp

Giải thuật Self-Training Đầu vào: dữ liệu đã có nhãn (𝐱 𝑖 , 𝑦 𝑖 ) 𝑖=1 𝑙 , dữ liệu chưa có nhãn (𝐱 𝑗 )

1 Khởi tạo: đặt 𝐿 = (𝐱 𝑖 , 𝑦 𝑖 ) 𝑖=1 𝑙 và 𝑈 = (𝐱 𝑗 ) 𝑗=𝑙+1 𝑙+𝑢 2 Lặp:

3 Huấn luyện 𝑓 từ tập 𝐿 sử dụng phương pháp học có giám sát

4 Áp dụng 𝑓 lên các mẫu trong tập 𝑈

5 Loại bỏ một tập con 𝑆 từ 𝑈; thêm {(𝐱, 𝑓(𝐱)|𝐱 ∈ 𝑆)} vào 𝐿

Lợi thế của phương pháp Self-Training là một phương pháp đơn giản, đồng thời cũng là một phương pháp “bao ngoài” Nghĩa là việc lựa chọn bộ phân lớp 𝑓 ở bước 3 hoàn toàn độc lập Chẳng hạn, bộ phân lớp đó có thể là một giải thuật K-NN đơn giản, hoặc một giải thuật hết sức phức tạp Tiến trình Self-Training “bao ngoài” bộ phân lớp mà không làm thay đổi cách thức hoạt động của bộ phân lớp Điều này quan trọng trong nhiều nhiệm vụ thực tế như xử lý ngôn ngữ tự nhiên, khi mà bộ học máy có thể là những “hộp đen” phức tạp không dễ thay đổi

Mặt khác, có thể xảy ra trường hợp một sai lầm mắc phải ở các giai đoạn đầu (một sự khởi đầu không trôi chảy do lượng mẫu có nhãn ít) có thể củng cố chính nó bằng cách tiếp tục tạo ra dữ liệu có nhãn sai Huấn luyện lại với lượng dữ liệu này sẽ dẫn đến một hàm 𝑓 tệ hơn trong lần lặp tiếp theo Nhiều heuristic được đề xuất nhằm tránh khỏi vấn đề này

Kỹ thuật học máy Co-Training [12] được áp dụng khi tập dữ liệu có các thuộc tính được chia tách một cách tự nhiên Ví dụ, một trang web có thể được mô tả bởi văn bản trên web đó, hoặc bởi các ký tự xuất hiện trên hyperlink chỉ đến trang web đó

Khác với Self-Training chỉ dùng một phân lớp, Co-Training sử dụng hai bộ phân lớp Ban đầu hai bộ phân lớp riêng rẽ được huấn luyện với dữ liệu đã có nhãn trên tương ứng hai tập thuộc tính Sau đó mỗi bộ phân lớp dự báo nhãn cho dữ liệu chưa có nhãn và “dạy” bộ phân lớp kia một vài mẫu chưa có nhãn (và đã được dự báo

13 nhãn) mà chúng cảm thấy tự tin nhất Mỗi bộ phân lớp được huấn luyện lại các mẫu huấn luyện thêm vào cho bởi bộ phân lớp kia

Giải thuật Co-Training Đầu vào: Dữ liệu đã có nhãn (𝐱 𝑖 , 𝑦 𝑖 ) 𝑖=1 𝑙 , dữ liệu chưa có nhãn (𝐱 𝑗 )

Mỗi mẫu có hai góc nhìn 𝐱 𝐢 = [𝐱 i (1) , 𝐱 𝑖 (2) ]

1 Khởi tạo tập huấn luyện 𝐿 1 = {(𝐱 1 (1) , 𝑦 1 ), … , (𝐱 l (1) , 𝑦 𝑙 )} và 𝐿 2 = {(𝐱 1 (2) , 𝑦 1 ), … , (𝐱 𝑙 (2) , 𝑦 𝑙 )}

2 Lặp cho đến khi toàn bộ dữ liệu được dùng hết:

3 Huấn luyện bộ phân lớp 𝑓 (1) cho góc nhìn 1 từ 𝐿 1 , và huấn luyện bộ phân lớp 𝑓 (2) cho góc nhìn 2 từ 𝐿 2 4 Phân lớp dữ liệu chưa có nhãn với 𝑓 (1) và 𝑓 (2) riêng biệt

5 Thêm k dự đoán tự tin nhất (𝐱, 𝑓 (1) (𝐱)) của 𝑓 (1) vào 𝐿 2

Thêm k dự đoán tự tin nhất (𝐱, 𝑓 (2) (𝐱)) của 𝑓 (2) vào 𝐿 1 Loại bỏ những dự đoán này ở tập dữ liệu chưa có nhãn

Co-Training là một phương pháp “bao ngoài”, tức là người dùng có thể lựa chọn bộ phân lớp nền 𝑓 (1) và 𝑓 (2) bất kỳ phục vụ công việc của mình Chỉ có một ràng buộc duy nhất là các bộ phân lớp nền có thể gán một mức độ tự tin cho dự báo của chính nó Mức độ tự tin này được dùng để chọn lựa mẫu chưa có nhãn nào được chuyển thành dữ liệu huấn luyện thêm vào cho góc nhìn kia

Giả định của phương pháp Co-Training:

• Các thuộc tính có thể được tách thành thành hai tập hợp, tạo thành hai góc nhìn

• Với số lượng đủ dữ liệu đã có nhãn, mỗi một góc nhìn đủ để huấn luyện một bộ phân lớp tốt

• Trong một lớp mỗi góc nhìn độc lập có điều kiện với nhau

Zhou và Li [41] đề xuất Tri-Training sử dụng ba bộ phân lớp Nếu hai trong ba bộ phân lớp đồng ý về kết quả phân lớp của một mẫu chưa có nhãn lớp, kết quả phân lớp này được sử dụng để dạy bộ phân lớp thứ ba Cách tiếp cận này tránh việc các bộ phân lớp phải đo mức độ tự tin của các dự báo phân lớp và có thể áp dụng lên các tập dữ liệu không có nhiều góc nhìn khác nhau hay đòi hỏi các bộ phân lớp khác nhau

Giải thuật Tri-Training được trình bày trong Hình 1 Đầu vào của giải thuật gồm một tập các phần tử đã có nhãn L với số lượng phần tử là |L|, một tập các phần tử chưa có nhãn U với số lượng phần tử là |U|, và một giải thuật học máy Đặt ℎ 1 , ℎ 2 và ℎ 3 lần lượt là các bộ phân lớp ban đầu, x là một mẫu trong tập U Ban đầu mỗi bộ phân lớp được huấn luyện từ một tập dữ liệu được tạo thành bởi phương pháp bootstrap sampling từ tập dữ liệu có nhãn ban đầu để giúp các bộ phân lớp phân biệt nhau Sau đó ba bộ phân lớp tiến hành gắn nhãn các mẫu trong U Nếu hai trong ba bộ phân lớp đồng ý về nhãn lớp được gắn cho một mẫu x dưới một số điều kiện nhất định, thì mẫu này được dùng để huấn luyện bộ phân lớp thứ ba Tiến trình này lặp lại đến khi không có bộ phân lớp ℎ 𝑖 (𝑖 = 1 .3) nào thay đổi Nhãn cuối cùng của một mẫu sẽ được xác định thông qua cơ chế biểu quyết đa số

Dễ thấy, nếu dự báo của ℎ 1 và ℎ 2 là đúng, thì ℎ 3 sẽ nhận được thêm một mẫu đúng cho các lần huấn luyện sau; ngược lại, ℎ 3 sẽ có thêm một mẫu nhiễu Tuy vậy, như đề cập trong [41], ngay cả trong trường hợp xấu nhất, tỉ lệ phân lớp nhiễu nếu có tăng lên cũng sẽ được bù đắp lại nếu có đủ số lượng mẫu được gắn nhãn mới thêm vào

Mã giả của giải thuật Tri-Training [41] được trình bày trong Hình 1 Trong đó,

Learn là một giải thuật học máy, 𝑆 𝑖 là tập huấn luyện có được từ bootstrap-sampling tập L ban đầu, 𝑒 𝑖 ′ là tỉ lệ error của ℎ 𝑖 ở vòng lặp thứ (𝑡 − 1) Giả sử rằng tỉ lệ error ban đầu là 0.5, nên 𝑒 𝑖 ′ được thiết lập là với giá trị 0.5 𝑒 𝑖 là tỉ lệ error của ℎ 𝑖 ở vòng lặp thứ 𝑡 𝐿 𝑖 là tập hợp các mẫu được gắn nhãn cho ℎ 𝑖 ở vòng lặp thứ 𝑡 𝑙 𝑖 ′ là số lượng phần tử trong 𝐿 𝑖 ở vòng lặp thứ (𝑡 − 1) và trong lần lặp đầu tiên 𝑙 𝑖 ′ được gán giá trị ⌊ 𝑒 𝑖

𝑒 𝑖 ′ + 1⌋ Hàm Subsample(𝐿 𝑖 , 𝑠) loại bỏ một cách ngẫu nhiên |𝐿 𝑖 | − 𝑠 số

15 lượng mẫu từ tập 𝐿 𝑖 để làm cho vòng lặp hiện tại đạt hiệu quả tốt hơn vòng lặp trước, như được chứng minh trong [41] Hàm MeasureError(ℎ 𝑗 &ℎ 𝑘 ) đánh giá tỉ lệ phân lớp sai của giả thuyết có được từ sự kết hợp của ℎ 𝑗 và ℎ 𝑘 Bởi vì khó để ước lượng tỉ lệ phân lớp sai trên các mẫu chưa có nhãn, giải thuật Tri-Training chỉ ước lượng trên tập huấn luyện đã gắn nhãn, với giả định rằng cả tập dữ liệu đã có nhãn và chưa có nhãn có cùng phân bố

Trong giải thuật Co-Training, một trong những yếu tố quan trọng nhất là đánh giá mức độ tự tin của các mẫu chưa có nhãn Đánh giá mức độ tự tin được thuận lợi từ hai tập con thuộc tính đủ và thừa khi mức độ gắn nhãn tự tin của một bộ phân lớp có thể được xem như là mức độ tự tin của chính nó cho một mẫu chưa có nhãn Khi hai tập con thuộc tính đủ và thừa không tồn tại, cross-validation được áp dụng trong mỗi vòng lặp để ước lượng độ tự tin của dữ liệu chưa có nhãn [19] Cách đánh giá độ tự tin không hiệu quả của Co-Training, đặc biệt là khi không tồn tại hai tập con thuộc tính, làm hạn chế sự mở rộng của giải thuật này trong thế giới thực

Phương pháp đánh giá kết quả

Trong công tác phân lớp, ta có các khái niệm sau đây để mô tả kết quả đạt được:

• True positive (tp; tạm dịch: dương đúng): số lượng mẫu được gắn nhãn đúng thuộc về lớp dương

• False positive (fp; tạm dịch: dương sai): số lượng mẫu được gắn nhãn sai thuộc về lớp dương

• True negative (tn; tạm dịch: âm đúng): số lượng mẫu được gắn nhãn đúng thuộc về lớp âm

• False negative (fn; tạm dịch: âm sai): số lượng mẫu được gắn nhãn sai thuộc về lớp âm (mà lẽ ra nên được gắn nhãn đúng thuộc về lớp dương)

Các thuật ngữ positive và negative mô tả dự báo của bộ phân lớp, và các thuật ngữ true và false cho biết liệu dự báo đó có tương ứng với nhãn lớp thực tế Điều này được mô tả qua confusion matrix (tạm dịch: ma trận nhập nhằng) ở Bảng 2

Bảng 2 Confusion matrix Độ Precision của việc phân lớp một lớp bằng số lượng true positive chia cho tổng các mẫu được gắn nhãn thuộc lớp dương (tổng true positive và false positive) Độ

Recall được định nghĩa là số lượng true postive chia cho tổng các mẫu thực sự thuộc về lớp dương (tức là tổng của true positive và false negative) Precision và Recall được tính theo các công thức sau:

Recall còn được gọi là tỉ lệ dương đúng True Positive Rate hay độ nhạy Sensitivity

Các độ đo khác gồm có tỉ lệ âm đúng True Negative Rate và độ chính xác Accuracy

True Negative Rate còn gọi là Specificity Specificity và Accuracy được tính theo các công thức sau:

Accuracy được sử dụng trong nhiều công trình nghiên cứu, như [1][2][15][33][38], để biểu diễn và đánh giá kết quả phân lớp

Trong nghiên cứu này, chúng tôi sẽ sử dụng độ đo Accuracy để đánh giá hiệu quả của mô hình phân lớp

Trong chương này chúng tôi trình bày sơ lược một số kỹ thuật học máy bán giám sát và một số bộ phân lớp nền đang được quan tâm nghiên cứu Chúng tôi cũng chọn sử dụng độ đo Accuracy để đánh giá hiệu quả của bộ phân lớp đề xuất

CÔNG TRÌNH LIÊN QUAN

Các công trình liên quan đến bài toán phân lớp trong EDM

Anoopkumar [9] phân loại 3 mục tiêu cơ bản của các kỹ thuật dùng trong EDM: dự báo (prediction), gom cụm (clustering) và khai phá mối quan hệ (relationship mining) Trong bài toán dự báo, các kỹ thuật phổ biến được chia thành 3 loại: phân lớp (classification), hồi quy (regression) và ước lượng mật độ (density estimation)

Nghiên cứu này tập trung tìm hiểu các công trình liên quan đến kỹ thuật phân lớp dùng trong bài toán dự báo

Xét về mục đích, các nghiên cứu gần đây tập trung vào dự báo kết quả học tập [1][2][3][4][5][6][37], dự báo điểm trung bình tích lũy [6][37] Một số ít khác dùng kỹ thuật phân lớp để dự đoán kết quả tuyển chọn đầu vào [8][36] hay dự báo sinh viên bỏ học [34]

Xét về dữ liệu đầu vào, trong khi nhiều công trình như [1][2][3][4][5][6][37] chỉ sử dụng dữ liệu điểm số các môn học của sinh viên để đưa ra dự báo về kết quả học tập thì [33] còn xem xét các thuộc tính như giới tính, ngôn ngữ dùng trong học tập, thu nhập của bố mẹ, thời gian sinh viên dành cho việc học ở nhà mỗi tuần, v.v…, [24] dùng thêm thông tin điểm danh

Tuy nhiên, việc giải bài toán phân lớp sẽ gặp khó khăn hơn với dữ liệu không đầy đủ, đặc biệt ở cấp độ một chương trình học Trong lĩnh vực EDM thì dữ liệu chưa đầy đủ rất nhiều, đặc biệt là dữ liệu từ các cơ sở giáo dục đào tạo theo học chế tín chỉ, và hiện không có nhiều công trình nghiên cứu giải quyết vấn đề này

Chúng tôi đề cập tiếp theo đây một số cách xử lý dữ liệu không đầy đủ trong các nghiên cứu gần đây Trong [33], dữ liệu không đầy đủ ở một thuộc tính được thay bằng giá trị xuất hiện nhiều nhất ở thuộc tính đó ở bước tiền xử lý dữ liệu Chau và Phung [3] sử dụng giá trị toàn cục là 0 và một giá trị “INCOMPLETE” để thay thế điểm số các môn học mà sinh viên chưa hoàn thành

Mai-Anh và cộng sự [1] triển khai 10 cách tiếp cận với dữ liệu không đầy đủ điểm số của sinh viên Từ thực nghiệm, các cách làm đầy dữ liệu Zero (dùng giá trị 0) và

22 fInsMean (tổng điểm của tất cả các môn học của mỗi sinh viên chia cho tổng số các môn học trong chương trình) cho kết quả dự báo với giá trị ROC lớn nhất khi kết hợp với nhiều giải thuật như Random Forest, Neural Network, C4.5 và SVM

Mai-Anh và cộng sự [2] tiếp cận với dữ liệu không đầy đủ điểm số của sinh viên theo năm cách khác nhau đã trình bày trong [1] Ngoài ra, đặc điểm không cân bằng của dữ liệu trong tập huấn luyện còn được xử lý trong tập huấn luyện theo hai cách khác nhau Kết quả thực nghiệm cho thấy sự kết hợp giữa fInsMean và SMOTE

(synthetic minority over-sampling technique) là tốt nhất cho việc xử lý dữ liệu thưa và không cân bằng Khi xử dụng hai kỹ thuật này, Random Forest cho độ chính xác cao nhất trên cả ba tập dữ liệu dùng trong thực nghiệm Ở một khía cạnh khác, trong lĩnh vực EDM thì dữ liệu đã có nhãn (labeled data) và dữ liệu chưa có nhãn (unlabled data) tồn tại song song nhau và lượng dữ liệu chưa có nhãn rất nhiều Nếu xét đến chi phí để có được dữ liệu đã được phân lớp thì việc tận dụng ngay dữ liệu chưa phân lớp là một việc làm mang lại tính hiệu quả cao hơn Tuy vậy, có khá ít nghiên cứu đề cập đến vấn đề này Chúng tôi đặc biệt quan tâm đến công trình của [4] vì các tác giả đã sử dụng phương pháp phân lớp bán giám sát để tận dụng dữ liệu chưa phân lớp Bộ phân lớp được xây dựng với kỹ thuật Co-Training cho kết quả tốt hơn các bộ phân lớp được xây dựng với phương pháp phân lớp có giám sát

Bảng 3 tóm tắt một số nghiên cứu tiêu biểu trong thời gian gần đây Phần lớn các nghiên cứu chỉ vận dụng phương pháp phân lớp có giám sát trên tập huấn luyện với các phần tử đã có nhãn, ít nghiên cứu quan tâm đến dữ liệu chưa có nhãn – loại dữ liệu phổ biến và đặc trưng của dữ liệu có nguồn gốc từ môi trường giáo dục

Bảng 3 Một số công trình nghiên cứu trong lĩnh vực EDM

Mục đích Dữ liệu đầu vào Kỹ thuật học máy Kết quả Đánh giá

Xử lý dữ liệu không đầy đủ?

Sử dụng dữ liệu chưa phân lớp?

Phân lớp Dự báo kết quả học tập của sinh viên và phát hiện các môn học ảnh hưởng lớn đến điểm GPA cuối cùng

Thuộc tính: Điểm GPA các môn học

Phát hiện các môn học có tính quyết định nhất đối với điểm GPA cuối cùng

Phân lớp Dự báo kết quả học tập của sinh viên

Thuộc tính: Giới tính, ngôn ngữ dùng trong học tập, thu nhập của bố mẹ, thời gian học tập mỗi tuần, thông tin điểm danh, v.v…

Random forest cần nhiều thời gian nhất để xây dựng mô hình và có độ chính xác cao nhất

Tỉ lệ số mẫu được dự đoán đúng

Có: thay thế giá trị bị thiếu bằng giá trị xuất hiện nhiều nhất

Phân lớp Dự báo liệu sinh viên có được nhận làm việc sau khi tốt nghiệp hay không

Thuộc tính: Điểm tổng kết chương trình học, kỹ năng giao tiếp, hoạt động ngoại khóa, v.v…

Random Tree cho kết quả với các chỉ số Pre- cison, Recall,

Misclassi- fication Rate, Pre- cision, Re- call và F- Score

Phân lớp Dự báo trạng thái vào thời điểm sinh viên kết thúc chương trình học

Thuộc tính: Điểm số 43 môn học thuộc 2 chương trình đào tạo

Tập dữ liệu: 1503 mẫu, chia thành 3 tập dữ liệu

2 phương pháp co-training là EFS_SCL_CT và

EFS_SFA_CT cho kết quả tốt nhất trên 3 tập dữ liệu

Có: gán giá trị 0 cho các điểm số chưa có

Phân lớp Dự báo trạng thái vào thời điểm sinh viên kết thúc chương trình học

Thuộc tính: Điểm số 43 môn trong chương trình đào tạo

Nạve Bayes, Neural Network, SVM, K- NN, C4.5, Random Forest

Mean cho kết quả dự báo với giá trị ROC lớn nhất

Accuracy, diện tích dưới đường cong ROC

Có: thay thế giá trị bị thiếu theo 10 cách

Phân lớp Dự báo trạng thái vào thời điểm sinh viên kết thúc chương trình học Điểm số 43 môn học trông chương trình đào tạo

Tập dữ liệu: 3 tập dữ liệu, mỗi tập có 1334 mẫu

Nạve Bayes, Neural Network, SVM, K- NN, C4.5, Random Forest

Sự kết hợp giữa fInsMean và Smote xử lý tốt nhất dữ liệu thưa và không cân bằng Khi xử dụng 2 kỹ thuật này,

Random Forest cho độ chính xác cao nhất

Accuracy, và hiệu số accuracy giữa bộ phân lớp hiệu quả nhất và bộ phân lớp kém hiệu quả nhất

Có: thay thế giá trị bị thiếu theo 5 cách

Phân lớp Dự báo điểm tổng kết vào thời điểm sinh viên tốt nghiệp

Thuộc tính: Điểm số 38 môn học

SVM có độ chính xác cao nhất (97.98%), NN thấp nhất (93.76%)

Các công trình liên quan đến xử lý dữ liệu thưa

Batista và Monard [11] tiến hành một khảo sát về các kỹ thuật xử lý dữ liệu không đầy đủ Các tác giả cũng làm thực nghiệm với bốn phương pháp xử lý khác nhau trên các tập dữ liệu có dữ liệu bị thiếu một cách ngẫu nhiên (missing completely at random – MCAR), và kết luận phương pháp sử dụng k lân cận gần nhất cho các kết quả rất tốt

Luengo, Sáez, và Herrera [29] tiến hành kiểm tra tính hiệu quả của các kỹ thuật xử lý dữ liệu thưa khi kết hợp với các phương pháp phân lớp khác nhau Các tác giả chia các phương pháp phân lớp thành ba nhóm Nhóm thứ nhất là nhóm các phương pháp học quy nạp luật (rule induction learning) Đối với nhóm này, các kỹ thuật FKMI, SVMI, và EC cho kết quả tốt nhất Các bộ phân lớp ở nhóm thứ hai (nhóm các mô hình xấp xỉ) cho kết quả tốt nhất khi kết hợp với kỹ thuật EC Nhóm thứ ba là nhóm các phương pháp học lười (lazy learning) Các bộ phân lớp thuộc nhóm này cho kết quả tốt nhất khi kết hợp với kỹ thuật MC (thay thế giá trị bị thiếu ở thuộc tính định danh bởi giá trị xuất hiện nhiều nhất, ở thuộc tính số bởi trị trung bình của tất cả các giá trị của thuộc tính tương ứng) Ở khía cạnh khác, Parrish, Anderson, Gupta, và Hsiao [31] tiến hành xử lý riêng biệt trong giai đoạn phân lớp và không xem xét giai đoạn huấn luyện hay loại bỏ các mẫu có giá trị bị thiếu trong các tập huấn luyện Các công trình [17][23] làm đầy dữ liệu không đầy đủ trước giai đoạn huấn luyện [29] làm đủ các giá trị bị thiếu ở cả tập huấn luyện và tập thử Cách tiếp cận trong [18] tương đối khác với các cách tiếp cận khác ở việc xử lý dữ liệu không đầy đủ trong giai đoạn huấn luyện và phân lớp mà không làm đầy đủ các giá trị bị thiếu

Xét về loại dữ liệu thì [31] xử lý dữ liệu chuỗi thời gian không đầy đủ trong khi các công trình khác vừa nêu không đề cập cụ thể loại dữ liệu nào Xét về miền ứng dụng, [23] xử lý dữ liệu cho bài toán phát triển năng lượng gió, [30] xử lý các giá trị thiếu trong các tập dữ liệu y khoa, còn các công trình khác vừa nêu không đề xuất giải pháp cho miền ứng dụng cụ thể nào

28 Với nghiên cứu này, chúng tôi đặc biệt quan tâm đến các công trình có đề cập đến công tác xử lý dữ liệu thưa cho bài toán phân lớp trong ngữ cảnh giáo dục

Trong [33], dữ liệu không đầy đủ ở một thuộc tính được thay bằng giá trị xuất hiện nhiều nhất ở thuộc tính đó ở bước tiền xử lý dữ liệu Hoang và cộng sự [4] điền giá trị

0 cho các giá trị bị thiếu Chau và Phung [3] sử dụng giá trị toàn cục là 0 và một giá trị

“INCOMPLETE” để thay thế điểm số các môn học mà sinh viên chưa hoàn thành

Do sự linh hoạt của hệ thống giáo dục theo học chế tín chỉ, dữ liệu thu thập được có nhiều đặc điểm riêng biệt làm công tác phân loại sinh viên gặp nhiều khó khăn Một trong những khó khăn đó là việc xử lý dữ liệu không đầy đủ tồn tại trong các tập dữ liệu thu thập từ một hệ thống giáo dục theo học chế tín chỉ

Việc kiểm tra một cách toàn diện kiến thức từ các môn học sinh viên đã học và kiến thức từ các môn sinh viên sẽ học là rất cần thiết để xác định thành tích học tập của sinh viên Kiến thức của những môn chưa học là học phần chưa đạt được mà sinh viên sẽ phải hoàn thành Tuy nhiên, khó để miêu tả chính xác việc liệu sinh viên không hoàn thành học phần đó là vì sinh viên học yếu hay vì sinh viên chưa muốn học học phần đó Điều này dẫn đến các giá trị bị thiếu trong tập dữ liệu giáo dục và đòi hỏi một quy trình xử lý để phục vụ cho công tác khai phá Nhận diện vấn đề này, nhóm nghiên cứu của Mai-Anh và cộng sự [1][2] đã đề xuất các hướng tiếp cận khác nhau và đánh giá hiệu quả của các cách tiếp cận này

Cụ thể, Mai-Anh và cộng sự [1] triển khai 4 cách tiếp cận với dữ liệu không đầy đủ điểm số của sinh viên, đó là Zero (các giá trị chưa biết được gán giá trị 0), cInsMean

(các giá trị chưa biết của một đối tượng được gán giá trị trung bình của các giá trị đã có của đối tượng này), fInsMean (các giá trị chưa biết của một đối tượng được thay bằng tổng các giá trị đã biết chia cho tổng số chiều của vector đối tượng), AttMean (các giá trị chưa biết ở một chiều được thay bằng giá trị trung bình của chiều đó) Ngoài ra, dữ liệu không đầy đủ còn được xử lý trong bước huấn luyện theo ba cách khác nhau, đó là

Class (dựa vào thông tin nhãn lớp của mối đối tượng huấn luyện), Cluster (dựa vào thông tin cụm của mỗi đối tượng huấn luyện), và Zero (sử dụng giá trị toàn cục là 0)

Ba cách xử lý này được kết hợp với hai kỹ thuật khác là Ins (sử dụng giá trị cục bộ từ

29 mỗi mẫu thử để điền vào dữ liệu không đầy đủ) và Knn (sử dụng các lân cận của mẫu thử) để tạo thêm 6 cách tiếp cận khác nhau Từ thực nghiệm, Zero và fInsMean cho kết quả dự báo với giá trị ROC lớn nhất khi kết hợp với nhiều giải thuật như Random For- est, Neural Network, C4.5 hay SVM

Mai-Anh và cộng sự [2] sử dụng năm kỹ thuật đã trình bày trong [1] là Zero, fInsMean,

AttMean, Class_Knn và Cluster_Knn, kết hợp với xử lý đặc điểm không cân bằng của dữ liệu trong tập huấn luyện theo hai cách khác nhau là Resampling (kết hợp giữa kỹ thuật lấy mẫu lên và lấy mẫu xuống) và SMOTE Kết quả thực nghiệm cho thấy sự kết hợp giữa fInsMean và SMOTE là tốt nhất cho việc xử lý dữ liệu thưa và không cân bằng Khi xử dụng hai kỹ thuật này, Random Forest cho độ chính xác cao nhất trên cả ba tập dữ liệu dùng trong thực nghiệm

Bảng 4 tóm tắt các công trình nghiên cứu vừa nêu

Bảng 4 Một số công trình nghiên cứu về xử lý dữ liệu thưa

Công trình Mục đích Làm đầy dữ liệu? Giai đoạn Miền ứng dụng

(Hoang và cộng sự, 2016) Phân lớp Có Tiền xử lý dữ liệu Giáo dục (Rao và cộng sự,

2016) Phân lớp Có Tiền xử lý dữ liệu Giáo dục

Xử lý dữ liệu Có Tiền xử lý dữ liệu Năng lượng gió (Mai-Anh và cộng sự, 2014a) Phân lớp Có Tiền xử lý dữ liệu Giáo dục (Mai-Anh và cộng sự, 2014b) Phân lớp Có Tiền xử lý dữ liệu Giáo dục (Chau & Phung,

2013) Phân lớp Có Tiền xử lý dữ liệu Giáo dục

(Parrish và cộng sự, 2013) Phân lớp Không Phân lớp (không cụ thể)

Công trình Mục đích Làm đầy dữ liệu? Giai đoạn Miền ứng dụng

(Nanni và cộng sự, 2012) Phân lớp Có Tiền xử lý dữ liệu Y khoa (Luengo và cộng sự, 2012) Phân lớp Có Tiền xử lý dữ liệu (không cụ thể) (Ghannad-Rezaie và cộng sự, 2010) Phân lớp Không Phân lớp (không cụ thể)

Các công trình liên quan đến phương pháp phân lớp bán giám sát

Phương pháp học bán giám sát được sử dụng trong nhiều bài toán khác nhau như phân lớp bán giám sát (SSC), gom cụm có ràng buộc (constrained clustering), hồi quy với dữ liệu có nhãn lớp và không có nhãn lớp, thu giảm số chiều với mẫu có nhãn lớp có dạng biểu diễn với số thuộc tính thu giảm cho trước (reduced feature representation), và một số bài toán khác [42] Nghiên cứu này tập trung vào các công trình liên quan đến SSC

Có nhiều cách tiếp cận SSC dựa trên những giả định khác nhau về tính chất của dữ liệu đầu vào Một trong những cách đó là kỹ thuật tự phân lớp (self-labeled techniques) thực hiện theo một tiến trình lặp với mục đích có được một tập dữ liệu có nhãn lớp lớn hơn Kỹ thuật này giả định rằng những dự báo của chính nó có xu hướng đúng Tri- guero, García, và Herrera [38] phân loại các kỹ thuật tự phân lớp bán giám sát theo các tiêu chí: sử dụng giả định single-view hay multi-view, sử dụng một kỹ thuật học máy (single-learning) hay nhiều kỹ thuật học máy khác nhau (multi-learning), sử dụng một bộ phân lớp (single-classifier) hay nhiều bộ phân lớp (multi-classifier) và cơ chế thêm dữ liệu vào tập huấn luyện (thêm tăng dần, thêm theo lô, hay thêm tăng dần có sửa đổi) Theo đó, các phương pháp tự phân lớp phổ biến hiện nay có Self-Training [40], Co-Training [12], và các phát triển của hai phương pháp này

Giải thuật Yarowsky [40] là một trong những giải thuật Self-Training đầu tiên Trong

Self-training, lúc đầu một phân lớp có giám sát được huấn luyện với tập dữ liệu đã có nhãn lớp (ta gọi là tập L) Sau đó, tập huấn luyện L được tăng lên với các dữ liệu được dự báo có độ tự tin cao nhất và bộ phân lớp được huấn luyện lại với tập dữ liệu mới này Tiến trình này được lặp lại đến khi tất cả các mẫu được phân lớp Tuy nhiên, nếu các lần phân lớp đầu tiên là sai thì có thể gây ra việc tập huấn luyện được thêm vào với dữ liệu đã có sai nhãn lớp [42] Self-Training with Editing (SETRED) là một phương pháp Self-Training tinh chỉnh do Li và Zhou [27] đề xuất Cải tiến chính của SETRED nằm ở việc xử lý các mẫu được phân lớp sai có thể được thêm vào tập huấn luyện Ý tưởng về Self-Training sau đó được mở rộng bởi Blum và Mitchell [12] với phương pháp có tên là Co-Training Phương pháp này gồm hai bộ phân lớp được huấn luyện trên hai tập thuộc tính đủ và thừa Điều này dẫn đến giả định rằng các tập con thuộc

32 tính phải có khả năng xác định tốt đường biên giữa các lớp Sau đó, phương pháp này thực hiện một tiến trình dạy lẫn nhau như sau: mỗi bộ phân lớp sẽ thực hiện phân lớp và thêm các mẫu đã được dự báo với độ tự tin cao nhất vào tập L của bộ phân lớp kia

Mặc dù phương pháp Co-Training được áp dụng thành công trên một số lĩnh vực [12][26][35], yêu cầu về hai tập con thuộc tính đủ và thừa khó có thể đạt được trong nhiều ứng dụng ngoài đời sống thực

Nhiều công trình nghiên cứu đã đề xuất cải tiến Co-Training thông thường bằng cách loại bỏ các điều kiện thiết lập Goldman và Zhou [19] đề xuất cách tiếp cận multi- learning với hai giải thuật có giám sát được sử dụng mà không cần phải chia tách không gian thuộc tính Các tác giả đã chứng minh rằng cơ chế này chia không gian thực thể thành một tập hợp các lớp tương đương nhau Tuy nhiên, trong quá trình huấn luyện cách tiếp cận này phải thường xuyên sử dụng kỹ thuật kiểm tra chéo (cross- validation) làm tốn nhiều thời gian Sau đó, các tác giả này cũng đề xuất một phương pháp khác nhanh hơn và chính xác hơn gọi là Democratic Co-learningcũng dựa trên multi-learning

Zhou và Li [41] đề xuất một phương pháp khác gọi là Tri-Training với mục đích xác định dữ liệu chưa có nhãn đáng tin cậy (reliable) nhất dựa trên sự nhất trí của ba bộ phân lớp (cùng một giải thuật học máy) Điểm nổi bật của Tri-Training là phương pháp này không yêu cầu về các góc nhìn đủ và thừa (sufficient and redundant views) cũng như không cần phải áp dụng vài giải thuật có giám sát Tuy nhiên, dữ liệu hạt giống (dữ liệu đã có nhãn lớp) dùng để huấn luyện thường quá ít để có thể huấn luyện một bộ phân lớp có tính tổng quát tốt, vì thế xảy ra việc phân lớp sai một lượng dữ liệu chưa có nhãn là điều không thể tránh khỏi và tập huấn luyện được tăng dần trong lần lặp có thể chứa nhiều dữ liệu nhiễu [41] Vì thế, Deng và Guo [16] đề xuất giải thuật DE-Tri- Training, áp dụng các kỹ thuật tinh chỉnh dữ liệu (data editing) nhằm cải thiện một cách hiệu quả tập huấn luyện Trước khi mỗi bộ phân lớp thực hiện một vòng lặp mới, tập huấn luyện được thêm với các dữ liệu có nhãn mới vào sẽ được tinh chỉnh

Một thời gian sau, các tác giả Zhou và Li đề xuất giải thuật Co-Forest [28] với cách tiếp cận tương tự sử dụng Random Forest [13] Các cách tiếp cận tương tự có thể kể

33 đến nữa là Co-Bagging [19][20] với độ tự tin được ước lượng từ độ chính xác cục bộ của các bộ phân lớp thành viên (committee members)

Hướng tiếp cận SSC gần đây nhất là tạo ra và sử dụng dữ liệu tổng hợp (synthetic data) Theo Triguero, García, và Herrera [39], sự yếu kém quan trọng nhất của các mô hình tự gắn nhãn xảy ra khi các mẫu có gắn nhãn sai được thêm vào tập huấn luyện vì điều này làm cho việc hiệu chỉnh mô hình học được theo chiều hướng sai, dẫn đến xuất hiện nhiều hơn các mẫu sai trong các lần lặp sau Triguero và cộng sự [39] đã đưa ra ba lý do của vấn đề này và đó đồng thời cũng là các lý do để tạo ra dữ liệu tổng hợp: (1) có thể có phần tử ngoại biên trong tập dữ liệu chưa gắn nhãn ban đầu, (2) số lượng mẫu có nhãn không đủ để học các giả thiết chặt chẽ, và (3) số lượng mẫu có nhãn ít dẫn đến sự thiếu đa dạng giữa các phương pháp tự gắn nhãn cần nhiều hơn một bộ phân lớp Từ đó, các tác giả đề xuất một cơ chế tạo ra dữ liệu tổng hợp gọi là SEG-SSC để cải thiện hiệu năng của các phương pháp SSC tự gắn nhãn Kết quả trên các tập dữ liệu chuẩn từ kho dữ liệu KEEL [7] cho thấy SEG-SSC+Tri-Training với bộ phân lớp nền C4.5 là mô hình tốt nhất

Dong, Chung và Wang [15] đề xuất phương pháp OCHS-SSC cũng dựa trên ý tưởng về dữ liệu tổng hợp Tuy nhiên, khác với [39] khi dữ liệu tổng hợp được tạo ra từ cả dữ liệu chưa có nhãn và dữ liệu đã có nhãn, trong [15] dữ liệu tổng hợp được tạo ra chỉ từ dữ liệu chưa có nhãn Ngoài ra, trong [15] kích thước của tập huấn luyện bằng với kích thước tập dữ liệu có nhãn, tức là, tập dữ liệu có nhãn không tăng lên nhưng không gian thuộc tính tương ứng lại được mở rộng Phương pháp OCHS-SSC học bộ phân lớp cuối cùng trong một không gian thuộc tính mở rộng gồm không gian thuộc tính ban đầu và không gian thuộc tính ẩn chung giữa các mẫu có nhãn và các mẫu tổng hợp So sánh với SVM, TSVM, LapSVM, S4VM, phương pháp đề xuất cho độ chính xác cao hơn ở hầu hết các tập dữ liệu được dùng trong công trình nghiên cứu

Khai phá dữ liệu giáo dục là một ngành mới, và có thể thấy hiện nay chưa có nhiều các công trình nghiên cứu sử dụng kỹ thuật học máy bán giám sát vào khai phá dữ liệu giáo dục Trong nghiên cứu này, chúng tôi đặc biệt quan tâm đến hai công trình [25] và [4]

34 Kostopoulos và cộng sự [25] so sánh kỹ thuật Tri-Training với các kỹ thuật bán giám sát khác (Self-Training, Co-Training, RASCO, Rel-RASCO, De-Tri-Training và Dem- ocratic Co-learning) được cung cấp trong phần mềm KEEL [7] trên tập dữ liệu về sinh viên tham gia một chương trình học trực tuyến Qua 5 bước thử nghiệm với số lượng thuộc tính thay đổi ở mỗi bước, Tri-Training sử dụng bộ phân lớp C4.5 có độ chính xác trung bình cao nhất (69.19%)

Trong [4], các tác giả sử dụng SSL cho công việc dự báo kết quả học tập của sinh viên ở khoa KH&KTMT trường đại học Bách Khoa Cụ thể, kỹ thuật Co-Training kết hợp với phương pháp học chuyển tiếp (transfer learning) giúp xây dựng bộ phân lớp tốt hơn cho sinh viên theo ngành Kỹ thuật máy tính (Computer Engineering) dựa vào dữ liệu của sinh viên theo ngành Khoa học máy tính (Computer Science) Các tác giả xây dựng không gian thuộc tính chung (common feature space) bằng các thuộc tính pivot của bộ dữ liệu nguồn (đã phân lớp đầy đủ) và bộ dữ liệu đích (cần được dự báo lớp), sử dụng và so sánh giữa hai giải thuật structural correspondence learning (SCL) và spectral feature alignment (SFA) Bằng thực nghiệm, các tác giả chỉ ra rằng trong EDM thì SCL có vẻ tốt hơn SFA, nhưng khác biệt là không lớn lắm So sánh với các phương pháp phân lớp có giám sát truyền thống, bộ phân lớp được xây dựng cho kết quả tốt hơn

Bảng 5 Một số công trình nghiên cứu về phương pháp học bán giám sát tóm tắt một số công trình nghiên cứu trong thời gian gần đây Phần lớn các nghiên cứu chỉ quan tâm đến phát triển các kỹ thuật học bán giám sát và tiến hành thực nghiệm trên các tập dữ liệu với dữ liệu đầy đủ Nhìn chung có rất ít các công trình nghiên cứu vận dụng tính chất lặp của kỹ thuật học bán giám sát để xử lý dữ liệu không đầy đủ một cách hiệu quả

Bảng 5 Một số công trình nghiên cứu về phương pháp học bán giám sát

Công trình nghiên cứu Mục đích Dữ liệu đầu vào Bộ phân lớp nền

Kỹ thuật học bán giám sát sử dụng

Dự báo trạng thái vào thời điểm sinh viên kết thúc chương trình học

Thuộc tính: Điểm số 43 môn học thuộc 2 chương trình đào tạo

C4.5, K-NN, SVM, ANN Co-training

Phương pháp EFS_SCL_CT và

EFS_SFA_CT cho kết quả tốt nhất trên 3 tập dữ liệu

Có: gán giá trị 0 cho các điểm số chưa có

Chứng minh tính ưu việt của phương pháp đề xuất

Tập dữ liệu: 23 tập dữ liệu

Số mẫu mỗi tập dữ liệu: từ 80 đến

19.020 Số thuộc tính mỗi tập dữ liệu: từ 2 đến 241

OCHS-SSC cho kết quả tốt hơn trong hầu hết 23 tập dữ liệu

Chứng minh tính ưu việt của phương

Tập dữ liệu: 66 tập dữ liệu

Số mẫu mỗi tập dữ liệu: từ 100

Khi kết hợp với cơ chế SEG- SSC, các bộ phân lớp cho kết

Công trình nghiên cứu Mục đích Dữ liệu đầu vào Bộ phân lớp nền

Kỹ thuật học bán giám sát sử dụng

Xử lý dữ liệu không đầy đủ? pháp đề xuất đến 83.679 Số thuộc tính mỗi tập dữ liệu: từ 2 đến 11.960 quả tốt hơn

Trong chương này chúng tôi trình bày các công trình liên quan theo ba nhóm chủ đề liên quan đến bài toán cần giải quyết Trong số các công trình liên quan đến bài toán phân lớp trong EDM, chúng tôi quan tâm đến các nghiên cứu sử dụng các kỹ thuật phân lớp trên dữ liệu chỉ gồm điểm số của sinh viên Ngoài ra, chỉ có một số ít các công trình đề cập đến việc tận dụng dữ liệu chưa có nhãn

PHƯƠNG PHÁP NGHIÊN CỨU ĐỀ XUẤT

Phát biểu bài toán

Trong nghiên cứu này, chúng tôi sẽ phát triển phương pháp học bán giám sát trên dữ liệu không đầy đủ về điểm số của sinh viên để đưa ra dự báo sớm về kết quả học tập của sinh viên sau thời gian học chính thức theo chương trình chính quy của hệ thống giáo dục theo quy chế tín chỉ

Dữ liệu đầu vào là tập dữ liệu L chứa các vector dữ liệu, mỗi vector biểu diễn một sinh viên Chiều của vector tương ứng với các môn học mà sinh viên phải hoàn thành thành công để được công nhận tốt nghiệp Giá trị tại mỗi chiều của một vector là điểm số cuối môn mà sinh viên đạt được Nếu sinh viên chưa học một môn học nào thì điểm số của môn học này là chưa có và do đó giá trị của nó tại chiều tương ứng là không đầy đủ Do đó, kết quả học tập của một sinh viên được thể hiện qua các giá trị của vector tương ứng với sinh viên này Ngoài ra, mỗi sinh viên được gán với một trạng thái học tập khi sinh viên này đến thời điểm cuối cùng của chương trình học chính quy Nếu một sinh viên đã hoàn thành chương trình học, trạng thái của sinh viên này đã biết, thì kết quả học tập của sinh viên này có thể được dùng để xây dựng mô hình phân lớp Ngược lại, nếu sinh viên còn đang học tập thì trạng thái cuối cùng của sinh viên này cần được dự báo

Dữ liệu đầu vào còn có một tập dữ liệu U chứa các vector dữ liệu, mỗi vector biểu diễn một sinh viên Chiều của vector trong U tương ứng với các môn học mà sinh viên phải hoàn thành thành công để được công nhận tốt nghiệp Tuy nhiên, các vector trong U không kèm theo trạng thái học tập của sinh viên ở thời điểm cuối cùng của chương trình học vì các sinh viên trong tập dữ liệu U vẫn còn đang học và chưa đi đến thời điểm cuối cùng của chương trình học

Kết quả đầu ra sẽ là giá trị dự báo cho tất cả trạng thái học tập cuối cùng của tất cả sinh viên trong tập U Các trạng thái dự báo có thể có là “Tốt nghiệp”, “Đang học” và “Buộc thôi học”

39 Trong công trình này, với mục tiêu chính là dự báo sớm các sinh viên gặp khó khăn trong học tập, chúng tôi sẽ vận dụng và phát triển phương pháp học bán giám sát để có thể dự báo sớm kết quả học tập dựa vào dữ liệu điểm số chưa đầy đủ của sinh viên.

Xử lý dữ liệu thưa

Dữ liệu cho nghiên cứu này gồm các phần tử đã có nhãn trong L và các phần tử chưa có nhãn lớp trong U Cả L và U đều chứa dữ liệu không đầy đủ Do lượng dữ liệu không có nhiều nên đề tài sẽ không xét đến biện pháp bỏ các phần tử có giá trị bị thiếu (MV - missing value) mà chỉ xét các biện pháp làm đầy dữ liệu (missing data imputation)

Trong nghiên cứu này chúng tôi sử dụng phương pháp làm đầy dữ liệu K-nearest neighbour [11]

K -nearest neighbour: phương pháp này sử dụng giải thuật dựa vào mẫu để làm đầy MV Mỗi khi tìm thấy một MV trong một mẫu, giải thuật này tìm K lân cận gần nhất của mẫu đó và làm đầy MV dựa vào các lân cận này Với thuộc tính định danh (nominal), giá trị phổ biến nhất của các lân cận sẽ được dùng, trong khi với thuộc tính số (numeric) thì giá trị trung bình được sử dụng Độ đo khoảng cách của các đối tượng được sử dụng là khoảng cách Euclid được điều chỉnh cho phù hợp với đặc điểm dữ liệu Dựa vào [22], độ đo khoảng cách giữa hai đối tượng 𝐱 𝟏 = (𝑥 11 , … , 𝑥 1𝐷 ) ∈ 𝑅 𝐷 và 𝐱 𝟐 = (𝑥 21 , … , 𝑥 2𝐷 ) ∈ 𝑅 𝐷 được nhân thêm một đại lượng D/S trong đó D là tổng số chiều của đối tượng, S là tổng số chiều mà ở đó cả 𝐱 𝟏 và 𝐱 𝟐 đều có giá trị

𝐷 𝑗=1 với 𝐼 𝑗 = 0 nếu 𝑥 1𝑗 hoặc 𝑥 2𝑗 không có giá trị; 𝐼 𝑗 = 1 nếu cả 𝑥 1𝑗 và 𝑥 2𝑗 đều có giá trị

Trong trường hợp 𝐱 𝟏 và 𝐱 𝟐 không cùng có dữ liệu ở bất kì thuộc tính nào, khoảng cách sẽ bằng vô cực

40 Dữ liệu cũng sẽ được làm đầy theo hai cách:

Cách 1: Làm đầy dữ liệu các phần tử trong tập đã có nhãn L, tập chưa có nhãn U và tập test chung một không gian Sau đó tách tập dữ liệu ra thành tập training (gồm tập L và tập U) và tập test

Cách 2: Làm đầy dữ liệu các phần tử trong tập đã có nhãn L trước, sau đó từng phần tử trong tập chưa có nhãn U và từng phần tử trong tập test được đưa vào không gian của tập L và được làm đầy dữ liệu

Trong đó, cách 2 (cách đề xuất) dựa trên ý tưởng của phương pháp học bán giám sát khi các bộ phân lớp nền học trên tập dữ liệu đã có nhãn L trước Các kết quả phân lớp với hai chiến lược làm đầy dữ liệu này sẽ được trình bày trong các phần sau.

Phát triển phương pháp học bán giám sát trên dữ liệu thưa

Đề tài đề xuất tích hợp thao tác xử lý dữ liệu thưa vào quá trình học bán giám sát Sau mỗi vòng lặp, MV được làm đầy lại Cụ thể, sau mỗi vòng lặp, tập dữ liệu có nhãn dành cho mỗi bộ phân lớp được gia tăng Do đó, việc làm đầy các phần tử trong U sẽ thay đổi sau mỗi vòng lặp, theo chiến lược làm đầy dữ liệu thứ hai đã trình bày trong phần 4.2

Trong nghiên cứu này chúng tôi sử dụng giải thuật học máy bán giám sát Tri-Training với bộ phân lớp nền C4.5 để học mô hình phân lớp Như đã chứng minh trong [38], Tri- Training(C4.5) là một sự kết hợp cho kết quả tốt hơn nhiều sự kết hợp khác ở cả bước inductive và transductive

Bước 1: Các bộ phân lớp nền ℎ 𝑖 (i = 1 3) học từ Bootstrap sampling tập L

Bước 2: Lặp lại cho đến khi không có ℎ 𝑖 nào thay đổi

2b) Chọn ra 𝐿 𝑖 (i = 1 3) gồm các phần tử trong U mà ℎ 𝑗 và ℎ 𝑘 (𝑗, 𝑘 ≠ 𝑖) thống nhất nhau về nhãn lớp

2c) Cập nhật: ℎ 𝑖 học lại trên tập 𝐿 ∪ 𝐿 𝑖

Hình 3 Giải thuật Tri-Training tóm tắt

41 Giải thuật Tri-Training [41] có thể được tóm tắt qua các bước như trong Hình 3

Phương pháp đề xuất lồng ghép một chiến lược làm đầy dữ liệu vào Tri-Training như sau:

Bước tiền xử lý: Làm đầy dữ liệu tập L, sau đó dùng L để làm đầy từng phần tử trong U và từng phần tử trong tập test

Bước 1: Các bộ phân lớp nền ℎ 𝑖 (i = 1 3) học từ Bootstrap sampling tập L

Bước 2: Lặp lại cho đến khi không có ℎ 𝑖 nào thay đổi

2b) Chọn ra 𝐿 𝑖 (i = 1 3) gồm các phần tử trong U mà ℎ 𝑗 và ℎ 𝑘 (𝑗, 𝑘 ≠ 𝑖) thống nhất nhau về nhãn lớp

Dùng 𝐿 ∪ 𝐿 𝑇 làm đầy lại từng phần tử trong 𝑈 \𝐿 𝑇 và từng phần tử trong tập test

2c) Cập nhật: ℎ 𝑖 học lại trên tập 𝐿 ∪ 𝐿 𝑖 (i = 1 3)

Hình 4 Giải thuật Tri-Training đề xuất

Bước tiền xử lý tức là cách làm đầy dữ liệu theo cách 2 đã trình bày trong phần 4.2

Cách này đã chứng tỏ hiệu quả và ổn định hơn cách 1 nên được lựa chọn lồng ghép vào trong giải thuật, theo kết quả thực nghiệm trong chương sau Ở bước 2b*, đầu tiên chúng tôi chọn ra các phần tử từ các 𝐿 𝑖 (i = 1 3) Sau đó đưa từng phần tử này vào chung không gian với tập L rồi tiến hành làm đầy dữ liệu Tiếp theo, chúng tôi sử dụng kết quả 𝐿 ∪ 𝐿 𝑇 đã được làm đầy để làm đầy dữ liệu cho các phần tử còn lại của tập U không thuộc 𝐿 𝑇 và các phần tử trong tập test Sau đó, mỗi bộ phân lớp ℎ 𝑖 sẽ được học lại với một tập 𝐿 ∪ 𝐿 𝑖 (i = 1 3) đã được làm đầy mới

Trong chương này chúng tôi đã phát biểu bài toán đang xem xét Chúng tôi cũng đã trình bày hai công việc quan trọng để giải quyết bài toán, đó là việc xử lý dữ liệu không đầy đủ và phát triển một phương pháp học bán giám sát Đối với công tác xử lý dữ liệu không đầy đủ, chúng tôi sẽ tiến hành hai cách tiếp cận Phương pháp học bán giám sát Tri-Training được chúng tôi lồng ghép vào kỹ thuật làm đầy dữ liệu nhằm tận dụng vòng lặp của kỹ thuật học bán giám sát để việc làm đầy dữ liệu hiệu quả hơn

THỰC NGHIỆM

Dữ liệu và các kỹ thuật học máy

Tập dữ liệu sinh viên được chia thành ba bộ dữ liệu, lần lượt cho sinh viên năm 2, năm 3 và năm 4 (ký hiệu lần lượt là Year 2, Year 3 và Year 4) Mỗi bộ dữ liệu có 1334 bản ghi tương ứng với 1334 sinh viên Mỗi đối tượng sinh viên được thể hiện qua 44 thuộc tính, trong đó có 43 thuộc tính đầu vào tương ứng với 43 môn học và một thuộc tính đầu ra tương ứng với nhãn lớp Có tất cả 3 nhãn lớp, được ký hiệu như trong Bảng 6 Các nhãn lớp

Bảng 6 Các nhãn lớp Nhãn lớp Ý nghĩa studying Sinh viên còn đang học graduating Sinh viên sẽ tốt nghiệp study_stop Sinh viên bị buộc thôi học

Do đây là tập dữ liệu giáo dục từ cơ sở giáo dục theo học chế tín chỉ nên dữ liệu không đầy đủ có thể xảy ra ở bất kỳ vector nào và ở bất kỳ chiều nào, như đã minh họa trong Bảng 1

Tập dữ liệu nghiên cứu có thể được tóm tắt như trong Bảng 7 dưới đây

Bảng 7 Tóm tắt dữ liệu nghiên cứu Bộ dữ liệu Số thuộc tính đầu vào Số nhãn lớp Tổng số mẫu % dữ liệu bị thiếu

44 Luận văn này triển khai kỹ thuật kiểm tra chéo (k-fold cross-validation) để đo hiệu quả của mô hình phân lớp Theo [21], số k được lựa chọn thông thường (và được khuyến khích sử dụng) là 5 hoặc 10 Luận văn đề xuất sử dụng k = 5 vì xét mỗi bộ dữ liệu nghiên cứu với 1334 mẫu, việc chọn k = 5 có thể đảm bảo thỏa hiệp giữa phương sai

(variance) và thiên lệch (bias) của sai số đồng thời làm rút ngắn thời gian tính toán (so với K = 10)

Do đó, mỗi bộ dữ liệu sẽ được chia thành 5 cặp training-test để thực hiện kiểm định chéo Mỗi lần chia chúng tôi lấy ra 1/5 dữ liệu làm tập test và 4/5 dữ liệu còn lại làm tập training Tỉ lệ giữa các nhãn lớp được bảo đảm trong cả tập training và tập test Để thực nghiệm với các phương pháp phân lớp bán giám sát có sử dụng dữ liệu chưa có nhãn, chúng tôi chọn tỉ lệ dữ liệu chưa có nhãn là 3/4 tập dữ liệu training Tức là, trong mỗi thực nghiệm, tập training sẽ có ngẫu nhiên 3/4 số đối tượng chưa có nhãn lớp (tập

U) và có 1/4 số đối tượng đã có nhãn lớp (tập L) Cách chia như vậy nhằm mô phỏng việc trong thực tế dữ liệu không có nhãn tồn tại nhiều hơn lượng dữ liệu đã có nhãn lớp

Các thực nghiệm sẽ được tiến hành riêng rẽ cho từng bộ dữ liệu

5.1.2 Các kỹ thuật học máy

Trong chương này chúng tôi sẽ vận dụng hai phương pháp phân lớp bán giám sát là Tri- Training với cả ba bộ phân lớp nền đều là C4.5 và Self-Training với bộ phân lớp nền C4.5 (ký hiệu lần lượt là Tri-Training(C4.5) và Self-Training(C4.5)) Việc lựa chọn Self-Training(C4.5) để so sánh với Tri-Training(C4.5) là do đây là một trong tám kỹ thuật hiệu quả nhất theo khảo sát trong [38], đặc biệt ở giai đoạn inductive

Kỹ thuật làm đầy dữ liệu được sử dụng là K-nearest neighbour [11] đã trình bày trong phần 4.2 Số phần tử lân cận K được cho từ 1 đến 20 nhằm khảo sát chọn ra số phần tử lân cận K tốt nhất cho từng bộ dữ liệu

Thông số của giải thuật Self-Training được giữ y như mặc định trong chương trình KEEL Cụ thể, số lần lặp tối đa được chọn bằng 40 Giá trị này được sử dụng trong công trình [38] khi phân lớp nhiều tập dữ liệu khác nhau, nhưng có thể không tối ưu đối

45 với tập dữ liệu đang nghiên cứu Hạn chế của luận văn này là chưa tiến hành kiểm tra để tìm ra số lần lặp tối ưu cho Self-Training, một phần cũng vì luận văn tập trung phát triển kỹ thuật Tri-Training

Các thông số của các kỹ thuật học máy được tóm tắt như trong Bảng 8

Bảng 8 Thông số của các kỹ thuật học máy

Kỹ thuật Thông số Giải thích

K-NN K = 1 20 số phần tử lân cận

Classifier 1 = C4.5 bộ phân lớp nền thứ nhất Classifier 2 = C4.5 bộ phân lớp nền thứ hai Classifier 3 = C4.5 bộ phân lớp nền thứ ba

Self-Training MaxIter = 40 số lần lặp tối đa

Classifier = C4.5 bộ phân lớp nền

Phân lớp khi không làm đầy dữ liệu

Trong thực nghiệm này, các giá trị không đầy đủ (missing value – MV) được giữ y

Phương pháp phân lớp được sử dụng là Tri-Training(C4.5) và Self-Training(C4.5) Kết quả phân lớp trên tập dữ liệu không đầy đủ sẽ được so sánh với kết quả phân lớp khi làm đầy dữ liệu theo hai cách đã nêu trong phần 4.2 của luận văn Các so sánh này được cho trong Bảng 9 và Bảng 10

Các ký hiệu dùng trong Bảng 9 và Bảng 10:

• MV: Tập dữ liệu còn tồn tại giá trị không đầy đủ

• Cách 1: Tập dữ liệu được làm đầy theo cách 1

• Cách 1: Tập dữ liệu được làm đầy theo cách 2

Bảng 9 Kết quả phân lớp với Tri-Training(C4.5)

Dữ liệu Độ chính xác cao nhất

46 Khi tiến hành phân lớp với Tri-Training(C4.5), kết quả thực nghiệm cho thấy cách làm đầy dữ liệu thứ hai giúp tạo ra kết quả phân lớp cao hơn khi không làm đầy dữ liệu Tuy nhiên, ở bộ dữ liệu Year 2 và Year 4, khi phân lớp với dữ liệu không đầy đủ lại cho kết quả phân lớp tốt hơn so với tập dữ liệu đã được làm đầy theo cách 1

Bảng 10 Kết quả phân lới với Self-Training(C4.5)

Khi tiến hành phân lớp với Self-Training(C4.5), kết quả thực nghiệm trong Bảng 10 cho thấy cách làm đầy dữ liệu thứ hai giúp tạo ra kết quả phân lớp cao hơn khi không làm đầy dữ liệu ở bộ dữ liệu Year 2 (có tỉ lệ MV cao nhất) Tuy nhiên, ở bộ dữ liệu Year 3 và Year 4, khi dùng Self-Training(C4.5) để phân lớp trên dữ liệu không đầy đủ lại cho kết quả phân lớp tốt hơn so với tập dữ liệu đã được làm đầy Điều này có thể nhờ vào (i) lượng dữ liệu được tăng thêm, đủ để học một mô hình phân lớp tốt, và (ii) cách xử lý dữ liệu không đầy đủ của C4.5 Các giá trị MV sẽ không được sử dụng để tính entropy và information gain (độ lợi thông tin) trong C4.5

Mặc dù kết quả phân lớp khi không làm đầy dữ liệu với Self-Training(C4.5) cao hơn so với khi làm đầy dữ liệu ở bộ dữ liệu Year 3 và Year 4, kết quả này vẫn không tốt bằng khi phân lớp với Tri-Training(C4.5) trên tập dữ liệu đã làm đầy theo chiến lược làm đầy dữ liệu thứ hai.

Phân lớp có giám sát với C4.5

Trong thực nghiệm này, chúng tôi tiến hành phân lớp tập dữ liệu nghiên cứu bằng phương pháp phân lớp có giám sát C4.5 Vì là học có giám sát nên bộ phân lớp sẽ không học trên phần dữ liệu chưa có nhãn Tập dữ liệu đã được làm đầy bằng kỹ thuật K-NN với K được cho từ 1 đến 20 theo chiến lược làm đầy dữ liệu thứ hai Kết quả phân lớp với C4.5 sẽ được so sánh với kết quả có được với Self-Training(C4.5) và Tri-Training(C4.5) So sánh này được trình bày trong Bảng 11

Bảng 11 Kết quả phân lớp với C4.5

C4.5 Self-Training(C4.5) Tri-Training(C4.5) Year 2 0.6304 0.6350 0.6574

Kết quả từ Bảng 11 cho thấy, việc tận dụng dữ liệu chưa có nhãn lớp của phương pháp phân lớp bán giám sát (ở đây là Tri-Training(C4.5)) đã đem lại kết quả phân lớp tốt hơn phương pháp phân lớp có giám sát (C4.5) chỉ xây dựng mô hình phân lớp trên tập dữ liệu đã có nhãn

Các kết quả chi tiết của phần này được trình bày trong Phụ lục A.

Phân lớp khi không Bootstrap sampling tập dữ liệu đã có nhãn L

Trong thực nghiệm này, giải thuật Tri-Training được sửa đổi để kiểm tra sự hiệu quả của kỹ thuật Bootstrap sampling tập dữ liệu đã có nhãn L Cụ thể, lúc đầu các bộ phân lớp nền ℎ 𝑖 (i = 1 3) sẽ học ngay trên tập dữ liệu L Như vậy, nếu sử dụng cả ba bộ phân lớp nền đều là C4.5 thì các bộ phân lớp này được huấn luyện trên cùng một tập dữ liệu

L, và các giả thuyết ban đầu mà các ℎ 𝑖 này học được là như nhau (i = 1 3) Kết quả phân lớp có được khi không Bootstrap sampling tập L sẽ được so sánh với kết quả khi Bootstrap sampling tập L (đúng với tinh thần của giải thuật Tri-Training gốc)

Bảng 12 Kết quả phân lớp khi không Bootstrap sampling tập L

Dữ liệu Độ chính xác cao nhất với Tri-Training(C4.5)

Kết quả từ Bảng 12 cho thấy việc Bootstrap sampling tập L đã làm tăng tính riêng biệt của các bộ phân lớp ℎ 𝑖 ngay cả khi các ℎ 𝑖 được chọn ban đầu là như nhau, dẫn đến kết quả phân lớp được cải thiện

Các kết quả chi tiết của phần này được trình bày trong Phụ lục B.

So sánh Tri-Training(C4.5) và Self-Training(C4.5)

Trong phần này chúng tôi tiến hành làm đầy dữ liệu trước rồi tiến hành phân lớp với hai phương pháp phân lớp bán giám sát là Tri-Training(C4.5) và Self-Training(C4.5) Kỹ thuật làm đầy dữ liệu được sử dụng là K-nearest neighbour [11] Số phần tử lân cận K được cho từ 1 đến 20 Đầu tiên chúng tôi tiến hành làm đầy 1334 đối tượng trong mỗi bộ dữ liệu theo hai cách làm đầy dữ liệu đã trình bày trong phần 4.2 Sau đó chúng tôi chia bộ dữ liệu đã làm đầy thành 5 cặp training-test để thực nghiệm đánh giá kiểm định chéo

Hiệu quả của các phương pháp phân lớp được đánh giá qua khả năng phân lớp đúng dữ liệu mới không có trong huấn luyện, tức là độ chính xác của phương pháp khi phân lớp tập dữ liệu test Độ chính xác phân lớp sẽ được tính bằng độ chính xác trung bình trên tập test của 5 lần kiểm định chéo.

Bảng 13 So sánh Tri-Training(C4.5) và Self-Training(C4.5) (1)

Dữ liệu Độ chính xác cao nhất Độ chính xác trung bình

Tri-Training(C4.5) Self-Training(C4.5) Tri-Training(C4.5) Self-Training(C4.5)

Bảng 14 So sánh Tri-Training(C4.5) và Self-Training(C4.5) (2)

Tri-Training(C4.5) Self-Training(C4.5) Tri-Training(C4.5) Self-Training(C4.5)

Bảng 13 trình bày kết quả phân lớp khi thực hiện chiến lược làm đầy dữ liệu thứ nhất, tức làm đầy toàn bộ dữ liệu trong cùng một không gian Bảng 14 trình bày kết quả phân lớp khi thực hiện chiến lược làm đầy dữ liệu thứ hai, tức làm đầy tập dữ liệu có nhãn L trước rồi dùng L để làm đầy từng phần tử trong tập dữ liệu chưa có nhãn U và tập test

49 Trong Bảng 13 và Bảng 14, “Độ chính xác cao nhất” là độ chính xác phân lớp cao nhất mà mô hình phân lớp đạt được khi tiến hành phân lớp dữ liệu đã được làm đầy với K- NN và K cho từ 1 đến 20, “Độ chính xác trung bình” là độ chính xác phân lớp trung bình của các thực nghiệm vừa nêu Các kết quả lớn hơn được in đậm

Kết quả đạt được cho cách làm đầy dữ liệu thứ nhất (Bảng 13) cho thấy phương pháp Tri-Training(C4.5) hiệu quả hơn phương pháp Self-Training(C4.5) trên tập dữ liệu nghiên cứu Độ chính xác cao nhất và độ chính xác trung bình khi sử dụng Tri- Training(C4.5) luôn cao hơn khi sử dụng Self-Training(C4.5) ở cả ba bộ dữ liệu Ngoài ra có thể nhận thấy khi tỉ lệ dữ liệu không đầy đủ trong bộ dữ liệu giảm đi sẽ làm tăng độ chính xác phân lớp Ví dụ, khi phân lớp bằng Tri-Training(C4.5) trên bộ dữ liệu Year 2 với tỉ lệ dữ liệu không đầy đủ cao nhất (51.0%) thì độ chính xác cao nhất đạt 0.6515, trong khi trên bộ dữ liệu Year 4 với tỉ lệ dữ liệu không đầy đủ thấp nhất (21.2%) thì độ chính xác cao nhất đạt đến 0.7242

Kết luận tương tự cũng được rút ra cho tập dữ liệu được làm đầy bằng chiến lược làm đầy dữ liệu thứ hai (Bảng 14).

So sánh hai chiến lược làm đầy dữ liệu

Kết quả thực nghiệm trong phần 5.2 cũng được dùng để so sánh hai chiến lược làm đầy dữ liệu đã trình bày trong phần 4.2 Kết quả này được tóm tắt lại qua hai bảng 15 và 16

Bảng 15 So sánh hai chiến lược làm đầy dữ liệu với Tri-Training(C4.5)

Bảng 15 cho thấy khi phân lớp bằng Tri-Training(C4.5), cách làm đầy dữ liệu thứ hai giúp tạo ra kết quả phân tốt hơn cách thứ nhất ở cả ba bộ dữ liệu dùng trong nghiên cứu

Bảng 16 So sánh hai chiến lược làm đầy dữ liệu với Self-Training(C4.5)

Bảng 16 cho thấy khi phân lớp với Self-Training(C4.5), cách làm đầy dữ liệu thứ hai cũng giúp tạo ra kết quả phân tốt hơn cách thứ nhất ở cả ba bộ dữ liệu dùng trong nghiên cứu

Các nhận định trên đây cho thấy cách làm đầy dữ liệu đề xuất có thể đem đến kết quả phân tốt hơn cách làm đầy dữ liệu thông thường.

So sánh hai cách xử lý dữ liệu thưa

Tiếp theo, chúng tôi tiến hành thực nghiệm với phương pháp đề xuất như trong Hình 4 và so sánh với giải thuật Tri-Training của các tác giả trong [41] Vì điểm khác biệt chính của phương pháp đề xuất và phương pháp Tri-Training ban đầu nằm ở cách thức xử lý dữ liệu thưa: khi sử dụng phương pháp Tri-Training ban đầu cần thực hiện tuần tự quá trình làm đầy dữ liệu rồi phân lớp, trong khi với phương pháp đề xuất, quá trình này được lặp đi lặp lại Do đó, tạm gọi cách thực hiện thông thường ban đầu là cách xử lý tuần tự, cách thực hiện như đề xuất là cách xử lý lặp

Kết quả từ Bảng 17 cho thấy, đối với bộ dữ liệu Year 2 với tỉ lệ dữ liệu không đầy đủ cao nhất, cách xử lý lặp có thể đạt được độ chính xác cao hơn cách xử lý tuần tự Ngoài ra, ở bộ dữ liệu Year 4, cách xử lý cho độ chính xác trung bình cao hơn cách xử lý tuần tự

Bảng 17 So sánh độ chính xác của cách xử lý tuần tự và cách xử lý lặp

Cách xử lý tuần tự Cách xử lý lặp Cách xử lý tuần tự Cách xử lý lặp

51 Đối với bộ dữ liệu Year 3 và Year 4, cách xử lý lặp kém hiệu quả hơn cách xử lý tuần tự khi không đạt được độ chính xác cao nhất như cách xử lý tuần tự Tuy vậy, vẫn có nhiều trường hợp cách xử lý lặp cho kết quả cao hơn cách xử lý tuần tự, như trình bày trong Bảng 18

Bảng 18 So sánh số lần Win của cách xử lý tuần tự và cách xử lý lặp

Dữ liệu Số lần Win

Cách xử lý tuần tự Cách xử lý lặp

Bảng 18 so sánh số lần mà cách xử lý lặp có độ chính xác bằng hoặc cao hơn cách xử lý tuần tự (tạm gọi là số lần Win) và ngược lại Với bộ dữ liệu Year 4, số lần Win của cách xử lý lặp khá lớn hơn của cách xử lý tuần tự, dẫn đến độ chính xác trung bình cao hơn

Kết quả này chứng tỏ trong nhiều trường hợp, cách xử lý tuần tự vẫn còn có thể được cải thiện để làm tăng độ chính xác của mô hình phân lớp

Cách xử lý lặp không hiệu quả hơn cách xử lý tuần tự ở bộ dữ liệu Year 2 và Year 3 có thể được giải thích dựa vào đặc điểm của dữ liệu Ở hai bộ dữ liệu này, các đối tượng có dữ liệu ở các chiều hầu như giống nhau (dễ thấy nhất ở bộ dữ liệu Year 2 khi các sinh viên mới vừa hoàn thành các môn đại cương ở năm thứ nhất như nhau), và không có dữ liệu ở các chiều khác tương tự nhau Do đó, giải thuật K-NN sẽ không phát huy hiệu quả ngay cả khi được lặp lại nhiều lần.

Chúng tôi đã tiến hành các thực nghiệm sau đây:

- So sánh hiệu quả phân lớp của hai phương pháp học bán giám sát là Tri- Training(C4.5) và Self-Training(C4.5): Kết quả thực nghiệm cho thấy phương pháp Tri-Training(C4.5) hiệu quả hơn trên tập dữ liệu nghiên cứu

- So sánh hiệu quả của hai chiến lược làm đầy dữ liệu: Kết quả thực nghiệm cho thấy chiến lược đề xuất có thể giúp mang lại kết quả phân lớp cao

- So sánh hiệu quả của cách xử lý tuần tự và cách xử lý lặp: Kết quả thực nghiệm cho thấy cách xử lý lặp có thể đạt được độ chính xác cao hơn ở bộ dữ liệu có tỉ lệ dữ liệu không đầy đủ cao nhất

TỔNG KẾT

Tổng lược nội dung của luận văn

Dự báo sớm kết quả học tập của sinh viên đang là một trong những đề tài được quan tâm trong các nghiên cứu thực hiện ở khoa Khoa học và Kỹ thuật Máy tính bởi ý nghĩa thực tiễn và ý nghĩa khoa học của đề tài này Trong hầu hết các nghiên cứu, dữ liệu được sử dụng là điểm số cuối môn học của sinh viên Bởi vì trường Đại học Bách Khoa TP.HCM là cơ sở giáo dục theo học chế tín chỉ, một trong những khó khăn khi làm việc với dữ liệu như vậy là tính không đầy đủ của dữ liệu Nếu một sinh viên được biểu diễn bởi một vector với số chiều tương ứng với số môn học có trong chương trình đào tạo thì dữ liệu không đầy đủ có thể xảy ra ở bất kì chiều của bất kì vector nào Tuy nhiên, việc xử lý một cách hiệu quả các tập dữ liệu giáo dục không đầy đủ như vậy lại chưa được quan tâm nghiên cứu sâu sát

Bên cạnh những sinh viên đã hoàn thành thời gian học chính thức, tức trạng thái học tập, hay nhãn lớp, của những sinh viên này đã biết, thì vẫn còn có số lượng lớn dữ liệu chưa có nhãn tương ứng với những sinh viên còn đang học và chưa đi đến thời điểm cuối cùng của chương trình

Với những lý do vừa nêu, luận văn hướng đến phát triển một phương pháp phân lớp bán giám sát hiệu quả để tận dụng lượng dữ liệu chưa có nhãn và để làm đầy dữ liệu một cách hiệu quả, vì các công tác này cuối cùng sẽ dẫn đến sự cải thiện của độ chính xác phân lớp Cụ thể, chúng tôi lồng ghép chiến lược làm đầy dữ liệu của mình vào vòng lặp của phương pháp phân lớp bán giám sát Tri-Training Các kết quả đã chỉ ra rằng cách xử lý lặp dữ liệu thưa đề xuất cho độ chính xác phân lớp cao hơn cách xử lý tuần tự dữ liệu thưa trong nhiều trường hợp Điều này chứng tỏ rằng độ chính xác phân lớp của cách xử lý tuần tự vẫn còn có thể được cải thiện, và vòng lặp của học bán giám sát có thể được tận dụng để việc làm đầy dữ liệu đạt hiệu quả cao hơn

54 Ngoài ra, luận văn cũng chỉ ra rằng việc làm đầy trước dữ liệu đã có nhãn lớp rồi sử dụng kết quả này để làm đầy các phần tử chưa có nhãn lớp và các phần tử trong tập test sẽ giúp cho kết quả phân lớp được cao hơn so với khi làm đầy tất cả dữ liệu trong cùng một không gian.

Những đóng góp của luận văn

Nghiên cứu trong luận văn này có hai đóng góp chính như sau:

- Luận văn đã chỉ ra một chiến lược cách làm đầy dữ liệu hiệu quả, đem lại kết quả phân lớp cao hơn cách làm truyền thống

- Luận văn đề xuất phát triển phương pháp học bán giám sát Tri-Training bằng cách lồng ghép kỹ thuật xử lý dữ liệu không đầy đủ vào vòng lặp của Tri-Training Cách xử lý lặp dữ liệu không đầy đủ này đã chứng tỏ hiệu quả hơn cách xử lý tuần tự dữ liệu không đầy đủ trong một số trường hơp.

Hướng phát triển

Kết quả thực nghiệm với cách làm đầy dữ liệu mới cho kết quả khá cao Tuy nhiên, dữ liệu áp dụng cho bài toán này còn một số vấn đề cần phải giải quyết, như vấn đề không cân bằng nhãn lớp Mặt khác, chiến lược làm đầy dữ liệu mới chỉ được lồng ghép vào phương pháp Tri-Training Do đó, hướng phát triển tiếp theo của đề tài sẽ tập trung vào những vấn đề sau:

- Tiền xử lý dữ liệu hiệu quả trước khi phân lớp để giải quyết vấn đề của dữ liệu như không cân bằng nhãn lớp và dữ liệu chồng chập Có thể nghiên cứu lồng ghép các cách xử lý này vào vòng lặp của các phương pháp học bán giám sát

- Nghiên cứu lồng ghép kỹ thuật xử lý dữ liệu không đầy đủ vào các phương pháp học bán giám sát khác để làm tăng hiệu quả của phương pháp đó khi áp dụng trên dữ liệu không đầy đủ

- Nghiên cứu tăng tính hiệu quả của giải thuật học bán giám sát đã đề xuất trong luận văn này

Tiêu đề	Phát triển phương pháp học bán giám sát cho vấn đề dữ liệu thưa trong phân loại sinh viên sớm
Tác giả	Đinh Khắc Huy
Người hướng dẫn	TS. Nguyễn Hứa Phùng, TS. Võ Thị Ngọc Châu
Trường học	Trường Đại học Bách Khoa, ĐHQG TP.HCM
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	79
Dung lượng	1,06 MB