Giải thuật mô hình chủ đề Latent Dirichlet Allocation LDA được đề xuất như là một giải pháp ứng dụng nền tảng toán học thống kê trong việc giải quyết bài toán gom cụm.Hiện nay, nhiều ngh
Lí do chọn đề tài
Nghiên cứu ứng dụng khai phá dữ liệu vào quản lý giáo dục đào tạo đƣợc xem rất cần thiết cho các nhà quản lý giáo dục, giúp công tác quản lý và hoạch định chiến lƣợc giáo dục ngày càng hiệu quả Gần đây có các công trình nghiên cứu ứng dụng kỹ thuật khai phá dữ diệu đem lại nhiều lợi ích trong công tác quản lý giáo dục
Nghiên cứu của Lê Thanh Minh [6] sử dụng khai phá luật kết hợp và logic mờ trên kết quả thi tốt nghiệp THPT và THCS cho mục tiêu đánh giá hiệu quả đào tạo và cung cấp các thông tin cần thiết cho quá trình nâng cao chất lƣợng học sinh
Luận văn thạc sĩ của Phan Đình Thế Huân [16] đã nghiên cứu phương pháp khai mỏ tìm luật kết hợp trên dữ liệu giáo dục Ứng dụng thực nghiệm trên dữ liệu kết quả học tập của sinh viên trường Đại học Tôn Đức Thắng, nhằm hỗ trợ đánh giá và dự đoán kết quả học tập của sinh viên, qua đó nâng cao chất lƣợng đào tạo
Nghiên cứu của Nguyễn Thị Vân Hảo [19] đề xuất sử dụng giải thuật máy học cây quyết định và mạng Bayes trong dự đoán kết quả học tập của sinh viên đại học và sau đại học của Trường Đại học Cần Thơ
Nhóm tác giả trường Đại học Quốc Gia St.Agustin, Peru nghiên cứu hệ thống khuyến nghị khóa học trực tuyến sử dụng LDA [8], [24] Hệ thống phân tích các mô tả ngắn về khóa học trực tuyến từ Cousera, Udacity, Edx … và thực hiên phân cụm các khóa học liên quan để người dùng dễ dàng tra cứu các khóa học phù hợp
Bên cạnh tìm một hướng tiếp cận mới trong khai phá dữ liệu giáo dục, đề tài sử dụng mô hình chủ đề hướng thời gian bởi vì đặc điểm dữ liệu cần khai thác thông tin là các bảng điểm của sinh viên Bảng điểm của sinh viên có sự thay đổi theo từng học kỳ từng năm học.Do vậy, ta cần tìm một giải thuật gom cụm mà các cụm có sự liên kết về thời gian.
Mục tiêu nghiên cứu
Đề tài nghiên cứu hướng áp dụng mô hình mô hình chủ đề hướng thời gian trong việc khai phá dữ liệu học tập của sinh viên qua từng học kỳ Thông qua việc giải quyết bài toán, đề tài hướng tới các mục tiêu sau:
Quan sát quá trình học tập của sinh viên qua từng học kỳ, từ đó phát hiện đƣợc các sinh viên đang có kết quả học tập không tốt hoặc các sinh viên có sự chuyển biến kết quả học tập từ tốt sang không tốt
Xác định các môn học đang ảnh hưởng đến kết quả học tập của sinh viên.
Ý nghĩa khoa học
Với việc áp dụng mô hình chủ đề hướng thời gian, đề tài đưa ra một phương pháp tiếp cận khác trong việc gom cụm dữ liệu giáo dục Trên cơ sở kết quả cụm đạt được theo mô hình chủ đề hướng thời gian, phương pháp phân tích cụm theo sinh viên và theo môn học đƣợc đề xuất.
Ý nghĩa thực tiễn
Kết quả phân tích cụm hỗ trợ cán bộ quản lý lên kế hoạch đào tạo hiệu quả, nâng cao chất lƣợng đào tạo, đồng thời giúp cố vấn học tập xác định và hỗ trợ kịp thời các sinh viên đang gặp khó khăn trong học tập hoặc có những chuyển biến xấu trong kết quả học tập.
Phạm vi thực hiện đề tài
Đề tài chỉ thực hiện nghiên cứu trên tập dữ liệu điểm của sinh viên khoa Khoa Học Máy Tính, trường Đại học Bách khoa TP.HCM.
Nền tảng lý thuyết
2.1.1 Mô hình chủ đề ẩn
Mô hình chủ đề ẩn [8] là mô hình xác suất phân phối các chủ đề ẩn trên mỗi tài liệu Chúng được xây dựng dựa trên ý tưởng rằng mỗi tài liệu có 1 xác suất phân phối vào các chủ đề, với mỗi chủ đề là sự phân phối kết hợp giữa các từ khoá Hay nói cách khác, ý tưởng cơ bản là xem tài liệu là sự pha trộn của các chủ đề Biểu diễn các từ và tài liệu dưới dạng phân phối xác suất có lợi ích rất lớn so với không gian vector thông thường tưởng của các mô hình chủ đề ẩn là xây dựng những tài liệu mới dựa theo phân phối xác suất.Trước hết, để tạo ra một tài liệu mới, cần chọn ra một phân phối những chủ đề cho tài liệu đó, điều này có nghĩa tài liệu đƣợc tạo nên từ những chủ đề khác nhau, với những phân phối khác nhau Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề Một cách hoàn toàn ngƣợc lại, cho một tập các tài liệu, có thể xác định một tập các chủ đề ẩn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề
2.1.1.1 Phương pháp phân tích mô hình chủ đề ẩn
Hai phương pháp phân tích mô hình chủ đề ẩn là Probabilistic Latent Semantic
Analysis (pLSA) và Latent Dirichlet Allocation (LDA)
pLSA [3] là một kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời Phương pháp này được phát triển dựa trên LSA 1], mặc dù pLSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó vẫn c n chƣa hoàn thiện ở chỗ chƣa xây dựng đƣợc một mô hình xác suất tốt ở mức độ tài liệu Điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng
LDA[8] là một mô hình sinh xác suất cho tập dữ liệu rời rạc dựa trên phân phối Dirichlet, đƣợc D M Blei và cộng sự phát triển vào năm 2003
LDA được xây dựng dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của nhiều chủ đề (topic)
LDA là một mô hình hoàn thiện hơn so với pLSA và có thể khắc phục đƣợc những nhƣợc điểm đã nêu trên Về bản chất, LDA là một mô hình Bayes phân cấp 3 mức (mức kho ngữ liệu, mức tài liệu và mức từ ngữ) Mỗi tài liệu trong tập hợp đƣợc coi là một hỗn hợp xác định trên tập cơ bản các chủ đề Mỗi chủ đề là một hỗn hợp không xác định trên tập cơ bản các xác suất chủ đề Về khía cạnh mô hình hóa văn bản, các xác suất chủ đề là một biểu diễn cụ thể, rõ ràng cho một tài liệu
2.1.1.2 Mô hình sinh trong mô hình chủ đề ẩn
Giả sử rằng có k chủ đề ẩn khác nhau θ = ( , , ), tương ứng với k phần tử nằm trong đơn hình xác suất:
Gọi điểm ngẫu nhiên nằm trong tập bao lồi các chủ đề G=conv{ , , } với : η = + + (2)
Trong đó ( ) biến ngẫu nhiên với giả định có phân phối xác suất Dirichlet trong đơn hình xác suất : p( ) = ∏ (∑ ( ) )
∏ (3) biểu thị hàm số Gamma, c n , , là những tham số của mật độ Dirichlet
Trong mỗi văn bản có tần suất nhƣ trên, các từ trong vector x=( ,…, ) là các biến ngẫu nhiên độc lập theo phân phối phân loại : tung một con xúc xắc d mặt, xác suất của lấy mặt j sẽ là với j=1 d
Tổng quát, xác suất của x khi biết tần suất là: p(x| ) = ∏ ∏ ( ) (4) với l(A)=1 nếu A đúng , 0 nếu A sai
Ta có hàm mật độ cho mô hình sinh dữ liệu là: p(x| ) ∫ ( ) ( ) (5) với ( ) là một phân phối cho biến ngẫu nhiên
2.1.1.3 Ƣớc lƣợng tham số và suy diễn với mô hình Gibbs Sampling cho mô hình chủ đề ẩn
Do ta ƣớc lƣợng tham số cho mô hình LDA bằng tối ƣu hóa một cách trực tiếp và chính xác suất của toàn bộ tập dữ liệu là khó có thể thực hiện Một giải pháp đã được đề ra là sử dụng phương pháp ước lượng xấp xỉ như phương pháp biến phân [8] và lấy mẫu Gibbs [18] Lấy mẫu Gibbs đƣợc xem là một thuật toán nhanh, đơn giản và hiệu quả để huấn luyện mô hình LDA.
Một chủ đề đƣợc gán cho một từ cụ thể đƣợc lấy mẫu theo phân bố đa thức sau:
là số lần từ t đƣợc gán cho chủ đề k, không tính đến lần gán hiện thời
[∑ ] là số từ đƣợc gán cho chủ đề k, không tính lần gán hiện thời
là số từ trong tài liệu m đƣợc gán cho chủ đề k, không tính lần gán hiện thời
[∑ ] là số từ trong tài liệu m, không kể từ t
Sau khi lấy mẫu Gibbs, giá trị các tham số đƣợc xác định, các phân phối ẩn đƣợc tính nhƣ sau:
2.1.2 Mô hình chủ đề hướng thời gian
Mô hình chủ đề hướng thời gian [11] được Blei giới thiệu năm 2006 Mô hình là mở rộng của mô hình chủ đề với ràng buộc các chủ đề sẽ thay đổi theo thời gian
Xét K chủ đề trên tập các từ V, gọi là vector V chiều là tham số cho chủ đề k tại thời gian t Mô hình Gaussian cho sự thay đổi các chủ đề theo thời gian nhƣ sau:
Trong mô hình chủ đề, là tỷ lệ xác suất 1 tài liệu mang 1 chủ đề xác định và có phân phối Dirichlet, với mô hình chủ đề theo thời gian ta sử dụng trung bình theo phân phối chuẩn logistic để biểu diễn sự thay đổi của tỷ lệ xác suất theo thời gian, mối quan hệ biểu diễn bởi biểu thức sau:
Ta có giải thuật tổng quát cho mô hình nhƣ sau:
Sinh các chủ đề theo thời gian theo biểu thức (9)
Sinh các trung bình α theo biểu thức (10)
Với mỗi tài liệu : o Sinh η theo η ∼ ( , I) o Với mỗi từ :
Sinh từ ∼ Mult(π( )) Với là đƣợc xác định nhƣ sau:
Hình 1 : Biểu diễn hình học của mô hình chủ đề theo thời gian [11]
2.1.2.2 Ước lượng tham số theo phương pháp lọc Kalman
Phương pháp lọc Kalman [12] được R.E.Kalman giới thiệu vào năm 1960 Bộ lọc Kalman là 1 tập hợp các phương trình toán học nhằm cung cấp một phương pháp tính toán đệ quy hiệu quả để ƣớc lƣợng trạng thái của một quá trình theo cách tối thiểu hoá giá trị trung bình của bình phương lỗi Bộ lọc rất hiệu quả khi ước lượng trạng thái quá khứ, hiện tại thậm chí cả tương lai
Bộ lọc Kalman ƣớc lƣợng một quá trình bằng cách sử dụng một dạng của điều khiển phản hồi, bộ lọc ƣớc lƣợng trạng thái của quá trình tại một thời điểm sau đó có được phản hồi từ các đo đạc (có nhiễu) Như vậy, các phương trình của bộ lọc Kalman đƣợc chia thành hai nhóm:
Các phương trình cập nhật theo thời gian để dự đoán trạng thái hiện tại và vector hiệp phương sai lỗi nhằm ước lượng trạng thái tiền nghiệm cho bước tiếp theo
Các phương trình cập nhật theo giá trị đo lường dùng để cung cấp phản hồi, chẳng hạn như kết hợp một giá trị đo lường mới với ước lượng tiền nghiệm để có đƣợc ƣớc lƣợng trạng thái hậu nghiệm
Chúng ta coi các phương trình cập nhật theo thời gian là các phương trình dự đoán, trong khi đó các phương trình cập nhật theo giá trị đo lường là các phương trình sửa sai Như vậy, thuật toán ước lượng cuối cùng tương tự như một thuật toán dự đoán – sửa sai
Hình 2 : Chu trình bộ lọc Kalman [12] Cập nhật theo thời gian dự đoán trạng thái hiện tại theo thời gian Cập nhật đo lường để điều chỉnh ước lượng dự đoán bằng một đo lường thực sự theo thời gian
2.1.2.2.2 Phương pháp lọc Kalman trong mô hình chủ đề hướng thời gian
Xét mô hình unigram có tham số theo thời gian
Hình 3 : Mô hình unigram theo thời gian w N w N
Mô hình không gian trạng thái :
∼ N ( , I) ∼ Mult(π( )) với ƣớc lƣợng tham số ̂ ( ̂ ) Chúng ta ước lượng ̂ , ̂ sử dụng phương pháp lọc Kalman như sau : Với , đƣợc xác định ban đầu , ta xét tại thời gian t
(( ) ̂ ) ̂ ̂ / ( ) (12) Đệ quy công thức , tại thời gian t-1 với giả định ̃ , ̃ ta có : ̃ ( ̂ ) / / ̃ (13)
Từ bất đẳng thức Jensen , ta xác định chặn dưới của hàm likelihood được xác định nhƣ sau: logp( ) ∫ ( ̂ ) ( ) ( ) ( ̂ ) / ( ) ∑ ( ) ( ) (14)
H(q) =∑ | ̃| / ∑ ∑ ̃ (17) Để tìm cực đại của chặn dưới trong biểu thức (14) , ta sử dụng thuật giải gradient theo các bước sau :
Bước 1 : Tìm cực trị tham biến
Quá trình forward : ̂ ̂ ̂ / ̂ ̂ ̂ / (19) với ̂ Quá trình backward : ̃ ̂
Trong định dạng Blei’s lda-c , tài liệu đại diện bởi 2 tập tin sau:
Tập tin biểu diễn tài liệu, mỗi tài liệu trên 1 dòng có dạng nhƣ sau:
N fieldId1:fieldValue1 fieldId2:fieldValue2 fieldIdN:fieldValueN
N: tổng số từ trong tài liệu
fieldIdi: chỉ số từ thứ i tương ứng trong tập từ vựng
fieldValuei: số lần xuất hiện từ thứ i trong tài liệu
Tập từ vựng là tập tin ánh xạ giữa từ và các chỉ số của chúng , mỗi từ trên 1 dòng , từ tại dòng thứ K sẽ có chỉ số id=K
2.1.4 Phương pháp đánh giá mô hình sử dụng Perplexity
Sử dụng phương pháp tính perplexcity (độ hỗn loạn) [9], [27], [28] theo từng khung thời gian với tập dữ liệu có M tài liệu với công thức sau :
p( ) : xác suất từ trong tài liệu d có chủ đề z
: tổng số từ trong tài liệu d
Phân phối xác suất p tại thời điểm t là tốt khi độ hỗn loạn tại thời điểm t là thấp nhất , vì vậy độ hỗn loạn của mô hình cho khung thời t=1,…, T là : perplexcity( ) =min* ( ) ( )+
Các nghiên cứu liên quan
2.2.1 Áp dụng mô hình chủ đề trong phân tích chứng khoán [15]
Bài toán : Sử dụng mô hình chủ đề để gom nhóm các cổ phiếu có giá trị tăng/giảm tương tự nhau trong nhóm 500 công ty lớn nhất niêm yết trên NYSE
Áp dụng mô hình chủ đề :
Chúng ta liên kết khái niệm chủ đề, tài liệu, từ ngữ trong xử lý văn bản sang lĩnh vực tài chính nhƣ sau:
Chủ đề : là tập hợp các công ty mà giá trị cổ phiếu tăng/giảm cùng nhau
Tài liệu : dữ liệu giao dịch hàng ngày
Từ ngữ : là mã cổ phiếu kèm dấu cộng hoặc trừ biểu thị cho sự tăng/giảm của cổ phiếu
Ví dụ: trong ngày giao dịch thứ hai, giá cổ phiếu Apple (AAPL) giảm 3%, Google Inc (GOOG) tăng 2% Ta biểu diễn tài liệu của ngày thứ hai nhƣ sau AAPL-AAPL-AAPL-GOOG+GOOG+
Với giả định, mô hình sinh dữ liệu là dữ liệu tăng/giảm cổ phiếu của nhóm các công ty Nhóm các công ty này sẽ có giá cổ phiếu thay đổi tuỳ theo lý do riêng Ta có các đại lƣợng sau :
( ) : xác suất cổ phiếu tăng/giảm dựa trên biến động của công ty
( ) : xác suất công ty biến động trong 1 ngày d cụ thể
Dữ liệu đầu vào : dữ liệu giao dịch trong 501 ngày từ 1/2007 tới 9/2008 chứa 469.642 cặp dữ liệu tăng/giảm cổ phiếu
Kết quả : Ta phân đƣợc 100 nhóm công ty có giá cổ phiếu biến động tương tự nhau (tăng/giảm)
Bảng 1: Nhóm các công ty có trung bình xác suất ̅ cao nhất trong 100 nhóm công ty đƣợc học từ mô hình
Ta nhận thấy các công ty trong cùng nhóm có sự tương đồng về ngành
Nhóm 1 là nhóm các công ty thuộc lĩnh vực năng lƣợng, nhóm 2 thuộc nhóm ngành kho bãi, nhóm 3 là nhóm ngành tài chính và nhóm 4 là nhóm bất động sản
Ƣu/Nhƣợc điểm của mô hình: Với việc học không giám sát trên dữ liệu giao dịch, chúng ta không cần xác định trước các chủ đề cần học
Tuy nhiên, thị trường tài chính luôn biến động, nếu 1 hay nhiều công ty rời khỏi nhóm S&P500 thì sự phân nhóm sẽ bị ảnh hưởng Vì vậy chúng ta cần một mô hình chủ đề có gắn kết với thời gian để giải quyết vấn đề trên
2.2.2 Áp dụng mô hình chủ đề hướng thời gian trong phân tích bài báo khoa học [11]
Bài toán : Sử dụng mô hình chủ đề gắn thời gian để phân tích 30.000 bài viết từ tạp chí khoa học xuất bản từ năm 1881 tới năm 1999 với xấp xỉ 7,5 triệu từ Số từ cần phân tích sau bước tiền xử lý là 15.955 từ
Thực nghiệm 1 : tìm mối liên hệ các từ vựng theo ngữ cảnh tương ứng mốc thời gian
Hình 4: Từ vựng “Atomic Physics” , các bài viết có ngữ cảnh tương ứng với từ này sẽ khác nhau qua từng năm 11].
Thực nghiệm 2 : dự đoán các bài viết cho kỳ xuất bản tiếp theo dựa trên các bài viết các năm trước Nhóm tác giả lấy 20 chủ đề từ 3 mô hình sau để so sánh độ tương đồng (likelihood) của các bài viết trong kỳ xuất bản tiếp với các bài viết trong quá khứ :
Mô hình chủ đề thời gian với tất cả dữ liệu quá khứ
Mô hình chủ đề với tất cả dữ liệu quá khứ
Mô hình chủ đề với dữ liệu liền kề với kỳ xuất bản tiếp theo
Hình 5: Mô hình chủ đề thời gian có độ tương đồng cao nhất so với mô hình chủ đề thông thường [11]
Mô hình tổng quát
Dựa vào nền tảng lý thuyết đã trình bày, đề tài đề xuất sử dụng mô hình chủ đề hướng thời gian/động (Dynamic Topic Model, DTM) để khai phá cụm hướng thời gian trên dữ liệu giáo dục
Trước khi áp dụng mô hình DTM, ta định nghĩa 1 số khái niệm sau:
Tập dữ liệu: dữ liệu điểm của M sinh viên trong khoa Khoa học máy tính , giả định trong từng học kỳ có N môn học và kết quả điểm của học kỳ sau bao gồm kết quả của các học kỳ trước
Chủ đề: ( ) với K là nhóm chủ đề ẩn
Tài liệu: ( ) với N là số môn học trong một chương trình học, là điểm trung bình tích luỹ cho môn học thứ i
Từ ngữ: w là mức điểm có thể có tương ứng điểm trung bình tích lũy cho từng môn học của sinh viên trong mỗi học kỳ
Tập từ vựng V: bao gồm các mức điểm có thể có cho mỗi môn học
Trong từng học kỳ, nhóm chủ đề thay đổi theo từng học kỳ sẽ đƣợc mô tả theo tham số nhƣ sau:
Ta giả định bảng điểm của sinh viên là sự pha trộn của nhiều môn học, gọi là xác suất nhóm môn học có trong bảng điểm của sinh viên d và có phân phối Dirichlet đối với chủ đề k (với k=1, ,K) Các chủ đề thay đổi theo từng học kỳ , ta biểu diễn mối quan hệ này theo 1 đại lƣợng trung bình có phân phối chuẩn logistic nhƣ sau :
| ∼ N ( , I) (23) Giải thuật tổng quát cho mô hình nhƣ sau :
Tạo nhóm môn học theo thời gian theo biểu thức (22)
Tạo các trung bình α theo biểu thức (23)
Với mỗi bảng điểm của sinh viên d : o Tạo η theo η ∼ ( , I) o Với mỗi điểm cho từng môn học :
Tạo nhóm môn học z theo z ∼ Mult(π(η))
Gọi là mức điểm cho môn học thứ n trong bảng điểm của sinh viên d trong học kỳ t , tạo theo ∼ Mult(π( ))
Với là đƣợc xác định nhƣ sau :
Hình 6 : Mô hình hình học của mô hình tổng quát
Phương hướng giải quyết
Ta thực hiện theo lưu đồ sau:
Hình 7: Lưu đồ giải pháp thực hiện
Tiền xử lý dữ liệu: xử lý dữ liệu theo định dạng Blei’s lda-c (mục 2.1.3)
Thực nghiệm khai phá cụm với mô hình DTM: ta chạy mô hình DTM để thực hiện phân cụm
Trực quan hóa từng cụm: ta tiến hành trực quan hóa các cụm tại từng mốc thời gian
Phân tích cụm: phân tích cụm theo sinh viên dựa vào kết quả văn bản - chủ đề và phân tích cụm theo môn học dựa vào kết quả từ - chủ đề
Đánh giá: ta dựa vào độ đo perplexity (mục 2.1.4) để đánh giá chất lƣợng cụm ở từng mốc thời gian.
Dữ liệu minh họa
Giả định ta có dữ liệu điểm của 500 sinh viên khoa Khoa Học Máy Tính, số học kỳ là 4, số môn học cho từng học kỳ đƣợc cố định là 10 môn Mức điểm cho từng môn học theo bảng mô tả sau:
Bảng 2: Bảng mức điểm tương ứng điểm trung bình học tập Mức điểm Điểm trung bình tương ứng
D nhỏ hơn 5 hoặc NULL nếu sinh viên không đăng ký môn học
Ta có cấu trúc điểm của mỗi sinh viên cho từng học kỳ nhƣ sau:
Bảng 3: Bảng minh họa dữ liệu học tập theo mức điểm
Môn học 1 Môn học 2 ……… Môn học N
Tập dữ liệu của 500 sinh viên cho từng học kỳ đƣợc mô tả nhƣ sau:
Bảng 4: Bảng minh họa tập dữ liệu học tập của 500 sinh viên
Học kỳ 1 Học kỳ 2 Học kỳ 3 Học kỳ 4
001 MH1:A,…,MH10:D MH1:B,….,MH20:C MH1:D,…,MH30:C MH1:C,…,MH40:A
Tập từ vựng V với là số môn học cho học kỳ thứ k đƣợc mô tả nhƣ sau:
Bảng 5: Bảng minh họa cho tập vựng
Ta chuyển đổi dữ liệu bảng điểm của 500 sinh viên trong 4 học kỳ theo định dạng Blei’s lda-c nhƣ sau:
Tập dữ liệu là toàn bộ bảng điểm của sinh viên trong 4 học kỳ, bảng điểm của mỗi sinh viên trên 1 dòng có dạng nhƣ sau :
N fieldId1:fieldValue1 fieldId2:fieldValue2 fieldIdN:fieldValueN
N : tổng số môn học sinh viên học trong từng học kỳ
fieldIdi : chỉ số môn học-điểm thứ I tương ứng trong tập từ vựng môn học – điểm
fieldValuei : chỉ nhận 2 giá trị 0 tương ứng với môn học sinh viên chưa học , 1 tương ứng với môn học sinh viên đã học
Tập từ vựng môn học – điểm chứa các điểm có thể có (A,B,C hoặc D) cho môn học thứ N , mỗi cặp môn học-điểm trên 1 dòng
Phương pháp phân tích cụm
4.3.1 Phân tích cụm theo sinh viên
Sau khi chạy mô hình DTM, ta có đƣợc các cụm dữ liệu theo thời gian Bằng việc phân tích cụm theo sinh viên, ta xác định đƣợc đặc trƣng của cụm Cụ thể, đặc trƣng cụm ở đây là cụm nhóm sinh viên có kết quả học tập tốt, học tập không tốt hoặc có sự chuyển biến trong kết quả học tập
Dữ liệu đầu vào: cụm dữ liệu có xác suất phân bố văn bản – chủ đề
Dữ liệu đầu ra: mẫu chuyển cụm phản ánh đặc trƣng của cụm Để thực hiện phân tích cụm theo sinh viên, ta thực hiện các bước như sau:
Xác định vector trung bình của từng cụm
Tính module vector trung bình của từng cụm Cụm có module vector trung bình cao phản ánh chất lƣợng học tập tốt của các sinh viên thuộc cụm và ngƣợc lại
Sắp xếp cụm theo module vector trung bình theo thứ tự giảm dần cho mỗi học kỳ
Xác định mẫu chuyển cụm tương ứng cho các cụm sinh viên học tốt, học không tốt hoặc có sự chuyển biến học tập qua các học kỳ
4.3.2 Phân tích cụm theo môn học
Trong mô hình DTM, mối quan hệ giữa từ - chủ đề giúp ta xác định nhóm từ đặc trƣng cho chủ đề qua từng khung thời gian Với ngữ cảnh bài toán, từ là môn học kèm mức điểm có thể có cho môn học.Môn học phản ánh cho kết quả học tập của sinh viên.Vì vậy, ta cần phân tích cụm theo môn học để xác định nhóm môn học phản ánh đặc trƣng cho cụm
Dữ liệu đầu vào: mẫu chuyển cụm và các cụm dữ liệu có xác suất phân bố từ – chủ đề
Dữ liệu đầu ra: các môn học phản ánh đặc trƣng cụm,nghĩa là các môn học ảnh hưởng đến sinh viên trong mẫu chuyển cụm
Ta thực hiện qua các bước sau:
Sắp xếp các từ theo chủ đề dựa xác suất phân bố từ - chủ đề giảm dần.Khi này, các môn học cùng với mức điểm tương ứng được sắp xếp cho nhóm sinh viên tại một học kỳ
Chọn k môn học tương ứng các từ có xác suất phân bố cao nhất tại một học kỳ Trong đó, k môn học đại diện cho các môn học đang ảnh hưởng đến kết quả học tập của sinh viên tại một học kỳ trong mẫu chuyển cụm o Các môn học ảnh hưởng từng giai đoạn học tập (giai đoạn 3 học kỳ đầu và giai đoạn 3 học kỳ sau đó) o Các môn học luôn ảnh hưởng đến kết quả học tập o Các môn học có ảnh hưởng tăng dần đến kết quả học tập (thứ tự ảnh hưởng tăng dần qua các học kỳ).
Câu hỏi thực nghiệm
Phần thực nghiệm trong đề tài tập trung giải quyết các câu hỏi sau:
Q.4.1.1: Nhóm sinh viên nào gặp khó khăn trong học tập hoặc có những chuyển biến tốt hoặc không tốt trong học tập?
Q.4.1.2: Nhóm môn học nào ảnh hưởng đến quá trình học tập của sinh viên?
Q.4.1.3: Sử dụng mô hình chủ đề hướng thời gian có phù hợp cho khai phá cụm dữ liệu học tập của sinh viên hay không?
Q.4.1.4: Bao nhiêu cụm là tối ƣu khi khai phá cụm sử dụng mô hình chủ đề hướng thời gian?
Môi trường thực nghiệm
Đề tài được thực nghiệm ở máy cá nhân, với môi trường thực nghiệm được cài đặt nhƣ sau:
- Hệ điều hành: MacOS Sierra 10.12.6
- Cấu hình: Dòng máy Macbook Pro nhân Intel(R) Core(TM) i5 CPU 2.7GHz, RAM 8Gb
- Ngôn ngữ: Python 2.7.14 Đề tài đƣợc thực hiện dựa vào một số thƣ viện sau:
- gensim 3.2.0 : thƣ viện mô hình LDA và mô hình DTM
- pyLDAvis 2.1.1 : thƣ viện trực quan hóa cụm của mô hình chủ đề
- plotly 2.5.1: thƣ viện đƣợc dùng vẽ biểu đồ
- scikit-learn 0.19.1: thƣ viện cho giải thuật gom cụm K-Means Đề tài chọn thông số 4 cụm cho các giải thuật tương ứng 4 mức điểm (bảng 2, mục 3.3) Thiết lập thông số theo nhƣ bảng sau:
Bảng 6: Bảng thiết lập thông số chạy cho các giải thuật
Thông số Diễn giải num_topics=4 Xác định số lƣợng cụm alpha=0.01 Tham số alpha trong mô hình DTM chain_variance=0.05 Tham số beta trong mô hình DTM num_topics=4 Xác định số lƣợng cụm alpha=’symmetric’ Tham số alpha trong mô hình LDA
Giá trị symmetric = 1/num_topic
K-Means n_clusters=4 Xác định số lƣợng cụm init=k-means++ Phương thức khởi tạo giá trị trung tâm cho giải thuật K-Means max_iter00 Số vòng lặp thực hiện trong giải thuật.
Chuẩn bị dữ liệu
Đề tài sử dụng dữ liệu học tập của sinh viên bậc đại học ngành Khoa học Máy Tính trường Đại học Bách Khoa TP.Hồ Chí Minh Dữ liệu học tập được chia thành 6 học kỳ của niên khóa 2006.
Kết quả thực nghiệm và đánh giá
4.4.1 Mô hình DTM 4.4.1.1 Phân tích cụm theo nhóm sinh viên
Sau khi xác định vector trung bình từ kết quả cụm có phân bố xác suất văn bản- chủ đề, ta tính module vector trung bình học tập đƣợc bảng số liệu nhƣ sau :
Bảng 7: Module vector trung bình học tập theo từng cụm
HK1 14.397 Không có Không có Không có
HK2 20.057 28.310 Không có Không có
Trong từng học kỳ, ta sắp xếp các cụm có module vector trung bình học tập theo thứ tự giảm dần, ta có đƣợc bảng dữ liệu sau:
Bảng 8: Bảng sắp xếp cụm theo từng học kỳ dựa trên độ lớn vector trung bình học tập
Dựa trên bảng kết quả sắp xếp cụm, ta có tổ hợp mẫu chuyển cụm sinh viên qua từng học kỳ theo nhƣ sau:
Bảng 9: Bảng phân loại tổ hợp cụm
Mẫu chuyển cụm Diễn giải
1,2,2,3,3,3; Nhóm các sinh viên học tốt *
Nhóm các sinh viên có chuyển biến trong học tập
1,1,1,1,1,1 Nhóm các sinh viên học không tốt
* Mẫu 1,2,2,3,3,3 là mẫu chuyển cụm lý thuyết cho nhóm sinh viên tốt Mẫu chuyển cụm này không tồn tại trong tập dữ liệu khảo sát
Từ bảng tổ họp cụm, ta tính tỷ trọng từng tổ hợp cụm trong dữ liệu học tập của năm 2006 đƣợc bảng sau:
Bảng 10: Bảng tỷ trọng tổ hợp cụm
Mẫu thay đổi chủ đề Tỷ trọng(%) 1,1,1,4,4,4 15.2 1,1,2,2,2,2 14.9 1,1,1,1,1,1 11.7 1,1,2,2,3,3 9.9 1,1,1,1,4,4 9.6 1,2,2,2,2,2 6.7 1,2,2,2,3,3 5.9 1,1,1,2,2,2 5.2 1,1,4,4,4,4 4.4 1,1,1,2,4,4 2.3 1,1,1,4,4,3 2.0 1,1,1,1,1,4 1.8 1,1,2,4,3,3 1.5 1,1,1,1,3,3 1.2 1,1,2,4,4,4 1.2
Ta xét một số sinh viên để minh họa cho từng mẫu chuyển cụm:
Bảng 11: Bảng minh họa sinh viên theo từng mẫu chuyển cụm
STT Sinh viên Mẫu chuyển cụm Diễn giải
117 1,1,2,3,3,3 Nhóm sinh viên học tốt *
109 1,1,1,1,1,1 Nhóm sinh viên học không tốt
15 1,1,1,4,4,4 Nhóm sinh viên học tốt chuyển sang không tốt
37 1,1,1,1,1,3 Nhóm sinh viên học không tốt sang học tốt
* Mẫu chuyển cụm 1,1,2,3,3,3 tương đương với mẫu chuyển cụm của nhóm sinh viên học tốt Mẫu chuyển cụm này không tồn tại trong tập dữ liệu khảo sát
Nhận xét : Ta nhận thấy sinh viên 117 có kết quả học tập tốt nhất đều trong 6 học kỳ, sinh viên 109 có kết quả học tập thấp nhất Sinh viên 37 ở các học kỳ đầu kết quả học tập không tốt (ngang với sinh viên 109).Tuy nhiên, ở các học kỳ sau kết quả học tập tốt dần cho thấy sự tiến triển tốt trong học tập.Ngƣợc lại, sinh viên 15 cho thấy sự xuống dốc trong học tập, ở học kỳ đầu sức học tương đương sinh viên học tốt nhất nhƣng ở học kỳ sau thì điểm trung bình học tập càng lúc càng thấp hơn so với sinh viên 117
Tóm lại: Với việc phân tích cụm theo nhóm sinh viên, ta trả lời đƣợc Q.4.1.1 (mục 4.1) là xác định đƣợc nhóm các sinh viên đang gặp khó khăn trong học tập hoặc có những chuyển biến kết quả học tập
4.4.1.2 Phân tích cụm theo nhóm môn học
Dựa vào kếtquả phân tích cụm theo nhóm sinhviên, ta xác định mẫu chuyển cụm 1,1,1,1,1,1 xác định cho các nhóm sinh viên học không tốt qua các học kỳ Vì vậy , ta trích 5 môn học theo mẫu cụm trên ở từng học kỳ
Bảng 13 : Danh sách 5 môn học của từng cụm trong từng học kỳ Học Kỳ 1 Học Kỳ 2 Học Kỳ 3 Học Kỳ 4 Học Kỳ 5 Học Kỳ 6
Cụm 1 Cụm 1 Cụm 1 Cụm 1 Cụm 1 Cụm 1
Nhận xét 1 :Ta nhận thấy môn học s501128 chỉ xuất hiện trong các 3 học kỳ đầu,nghĩa là môn học này chỉ ảnh hưởng đến kết quả học tập của sinh viên trong 3 học kỳ đầu Tương tự trong 3 học kỳ sau, môn học s505002 có ảnh hưởng đến kết quả học tập của sinh viên
Nhận xét 2 :Môn học s502002 ở 2 học kỳ đầu tiên có xác suất phân bố từ – chủ đề thấp nhƣng từ học kỳ 3 trở đi xác suất phân bố từ - chủ đề cao Vì vậy, ta có thể xác định đây là môn học có ảnh hưởng hưởng lớn đến kết quả học tập của sinh viên
Với các nhận xét trên ta trả lời đƣợc câu hỏi thực nghiệm Q.4.1.2 (mục 4.1) bằng việc xác định môn học ảnh hưởng đến kết quả học tập của sinh viên trong từng giai đoạn, cũng như xác định được môn học có ảnh hưởng lớn đến kết quả học tập
Ta lặp lại các bước phân tích cụm theo nhóm sinh viên đối với mô hình LDA, ta đƣợc các bảng dữ liệu nhƣ sau:
Bảng 14: Module vector trung bình học tập theo từng cụm với mô hình LDA
HK1 Không có 14.397 Không có Không có
Bảng 15: Bảng sắp xếp cụm theo từng học kỳ dựa trên độ lớn vector trung bình học tập với mô hình LDA
Bảng 16: Bảng phân loại tổ hợp cụm với mô hình LDA
Mẫu chuyển cụm Diễn giải
2,1,3,3,3,3; Nhóm các sinh viên học tốt *
Nhóm các sinh viên có chuyển biến trong học tập
2,2,2,2,2,2 Nhóm các sinh viên học không tốt
* Mẫu 2,1,3,3,3,3 là mẫu chuyển cụm lý thuyết cho nhóm sinh viên học tốt Mẫu chuyển cụm này không tồn tại trong tập dữ liệu khảo sát
Bảng 17: Bảng tỷ trọng tổ hợp cụm với mô hình LDA
Mẫu thay đổi chủ đề Tỷ trọng(%) 2,2,2,2,2,2 14.1 2,2,4,4,4,4 9.4 2,2,2,2,4,4 8.2 2,2,4,4,3,3 6.2 2,2,1,1,3,3 6.2 2,2,2,4,4,4 5.6 2,1,1,3,3,3 4.1 2,2,2,2,3,3 3.2 2,2,1,1,1,3 3.2 2,2,1,3,3,3 3.2 2,2,4,4,4,3 3.2 2,1,1,1,3,3 2.3 2,4,4,3,3,3 2.1 2,2,4,3,3,3 2.1 2,4,4,4,3,3 1.8 2,2,2,4,3,3 1.8 2,2,2,2,1,1 1.5 2,2,2,2,2,4 1.5 2,2,1,1,1,1 1.5 2,2,4,1,3,3 1.2 2,2,2,1,3,3 1.2 2,2,2,3,3,3 1.2 2,4,1,3,3,3 1.2 2,4,1,1,3,3 1.2 2,1,1,1,1,1 0.9 2,2,2,4,4,3 0.9 2,1,1,1,1,3 0.9 2,4,4,1,3,3 0.6 2,2,2,2,4,3 0.6 2,2,4,4,1,1 0.6 2,2,4,4,1,4 0.6 2,4,1,1,1,1 0.6 2,2,2,2,1,2 0.6 2,2,2,1,1,4 0.6 2,2,3,3,3,3 0.6 2,4,4,4,4,4 0.3 2,2,2,2,4,2 0.3 2,2,2,4,2,3 0.3
Tương tự như DTM và LDA, ta có kết quả phân tích cụm cho K-Means như sau:
Bảng 18: Module vector trung bình học tập theo từng cụm với giải thuật K-Means
HK1 Không có 0.255 14.608 Không có
HK6 34.756 Không có 31.865 Không có
Bảng 19: Bảng sắp xếp cụm theo từng học kỳ dựa trên độ lớn vector trung bình học tập với giải thuật K-Means
Bảng 20: Bảng phân loại tổ hợp cụm với K-Means
Mẫu chuyển cụm Diễn giải
3,4,1,2,4,1; Nhóm các sinh viên học tốt *
Nhóm các sinh viên có chuyển biến trong học tập
1,1,2,1,2,3 Nhóm các sinh viên học không tốt *
* Mẫu 3,4,1,2,4,1 là mẫu chuyển cụm lý thuyết cho nhóm sinh viên học tốt Mẫu 1,1,2,1,2,3 là mẫu chuyển cụm lý thuyết cho nhóm sinh viên học không tốt Hai mẫu chuyển cụm này không tồn tại trong tập dữ liệu khảo sát
Bảng 21: Bảng tỷ trọng tổ hợp cụm với giải thuật K-Means
Mẫu thay đổi chủ đề Tỷ trọng(%) 3,4,1,4,4,1 55.8 3,4,3,2,1,3 38.3 3,3,1,4,1,3 0.3 3,4,1,2,1,3 0.3 3,4,1,4,4,3 1.5 2,1,2,1,2,1 1.2 3,3,1,4,1,1 0.3 3,4,3,2,4,1 0.3 3,4,3,4,4,1 0.6
4.4.4 So sánh các phương pháp 4.4.4.1 So sánh chất lƣợng mẫu chuyển cụm
Từ kết quả phân tích cụm theo nhóm sinh viên ở từng giải thuật, ta rút ra đƣợc các mẫu chuyển cụm của nhóm sinh viên học tốt, nhóm sinh viên học không tốt hoặc nhóm sinh viên có sự chuyển biến trong học tập
Ta thực hiện so sánh một số mẫu chuyển cụm ở nhóm sinh viên học tốt, học không tốt theo từng giải thuật nhằm xác định mô hình phù hợp cho khai phá dữ liệu (Q.4.1.3, mục 4.1) a Mẫu chuyển cụm nhóm sinh viên học tốt
Ta xem xét một số sinh viên có mẫu chuyển cụm tương đương tốt tại tất cả giải thuật như bảng bên dưới:
Bảng 22: Bảng minh họa mẫu cụm sinh viên học tốt tại tất cả giải thuật
STT Sinh viên DTM LDA K-Means
* Mẫu chuyển cụm tương đương tốt tại từng giải thuật
Hình 8: Hình minh họa kết quả học tập của 3 sinh viên 117, 122, 92
Ta nhận thấy sinh viên 117, 122 có kết quả học tập cao hơn so sinh viên 92 Cả 3 giải thuật đều xếp 117, 122 trong nhóm các sinh viên học tốt phù hợp với kết quả học tập thực tế của 2 sinh viên này
Tuy nhiên sinh viên 92 thì các giải thuật cho kết quả khác nhau, mô hình DTM và LDA cho thấy sinh viên đang có xu hướng học tập đi xuống trong khi K-Means lại xác định bạn này thuộc nhóm tốt Qua bảng điểm thực tế, ta thấy tại học kỳ 2 xuất hiện 5 môn dưới điểm trung bình Sau đó, bạn có thực hiện cải thiện điểm ở học kỳ sau, lúc này giải thuật xếp bạn vào nhóm sinh viên học tốt Tại học kỳ cuối, số môn dưới điểm trung bình tăng thêm mặc dù điểm trung bình tại các môn khác vẫn cao, K-Means cũng phân cụm bạn vào nhóm sinh viên học tốt Điều này cho ta thấy K-Means chỉ xét đến kết quả học tập cho từng học kỳ cụ thể, nếu xét về tổng thể quá trình học tập sẽ có sự sai lệch so với mô hình LDA hoặc DTM
Hơn nữa, tại học kỳ cuối mô hình LDA có sự chuyển cụm từ cụm 4 (cụm điểm trung bình thấp ở học kỳ 5) sang cụm 4 (cụm điểm trung bình cao ở học kỳ cuối)
Trong khi đó, mô hình DTM không có sự chuyển cụm, các cụm vẫn ở cụm trung bình thấp ở 2 học kỳ 5 và 6 Sự chuyển cụm này là không hợp lý vì tuy điểm trung bình học kỳ 6 của sinh viên 92 cao nhưng số môn dưới điểm trung bình lại tăng lên
Kết luận: qua khảo sát kết quả học tập của 3 bạn sinh viên tại từng mẫu chuyển cụm nhóm sinh viên học tốt ở 3 giải thuật, ta thấy giải thuật K-Means chỉ gom cụm tốt tại từng thời điểm cụ thể Xét về tổng thể quá trình học tập K-Means có sự sai lệch với mô hình DTM và LDA Khi so sánh mô hình DTM và LDA thì mô hình
Hướng phát triển
Một số hướng cải tiến cho đề tài:
- Dựa vào phân tích cụm các kết quả tìm đƣợc có thể đƣợc sử dụng trong thực tiễn cho các mô hình hỗ trợ ra quyết định của hệ hỗ trợ ra quyết định trong lĩnh vực giáo dục
- Tự động hóa công đoạn phân tích cụm
- Phân tích cụm phải gắn liền với trực quan hóa (bổ sung biểu đồ so sánh, trực quan hóa cụm môn học ,…)