Bài báo này trình bày phương pháp ứng dụng hệ luật mờ Standard Addictive Model (SAM) vào việc dự báo biểu điểm thi tại các cơ sở giáo dục. Thông qua xây dựng SAM qua các bước học máy như sau: Học cấu trúc hệ luật, học điều chỉnh thông số và học tối ưu hệ luật. Thực nghiệm trên độ khó của đề thi và học lực của người học được lấy từ số liệu thực tế tại Trường Cao đẳng Kinh tế - Tài chính Vĩnh Long. Quá trình thực nghiệm cho kết quả dự báo sát với thực tế. Qua đó góp phần nâng cao tính khoa học trong hoạt động đánh giá người học, một trong những nhiệm vụ quan trọng trong lĩnh vực khảo thí và đảm bảo chất lượng giáo dục.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00095 ỨNG DỤNG HỆ LUẬT MỜ TRONG DỰ BÁO BIỂU ĐIỂM THI Lê Duy Đồng 1, Vũ Thanh Nguyên 2, Lê Kim Nga Trường Cao đẳng Kinh tế - Tài Vĩnh Long Trường Đại học Cơng nghệ thơng tin, Đại học Quốc gia Thành phố Hồ Chí Minh Trường Trung học phổ thông Vĩnh Long caphemientay@gmail.com, nguyenvt@uit.edu.vn, lekimngabcvl@gmail.com TĨM TẮT— Bài báo trình bày phương pháp ứng dụng hệ luật mờ Standard Addictive Model (SAM) vào việc dự báo biểu điểm thi sở giáo dục Chúng xây dựng SAM qua bước học máy sau: Học cấu trúc hệ luật, học điều chỉnh thông số học tối ưu hệ luật Thực nghiệm độ khó đề thi học lực người học lấy từ số liệu thực tế Trường Cao đẳng Kinh tế - Tài Vĩnh Long Q trình thực nghiệm cho kết dự báo sát với thực tế Qua góp phần nâng cao tính khoa học hoạt động đánh giá người học, nhiệm vụ quan trọng lĩnh vực khảo thí đảm bảo chất lượng giáo dục Từ khóa— Hệ luật mờ, dự báo biểu điểm, máy học, khảo thí đảm bảo chất lượng I GIỚI THIỆU Ngày nay, sở đào tạo có khuynh hướng sử dụng ngân hàng đề thi để nâng cao tính khách quan hoạt động đánh giá người học Tuy nhiên, việc đánh giá đề thi thường thực dựa phương pháp chuyên gia, mang nặng tính chất chủ quan Qua tham khảo số giảng viên có kinh nghiệm giảng dạy sở giáo dục việc đề thi phù hợp với học lực người học mang ý nghĩa quan trọng Làm tốt việc góp phần nâng cao tính khoa học cơng tác khảo thí đảm bảo chất lượng giáo dục (KT&ĐBCLGD) Một đề thi tốt giúp đánh giá lực người dạy người học, giúp xác định ngưỡng tuyển hợp lý kỳ thi tuyển đầu vào, đồng thời nâng cao chất lượng ngân hàng đề thi Trong kỳ thi tuyển sinh Cao đẳng, Đại học năm 2011, mơn Sử có nhiều thi bị điểm trở thành đề 'tài nóng bỏng dư luận xã hội [4] Theo vấn Dân trí với GS.TS Đỗ Thanh Bình, Chủ nhiệm khoa Lịch sử Trường Đại học Sư phạm Hà Nội “việc có nhiều ngun nhân chủ yếu đề thi đáp án có vấn đề” Ngồi ra, trường cao đẳng đại học nước ta giảng dạy theo học chế tín chỉ, nhiều sinh viên theo kịp bị buộc học cảnh báo học vụ [6] Nguyên nhân việc phần đề thi chưa đánh giá, lựa chọn thích hợp, thiếu dự báo lực người học, phù hợp với chương trình đối tượng đào tạo Từ thực tiễn trên, chúng tơi ln trăn trở tìm phương pháp giúp giảng viên chọn đề thi phù hợp chương trình đào tạo, nội dung bao quát đảm bảo mục tiêu dạy học, bám sát chuẩn kiến thức, kỹ qui định chương trình mơn học, đảm bảo tính khoa học, góp phần đánh giá khách quan trình độ người học Qua q trình nghiên cứu, chúng tơi ứng dụng thành công SAM vào dự báo biểu điểm thi dựa cấu trúc độ khó đề thi học lực người học Qua trình thực nghiệm, ứng dụng cho kết sát với thực tế Từ góp phần cho việc đánh giá kết học tập người học đạt hiệu hơn, giúp giảng viên có thêm cơng cụ để đánh giá đề thi cách khoa học II NHỮNG NGHIÊN CỨU TRƯỚC ĐÂY VỀ SAM SAM nghiên cứu vào cuối thập niên 1980 đầu thập niên 1990 Bart Kosko [1] Ơng ứng dụng SAM để mơ hoạt động sấp xỉ hàm phi tuyến Ở Việt Nam, SAM có cơng trình nghiên cứu ứng dụng SAM sau: - Đề tài “Giải số vấn đề phân tích dự báo kinh tế ứng dụng ngành công nghiệp Thành phố Hồ Chí Minh” năm 2003 [8] Tác giả Vũ Thanh Nguyên cộng sử dụng SAM để dự báo giá lúa, gạo cà phê trị trường - Đề tài “Xây dựng thư viện mã nguồn mở cho toán dự báo” năm 2007 [2] Tác giả Dương Ngọc Hiếu viết SAM với giải thuật máy học khác thành thư viện nguồn mở cho phép người dùng ứng dụng để dự báo nhiều lĩnh vực Tuy nhiên, việc ứng dụng SAM hay giải thuật máy học nói chung ngành KT&ĐBCLGD chưa đầu tư nghiên cứu mực III MÔ TẢ SAM [5] Hệ luật mờ hệ thống m luật mờ Rj có dạng IF x = Aj THEN y = Bj hoạt động theo chế song song (xem Hình 1) Ứng với giá trị vào x=x0, luật Rj kích hoạt cho kết tập mờ Bj’ xác định theo Bj mức độ thỏa mãn vế trái aj(x0) dựa quy tắc PRODUCT Bj’ = aj(x0).Bj (1) ỨNG DỤNG HỆ LUẬT MỜ TRONG DỰ BÁO BIỂU ĐIỂM THI 772 Với aj(x0) mức kích hoạt luật Rj Và aj(x) cho công thức ( ) ∏ ( ) m kết Bj’ luật hệ luật kết hợp theo quy tắc SUM kết chung toàn hệ thống tập mờ B m m j1 j1 B w j B'j w j a j ( x ).B j (2) Giá trị B khử mờ để nhận giá trị rõ Gọi y kết sau khử mờ tập mờ kết B hệ SAM, ta có: m w j a j (x ).Vj c j y F( x ) Centroid( B( x )) j1 m (3) w j a j ( x ).Vj j1 Hình Mơ tả thành phần SAM Trong đó: x: Giá trị vào, x Rn y: Giá trị hệ thống = F(x) Aj: Giá trị mờ hóa x thứ j Bj’: Tập mờ kết cho luật Rj wj: Trọng số luật Rj hệ luật ∑: Quy tắc cộng mô hình luật kết hợp cộng tích (SUM - PRODUCT) B: Tập mờ kết toàn hệ luật IV CƠ CHẾ HỌC CỦA SAM [5] Quá trình học SAM (hay hệ mờ nói chung) thơng thường bao gồm hai bước học cấu trúc học tham số Tuy nhiên, hiệu học hệ tốt hơn, phối hợp thêm chế học tối ưu hệ luật Do đó, q trình học SAM bao gồm giai đoạn sau: A Học cấu trúc hệ luật Học cấu trúc hệ luật trình tạo luật Rj Gom cụm mờ liệu bước quan trọng trình xây dựng luật mờ hệ mờ tự học Nhiệm vụ đặt trình gom cụm mờ liệu (hay gom cụm liệu nói chung) từ tập hữu hạn số liệu học cho trước, tìm cách tách chúng thành nhóm với đặc trưng riêng cho số liệu nhóm giống số liệu nhóm khác tốt Đối với trình gom cụm liệu mờ bên cạnh việc phân tách liệu, phải tiến hành đồng thời việc xác định mức độ phụ thuộc số liệu nhóm mà thuộc về, để từ xác định hàm thành viên tập mờ tương ứng với nhóm tạo sau Mơ tả tốn gom cụm mờ Gọi Rn khơng gian vector có n thành phần thực Đặt X = {x1, x2, , xntd}, xj Rn, tập hữu hạn số liệu học, ntd (number of training data) số liệu học (x j dòng Bảng 2) Gọi Vcn không gian vector ma trận cn, c Z+ cho trước, 1< c < n Xác định gom cụm mờ X biểu diễn vector trọng tâm: Lê Duy Đồng, Vũ Thanh Nguyên, Lê Kim Nga 773 V = {v1, v2, , vc}, vi Rn cho tương ứng với ma trận U = {uij} Vcn, với uij giá trị thực đoạn [0,1] diễn tả mức độ phụ thuộc số liệu học xj ứng với vector trọng tâm vi thỏa công thức (4.1), (4.2): Các công thức c x X, uij [0,1], uij 1 i, j 1, c : u ij n (4.1) k1 ntd (4.2) j1 1m x j vi u ij 1 m c k 1 x j v k ntd vi u ijm x j j1 ntd j1 (5) u ijm Error max u ij ( t 1) u ij ( t ) ij (6) (7) với e > cho trước, t > t0 Mô tả thuật toán Vào: Bộ số liệu học X Ra: Bộ vector trọng tâm V ma trận phụ thuộc U Bước t=0, Khởi tạo ngẫu nhiên giá trị U(t) thỏa (4.1) (4.2) Bước Xác định V(t) theo cơng thức (5) Bước Tính U(t+1) theo cơng thức (6) Xác định error theo công thức (7) Bước Nếu error > e t=t+1, quay lại bước b2 Bước Kết thúc Xây dựng luật mờ Sau thực trình gom cụm mờ, công việc xây dựng luật mờ từ phân cụm Trọng tâm tập mờ dễ dàng xác định thơng qua tọa độ cụm Nhưng để xác định dạng hàm thành viên đòi hỏi phải xác định độ rộng tập mờ Độ rộng tập mờ thứ i xác định thơng qua tập mờ lân cận theo cơng thức sau: m i m closest Trong đó: i r - mi: Trọng tâm tập mờ thứ i - mclosest: Trọng tâm tập mờ gần tập mờ thứ i - r: Hệ số chồng lấn tập mờ người dùng định Mỗi khối mờ cho phép hình thành luật mờ hệ Dạng hàm biểu diễn tập mờ phải xác định trước Hiện có nhiều dạng hàm dùng để biểu diễn tập mờ Ta dùng hàm hình thang lý dễ cài đặt Hình Tập mờ hình thang ỨNG DỤNG HỆ LUẬT MỜ TRONG DỰ BÁO BIỂU ĐIỂM THI 774 Đồ thị biểu diễn hàm có dạng hình thang Hàm hình thang tương ứng với tập mờ thứ j định nghĩa giá trị (lj, mlj, mrj, rj) Với lj, rj >0, mlj mrj Giá trị hàm thành viên tập mờ thứ j xác định sau: 1 ml j x mlj-lj < x < mlj lj mlj x mrj a j (x) 1 x mr j mrj < x < mrj + rj rj trường hợp lại Thực công đoạn sinh luật mờ Trong trường hợp này, cụm mờ Bảng Bảng Bảng cụm mờ Id j DoKho (Kho) A1 DoKho (Vua) A2 HocLuc (KGX) A3 HocLuc (TB) A4 BieuDiem (KGX) B1 BieuDiem (TB) B2 Cho ta luật sau: R1:If DoKho(Kho)=A1 Then BieuDiem(KGX)=B1 R6: If DoKho(Vua)=A2 Then BieuDiem(TB)=B2 R2: If DoKho(Vua)=A2 Then BieuDiem(KGX)=B1 R7: If HocLuc(KGX)=A3 Then R3:If HocLuc(KGX)=A3Then BieuDiem(KGX)=B1 BieuDiem(TB)=B2 R4: If HocLuc(TB)=A4 Then BieuDiem(KGX)=B1 R8: If HocLuc(TB)=A4 Then BieuDiem(TB)=B2 R5: If DoKho(Kho)=A1 Then BieuDiem(TB)=B2 Trong đó: - A, B tập mờ vế trái vế phải biểu diễn giá trị (lj, mlj, mrj, rj) hàm thành viên aj - Tiêu đề cột: xem diễn giải Bảng B Học điều chỉnh thông số Khi luật mờ xác định, học điều chỉnh thông số giúp giảm sai số kết hệ kết mong muốn Mơ tả tốn học thơng số Cho trước liệu học vào {xj} kết mong muốn {yj}, j 1, ntd ; với ntd: số liệu học (xem Bảng 2) Cho hệ luật mờ SAM với luật mờ trọng số, trọng số ban đầu để luật tham gia vào trình học Hãy điều chỉnh thông số tập mờ vế trái, vế phải trọng số luật mờ cho sai số kết cho hệ luật mờ kết mong muốn ổn định nhỏ Các công thức c j ( t 1) c j ( t ) t ( x ).p j ( x ) (8) p Vj (x ) Vj ( t 1) Vj ( t ) t ( x ) c j F( x ) (9) j pwj ( x ) w j ( t 1) w j ( t ) t ( x ) c j F( x ) (10) j p ja(x) aa j a ji ( t 1) a ji ( t ) t ( x ) c j F( x ) j (11) ji Trong đó: cj: Trọng tâm tập mờ thứ j aij: Ngưỡng kích hoạt luật mờ thứ j Vj: Độ rộng tập mờ thứ j pj = j wj.aj.Vj wj: Trọng số luật mờ thứ j Lê Duy Đồng, Vũ Thanh Nguyên, Lê Kim Nga 775 Mô tả thuật tốn học thơng số (HTS) Vào: Bộ số liệu học; Hệ luật mờ SAM chưa điều chỉnh; Sai số cho phép e Ra: Hệ luật mờ SAM điều chỉnh theo sai số e Bước Bắt đầu, j=0 Bước Xét giá trị vào xj Tính yj = F(xj), e = ydj - yj Bước Điều chỉnh trọng số wj luật theo công thức (10) Bước Lặp lại bước 3, 4, Bước Thực bước … cho Bj theo công thức (8), (9) Bước Thực bước cho Aji theo cơng thức (11) Bước Tính sai số error = E(t) - E(t-1) Trong E(t) E(t-1) xác định theo công thức sau: y( t ) y d ( t ) E( t ) Bước Nếu error > e quay lại bước Ngược lại dừng thuật toán C Học tối ưu hệ luật Về mặt lý thuyết, hệ SAM có nhiều luật độ xác hoạt động xấp xỉ lớn Tuy nhiên, hệ có q nhiều luật thời gian cho trình xử lý hệ luật yếu tố đáng quan tâm Một vấn đề đặt giải hợp lý mối quan hệ kích thước (số luật) hệ SAM độ xác xấp xỉ Một hệ luật tối ưu giữ lại số (hoặc tất cả) luật ban đầu hệ SAM Như vậy, số luật SAM, có số luật bị loại số luật giữ lại Mơ tả tốn tối ưu hệ luật Cho trước liệu học vào {xj} kết mong muốn {yj}, j 1, ntd ; với ntd: số liệu học Cho hệ luật mờ SAM với luật mờ trọng số Hãy tìm tập hợp luật cho sai số kết cho hệ SAM kết mong muốn ổn định nhỏ Một số giải pháp cho toán phương pháp sử dụng thuật toán di truyền [3] Phương pháp xem kết hợp luật nhiễm sắc thể (NST), tính độ thích nghi chọn lọc NST thích hợp Từ chọn NST tốt làm kết thuật toán Biểu diễn NST: Mỗi NST chuỗi giá trị nhị phân diễn tả trạng thái hoạt động luật tương ứng hệ SAM Mỗi hệ sử dụng 10 NST Thế hệ chứa đầy đủ luật (tất giá trị 1) Hàm thích nghi: Mối quan hệ kích thước SAM độ xác xấp xỉ SAM giải hàm thích nghi (12): Chọn lọc: Có nhiều phương pháp chọn lọc thuật toán di truyền như: Chọn lọc xén, chọn lọc bàn Roulete, chọn lọc cục bộ, chọn lọc nhiều lần… Trong báo này, sử dụng phương pháp chọn lọc xén Ta chọn ngưỡng xén thường giá trị phần trăm số lượng cá thể chọn lọc Những cá thể lại bị loại bỏ Ngưỡng xén không nên đặt cố định mà nên phụ thuộc vào độ thích nghi chung hệ xét Lai ghép: Có nhiều phương pháp lai ghép như: lai ghép đơn điểm, đa điểm, lai ghép mặt nạ Trong báo này, chứng tơi trình bày phương pháp lai ghép mặt nạ Với cá thể bố mẹ A B, ta chọn chuỗi bit có độ dài với A B để làm mặt nạ mA mB mA, mB có 50% bit khởi tạo ngẫu nhiên Các công thức Fit ( m)= ln (̄σ 2ε )+ log n ( m) n (12) m: Số luật (trạng thái 1) sử dụng hệ SAM n: Số số liệu học σ ̄ ε= n n ∑ (y dj − F ( x j ) ) j= (13) ỨNG DỤNG HỆ LUẬT MỜ TRONG DỰ BÁO BIỂU ĐIỂM THI 776 Mơ tả thuật tốn học tối ưu (HTU) Bước Khởi tạo 10 NST, có NST biễu diễn đầy đủ luật (K) Bước Tính độ thích nghi Fit cho NST theo công thức (12) Nếu gặp điều kiện dừng khơng phải NST K đến Bước 5, ngược lại đến Bước Bước Chọn lại NST có độ thích nghi cao theo phương pháp chọn lọc Bước Nhân đôi quần thể để 10 NST Lai ghép mặt nạ 10 NST chọn với mặt nạ khởi tạo ngẫu nhiên Lập lại Bước 2,3,4 Bước Dừng thuật toán Chọn NST có độ thích nghi thỏa điều kiện dừng làm kết trả Chuỗi nhị phân tìm dùng làm sở cho việc hủy bỏ luật không cần thiết hệ SAM V XÂY DỰNG ỨNG DỤNG A Bộ số liệu học Xây dựng số liệu học trình mang ý nghĩa định SAM Chúng xây dựng bảng số liệu học Bảng Bảng Bảng số liệu học STT (1) Ntd Độ khó đề thi (%) (2) (3) Khó Vừa 16.29 17.11 43.03 31.61 … … 16.87 77.92 Học lực người học (%) (4) (5) KGX TB 54.22 17.99 51.12 47.63 … … 14.24 31.28 Biểu điểm (%) (6) (7) KGX TB 44.44 45.12 41.68 10.13 … … 16.26 52.43 Trong đó: Ntd: Number of Traning Data (Số lượng mẫu học); Khó: Rất khó + Khó; KGX: Khá + Giỏi + Xuất sắc; TB: Trung bình Với đề thi trắc nghiệm, ta xác định độ khó dựa lý thuyết khảo thí đại Lý thuyết hồi đáp [7] (Items Response Theory - cịn gọi Lý thuyết khảo thí đại) Lý thuyết bao gồm nhiều công cụ để đánh giá câu hỏi đề thi trắc nghiệm Trong báo nghiên cứu công cụ đánh giá độ khó câu hỏi trắc nghiệm Độ khó (P) câu hỏi trắc nghiệm tổng số thí sinh trả lời tổng số thí sinh dự thi Có nhiều cách phân loại P, báo P phân loại sau: - P < 30%: Câu hỏi khó - 60%