CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN DỰ ĐOÁN KẾT QUẢ HỌC TẬP
3.3 Phương pháp đề xuất
Hai phương pháp được đề xuất cho nhiệm vụ dự đoán điểm học kỳ tiếp theo, cụ thể là Máy nhân tố hóa (FM) và Bộ nhớ dài hạn và ngắn hạn tích hợp với FM (LSTM-FM). Cái trước thường được sử dụng cho các nhiệm vụ đề xuất.
Cái sau là một mô hình trình tự kết hợp với FM để dự đoán điểm của các khóa học trong mỗi học kỳ của chương trình.
3.3.1 Máy nhân tố hóa (FM)
Máy nhân tố hóa (FM) là một mô hình học máy được sử dụng để dự đoán giá trị đầu ra (output) dựa trên các đặc trưng đầu vào (input). FM hoạt động bằng cách mô hình hóa các tương tác giữa các đặc trưng này, đặc biệt là trong các bộ dữ liệu có đặc điểm về tính tương tác cao.
Cụ thể, một mô hình FM thường bao gồm hai thành phần chính:
Tính tuyến tính: Đây là phần của mô hình mô tả mối quan hệ tuyến tính giữa các đặc trưng. Trong phần này, mỗi đặc trưng được gán một trọng số tuyến tính riêng để biểu diễn ảnh hưởng của nó đến dự đoán cuối cùng.
Tính phi tuyến tính (Factorization): Phần này mô tả mối quan hệ phi tuyến tính giữa các đặc trưng bằng cách sử dụng kỹ thuật phân rã ma trận. Cụ thể, mỗi đặc trưng được biểu diễn bằng một vector nhân tử (factor vector), và sự tương tác giữa các đặc trưng được mô hình hóa thông qua các tích vô hướng của các vector này.
Cách thức hoạt động của FM như sau:
33
Huấn luyện: Trong quá trình huấn luyện, mô hình sẽ điều chỉnh các trọng số tuyến tính và các vector nhân tử để tối ưu hóa một hàm mất mát (loss function) dựa trên dữ liệu huấn luyện. Quá trình này thường được thực hiện thông qua các thuật toán tối ưu hóa như Gradient Descent.
Dự đoán: Sau khi huấn luyện, mô hình có thể được sử dụng để dự đoán giá trị đầu ra cho các mẫu dữ liệu mới bằng cách tính toán tổng của tính tuyến tính và tính phi tuyến tính của các đặc trưng.
Đánh giá: Cuối cùng, mô hình có thể được đánh giá dựa trên hiệu suất dự đoán của nó trên tập dữ liệu kiểm tra hoặc bằng cách sử dụng các phép đo đánh giá như RMSE (Root Mean Square Error) hoặc AUC (Area Under Curve).
, 0 , , , , , , ' , ',
1 1 ' 1 1
ˆ p p p k
i j k i j k i j k i j k k f k f
k k k f
Y X X X v v
= = = =
= + +
Trong đó:
ˆ,
Yi jlà giá trị dự đoán cho mục tiêu (ví dụ: điểm học), cho cặp đầu vào (i, j).
0 là hệ số chặn.
k là hệ số tương ứng với đặc trưng thứ (k = 1,2,...,p).
, , i j k
X là giá trị đặc trưng thứ k của cặp đầu vào (i, j).
vk là vector tương ứng với đặc trưng thứ k (k=1,2,...,p).
Phần thứ hai của công thức biểu diễn tất cả các tương tác hai chiều giữa các đặc trưng. Cụ thể, nó tính toán sự tương tác giữa từng cặp đặc trưng và kết hợp chúng lại với nhau thông qua các vector vk. Điều này cho phép FM học được cả các tương tác tuyến tính và phi tuyến tính giữa các đặc trưng, giúp cải thiện khả năng dự đoán.
Tóm lại, FM là một mô hình mạnh mẽ để mô hình hóa các tương tác phức tạp giữa các đặc trưng đầu vào trong các bộ dữ liệu có tính tương tác cao, và nó có thể được áp dụng trong nhiều ứng dụng khác nhau như hệ thống đề xuất, dự đoán cá nhân hóa và quảng cáo trực tuyến.
34 3.3.2 Mô hình LSTM-FM
Mô hình LSTM-FM là sự kết hợp giữa mạng nơ-ron dài và ngắn hạn (Long Short-Term Memory - LSTM) và máy nhân tố hóa (Factorization Machine - FM). Mô hình này kết hợp sự linh hoạt của LSTM trong việc xử lý dữ liệu dạng chuỗi và khả năng mô hình hóa các tương tác phi tuyến tính giữa các đặc trưng.
Cụ thể, mô hình LSTM-FM thường bao gồm hai phần chính:
Phần LSTM: LSTM được sử dụng để mô hình hóa dữ liệu dạng chuỗi hoặc có cấu trúc thời gian. LSTM có khả năng ghi nhớ thông tin từ quá khứ trong một chuỗi dài và sử dụng thông tin đó để dự đoán giá trị tiếp theo trong chuỗi. Điều này làm cho nó phù hợp cho các bài toán như dự đoán chuỗi thời gian, xử lý ngôn ngữ tự nhiên, và nhiều ứng dụng khác.
Phần FM: FM được sử dụng để mô hình hóa các tương tác giữa các đặc trưng không có cấu trúc thời gian. FM có thể mô hình hóa các tương tác phi tuyến tính giữa các biến đầu vào một cách linh hoạt và hiệu quả.
Cách thức hoạt động của mô hình LSTM-FM thường là:
Đầu vào được chia thành hai phần: một phần được đưa vào phần LSTM để xử lý dữ liệu dạng chuỗi, và một phần khác được đưa vào phần FM để mô hình hóa các tương tác giữa các đặc trưng không có cấu trúc thời gian.
Các đặc trưng trong phần FM có thể là các đặc trưng tĩnh (như giới tính, tuổi, ...) hoặc đặc trưng động (như thông tin từ chuỗi thời gian trước đó).
Đầu ra của mỗi phần được kết hợp lại để tạo ra dự đoán cuối cùng.
Mô hình LSTM-FM thường được áp dụng trong các lĩnh vực như dự đoán chuỗi thời gian, dự đoán cá nhân hóa và các ứng dụng có dữ liệu có cấu trúc và không có cấu trúc đồng thời. Đặc biệt, mô hình này phù hợp với các bài toán mà dữ liệu có tính chất phức tạp và đa dạng.
35
Hình 3.4 Khung LSTM-FM