Đánh giá mơ-đun dự đốn chức danh cơng việc tiếp theo

Một phần của tài liệu Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (Trang 65 - 67)

CHƯƠNG 3 PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG MƠ HÌNH

3.7.2. Đánh giá mơ-đun dự đốn chức danh cơng việc tiếp theo

Mơ-đun dự đốn chức danh cơng việc là một bài tốn phân loại nhiều lớp nên có phương thức đánh giá thường thấy là độ chính xác (accuracy).

Độ chính xác được tính bằng số lượng chức danh mà mơ hình dự đốn chính xác chia cho tổng số lượng dự đoán.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑆ố 𝑐ℎứ𝑐 𝑑𝑎𝑛ℎ 𝑑ự đ𝑜á𝑛 𝑐ℎí𝑛ℎ 𝑥á𝑐 𝑇ổ𝑛𝑔 𝑠ố 𝑐ℎứ𝑐 𝑑𝑎𝑛ℎ 𝑑ự đ𝑜á𝑛

Tuy nhiên sau khi thực hiện các phép đánh giá cho một tập thử nghiệm (test- data) chúng tơi nhận thấy mơ hình xuất hiện nhiều nhất (TOP) cho ra kết quả chính xác vượt trội so với các mơ hình học sâu.

Bảng 3.3: Đánh giá các mơ hình bằng độ chính xác Mơ hình Độ chính xác (%) TOP 62,12 Random Forest 21,56 Logistic Regression 22,32 LSTM 34,72 NEMO 41,29 LSTM-Attention 36,91 NEMO-Attention 44,84 Mơ hình đề xuất 51,74

Như đã chỉ ra ở mục 2.4. Nguyên nhân của hiện tượng này là do số lượng các chức danh trong tập dữ liệu huấn luyện là không cân bằng (unbalanced), việc luôn dự đốn các chức danh có tần số xuất hiện cao sẽ cho ra kết quả chính xác nhiều hơn so với các chức danh có tần số xuất hiện thấp. Việc đánh giá mơ hình bằng độ chính xác mang lại rất ít hiệu quả.

Để giải quyết vấn đề này, chúng tôi sử dụng phương pháp đánh giá xếp hạng phần trăm trung bình (MPR). Phương pháp này đưa ra cách đánh giá khách quan hơn với các dự đốn của mơ hình bởi vì MPR sẽ xử phạt (penalize) nặng hơn khi mơ hình đưa ra dự đốn sai với các chức danh ít được xuất hiện. Cụ thể hơn, với MPR các kết quả dự đoán chức danh sẽ được xếp hạng (ranking) theo thứ tự từ cao xuống thấp với các chức danh mà mơ hình cho là phù hợp. Khi các chức danh có tần số xuất hiện thấp (low frequency) được xếp ở vị trí cao (high ranking) thì MPR sẽ giảm rất nhiều. Trong khi đó các chức danh có tần số xuất hiện cao (high frequency) được xếp ở vị trí cao (high ranking) thì MPR sẽ giảm rất ít.

Bảng 3.4: Đánh giá các mơ hình bằng đánh giá xếp hạng phần trăm trung bình

Mơ hình Đánh giá xếp hạng phần trăm trung bình

TOP 0,321 Random Forest 0.152 Logistic Regression 0.173 LSTM 0.223 NEMO 0.083 LSTM-Attention 0.096 NEMO-Attention 0.079 Mơ hình đề xuất 0.049

Phương pháp này cịn có ưu điểm là giúp chúng ta biết được số lượng gợi ý phù hợp của mơ hình. Với kết quả đầu ra của hàm softmax, số lượng đầu ra luôn bằng số lượng chức danh có trong hệ thống, cụ thể là 385. Chúng ta có thể sử dụng tích của đánh giá xếp hạng phần trăm trung bình với số lượng chức danh trong hệ thống để có được số lượng gợi ý chính xác của mơ hình.

Ví dụ: Với mơ hình TOP trung bình ta phải dự đốn 0,321 * 385 = 123 chức danh khác nhau để chức danh thực sự nằm trong dự đoán này. Trong khi với mơ hình của chúng tơi thì chỉ cần dự đốn 0.049 * 385 = 18 chức danh khác nhau để chức danh thực sự nằm trong những dự đoán này.

Một phần của tài liệu Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (Trang 65 - 67)

Tải bản đầy đủ (PDF)

(87 trang)