Nghiên cứu này được xây dựng dựa trên nhu cầu thực tế về việc ứng dụng công nghệ đánh giá hồ sơ tuyển dụng bằng học máy đáp ứng yêu cầu của người tìm việc và nhà tuyển dụng trong quá trình đánh giá hồ sơ tuyển dụng, đánh giá và đề xuất các công việc phù hợp với bộ hồ sơ.
Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 ĐÁNH GIÁ HỒ SƠ TUYỂN DỤNG BẰNG HỌC MÁY Bùi Thanh Hùng(1) (1) Trường Đại học Thủ Dầu Một Ngày nhận 5/09/2020; Ngày gửi phản biện 10/09/2020; Chấp nhận đăng 20/10/2020 Liên hệ email: hungbt.cntt@tdmu.edu.vn https://doi.org/10.37550/tdmu.VJS/2020.06.089 Tóm tắt Trong cách mạng công nghiệp 4.0, việc áp dụng CNTT vào đời sống ngày thiết thực Các công việc cần có xử lý máy móc, kể tới tốn phân tích dự đốn kết người tìm việc người tuyển dụng Các ứng viên tìm việc nhà tuyển dụng muốn có thơng tin kết dự đốn xác nhằm có đề xuất cơng việc phù hợp với thân Nghiên cứu xây dựng dựa nhu cầu thực tế việc ứng dụng công nghệ đánh giá hồ sơ tuyển dụng học máy đáp ứng yêu cầu người tìm việc nhà tuyển dụng trình đánh giá hồ sơ tuyển dụng, đánh giá đề xuất công việc phù hợp với hồ sơ Chúng đề xuất sử dụng phương pháp học máy (Support Vector Machine - SVM, Decision Tree - DT, Random Forest - RF) để dự đoán hồ sơ tuyển dụng Cơ sở đánh giá liệu Trung tâm Giới thiệu việc làm tỉnh Bình Dương Trên sở phương pháp cho kết tốt nhất, xây dựng ứng dụng đánh giá hồ sơ tuyển dụng trực quan hóa kết Từ khóa: đánh giá, hồ sơ tuyển dụng, học máy Abstract EVALUATING RECRUITMENT PROFILE USING MACHINE LEARNING In the era of industrial revolution 4.0, the application of IT has been playing a significant role Analyzing and predicting the results of recruitment profile have gradually become the hot topic of interest to both researcher and business By analyzing and predicting the recruitment profile, recruiters could evaluate candidate insights as well as predict which job is suitable for candidates In this research, we propose evaluating recruitment profile using machine learning approach We use Support Vector Machine (SVM), Decision Tree (DT), and Random Forest (RF) to evaluate recruitment profile Our experiments on the dataset of the Binh Duong Job Center show the good results Giới thiệu Sự phát triển mạnh mẽ công nghệ thông tin làm cho máy tính trở thành phương tiện khơng thể thiếu lính vực đời sống Cơng nghệ thơng tin phát triển người có nhiều phương pháp mới, cơng cụ để xử lý thông tin nắm bắt nhiều thông tin Công nghệ thông tin ứng dụng ngành nghề, lĩnh vực sản xuất, kinh doanh, du lịch xu hướng https://doi.org/10.37550/tdmu.VJS/2020.06.089 tất yếu Kết việc áp dụng công nghệ thông tin quản lý việc hình thành hệ thống thông tin quản lý nhằm phục vụ cho nhu cầu xử lý liệu cung cấp thông tin cho chủ sở hữu hệ thống Trong kinh doanh doanh nghiệp phải tiến hành tuyển dụng nhân Cơng tác tuyển dụng nhân có vai trị quan trọng, tiền đề bố trí, sử dụng đào tạo phát triển Tuyển dụng nhân tiến hành thường xuyên nhân doanh nghiệp biến động bất ngờ ngẫu nhiên Tuyển dụng nhân quy trình, tiến hành qua nhiều bước, có bước quan trọng đánh giá ứng viên Đánh giá, lựa chọn ứng viên trình so sánh nhiều ứng viên khác với tiêu chuẩn tuyển dụng để xác định ứng viên đáp ứng tốt So sánh ứng viên việc khó, có nhiều ứng viên Vì vậy, trước tiến hành đánh giá ứng viên tổ chức cần xác định quy trình tiêu chuẩn đánh giá phương pháp thống để so sánh nhằm tìm ứng viên phù hợp Có phương pháp thường dùng để đánh giá, so sánh ứng viên xếp hạng chấm điểm: (1) Phương pháp xếp hạng (ứng viên xếp hạng theo tiêu chuẩn tuyển dụng); (2) Phương pháp chấm điểm (để đánh giá, so sánh ứng viên cần chấm điểm ứng viên theo tiêu chuẩn xét tuyển; điểm cho tiêu chuẩn cần quy định cụ thể) Phương pháp xếp hạng có nhược điểm phải xác định mức độ quan trọng tiêu chuẩn đánh giá tổng thể Việc xếp hạng tiến hành đánh giá xong tất ứng viên Nếu có nhiều ứng viên thật khó nhớ xác thơng tin ứng viên Dù có phương pháp đánh giá, so sánh ứng viên, nhiên khơng có phương pháp hồn hảo tất cho điểm ứng viên mà thích cao so với ứng viên mà khơng thích Khơng phải dễ dàng có đánh giá hồn tồn khách quan, tổ chức phải linh hoạt áp dụng phương pháp đánh giá, so sánh ứng viên phù hợp với phương pháp tuyển dụng Đánh giá lựa chọn gợi ý công việc phù hợp cho ứng viên trình gồm nhiều bước, bước trình phương pháp tuyển dụng Số bước hay số phương pháp sử dụng không cố định mà phụ thuộc vào mức độ phức tạp cơng việc tính chất loại lao động cần tuyển dụng Chính cần có ứng dụng đánh giá hồ sơ tuyển dụng cách tự động để đề xuất công việc phù hợp với ứng viên Có nhiều cách tiếp cận cho vấn đề này, nhiên đa số tiếp cận theo hướng thủ cơng, sử dụng người Một số nhà nghiên cứu đề xuất sử dụng học máy áp dụng giải pháp xử lý ngôn ngữ tự nhiên để giải toán (FoDRA, 2016; Jayashree Rout, Sudhir Bagade, Pooja Yede, Nirmiti Patil, 2019) phương pháp giải tốn Đánh giá hồ sơ tuyển dụng Trong nghiên cứu tiếp cận giải toán phương pháp học máy Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 Mơ hình đề xuất 2.1 Tổng quan mơ hình đề xuất Mơ hình tổng quát trình bày Hình với phần xây dựng mơ hình đánh giá phương pháp học máy xây dựng ứng dụng demo chương trình cho người sử dụng nhà tuyển dụng Hình Mơ hình tổng qt Sau lấy liệu từ trang tuyển dụng việc làm tỉnh Bình Dương gán nhãn theo loại công việc với ứng viên Các đặc trưng biểu diễn thành dạng số xây dựng thành mơ hình học máy dựa thuật toán máy học Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF) Các liệu sau xử lý chuyển đổi thành vector số đưa vào mô hình máy học để huấn luyện phục vụ cho trình dự đốn Ứng dụng xây dựng mơ hình máy học huấn luyện trước, dự đốn dựa thơng tin người dùng nhập vào trả kết hiển thị lên giao diện người dùng 2.2 Đặc trưng Dữ liệu huấn luyện bao gồm dạng: dạng liệu số dạng liệu chuỗi Dữ liệu số bao gồm: tuổi, giới tính, số năm kinh nghiệm làm việc Dữ liệu dạng chuỗi bao gồm: trình độ học vấn, ngành nghề trước đây, ngoại ngữ, tin học Với loại liệu tiền xử lý, rút trích đặc trưng khác để chuyển thành liệu số đưa vào mơ hình huấn luyện Các bước xử lý chuyển hóa liệu thành vector đặc trưng tiến hành sau: https://doi.org/10.37550/tdmu.VJS/2020.06.089 – Các liệu dạng số: giá trị có giá trị lớn nhỏ khác tác động tới tính hiệu nhiều thuật toán liên quan đến vấn đề thời gian thực hiện, q trình hội tụ, độ xác thuật tốn Do cần bước lý để chuẩn hóa liệu số thành liệu chuẩn Trong nghiên cứu này, sử dụng cơng thức sau để chuẩn hóa liệu dạng [0,1]: (1) – Các liệu dạng chữ: Chúng chuyển đổi liệu văn thành vector, trước chuyển đổi, tiền xử lý liệu bước: Bước 1: Loại bỏ dấu phẩy, dấu chấm, khoảng cách Bước 2: Tách từ tiếng Việt sử dụng thư viện Pyvi Bước 3: Chuyển tất từ dạng chữ thường Sau tiền xử lý, chuyển đổi liệu văn thành vector sử dụng phương pháp TF-IDF (Term Frequency – Inverse Document Frequency) (Stephen Robertson, 2004; Shahzad Qaiser,Ramsha Ali, 2018) TF-IDF kĩ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn Giá trị cao thể độ quan trọng cao phụ thuộc vào số lần từ xuất văn bù lại tần suất từ tập liệu Cơng thức TF-IDF trình bày sau: TF (Term Frequency): Tần suất xuất từ Trong đó: TF(t, d): tần suất xuất từ t văn d; F(t, d): Số lần xuất từ t văn d; max({F(w, d) : w d}): Số lần xuất từ có số lần xuất nhiều văn d; IDF: Giúp đánh giá tầm quan trọng từ Khi tính tốn TF, tất từ coi có độ quan trọng Trong đó: IDF(t, D): giá trị idf từ t tập văn bản; |D|: Tổng số văn tập D; {d D : t d}|: thể số văn tập D có chứa từ t Cơng thức tính TF-IDF dựa TF IDF sau: (4) Chúng sử dụng kỹ thuật TF-IDF để biểu diễn cột thông tin liệu văn cột thông tin ứng viên Tất thông tin cột thu thập lại tạo tập từ điển từ vựng có cột Dựa vào tập từ điển này, giá trị thông tin ứng viên được biểu diễn vector dựa tập từ điển, sau cơng thức TF-IDF tính vector đưa vector đại diện cho thông tin ứng viên Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 2.3 Huấn luyện Chúng sử dụng phương pháp học máy véc tơ hỗ trợ – Support Vector Machine (SVM), Cây định – Decision Tree (DT) Rừng ngẫu nhiên – Random Forest (RF) để huấn luyện mơ hình 2.3.1 SVM Phương pháp học máy véctơ hỗ trợ SVM đời từ lý thuyết học thống kê Vapnik Chervonekis xây dựng năm 1995 (Tom Mitchell, 1997; Jiawei Han, Micheline Kamber, 2006) có nhiều tiềm phát triển mặt lý thuyết ứng dụng thực tế Phương pháp SVM có khả phân loại tốt toán phân lớp nhiều ứng dụng thực tế Support Vector Machines (SVM) kỹ thuật việc phân lớp liệu, phương pháp học sử dụng không gian giả thuyết hàm tuyến tính khơng gian đặc trưng nhiều chiều, dựa lý thuyết tối ưu lý thuyết thống kê Trong kỹ thuật SVM không gian liệu nhập ban đầu ánh xạ vào không gian đặc trưng không gian đặc trưng mặt siêu phẳng phân chia tối ưu xác định Hình biểu diễn Phân tách theo siêu phẳng(w,b) không gian chiều Hình Phân tách theo siêu phẳng(w,b) khơng gian chiều Siêu phẳng có khoảng cách với liệu gần lớn (tức có biên lớn nhất) gọi siêu phẳng tối ưu Hình biểu diễn siêu phẳng tối ưu Hình Siêu phẳng tối ưu Mục đích đặt tìm ngưỡng (w,b) phân chia tập mẫu vào lớp có nhãn (lớp I) -1 (lớp II) nêu với khoảng cách lớn Như vậy, ý tưởng SVM tìm mặt siêu phẳng để phân lớp liệu Các mặt phẳng biểu diễn dạng: (5) Khoảng cách siêu phẳng tính theo cơng thức: https://doi.org/10.37550/tdmu.VJS/2020.06.089 (6) ‖ ‖ Để xác định khoảng cách lớn ta tìm w b: { ‖ ‖ } ‖ ‖ Hay : (8) Như vấn đề đặt tìm w b theo công thức: (9) Với : λ≤h h,b Rm; p Rn Aλ=b; λ hệ số cần tìm; K ma trận vng; G,A R(m×n); 2.3.2 Cây định Cây định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng [10-11] Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Hình Mơ hình định Cây định mơ hình máy học có giám sát, áp dụng vào hai toán phân loại hồi quy Việc xây dựng định liệu huấn luyện cho trước việc xác định câu hỏi thứ tự chúng Một điểm đáng lưu ý Decision Tree làm việc với đặc trưng dạng Categorical, thường rời rạc khơng có thứ tự Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 2.3.3 Rừng ngẫu nhiên Random Forests (RF) thuật toán học giám sát (supervised) “Ensemble” có nghĩa tập hợp tất “weak learners” giúp làm việc để tạo dự báo có độ tin cậy cao [12] Trong trường hợp này, “weak learners” tất Decision Trees ngẫu nhiên kết hợp để tạo thành dự đốn có độ tin cậy cao – Random Forest thuật tốn machine learning phổ biến mạnh Nó loại thuật toán machine learning gọi Bootstrap Aggregation Bagging Hình mơ tả mơ hình rừng ngẫu nhiên Hình Mơ hình rừng ngẫu nhiên Thực nghiệm 3.1 Dữ liệu Dữ liệu đề tài thu thập trực tiếp từ trang tuyển dụng Việc làm Bình Dương Trung tâm Giới thiệu việc làm tỉnh Bình Dương Bộ liệu thơ bao gồm 1967 mẫu liệu hồ sơ mà người dùng đưa cho thông tin Bộ liệu lưu dạng câu trúc định dạng Excel bao gồm 13 cột thông tin khác như: Họ Tên, Ngày Sinh, Giới Tính, Số CMND, Điện Thoại, Địa Chỉ Số, Lần Đăng Ký, Vị Trí Cơng Việc, Nơi Làm Việc, Năm Kinh Nghiệm, Trình Độ, Ngành, Ngoại Ngữ, Tin Học Xử lý liệu Chúng tiến hành tiền xử lý liệu cách loại bỏ thông tin liên quan đến thông tin cá nhân như: Họ tên, Số CMND, Điện Thoại, Địa Chỉ, Số lần đăng ký thơng tin cột cịn lại Cột Ngày sinh chuyển thành số tuổi tính đến thời điểm Tuy nhiên liệu tồn nhiều thông tin lặp lại ứng viên, để tránh nhiễu q trình làm liệu, loại bỏ liệu trùng giữ lại dựa cột CMND mà ứng viên nhập vào giá trị định dang ứng viên với Kết sau lọc trùng liệu, thu 1.516 mẫu liệu gán nhãn Sau loại bỏ thơng tin khơng hữu ích, tiến hành gán loại ngành nghề phù https://doi.org/10.37550/tdmu.VJS/2020.06.089 hợp cho mẫu hồ sơ Bảng chi tiết ngành nghề người thực tham khảo trực tiếp từ trang websites Trung tâm giới thiệu việc làm Tỉnh Bình Dương Tiếp tiến hành gán nhãn liệu giá trị ứng viên nhập vào liệu Dựa vào cột thông tin mà ứng viên nhập vào: ngành nghề, vị trí cơng việc mà họ mong muốn để tiến hành phân loại ngành nghề Trong q trình gán nhãn có số lỗi tả, khơng cú pháp thơng tin không hợp lệ tiền xử lý lại cho với thông tin cột Chi tiết thông tin cột liệu mà ứng viên cung cấp việc làm gồm: Tuổi, Giới tính, Năm kinh nghiệm, Trình độ, Ngoại ngữ, Tin học Dữ liệu chia thành phần Train Test theo tỉ lệ 8:2 3.2 Huấn luyện mơ hình Từ liệu thơ sau tiền xử lý liệu sử dụng kỹ thuật MinMaxScaling để đưa giá trị số dạng vector có dạng [0,1] Đối với liệu văn bản, người thực sử dụng kỹ thuật TF-IDF để đưa giá trị văn dạng vector biểu diễn Sau nối vector cột lại với để làm vector đại diện cho dịng liệu, nhãn cơng việc chuyển thành dạng số tương ứng, người thực đưa giá trị vào mơ hình máy học thuật toán SVM, RF, DT để huấn luyện đánh giá mơ hình 3.3 Kết thực nghiệm Bộ liệu sau tiền xử lý chuyển thành vector đưa vào huấn luyện ba phương pháp học máy Support Vector Machine (SVM), Rừng ngẫu nghiên (Random Forrest) Cây định (Decision Tree) Chúng sử dụng ngơn ngữ lập trình Python, thư viện pyvi Trần Việt Trung (2016) để tách từ, thư viện học máy Sklearn với Numpy Scipy, thiết kế giao diện ứng dụng HTML, Javascrip, CSS Boostrap Kết đánh giá ba độ đo: độ xác, độ bao phủ độ đo F1 score Các độ đo tính theo cơng thức Precision = TP/(TP + FP) (10) Độ xác khả thuật tốn phân loại khơng gán cho cho mẫu positive giá trị negative Đối với class, định nghĩa tỷ lệ True Positive so với tổng True Positive False Positive Recall = TP/(TP+FN) (11) Độ phủ khả thuật toán phân lớp tìm mẫu positive Đối với class định nghĩa tỷ lệ True Positive so với tỷ lệ True Positive với False Negative F1 score số trung hòa giá trị Precision Recall (12) Kết trình bày Bảng Hình biểu diễn so sánh kết phương pháp SVM, RF DT 10 Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 Bảng Kết phương pháp SVM, RF, DT Phương pháp Độ xác Độ phủ F1-score SVM 73.64 70.29 71.10 RF 69.87 48.51 54.21 DT 64.21 62.05 62.73 80 70 60 50 40 30 20 10 Độ xác Độ phủ SVM RF F1-score DT Hình So sánh kết phương pháp SVM, RF, DT Hình Giao diện người dùng Dựa vào kết Bảng ta thấy phương pháp SVM đạt kết tốt với độ xác 73.64%, độ phủ 79.29% số F1-score 71,10% Kết cao nhiều so với hai phương pháp lại Random Forest hay Decision Tree Do phương pháp SVM lưu lại phục vụ cho ứng dụng minh họa trực quan hóa kết 11 https://doi.org/10.37550/tdmu.VJS/2020.06.089 Ứng dụng trực quan hóa kết hiển thị website gồm chức năng: Hướng dẫn sử dụng, Ứng dụng đánh giá, Phân tích liệu, Đánh giá kết nghiên cứu Người dùng nhập trực tiếp thông tin ứng viên: Tuổi, Bằng cấp, Kinh Nghiệm, Ngoại Ngữ, Tin học, Giới Tính Ứng dụng lấy thông tin tiền xử lý đưa qua mơ hình SVM để dự đốn đưa ngành nghề phù hợp ngành nghề phù hợp khác xếp theo thứ tự từ cao xuống thấp gợi ý cho người dùng Hình biểu diễn giao diện người dùng Hình biểu diễn kết gợi ý Từ kết huấn luyện, nhận thấy kết dự đoán nhân viên kinh doanh (NVKD) nhân viên văn phòng (NVVP) đạt kết thấp Điều phần nhãn hai loại có đặc trưng tương đối gần giống nhau, tỷ lệ nhầm lẫn hai nhãn cao Các ngành nghề khác Bảo vệ (BV) hay nhân viên phiên dịch (NVPD) lại có kết cao liệu nhãn thường có đặc trưng khác biệt với nhãn khác Hình Kết đánh giá gợi ý Kết luận Nghiên cứu trình bày phương pháp đánh giá hồ sơ tuyển dụng học máy Dựa liệu đầu vào chuẩn hóa chuyển đổi thành vector đặc trưng TF-IDF huấn luyện mơ hình học máy: SVM, Decision Tree Random Forest Qua thực nghiệm cho thấy, phương pháp học máy SVM cho kết tốt Chúng xây dựng ứng dụng đánh giá hồ sơ tuyển dụng trực tuyến bước đầu khảo sát ghi nhận phản hồi người sử dụng Trong thời gian tới, chúng tơi tìm cách nghiên cứu xử lý liệu thu thập thử nghiệm mơ hình khác để tìm giải pháp tối ưu cho việc đánh giá hồ sơ tuyển dụng 12 Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 TÀI LIỆU KHAM KHẢO [1] FoDRA – Nikolaos D Almalis George A Tsihrintzis, Aggeliki D Strati (2016) “A New Content-Based Job Recommendation Algorithm for Job Seeking and Recruiting” [2] Data,Vishnu M Menon Computer Rahul Nath H A (2016) “A Novel Approach to Evaluate and Rank Candidates in A Recruitment Process by Estimating Emotional Intelligence through Social Media” [3] Manasi Ombhase, Prajakta Gogate, Tejas Patil (2017) Automated Personality Classification Using Data Mining Technoques DOI: 10.13140/RG.2.2.35949.59363 [4] Vivian Lai, Kyong Jin Shim, Richard J Oentaryo, Philips K Prasetyo, Casey Vu Ee-Peng Lim, David Lo (2016) “Career Mapper: An Automated Resume Evaluation Tool” [5] Jayashree Rout, Sudhir Bagade, Pooja Yede, Nirmiti Patil (2019) Personality Evaluation and CV Analysis using Machine Learning Algorithm International Journal of Computer Sciences and Engineering, Vol 7, Issue [6] Stephen Robertson (2004) "Understanding inverse document frequency: on theoretical arguments for IDF" Journal of Documentation, Vol 60, Issue [7] Shahzad Qaiser,Ramsha Ali (2018) “Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents” International Journal of Computer Applications, Vol 181, Isuue [8] Tom M Mitchell (1997) Machine Learning McGraw Hill, Inc [9] Jiawei Han, Micheline Kamber (2006) Data Mining: Concepts and Techniques Second Edition Morgan Kaufmann Publishers [10] Leo Breiman, Jerome Friedman, Charles J Stone & R.A Olshen (1984) Classification and Regression Trees Taylor & Francis [11] Mihaela van der Schaar (2017) Classification and regression trees Department of Engineering Science University of Oxford [12] Breiman, L (2001) “Random forests” Machine Learning, Vol 45, No 13 ... Kết đánh giá gợi ý Kết luận Nghiên cứu trình bày phương pháp đánh giá hồ sơ tuyển dụng học máy Dựa liệu đầu vào chuẩn hóa chuyển đổi thành vector đặc trưng TF-IDF huấn luyện mơ hình học máy: ... thực nghiệm cho thấy, phương pháp học máy SVM cho kết tốt Chúng xây dựng ứng dụng đánh giá hồ sơ tuyển dụng trực tuyến bước đầu khảo sát ghi nhận phản hồi người sử dụng Trong thời gian tới, chúng... Nirmiti Patil, 2019) phương pháp giải toán Đánh giá hồ sơ tuyển dụng Trong nghiên cứu chúng tơi tiếp cận giải tốn phương pháp học máy Tạp chí Khoa học Đại học Thủ Dầu Một Số 6(49)-2020 Mơ hình đề