Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
6,5 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA TRƢƠNG ĐÌNH THIÊN ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng, 2022 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA TRƢƠNG ĐÌNH THIÊN ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CÔNG NGHỆ THÔNG TIN Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS Trƣơng Ngọc Châu Đà Nẵng, 2022 i LỜI CAM ĐOAN Tôi xin cam đoan: Nội dung dự án thực theo hướng dẫn thầy Trương Ngọc Châu Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tất tài liệu tham khảo, sử dụng luận văn dự án này, trích dẫn với tên tác giả, tên dự án, thời gian địa điểm để xuất cách rõ ràng trung thực Tất không hợp lệ, vi phạm quy chế gian lận chúng tơi hồn tồn chịu trách nhiệm Tác giả luận văn ký ghi rõ họ tên Trương Đình Thiên THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội ii ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CÔNG NGHỆ THÔNG TIN Học viên: Trương Đình Thiên Chun ngành: Khoa học máy tính Mã số: 8480101 Khóa: K41.KMT (PFIEV) Trường Đại học Bách khoa – ĐHĐN Trong năm gần đây, học máy (machine learning) trở thành chủ đề nóng khoa học máy tính Học sâu (deep learning) lĩnh vực học máy, sử dụng mạng nơ-ron nhân tạo Nó nhanh đạt độ xác cấp độ cao phương pháp tạo trước cách dạy máy tính làm mà người làm Học sâu đạt đến hiệu suất tuyệt vời nhiều lĩnh vực tài chính, trợ lý ảo, nhận dạng khn mặt, dự đốn thị trường, v.v Nhân viên lĩnh vực công nghệ thông tin thường chuyển việc nhiều đột ngột để phù hợp với nhu cầu làm việc Trong trường hợp đó, cơng ty thường phải đối mặt với tình trạng cạn kiệt nguồn nhân lực Hiểu khả di chuyển cơng việc nhân viên mang lại lợi ích cho cơng ty theo nhiều cách khác Trong hầu hết nghiên cứu tập trung vào dự đốn chức danh cơng việc tiếp theo, vấn đề dự báo thời gian làm việc tỉ lệ chuyển việc nhân viên cấp độ cá nhân ý Hơn nữa, phương pháp trước coi kinh nghiệm khác nhân viên quan trọng nên mơ hình trí tuệ nhân tạo tận dụng mối liên hệ tiềm kinh nghiệm Để giải vấn đề trên, chúng tơi xây dựng mơ hình với chế ý (attention mechanism) Cụ thể hơn, chế ý mang lại nhiều hiểu biết cho thông tin ẩn học Khác với nghiên cứu trước đây, mơ hình chúng tơi sử dụng hiệu kinh nghiệm nhân viên trước linh hoạt thích ứng với thơng tin có tầm quan trọng khác Phương pháp áp dụng cho 10.000 hồ sơ ứng viên lĩnh vực công nghệ thông tin Việt Nam Những hồ sơ thu thập giới thực, cụ thể từ Linkedin Mơ hình cho thấy kết đáng kể vượt trội so với mơ hình trước Trong luận văn này, ứng dụng chế ý nhiều cơng nghệ khác để dự đốn tỉ lệ chuyển việc, công việc thời gian làm việc vị trí nhân viên dựa vào kinh nghiệm làm việc nhân viên Thơng qua phương pháp này, chúng tơi so sánh ưu điểm nhược điểm so với mơ hình có Từ khóa: Học máy, trí tuệ nhân tạo, dự đốn chức danh, chế ý, phân tích sống APPLICATION OF MACHINE LEARNING TECHNIQUES TO FORECAST EMPLOYEE TRANSFER IN THE INFORMATION TECHNOLOGY INDUSTRY In recent years, machine learning has become a hot topic in computer science Deep learning is an area of machine learning that uses artificial neural networks It quickly achieves a higher level of accuracy than previously created methods by teaching computers to what humans can Deep learning achieves great performance in many areas like finance, virtual assistants, facial recognition, market prediction, etc Employees in the field of information technology often change jobs often and suddenly to match their working needs In that case, the company often faces a shortage of human resources Understanding employee mobility can benefit a company in a variety of ways While most studies focus on predicting the next job title, the issue of forecasting employee time and turnover at the individual level has received little attention Furthermore, previous methods considered different employee experiences equally important, so artificial intelligence models failed to take advantage of potential associations between experiences To solve the above problems, we build a new model with an attention mechanism More specifically, the attention mechanism brings more insights to learned hidden information Different from previous studies, our model can effectively use previous employee experience and flexibly adapt to information of different importance Our method is applied to 10,000 candidates in the information technology field in Vietnam These profiles are collected in the real world, specifically from Linkedin Our model shows significant and superior results compared to the previous model In this thesis, we have applied the attention mechanism and many other technologies to predict an employee's job transfer rate, next job and working time in a new position based on work experience of that employee Through this method, we compare the advantages and disadvantages compared to the existing models Keywords: Machine learning, artificial intelligence, job title prediction, attention mechanism, life analysis THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội iii MỤC LỤC LỜI CAM ĐOAN i TÓM TẮT ii MỤC LỤC iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi MỞ ĐẦU 1 Lý chọn đề tài Mục đích dự án .1 Mục tiêu dự án Phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Kết cấu luận văn .3 CHƯƠNG LÝ THUYẾT VÀ CÔNG NGHỆ 1.1 Dự đoán 1.2 Mạng nơ-ron .4 1.3 Mạng nơ-ron hồi quy 1.3.1 Dữ liệu (sequence data) 1.3.2 Mơ hình mạng nơ-ron hồi quy 1.3.3 Bộ nhớ dài-ngắn hạn .6 1.3.4 Phân loại – Lớp kết nối đầy đủ .7 1.4 Mô hình mã hóa – giải mã 1.5 Nhúng từ 10 1.6 Cơ chế ý 11 1.7 Phân tích tỷ lệ sống sót 12 1.7.1 Dữ liệu bị che 12 1.7.2 Mơ hình phân tích tỷ lệ sống sót 14 1.7.3 Phương trình sống sót 15 1.7.4 Hàm rủi ro .16 1.7.5 Mơ hình mối nguy theo tỷ lệ Cox 17 1.8 Huấn luyện đánh giá mơ hình 17 1.8.1 Huấn luyện 17 1.8.2 Sự khớp chưa khớp 18 1.8.3 Đánh giá 19 1.9 Công nghệ .24 1.9.1 Tensorflow 24 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội iv 1.9.2 Scikit-Survival 24 1.9.3 Selenium .25 1.9.4 FastText 26 CHƯƠNG HỆ THỐNG THU THẬP DỮ LIỆU 27 2.1 Dữ liệu mẫu 27 2.2 Thu thập đường dẫn hồ sơ ứng viên .29 2.3 Thu thập tên ứng viên thông tin liên lạc 30 2.4 Thu thập phần thông tin thêm 31 2.5 Thu thập phần thông tin kinh nghiệm làm việc 31 2.6 Thu thập phần thơng tin trình độ học vấn 32 2.7 Thu thập phần thông tin kỹ làm việc 34 2.8 Nhận xét kết .35 CHƯƠNG PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG MƠ HÌNH 36 3.1 Các khó khăn 36 3.2 Dữ liệu đầu vào .37 3.3 Tiền xử lý liệu 40 3.4 Phân tích liệu .43 3.5 Xây dựng tập liệu huấn luyện 44 3.6 Xây dựng mơ hình 45 3.6.1 Xây dựng vấn đề 45 3.6.2 Thiết kế hệ thống 46 3.6.3 Nhúng từ .47 3.6.4 Cơ chế ý 51 3.6.5 Mơ-đun dự đốn 51 3.7 Đánh giá mơ hình 54 3.7.1 Các mơ hình sở .54 3.7.2 Đánh giá mơ-đun dự đốn chức danh cơng việc 55 3.7.3 Đánh giá mơ-đun dự đốn thời gian làm việc chức danh 57 3.7.4 Đánh giá mơ-đun dự đốn tỉ lệ nghỉ việc thời điểm 57 3.7.5 Nhận xét chung .58 KẾT LUẬN 60 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội v DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 3.1: 3.2: 3.3: Một số từ viết tắt thay Các ký hiệu sử dụng đề tài Đánh giá mơ hình độ xác Đánh giá mơ hình đánh giá xếp hạng phần trăm trung bình Đánh giá mơ hình sai số tồn phương trung bình Đánh giá mơ hình số hịa hợp 42 46 56 3.4: 3.5: 3.6: THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG 56 57 58 Lưu hành nội vi DANH MỤC CÁC HÌNH Số hiệu hình 1.1: 1.2: 1.3: 1.4: 1.5: 1.6: 1.7: 1.8: 1.9: 1.10: 1.11: 1.12: 1.13: 1.14: 1.15: 1.16: 1.17: 1.18: 1.19: 1.20: 1.21: 1.22: 1.23: 1.24: Tên hình Trang Mạng Nơ-ron Kinh nghiệm làm việc nhân viên Mạng nơ-ron hồi quy Mạng LSTM Lớp kết nối đầy đủ Thiết lập kiến trúc mã hóa-giải mã Mạng mã hóa xử lý chuỗi đầu vào thành chuỗi mã hóa, sau giải mã sử dụng để tạo đầu Sử dụng trạng thái tóm tắt kiến trúc mơ hình mã hóa-giải mã Sử dụng trình tự mã hóa hồn chỉnh mạng giải mã Một ví dụ nhúng từ Áp dụng chế ý để tạo phụ đề cho ảnh Các vùng màu trắng cho biết chế ý tập trung vào đâu trình tạo từ gạch chân Dữ liệu không che, thời gian kết thúc tất kiện biết xác Dữ liệu che bên phải, vài kiện chưa kết thúc khơng biết xác thời gian kết thúc Dữ liệu che bên trái, vài kiện kết thúc khơng biết xác thời gian kết thúc Dữ liệu che theo khoảng thời gian, vài kiện kết thúc khơng biết xác thời gian kết thúc biết thời gian kết thúc nằm khoảng thời gian Một ví dụ phương pháp phân tích sống Phương trình sống sót Một ví dụ khớp, chưa khớp, mơ hình Một dự đốn mơ hình Một ví dụ số hịa hợp hồn hảo Một ví dụ số hịa hợp hồn hảo Một ví dụ số hịa hợp nhỏ Một ví dụ cách tính số hịa hợp Một ví dụ cách tính số hịa hợp với liệu bị che bên phải Tensorflow THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG 9 10 11 12 13 13 13 14 15 16 18 20 21 21 22 22 23 24 Lưu hành nội vii Số hiệu hình 1.25: 1.25: 1.26: 2.1: 2.2: 2.3: 2.4: 2.5: 2.6: 2.7: 2.8: 2.9: 2.10: 2.11: 2.12: 2.13: 2.14: 2.15: 3.1: 3.2: 3.3: 3.4: 3.5: 3.6: 3.7: 3.8: 3.9: 3.10: 3.11: 3.12: 3.13: 3.14: Tên hình Trang Scikit-learn Selenium FastText Trình tự làm việc “CVCrawler” Một hồ sơ ứng viên mẫu mạng xã hội Đường dẫn hồ sơ ứng viên cần thu thập Mã Selenium để thu thập đường dẫn Tên ứng viên cần thu thập Mã Selenium để thu thập tên ứng viên Phần thông tin thêm cần thu thập Mã Selenium để thu thập thông tin thêm Phần thông tin kinh nghiệm làm việc Mã Selenium để thu thập kinh nghiệm làm việc Phần thông tin trình độ học vấn Mã selenium để thu thập trình độ học vấn Phần thơng tin kỹ làm việc cần thu thập Mã Selenium để thu thập kỹ làm việc Một kết thu thập “CVCrawler” Kinh nghiệm làm việc ứng viên Các kỹ ứng viên Dữ liệu mẫu số ứng viên Dữ liệu thô ứng viên Chức danh tần số xuất số chức danh Một số chức danh có tần số xuất thấp Kỹ tần số xuất số kỹ Dữ liệu sau trích xuất để phục vụ việc huấn luyện Biểu diễn đồ họa mơ hình đề xuất cách sử dụng chế ý việc xác định trọng số trạng thái ẩn từ lớp LSTM để có thông tin tiềm ẩn trải nghiệm công việc Một ví dụ nhúng từ “java developer” thành vec-tơ 100 chiều Biểu diễn nhúng từ số chức danh không gian hai chiều Biểu diễn nhúng từ số kỹ không gian hai chiều Biểu diễn lớp gộp trung bình Quy trình dự đốn cơng việc 24 25 26 27 28 29 30 30 30 31 31 31 32 33 33 34 34 35 37 38 39 41 43 43 44 45 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG 47 48 49 49 50 52 Lưu hành nội viii Số hiệu hình 3.15: 3.16: 3.17: 3.18: 3.19: 3.20: Tên hình Trang Một kết mơ-đun dự đốn chức danh Quy trình dự đoán thời gian làm việc chức danh Một số kết mơ-đun dự đốn thời gian làm việc Quy trình dự đốn tỉ lệ nghỉ việc nhân viên Phương trình sống sót nhân viên So sánh hàm mát mơ hình q trình huấn luyện có sử dụng chế ý không sử dụng chế ý 52 52 53 54 54 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG 59 Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội ... ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội ii ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CÔNG NGHỆ THƠNG TIN Học viên: Trương Đình Thiên Chun ngành: ... Mục tiêu dự án dự đoán khả chuyển việc nhân viên ngành công nghệ thông tin nên hồ sơ ứng việc thu thập nhân viên ngành công nghệ thông tin Việt Nam Để xây dựng “CVCrawler” sử dụng cơng nghệ selenium...ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA TRƢƠNG ĐÌNH THIÊN ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CƠNG NGHỆ THƠNG TIN Chun ngành: Khoa học máy tính