1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)

26 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 876,14 KB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRƯƠNG ĐÌNH THIÊN ỨNG DỤNG KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN KHẢ NĂNG CHUYỂN VIỆC CỦA NHÂN VIÊN TRONG NGÀNH CÔNG NGHỆ THÔNG TIN Chuyên ngành Mã số : Khoa học máy tính : 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - NĂM 2022 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS TRƯƠNG NGỌC CHÂU Phản biện 1: TS Bùi Thị Thanh Thanh Phản biện 2: TS Lâm Tùng Giang Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học máy tính họp Trường Đại học Bách khoa vào ngày 22 tháng năm 2021 Có thể tìm hiểu luận văn tại: - Trung tâm học liệu TT Đại Học Bách khoa_ ĐHĐN - Thư viện Khoa Công Nghệ Thông Tin, Trường Đại học Bách Khoa – Đại học Đà Nẵng THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội MỞ ĐẦU Lý chọn đề tài Nhân viên lĩnh vực cơng nghệ thơng tin tích cực nghiệp họ Nhân viên thường xuyên chuyển việc cách đột xuất với mật độ chuyển việc cao Trong trường hợp đó, cơng ty thường giải tình trạng cạn kiệt nguồn nhân lực Hiểu khả di chuyển cơng việc nhân viên mang lại lợi ích cho cơng ty theo nhiều cách khác Trong hầu hết nghiên cứu tập trung vào dự đốn chức danh cơng việc tiếp theo, vấn đề dự báo thời gian làm việc tỉ lệ chuyển việc nhân viên cấp độ cá nhân ý Các phương pháp nghiên cứu trước hệ thống gợi ý (recommendation system) [1][2], phương pháp khai thác liệu lớn (data mining) [3], phương pháp dự đốn dựa vào xích Markov (Markov chain) [4] hầu hết sử dụng nhiều thông tin từ nhân viên mức lương, tình trạng gia đình, khoản cách làm việc,… thơng tin nhạy cảm, khó thu thập nên khơng có tính tổng quát cao Hơn nữa, phương pháp trước coi kinh nghiệm khác nhân viên quan trọng nên mơ hình trí tuệ nhân tạo tận dụng mối liên hệ tiềm kinh nghiệm Để giải vấn đề trên, chúng tơi xây dựng mơ hình với chế ý (attention mechanism) phương pháp phân tích tỷ lệ sống sót (survival analysis) Cụ thể hơn, chế ý mang lại nhiều hiểu biết cho thông tin ẩn học Phương pháp phân tích tỷ lệ sống sót dựa vào kiện diễn khứ dể dự đoán kiện diễn tương lai phương pháp tính tốn hàm sống (survival function) đối tượng Khác với nghiên cứu trước đây, mơ hình chúng tơi sử dụng hiệu kinh nghiệm nhân viên THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội trước linh hoạt thích ứng với thơng tin có tầm quan trọng khác Phương pháp áp dụng cho 10.000 hồ sơ giới thực cho thấy kết đáng kể vượt trội so với mơ hình sở mơ hình xây dựng trước Mục đích dự án - Giải vấn đề thiếu hụt nhân lực cách cung cấp thông tin cần thiết cho phân nhân công ty để đưa định kịp thời - Giúp việc tuyển dụng nhân tài, giữ chân nhân tài, phát triển nhân tài dễ dàng góc độ cơng ty Mục tiêu dự án - Dự đoán tỉ lệ chuyển việc nhân viên kỹ thuật học máy - Dự đốn chức danh cơng việc nhân viên kỹ thuật học máy - Dự đốn thời gian làm việc vị trí nhân viên kỹ thuật học máy - Áp dụng chế ý để tăng độ xác mơ hình - Áp dụng phân tích tỷ lệ sống sót để dự đốn tỉ lệ chuyển việc - Giúp việc tuyển dụng nhân tài, giữ chân nhân tài, phát triển nhân tài dễ dàng góc độ cơng ty Phạm vi nghiên cứu - Ngôn ngữ lập trình Python - Học sâu (Deep learning) - Cơ chế ý (Attention mechanism) - Phân tích tỷ lệ sống sót (Survival analysis) - Sử dụng Tensorflow, Selenium Phương pháp nghiên cứu THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội 5.1 Phần lý thuyết: - Lý thuyết cách áp dụng học sâu để dự đốn cơng việc - Lý thuyết phân tích tỷ lệ sống sót (survival analysis) - Lý thuyết chế ý (attention mechanism) - Cách đo lường độ xác mơ hình 5.2 Phần lập trình: - Xây dựng mơ hình dự đốn - Áp dụng phân tích tỷ lệ sống sót vào mơ hình đề xuất - Áp dụng chế ý vào mơ hình đề xuất Ý nghĩa khoa học thực tiễn đề tài 6.1 Ý nghĩa khoa học Xây dựng mơ hình hồn tồn để giải tốn dự đốn tỉ lệ nghỉ việc Khơng vậy, nghiên cứu cịn góp phần ưu nhược điểm loại thuật tốn tìm ưu điểm vượt trội chế ý xử lý liệu Từ hướng cho nghiên cứu tương tự tương lai Áp dụng phương pháp phân tích tỉ lệ sống sót, vốn sử dụng nhiều nghiên cứu y khoa, vào lĩnh vực hoàn toàn Phương pháp có nhiều tiềm việc giải toán dự báo tương lai 6.2 Ý nghĩa thực tiễn Luận văn nghiên cứu giúp doanh nghiệp có thêm nhiều sở việc giải toán nhân sự, đặc biệt việc giữ chân nhân tài, chiêu mộ nhân tài phát triển nhân tài Khơng vậy, mơ hình đề xuất luận văn ứng dụng rộng rãi vào lĩnh vực khác để giải tốn tương tự Kết cấu luận văn • Chương 1: Lý thuyết công nghệ Nghiên cứu lý thuyết THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội công nghệ sử dụng dự án • Chương 2: Hệ thống thu thập liệu Trình bày cách thu thập thông tin từ khuôn mẫu hồ sơ ứng viên để xây dựng tập huấn luyện • Chương 3: Phân tích, thiết kế, xây dựng mơ hình Trình bày khó khăn xây dựng đề tài, phương pháp thiết kế, phương pháp xây dựng mơ hình • Kết luận Trình bày kết đạt được, điểm cần cải thiện định hướng dự án tương lai Kết luận Trình bày kết đạt được, điểm cần cải thiện định hướng dự án tương lai CHƯƠNG 1: LÝ THUYẾT VÀ CƠNG NGHỆ 1.1 Dự đốn 1.2 Mạng nơ-ron Mạng nơ-ron nhân tạo công cụ sử dụng học máy Như phần "thần kinh" tên gọi chúng, chúng hệ thống lấy cảm hứng từ não nhằm tái tạo cách người học hỏi Mạng nơ-ron bao gồm lớp đầu vào đầu ra, (trong hầu hết trường hợp) lớp ẩn bao gồm đơn vị biến đổi đầu vào thành thứ mà lớp đầu sử dụng Mạng nơ-ron cơng cụ tuyệt vời để tìm kiếm trích xuất mẫu (pattern) phức tạp mà người làm 1.3 Mạng nơ-ron hồi quy 1.3.1 Dữ liệu (sequence data) Dữ liệu có thứ tự dựa vào thời gian kinh nghiệm làm việc gọi liệu (sequence data) liệu theo thời gian (time-series data) Kích thước liệu khơng cố định thay đổi tùy thuộc vào độ dài kinh nghiệm làm việc THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội nhân viên Việc tái định hình (reshape) liệu để đưa liệu hình (shape) cần thiết làm việc với liệu 1.3.2 Mơ hình mạng nơ-ron hồi quy Mạng nơ-ron hồi quy (Recurrent neural network hay RNN) [5] lớp mạng thần kinh nhân tạo, nơi kết nối giữ nút để tạo thành độ thị có hướng dọc theo tình tự thời gian Điều cho phép mạng thể hành vi động tạm thời Có nguồn gốc từ mạng thần kinh truyền thẳng, RNN dùng trạng thái (bộ nhớ) để xử lý chuỗi đầu vào co độ dài thay đổi Điều làm cho RNN áp dụng cho tác vụ nhận dạng chữ viết tay, nhận dạng tiếng nói, dự đốn thị trường, dự đốn kiện 1.3.3 Bộ nhớ dài-ngắn hạn Bộ nhớ dài-ngắn hạn (Long-short term memory hay LSTM) [6] mạng thần kinh hồi quy (RNN) nhân tạo sử dụng lĩnh vực học sâu Không giống mạng thần kinh truyền thẳng tiểu chuẩn, LSTM có chứa kết nối phản hồi Mạng không xử lý điểm liệu đơn lẻ (như hình ảnh) mà cịn xử lý tồn chuỗi dự liệu (như video) 1.3.4 Phân loại – Lớp kết nối đầy đủ Lớp kết nối đầy đủ (Fully-connected layer) hay Perceptron nhiều lớp (Multi-layer Perceptron) cách nhanh để học tổ hợp phi tuyến tính đối tượng cấp cao biểu thị đầu lớp chập Lớp kết nối đầy đủ hàm phi tuyến tính khơng gian dùng để chuyển thuộc tính ẩn học thành kết đầu 1.4 Mơ hình mã hóa – giải mã Để giải toán với liệu đầu vào liệu có kích thước khác Mơ hình mã hóa – giải mã (Encoder- THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội Decoder model) đưa để giải toán (seq2seq) Mơ hình mã hóa – giải mã bao gồm: Mã hóa liệu đầu vào thành số biểu diễn trừu tượng Thao tác mã hóa chuỗi số Giải mã chuỗi số thành chuỗi mục tiêu 1.5 Nhúng từ Nhúng từ (word embedding) [7] không gian vector dùng để biểu diễn liệu có khả miêu tả mối liên hệ, tương đồng mặt ngữ nghĩa, ngữ cảnh (context) liệu Không gian bao gồm nhiều chiều từ khơng gian mà có văn cảnh ngữ nghĩa có vị trí gần Ví dụ ta có hai câu: "Hơm ăn táo " "Hơm ăn xồi " 1.6 Cơ chế ý Từ cách người đọc ngày tháng, khơng đọc tồn văn sau viết dịch cách độc lập ký tự Một cách trực quan, người hiểu ký tự “Jan” tương ứng với tháng đầu tiên, “5” tương ứng với ngày “2016” tương ứng với năm Cơ chế ý (attention mechanism) đưa để cải thiện mơ hình mã hóa – giải mã Thực chất chế ý chế giúp mơ hình tập trung vào phần quan trọng liệu việc tạo trọng số cho chuỗi đầu từ RNN, việc giúp mơ hình tập trung vào phần quan trọng chuỗi liệu đầu vào Cụ thể công việc mà nhân viên làm việc thời gian dài đánh trọng số cao so với công việc làm thời gian ngắn Các cơng việc phổ biến có trọng số cao so với công việc khác 1.7 Phân tích tỷ lệ sống sót THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội 1.7.1 Dữ liệu bị che Dữ liệu bị che (censored data) liệu mà khơng biết xác thời gian diễn kiện Dữ liệu mà thời gian kết thúc kiện biết xác gọi liệu khơng che (uncensored data) Có loại liệu che: • Dữ liệu che bên phải (right censored data) • Dữ liệu che bên trái (left censored data) • Dữ liệu che theo khoảng thời gian (interval censored data) Trong toán dự đoán tỉ lệ nghỉ việc nhân viên ta phải đối mặt với liệu che bên phải với nhân viên ta biết thời gian kết thúc công việc nhân viên q khứ khơng biết xác thời gian kết thúc công việc tại, nhân viên tiếp tục làm việc thời gian dài ta khơng biết xác thời gian kết thúc cơng việc Ví dụ nhân viên A có kinh nghiệm làm việc: kinh nghiệm làm năm, kinh nghiệm làm năm, kinh nghiệm làm năm tiếp tục làm việc thời điểm Các kinh nghiệm biết thời gian kết thúc thời gian kết thúc kinh nghiệm 1.7.2 Mơ hình phân tích tỷ lệ sống sót Phân tích tỷ lệ sống sót (survival analysis) cịn lĩnh vực thống kê tập trung vào việc phân tích thời gian dự kiến kiện xảy Ban đầu, nhánh thống kê phát triển xung quanh việc đo lường tác động điều trị y tế sống bệnh nhân thử nghiệm lâm sàng Ví dụ, tưởng tượng nhóm bệnh nhân ung thư áp dụng hình thức điều trị định Phân tích tỷ lệ sống sót sử dụng để phân tích kết điều trị tuổi thọ bệnh nhân Phân tích tỷ lệ sống sót sử dụng để lập mơ hình chuỗi thời gian THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội đến kiện hay vòng đời kiện Chúng ta sử dụng phân tích tỷ lệ sống sót để trả lời câu hỏi: Tỉ lệ nghỉ việc nhân viên sau khoảng thời gian định 1.7.3 Phương trình sống sót Phương trình sống sót cung cấp thêm thông tin tỉ lệ nghỉ việc nhân viên theo thời gian dựa vào kiện nghỉ việc diễn khứ Dựa vào phương trình phân nhân đánh giá tỉ lệ nghỉ việc nhân viên dựa thời gian đưa giải pháp phù hợp 1.7.4 Hàm rủi ro Hàm rủi ro (hazard function) hay tỉ lệ rủi ro (hazard rate) h(t) xem xác suất kiện xảy tức thời thời điểm t kiện chưa xảy trước thời điểm t Hàm rủi ro biểu diễn sau: h(t) = lim ∆t→0 P(t ≤T

Ngày đăng: 21/10/2022, 17:54

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Một hồ sơ ứng viên mẫu trên mạng xã hội - Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)
Hình 2.1 Một hồ sơ ứng viên mẫu trên mạng xã hội (Trang 15)
Hình 2.2: Một kết quả thu thập được bằng “CVCrawler” KẾT LUẬN CHƯƠNG 2  - Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)
Hình 2.2 Một kết quả thu thập được bằng “CVCrawler” KẾT LUẬN CHƯƠNG 2 (Trang 17)
Hình 3.1: Dữ liệu mẫu của một số ứng viên - Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)
Hình 3.1 Dữ liệu mẫu của một số ứng viên (Trang 18)
Hình 3.3: Biểu diễn đồ họa của mơ hình đề xuất bằng cách sử dụng cơ chế chú ý trong việc xác định trọng số các trạng thái ẩn từ lớp  LSTM để có được thơng tin tiềm ẩn giữa các trải nghiệm công việc  - Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)
Hình 3.3 Biểu diễn đồ họa của mơ hình đề xuất bằng cách sử dụng cơ chế chú ý trong việc xác định trọng số các trạng thái ẩn từ lớp LSTM để có được thơng tin tiềm ẩn giữa các trải nghiệm công việc (Trang 21)
Hình 3.4: Biểu diễn nhúng từ của một số chức danh trong không gian hai chiều  - Ứng dụng kỹ thuật học máy để dự đoán khả năng chuyển việc của nhân viên trong ngành công nghệ thông tin (tt)
Hình 3.4 Biểu diễn nhúng từ của một số chức danh trong không gian hai chiều (Trang 22)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w