Xây dựng mô hình học sâu fgnn gợi ý thông tin tuyển dụng

75 39 0
Xây dựng mô hình học sâu fgnn gợi ý thông tin tuyển dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Xây dựng mơ hình học sâu FGNN gợi ý thông tin tuyển dụng LÊ VĂN SÂM samwle@gmail.com Ngành Công nghệ Thông tin Giảng viên hướng dẫn: PGS TS Phạm Văn Hải Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 5/2021 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Lê Văn Sâm Đề tài luận văn: Xây dựng mơ hình học sâu FGNN gợi ý thông tin tuyển dụng Chuyên ngành: Công nghệ Thông tin Mã số SV: CB190148 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/04/2021 với nội dung sau: Giản lược nội dung Chương luận văn - Tinh chỉnh, định dạng lược bớt nội dung Chương 2: Cơ sở lý thuyết luận văn Chỉnh sửa hầu hết nội dung Chương - Không sử dụng tham chiếu nhắc đến tên mơ hình tham khảo Bổ sung phần thiết kế sở liệu Chương luận văn - Bổ sung mô tả nội dung Chương 4, dịng 3, 4, trang 41 luận văn - Bổ sung lược đồ quan hệ tổng thể trang tin cung cấp đặc tả chung chức bảng quan hệ Mục 4.1.3, trang 43, 44 luận văn Bổ sung nội dung mơ tả việc tích hợp mơ hình FGNN vào ứng dụng trang tin tuyển dụng, q trình thực nghiệm thực tế mơ hình Chương luận văn - Bổ sung mơ tả nội dung Chương 5, dịng 2, 3, 4, 5, trang 48 luận văn - Mô tả việc thu thập liệu nhấp trang tin để xây dựng liệu tin tuyển dụng cho dự đoán tỷ lệ nhấp, chi tiết thực Mục 5.2 trang 53 luận văn - - Mơ tả chức tìm kiếm, lọc tin trang, đưa ví dụ, chi tiết thực Mục 5.2.1 trang 53, 54 luận văn Mô tả chức hiển thị chi tiết tin việc đưa gợi ý tin, đưa ví dụ mẫu, chi tiết thực Mục 5.2.2 trang 54, 55 luận văn Mô tả chức báo cáo thống kê, đưa ví dụ mẫu, chi tiết thực Mục 5.2.3 trang 56 luận văn Giản lược nội dung tài liệu tham khảo - Giản lược số lượng tài liệu tham khảo từ 165 tài liệu xuống 40 tài liệu - Giản lược từ 13 trang (từ trang 56 đến trang 69) xuống trang (từ trang 59 đến trang 61) Định dạng, chỉnh lại luận văn sau cập nhật nội dung chỉnh sửa Ngày 15 tháng 05 năm 2021 Giáo viên hướng dẫn Tác giả luận văn PGS.TS Phạm Văn Hải Lê Văn Sâm CHỦ TỊCH HỘI ĐỒNG TS Trần Việt Trung Mẫu 1c Lời cam đoan Tơi xin cam đoan đề tài “Xây dựng mơ hình học sâu FGNN gợi ý thông tin tuyển dụng” tơi tìm hiểu, nghiên cứu trình bày Kiến thức trình bày luận văn tổng hợp cá nhân, từ kiến thức thầy hướng dẫn tổng hợp, từ nguồn tài liệu tham khảo, từ mạng internet từ cá nhân khác Kết nghiên cứu luận văn đề xuất chưa cơng bố cơng trình Trong q trình làm luận văn, tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu Nếu sai, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, ngày 15 tháng 05 năm 2021 Học viên Lê Văn Sâm Lời cảm ơn Trong q trình nghiên cứu hồn thiện luận văn tốt nghiệp, nhận nhiều quan tâm, giúp đỡ từ q thầy cơ, gia đình bạn bè Trước tiên, xin chân thành cảm ơn thầy, cô viện Công nghệ thông tin Truyền thông - Trường Đại học Bách Khoa Hà Nội tận tình giảng dạy thời gian tơi học tập trường Tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS TS Phạm Văn Hải, thầy trực tiếp hướng dẫn, tận tình bảo tơi tìm hướng nghiên cứu, tiếp cận thực tế để tơi hồn thiện luận văn tốt nghiệp Cuối cùng, tơi xin cảm ơn gia đình bạn bè ln ủng hộ, giúp đỡ thời gian học tập, nghiên cứu thực luận văn tốt nghiệp Mặc dù cố gắng hồn thiện luận văn tốt nghiệp, chắn khơng tránh khỏi sai sót Vì vậy, tơi hoan ngênh chân thành cảm ơn ý kiến đóng góp q thầy bạn đọc Tóm tắt nội dung luận văn Các nghiên cứu gần gợi ý việc làm dựa học máy thường tập trung vào phân tích nội dung hồ sơ người lao động, hành vi người dùng hệ thống mô tả tin tuyển dụng Việc đưa gợi ý tin việc làm phù hợp phụ thuộc hồn tồn vào thơng tin Luận văn “Xây dựng mơ hình học sâu FGNN gợi ý thơng tin tuyển dụng” thực với mục đích giải vấn đề Mơ hình FGNN xây dựng với nhiệm vụ mơ hình hóa tương tác đặc trưng tin tuyển dụng, đưa dự đoán tỷ lệ nhấp, dựa vào để gợi ý tin có độ phù hợp cao với nhu cầu khả người dùng, việc gợi ý hồn tồn khơng u cầu thơng tin hồ sơ người dùng Tiếp đó, xây dựng trang tin tự động tổng hợp tin tuyển dụng, với hạt nhân mơ hình FGNN gợi ý tin, đồng thời cung cấp báo cáo thống kê tin việc làm Mơ hình FGNN xây dựng ngơn ngữ lập trình Python, sử dụng thư viện TensorFlow, cài đặt sử dụng dịch vụ Trang tin tuyển dụng xây dựng tảng ASP.NET Core, có chức tự động tổng hợp tin từ số trang tin việc làm uy tín, chức báo cáo thống kê chức gợi ý tin thông qua việc sử dụng kết gợi ý từ mơ hình FGNN Thực nghiệm mơ hình với hai liệu đánh giá Avazu Criteo, với hai phương pháp đánh giá AUC Logloss, mơ hình đề xuất FGNN cho thấy kết tốt so với mơ hình tiên tiến đề xuất gần LR, FM, AFM, DeepCross, NFM, DCN, xDeepFM Fi-GNN HỌC VIÊN Ký ghi rõ họ tên Lê Văn Sâm MỤC LỤC DANH MỤC THUẬT NGỮ viii DANH MỤC HÌNH ẢNH xi DANH MỤC BẢNG BIỂU xii CHƯƠNG GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Tính cấp thiết đề tài 1.3 Mục đích nghiên cứu 1.4 Đối tượng phạm vi nghiên cứu 1.5 Ý nghĩa khoa học thực tiễn 1.6 Nội dung luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 2.2 2.3 Cơ mạng nơ ron 2.1.1 Nơ ron thần kinh 2.1.2 Mạng nơ ron nhân tạo Đồ thị mạng nơ ron 2.2.1 Đồ thị mạng nơ ron 2.2.2 Các biến thể đồ thị mạng nơ ron 2.2.3 Các ứng dụng đồ thị mạng nơ ron 19 2.2.4 Một số vấn đề mở 28 Dự đoán CTR qua tương tác đặc trưng 29 2.3.1 Nhúng đặc trưng 29 2.3.2 Tương tác đặc trưng 29 2.3.3 Xác định hàm mát 30 2.4 Đồ thị mạng nơ ron cho dự đoán CTR 30 2.5 Tổng kết chương 31 CHƯƠNG MƠ HÌNH HỌC SÂU FGNN GỢI Ý TIN TUYỂN DỤNG 32 3.1 Tổng quan 32 3.2 Lớp nhúng 33 3.3 Lớp tự ý nhiều đầu 33 3.4 Lớp FGNN 34 3.4.1 Đồ thị đặc trưng 34 3.5 3.4.2 Mơ hình FGNN 34 3.4.3 Lớp tính điểm ý 37 3.4.4 Huấn luyện 37 Phân tích mơ hình 37 3.5.1 So sánh với mơ hình CTR trước 37 3.5.2 So sánh với mơ hình GNN trước 38 3.6 Mơ hình đề xuất FGNN gợi ý tin tuyển dụng 38 3.7 Tổng kết chương 41 CHƯƠNG ỨNG DỤNG MƠ HÌNH HỌC SÂU FGNN: CASE STUDY GỢI Ý TIN TRÊN TRANG TIN TUYỂN DỤNG 42 4.1 4.2 4.3 Kiến trúc hệ thống 42 4.1.1 Phân tích, đặc tả chức nghiệp vụ 42 4.1.2 Thiết kế hệ thống 42 4.1.3 Thiết kế sở liệu 44 Mô tả trang tổng hợp tin tuyển dụng 45 4.2.1 Trang chủ 45 4.2.2 Trang tìm việc 46 4.2.3 Trang thống kê 47 Tổng kết chương 48 CHƯƠNG THỰC NGHIỆM 49 5.1 5.2 5.3 Thực nghiệm liệu đánh giá Avazu Criteo 49 5.1.1 Cài đặt thử nghiệm 49 5.1.2 So sánh mơ hình 53 Tích hợp mơ hình học sâu FGNN vào trang tin tuyển dụng 54 5.2.1 Trang danh sách tin việc làm 54 5.2.2 Trang hiển thị chi tiết tin việc làm 55 5.2.3 Trang báo cáo thống kê 57 Tổng kết chương 57 CHƯƠNG KẾT LUẬN 58 6.1 Kết đạt 58 6.2 Định hướng phát triển 58 TÀI LIỆU THAM KHẢO 60 PHỤ LỤC 63 DANH MỤC THUẬT NGỮ TT Viết tắt Dạng đầy đủ Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo CMCN 4.0 Cách mạng công nghiệp 4.0 FGNN Feature Interactions with Tương tác tính qua đồ Graph Neural Network thị mạng nơ ron CTR Click-Through Rate Tỷ lệ nhấp FM Factorization Machine Máy hệ số hóa FFM Field-aware Machine PITF Pairwise Interaction Tensor Máy tenxơ tương tác cặp Factorization DNN Deep Neural Network Mạng nơ ron sâu NFM Neural Machine Máy hệ số hóa nơ ron 10 DCN Deep & Cross Network Mạng sâu & chéo 11 CIN Compressed Network Mạng tương tác nén 12 GNN Graph Neural Network Đồ thị mạng nơ ron 13 RNN Recurrent Neural Network Mạng nơ ron hồi quy 14 LSTM Long Short-Term Memory Bộ nhớ dài-ngắn hạn 15 GRU Gated Recurrent Unit Nút hồi quy cổng 16 DGP Dense Graph Propagation Lan truyền đồ thị dày đặc 17 HAN Heterogeneous-Graph Attention Network Mạng đồ thị ý không đồng 18 G2S Graph-to-Sequence Đồ thị thành chuỗi 19 r-GCN Relational Graph Mạng đồ thị quan hệ tích Convolutional Network chập 20 DCRNN Diffusion Convolutional Mạng nơ ron tích chập hồi Recurrent Neural Network quy khuếch tán 21 STGCN Spatio-Temporal Graph Đồ thị tích chập Khơng gianConvolutional Networks Thời gian 22 Seq2seq Sequence to Sequence Chuỗi thành chuỗi 23 CNN Convolutional Network Mạng nơ ron tích chập 24 S-RNN Structural Recurrent Neural Mạng nơ ron hồi quy có cấu Network trúc 25 ST-GCN Spatial-Temporal Graph Đồ thị tích chập Khơng gianConvolutional Network Thời gian* Factorization Máy hệ số hóa nhận biết trường Factorization Interaction Neural 26 GAT Graph Attention Networks Đồ thị mạng ý 27 GGNN Gated Graph Networks Đồ thị mạng nơ ron cổng 28 AGCN Adaptive Graph Đồ thị mạng tích chập thích Convolution Network ứng 29 GGP Graph Gaussian Processes Đồ thị quy trình Gaussian 30 DCNN Diffusion-Convolutional Neural Network Mạng nơ ron khuếch tán-hội tụ 31 DGCN Dual Graph Convolutional Đồ thị mạng nơ ron tích chập Network kép 32 PPMI Positive Pointwise Mutual Thông tin tương hỗ theo Information điểm dương 33 GCNN Geodesic Convolutional Mạng nơ ron tích chập trắc Neural Network địa 34 ACNN Anisotropic Convolutional Mạng nơ ron tích chập dị Neural Network hướng 35 SACNN Structure-Aware Convolutional Network 36 S-LSTM Sentence LSTM LSTM câu 37 JKN Jump Knowledge Network Mạng tri thức nhảy 38 VGAE Variational Graph Auto- Trình mã hóa tự động đồ thị Encoder biến thiên 39 ARGA Adversarially Regularized Trình mã hóa tự động đồ Graph Auto-encoder phân hóa đối nghịch 40 GAN Generative Network 41 OOKB Out-Of-Knowledge-Base Ngoài sở tri thức 42 KBC Knowledge Completion Base Hoàn thiện sở tri thức 43 VQA Visual Answearing Question 44 RoI Regions of Interest 45 NMT Neural Machine Translation Dịch máy thần kinh 46 DAG Directed Acyclic Graph 47 JMEE Jointly Multiple Extraction 48 ARM Abstract Representation 49 RL Reinforcement Learning Neural Neural Adversarial Mạng nơ ron tích chập nhận biết cấu trúc Mạng đối kháng tự sinh Trả lời câu hỏi trực quan Khu vực quan tâm Đồ thị Acyclic có hướng Events Khai thác nhiều kiện chung Meaning Trình bày ý nghĩa trừu tượng Học tăng cường GCPN Graph Convolutional Policy Đồ thị mạng sách tích Network chập 51 NP-hard (Nondeterministic Polynomial time)-hard 52 TSP Traveling Problem 53 MST Minimum Spanning Trees Bao trùm tối thiểu 54 QAP Quadric Problem Bài toán gán bậc hai 55 LINE Large-scale Information Mạng nhúng thông tin quy Network Embedding mô lớn 56 NLP Natural Processing 57 SaaS Software as a Service Phần mềm dịch vụ 58 GSNN Graph Search Network Đồ thị mạng nơ ron tìm kiếm 59 ML-ZSL Multi-Label Learning 60 SPG Superpoint Graph 50 Các tốn khó (thuật toán bất định thời gian đa thức) Salesman Bài toán nhân viên bán hàng di chuyển Assigment Language Neural Zero-Shot Xử lý ngôn ngữ tự nhiên Học Zero-Shot đa nhãn Đồ thị siêu điểm CHƯƠNG THỰC NGHIỆM Chương trình bày việc thực nghiệm: (1) đánh giá khoa học mơ hình FGNN xây dựng thơng qua hai liệu đánh giá Avazu Criteo; (2) đánh giá thực tiễn thông qua việc xây dựng ứng dụng trang tổng hợp tin việc làm tự động, ứng dụng mơ hình FGNN để gợi ý tin Các thực nghiệm trình bày chi tiết mục bên 5.1 Thực nghiệm liệu đánh giá Avazu Criteo 5.1.1 Cài đặt thử nghiệm 5.1.1.1 Bộ liệu Việc đánh giá mơ hình đề xuất FGNN thực hai liệu đánh giá Avazu [15] Criteo [16] Số liệu thống kê hai liệu Avazu Criteo trình bày bảng bên Bảng 5.1: Số liệu thống kê liệu đánh giá Avazu Criteo Bộ liệu Số mẫu Số trường Đặc trưng Avazu 40.428.967 23 1.544.488 Criteo 45.840.617 39 998.960 Avazu Bộ liệu Avazu [15] chứa liệu hành vi nhấp chuột qua 10 ngày với 40 triệu ghi, xếp theo thứ tự thời gian Bộ liệu có 23 trường đặc trưng gồm thông tin quảng cáo, người dùng thiết bị, tiêu biểu như: site_id, app_id, app_category, device_id… Các trường C1, C14-C21 ẩn danh Bảng 5.2: Mô tả trường liệu Avazu Chỉ mục Tên Mô tả id Mã định danh quảng cáo click 0/1 ứng với nhấp không nhấp Hour Định dạng yyMMddHH C1 Biến phân loại ẩn danh banner_pos Vị trí banner site_id Mã định danh trang site_domain Tên miền trang site_category Danh mục trang app_id Mã định danh app app_domain Tên miền ứng dụng 10 app_category Danh mục ứng dụng 11 device_id Định danh thiết bị 49 12 device_ip IP thiết bị 13 device_model Mẫu thiết bị 14 device_type Kiểu thiết bị 15 device_conn_type Kiểu kết nối thiết bị 16-23 C14-C21 Biến phân loại ẩn danh Criteo Đây liệu nhấp chuột khoảng thời gian ngày với gần 46 triệu ghi xếp theo thứ tự thời gian Trong có 39 trường đặc trưng với 26 trường đặc trưng phân loại 13 trường đặc trưng số Các mẫu nhấp chuột không nhấp chuột lấy theo tỷ lệ khác để giảm kích thước liệu Bảng 5.3: Mô tả trường liệu Criteo Chỉ mục Tên Mô tả Label 0/1 ứng với nhấp không nhấp 1-13 I1-I13 Đặc trưng số tự nhiên, hầu hết biến đếm 14-39 C1-C26 Đặc trưng phân loại giá trị băm thành 32-bit cho mục dích ẩn danh 5.1.1.2 Xử lý liệu Các mẫu hai liệu chia ngẫu nhiên theo tỷ lệ 8:1:1 để sử dụng trình huấn luyện, xác thực kiểm tra Với đặc trưng phân loại, gán nhãn đặc trưng không thường xuyên cho trường liệu xuất lần với liệu Avazu 10 lần với liệu Criteo, sau loại đặc trưng khơng thường xun Với đặc trưng số, chuẩn hóa theo cơng thức 𝑥 = 𝑙𝑜𝑔2 (𝑥), 𝑛ế𝑢 𝑥 > PT 5.1 giải pháp người chiến thắng Criteo Contest [40] đề xuất Lưu ý, với liệu khơng có đặc trưng dạng số (như Avazu) khơng cần thiết phải chuẩn hóa giá trị đặc trưng 5.1.1.3 Đánh giá số liệu Để đánh giá hiệu suất mơ hình, luận văn sử dụng hai phương pháp đo lường AUC Logloss, trình bày sau: AUC [17] viết tắt “Area under the ROC Curve”, tức AUC đo toàn diện tích hai chiều bên đường cong ROC, tính tích phân từ (0,0) đến (1,1) 50 Hình 5.1: AUC [17] AUC cung cấp thước đo tổng hợp hiệu suất tất ngưỡng phân loại có, giá trị AUC cao tương đương với việc có hiệu tốt Có cách giải thích AUC xác suất mà mơ hình xếp mẫu dương ngẫu nhiên cao mẫu âm ngẫu nhiên Ví dụ Hình 5.2 bên dưới, mẫu xếp theo thứ tự tăng dần từ trái qua phải dự đốn hồi quy logistic: Hình 5.2: Dự đoán theo thứ tự tăng dần với hồi quy logistic [17] AUC đại diện cho xác suất mà mẫu dương (xanh) đặt bên phải mẫu âm (đỏ) AUC có giá trị từ đến Một mơ hình dự đốn sai 100% có AUC = 0.0; mơ hình có dự đốn xác 100% có AUC = 1.0 Sử dụng AUC thường hai ngun nhân chính: - AUC kiểu có quy mô bất biến, đo lường mức độ xếp hạng dự báo thay tính giá trị tuyệt đối - AUC kiểu có ngưỡng phân loại bất biến, đo lường chất lượng dự đốn khơng phụ thuộc vào việc lựa chọn ngưỡng phân loại Tuy nhiên, hai lý nêu hạn chế tính hữu dụng AUC số trường hợp định: - Quy mô bất biến lúc sử dụng Ví dụ trường hợp yêu cầu lấy giá trị xác suất AUC cung cấp - Ngưỡng phân loại bất biến khơng phải lúc cần thiết Khi có chênh lệch lớn âm tính giả dương tính giả, yêu cầu đặt phải giảm thiểu lỗi phân loại Ví dụ, phân loại thư rác với ưu tiên giảm âm tính giả, nhiên AUC không hữu dụng trường hợp Logloss Được định nghĩa PT 3.17, hàm mát biết đến cross-entropy nhị phân Nó đo khoảng cách điểm số dự đốn nhãn thực, giá trị logloss thấp cho thấy hiệu tốt Ta có y𝑖 đại diện cho lớp thực tế 𝑙𝑜𝑔(𝑦̂𝑖 ) xác xuất lớp 51 Hình 5.3: Đồ thị hàm chi phí [18] Trong Hình 5.3, đường màu đỏ thể lớp thực tế giá trị 1, xác suất dự đoán tiệm cận 1, mát nhỏ; xác suất tiệm cận 0, mát tiến tới vô Đường màu đen thể lớp thực tế giá trị 0, xác suất tiệm cận 0, mát nhỏ; xác xuất tiệm cận 1, mát tiến tới vô 5.1.1.4 Thực Mô hình FGNN xây dựng ngơn ngữ Python sử dụng thư viện TensorFlow Áp dụng chiến lược tìm kiếm lưới để xác định thông số tối ưu Kích thước véc tơ nhúng trường 16 kích thước batch 1024 Cấu hình tham số cho hai liệu Avazu Criteo giống (và giống cấu hình với dư liệu tin tuyển dụng, khác số trường đặc trưng tham số đầu vào) Bảng 5.4: Các tham số cấu hình huấn luyện Avazu Criteo STT Tên Avazu Criteo batch_norm 0 batch_norm_decay Không sử dụng Không sử dụng batch_size 1024 1024 block_shape [64, 64, 64] [64, 64, 64] Blocks 2 Data Avazu Criteo data_path Tùy chọn Tùy chọn deep_layers None None dropout_keep_prob [1, 1, 0.5] [1, 1, 0.5] 10 embedding_size 16 16 11 Epoch 3 12 field_size 23 39 13 greater_is_better false false 14 has_residual true true 15 heads 2 16 is_save true true 52 17 l2_reg 0.0 0.0 18 learning_rate 0.001 0.001 19 loss_type logloss logloss 20 model_type FGNN FGNN 21 optimizer_type adam adam 22 random_seed 2020 2020 23 run_times 1 24 save_path Tùy chọn Tùy chọn 25 verbose 1 Tất thử nghiệm thực máy tính có CPU AMD Ryzen 5900X, RAM 32 GB GPU RTX 3080 10 GB Ngoài ra, để kết so sánh tốt hơn, với mơ hình, hai liệu: Avazu Criteo thực thi mười lần chạy lấy kết cuối giá trị trung bình 5.1.2 So sánh mơ hình Phần mơ tả tóm tắt mơ hình đại diện sử dụng thực nghiệm so sánh thực nghiệm mơ hình đại diện mơ hình đề xuất FGNN, cho thấy kết mơ hình đề xuất tốt mơ hình tiên tiến đề xuất gần (như liệt kê bên dưới), chi tiết Bảng 5.5 bên LR [19] mơ hình CTR đơn giản, cho phép mơ hình hóa tương tác bậc dựa kết hợp tuyến tính đặc trưng thơ rời rạc FM [7] nhúng đặc trưng vào tập vectơ dày đặc mơ hình hóa tương tác đặc trưng bậc-hai từ tích tập véc tơ AFM [20] mở rộng FM, học trọng số tương tác đặc trưng bậc-hai thông qua sử dụng mạng chủ ý DeepCross [21] thêm kết nối thặng dư DNN để học tương tác đặc trưng bậc-cao NFM [10] sử dụng lớp Bi-Interaction (lớp tổng hợp tương tác song tuyến tính) để gộp tương tác đặc trưng bậc hai vào vectơ, sau đưa vào DNN để lập mơ hình hóa tương tác bậc-cao DCN [13] đề xuất mạng chéo để thực tương tác đặc trưng bậc cao cách rõ ràng xDeepFM [14] mô hình hóa tương tác tính bậc-cao theo vector cách sử dụng mạng nén tương tác (CIN) Fi-GNN [22] tận dụng ưu điểm đồ thị mạng nơ ron để mơ hình hóa tương tác bậc cao 53 Bảng 5.5: Bảng so sánh kết thực nghiệm mơ hình Model Avazu AUC Logloss Criteo AUC Logloss LR [19] 0.7494 0.3996 0.7826 0.4682 FM [7] 0.7638 0.3887 0.7842 0.4687 AFM [20] 0.7650 0.3885 0.7944 0.4572 DeepCross [21] 0.7576 0.3921 0.8015 0.4501 NFM [10] DCN [13] 0.7640 0.3895 0.7963 0.4550 0.7600 0.3899 0.7913 0.4579 xDeepFM [14] Fi-GNN [22] FGNN [đề xuất] 0.7690 0.3860 0.8015 0.4505 0.7694 0.3856 0.8038 0.4472 0.7744 0.3839 0.8056 0.4457 5.2 Tích hợp mơ hình học sâu FGNN vào trang tin tuyển dụng Như trình bày Mục 3.6 Chương luận văn, liệu tin tuyển dụng xây dựng cho mơ hình học sâu FGNN có 23-trường liệu bao gồm: 22trường đặc trưng nhãn liên quan 𝑦 ∈ {0, 1} cho biết hành vi nhấp chuột người dùng (1 nhấp không nhấp) Bộ liệu xây dựng dựa hành vi nhấp chuột người dùng hệ thống xem tin việc làm hay nội dung trang tin tuyển dụng Mỗi người dùng nhấp chuột, hệ thống truy vấn thông tin tin việc làm nhấp chuột vào, đồng thời hệ thống thu thập liệu ẩn danh máy trạm người dùng để xây dựng liệu phục vục cho mục đích gợi ý tin Các thông tin thu thập bao gồm: trường liệu ẩn danh: Label, Id, DeviceId, DeviceIP, DeviceModel, DeviceType 17 trường đặc tả tin tuyển dụng, chi tiết trường liệu trình bày Bảng 3.1 Mơ hình FGNN đặt lịch chạy định kỳ cập nhật kết huấn luyện vào sở liệu Khi người dùng nhấp chuột xem chi tiết tin việc làm, hệ thống đồng thời thu thập thông tin ẩn danh người dùng thực việc hiển thị tin tuyển dụng 10 kết gợi ý phù hợp với người dùng tin xem Lưu ý rằng, thời gian quy mơ thử nghiệm ứng dụng cịn hẹp, nên ban đầu độ xác gợi ý qua mơ hình FGNN chưa cao Để giải vấn đề này, hệ thống phát triển cấu hình để gợi ý tin thông qua tiêu đề, ngành nghề, vị trí kỹ việc làm 5.2.1 Trang danh sách tin việc làm Sau chọn điều kiện tìm kiếm tin việc làm trang chủ, danh sách tin việc làm phù hợp tiêu chí lựa chọn hiển thị 54 Các tiêu chí lọc tin, tìm kiếm gồm có: Từ khóa: Có thể sử dụng để tìm kiếm theo chun ngành (ngơn ngữ lập trình: C#, Python…), tìm kiếm theo cấp bậc (nhân viên, giám sát, quản lý…), tìm kiếm theo tên cơng ty… - Ngành nghề: Tìm kiếm theo ngành nghê việc làm: IT Phần mềm/CNTT Phần mềm, Kế toán/Kiểm toán, Kinh doanh/Bán hang… - Địa điểm làm việc: Tìm kiếm theo địa điểm làm việc: Hà Nội, TP Hồ Chí Minh, Đà Nẵng… Các tiêu chí lọc tin, tìm kiếm nâng cao: Mức lương, Kinh nghiệm làm việc, Loại hợp đồng lao động… - Ngồi ra, trang cịn nhiều chức hỗ trợ khác: thay đổi khung nhìn danh sách, xếp tin theo tiêu chí: nhất, cũ nhất, lương cao-thấp… Hình 5.4: Trang danh sách tin việc làm 5.2.2 Trang hiển thị chi tiết tin việc làm Mỗi người dùng click chuột để xem tin việc làm, website tự động điều hướng tới Trang hiển thị chi tiết tin việc làm 55 Mô tả tổng quan: Trang gồm có khung riêng biệt: - - Khung bên trái: Chứa thông tin chi tiết tin tuyển dụng xem, bao gồm thông tin sau: (1) Tiêu đề tin việc làm (2) Công ty đăng tuyển (3) Địa điểm làm việc (4) Ngày cập nhật tin (5) Ngày hết hạn (6) Ngành nghề (7) Mức lương (8) Kinh nghiệm (9) Cấp bậc (10) Phúc lợi (11) Mô tả chi tiết công việc (12) u cầu chi tiết cơng việc (13) Ngồi cịn số thơng tin khác như: Thời gian hết hạn nộp hồ sơ, Thông tin giới thiệu công ty đăng tuyển… Khung bên phải: Hiển thị 10 tin gợi ý cho người dùng (số lượng tin gợi cấu hình được) Các tin gợi ý tổng hợp qua mơ hình FGNN liệu tin tuyển dụng hệ thống thu thập Hình 5.5: Trang chi tiết tin việc làm với gợi ý tin đề xuất 56 5.2.3 Trang báo cáo thống kê Một số biểu đồ báo cáo thống kê trích xuất từ trang tin thể Hình 5.6 Hình 5.7 bên Lưu ý: mẫu báo cáo thiết kế động theo nhiều tiêu chí, linh hoạt thiết kế thêm mẫu thay đổi mẫu theo yêu cầu cụ thể Hình 5.6: Biểu đồ vị trí tuyển dụng tháng Hình 5.7: Biểu đồ tiêu tuyển dụng tháng 5.3 Tổng kết chương Chương trình bày cách thức thực nghiệm mơ hình FGNN với hai liệu đánh giá Avazu Criteo: thông tin hai liệu, tiền xử lý thông tin trước huấn luyện, phương pháp đánh giá so sánh kết thực nghiệm với mơ hình đề xuất gần Thực nghiệm với hai liệu Avazu Criteo cho thấy mơ hình đề xuất có kết tốt mơ hình tiên tiến gần Chương trình bày việc xây dựng liệu tin tuyển dụng, sử dụng cho việc huấn luyện mơ hình FGNN miền toán tuyển dụng 57 CHƯƠNG KẾT LUẬN 6.1 Kết đạt Luận văn đề xt mơ hình học sâu sử dụng tương tác đặc trưng đồ thị mạng nơ ron để đưa dự đốn CTR, mơ hình đặt tên FGNN, thông qua việc biểu diễn đặc trưng cấu trúc đồ thị, chuyển chúng thành nút đồ thị tiến hành mơ hình hóa tương tác Trong mơ hình CTR trước thường coi đặc trưng đa trường kết nối khơng cấu trúc, mơ hình đề xuất biểu diễn đặc trưng đa trường đồ thị: nút tương ứng với trường đặc trưng, nút tương tác thơng qua cạnh Nhiệm vụ mơ hình hóa tương tác đặc trưng chuyển đổi thành mơ hình hóa tương tác nút đồ thị Mơ hình đề xuất cho phép mơ hình hóa tương tác phức tạp theo cách linh hoạt rõ ràng Thực nghiệm với hai liệu đánh giá Avazu [15] Criteo [16], với hai phương pháp đánh giá AUC [17] Logloss [18], cho thấy kết mơ hình đề xuất tốt mơ hình tiên tiến đề xuất gần LR [19], FM [7], AFM [20], DeepCross [21], NFM [10], DCN [13], xDeepFM [14] Fi-GNN [22] So sánh kết thực nghiệm trình bày Bảng 5.5 Tiếp đó, xây dựng website tự động tổng hợp tin tuyển dụng, với hạt nhân mơ hình đề xuất FGNN để gợi ý tin đồng thời cung cấp báo cáo thống kê tin tuyển dụng cho người dùng Chức tổng hợp tin tuyển dụng tự động giúp người lao động có nhiều hội việc làm hơn, lựa chọn việc làm thuận tiện Chức gợi ý tin tuyển dụng giúp người dùng dễ dàng tìm tin phù hợp với nguyện vọng khả Chức báo cáo thống kê cho phép theo dõi xu hướng việc làm thị trường, giúp cá nhân tổ chức đưa định chiến lược cho nhu cầu tìm việc tuyển dụng lao động Mơ hình FGNN xây dựng ngơn ngữ lập trình Python sử dụng thư viện Tensorflow, cài đặt sử dụng dịch vụ Trang tổng hợp tin tuyển dụng xây dựng tảng ASP.NET Core, có chức tự động tổng hợp tin tức tuyển dụng từ số trang tin việc làm, chức báo cáo thống kê với tin tổng hợp chức gợi ý tin tuyển dụng thông qua việc sử dụng dịch vụ gợi ý từ mơ hình FGNN Thực nghiệm mơ hình với hai liệu đánh giá Avazu [15] Criteo [16], với hai phương pháp đánh giá AUC [17] Logloss [18], cho thấy kết mơ hình đề xuất tốt mơ hình tiên tiến đề xuất gần LR [19], FM [7], AFM [20], DeepCross [21], NFM [10], DCN [13], xDeepFM [14] Fi-GNN [22] Kết cho thấy, mơ hình FGNN đề xuất có tính khả dụng cao, sử dụng nhiều tảng khác 6.2 Định hướng phát triển Về ý nghĩa khoa học, luận văn đề xuất mơ hình học sâu FGNN, cho phép mơ hình hóa tương tác phức tạp trường tính cấu trúc đồ thị theo cách linh hoạt rõ ràng Thực nghiệm mơ hình với hai liệu đánh giá Avazu Criteo cho thấy kết tốt mơ hình tiên tiến đề 58 xuất gần Nhìn chung, mơ hình FGNN sử dụng để làm tham chiếu cho nghiên cứu theo hướng việc cải tiến để đưa dự đoán CTR tốt hơn, việc áp dụng vào nhiều miền toán Về ý nghĩa thực tiễn, website xây dựng nâng cấp thơng qua việc sử dụng cơng nghệ trí tuệ nhân tạo cho phép trích hút, đối sánh chuẩn hóa liệu tự động xác Ngồi kiến trúc mã nguồn website xây dựng theo mẫu ASP.NET Core Microsoft Azure, tập trung vào kiến trúc microservices/containers nên dùng làm mẫu cho sản phẩm phát triển dựa tảng ASP.NET Core Website triển khai phần mềm dịch vụ (SaaS) môi trường đám mây Microsoft Azure cách dễ dàng thuận tiện 59 TÀI LIỆU THAM KHẢO [1] Bộ Khoa học Cơng nghệ, “Trí tuệ Nhân tạo mũi nhọn cho Cách mạng công nghiệp 4.0 Việt Nam”, 2019 [2] Krishnaram Kenthapadi, et al, "Personalized Job Recommendation System at LinkedIn: Practical Challenges and Lessons Learned", ACM Conference on Recommender Systems, DOI:10.1145/3109859.3109921, 2017 [3] Harsh Jain, et al, “Job Recommendation System based on Machine Learning and Data Mining Techniques using RESTful API and Android IDE”, DOI: 10.1109/CONFLUENCE.2019.8776964, 2019 [4] Ioannis Paparrizos, et al, "Machine Learned Job Recommendation", Proceedings of the 2011 ACM Conference on Recommender Systems, DOI: 10.1145/2043932.2043994, 2011 [5] Amber Nigam, et al, "Job Recommendation: Leveraging Progression of Job Applications", arXiv:1905.13136v2, 2020 [6] Walid Shalaby, et al, "Help Me Find a Job: A Graph-based Approach for Job Recommendation at Scale", 2017 IEEE International Conference on Big Data (Big Data), DOI:10.1109/BigData.2017.8258088, 2017 [7] Steffen Rendle, "Factorization Machines", In 2010 IEEE International Conference on Data Mining, 995–1000, 2010 [8] Yuchin Juan, et al, “Field-aware Factorization Machines for CTR Prediction”, The 10th ACM Conference on Recommender Systems, pp 43– 50, 2016 [9] Steffen Rendle, et al, "Pairwise Interaction Tensor Factorization for Personalized Tag Recommendation", In Proceedings of the third ACM international conference on Web search and data mining, pp 81-90, 2010 [10] Xiangnan H, et al, "Neural Factorization Machines for Sparse Predictive Analytics" In Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval 355–364, 2017 [11] Heng-Tze Cheng, et al, "Wide & Deep Learning for Recommender Systems” The 1st workshop on deep learning for recommender systems ACM, 7–10, 2016 [12] Huifeng Guo, et al, "DeepFM: A Factorization-Machine based Neural Network for CTR Prediction" In Proceedings of the 26th International Joint Conference on Artificial Intelligence AAAI Press, 1725–1731, 2017 [13] Ruoxi Wang, et al, "Deep & Cross Network for Ad Click Predictions" In Proceedings of the ADKDD’17 ACM, 12, 2017 [14] Jianxun Lian, et al, "xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems" The 24th ACM SIGKDD 60 International Conference on Knowledge Discovery & Data Mining, pp 1754– 1763, 2018 [15] Avazu, Click-Through Rate Prediction, https://www.kaggle.com/c/avazuctr-prediction, 2014 [16] Criteo, Display Advertising Challenge, https://www.kaggle.com/c/criteodisplay-ad-challenge, 2014 [17] AUC: Area Under the ROC Curve, Google Machine Learning Crash Course, https://developers.google.com/machine-learning/crashcourse/classification/ roc-and-auc [18] LogLoss – The cost function used in Logistic Regression, Analytics Vidhya, https://www.analyticsvidhya.com/blog/2020/11/binary-cross-entropy-akalog-loss-the-cost-function-used-in-logistic-regression [19] Matthew Richardson, et al, "Predicting Clicks: Estimating the ClickThrough Rate for New Ads", In Proceedings of the 16th International Conference on World Wide Web (WWW), pp 521–530, 2007 [20] Jun Xiao, et al, "Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks" The 26th International Joint Conference on Artificial Intelligence, pp 3119–3125, arXiv:1708.04617, 2017 [21] Ying Shan, et al, "Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features" The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 255–262, 2016 [22] Zekun Li, et al, "Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction", The 28th ACM International Conference on Information and Knowledge Management, pp 539-548, arXiv:1910.05552, 2019 [23] Laurene Fausett, “Fundamentals of Neural Networks: Architectures, Algorithms, and Applications”, Prentice-Hall, Inc., ISBN:978-0-13334186-7, 1994 [24] Jie Zhou, et al, "Graph Neural Networks: A Review of Methods and Applications", arXiv:1812.08434, 2018 [25] Franco Scarselli, et al, “The Graph Neural Network Model”, IEEE Transactions on Neural Networks, vol 20 (1), pp 61–80, DOI: 10.1109/TNN.2008.2005605, 2009 [26] Thomas N Kipf, et al, “Semi-Supervised Classification with Graph Convolutional Networks”, ICLR 2017, 2017 [27] Weinan Zhang, et al, "Deep Learning over Multi-field Categorical Data: A Case Study on User Response Prediction", European Conference on Information Retrieval, pp 45-57, arXiv:1601.02376, 2016 61 [28] Yanru Qu, et al, "Product-based Neural NetworksProduct-based Neural Networks for User Response Prediction", In IEEE 16th International Conference on Data Mining, DOI: 10.1109/ICDM.2016.0151, 2016 [29] Tomas Mikolov, et al, "Distributed Representations of Words and Phrases and their Compositionality", The 26th International Conference on Neural Information Processing Systems, vol 2, pp 3111-3119, arXiv:1310.4546, 2013 [30] Bryan Perozzi, et al, "DeepWalk: Online Learning of Social Representations", The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 701-710, DOI: 10.1145/2623330.2623732, 2014 [31] Yujia Li, et al, “Gated Graph Sequence Neural Networks”, ICLR 2016, arXiv:1511.05493, 2017 [32] William L Hamilton, et al, “Inductive Representation Learning on Large Graphs”, NIPS 2017, pp 1024–1034, 2017 [33] Petar Veličković, et al, “Graph Attention Networks”, International Conference on Learning Representations, arXiv:1710.10903, 2018 [34] Zonghan Wu, et al, "A Comprehensive Survey on Graph Neural Networks", IEEE Transactions on Neural Networks and Learning Systems, vol 32(1), pp 4-24, DOI: 10.1109/TNNLS.2020.2978386, 2021 [35] Yanru Qu, et al, "Product-Based Neural Networks for User Response Prediction over Multi-Field Categorical Data", ACM Transactions on Information Systems, vol 37(1), DOI: 10.1145/3233770, 2018 [36] Ashish Vaswani, et al, “Attention Is All You Need”, In 31st Conference on Neural Information Processing Systems, pp 5998–6008, arXiv:1706.03762, 2017 [37] Zeyu Cui, et al, "Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks", The World Wide Web Conference, pp 307-317, DOI: 10.1145/3308558.3313444, 2019 [38] Weiping Song, et al, "AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks", DOI: 10.1145/3357384.3357925, 2019 [39] Geoffre Hinton, et al, Lecture 6.5-rmsprop: Divide the Gradient by a Running Average of its Recent Magnitude COURSERA: Neural Networks for Machine Learning 4, 2, 26–31, 2012 [40] Approach for Display Advertising Challenge, Criteo Contest 2014, https://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf 62 PHỤ LỤC A1 Mã nguồn Mã nguồn chương trình tác giả cập nhật trang GtHub cá nhân, đường dẫn truy cập sau: https://github.com/samwle/LVTN Mô hình FGNN chạy trả kết console từ main.py Hình 7.1: Mã nguồn mơ hình FGNN Do mơ hình ban đầu phát triển TensorFlow 1.5, Python 2.7, CUDA cuDNN 7, nhiên sau nâng cấp để sử dụng GPU RTX 3080, thư viện cũ không hỗ trợ nên mã nguồn chương trình chỉnh sửa để sử dụng thư viện TensorFlow 2.4 (chạy TensorFlow 1.x TensorFlow 2.x) Nên soạn thảo có lỗi khơng tìm thấy thư viện ảnh bên Hình 7.2: Sử dụng thư viện TensorFlow 1.x TensorFlow 2.x 63 ... thơng tin Luận văn ? ?Xây dựng mơ hình học sâu FGNN gợi ý thông tin tuyển dụng? ?? thực với mục đích giải vấn đề Mơ hình FGNN xây dựng với nhiệm vụ mơ hình hóa tương tác đặc trưng tin tuyển dụng, ... đưa gợi ý việc làm Luận văn ? ?Xây dựng mơ hình học sâu FGNN gợi ý thơng tin tuyển dụng? ?? thực với mục đích giải vấn đề Mơ hình học sâu FGNN xây dựng với nhiệm vụ mơ hình hóa tương tác đặc trưng tin. .. 38 3.6 Mơ hình đề xuất FGNN gợi ý tin tuyển dụng 38 3.7 Tổng kết chương 41 CHƯƠNG ỨNG DỤNG MÔ HÌNH HỌC SÂU FGNN: CASE STUDY GỢI Ý TIN TRÊN TRANG TIN TUYỂN DỤNG 42

Ngày đăng: 07/12/2021, 23:26

Mục lục

    TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan