Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 97 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
97
Dung lượng
2,76 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRẦN VĂN NGHIỆP SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 03 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRẦN VĂN NGHIỆP SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS TRẦN ĐỨC KHÁNH TP HỒ CHÍ MINH, tháng 03 năm 2016 ii CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS TRẦN ĐỨC KHÁNH (Ghi rõ họ, tên, học hàm, học vị chử ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 20 tháng 03 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) Họ tên TT Chức danh Hội đồng PGS.TSKH Nguyễn Xuân Huy Chủ tịch PGS.TS Vũ Đức Lung Phản biện TS Hồ Đắc Nghĩa Phản biện TS Cao Tùng Anh Ủy viên TS Vũ Thanh Hiền Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV iii TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng 08 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN VĂN NGHIỆP Giới tính: Nam Ngày, tháng, năm sinh: 15/05/1987 Nơi sinh: Cà Mau Chuyên ngành: Công nghệ thông tin MSHV: 1441860018 I- Tên đề tài: “SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG” II- Nhiệm vụ nội dung: - Tìm hiểu học máy thống kê, quy trình khai thác liệu, phân tích thống kê - Xây dựng mô hình dự đoán mức lương quảng cáo tuyển dụng ứng dụng phương pháp phân tích hồi quy - Đánh giá mô hình dự đoán ứng dụng phương pháp đánh giá mô hình III- Ngày giao nhiệm vụ: 20/08/2015 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: TS Trần Đức Khánh CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS TRẦN ĐỨC KHÁNH KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) iv LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng hướng dẫn khoa học Thầy TS Trần Đức Khánh Các nội dung nghiên cứu, kết đề tài trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận xin hoàn toàn chịu trách nhiệm nội dung luận văn Trường Đại Học Công Nghệ TP.HCM không liên quan đến vi phạm tác quyền, quyền gây trình thực Học viên thực luận văn TRẦN VĂN NGHIỆP v LỜI CÁM ƠN Trên thực tế thành công mà không gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập trường đến nay, em nhận nhiều quan tâm, giúp đỡ quý Thầy Cô, gia đình bạn bè Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Công Nghệ Thông Tin – Trường Đại Học Công Nghệ TP.HCM với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Và đặc biệt, học kỳ Nếu lời hướng dẫn, dạy bảo thầy cô em nghĩ luận văn em khó hoàn thiện Bài luận văn thực khoảng thời gian tháng Bước đầu em hạn chế nhiều bỡ ngỡ Do vậy, em gặp nhiều khó khăn giai đoạn đầu làm luận văn Nhưng với dìu dắt hướng dẫn tận tình thầy TS TRẦN ĐỨC KHÁNH em dần làm quen với việc nghiên cứu hoàn thiện luận văn Em xin gởi lời cảm ơn chân thành tri ân sâu sắc thầy cô Trường Đại Học Công Nghệ TP.HCM, đặc biệt thầy cô Khoa Công Nghệ Thông Tin trường tạo điều kiện cho em để em hoàn thành tốt luận văn Và em xin chân thành cám ơn bạn học khóa nhiệt tình đóng góp ý kiến để em hoàn thành tốt luận văn em Trong trình làm luận văn, khó tránh khỏi sai sót, mong quý Thầy, Cô bỏ qua Đồng thời trình độ lý luận kinh nghiệm thực tiễn hạn chế nên luận văn tránh khỏi thiếu sót, em mong nhận ý kiến đóng góp Thầy, Cô để em học thêm nhiều kinh nghiệm để tiếp tục hoàn thành tốt nghiên cứu tới Em xin chân thành cảm ơn! TRẦN VĂN NGHIỆP vi TÓM TẮT Phân tích hồi quy phương pháp thống kê nhằm tìm mối liên hệ biến phụ thuộc (thường ký hiệu Y) loạt biến đổi khác (được biết đến biến độc lập) Mối liên hệ mô tả hình thức phương trình đường thẳng (phương trình hồi quy) dựa đặc trưng liệu cần phân tích Phân tích hồi quy thường sử dụng để xác định có yếu tố cụ thể giá mặt hàng, lãi suất, ngành công nghiệp, ngành nghề đặc biệt ảnh hưởng đến biến động lương công việc quảng cáo tuyển dụng Trong phạm vi đề tài ứng dụng phương pháp hồi quy để dự đoán mức lương công việc quảng cáo tuyển dụng Nỗ lực tìm mối liên hệ đặc trưng ảnh hưởng đến mức lương công việc như: nhóm công việc, loại công việc, loại hợp đồng, địa điểm làm việc… Từ đưa mô hình dự đoán tối ưu áp dụng phương pháp phân tích hồi quy đơn giản, hồi quy đa biến, phân tích phương sai, phân tích thành phần phương pháp đánh giá mô hình dựa liệu quảng cáo tuyển dụng (https://www.kaggle.com/c/job-salary-prediction/data) cung cấp Kaggle vii ABSTRACT Regression is a statistical measure that attempts to determine the strength of the relationship between one dependent variable (usually denoted by Y) and a series of other changing variables (known as independent variables) This relationship is typically in the form of a straight line (linear regression) that best approximates all the individual data points Regression is often used to determine how much specific factors such as the price of a commodity, interest rates, particular industries or sectors influence the price movement of an asset On this thesis, I am using regression for predicting the salary of the job on job advertisement Try to find the relationship between features that impacted to the job salary such as: Job Category, Contract Time, Contract Type, Location, and so on Base on that points we generate a model that help employer or job seeker can forecast the rank salary of the job by applying simple linear regression, multiple regression, variables analysis, model evaluation on the Job Advertisement is provived by Kaggle (https://www.kaggle.com/c/job-salary-prediction/data) viii MỤC LỤC LỜI CAM ĐOAN iv LỜI CÁM ƠN .v TÓM TẮT vi ABSTRACT vii DANH MỤC CÁC TỪ VIẾT TẮT xi DANH MỤC CÁC BẢNG xii DANH MỤC HÌNH ẢNH xiii CHƯƠNG 1: GIỚI THIỆU 1.1 Lý chọn đề tài .1 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu .2 1.4 Tổng quan nghiên cứu .2 1.5 Bố cục luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mô hình khai thác liệu CRISP-DM .5 2.1.1 Tìm hiểu nghiệp vụ 2.1.2 Tìm hiểu liệu 2.1.3 Chuẩn bị liệu 2.1.4 Mô hình hóa .8 2.1.5 Đánh giá .8 2.1.6 Triển khai 2.2 Hồi quy tuyến tính đơn .8 2.2.1 Phương trình hồi quy tuyến tính đơn 2.2.2 Khoảng tin cậy kiểm định giả thuyết hồi quy đơn .9 2.2.3 Kiểm định tham số hồi quy tổng thể ( ) 10 2.2.4 Phân tích phương sai hồi quy 10 2.2.5 Dự báo phương pháp hồi quy tuyến tính đơn 12 2.3 Hồi quy tuyến tính đa biến 12 ix 2.3.1 Mô hình hồi quy .12 2.3.2 Phương trình hồi quy 12 2.3.3 Phân tích phương sai hồi quy 13 2.3.4 Ước lượng khoảng tin cậy kiểm định giả thuyết hồi quy đa biến 14 2.4 Phương pháp đánh giá độ xác mô hình 14 2.4.1 Phương pháp chia ngẩu nhiên 14 2.4.2 Kiểm tra chéo K-Fold .15 2.4.3 Kiểm tra chéo Leave-one-out 16 2.5 Tổng quan công cụ R 16 2.5.1 Giới thiệu R 16 2.5.2 Sử dụng R 18 2.5.3 Sử dụng RStudio 19 2.5.4 Một số lệnh R 20 CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH HỒI QUY DỰ ĐOÁN MỨC LƯƠNG 22 3.1 Tìm hiểu liệu 22 3.2 Chuẩn bị liệu 26 3.3 Mô hình hóa 35 3.3.1 Biến độc lập Biến phụ thuộc .35 3.3.2 Phân tích ảnh hưởng nhóm công việc lên mức lương .36 3.3.3 Phân tích ảnh hưởng loại công việc lên mức lương 37 3.3.4 Phân tích ảnh hưởng loại hợp đồng lên mức lương 38 3.3.5 Phân tích ảnh hưởng địa điểm làm việc lên mức lương 40 3.3.6 Phân tích ảnh hưởng địa điểm làm việc Luân Đôn lên mức lương 42 3.3.7 Phân tích ảnh hưởng tiêu đề công việc cho vị trí ứng viên có kinh nghiệm lên mức lương .43 3.3.8 Phân tích ảnh hưởng tiêu đề công việc cho vị quản lý lên mức lương 45 66 Bảng 6: Kết sai số trung bình với k=10 Tập K Sai số trung bình k=1 13564.66 k=2 13964.24 k=3 13416.41 (nhỏ nhất) k=4 15779.73 k=5 13564.66 k=6 14142.14 k=7 13928.39 k=8 14142.14 k=9 13784.05 k=10 13820.27 Giá trị sai số trung bình với k =10 là: 14010.67 - Kiểm tra chéo K-Fold Mô hình với K=20: Hình 61: Kết kiểm tra chéo mô hình với k=20 67 Bảng 7: Kết sai số trung bình với k=20 Tập K Sai số trung bình k=1 12041.59 (nhỏ nhất) k=2 13304.13 k=3 13076.70 k=4 16431.68 k=5 13928.39 k=6 13152.95 k=7 14035.67 k=8 14525.84 k=9 14071.25 k=10 13038.40 k=11 14899.66 k=12 14594.52 k=13 13711.31 k=14 15099.67 k=15 13152.95 k=16 15000.00 k=17 13820.27 k=18 13711.31 k=19 13490.74 k=20 14491.38 Giá trị sai số trung bình với k=20 là: 13978.92 68 So sánh kết sau huấn luyện liệu với mô hình với k = 5, 10 20 ta thấy với k = 20 mô hình dự báo mô hình có giá trị sai số trung bình nhỏ 13978.92 Do tác giả chọn huấn luyện tập liệu với tập k = 20 Mô hình trước huấn luyện với k-fold, k=20: 13960 on 6963 degrees of freedom 0.2546 0.2508 66.07 on 36 and 6963 DF < 2.2e-16 Residual standard error: Multiple R-squared: Adjusted R-squared: F-statistic: p-value: Mô hình sau huấn luyện với k-fold, k =20: 14000 on 6963 degrees of freedom 0.255 0.251 66.1 on 36 and 6963 DF [...]... công việc dựa trên mức lương 30 Hình 17: Phân bố dữ liệu quảng cáo tuyển dụng theo loại hợp đồng dựa trên mức lương 31 Hình 18: Phân bố dữ liệu quảng cáo tuyển dụng theo địa điểm làm việc là Luân Đôn dựa trên mức lương 31 Hình 19: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên mức lương 32 Hình 20: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên nhóm công việc 32 Hình 21: Phân bố dữ liệu quảng cáo tuyển dụng. .. theo địa điểm làm việc dựa trên mức lương 33 xiv Hình 22: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề công việc là vị trí ứng viên có kinh nghiệm dựa trên mức lương 33 Hình 23: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề công việc là vị trí quản lý dựa trên mức lương 34 Hình 24: Phân bố dữ liệu quảng cáo tuyển dụng theo mô tả công việc là ứng viên có kinh nghiệm dựa trên mức lương 34 Hình 25:... được mức lương của một công việc hoặc nhóm công việc nào đó là phù hợp hoặc không phù hợp, họ sẽ có những điều chỉnh hoặc sự chuẩn bị tốt hơn trong công tác tuyển dụng hoặc tìm kiếm việc làm Với những khó khăn và nhu cầu như trên nên tác giả nghiên cứu lựa chọn hướng đề tài xây dựng mô hình dự đoán mức lương công việc trên quảng cáo tuyển dụng với tên đề tài là: “SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN... MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG” để nghiên cứu xây dựng một công cụ dự báo cho mức lương của bất kỳ quảng cáo tuyển dụng nào Nhằm giúp người tìm việc cũng như các nhà tuyển dụng có thể dự đoán được mức lương phù hợp cho các vị trí công việc khác nhau 1.2 Mục tiêu nghiên cứu Luận văn tập trung nghiên cứu về các nghiệp vụ về quảng cáo việc làm, nghiên cứu các nhân tố ảnh hưởng đến mức lương. .. dự đoán mức lương trên quảng cáo tuyển dụng được tổ chức Kaggle đưa ra vào tháng 3 năm 2013 Dựa trên yêu cầu của Adzuna (một công ty về quảng cáo tuyển dụng ở Anh - https://www.adzuna.co.uk/) là muốn xây dựng một ứng dụng dự đoán mức lương của bất kỳ quảng cáo công việc ở Anh Từ đó, họ có thể cải thiện rất lớn sự trải nghiệm của người dùng trong tìm kiếm việc làm, giúp nhà tuyển dụng 3 và người tìm việc. .. lương công việc trên quảng cáo tuyển dụng Những nhân tố đó có thể là nhóm công việc, loại công việc, loại hợp đồng hoặc là địa điểm làm việc mà một quảng cáo tuyển dụng cần có Từ đó xây dựng mô hình dự đoán dựa trên những nhân tố ảnh hưởng đó để đưa ra kết quả dự đoán với độ tin cậy và độ chính xác cao nhất 2 Để giải quy t vấn đề đó luận văn sử dụng giải pháp học máy thống kê mà cụ thể là phân tích hồi. .. Chương 2: Cơ sở lý thuyết Trình bày quy trình khai thác dữ liệu CRISP-DM Các lý thuyết về phân tích hồi quy, kỹ thuật xây dựng mô hình, kỹ thuật đánh giá mô hình, kỹ thuật kiểm tra độ tin cậy của mô hình và công cụ phân tích R Chương 3: Ứng dụng hồi quy trong phân tích dự đoán mức lương 4 Trình bày việc xây dựng mô hình dự đoán mức lương trên quảng cáo tuyển dụng dựa trên quy trình khai thác dữ liệu CRISP-DM... chéo trên mô hình 4 với k=10 65 Hình 61: Kết quả kiểm tra chéo trên mô hình 4 với k=20 66 1 CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do chọn đề tài Trong lĩnh vực tuyển dụng ngày nay, khoảng một nửa số công ty họ không công khai mức lương tuyển dụng trên các quảng cáo tuyển dụng Với vai trò là một người tìm kiếm công việc tác giả cảm thấy rất khó khăn để làm sao biết được mức lương công việc của quảng cáo tuyển dụng. .. Phân bố dữ liệu quảng cáo theo mô tả công việc là vị trí quản lý dựa trên mức lương 35 Hình 26: Mối liên hệ giữa nhóm công việc và mức lương 36 Hình 27: Phân tích kiểm tra mối liên hệ giữa nhóm công việc và mức lương 37 Hình 28: Liên hệ giữa loại công việc với mức lương 38 Hình 29: Phân tích kiểm tra mối liên hệ giữa loại công việc và mức lương 38 Hình 30: Liên hệ giữa loại hợp đồng và mức lương 39 Hình... liệu rằng mức lương nào là phù hợp hoặc không phù hợp với từng loại công việc trên quảng cáo tuyển dụng đó Và với vai trò là nhà tuyển dụng tác giả muốn biết được hoặc tham khảo để có thể đưa ra mức lương hợp lý trên các quảng cáo tuyển dụng của doanh nghiệp mình Do đó rất cần một giải pháp để mang lại nhiều thông tin hơn trong lĩnh vực này Từ đó có thể giúp người tìm kiếm việc làm và nhà tuyển dụng ước