1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn ThS: Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng

97 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 2,63 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRẦN VĂN NGHIỆP SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐỐN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 03 năm 2016 .Tài liệu Há»— trợ ôn tập com Luận văn Luận án BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRẦN VĂN NGHIỆP SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐỐN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS TRẦN ĐỨC KHÁNH TP HỒ CHÍ MINH, tháng 03 năm 2016 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Lº­n văn Lº­n án ii CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS TRẦN ĐỨC KHÁNH (Ghi rõ họ, tên, học hàm, học vị chử ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 20 tháng 03 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) Họ tên TT Chức danh Hội đồng PGS.TSKH Nguyễn Xuân Huy Chủ tịch PGS.TS Vũ Đức Lung Phản biện TS Hồ Đắc Nghĩa Phản biện TS Cao Tùng Anh Ủy viên TS Vũ Thanh Hiền Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án iii TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA Xà HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng 08 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN VĂN NGHIỆP Giới tính: Nam Ngày, tháng, năm sinh: 15/05/1987 Nơi sinh: Cà Mau Chuyên ngành: Công nghệ thông tin MSHV: 1441860018 I- Tên đề tài: “SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐỐN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG” II- Nhiệm vụ nội dung: - Tìm hiểu học máy thống kê, quy trình khai thác liệu, phân tích thống kê - Xây dựng mơ hình dự đốn mức lương quảng cáo tuyển dụng ứng dụng phương pháp phân tích hồi quy - Đánh giá mơ hình dự đốn ứng dụng phương pháp đánh giá mơ hình III- Ngày giao nhiệm vụ: 20/08/2015 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: TS Trần Đức Khánh CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) TS TRẦN ĐỨC KHÁNH Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án iv LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học Thầy TS Trần Đức Khánh Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, luận văn cịn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn Trường Đại Học Cơng Nghệ TP.HCM khơng liên quan đến vi phạm tác quyền, quyền tơi gây q trình thực Học viên thực luận văn TRẦN VĂN NGHIỆP Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án v LỜI CÁM ƠN Trên thực tế khơng có thành công mà không gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập trường đến nay, em nhận nhiều quan tâm, giúp đỡ q Thầy Cơ, gia đình bạn bè Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Công Nghệ Thông Tin – Trường Đại Học Công Nghệ TP.HCM với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Và đặc biệt, học kỳ Nếu khơng có lời hướng dẫn, dạy bảo thầy em nghĩ luận văn em khó hoàn thiện Bài luận văn thực khoảng thời gian tháng Bước đầu em hạn chế nhiều bỡ ngỡ Do vậy, em gặp nhiều khó khăn giai đoạn đầu làm luận văn Nhưng với dìu dắt hướng dẫn tận tình thầy TS TRẦN ĐỨC KHÁNH em dần làm quen với việc nghiên cứu hoàn thiện luận văn Em xin gởi lời cảm ơn chân thành tri ân sâu sắc thầy cô Trường Đại Học Công Nghệ TP.HCM, đặc biệt thầy cô Khoa Công Nghệ Thông Tin trường tạo điều kiện cho em để em hồn thành tốt luận văn Và em xin chân thành cám ơn bạn học khóa nhiệt tình đóng góp ý kiến để em hoàn thành tốt luận văn em Trong q trình làm luận văn, khó tránh khỏi sai sót, mong q Thầy, Cơ bỏ qua Đồng thời trình độ lý luận kinh nghiệm thực tiễn cịn hạn chế nên luận văn khơng thể tránh khỏi thiếu sót, em mong nhận ý kiến đóng góp Thầy, Cơ để em học thêm nhiều kinh nghiệm để tiếp tục hoàn thành tốt nghiên cứu tới Em xin chân thành cảm ơn! TRẦN VĂN NGHIỆP Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án vi TĨM TẮT Phân tích hồi quy phương pháp thống kê nhằm tìm mối liên hệ biến phụ thuộc (thường ký hiệu Y) loạt biến đổi khác (được biết đến biến độc lập) Mối liên hệ mô tả hình thức phương trình đường thẳng (phương trình hồi quy) dựa đặc trưng liệu cần phân tích Phân tích hồi quy thường sử dụng để xác định có yếu tố cụ thể giá mặt hàng, lãi suất, ngành công nghiệp, ngành nghề đặc biệt ảnh hưởng đến biến động lương công việc quảng cáo tuyển dụng Trong phạm vi đề tài ứng dụng phương pháp hồi quy để dự đốn mức lương cơng việc quảng cáo tuyển dụng Nỗ lực tìm mối liên hệ đặc trưng ảnh hưởng đến mức lương công việc như: nhóm cơng việc, loại cơng việc, loại hợp đồng, địa điểm làm việc… Từ đưa mơ hình dự đoán tối ưu áp dụng phương pháp phân tích hồi quy đơn giản, hồi quy đa biến, phân tích phương sai, phân tích thành phần phương pháp đánh giá mơ hình dựa liệu quảng cáo tuyển dụng cung (https://www.kaggle.com/c/job-salary-prediction/data) .Tài liệu Há»— trợ ôn tập com Luận văn Luận án cấp Kaggle .Tài liệu Há»— trợ ôn tập com Luận văn Luận án vii ABSTRACT Regression is a statistical measure that attempts to determine the strength of the relationship between one dependent variable (usually denoted by Y) and a series of other changing variables (known as independent variables) This relationship is typically in the form of a straight line (linear regression) that best approximates all the individual data points Regression is often used to determine how much specific factors such as the price of a commodity, interest rates, particular industries or sectors influence the price movement of an asset On this thesis, I am using regression for predicting the salary of the job on job advertisement Try to find the relationship between features that impacted to the job salary such as: Job Category, Contract Time, Contract Type, Location, and so on Base on that points we generate a model that help employer or job seeker can forecast the rank salary of the job by applying simple linear regression, multiple regression, variables analysis, model evaluation on the Job Advertisement is provived by Kaggle (https://www.kaggle.com/c/job-salary-prediction/data) .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án viii MỤC LỤC LỜI CAM ĐOAN iv LỜI CÁM ƠN .v TÓM TẮT vi ABSTRACT vii DANH MỤC CÁC TỪ VIẾT TẮT xi DANH MỤC CÁC BẢNG xii DANH MỤC HÌNH ẢNH xiii CHƯƠNG 1: GIỚI THIỆU 1.1 Lý chọn đề tài .1 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu .2 1.4 Tổng quan nghiên cứu .2 1.5 Bố cục luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mơ hình khai thác liệu CRISP-DM .5 2.1.1 Tìm hiểu nghiệp vụ 2.1.2 Tìm hiểu liệu 2.1.3 Chuẩn bị liệu 2.1.4 Mơ hình hóa .8 2.1.5 Đánh giá .8 2.1.6 Triển khai 2.2 Hồi quy tuyến tính đơn .8 2.2.1 Phương trình hồi quy tuyến tính đơn 2.2.2 Khoảng tin cậy kiểm định giả thuyết hồi quy đơn .9 2.2.3 Kiểm định tham số hồi quy tổng thể (  ) 10 2.2.4 Phân tích phương sai hồi quy 10 2.2.5 Dự báo phương pháp hồi quy tuyến tính đơn 12 2.3 Hồi quy tuyến tính đa biến 12 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Lº­n văn Lº­n án ix 2.3.1 Mơ hình hồi quy .12 2.3.2 Phương trình hồi quy 12 2.3.3 Phân tích phương sai hồi quy 13 2.3.4 Ước lượng khoảng tin cậy kiểm định giả thuyết hồi quy đa biến 14 2.4 Phương pháp đánh giá độ xác mơ hình 14 2.4.1 Phương pháp chia ngẩu nhiên 14 2.4.2 Kiểm tra chéo K-Fold .15 2.4.3 Kiểm tra chéo Leave-one-out 16 2.5 Tổng quan công cụ R 16 2.5.1 Giới thiệu R 16 2.5.2 Sử dụng R 18 2.5.3 Sử dụng RStudio 19 2.5.4 Một số lệnh R 20 CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH HỒI QUY DỰ ĐỐN MỨC LƯƠNG 22 3.1 Tìm hiểu liệu 22 3.2 Chuẩn bị liệu 26 3.3 Mơ hình hóa 35 3.3.1 Biến độc lập Biến phụ thuộc .35 3.3.2 Phân tích ảnh hưởng nhóm cơng việc lên mức lương .36 3.3.3 Phân tích ảnh hưởng loại cơng việc lên mức lương 37 3.3.4 Phân tích ảnh hưởng loại hợp đồng lên mức lương 38 3.3.5 Phân tích ảnh hưởng địa điểm làm việc lên mức lương 40 3.3.6 Phân tích ảnh hưởng địa điểm làm việc Luân Đôn lên mức lương 42 3.3.7 Phân tích ảnh hưởng tiêu đề cơng việc cho vị trí ứng viên có kinh nghiệm lên mức lương .43 3.3.8 Phân tích ảnh hưởng tiêu đề công việc cho vị quản lý lên mức lương 45 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 66 Bảng 6: Kết sai số trung bình với k=10 Tập K Sai số trung bình k=1 13564.66 k=2 13964.24 k=3 13416.41 (nhỏ nhất) k=4 15779.73 k=5 13564.66 k=6 14142.14 k=7 13928.39 k=8 14142.14 k=9 13784.05 k=10 13820.27 Giá trị sai số trung bình với k =10 là: 14010.67 - Kiểm tra chéo K-Fold Mơ hình với K=20: Hình 61: Kết kiểm tra chéo mơ hình với k=20 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 67 Bảng 7: Kết sai số trung bình với k=20 Tập K Sai số trung bình k=1 12041.59 (nhỏ nhất) k=2 13304.13 k=3 13076.70 k=4 16431.68 k=5 13928.39 k=6 13152.95 k=7 14035.67 k=8 14525.84 k=9 14071.25 k=10 13038.40 k=11 14899.66 k=12 14594.52 k=13 13711.31 k=14 15099.67 k=15 13152.95 k=16 15000.00 k=17 13820.27 k=18 13711.31 k=19 13490.74 k=20 14491.38 Giá trị sai số trung bình với k=20 là: 13978.92 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 68 So sánh kết sau huấn luyện liệu với mơ hình với k = 5, 10 20 ta thấy với k = 20 mơ hình dự báo mơ hình có giá trị sai số trung bình nhỏ 13978.92 Do tác giả chọn huấn luyện tập liệu với tập k = 20 Mơ hình trước huấn luyện với k-fold, k=20: 13960 on 6963 degrees of freedom 0.2546 0.2508 66.07 on 36 and 6963 DF < 2.2e-16 Residual standard error: Multiple R-squared: Adjusted R-squared: F-statistic: p-value: Mơ hình sau huấn luyện với k-fold, k =20: 14000 on 6963 degrees of freedom 0.255 0.251 66.1 on 36 and 6963 DF

Ngày đăng: 04/07/2023, 10:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w