Lưu Trữ Và Phân Tích Dữ Liệu, Để giúp người tìm việc có thể tìm ra công việc phù hợp với mình một cách nhanh chóng và hiệu quả, đồng thời giúp cho các nhà tuyển dụng có thể tìm kiếm được những ứng viên phù hợp với yêu cầu của công việc thì các công ty, trang web tuyển dụng đang phát triển các công cụ phân tích dữ liệu và đưa ra các gợi ý về ngành nghề và công việc phù hợp với từng cá nhân. Nhờ vào viêc lưu trữ, phân tích dữ liệu các công cụ này có thể phân tích và đánh giá các yếu tố như năng lực, sở thích, kinh nghiệm, trình độ học vấn, mức lương mong muốn để đưa ra các gợi ý về các ngành nghề và vị trí việc làm phù hợp.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG -🙞🙞🙞🙞🙞 - BÁO CÁO BÀI TẬP Môn: Lưu Trữ Và Phân Tích Dữ Liệu Chủ đề: Phân tích web tuyển dụng đưa gợi ý việc làm Hà Nội, 2023 Mục lục 1 Phần mở đầu 1.1 Lí chọn đề tài: 1.2 Mục tiêu Các Thuật tốn học máy mơ hình ứng dụng vào đề tài 2.1 Machine learning gì? 2.2 Các thuật toán học máy ứng dụng vào đề tài 2.2.1 Linear regression .5 2.2.2 Random forests 2.2.3 Decision trees .7 2.2.4 Word2VEC Lấy liệu tiền xử lý liệu 11 3.1 Chuẩn bị liệu 11 3.2 Lấy liệu việc làm .11 3.3 Tiền xử lý liệu 13 3.3.1 Mục đích 13 3.3.2 Các bước tiền xử lý liệu .14 Trực quan hóa liệu 18 4.1 Trực quan giá trị dạng số .18 4.2 Trực quan giá categorical 20 4.3 Nhận xét tổng quát 22 Các thuật toán học máy 23 5.1 Huấn luyện mơ hình .23 5.2 Áp dụng thuật toán LinearRegression 26 5.3 Kết hợp logistic regression linear regression 27 Thuật toán dự đoán mức lương dataset khác 29 Kết luận: 39 Phần mở đầu 1.1 Lí chọn đề tài: Việc tìm kiếm việc làm vấn đề quan tâm đặt hàng đầu sống người Tuy nhiên, với đa dạng phong phú công việc nhà tuyển dụng, việc lựa chọn công việc phù hợp với lực, nhu cầu độ tuổi cá nhân thử thách đáng kể Trong thời đại số, công nghệ phát triển ngày nhanh chóng trang web tuyển dụng ngày đa dạng chất lượng Đa số nhà tuyển dụng sử dụng trang web, mạng xã hội để đăng tải thông tin tuyển dụng Tuy nhiên, với đa dạng ngành nghề, việc lựa chọn ngành nghề phù hợp với sở thích, lực, kinh nghiệm mục tiêu cá nhân nhiệm vụ khó khăn Để giúp người tìm việc tìm cơng việc phù hợp với cách nhanh chóng hiệu quả, đồng thời giúp cho nhà tuyển dụng tìm kiếm ứng viên phù hợp với u cầu cơng việc cơng ty, trang web tuyển dụng phát triển công cụ phân tích liệu đưa gợi ý ngành nghề công việc phù hợp với cá nhân Nhờ vào viêc lưu trữ, phân tích liệu cơng cụ phân tích đánh giá yếu tố lực, sở thích, kinh nghiệm, trình độ học vấn, mức lương mong muốn để đưa gợi ý ngành nghề vị trí việc làm phù hợp 1.2 Mục tiêu Cào liệu xử lý liệu từ trang web tuyển dụng, liệu phân tích dựa đặc điểm ngành, chẳng hạn số lượng tuyển dụng, mức lương, yêu cầu kỹ kinh nghiệm Phân tích liệu cho phép đưa gợi ý công việc tiềm năng, ổn định có triển vọng phát triển tương lai gần, giúp cho người tìm việc lựa chọn vị trí phù hợp với nhu cầu sở thích họ Ngồi ra, giúp nhà tuyển dụng tìm kiếm ứng viên đủ lực cho vị trí tuyển dụng cách nhanh chóng xác Nhóm bọn em vào phân tích tốn trang web khác với: o Vieclamtot.com: với tập liệu 4563 entries; Là mục tiêu nhóm tụi em sâu vào o TopCV.com: với tập liêụ 563 entries; Đây tốn phân tích thêm để làm thêm cho mơ hình dự đốn mức lương Các Thuật tốn học máy mơ hình ứng dụng vào đề tài 2.1 Machine learning gì? - Machine learning nhánh trí tuệ nhân tạo (AI) khoa học máy tính, tập trung vào việc sử dụng liệu thuật toán để bắt chước hành động người, cải thiện độ xác Machine learning cịn thành phần quan trọng lĩnh vực khoa học liệu phát triển Thông qua việc sử dụng phương pháp thống kê, thuật toán đào tạo để đưa phân loại dự đoán khám phá thơng tin chi tiết từ dự án khai thác liệu Thông qua thông tin chi tiết có để thúc đẩy việc đưa định ứng dụng doanh nghiệp, tác động mạnh đến số tăng trưởng Khi liệu lớn tiếp tục nhu cầu mở rộng phát triển đòi hỏi nhu cầu tuyển dụng nhà khoa học liệu tăng lên Họ yêu cầu giúp xác định câu hỏi kinh doanh có liên quan liệu để trả lời chúng Bài toán machine learning thường chia làm hai loại dự đoán (prediction) phân loại (classification) Các toán dự đoán thường giá nhà, giá xe, v.v, cịn tốn phân loại thường nhận diện chữ viết tay, đồ vật, v.v 2.2 Các thuật toán học máy ứng dụng vào đề tài 2.2.1 Linear regression - Hồi quy tuyến tính phương pháp thống kê sử dụng để mô hình hóa mối quan hệ biến phụ thuộc nhiều biến độc lập Mục tiêu hồi quy tuyến tính tìm đường thẳng phù hợp cho tổng bình phương khoảng cách điểm liệu quan sát giá trị dự đoán nhỏ - Trong hồi quy tuyến tính đơn giản, có biến độc lập mối quan hệ biến phụ thuộc biến độc lập mơ hình hóa đường thẳng Cơng thức cho mơ hình hồi quy tuyến tính đơn giản viết sau: y = b0 + b1*x - Trong y biến phụ thuộc, x biến độc lập, b0 hệ số giao điểm số b1 hệ số độ dốc Trong hồi quy tuyến tính đa biến, có nhiều biến độc lập mối quan hệ biến phụ thuộc biến độc lập mơ hình hóa phương trình tuyến tính Cơng thức cho mơ hình hồi quy tuyến tính đa biến viết sau: y = b0 + b1x1 + b2x2 + + bn*xn - Trong y biến phụ thuộc, x1, x2, , xn biến độc lập, b0 hệ số giao điểm số b1, b2, , bn hệ số độ dốc Hồi quy tuyến tính sử dụng để dự đoán, dự báo hiểu mối quan hệ biến Nó thường sử dụng lĩnh vực kinh tế, tài khoa học xã hội Có nhiều kỹ thuật để đánh giá hiệu suất mơ hình hồi quy tuyến tính, chẳng hạn R-squared, độ lỗi trung bình bình phương (RMSE) độ lỗi tuyệt đối trung bình (MAE) 2.2.2 Random forests Random forest thuật toán supervised learning, giải tốn regression classification Random ngẫu nhiên, Forest rừng, nên thuật tốn Random Forest xây dựng nhiều định thuật toán Decision Tree, nhiên định khác (có yếu tố random) Sau kết dự đốn tổng hợp từ định Ở bước huấn luyện xây dựng nhiều định, định khác 2.2.3 Decision trees Decision Tree thuật toán học máy lĩnh vực khai phá liệu học có giám sát Nó dựa việc xây dựng định để đưa dự đoán giá trị biến đầu (output) dựa giá trị biến đầu vào (input) Thuật toán Decision Tree sử dụng loạt định nhị phân để phân tách liệu đầu vào thành nhóm cho nhóm chứa mẫu có tính chất tương tự Các định đưa dựa thuộc tính liệu đầu vào mục tiêu tối đa hóa độ tinh khiết nhóm Một định xây dựng, sử dụng để dự đoán giá trị biến đầu cho mẫu cách đưa mẫu xuống áp dụng định để đưa dự đoán Decision Tree thuật toán học máy phổ biến sử dụng rộng rãi nhiều lĩnh vực, bao gồm kinh doanh, y tế, tài chính, khoa học máy tính Nó sử dụng để giải vấn đề phân loại (classification) dự đoán (prediction) 2.2.4 Word2VEC Word2vec kỹ thuật xử lý ngôn ngữ tự nhiên Thuật tốn Word2vec sử dụng mơ hình mạng thần kinh để học liên kết từ (sự liên quan từ) từ kho ngữ liệu văn có dung lượng lớn [1] Sau huấn luyện, mơ hình phát từ đồng nghĩa gợi ý từ bổ sung cho phần câu Với tên nói lên tất cả, word2vec thể cho từ riêng biệt với danh sách cụ thể số gọi vectơ Các vectơ lựa chọn cẩn thận cho hàm toán học đơn giản (độ tương tự cosin vectơ) cho biết mức độ độ tương tự ngữ nghĩa từ biểu diễn vectơ đó.[2] 2.2.4.1 Hàm tính tốn cosine similarity (độ tương đồng cosine) hai vector: Hàm tính toán cosine similarity (độ tương đồng cosine) hai vector: query_vector job_vector Cụ thể, cơng thức tính cosine similarity sử dụng là: cosine similarity = dot product hai vector / (norm query_vector * norm job_vector) Trong đó, dot product (tích vơ hướng) hai vector tính np.dot(query_vector, job_vector), norm (độ dài) vector tính np.linalg.norm(vector) Kết cosine similarity nằm khoảng [-1, 1], với giá trị gần hai vector tương đồng gần -1 hai vector khác Khi kết có nghĩa hai vector vng góc 10