Trong bốicảnh này, việc áp dụng phân tích dữ liệu để dự báo mức lương trong các ngànhnghề đang nhận được sự quan tâm đặc biệt.. Trong bối cảnh này, đề tài "Phân tích dữ liệu và dự báo mứ
TỔNG QUAN VỀ ĐỀ TÀI 2 1.1 Tổng quan về phân tích dữ liệu
Tổng quan về bài toán dự báo
1.2.1 Lịch sử về bài toán dự báo
Bài toán dự báo đã có một lịch sử lâu dài và trải qua nhiều giai đoạn phát triển Bài viết này cung cấp cái nhìn tổng quan về quá trình hình thành và tiến hóa của bài toán dự báo.
Thời kỳ tiền Công nghiệp, trước thế kỷ 18, con người chủ yếu dựa vào kinh nghiệm và tri thức truyền miệng để dự báo Những dự báo này thường được hình thành từ việc quan sát thiên văn học, thời tiết và các hiện tượng tự nhiên.
Trong thời kỳ Cách mạng Công nghiệp vào thế kỷ 18 và 19, việc sử dụng số liệu và thống kê để dự báo trở nên phổ biến Các ý tưởng về xác suất và phân phối đã được áp dụng một cách hiệu quả trong công tác dự báo, đánh dấu bước tiến quan trọng trong lĩnh vực thống kê.
Thế kỷ 20 chứng kiến sự bùng nổ của máy tính và kỹ thuật số hoá, mang đến cơ hội mới cho việc dự báo Việc áp dụng các phương pháp thống kê, mô hình hóa toán học và kỹ thuật machine learning đã trở nên phổ biến, giúp nâng cao độ chính xác trong dự báo ở nhiều lĩnh vực khác nhau.
Thống kê Bayes và các kỹ thuật machine learning, bao gồm học máy, học sâu và học tăng cường, đã cách mạng hóa khả năng dự báo bằng cách xử lý dữ liệu phức tạp và phát hiện các mẫu ẩn trong thông tin.
Trong thời đại số hóa hiện nay, dự báo trở nên quan trọng và phức tạp hơn bao giờ hết do sự gia tăng khả năng tính toán, khối lượng dữ liệu khổng lồ và sự phát triển của trí tuệ nhân tạo Các công nghệ mới như phân tích dữ liệu lớn, học sâu và dự báo dựa trên mạng xã hội mở ra nhiều cơ hội và thách thức trong lĩnh vực này Bài toán dự báo đã chuyển từ việc dự đoán đơn thuần sang việc áp dụng các phương pháp phức tạp để xác định mối quan hệ và xu hướng từ dữ liệu Sự tiến bộ này thể hiện tầm quan trọng của dự báo trong việc hỗ trợ quyết định và phát triển trong nhiều lĩnh vực.
Bài toán dự báo là thách thức quan trọng trong phân tích dữ liệu, nhằm dự đoán giá trị của biến mục tiêu trong tương lai dựa trên dữ liệu lịch sử và các yếu tố ảnh hưởng Mục tiêu chính là xây dựng mô hình có khả năng hiểu và áp dụng các mẫu, xu hướng và quy luật từ dữ liệu, từ đó thực hiện dự đoán một cách chính xác và đáng tin cậy.
1.2.2 Tình hình nghiên cứu trong nước
Dự báo có vai trò quan trọng tại Việt Nam, giúp cải thiện quản lý, định hình chiến lược và tối ưu hóa tài nguyên trong nhiều lĩnh vực Tình hình phân tích dữ liệu tại Việt Nam đang có những điểm đáng chú ý, phản ánh sự phát triển và nhu cầu ngày càng tăng trong việc ứng dụng công nghệ thông tin để nâng cao hiệu quả hoạt động.
Việt Nam hiện đang ở giai đoạn đầu trong việc phát triển các phương pháp dự báo, đặc biệt trong một số lĩnh vực Việc áp dụng các kỹ thuật phân tích dữ liệu và dự báo mới vẫn đang được nghiên cứu và thử nghiệm.
Tại Việt Nam, ứng dụng công nghệ tiên tiến trong nông nghiệp đang đóng vai trò quan trọng trong việc dự đoán thời tiết, mùa màng và nhu cầu năng lượng Bên cạnh đó, công nghệ cũng được sử dụng để dự báo tăng trưởng GDP, lạm phát và tỷ giá, góp phần vào sự phát triển kinh tế bền vững.
Một trong những thách thức lớn trong việc dự báo tại Việt Nam là khả năng thu thập và quản lý dữ liệu chất lượng Dữ liệu thường không đầy đủ, dẫn đến những vấn đề về tính nhất quán và độ tin cậy, ảnh hưởng đến hiệu quả của các dự báo.
1.2.3 Tình hình nghiên cứu ở nước ngoài
Trong lĩnh vực nghiên cứu dự báo, một số công trình quốc tế đã đề cập đến chủ đề tiểu luận, như bài viết “Solar Forecast Reconciliation and Effects of Improved Base Forecasts” trên IEEE Xplore, do các tác giả Gokhan Mert Yagli, Dazhi Yang, Dipti Srinivasan và Monika thực hiện Nghiên cứu này nhấn mạnh tầm quan trọng của việc dự báo sản lượng điện mặt trời trong vận hành hệ thống điện, với yêu cầu dự báo trên nhiều quy mô địa lý và thời gian khác nhau, có thể được mô hình hóa theo dạng phân cấp.
Từ đó ta thấy tại nước ngoài có những sự khác biệt về bài toán dự báo: -
Tại các quốc gia phát triển, việc dự báo đã trở thành một công cụ quan trọng và được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính, thương mại điện tử, y tế và năng lượng.
Các quốc gia nước ngoài đang áp dụng sự kết hợp của công nghệ mới như trí tuệ nhân tạo, học máy và phân tích dữ liệu lớn để nâng cao hiệu suất trong việc dự báo.
Các quốc gia phát triển có lợi thế trong việc tổng hợp dữ liệu từ nhiều nguồn khác nhau, điều này giúp nâng cao khả năng dự báo một cách chính xác và đa dạng hơn.
Bài toán phân tích dữ liệu và dự báo mức lương của ngành Khoa học dữ liệu bằng phương pháp hồi quy 5 1.4 Kết luận chương 1
Bài toán "Phân tích dữ liệu và dự báo mức lương của ngành Khoa học Dữ liệu bằng phương pháp hồi quy" tập trung vào việc hiểu và dự đoán mức lương trong lĩnh vực Khoa học Dữ liệu Mục tiêu chính của nghiên cứu là xác định các yếu tố ảnh hưởng đến mức lương và áp dụng phương pháp hồi quy để phát triển mô hình dự báo chính xác.
Để phân tích các yếu tố ảnh hưởng đến mức lương trong ngành Khoa học Dữ liệu, cần xem xét các yếu tố như học vấn, kinh nghiệm làm việc, vị trí công việc và vùng địa lý Tiếp theo, việc xây dựng mô hình hồi quy là cần thiết để dự báo mức lương dựa trên những yếu tố này, nhằm tìm ra mối quan hệ giữa các biến độc lập và biến phụ thuộc, cụ thể là mức lương.
Dựa vào mô hình hồi quy đã phát triển, mục tiêu là dự đoán mức lương cho các cá nhân dựa trên thông tin liên quan đã được cung cấp.
- Ý nghĩa khoa học và thực tiễn:
Khoa học dữ liệu đóng vai trò quan trọng trong việc phân tích mối liên hệ giữa các yếu tố ảnh hưởng và mức lương thông qua các kỹ thuật phân tích dữ liệu và hồi quy Nghiên cứu này cung cấp thông tin giá trị về ngành và thị trường lao động, giúp hiểu rõ hơn về các yếu tố tác động đến thu nhập.
Nghiên cứu về quản lý nhân sự trong ngành Khoa học Dữ liệu giúp các công ty hiểu rõ các yếu tố ảnh hưởng đến mức lương nhân viên, từ đó hỗ trợ quyết định chiến lược tuyển dụng, phát triển nhân viên và quản lý tài nguyên hiệu quả Đồng thời, việc thực hiện phân tích dữ liệu và xây dựng mô hình hồi quy không chỉ nâng cao kỹ năng tư duy phân tích và sáng tạo mà còn giúp áp dụng các phương pháp phân tích vào các vấn đề thực tế.
Như vậy, bài toán này không chỉ có ý nghĩa đối với lĩnh vực Khoa học
Dữ liệu mà còn mang lại những kiến thức hữu ích cho nhiều khía cạnh khác trong xã hội và kinh tế.
Chương 1 đã trình bày tổng quan về đề tài, trình bày tổng quan về phân tích dữ liệu và bài toán dự báo, đồng thời nêu ra tình hình nghiên cứu bài toán dự báo trong nước và ở nước ngoài Ngoài ra còn mô tả bài toán phân tích dữ liệu và dự báo mức lương của ngành Khoa học dữ liệu bằng phương pháp hồi quy.
CÁC PHƯƠNG PHÁP KỸ THUẬT 8 2.1 Phương pháp phân tích mô tả 8 2.1.1 Phân tích mô tả 8 2.1.2 Phương pháp phân tích trên từng biến 9 2.1.3 Phương pháp phân tích trên nhiều biến 10 2.2 Phương pháp phân tích hồi quy
2.1 Phương pháp phân tích mô tả
Phân tích mô tả là một phương pháp quan trọng trong thống kê và phân tích dữ liệu, giúp tóm tắt và làm rõ các đặc điểm chính của tập dữ liệu một cách dễ hiểu Mục tiêu chính của phân tích mô tả là nâng cao hiểu biết về dữ liệu, nhận diện các đặc trưng quan trọng, và cung cấp cái nhìn tổng quát về phân phối và biến đổi của dữ liệu Các khía cạnh của phân tích mô tả thường bao gồm các chỉ số thống kê cơ bản, biểu đồ, và bảng tóm tắt, giúp người sử dụng dễ dàng nắm bắt thông tin cần thiết.
Thống kê tóm tắt bao gồm các chỉ số cơ bản như trung bình, trung vị, độ lệch chuẩn và phân vị, giúp chúng ta nắm bắt được trung tâm và mức độ phân tán của dữ liệu.
Biểu đồ là công cụ hữu ích để trình bày dữ liệu một cách trực quan, cho phép người dùng dễ dàng nhận diện sự phân bố và xu hướng Các loại biểu đồ phổ biến như biểu đồ cột, biểu đồ đường, biểu đồ hình tròn và biểu đồ hộp đều có vai trò quan trọng trong việc minh họa thông tin, giúp người xem nắm bắt nhanh chóng các mối quan hệ trong dữ liệu.
Phân tích phân phối dữ liệu giúp hiểu rõ tỷ lệ xuất hiện của các giá trị khác nhau trong tập dữ liệu Để thực hiện điều này, có thể sử dụng biểu đồ phân phối tần số hoặc biểu đồ kernel density.
Phân tích mô tả không chỉ giúp hiểu rõ dữ liệu mà còn cho phép kiểm tra sự tương quan giữa các biến Việc này có thể được thực hiện thông qua việc sử dụng biểu đồ tương quan hoặc tính toán hệ số tương quan Pearson để đánh giá mối liên hệ giữa các yếu tố.
Phân tích mô tả là công cụ hữu ích để xác định các điểm ngoại lệ trong dữ liệu, tức là những giá trị nổi bật và khác biệt rõ rệt so với phần còn lại.
Cuối cùng, việc phân tích mô tả không chỉ bao gồm việc tổng kết các đặc điểm quan trọng của dữ liệu mà còn đưa ra nhận xét về những mẫu thú vị, cũng như xác định điểm mạnh và điểm yếu của tập dữ liệu.
Phân tích mô tả đóng vai trò quan trọng trong việc tạo ra cái nhìn sâu sắc về tập dữ liệu ban đầu, từ đó thiết lập nền tảng vững chắc cho các phân tích tiếp theo như dự báo, phân tích hồi quy và ứng dụng machine learning.
2.1.2 Phương pháp phân tích trên từng biến
Khi phân tích một biến, mục tiêu là hiểu rõ các đặc điểm cơ bản của nó, bao gồm việc xác định và xử lý các giá trị ngoại lai Các giá trị ngoại lai là những giá trị dữ liệu khác biệt so với phần lớn các giá trị khác trong tập dữ liệu, có thể xuất hiện do lỗi nhập liệu, lỗi đo lường, hoặc các sự kiện hiếm gặp.
Việc xác định các outliers là rất quan trọng, đóng vai trò kết nối giữa phân tích mô tả và phân tích hồi quy Qua đó, chúng ta có thể làm sạch các giá trị này trong giai đoạn tiền xử lý dữ liệu của phân tích hồi quy Tùy thuộc vào từng loại dữ liệu, phương pháp phân tích sẽ được điều chỉnh cho phù hợp.
+ Biểu đồ Histogram: Biểu đồ hiển thị tần suất xuất hiện của các khoảng giá trị dữ liệu
Các đại lượng thống kê như trung bình (mean), độ lệch chuẩn (stdev), trung vị (median) và phân vị (quartile) đóng vai trò quan trọng trong việc mô tả đặc điểm của dữ liệu Những giá trị này giúp phân tích trung bình, phương sai và phân phối, từ đó cung cấp cái nhìn tổng quát về dữ liệu được nghiên cứu.
+ Biểu đồ Box & Whisker (Boxplot): Biểu đồ hiển thị tổng quan giá trị đó bao gồm các giá trị đại lượng thống kê đã tính được
+ Bảng tần suất (Frequency table): Biểu đồ liệt kê các giá trị khác nhau của biến và số lần xuất hiện của mỗi giá trị
+ Biểu đồ cột (Bar chart): Biểu đồ thể hiện tần suất của từng giá trị dữ liệu dưới dạng các cột đứng
+ Biểu đồ hình tròn hoặc donut (Pie chart, Donut chart): Biểu đồ thể hiện phần trăm tần suất của từng giá trị trong tổng số.
2.1.3 Phương pháp phân tích trên nhiều biến
Phân tích đa biến giúp hiểu rõ mối quan hệ và tương tác giữa các biến trong tập dữ liệu, từ đó phát hiện các mẫu, xu hướng và tương quan tiềm ẩn giữa chúng.
Các mối liên hệ giữa các biến có thể biểu hiện dưới nhiều hình thức như mối tương quan tuyến tính, không tuyến tính hoặc tương quan ngược Qua việc phân tích các mối liên hệ này, chúng ta có thể hiểu rõ hơn về cách thức các biến tương tác và ảnh hưởng lẫn nhau.
Phân tích trên nhiều biến có mối liên hệ chặt chẽ với phân tích hồi quy, giúp xác định các giá trị ngoại lai trong dữ liệu Có ba kiểu dữ liệu phân tích khác nhau trong phân tích nhiều biến: dữ liệu số, phi số và hỗn hợp (bao gồm cả số và phi số).
Biểu đồ Scatter, hay còn gọi là biểu đồ phân tán, là công cụ trực quan hóa mối quan hệ giữa hai biến số Mỗi điểm trên biểu đồ đại diện cho một cặp giá trị của hai biến được đặt trên trục ngang và trục dọc Loại biểu đồ này rất hữu ích trong việc xác định sự tương quan giữa hai biến, bao gồm cả tương quan tuyến tính và không tuyến tính.
+ Bảng dữ liệu thống kê (Statistical Summary Table): Tạo bảng để liệt kê các đại lượng thống kê (mean, median, stdev…) giữa các biến số của dữ liệu
Tổng quan về phân tích hồi quy
Kết luận chương 2
Chương 2 đã trình bày các phương pháp kỹ thuật, cụ thể là phương pháp phân tích mô tả, phương pháp phân tích hồi quy và các công cụ thực hiện bài toán Đồng thời lựa chọn được phương pháp phân tích hồi quy tuyến tính và ngôn ngữ Python để thực hiện thực nghiệm.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Tiền xử lý dữ liệu
Tóm lược dữ liệu trong phân tích dữ liệu là quá trình tổng hợp và trình bày thông tin quan trọng từ tập dữ liệu ban đầu, nhằm giúp người đọc nắm bắt nhanh chóng các điểm chính mà không cần xem toàn bộ dữ liệu Quá trình này bao gồm hai loại đo: đo mức độ tập trung dữ liệu như trung bình, trung vị, và mode, cùng với đo mức độ phân tán dữ liệu như quartile, độ lệch chuẩn và khoảng giữa.
Chúng tôi sẽ tổng hợp thông tin về độ tập trung và phân tán của dữ liệu, chỉ áp dụng cho các cột dữ liệu dạng thông số Do đó, các thông số liên quan bao gồm “conversion_price”, “area” và “bed_room_num”.
“ toilet_room_num” và “ floor_num ” là được phân tích Dưới đây là kết quả tóm lược dữ liệu bao gồm các thuộc tính count, mean, std, min, 25%, 50%,
75%, max, mode, median của các dữ liệu trên:
Hình 3.2 Thông tin tóm lược dữ liệu của cột dữ liệu dạng số
Làm sạch dữ liệu là quá trình loại bỏ sai sót, lỗi và thông tin không chính xác trong tập dữ liệu ban đầu, nhằm đảm bảo tính đáng tin cậy và sự phù hợp cho phân tích Đây là bước quan trọng trong tiền xử lý dữ liệu trước khi thực hiện phân tích mô tả và phân tích hồi quy.
Trong quá trình làm sạch dữ liệu, một trong những tác vụ quan trọng là loại bỏ dữ liệu trùng lặp Việc này giúp loại bỏ các bản ghi giống nhau trong tập dữ liệu, từ đó đảm bảo tính chính xác và độ tin cậy của kết quả phân tích.
+ Xử lý dữ liệu thiếu: Điền vào các giá trị thiếu hoặc quyết định loại bỏ chúng dựa trên ngữ cảnh và mục tiêu của phân tích
+ Sửa lỗi và sai sót: Điều tra và sửa các lỗi cú pháp, sai sót chính tả hoặc sai sót logic trong dữ liệu
Chọn lọc đặc trưng là bước quan trọng trong phân tích và mô hình hóa dữ liệu Trong dự án hiện tại, sau khi khảo sát các cột dữ liệu, việc sửa lỗi và chọn lọc đặc trưng không quá quan trọng, do đó chúng ta sẽ tập trung vào việc loại bỏ dữ liệu trùng lặp và xử lý dữ liệu thiếu Để thực hiện điều này, trước tiên cần khảo sát số lượng dữ liệu bị thiếu và trùng lặp, với kết quả khảo sát sẽ được trình bày sau đây.
Hình 3.3 Thông tin tỷ lệ thiếu của data và tổng số data trùng
Qua khảo sát, chúng tôi nhận thấy tài liệu không có vùng thiếu sót, tuy nhiên có 2.652 hàng dữ liệu bị trùng lặp Chúng tôi sẽ tiến hành xóa các dữ liệu thừa này để đảm bảo kết quả phân tích được chính xác nhất.
Chuyển đổi dữ liệu trong phân tích dữ liệu là quá trình thay đổi cách thức biểu diễn và xử lý dữ liệu ban đầu để tạo ra dữ liệu mới có ý nghĩa hơn Quá trình này đóng vai trò quan trọng trong việc cải thiện khả năng trực quan hóa dataset, từ đó giúp việc phân tích dữ liệu trở nên thuận tiện hơn.
Trong dataset của dự án, một số cột thông tin được viết tắt hoặc chuẩn hóa theo cách khác, gây khó khăn cho người xem trong việc nắm bắt thông tin cần thiết Do đó, việc thay đổi cách thức biểu diễn là cần thiết, và chúng ta sẽ áp dụng điều này cho các cột ‘experience_level’.
‘employment_type’, ‘company_size’ và ‘remote_ratio’ cụ thể như sau:
Hình 3.4 Quy tắc chuyển đổi cách thức biểu diễn
Các giá trị ký tự viết tắt trong các cột dữ liệu sẽ được chuyển đổi thành từ đầy đủ để tăng tính trực quan cho dataset Để thuận tiện cho việc phân tích các lĩnh vực công việc, chúng tôi sẽ thêm một cột mới mang tên ‘job_role’, nhằm phân loại các tên công việc từ cột ‘job_title’ thành những lĩnh vực cụ thể liên quan đến ngành Khoa học dữ liệu, bao gồm: Data và Engineering.
Những công việc khác 5 lĩnh vực trên sẽ được gán giá trị ‘Other’ Sau khi đã chuyển đổi dữ liệu, dataset mới sẽ được biểu diễn như sau:
Bảng 3.2 10 dòng đầu của bộ dữ liệu sau khi chuyển đổi
Phân tích mô tả
Phân tích mô tả trong phân tích dữ liệu là quá trình tóm tắt và hiểu rõ các đặc điểm cũng như mẫu thông tin quan trọng của tập dữ liệu Để đạt được mục tiêu này, chúng ta sẽ thực hiện phân tích mô tả cho bộ dữ liệu của dự án theo hai hướng: phân tích đơn biến (trên từng biến) và phân tích đa biến (trên nhiều biến), sử dụng các biểu đồ khác nhau để trực quan hóa kết quả.
- Biểu đồ 1: Biểu đồ phân bổ lĩnh vực làm việc
+ Dạng biểu đồ: Hình tròn (Pie chart)
+ Loại phân tích: Đơn biến (‘job_role’)
+ Kiểu dữ liệu: Phi số (object)
Hình 3.5 Biểu đồ hình tròn phân bổ lĩnh vực làm việc
Biểu đồ hình tròn là công cụ hữu ích để thể hiện tỷ lệ phần trăm của các giá trị duy nhất Ví dụ, từ dữ liệu về các lĩnh vực công việc trong phân tích ‘job_role’, chúng ta thấy rằng “Data Engineering” chiếm đến 49.4% tổng số công việc trong lĩnh vực khoa học dữ liệu hiện nay, cho thấy sự phân bổ rõ ràng giữa các lĩnh vực này.
- Biểu đồ 2: Biểu đồ phân bổ lương của công việc (tính theo USD) + Dạng biểu đồ: Phân phối (Displot chart)
+ Loại phân tích: Đơn biến (‘salary_in_usd’)
+ Kiểu dữ liệu: Số nguyên (int64)
Hình 3.6 Biểu đồ phân phối lương tính theo USD
Biểu đồ Displot thể hiện sự phân bố của dữ liệu theo các khoảng giá trị, kết hợp giữa Histogram, KDE và Rug Các khoảng giá trị được chia đều với khoảng cách 20.000 USD, cùng với tần suất chuẩn hóa để tương thích với đường mật độ xác suất (KDE) của cột dữ liệu 'salary_in_usd' Qua biểu đồ, có thể nhận thấy phân phối lương trong ngành khoa học dữ liệu đang có xu hướng lệch dương, tức là lệch về phía bên trái.
- Biểu đồ 3: Biểu đồ phân bổ lương (USD) theo chế độ làm việc + Dạng biểu đồ: Hộp (Boxplot chart)
+ Loại phân tích: Đa biến (‘salary_in_usd’, ‘employment_type’)
+ Kiểu dữ liệu: Hỗn hợp (int64, object)
Hình 3.7 Biểu đồ Boxplot của lương tính theo USD và chế độ làm việc
Biểu đồ hộp là công cụ hữu ích để thống kê phân phối dữ liệu, thể hiện giá trị trung vị, khoảng tứ phân vị và các giá trị ngoại lai Phân tích giá trị 'salary_in_usd' thông qua các chế độ làm việc khác nhau giúp hiểu rõ hơn về sự phân bố thu nhập trong từng nhóm.
Biểu đồ về 'employment_type' cho thấy chế độ làm việc toàn thời gian (Full-Time) mang lại lợi ích kinh tế vượt trội so với ba chế độ làm việc khác.
- Biểu đồ 4: Biểu đồ phân bổ trung bình lương (USD) theo từng năm đối với mỗi lĩnh vực công việc
+ Dạng biểu đồ: Heatmap (Heatmap chart)
+ Loại phân tích: Đa biến (‘salary_in_usd’ (mean),
+ Kiểu dữ liệu: Hỗn hợp (float64, object, object)
Hình 3.8 Biểu đồ Heatmap của trung bình lương (USD) qua từng năm với mỗi mảng làm việc
Biểu đồ heatmap sử dụng màu sắc để thể hiện mối quan hệ giữa hai chiều dữ liệu, cụ thể là 'work_year' và 'job_role', với giá trị màu sắc đại diện cho mức lương trung bình (mean của 'salary_in_usd') Qua phân tích, lĩnh vực “Data Architecture” xuất hiện lần đầu vào năm 2021 với mức lương trung bình cao (170.000$) và hiện tại (năm 2023) có dấu hiệu giảm nhẹ xuống 159.500$ Điều này cho thấy sự biến động của các lĩnh vực theo thời gian, giúp người đọc nắm bắt xu hướng thị trường việc làm.
- Biểu đồ 5: Biểu đồ mức lương ảnh hưởng bởi nơi ở nhân viên và địa điểm công ty
+ Dạng biểu đồ: Phân tán (Scatter chart)
+ Loại phân tích: Đa biến (‘salary_in_usd’, ‘employment_residence’,
+ Kiểu dữ liệu: Hỗn hợp (float64, object, object)
Hình 3.9 Biểu đồ phân tán mức lương ảnh hưởng bởi vị trí công ty và nơi ở nhân viên
Biểu đồ phân tán là công cụ hữu ích để hiển thị mối quan hệ giữa hai tập dữ liệu, với mỗi điểm dữ liệu đại diện cho một cặp giá trị Trong biểu đồ này, trục hoành thể hiện ‘employment_resident’ (nơi ở nhân viên) và trục tung thể hiện ‘company_location’ (vị trí công ty) Kích thước và màu sắc của các điểm dữ liệu được xác định bởi mức lương ‘salary_in_usd’ Qua biểu đồ, chúng ta có thể phân tích và so sánh sự chênh lệch về lương giữa nhân viên làm việc tại cùng một địa điểm nhưng có nơi ở khác nhau, hoặc ngược lại.
- Biểu đồ 6: Biểu đồ thể hiện mức lương trung bình ảnh hưởng bởi vị trí công ty
+ Dạng biểu đồ: Địa lý (Geographical chart)
+ Loại phân tích: Đa biến (‘salary_in_usd’ (mean),
+ Kiểu dữ liệu: Hỗn hợp (float64, object)
Hình 3.10 Biểu đồ địa lý thể hiện mức lương trung bình theo vị trí công ty
Biểu đồ địa lý là một công cụ đặc biệt sử dụng bản đồ để hiển thị dữ liệu theo vị trí địa lý, giúp phân tích sự phân bố của dữ liệu hoặc thông tin liên quan đến các địa điểm cụ thể Biểu đồ này tô màu bản đồ dựa trên mức lương trung bình (mean) của ‘salary_in_usd’, với từng vị trí được xác định theo mã quốc gia ‘company_location’ theo chuẩn ISO 3166 Qua biểu đồ, chúng ta có thể thấy ảnh hưởng của vị trí địa lý đến mức lương trong ngành Khoa học dữ liệu, chẳng hạn như mức lương ở Bắc Mỹ thường cao hơn so với Nam Mỹ.
Phân tích hồi quy
Dự án hiện tại đặt mục tiêu dự báo mức lương thông qua mô hình hồi quy tuyến tính, với biến mục tiêu cần dự đoán là 'salary_in_usd' trong bộ dữ liệu.
Trước tiên, chúng ta cần tinh chỉnh dữ liệu để huấn luyện mô hình hiệu quả Cột 'salary' và cột 'salary_currency' được xác định là không cần thiết vì đã có cột khác cung cấp thông tin tương tự.
Để chuẩn bị dữ liệu cho mô hình hồi quy tuyến tính, chúng ta cần chuyển đổi tất cả giá trị lương về cùng một tỷ giá (USD) và không sử dụng hai cột dữ liệu này trong quá trình huấn luyện Dữ liệu đầu vào cần hoàn toàn là dữ liệu số, vì vậy chúng ta áp dụng thuật toán One-hot Encoding để chuyển đổi dữ liệu phi số thành dữ liệu số Thuật toán này tạo ra các cột mới cho mỗi giá trị phi số, với giá trị nhị phân thể hiện sự xuất hiện của chúng Tuy nhiên, nhược điểm của phương pháp này là số lượng cột dữ liệu có thể tăng lên đáng kể, ảnh hưởng đến quá trình huấn luyện Sau khi xử lý và chuyển đổi dữ liệu, chúng ta tiến hành huấn luyện mô hình hồi quy tuyến tính và đánh giá kết quả thử nghiệm, trong đó chỉ số R Square được sử dụng để đo lường mức độ phù hợp của mô hình với dữ liệu thực tế.
R-square của mô hình hồi quy tuyến tính là 0.462, cho thấy mô hình chỉ giải thích khoảng 46% sự biến thiên của các biến độc lập, trong khi 54% còn lại do các yếu tố ngẫu nhiên khác Để mô hình hồi quy được coi là phù hợp, giá trị R-square cần càng gần 100% càng tốt Do đó, mô hình này có khả năng dự đoán mức lương trong ngành khoa học dữ liệu ở mức trung bình thấp.
Đánh giá & Đề xuất
Phân tích mô tả đã tạo ra các biểu đồ phù hợp, cung cấp cái nhìn tổng quan về mức lương trong ngành Khoa học dữ liệu toàn cầu Tuy nhiên, mô hình hồi quy tuyến tính hiện tại không đạt được R Square tốt, cho thấy rằng mô hình chưa hiệu quả trong việc nắm bắt mối quan hệ giữa các đặc điểm và biến mục tiêu ('salary_in_usd').
Từ đó, ta có thể đề xuất một số phương án để cải thiện hiệu suất của mô hình như sau:
Tạo cột dữ liệu mới hoặc chuyển đổi cột dữ liệu hiện có là cần thiết để hiểu rõ hơn mối quan hệ giữa các dữ liệu đầu vào và biến mục tiêu Đồng thời, việc nghiên cứu tầm quan trọng của từng cột dữ liệu và loại bỏ các dữ liệu không quan trọng sẽ giúp giảm nhiễu và nâng cao hiệu suất của mô hình hồi quy.
Để tối ưu hóa mô hình hồi quy, cần thực hiện nhiều mô hình khác nhau như hồi quy Ridge và hồi quy Lasso Đồng thời, thử nghiệm với các thuật toán học máy khác và thay đổi các phương pháp chuyển đổi dữ liệu hợp lý có thể mang lại kết quả tốt hơn Bên cạnh đó, việc thu thập thêm các cột dữ liệu mới có liên kết chặt chẽ với biến mục tiêu sẽ cung cấp nhiều thông tin hữu ích cho quá trình huấn luyện và học hỏi của mô hình.