1.3.2 Phạm vi nghiên cứu Tập trung nghiên cứu về các yếu tố tác động đến mức lương và mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới trong giai đoạn 2020 - 2022.. 1.
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC KINH TẾ - LUẬT
Trang 2MỤC LỤC
DANH M C BỤ ẢNG BIỂU 4
DANH MỤC HÌNH ẢNH 5
CHƯƠNG 1: PHẦN MỞ ĐẦU 6
1.1 Lý do chọn đề tài 6
1.2 M c tiêu 7 ụ 1.2.1 M c tiêu chung 7 ụ 1.2.2 M c tiêu c ụ ụ thể 7
1.3 Đối tượng và phạm vi nghiên cứu 7
1.3.1 Đối tượng nghiên cứu 7
1.3.2 Ph m vi nghiên c u 7 ạ ứ 1.4 Câu h i nghiên c u 7 ỏ ứ 1.5 Phương pháp nghiên cứu 8
1.6 Ý nghĩa của đề tài nghiên cứu 8
CHƯƠNG 2: DỮ LIỆ U VÀ K T QUẢ NGHIÊN CỨU 10 Ế 2.1 Dữ liệu và thang đo 10
2.1.1 D u nghiên c u 10 ữ liệ ứ 2.1.2 Thang đo của dữ liệu 10
2.2 Phân tích s u 12 ố liệ 2.2.1 X ử lý số liệ u 12
2.2.2 Th ng kê mô t 14 ố ả 2.3 Gi thuy t nghiên c u và th ng kê suy di n 27 ả ế ứ ố ễ 2.3.1 Các gi ả thuyết nghiên c u 27 ứ 2.3.2 Th ng kê suy di n 27 ố ễ CHƯƠNG 3: KẾT LUẬN VÀ KIẾN NGHỊ 65
3.1 Kết luận 65
Trang 33.2 Ki n ngh 66 ế ị TÀI LIỆU THAM KH O 69 Ả
Trang 4DANH MỤC BẢNG BIỂU
Bảng 1 - B ng th ng kê Missing value 13 ả ốBảng 2 - B ng salary_in_usd_khoanggiatri 13 ảBảng 3 - B ng t n s vả ầ ố ề đối tư ng Work_year 15 ợBảng 4 - B ng t n s vả ầ ố ề đối tư ng Experience_level 16 ợBảng 5 - B ng t n s vả ầ ố ề đối tư ng Employment_type 17 ợBảng 6 - B ng t n s vả ầ ố ề đối tư ng Job_title 18 ợBảng 7 - B ng t n s vả ầ ố ề đối tư ng Salary_currency 19 ợBảng 8 - B ng t n s vả ầ ố ề đối tư ng Salary_in_usd 20 ợBảng 9 - B ng t n s vả ầ ố ề đối tư ng Employee_residence 21 ợBảng 10 - B ng t n s v ả ầ ố ề đối tư ng Remote_ratio 22 ợBảng 11 - B ng t n s v ả ầ ố ề đối tư ng Company_location 23 ợBảng 12 - B ng t n s v ả ầ ố ề đối tư ng Company_size 24 ợ
Trang 5DANH MỤC HÌNH ẢNH
Hình 1 - Biểu đồ ề đối tượ v ng Work_year 15
Hình 2 - Biểu đồ ề đối tượ v ng Experience_level 16
Hình 3 - Biểu đồ ề đối tượ v ng Employment_type 17
Hình 4 - Biểu đồ ề đối tượ v ng Salary_in_usd 20
Hình 5 - Biểu đồ ề đối tượ v ng Remote_ratio 22
Hình 6 - Biểu đồ ề đối tượ v ng Company_size 24
Trang 6CHƯƠNG 1: PHẦN MỞ ĐẦU 1.1 Lý do chọn đề tài
Theo techjury.net [1], trong năm 2020, con người chúng ta tạo ra 1.7MB dữ liệu mỗi giây Nếu tổng hợp lại con số về dữ liệu con người tạo ra, đến năm 2022 con số này lên đến 1.145 nghìn tỷ MB mỗi ngày Thông qua những con số khổng lồ này, ta
đã có thể hình dung được dữ liệu nắm một vai trò then chốt như thế nào trong cuộc sống hằng ngày Đặc biệt, trong thời đại 4.0 tập trung vào công nghệ kỹ thuật số, dữ liệu chính là chìa khóa cho sự phát triển mọi lĩnh vực của nhân loại Chính vì vậy, ngành Khoa học dữ liệu ra đời đáp ứng với nhu cầu của thời đại
Khoa học dữ liệu là lĩnh vực liên ngành sử dụng dữ liệu để phân tích với quy
mô lớn Phân tích được dữ liệu ở nhiều lĩnh vực như kinh doanh thương mại, khoa học
sự sống, kỹ thuật công nghệ, các doanh nghiệp sẽ phát triển vượt bậc với những quyết định đúng đắn Theo dự báo của McKinsey, một trong tứ đại trong ngành quản lý và tham vấn, nhu cầu tuyển dụng ngành Khoa học dữ liệu đang tăng nhanh một cách chóng mặt Ước tính ở Mỹ có thể tới gần con số 1.8 triệu vị trí đang cần tìm người trong ngành này Ở Đông Nam Á, nhiều quốc gia cũng đang ráo riết phát triển nhiều chương trình thu hút nguồn nhân lực trình độ cao cùng với nhiều hoạt động xoay quanh Khoa học dữ liệu
Vì vậy, Khoa học dữ liệu trở thành “Nghề nghiệp quyến rũ nhất thế kỷ 21” trong thị trường nghề nghiệp (theo tạp chí Harvard Business Review) Với những đặc điểm nổi bật đó, mức lương của ngành Khoa học dữ liệu cũng đang là một trong những vấn đề hấp dẫn đáng được chú tâm
Cần phải nắm rõ ở từng cấp bậc, của từng vị trí công việc, tại các loại công ty khác nhau, đến từ các quốc gia khác nhau, đặc biệt là ở các thời điểm khác nhau, sẽ mang đến mức lương như thế nào, để nguồn nhân lực có cái nhìn rõ hơn về vị trí công việc phù hợp với khả năng và điều kiện của mình Đồng thời, việc nắm rõ những yếu
tố trên sẽ giúp hệ thống tuyển dụng cũng như nguồn nhân lực có những bước chuẩn bị đúng đắn trong các bước tiến thuộc lĩnh vực Khoa học dữ liệu này Chính vì những lý
do trên, nhóm chúng em lựa chọn đề tài: “Những yếu tố ảnh hưởng đến mức lương của ngành Khoa học dữ liệu”
Trang 72020 - 2022
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Các yếu tố tác động đến mức lương và mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới trong giai đoạn 2020 - 2022
1.3.2 Phạm vi nghiên cứu
Tập trung nghiên cứu về các yếu tố tác động đến mức lương và mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới trong giai đoạn 2020 - 2022
1.4 Câu hỏi nghiên cứu
1 Tiền lương trung bình được chi trả trong ngành Khoa học dữ liệu là bao nhiêu? Tại các quốc gia trên thế giới trong giai đoạn 2020 2022 có sự biến động - không?
2 Cấp bậc kinh nghiệm công việc tác động như thế nào đến mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới ?
3 Mức lương ở những hình thức làm việc như full-time, part-time, contract, freelance liệu có sự khác biệt?
4 Đa số các công ty trong ngành Khoa học dữ liệu phát triển nhiều ở những quốc gia nào? Có sự khác biệt trong tiền lương ở các công ty thuộc những quốc gia khác nhau không?
5 Yếu tố tỉ lệ công việc phải hoàn thành từ xa tác động như thế nào đến mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới trong giai đoạn
2020 - 2022?
Trang 86 Yếu tố quy mô của công ty tác động như thế nào đến mức lương của ngành Khoa học dữ liệu tại các quốc gia trên thế giới?
1.5 Phương pháp nghiên cứu
Đề tài sử dụng 2 phương pháp nghiên cứu chính: Nghiên cứu định tính và Nghiên cứu định lượng
Nghiên cứu định tính: thu thập các thông tin và dữ liệu dưới dạng “phi số” để
có được các thông tin chi tiết về đối tượng nghiên cứu, khảo sát hoặc điều tra (dưới đây gọi chung là ‘đối tượng nghiên cứu’) nhằm phục vụ mục đích phân tích hoặc đánh giá chuyên sâu, đồng thời sử dụng kỹ thuật thảo luận nhóm, chuyên gia để hiệu chỉnh,
bổ sung các biến quan sát nhằm xây dựng những tiêu chí đánh giá, chỉnh sửa, loại bỏ hay bổ sung câu hỏi phục vụ cho quá trình nghiên cứu định lượng Kết quả của bước này là xây dựng được một bảng câu hỏi chính thức: https://salaries.ai-jobs.net/ [2]Nghiên cứu định lượng: thu thập các thông tin và dữ liệu dưới dạng số học, số liệu có tính chất thống kê để có được những thông tin cơ bản, tổng quát về đối tượng nghiên cứu nhằm phục vụ mục đích thống kê, phân tích; hay nói cách khác là lượng hóa việc thu thập và phân tích dữ liệu Các thông tin, dữ liệu thường được thu thập thông qua khảo sát sử dụng bảng hỏi trên diện rộng Dùng kỹ thuật điều tra bằng bảng câu hỏi để thu thập số liệu Mẫu được chọn theo phương pháp phi xác suất, thuận tiện với kích thước mẫu n=607 Tổng hợp dữ liệu thu thập được, trình bày: https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries [3] Các thang đo
và chỉ số sẽ được phân tích thông quan phần mềm STATA 16
1.6 Ý nghĩa của đề tài nghiên cứu
Thứ nhất, thông qua bài nghiên cứu, người lao động, đặc biệt là học sinh, sinh viên đang định hướng, tìm kiếm việc làm sẽ có thêm thông tin và vốn hiểu biết về những yếu tố liên quan đến tiền lương ngành Khoa học dữ liệu
Thứ hai, từ những thông tin nói trên, người lao động có thể đưa ra lựa chọn tốt nhất cho hướng đi của mình trong ngành Khoa học dữ liệu
Thứ ba, nghiên cứu đóng một vai trò quan trọng cho các nhà tuyển dụng để đưa
ra những đề xuất tuyển dụng thích hợp nhất, bắt kịp sự phát triển của thời đại
Trang 9Thứ tư, nghiên cứu là tài liệu tham khảo cho các bài nghiên cứu liên quan Dựa trên nền tảng mô hình bài nghiên cứu này, các nghiên cứu sau có thể chỉnh sửa để hoàn thiện hơn về đề tài nghiên cứu
Trang 10CHƯƠNG 2: DỮ LIỆU VÀ KẾT QUẢ NGHIÊN CỨU 2.1 Dữ liệu và thang đo
2.1.1 Dữ liệu nghiên cứu
2.1.1.1 Dữ liệu sơ cấp
- Các nhân tố ảnh hưởng đến tiền lương trong ngành Khoa học dữ liệu
- Nguồn dữ liệu: Câu trả lời ẩn danh đến từ 607 nhân viên làm việc trong ngành Khoa học dữ liệu từ Bảng câu hỏi khảo sát thông tin tiền lương trong ngành Khoa học dữ liệu
- Phương pháp thu thập: Thu thập dữ liệu thông qua đường link khảo sát https://salaries.ai-jobs.net/ [2]
2.1.1.2 Dữ liệu thứ cấp
- Nguồn dữ liệu: salaries [3]
https://www.kaggle.com/datasets/ruchi798/data-science-job-2.1.2 Thang đo của dữ liệu
Dữ liệu Nội dung Chú thích
Thang
đo định danh
Thang
đo thứ bậc
Thang
đo khoảng
-EN: Entry level/ Junior -MI: Mid-level/
Intermediate -SE: Senior-level/ Expert
-EX:
x
Trang 11Executive-level / Director
Employment_type Hình thức việc
làm
-PT Part-time -FT Full-time
-CT Contract -FL Freelance
Job_title Vai trò công
việc trong năm
Mã quốc gia ISO 3166
remote_ratio Tổng số công
việc được thực hiện từ xa
-0 - Không có công việc từ xa (dưới 20%)
x
Trang 12-50 - Một phần
từ xa -100 - hoàn toàn từ xa (hơn 80%)
company_location Vị trí trụ sở
chính
Mã quốc gia ISO 3166
x
company_size Quy mô công ty
(dựa vào số lượng người trung bình làm việc cho công ty trong năm)
-S: ít hơn 50 nhân viên
-M: 50 đến 250 nhân viên
-L: lớn hơn 250 nhân viên
x
2.2 Phân tích số liệu
2.2.1 Xử lý số liệu
2.2.1.1 Nhập liệu
- Tổng hợp lại kết quả các dữ liệu đã thu được
- Chuyển đổi dữ liệu thu thập trên vào bảng Excel
- Lập cột đổi tiền lương quy về USD
- Lưu bảng Excel, nhập bảng Excel đó vào STATA 16
Trang 132.2.1.2 Kiểm tra Missing Value
⇒ Không có Missing Value
2.2.1.3 Chia khoảng giá trị cho biến salary_in_usd
egen salary_in_usd_khoanggiatri= cut ( salary_in_usd ), at (2858 (59714.3) 600001)
Bảng 2 - Bảng salary_in_usd_khoanggiatri
Trang 142.2.1.4 Mã hóa
encode experience_level , gen (experience_levelMH)
tostring experience_levelMH, gen(Experience_level)
encode employment_type , gen ( employment_type_levelMH)
tostring employment_type_levelMH, gen(Employment_type_level)
encode job_title , gen ( job_title_levelMH)
tostring job_title_levelMH , gen( Job_title )
encode salary_currency, gen ( salary_currencyMH)
tostring salary_currencyMH , gen( Salary_currency )
encode employee_residence, gen ( employee_residenceMH)
tostring employee_residenceMH , gen( Employee_residence )
encode company_location , gen ( company_locationMH)
tostring company_locationMH , gen( Company_location )
encode company_size , gen ( company_sizeMH)
tostring company_sizeMH , gen( Company_size )
2.2.2 Thống kê mô tả
2.2.2.1 Đặc điểm mẫu khảo sát
- Mẫu được thu thập theo phương pháp thuận tiện dưới hình thức bảng câu hỏi khảo sát: https://salaries.ai-jobs.net/
- Kết quả thu về với 607 người tham gia khảo sát:
https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries
2.2.2.2 Thông tin về các đối tượng khảo sát
(Freq: Tần số, Percent: Tần suất, Cum: Tần suất tích lũy)
Trang 15● Work_year
Bảng 3 - Bả ng t n sầ ố v ề đối tượng Work_year
Nhận xét: Theo bảng thống kê và biểu đồ trên, mẫu nghiên cứu gồm 607 người, trong đó số người tham gia khảo sát với năm tiền lương được trả là 2022 chiếm đa số (52.39%) còn lại là số người tham gia khảo sát với năm tiền lương được trả 2021,
2020 (lần lượt là 35.75 % và 11.86%) Như vậy số lượng lao động trong ngành Khoa học dữ liệu có sự tăng lên qua các năm
Trang 16● Experience_level
Bảng 4 - Bả ng t ần số v ề đối tượng Experience_level
Nhận xét: Trong 607 người tham gia khảo sát, trong đó số người tham gia khảo sát ở cấp bậc Senior level/ Expert chiếm đa số với 280 người, chiếm 46.13% Ít nhất -
là ở cấp bậc Executive level / Director chỉ có 26 người tham gia khảo sát, chiếm 4.28%
Trang 17-● Employment_type
Nhận xét: Trong tổng số người thực hiện khảo sát hầu như đều làm việc Full time (96.87%)
Trang 18● Job_title
Bảng 6 - Bả ng t ần s v ố ề đối tượng Job_title
Trang 19Nhận xét: Bảng thống kê cho thấy, vị trí Data Scientist chiếm số lượng lớn nhất với 143 người chiếm 23.56%
Đối với các vị trí như 3D Computer Vision Researcher, Big Data Architect, Data Analytics Lead, Data Specialist, Finance Data Analyst, Head of Machine Learning, Lead Machine Learning Engineer, Machine Learning Manager, Marketing Data Analyst, NLP Engineer, Staff Data Scientist chỉ có một người tham gia khảo sát
Có thể thấy đây là một số vị trí tương đối mới trong ngành Khoa học dữ liệu
● Salary_currency
Nhận xét: Tiền lương trả bằng USD chiếm tỷ lệ nhiều nhất với 65.57%
Trang 20● Salary_in_usd
Trang 21Nhận xét: Tiền lương của số lượng người tham gia khảo sát nằm trong khoảng [$62 572.3, $122 286.6) chiếm số lượng nhiều nhất với 228 người (37.56%) Chỉ có 1 người có tiền lương từ $540 286.7 trở lên
● Employee_residence
Bảng 9 - Bả ng t n sầ ố v ề đối tượng Employee_residence
Trang 22Nhận xét: Người tham gia khảo sát đến từ Mỹ là nhiều nhất với 332 người chiếm 54.7%
● Remote_ratio
Nhận xét: Tỷ lệ công việc làm việc từ xa 100 - hoàn toàn từ xa (hơn 80%)chiếm tỷ lệ nhiều nhất với 62.77%
Trang 23● Company_location
Nhận xét: Đa số người tham gia khảo sát làm việc ở công ty có trụ sở chính tại
Mỹ, chiếm 58.58% Những thống kê mô tả trên cho thấy điều này là hợp lý vì đa số những người thực hiện khảo sát có quốc tịch Mỹ, và tiền lương nhận được đa số là đồng USD
Trang 24● Company_size
Nhận xét: Đa số người trong ngành Khoa học dữ liệu tham gia khảo sát làm việc trong công ty có quy mô vừa (có từ 50 đến 250 nhân viên)
Trang 252.2.2.3 Trị thống kê mô tả đặc trưng
(Obs: số quan sát, Mean: Trung bình, Std Dev.: Độ lệch chuẩn, Min: Giá trị nhỏ nhất, Max: Giá trị lớn nhất)
Trang 262.3 Giả thuyết nghiên cứu và thống kê suy diễn
2.3.1 Các giả thuyết nghiên cứu
1 Tiền lương trung bình cho ngành Khoa học dữ liệu là $113000
2 Mức tiền lương nhận được của nhân viên trong ngành Khoa học dữ liệu biến đổi qua các năm
3 Cấp bậc kinh nghiệm trong công việc có sự ảnh hưởng đến tiền lương của nhân viên trong ngành Khoa học dữ liệu
4 Hình thức làm việc khác nhau thì mức tiền lương của nhân viên trong ngành Khoa học dữ liệu là khác nhau
5 Trong ngành Khoa học dữ liệu, có ít nhất 96% hình thức công việc là làm việc Full-time
6 Vị trí công việc khác nhau thì mức tiền lương của nhân viên trong ngành Khoa học dữ liệu là khác nhau
7 Tỷ lệ số lượng công việc có thể hoàn thành từ xa khác nhau thì mức tiền lương của nhân viên trong ngành Khoa học dữ liệu là khác nhau
8 Nhóm yếu tố vị trí trụ sở công ty khác nhau thì mức tiền lương của nhân viên làm trong ngành Khoa học dữ liệu là khác nhau
9 Có ít nhất 50% công ty trong ngành Khoa học dữ liệu có trụ sở chính tại Mỹ
10 Nhóm yếu tố quy mô công ty khác nhau thì mức tiền lương của nhân viên làm trong ngành Khoa học dữ liệu là khác nhau
2.3.2 Thống kê suy diễn
1 Kiểm định tiền lương trung bình cho ngành Khoa học dữ liệu là $113000
- Giả thuyết đặt ra: Tiền lương trung bình cho ngành Khoa học dữ liệu là