Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng

12 1 0
Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng giúp bạn tìm hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thống kê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống kê và khoa học máy tính. Mời các bạn cùng tham khảo!

NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG Nguyễn Thanh Trường Khoa Công nghệ Thông tin Trường Đại học Tài - Marketing Email: nt.truong@ufm.edu.vn Tóm tắt: Việc sử dụng thuật ngữ "khoa học liệu" ngày phổ biến, "dữ liệu lớn" Nhưng có nghĩa gì? Có điều độc đáo nó? Những kỹ "nhà khoa học liệu" cần để làm việc hiệu giới bị che khuất liệu? Tìm hiểu khoa học có tác động gì? Là câu hỏi thường đặt gần Các nhà khoa học liệu thường đóng vai trị nhà tư vấn th cơng ty nơi họ tham gia vào trình định khác tạo chiến lược Nói cách khác, Nhà khoa học liệu sử dụng hiểu biết sâu sắc có ý nghĩa từ liệu để hỗ trợ công ty đưa định kinh doanh thơng minh Từ khóa: Khoa học liệu, data Science, phân tích liệu, data analytics GIỚI THIỆU Khoa học liệu (KHDL) khoa học việc quản trị phân tích liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động KHDL gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Nơm na bước thứ số hóa bước thứ hai dùng liệu Việc phân tích dùng liệu lại dựa vào ba nguồn tri thức: toán học (thống kê tốn học), cơng nghệ thơng tin (máy học) tri thức lĩnh vực ứng dụng cụ thể “Khoa học liệu khai thác, chuẩn bị, phân tích, trực quan hóa trì thơng tin Đây lĩnh vực liên ngành sử dụng phương pháp quy trình khoa học để rút hiểu biết sâu sắc từ liệu” Hình 1: Các khối kiến thức liên quan đên Khoa học liệu 306 Với xuất công nghệ mới, liệu tăng lên theo cấp số nhân Điều tạo hội để phân tích rút hiểu biết sâu sắc có ý nghĩa từ liệu Nó địi hỏi kiến thức chun môn đặc biệt ‘Nhà khoa học liệu’, người sử dụng cơng cụ thống kê & máy học khác để hiểu phân tích liệu Một Nhà Khoa học Dữ liệu, chuyên Khoa học Dữ liệu, khơng phân tích liệu mà cịn sử dụng thuật tốn học máy để dự đoán kiện xảy tương lai Do đó, hiểu Khoa học liệu lĩnh vực liên quan đến việc xử lý liệu, phân tích trích xuất thơng tin chi tiết từ liệu nhiều phương pháp thống kê thuật tốn máy tính khác Nó lĩnh vực đa ngành kết hợp toán học, thống kê khoa học máy tính MỘT SỐ KHĨ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU Hình 2:Vị trí ngành Khoa học liệu Kỹ Kỹ máy học nhanh chóng trở nên cần thiết nhà khoa học liệu công ty điều hướng bão liệu cố gắng xây dựng hệ thống định tự động dựa độ xác dự đốn Một khóa học máy học cần thiết thị trường ngày Ngoài ra, kiến thức xử lý văn "khai thác văn bản" trở nên cần thiết trước bùng nổ văn liệu phi cấu trúc khác hệ thống chăm sóc sức khỏe, mạng xã hội diễn đàn khác Kiến thức ngôn ngữ 307 đánh dấu XML dẫn xuất cần thiết, nội dung gắn thẻ máy tính thơng dịch tự động Kiến thức nhà khoa học liệu học máy phải xây dựng dựa kỹ thuộc ba lớp rộng: Thứ thống kê, đặc biệt thống kê Bayes, đòi hỏi kiến thức làm việc xác suất, phân phối, kiểm tra giả thuyết phân tích đa biến Nó mua trình tự hai ba khóa học Phân tích đa biến thường trùng lặp với kinh tế lượng, liên quan đến việc điều chỉnh mơ hình thống kê mạnh mẽ với liệu kinh tế Không giống phương pháp học máy, khơng đưa có giả định dạng hàm mối quan hệ biến, phân tích đa biến kinh tế lượng tập trung nhiều vào việc ước lượng tham số mơ hình tuyến tính, mối quan hệ biến phụ thuộc độc lập biểu thị dạng bình đẳng tuyến tính Lớp kỹ thứ hai đến từ khoa học máy tính liên quan đến cách liệu trình bày thao tác bên máy tính Điều liên quan đến chuỗi khóa học cấu trúc liệu, thuật tốn hệ thống, bao gồm tính tốn phân tán, sở liệu, tính tốn song song tính tốn chịu lỗi Cùng với ngơn ngữ kịch (chẳng hạn Python Perl), kỹ hệ thống tảng cần thiết để xử lý tập liệu có kích thước hợp lý Tuy nhiên, để xử lý tập liệu lớn, hệ thống sở liệu chuẩn xây dựng mơ hình liệu quan hệ có hạn chế nghiêm trọng Bước tiến gần điện toán đám mây cấu trúc không tương quan để xử lý liệu khổng lồ cách mạnh mẽ báo hiệu loạt kỹ cần thiết cho nhà khoa học liệu Lớp kỹ thứ ba yêu cầu kiến thức mối tương quan nhân trọng tâm tập mơ hình hóa liên quan đến liệu Mặc dù liệu quan sát thường giới hạn mối tương quan, gặp may Đơi liệu phong phú đại diện cho thử nghiệm ngẫu nhiên tự nhiên khả tính tốn xác suất có điều kiện cách đáng tin cậy, cho phép khám phá cấu trúc nhân quả.22 Việc xây dựng mơ hình nhân mong muốn lĩnh vực mà người ta có độ tin cậy hợp lý tính hồn chỉnh mơ hình xây dựng tính ổn định nó, liệu mơ hình nhân "tạo ra" liệu quan sát ổn định Ít nhất, nhà khoa học liệu nên có ý tưởng rõ ràng khác biệt mối tương quan quan hệ nhân 308 khả đánh giá mơ hình khả thi, mong muốn thực tế bối cảnh khác Bộ kỹ cuối kỹ tiêu chuẩn hóa khó nắm bắt mức độ thủ cơng yếu tố khác biệt quan trọng để trở thành nhà khoa học liệu hiệu quả, khả hình thành vấn đề theo cách dẫn đến giải pháp hiệu Herbert Simon, nhà kinh tế học người Mỹ kỷ 20, người đặt thuật ngữ "trí tuệ nhân tạo" chứng minh nhiều vấn đề dường khác thường "đẳng hình" có cấu trúc giống hệt Ơng chứng minh nhiều tốn đệ quy biểu diễn dạng toán Towers of Hanoi tiêu chuẩn, liên quan đến trạng thái toán tử ban đầu mục tiêu giống hệt Điểm lớn ơng dễ dàng giải vấn đề dường khó khăn thể cách sáng tạo với tính đẳng hình tâm trí Theo nghĩa rộng hơn, chun mơn cơng thức liên quan đến khả nhìn thấy điểm chung vấn đề khác nhau; ví dụ, nhiều vấn đề có "các lớp mục tiêu không cân bằng" thường biểu thị biến phụ thuộc thú vị (chẳng hạn người phát triển biến chứng bệnh tiểu đường phản ứng với đề nghị khuyến tiếp thị) Đây trường hợp quan tâm mà chúng tơi muốn dự đốn Những vấn đề thách thức mơ hình, theo thuật ngữ Popperian, phải cố gắng đưa dự đốn có khả sai trừ mơ hình giỏi việc phân biệt lớp Các nhà khoa học liệu có kinh nghiệm quen thuộc với vấn đề biết cách hình thành chúng theo cách giúp hệ thống có hội đưa dự đốn xác điều kiện mà yếu tố tiên xếp chồng lên nhiều chống lại Kỹ xây dựng vấn đề đại diện cho kỹ cốt lõi nhà khoa học liệu thập kỷ tới Thuật ngữ "tư tính tốn" Papert21 đặt Wing32 xây dựng có tinh thần tương tự kỹ mơ tả Có hoạt động đáng kể trường đại học để đào tạo sinh viên kỹ đặt vấn đề cung cấp môn tự chọn cấu trúc xung quanh cốt lõi phù hợp với ngành cụ thể Cuộc cách mạng khoa học liệu đặt thách thức tổ chức nghiêm trọng cách tổ chức quản lý nhà khoa học liệu họ Bên cạnh việc nhận nuôi dưỡng kỹ phù hợp, địi hỏi thay đổi tư nhà quản lý đối 309 với việc định dựa liệu để thay tăng cường trực giác thực hành khứ Một câu nói tiếng nhà thống kê người Mỹ kỷ 20 W Edwards Demming "Chúng tin tưởng vào Chúa, người khác xin vui lòng mang theo liệu" đặc trưng cho định hướng mới, từ việc định dựa trực giác đến việc định dựa thực tế Từ quan điểm định, chuyển sang kỷ nguyên liệu lớn, nơi nhiều loại vấn đề, máy tính người định tốt người, nơi mà "tốt hơn" định nghĩa chi phí, độ xác khả mở rộng Sự thay đổi xảy giới tài sử dụng nhiều liệu, nơi máy tính đưa phần lớn định đầu tư, thường vài phần giây, có thơng tin Điều tương tự xảy lĩnh vực quảng cáo trực tuyến nơi hàng triệu đấu giá tiến hành mili giây ngày, kiểm sốt khơng lưu, định tuyến giao hàng nhiều loại nhiệm vụ lập kế hoạch địi hỏi quy mơ, tốc độ độ xác đồng thời, xu hướng có khả tăng nhanh vài năm tới NHU CẤU NHÂN LỰC TRÊN THẾ GIỚI VÀ VIỆT NAM 3.1 Trên giới “Các công việc thuộc ngành khoa học Dữ liệu ngày trở nên hấp dẫn hơn”, theo Andrew Flowers – nhà kinh tế học từ tổ chức Indeed với trụ sở Austin, Texas Báo cáo từ Indeed cho thấy nhu cầu tuyển dụng nhân lực ngành tăng 29% sau năm, mức tăng trưởng 344% từ năm 2013 Nhu cầu tuyển dụng chuyên gia khoa học liệu tăng lên tổ chức tự trì hoạt động thơng qua việc nghiên cứu liệu Tương tự, liệu từ website tuyển dụng ngành công nghệ cho thấy nhu cầu nhân lực liên quan đến khoa học liệu tảng website tăng 32%, khoa học liệu coi “một kỹ có nhu cầu cao” Các thơng báo tuyển dụng công ty đến từ nhiều lĩnh vực khác nhau, không riêng công nghệ Nhu cầu cho khoa học liệu tăng lên đặn với 32,000 tin tuyển dụng vào tháng Khi công ty nhận giá trị tầm quan trọng Big Data, họ đẩy mạnh sử dụng để đưa định kinh doanh đắn 310 Lý tăng nhanh nhu cầu nhân lực ngành khoa học liệu: Các công ty đối mặt với thách thức việc xử lý liệu Mỗi ngày, công ty tạo số lượng lớn liệu Điều nghĩa dù cơng ty sở hữu nhiều liệu, họ lại không thật biết nên làm với thơng tin Vậy nên để xử lý khối lượng thông tin khai thác thông tin từ chúng, họ cần đội ngũ chuyên gia ngành khoa học liệu Sự thiếu hụt nhân lực có trình độ cao Đồng sáng lập Giám đốc điều hành Fractal Analytics, ông Srikanth Velamakanni cho biết: “Có hai thiếu hụt nhân tài: Chuyên gia khoa học liệu – người thực phân tích liệu, Cố vấn phân tích liệu – người hiểu vận dụng thông tin Nguồn cung cấp nhân lực cho công việc này, đặc biệt Chuyên gia phân tích liệu, hoi, nhu cầu ngày tăng Tháng năm 2018, kết thống kê LinkedIn cho thấy thiếu hụt 150,000 người có kỹ khoa học liệu Mỹ Khoảng thiếu hụt cung-cầu giảm bớt có nhiều chuyên gia khoa học liệu tài thâm nhập thị trường lao động Khó khăn việc tìm kiếm người đa tài Các chuyên gia khoa học liệu thường mong đợi có kiến thức ngơn ngữ lập trình – Python R Các chun gia khoa học liệu mong đợi có kinh nghiệm thực hành cơng cụ Hadoop, Spark, NoQuery, kinh nghiệm đào tạo mơ hình thống kê, máy học lập trình Song song với mơ hình thống kê máy học tạo nhiều nhu cầu kỹ ngôn ngữ lập trình SQL, Apache Spark hệ thống sở liệu quan hệ sở liệu NoQuery ý Đây thường thứ khó tìm thấy người lĩnh vực Rào cản gia nhập cho chuyên gia thuộc lĩnh vực khác Phần lớn chuyên gia khoa học liệu có tảng tốn học/thống kê, khoa học máy tính, kỹ thuật khoa học tự nhiên, số có kinh doanh, kinh tế khoa học xã hội 311 Những người khơng có tảng máy tính/tốn học gặp khó khăn tự nâng cao trình độ qua khóa học online Mức lương hậu hĩnh Do nhu cầu cao nhà khoa học liệu vai trò khoa học liệu khác, mức lương cho vị trí nâng lên Cơng việc việc làm trả lương cao ngành vào thời điểm Theo Glassdoor, lương trung bình cho nhà khoa học/nhà phân tích liệu đứng đầu 62.000 đô la Mỹ/năm Ở Ấn Độ, kinh nghiệm định nhiều đến việc trả lương Tổ hợp nhiều vai trò Khoa học liệu tổ hợp số mảng thống kê, phân tích liệu, máy học lập trình máy tính Do đó, nhân ngành khoa học liệu đảm nhận nhiều vai trị như: - Nhà khoa học liệu - Nhà phân tích liệu - Kiến trúc sư liệu - Nhà phân tích kinh doanh - Kỹ sư liệu - Quản trị viên sở liệu - Nhà thống kê - Trình quản lý liệu phân tích Nhà khoa học liệu chức danh cơng việc địi hỏi khắt khe vị trí có mức lương cao lĩnh vực khoa học liệu Nhu cầu nhân lực ngành khoa học liệu ngày lớn, ngày nhiều sinh viên theo học trau dồi kỹ ngành Các vai trị & Cơng việc Khoa học Dữ liệu hàng đầu cho năm 2019: Tìm phù hợp với bạn [5] “Nhà khoa học liệu, chức danh công việc quyến rũ kỷ 21” 312 Tùy theo chuyên ngành vị trí có mức lương khác nhau: Data Architect: Một số công cụ quan trọng kiến trúc sư liệu sử dụng XML, Hive, SQL, Spark Pig Mức lương trung bình kiến trúc sư liệu $ 123,680/năm Data Science Manager: Ứng viên nên có kỹ giao tiếp lãnh đạo mạnh mẽ để hướng dẫn nhóm cách hiệu Mức lương trung bình cho nhà quản lý khoa học liệu - $ 69.059 / năm Data Science Manager: Ứng viên nên có kỹ giao tiếp lãnh đạo mạnh mẽ để hướng dẫn nhóm cách hiệu Mức lương trung bình cho nhà quản lý khoa học liệu - $ 69.059 năm Statistician: Một số công cụ nhà thống kê sử dụng R, SAS, SPSS, Matlab, Python, Stata, SQL, v.v Mức lương trung bình nhà thống kê $ 82,477/năm Machine Learning Engineer: Một số công cụ phổ biến kỹ sư máy học sử dụng TensorFlow, Keras, PyTorch, scikit-learning, Caffe, v.v Mức lương trung bình kỹ sư máy học $ 114,826/năm Tại Việt Nam Theo trang https://www.vietnamworks.com/ tìm việc làm ngành Khoa học liệu Phân tích liệu nhu cấu nhiều, mức lương cao 313 Hình 3: Mức lương ngành Khoa học liệu Việt Nam GIẢI QUYẾT VẤN ĐỀ VỚI KHOA HỌC DỮ LIỆU Khi giải vấn đề giới thực Khoa học liệu, bước để giải bắt đầu với Làm Tiền xử lý liệu Khi Nhà khoa học liệu cung cấp tập liệu, tập liệu định dạng phi cấu trúc với nhiều điểm không quán khác Việc tổ chức liệu loại bỏ thông tin sai giúp dễ dàng phân tích rút hiểu biết sâu sắc Quá trình bao gồm việc loại bỏ liệu thừa, chuyển đổi liệu theo định dạng quy định, xử lý giá trị bị thiếu, v.v Nhà khoa học liệu phân tích liệu thông qua thủ tục thống kê khác Đặc biệt, hai loại thủ tục sử dụng là: ✓ Thống kê mô tả ✓ Thống kê suy luận Giả sử bạn nhà khoa học liệu làm việc cho công ty sản xuất điện thoại di động Bạn phải phân tích khách hàng sử dụng điện thoại di động công ty bạn Để làm vậy, trước tiên bạn xem xét kỹ lưỡng liệu hiểu xu hướng mơ hình khác liên quan Cuối cùng, bạn tóm tắt liệu trình bày dạng đồ thị biểu đồ Do đó, bạn áp dụng thống kê mơ tả để giải vấn đề 314 Sau đó, bạn rút ‘suy luận’ kết luận từ liệu Chúng ta hiểu số liệu thống kê theo cấp số nhân thơng qua ví dụ sau - Giả sử bạn muốn tìm số lỗi xảy trình sản xuất Tuy nhiên, việc kiểm tra điện thoại di động thời gian Do đó, bạn xem xét mẫu điện thoại cho đưa tổng thể số lượng điện thoại bị lỗi tổng số mẫu Bây giờ, bạn phải dự đoán doanh số bán điện thoại di động khoảng thời gian hai năm Kết là, bạn sử dụng Thuật toán hồi quy Dựa doanh số bán hàng lịch sử cho, bạn sử dụng thuật toán hồi quy để dự đoán doanh số bán hàng theo thời gian Hơn nữa, bạn muốn phân tích xem liệu khách hàng có mua sản phẩm hay không dựa mức lương hàng năm, độ tuổi, giới tính điểm tín dụng họ Bạn sử dụng liệu lịch sử để tìm hiểu liệu khách hàng mua (1) hay khơng (0) Vì có hai đầu ‘lớp’, bạn sử dụng Thuật tốn phân loại nhị phân Ngồi ra, có nhiều hai lớp đầu ra, sử dụng Thuật toán phân loại đa biến để giải vấn đề Cả hai vấn đề nêu phần ‘Học tập có giám sát’ Cũng có trường hợp liệu "khơng gắn nhãn" Điều này, khơng có phân tách đầu lớp cố định đề cập Giả sử bạn phải tìm nhóm khách hàng tiềm khách hàng tiềm dựa tảng kinh tế xã hội họ Vì bạn khơng có nhóm lớp cố định liệu lịch sử mình, bạn sử dụng Thuật toán phân cụm để xác định cụm nhóm khách hàng tiềm Phân cụm thuật tốn “Học khơng giám sát” Xe tự lái trở thành công nghệ thịnh hành Nguyên tắc đằng sau xe tự lái quyền tự chủ, tức đưa định mà khơng cần can thiệp người Các máy tính truyền thống yêu cầu đầu vào người để tạo đầu Học tập củng cố giải vấn đề phụ thuộc vào người Học tập củng cố thực hành động cụ thể để tích lũy phần thưởng tối đa Bạn hiểu điều với ví dụ sau: giả sử bạn huấn luyện chó lấy bóng Sau đó, bạn thưởng cho chó quà phần thưởng lấy bóng Bạn khơng thưởng cho nó khơng lấy bóng Con chó nhận phần thưởng đồ ăn vặt lấy lại bóng Học tăng cường sử dụng nguyên tắc tương tự 315 Một nhà khoa học liệu yêu cầu công cụ phần mềm để giải vấn đề nêu CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU Khoa học liệu tạo chỗ đứng vững số ngành công nghiệp y học, ngân hàng, sản xuất, giao thơng vận tải, Nó có ứng dụng to lớn có nhiều mục đích sử dụng Một số ứng dụng sau khoa học liệu là: 5.1 Khoa học liệu chăm sóc sức khỏe Khoa học liệu đóng vai trị quan trọng ngành chăm sóc sức khỏe Với trợ giúp thuật toán phân loại, bác sĩ phát ung thư khối u giai đoạn đầu phần mềm Nhận dạng Hình ảnh Các ngành Di truyền học sử dụng khoa học liệu để phân tích phân loại mẫu trình tự gen Các trợ lý ảo khác giúp bệnh nhân giải vấn đề thể chất tinh thần họ 5.2 Khoa học liệu thương mại điện tử Amazon sử dụng hệ thống khuyến nghị đề xuất cho người dùng sản phẩm khác dựa trình mua hàng trước họ Các nhà khoa học liệu phát triển hệ thống khuyến nghị dự đốn sở thích người dùng cách sử dụng học máy 5.3 Khoa học liệu sản xuất Robot công nghiệp đảm nhận vai trò trần tục lặp lặp lại cần thiết đơn vị sản xuất Những robot công nghiệp có tính chất tự chủ sử dụng công nghệ Khoa học Dữ liệu Học tăng cường Nhận dạng Hình ảnh 5.4 Khoa học liệu với tư cách tác nhân trò chuyện Alexa Amazon Siri Apple sử dụng nhận dạng giọng nói để hiểu người dùng Dữ liệu nhà khoa học phát triển hệ thống nhận dạng giọng nói này, chuyển đổi giọng nói người thành liệu văn Ngồi ra, sử dụng thuật toán học máy khác để phân loại truy vấn người dùng đưa phản hồi thích hợp 5.5 Khoa học Dữ liệu Giao thông vận tải Tự lái xe ô tô sử dụng đại lý độc lập mà sử dụng thuật toán Cốt Học tập phát Xe tự lái khơng cịn điều viễn tưởng tiến Khoa học Dữ liệu 316 KẾT LUẬN Mặc dù khoa học liệu chủ đề rộng lớn, tổng hợp số công nghệ lĩnh vực, hồn tồn đạt kỹ với cách tiếp cận phù hợp Khoa học liệu lĩnh vực mạnh mẽ phù hợp với người có sở trường thử nghiệm giải vấn đề Với số lượng lớn ứng dụng, khoa học liệu trở thành ngành nghề linh hoạt TÀI LIỆU THAM KHẢO [1] http://wikipedia.org [2] https://www.sisense.com/ [3] https://www.tutorialspoint.com/ [4] https://www.r-project.org/ [5] https://data-flair.training/ [6] https://www.vietnamworks.com/ [7] Wes McKinney, “Python for Data Analysis”, O’Reilly Media, Inc, 2017 [8] Nguyễn Văn Tuấn, “Phân tích liệu với R”, NXB tổng hợp TP HCM, 2014 317 ... học, thống kê khoa học máy tính MỘT SỐ KHĨ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU Hình 2:Vị trí ngành Khoa học liệu Kỹ Kỹ máy học nhanh chóng trở nên cần thiết nhà khoa học liệu công... Nhà khoa học liệu chức danh công việc địi hỏi khắt khe vị trí có mức lương cao lĩnh vực khoa học liệu Nhu cầu nhân lực ngành khoa học liệu ngày lớn, ngày nhiều sinh viên theo học trau dồi kỹ ngành. .. làm ngành Khoa học liệu Phân tích liệu nhu cấu nhiều, mức lương cao 313 Hình 3: Mức lương ngành Khoa học liệu Việt Nam GIẢI QUYẾT VẤN ĐỀ VỚI KHOA HỌC DỮ LIỆU Khi giải vấn đề giới thực Khoa học

Ngày đăng: 31/12/2022, 12:43

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan