Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
2,41 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN - BÁO CÁO ĐỒ ÁN TÌM HIỂU VỀ VỊ TRÍ DATA ENGINEER TRONG DOANH NGHIỆP Sinh viên thực hiện: Huỳnh Trung Hiếu - 22540006 Trần Vũ Minh - 22540011 Giảng viên: Ths Lưu Thanh Sơn Thành phố Hồ Chí Minh, tháng 10 năm 2022 MỤC LỤC CHƯƠNG 1: GIỚI THIỆU VỀ VỊ TRÍ DATA ENGINEER 1 Khái niệm Data Engineer Chức Data Engineer doanh nghiệp Sự khác biệt Data Engineer so với Data Analyst Data Scientis CHƯƠNG 2: NHỮNG KIẾN THỨC CẦN HỌC ĐỂ TRỞ THÀNH MỘT DATA ENGINEER Ngôn ngữ sử dụng 1.1 SQL 1.2 Python 1.3 R Hệ sở liệu quan hệ phi quan hệ 2.1 Cơ sở liệu quan hệ (SQL) 2.2 Cơ sở liệu phi quan hệ (NoSQL) Giải pháp ETL/ ELT 3.1 ETL 3.2 ELT Data Warehouse 10 Data Lake 11 Xây dựng báo cáo phân tích 12 CHƯƠNG 3: CƠ HỘI VIỆC LÀM CỦA LẬP TRÌNH VIÊN DATA ENGINEER 14 Những khó khăn, thách thức với nghề Data Engineer 14 Con đường nghiệp Data Engineer 15 Triển vọng công việc 16 TÀI LIỆU THAM KHẢO 17 CHƯƠNG 1: GIỚI THIỆU VỀ VỊ TRÍ DATA ENGINEER Khái niệm Data Engineer Data Engineer trình thiết kế xây dựng hệ thống cho phép người thu thập phân tích liệu thô từ nhiều nguồn định dạng Các hệ thống cho phép người tìm thấy ứng dụng thực tế liệu, mà doanh nghiệp sử dụng để phát triển [1] Data Engineer loại kỹ sư phần mềm, người tạo đường ống ETL liệu lớn để quản lý luồng liệu thông qua tổ chức Điều giúp doanh nghiệp lấy lượng lớn liệu chuyển thành thơng tin chi tiết Họ tập trung vào sản xuất liệu thứ định dạng, khả phục hồi, mở rộng bảo mật [2] Chức Data Engineer doanh nghiệp Trong doanh nghiệp, Data Engineer chịu trách nhiệm thiết kế, xây dựng bảo trì luồng liệu Họ kiểm tra hệ sinh thái sở liệu doanh nghiệp chuẩn bị liệu cho Data Scientist chạy thuật toán tiến hành phân tích liệu tồn hệ thống Một Data Engineer tham gia vào hoạt động khác nhau, số hoạt động sau: - Làm cho liệu truy cập để tổ chức sử dụng để cải - Thu thập quản lý liệu, chuyển đổi liệu thành thơng tin hữu ích - Xây dựng trì đường ống liệu trì sở liệu - Cộng tác với quản lý để nhận thức mục tiêu tổ chức - Tạo quy trình xác thực liệu cơng cụ phân tích - Thiết kế, xây dựng, kiểm tra trì hệ thống quản lý liệu [3] thiện hiệu suất họ Sự khác biệt Data Engineer so với Data Analyst Data Scientis Dữ liệu ln quan trọng hình thức định Thế giới ngày chạy hồn tồn dựa liệu khơng tổ chức ngày tồn khơng có kế hoạch chiến lược định dựa liệu Ngày nay, có số vai trị ngành xử lý liệu hiểu biết tin cậy vơ giá Dựa nhiệm vụ, vai trò doanh nghiệp phân biệt khác Data Engineer, Data Analyst Data Scientis sau: - Data Analyst chịu trách nhiệm thực hành động ảnh hưởng đến phạm vi công ty Data Engineer chịu trách nhiệm phát triển tảng mà Data Analysts Data Scientists làm việc Và Data Scientist chịu trách nhiệm khai thác insights tương lai từ liệu có giúp cơng ty đưa định dựa liệu - Một Data Analyst khơng trực tiếp tham gia vào q trình định Đúng gián tiếp ảnh hưởng đến định thông qua việc cung cấp insights tĩnh hiệu hoạt động công ty Một Data Engineer không chịu trách nhiệm việc định Và Data Scientist tham gia vào trình định có ảnh hưởng đến hoạt động cơng ty - Một Data Analyst sử dụng kỹ thuật mơ hình tĩnh để tóm tắt liệu thơng qua phân tích mơ tả Mặt khác, Data Engineer chịu trách nhiệm phát triển bảo trì Data Pipelines Một data scientist sử dụng kỹ thuật động Học máy có insights tương lai - Kiến thức học máy không quan trọng Data Analyst Tuy nhiên, điều bắt buộc Data Scientist Một Data Engineer khơng cần phải có kiến thức học máy bắt buộc phải có kiến thức khái niệm điện toán cốt lõi lập trình thuật tốn để xây dựng hệ thống liệu mạnh mẽ - Data Analyst phải xử lý liệu có cấu trúc Tuy nhiên, Data Scientists - Data Analyst Data Scientist yêu cầu phải thành thạo việc trực Data Engineers phải xử lý liệu phi cấu trúc quan hóa liệu Tuy nhiên, điều không bắt buộc Data Engineer - Cả Data Scientists Analysts không cần phải có kiến thức phát triển ứng dụng hoạt động API Tuy nhiên, yêu cầu cần thiết Data Engineer [4] CHƯƠNG 2: NHỮNG KIẾN THỨC CẦN HỌC ĐỂ TRỞ THÀNH MỘT DATA ENGINEER Ngôn ngữ sử dụng 1.1 SQL Data Engineer phải sử dụng SQL để thiết lập, truy vấn quản lý hệ thống sở liệu Khái niệm: SQL loại ngôn ngữ máy tính, giúp cho thao tác lưu trữ truy xuất liệu lưu trữ sở liệu quan hệ SQL viết tắt Structured Query Language ngơn ngữ truy vấn có cấu trúc [5] SQL ngơn ngữ tiêu chuẩn hóa ANSI (American National Standards Institute) – Viện tiêu chuẩn quốc gia Hoa Kỳ Đây đồng thời ngôn ngữ sử dụng phổ biến hệ thống quản lý sở liệu quan hệ hỗ trợ sử dụng công ty lớn công nghệ Lịch sử hình thành: - 1970 – Tiến sĩ Edgar F “Ted” Codd mơ tả mơ hình quan hệ cho sở liệu - 1974 – Ngôn ngữ truy vấn có cấu trúc (SQL) xuất - 1978 – IBM phát hành sản phẩm có tên System/R - 1986 – IBM phát triển nguyên mẫu sở liệu quan hệ, tiêu chuẩn - 1989 – Phiên SQL mắt - 1999 – SQL mắt với tính trình kích hoạt, hướng đối tượng, v.v - SQL 2003 – hàm window, tính liên quan đến XML, v.v - SQL 2006 – Hỗ trợ ngôn ngữ truy vấn XML - SQL 2011 – Hỗ trợ cải tiến cho sở liệu tạm thời [6] hóa ANSI Tính bật: - Dữ liệu hiển thị thiết bị - Các thao tác tùy chỉnh liệu thêm, xóa hay sửa vô đơn giản, không phức tạp ngơn ngữ khác - Hỗ trợ lập trình nhờ vào khả lưu trữ liệu nhiều ứng dụng - Có thể nhúng ngơn ngữ khác có dùng mơ-đun SQL - Có lịch sử lâu dài, uy tín sử dụng nhiều doanh nghiệp chun CSDL cơng nghệ Ngồi việc ngơn ngữ máy tính phổ biến, SQL cịn ngơn ngữ máy tính hữu dụng Vì vậy, người ta thường sử dụng SQL cho mục đích: - Tạo sở liệu, bảng view - Để chèn ghi vào sở liệu - Để xóa ghi từ sở liệu - Để lấy liệu từ sở liệu 1.2 Python Data Engineer sử dụng Python để viết ETL scripts Mà Python quan trọng với ETL (Extract-Transform-Load, q trình trích xuất, chuyển đổi tải lên liệu), hoạt động phân tích liệu ứng dụng học máy Khái niệm: Python ngôn ngữ lập trình bậc cao cho mục đích lập trình đa năng, Guido van Rossum tạo lần đầu mắt vào năm 1991 Python thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ Python ngơn ngữ có cấu trúc rõ ràng, thuận tiện cho người học lập trình ngơn ngữ lập trình dễ học; dùng rộng rãi phát triển trí tuệ nhân tạo [7] Lịch sử hình thành: - Guido Van Rossum cho mắt phiên ngôn ngữ Python (phiên 0.9.0) vào năm 1991 Ngôn ngữ bao gồm tính hữu ích số kiểu liệu hàm để xử lý lỗi - Python 1.0 mắt vào năm 1994 với hàm để dễ dàng xử lý danh - Python 2.0 mắt vào ngày 16 tháng 10 năm 2000, với tính sách liệu, chẳng hạn ánh xạ, lọc lược bỏ hữu ích cho lập trình viên, chẳng hạn hỗ trợ ký tự Unicode cách xử lý chi tiết danh sách nhanh chóng - Python 3.0 mắt vào ngày tháng 12 năm 2008 Phiên bao gồm tính hàm in hỗ trợ nhiều cho việc phân chia số xử lý lỗi [8] Tính bật: - Ngơn ngữ lập trình miễn phí, mã nguồn mở - Khả di chuyển: Các chương trình Python di chuyển từ tảng sang tảng khác chạy mà khơng có thay đổi Nó chạy liền mạch hầu hết tất tảng Windows, macOS, Linux - Khả mở rộng nhúng: dễ dàng kết hợp phần code C, C++ ngơn ngữ khác (có thể gọi từ C) vào code Python - Ngôn ngữ thông dịch cấp cao: Khi chạy code Python, tự động chuyển đổi code sang ngơn ngữ máy tính hiểu - Thư viện tiêu chuẩn lớn để giải tác vụ phổ biến: Python có số lượng lớn thư viện tiêu chuẩn giúp cho cơng việc lập trình trở nên dễ dàng nhiều, đơn giản khơng phải tự viết tất code - Hướng đối tượng: Mọi thứ Python hướng đối tượng Lập trình hướng đối tượng (OOP) giúp giải vấn đề phức tạp cách trực quan Với OOP, phân chia vấn đề phức tạp thành tập nhỏ cách tạo đối tượng [9] 1.3 R Data Engineer sử dụng ngôn ngữ R để phân tích liệu thiết lập mơ hình thống kê, trang tổng quan hiển thị trực quan Khái niệm: R ngôn ngữ lập trình hàm cấp cao vừa mơi trường dành cho tính tốn thống kê R hỗ trợ nhiều cơng cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu [10] Lịch sử hình thành: - R tạo Phịng thí nghiệm Bell John Chambers vào năm 1976 R phát triển phần mở rộng phần triển khai ngôn ngữ lập trình S - Dự án R phát triển Ross Ihaka Robert Gentleman phát hành vào năm 1992, phiên vào năm 1995 phiên beta ổn định vào năm 2000 [11] Tính bật: - Ngơn ngữ tồn diện: cung cấp dịch vụ để lập mơ hình thống kê để phát triển phần mềm R ngơn ngữ lập trình hướng đối tượng, bổ sung cho tính lập trình thủ tục - Ngơn ngữ lập trình miễn phí, có mã nguồn mở - Có khả tương thích đa tảng: R chạy hệ điều hành môi trường phần mềm Nó chạy cấu hình phần cứng mà khơng cần thêm giải pháp thay - Không cần trình biên dịch: Ngơn ngữ R thơng dịch thay biên dịch Do đó, khơng cần trình biên dịch để biên dịch mã thành chương trình thực thi Mã R diễn giải bước chuyển đổi trực tiếp thành lệnh gọi cấp máy Điều làm cho việc chạy tập lệnh R tốn thời gian nhiều - Thực phép tính nhanh: thực nhiều thao tác phức tạp vectơ, mảng, khung liệu đối tượng liệu khác có kích thước khác với tốc độ nhanh - Có thể xử lý tất loại liệu: R cung cấp phương tiện lưu trữ xử lý liệu tuyệt vời R tạo điều kiện thuận lợi cho việc xử lý liệu có cấu trúc phi cấu trúc để truyền đạt khả liệu toàn diện Hơn nữa, R cung cấp phương tiện vận hành liệu mơ hình hóa liệu khác thường kết tương tác tích cực với phương tiện lưu trữ Nó cung cấp phần mở rộng cho SQL Dữ liệu lớn - Tích hợp với cơng nghệ khác: R tích hợp với số cơng nghệ, khn khổ, gói phần mềm ngơn ngữ lập trình khác C, C ++, Java, Python [12] Hệ sở liệu quan hệ phi quan hệ Data Engineer cần biết cách làm việc với nhiều tảng liệu khác Đặc biệt hệ thống sở liệu quan hệ dựa SQL (RDBMS) MySQL, PostgreSQL (một sở liệu kết hợp SQL NoSQL), Microsoft SQL Server Oracle Đồng thời, họ phải biết cách làm việc với sở liệu NoSQL MongoDB, Cassandra, Couchbase, Cơ sở liệu Oracle NoSQL sở khác 2.1 Cơ sở liệu quan hệ (SQL) Cơ sở liệu quan hệ loại sở liệu lưu trữ cung cấp quyền truy cập vào điểm liệu có liên quan đến Cơ sở liệu quan hệ dựa mơ hình quan hệ, cách trực quan, đơn giản để biểu diễn liệu bảng Trong sở liệu quan hệ, hàng bảng ghi với ID gọi khóa Các cột bảng chứa thuộc tính liệu ghi thường có giá trị cho thuộc tính, giúp dễ dàng thiết lập mối quan hệ điểm liệu [13] Cơ sở liệu quan hệ thông tin lưu trữ dạng bảng, xuất vào năm 1970 từ IBM sau tiếp nhận Oracle Các sở liệu phổ biến có quan hệ rõ ràng Oracle, MySQL Postgres [14] 2.2 Cơ sở liệu phi quan hệ (NoSQL) Cơ sở liệu phi quan hệ không tn theo mơ hình quan hệ truyền thống Danh mục sở liệu hay gọi NoSQL, chứng kiến tăng trưởng mạnh mẽ năm gần Cơ sở liệu khắc phục hạn chế sở liệu quan hệ việc giải nhu cầu Dữ liệu lớn (Big Data) [14] Mơ hình liệu: sở liệu NoSQL cung cấp mô hình linh hoạt giúp cập nhật CSDL dễ dàng Cấu trúc liệu: Dữ liệu lớn ngày không vận hành theo hàng cột, tức cấu trúc Mơ hình phát triển: NoSQL thường nguồn mở nên không cần phải trả khoản phí [14] Giải pháp ETL/ ELT Để chuyển đổi di chuyển liệu từ hệ thống lưu trữ ứng dụng sang hệ thống lưu trữ ứng dụng khác, Data Engineer cần hiểu rõ sử dụng thành thạo giải pháp ETL Đường dẫn liệu (ETL (Extract – Transform – Load) hay ELT (Extract – Load – Transform) thực nhiệm vụ tổng hợp, xếp di chuyển liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ phân tích ETL ELT cần thiết khoa học liệu, nguồn thông tin — cho dù chúng sử dụng sở liệu SQL có cấu trúc hay sở liệu NoSQL khơng cấu trúc — định dạng tương tự tương thích với Do đó, nguồn liệu cần làm sạch, làm giàu chuyển đổi trước tích hợp thành tổng thể phân tích 3.1 ETL Khái niệm: ETL tên viết tắt Extract, Transform Load Trong q trình này, cơng cụ ETL trích xuất liệu từ hệ thống nguồn RDBMS khác sau chuyển đổi liệu áp dụng biến đổi liệu (tính tốn, nối chuỗi v.v ) sau tải liệu vào hệ thống Data Warehouse ETL luồng từ “nguồn” tới ”đích” Trong trình ETL, engine chuyển đổi xử lý thay đổi liệu Ưu điểm: - ETL cho phép phân tích liệu nhanh hơn, hiệu hơn, ổn định - Bảo vệ liệu cá nhân tốt - Có nhiều cơng cụ tảng ETL phát triển tốt, sẵn có để hỗ trợ nhu cầu trích xuất, chuyển đổi tải liệu Nhược điểm: - Nhu cầu bảo trì cao cần phải chọn liệu để load transform - ETL thường giải pháp cho Data Lake Nó biến đổi liệu - ETL sử dụng để cấu trúc liệu phi cấu trúc, khơng thể - Thời gian tải ETL lâu ELT q trình gồm nhiều giai đoạn: để tích hợp với hệ thống kho liệu quan hệ có cấu trúc sử dụng để chuyển liệu phi cấu trúc vào hệ thống đích (1) tải liệu vào staging area, (2) diễn trình chuyển đổi, (3) tải liệu vào kho liệu Khi liệu tải, việc phân tích thơng tin nhanh ELT - Chi phí cao cho doanh nghiệp vừa nhỏ 3.2 ELT Khái niệm: ELT phương pháp khác để tiếp cận công cụ chuyển động liệu Thay chuyển đổi liệu trước viết, ELT cho phép “hệ thống đích” chuyển đổi trước Dữ liệu chép vào “đích” sau chuyển đổi ELT thường sử dụng với database No-SQL Hadoop, Data Appliance Cloud Installation Ưu điểm: - Linh hoạt dễ dàng lưu trữ liệu mới, khơng có cấu trúc - Có thể lưu loại thơng tin — bạn khơng có thời gian - Khơng phải phát triển quy trình ETL phức tạp trước nhập liệu tiết - Nhu cầu bảo trì thấp liệu ln có sẵn - Tải nhanh hơn: Bởi bước chuyển đổi không xảy liệu vào khả để chuyển đổi cấu trúc thông tin trước kiệm thời gian cho nhà phát triển nhà phân tích BI xử lý thơng tin kho, nên ELT cắt giảm thời gian tải liệu vào vị trí cuối Khơng cần đợi liệu làm sửa đổi theo cách khác, cần vào hệ thống mục tiêu lần - Có hỗ trợ sẵn cho liệu phi cấu trúc - Chi phí đầu vào thấp sử dụng phần mềm online làm Services Platforms Nhược điểm: - ELT tin cậy ETL: Điều quan trọng cần lưu ý công cụ hệ thống ELT phát triển, chúng chưa thể đạt mức độ đáng tin cậy cao ETL ghép nối với sở liệu OLAP - Để thực trình ELT, cần phải có kiến thức sâu tools - Khái niệm tương đối phức tạp để triển khai kĩ chuyên môn Data Warehouse Data Warehouse (DW) hay gọi Enterprise Data Warehouse hệ thống ứng dụng q trình lập báo cáo phân tích liệu DW nơi lưu trữ liệu tích hợp từ nhiều nguồn khác nhau, bao gồm liệu khứ hay lưu trữ tất nơi DW sau trở thành nguồn liệu để lập báo cáo phân tích tồn doanh nghiệp Các liệu lưu trữ Data Warehouse liệu thu từ hệ thống dùng để xử lý giao dịch ngày doanh nghiệp (được gọi operational systems) DW giúp doanh nghiệp thực trình biến đổi liệu thành thơng tin Data Warehouse lưu trữ liệu lược đồ bảng giúp tổ chức sử dụng liệu để đưa định chiến lược Có loại Data Warehouse là: ETL ELT: Đặc tính: - Dữ liệu tìm thấy kho liệu tích hợp, quán quy ước đặt tên, đo lường biến, cấu trúc mã hóa, thuộc tính vật lý liệu, v.v - Dữ liệu lưu trữ DW phần lớn liệu lịch sử Nó chủ yếu dành cho việc khai thác dự báo liệu - Dữ liệu DW để chế độ đọc, có nghĩa khơng thể cập - Thành phần liệu nguồn: - Dữ liệu nguồn vào Data warehouse nhóm thành bốn loại lớn: - Production Data: Loại liệu đến từ hệ điều hành khác doanh nhật, tạo xóa nghiệp Dựa yêu cầu liệu Data warehouse, chọn phân đoạn liệu từ chế độ hoạt động khác - Internal Data: Trong tổ chức, khách hàng lưu giữ bảng tính, báo cáo, hồ sơ khách hàng đơi chí sở liệu phận “riêng tư” họ Đây liệu nội bộ, phần hữu ích Data warehouse - Archived Data: Các hệ thống hoạt động chủ yếu nhằm mục đích điều hành công việc kinh doanh Trong hệ thống hoạt động, định kỳ lấy liệu cũ lưu trữ tệp đạt 10 - External Data: Hầu hết giám đốc điều hành phụ thuộc vào thơng tin từ nguồn bên ngồi cho tỷ lệ lớn thông tin họ sử dụng Họ sử dụng số liệu thống kê liên quan đến ngành họ phận bên cung cấp Ưu điểm: - Tích hợp liệu từ nhiều nguồn vào sở liệu mơ hình liệu Tập hợp liệu nhiều vào sở liệu để công cụ truy vấn sử dụng để trình bày liệu - Duy trì lịch sử liệu, lịch sử hệ thống giao dịch gốc - Tích hợp liệu từ nhiều hệ thống nguồn, cho phép có góc nhìn bao qt tồn doanh nghiệp, hữu ích cho doanh nghiệp trải qua sáp nhập - Trình bày thơng tin doanh nghiệp cách quán - Hỗ trợ hoạt động thường ngày doanh nghiệp, đặc biệt hệ thống quản - Giúp việc thực truy vấn thông tin nhằm đưa định dễ dàng - Tổ chức phân loại thông tin lý quan hệ khách hàng Nhược điểm: - Dữ liệu khơng thể bị thay đổi phát sai sót sau đưa vào DW Data Lake Data Lake (DL) kho lưu trữ lưu trữ lượng lớn liệu định dạng gốc (chuỗi số nhị phân, tập tin) DL thường kho liệu đơn lẻ chép từ gốc DL thiết lâp "tại chỗ" (trong trung tâm liệu tổ chức) "trong đám mây" (sử dụng dịch vụ đám mây từ nhà cung cấp Amazon, Microsoft Google) Ưu điểm: - Data Lake có ưu điểm khả khai thác nhiều loại liệu từ nhiều nguồn khác thời gian ngắn, đồng thời cấp quyền cho người dùng cộng tác phân tích liệu theo nhiều cách khác nhau, giúp cho việc định nhanh chóng chuẩn xác Một số lợi ích bật Data Lake bao gồm: 11 - Cải thiện tương tác với khách hàng: Data Lake có khả kết hợp liệu khách hàng từ CRM với phương tiện truyền thông xã hội, tảng mua bán bao gồm lịch sử mua hàng phiếu xử lý cố Điều cho phép doanh nghiệp nắm rõ nhóm khách hàng sinh lời cao nhất, tìm hiểu nguyên nhân khiến khách hàng rời bỏ thương hiệu chương trình ưu đãi Từ giúp gia tăng lòng trung thành khách hàng doanh nghiệp - Cải thiện lựa chọn đổi R&D: Data Lake giúp nhóm R&D kiểm tra giả thuyết họ, điều chỉnh giả định đánh giá kết nhằm đẩy nhanh hiệu suất công việc - Tăng hiệu hoạt động: Internet of Things (IoT) cung cấp nhiều phương thức thu thập liệu quy trình sản xuất, thơng qua liệu thời gian thực từ thiết bị kết nối Internet Data Lake giúp cho việc lưu trữ chạy phân tích liệu IoT trở nên dễ dàng hơn, nhằm khám phá phương thức giúp giảm thiểu chi phí hoạt động, gia tăng chất lượng Xây dựng báo cáo phân tích Báo cáo phân tích báo cáo kinh doanh để bên liên quan xác định hướng hành động tốt Dữ liệu phân tích biến đổi thành thơng tin chi tiết hữu ích Các nhà tiếp thị thường sử dụng công cụ kinh doanh thông minh để tạo báo cáo thông tin Về bố cục, loại báo cáo kinh doanh bao gồm từ tài liệu nặng văn (ví dụ: Google Tài liệu với ảnh chụp hình, bảng tính Excel) đến trình bày trực quan Báo cáo phân tích phải bao gồm nội dung sau: - Trang tiêu đề - bao gồm chủ đề mục đích báo cáo - Mục lục - theo thứ tự hợp lý theo trình tự thời gian - Một điều khoản - xác định trình bày phương pháp sử dụng cho hoạt - Cuộc thảo luận - chia thành phần có tổ chức, bao gồm tiêu đề, động tiêu đề phụ nội dung thảo luận - Kết luận - theo kết thông tin thu thập báo cáo - Các đề xuất - đưa nhân viên tạo báo cáo 12 - Các phần dành cho thư mục phụ lục - cần thiết - Xác định vấn đề: bước để tạo báo cáo phân tích xác định vấn đề người bị ảnh hưởng Đảm bảo bạn mơ tả vấn đề cách bao gồm thông tin nơi bắt đầu, kỹ thuật sử dụng để giải hiệu chúng - Giải thích phương pháp: liệt kê phương pháp sử dụng báo cáo để xác định mức độ thành công hành động bạn Bạn nên thêm hai phương pháp để thử thay - Phân tích liệu: báo cáo phân tích hiển thị phân tích chi tiết thơng tin thu thập thơng qua phương pháp nghiên cứu sử dụng Như bạn biết, báo cáo xây dựng để phân loại vấn đề cụ thể định phương pháp thay để thử Vì vậy, hữu ích bạn phân tích thành cơng hay thất bại giải pháp bạn thử từ đầu - Kiến nghị: cuối cùng, báo cáo phân tích bạn nên bao gồm đề xuất giải pháp Và, hữu ích bạn đặt giải pháp cuối báo cáo Bằng cách đưa số đề xuất, bạn đưa định dựa liệu thay đốn 13 CHƯƠNG 3: CƠ HỘI VIỆC LÀM CỦA LẬP TRÌNH VIÊN DATA ENGINEER Những khó khăn, thách thức với nghề Data Engineer Đối với cơng việc có yêu cầu riêng để đáp ứng cơng việc lẽ cơng việc cần có kiến thức chuyên môn định Đối với Data Engineer đảm bảo yếu tố sau: Trình độ chuyên mơn tốt: - Trình độ chun mơn yếu tố quan trọng định đến thành công cơng việc, kiến thức trình độ chun mơn tảng vững giúp đáp ứng yêu cầu công việc - Chuyên môn với cơng việc khác khác Đặc biệt với cơng việc làm mang tính chất chun ngành chắn cần phải đảm bảo cơng việc tính chất cơng việc họ - Kiến thức trình độ chun mơn qua việc học biết hết kiến thức mặt lý thuyết mà cần đảm bảo mặt thực hành Nghĩa lý thuyết thực hành phải biết làm tốt Có khả làm việc nhóm tốt: - Đối với môi trường làm việc doanh nghiệp bạn làm việc tập thể làm việc nhóm Làm việc nhóm tạo cho bạn mức độ hiệu làm việc tốt Đặc biệt hơn, kỹ mềm mà nhiều nhà tuyển dụng ưa chuộng muốn nhìn thấy ứng viên - Khi làm việc nhóm phát huy tối đa khả bạn, từ nhìn thấy bạn có phải người có tố chất lãnh đạo hay khơng? Hay bạn có phải người có khả làm việc nhóm hịa đồng với người hay khơng Đối với cơng việc người data engineer chắn làm việc nhóm đem lại hiệu mong đợi - Chúng ta khơng thể phủ nhận lợi ích cơng việc mà làm việc nhóm đem lại, có vài hạn chế làm việc làm việc nhóm có nhiều người ỉ lại vào việc để hưởng lợi ích khơng muốn 14 làm việc Chính làm việc nhóm cần phải phát huy hết khả mà bạn có Có khả chịu áp lực cao công việc: - Hầu hết công việc có áp lực cơng việc, với tính chất cơng việc khác bạn có áp lực cơng việc riêng Người làm kinh doanh phải chịu áp lực từ doanh số khách hàng - Còn với người làm cơng việc kỹ sư liệu họ bị áp lực cấp khách hàng, gặp lỗi phải xử lý nào? Khối lượng cơng việc hàng ngày lớn nên tránh khỏi áp lực công việc hàng ngày Con đường nghiệp Data Engineer Data Engineer tên gọi chung kỹ sư liệu Nhưng Data Engineer chia thành số loại khác tùy thuộc vào loại hình công ty, cụ thể sau: - Generalist – Kỹ sư liệu đảm nhiệm công việc tổng quát: loại kỹ sư liệu có trách nhiệm chung, thường làm việc nhóm nhỏ Cơng việc họ thu thập, nhập xử lý liệu đầu cuối Họ có nhiều kỹ hầu hết kỹ sư liệu, họ không giỏi, không chuyên lĩnh vực cơng việc có kiến thức kiến trúc hệ thống - Pipeline-centric – Data Engineer phụ trách mảng data pipeline: công ty cỡ vừa với nhu cầu phân tích liệu phức tạp thường yêu cầu Data Engineer tập trung vào data pipeline Họ làm việc với nhóm nhà khoa học liệu để chuyển đổi liệu thành định dạng hữu ích cho việc phân tích Điều địi hỏi hiểu biết chuyên sâu hệ thống phân tán khoa học máy tính Những kỹ sư liệu tập trung vào data pipeline yêu cầu tạo công cụ cho phép nhà khoa học liệu truy vấn siêu liệu để sử dụng thuật toán dự đoán - Database-centric – Kỹ sư liệu chuyên mảng sở liệu: kỹ sư liệu có nhiệm vụ triển khai, trì đưa vào sở liệu phân tích Những kỹ sư liệu thường tồn công ty lớn, nơi liệu trải rộng nhiều database Các kỹ sư sử dụng đường ống, điều chỉnh 15 sở liệu để phân tích hiệu tạo lược đồ bảng (table schema) cách sử dụng phương pháp trích xuất, biến đổi, tải (ETL) ETL trình chép liệu từ nhiều nguồn vào hệ thống đích Triển vọng cơng việc Mức lương Data Engineer phụ thuộc vào nhiều yếu tố như: vị trí cụ thể, cấp bậc kinh nghiệm thực tế Có thể chia mức lương Data Engineer theo mức sau đây: - Đối với người mới: Những người bao gồm sinh viên trường, thực tập sinh… Họ có kiến thức công nghệ thông tin, có kỹ phù hợp để đáp ứng nhu cầu công việc giai đoạn Mức lương Data Engineer dành cho người dao động khoảng từ 300 – 500$ - Đối với nhân viên thức: Cấp độ cao nguời mới, họ tự nâng cao kỹ năng, trình độ chun mơn Tùy vào lực kỹ mức lương cho vị trí dao động từ 700 – 1500$ - Đối với cấp bậc quản lý: Những người đảm nhận vị trí Leader, Manager… Họ khơng đơn giỏi kiến thức, kỹ mà phải có kinh nghiệm việc xây dựng kế hoạch phát triển Để lên đến vị trí bạn phải có từ – năm kinh nghiệm, mức lương cho vị trí dao động khoảng 1500 – 2500$ - Đối với nhân viên cấp cao: Đây xem vị trí cao Data Engineer Họ chịu trách nhiệm định hướng phát triển tổng thể, tạo kế hoạch để thúc đẩy giá trị công nghệ tổ chức Họ hồn tồn đạt mức lương 600$, chí cao vị trí 16 TÀI LIỆU THAM KHẢO [1] https://www.dremio.com/resources/guides/intro-data-engineering/ [2] https://en.wikipedia.org/wiki/Data_engineering [3] https://www.spec-india.com/blog/data-engineer [4] https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-dataanalyst/#:~:text=A%20data%20analyst%20uses%20static,gain%20insights%20about %20the%20future [5] https://www.tutorialspoint.com/sql/sql-overview.html [6] https://gambaru.io/en/blog/sql-la-gi-cach-su-dung-sql [6] https://vi.wikipedia.org/wiki/Python [7] https://quantrimang.com/hoc/python-la-gi-tai-sao-nen-chon-python-140518 [8] https://aws.amazon.com/vi/what-is/python/ [9] http://www.cit.ctu.edu.vn/~dtnghi/dataminingR/NNR.pdf [10] https://websitehcm.com/cac-tinh-nang-moi-nhat-cua-ngon-ngu-r/ [11] https://websitehcm.com/tim-hieu-ve-ngon-ngu-r-trong-data-science/ [12] https://kinhtevimo.vn/co-so-du-lieu-quan-he-la-gi-uu-diem-va-cac-rang-buoc/ [11] http://sqladvice.com/khac-nhau-giua-sql-nosql/ [12] https://viblo.asia/p/etl-va-elt-nhung-su-khac-biet-can-phai-biet-Ljy5VQGVlra 17