CHƯƠNG I: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU 1.Giới thiệu 1.1.Quản lý dữ liệu là gì? Dữ liệu rất quan trọng đối với bất kỳ tổ chức nào, bất kể ngành nào. Trong lĩnh vực chăm sóc sức khỏe, nó cung cấp thông tin chi tiết về chăm sóc bệnh nhân. Và trong các doanh nghiệp khác, nó có thể thông báo các quyết định và cải thiện trải nghiệm của khách hàng. Quản lý và phân tích dữ liệu là quá trình quản lý và phân tích dữ liệu quan trọng đó. Hiểu đơn giản “Data management best practices = better Data analytics” có nghĩa là khi chúng ta quản lý dữ liệu hiệu quả thì việc phân tích cũng sẽ diễn ra tốt hơn, kết quả chính xác hơn. Data management có thể là bước ban đầu chuẩn bị dữ liệu để phân tích hoặc bước xử lý kết quả (xử lý dữ liệu) sau giai đoạn phân tích. Nhiều công ty thường thất bại trong các dự án lớm về Big data hay Data analytics chỉ bởi nguyên nhân xuất phát từ khâu quản lý dữ liệu không hợp lý. Điển hình là việc dữ liệu không trong trạng thái ‘sẵn sàng’, chưa được hoàn chỉnh lại được đem đi phân tích một cách vội vã. Dữ liệu không ‘sẵn sàng’ có thể là dữ liệu không được chọn lọc, không được chuyển đổi đúng cách, các loại dữ liệu bị trùng lặp, định dạng dữ liệu không tương thích với phần mềm phân tích,… Như vậy Data management là việc xây dựng, tổ chức, bảo trì, kiểm soát các hệ thống, quá trình xử lý dữ liệu như thu thập, lưu trữ, chọn lọc, làm sạch, chuyển đổi, phân tích,… việc kiểm soát các hoạt động có trong vòng đời dữ liệu từ xác định mục tiêu kinh doanh đến trực quan hóa dữ liệu và áp dụng kết quả phân tích vào thực tế. Nói cách khác, Data management là một tập hợp các công việc thực tiễn, quy trình, kết hợp với một loạt các hệ thống, công cụ cho phép tổ chức ‘giành quyền kiểm soát’ và quản lý nguồn tài nguyên dữ liệu của mình. Data management có thể xuất hiện trong mỗi một giai đoạn của vòng đời dữ liệu. Ví dụ: Khi xem xét trong một tập dữ liệu, Data management tác động từ điểm bắt đầu của việc thu thập, hình thành tập dữ liệu cho đến điểm kết thúc là lưu trữ hay loại bỏ tập dữ liệu sau khi đã phân tích.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ Phân tích quản trị liệu (Data Management and Analytics) Giảng viên hướng dẫn: Vương Xuân Chí Sinh viên thực hiện: Trần Nguyễn Thanh Ngân MSSV: 2000006329 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở khoa học liệu Khóa: 2020 Tp.HCM, tháng năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ Phân tích quản trị liệu (Data Management and Analytics) Giảng viên hướng dẫn: Vương Xuân Chí Sinh viên thực hiện: Trần Nguyễn Thanh Ngân MSSV: 2000006329 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở khoa học liệu Khóa: 2020 Tp.HCM, tháng năm 2022 Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thông Tin CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHIỆM VỤ ĐỒ ÁN CHUYÊN NGÀNH/CƠ SỞ (Sinh viên phải đóng tờ vào báo cáo) Họ tên: TRẦN NGUYỄN THANH NGÂN MSSV: 2000006329 Chuyên ngành: CÔNG NGHỆ THÔNG TIN Lớp: 20DTH1D Email: 123456@GMAIL.COM SĐT: 11111111 Tên đề tài: Phân tích quản trị liệu (Data Management and Analytics) Gíao viên hướng dẫn: Vương Xuân Chí Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022 MÔ TẢ ĐỀ TÀI: Quản trị phân tích liệu nhánh rẽ quan trọng lĩnh vực công nghệ Phân tích liệu mang tính đa ngành Các phương pháp toán học, thống kê, kỹ thuật, dự báo, học máy, trí tuệ nhân tạo sử dụng rộng rãi nhằm thu thập giá trị từ liệu NỘI DUNG VÀ PHƯƠNG PHÁP: - Giới thiệu tầm quan trọng quản lý liệu, nhu cầu thị trường làm việc - Quản lý liệu cần có quy trình, thực hiện, minh họa liệu - Kết luận YÊU CẦU: - Có kiến thức, đam mê, hiểu biết công nghệ Mạng neural, Machine Learning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ trình bày văn máy tính tốt - Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả làm việc độc lập làm việc nhóm tốt Nội dung u cầu thơng qua Bộ mơn TP.HCM, ngày TRƯỞNG BỘ MƠN (Ký ghi rõ họ tên) Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thông Tin tháng năm GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI CẢM ƠN Trong thời gian thực đồ án sở khoa học liệu em giúp đỡ nhiệt tình, lời khuyên bổ ích, đóng góp nhiệt tình thầy bạn bè Em xin chân thành cảm ơn hướng dẫn trực tiếp giảng viên thầy Vương Xuân Chí giảng dạy bảo em tận tâm q trình học tập Thầy ln giải đáp thắc mắc đưa lời khuyên giúp em hiểu vấn đề mơn học Và thầy Vương Xn Chí tận tình giảng dạy, trang bị cho em kiến thức quý báu học kỳ vừa qua Với điều kiện thời gian cịn kinh nghiệm kiến thức sinh viên tránh thiếu sót nhiều điểm chưa hợp lý Em mong nhận thông cảm góp ý thầy khoa để em bổ sung hoàn thiện hơn, nâng cao kiến thức rút kinh nghiệm cho đề tài sau Em Xin chân thành cảm ơn! Sinh viên thực Trần Tấn Phong Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thông Tin CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI MỞ ĐẦU Trong q trình hồn thành đồ án, chắc khơng tránh khỏi thiếu sót Vì vậy, nhóm em mong nhận lời góp ý đến từ thầy để đồ án sở chúng em hoàn thiện Lý em chọn đề tài quản trị phân tích liệu nhánh rẽ quan trọng lĩnh vực Công nghệ thơng tin Phân tích liệu mang tính đa ngành Các phương pháp tốn học, thống kê, kỹ thuật mơ tả, mơ hình dự báo, học máy, trí tuệ nhân tạo sử dụng rộng rãi nhằm thu thập hiểu biết có giá trị từ liệu TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KỲ THI KẾT THÚC HỌC PHẦN TRUNG TÂM KHẢO THÍ HỌC KỲ NĂM HỌC 2021-2022 PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi: Đồ án sở Khoa Học Dữ Liệu Nhóm sinh viên thực : Trần Nguyễn Thanh Ngân Trần Tấn Phong Lớp học phần:20DTH1D Ngày thi: Phòng thi: Đề tài tiểu luận/báo cáo sinh viên: Phần đánh giá giảng viên (căn thang rubrics môn học): Tiêu chí (theo CĐR HP) Đánh giá GV Điểm tối đa Điểm đạt Cấu trúc báo cáo Nội dung Các nội dung thành phần Lập luận Kết luận Trình bày TỔNG ĐIỂM Giảng viên chấm thi (ký, ghi rõ họ tên) MỤC LỤC MỤC LỤC HÌNH / ẢNH .8 Chương I: Tầm quan trọng quản lý liệu 1.Giới thiệu 1.1.Quản lý liệu gì? 1.2.Các loại quản lý liệu .10 2.Tầm quan trọng quản lý liệu 11 2.1 Lợi ích cải thiện hiệu hoạt động làm việc bên tổ chức 11 2.2 Lợi ích giúp tổ chức đạt mục tiêu hoạt động, kinh doanh 13 3.Nhu cầu thị trường làm việc .16 Chương II: Quản lý liệu cần có gì? 18 1.Nguyên tắc quản lý liệu 18 Thành phần/ chức có Data management 20 2.1 Data access .20 2.2 Data integration 21 2.3 Data governance .22 2.4 Data quality 23 2.5 Data federation 24 2.6 Data preparation .25 2.7 Data architecture management 26 2.8.Data modelling and design 27 2.9.Data storage and operations .27 2.10 Data security 28 2.11 Data warehousing and Business Intelligence 29 Chiến lược quản lý liệu 29 Chương III: Kết luận 30 DANH MỤC TÀI LIỆU KHAM KHẢO 31 MỤC LỤC HÌNH / ẢNH Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 1.1: Qui trình khai phá liệu 1.2: Một số lợi ích khác quản lý liệu 1.3: Khảo sát mức độ cần thiết phân tích liệu 1.4: Nhu cầu nhân lực ngành phân tích liệu 2.1: Data access 2.2: Data integration 2.3: Data governance 2.4: Data quality 2.5: Data federation 2.6: Data preparation 2.7: Data architecture management 2.8: Data modelling and design 2.9: Data storage and operations 2.10: Data security 2.11: Data warehousing and Business Intelligence CHƯƠNG I: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU 1.Giới thiệu 1.1.Quản lý liệu gì? Dữ liệu quan trọng tổ chức nào, ngành Trong lĩnh vực chăm sóc sức khỏe, cung cấp thơng tin chi tiết chăm sóc bệnh nhân Và doanh nghiệp khác, thông báo định cải thiện trải nghiệm khách hàng Quản lý phân tích liệu q trình quản lý phân tích liệu quan trọng Hiểu đơn giản “Data management best practices = better Data analytics” có nghĩa quản lý liệu hiệu việc phân tích diễn tốt hơn, kết xác Data management bước ban đầu chuẩn bị liệu để phân tích bước xử lý kết (xử lý liệu) sau giai đoạn phân tích Nhiều cơng ty thường thất bại dự án lớm Big data hay Data analytics nguyên nhân xuất phát từ khâu quản lý liệu khơng hợp lý Điển hình việc liệu khơng trạng thái ‘sẵn sàng’, chưa hoàn chỉnh lại đem phân tích cách vội vã Dữ liệu khơng ‘sẵn sàng’ liệu khơng chọn lọc, không chuyển đổi cách, loại liệu bị trùng lặp, định dạng liệu khơng tương thích với phần mềm phân tích,… Như Data management việc xây dựng, tổ chức, bảo trì, kiểm sốt hệ thống, q trình xử lý liệu thu thập, lưu trữ, chọn lọc, làm sạch, chuyển đổi, phân tích,… việc kiểm sốt hoạt động có vịng đời liệu từ xác định mục tiêu kinh doanh đến trực quan hóa liệu áp dụng kết phân tích vào thực tế Nói cách khác, Data management tập hợp công việc thực tiễn, quy trình, kết hợp với loạt hệ thống, công cụ cho phép tổ chức ‘giành quyền kiểm soát’ quản lý nguồn tài nguyên liệu Data management xuất giai đoạn vịng đời liệu Ví dụ: Khi xem xét tập liệu, Data management tác động từ điểm bắt đầu việc thu thập, hình thành tập liệu điểm kết thúc lưu trữ hay loại bỏ tập liệu sau phân tích Hình 1.1: Qui trình khai phá liệu 1.2.Các loại quản lý liệu Quản lý liệu đóng vai trị quan trọng môi trường liệu tổ chức, làm cho chức thiết yếu trở nên dễ dàng tốn thời gian Các kỹ thuật quản lý liệu bao gồm: Chuẩn bị liệu sử dụng để làm chuyển đổi liệu thơ thành hình dạng định dạng phù hợp để phân tích, bao gồm thực hiệu chỉnh kết hợp tập liệu Đường ống liệu cho phép chuyển liệu tự động từ hệ thống sang hệ thống khác ETL (Trích xuất, Chuyển đổi, Tải) xây dựng để lấy liệu từ hệ thống, chuyển đổi tải liệu vào kho liệu tổ chức Danh mục liệu giúp quản lý siêu liệu để tạo tranh toàn cảnh liệu, cung cấp tóm tắt thay đổi, vị trí chất lượng siêu liệu đồng thời giúp dễ dàng tìm thấy liệu Kho liệu nơi hợp nguồn liệu khác nhau, cạnh tranh với nhiều loại liệu mà doanh nghiệp lưu trữ cung cấp lộ trình rõ ràng để phân tích liệu Quản trị liệu xác định tiêu chuẩn, quy trình sách để trì tính tồn vẹn bảo mật liệu Kiến trúc liệu cung cấp cách tiếp cận thức để tạo quản lý luồng liệu Bảo mật liệu bảo vệ liệu khỏi bị truy cập trái phép tham nhũng Mơ hình hóa liệu ghi lại luồng liệu thông qua ứng dụng tổ chức 10 CHƯƠNG II: QUẢN LÝ DỮ LIỆU CẦN CĨ NHỮNG GÌ? 1.Ngun tắc quản lý liệu Quản lý liệu chia sẻ đặc điểm với hình thức quản lý tài sản khác, thấy Hình Nó liên quan đến việc biết tổ chức có liệu đạt với nó, sau xác định cách tốt để sử dụng tài sản liệu để đạt mục tiêu tổ chức Giống quy trình quản lý khác, phải cân nhu cầu chiến lược hoạt động Sự cân đạt tốt cách tuân theo loạt nguyên tắc ghi nhận đặc điểm bật quản lý liệu hướng dẫn thực hành quản lý liệu Dữ liệu tài sản có thuộc tính nhất: Dữ liệu tài sản, khác với tài sản khác chỗ tổ chức cần liệu chất lượng cao để hướng dẫn hoạt động điều hành, chiến thuật chiến lược họ Khi tổ chức ngày phụ thuộc vào liệu, giá trị tài sản liệu xác lập rõ ràng cách ảnh hưởng đến cách quản lý Rõ ràng đặc tính liệu khơng bị tiêu hao sử dụng, tài sản tài vật chất Giá trị liệu nên thể thuật ngữ kinh tế: Gọi liệu tài sản ngụ ý có giá trị Mặc dù có kỹ thuật để đo lường giá trị định tính định lượng liệu, chưa có tiêu chuẩn để làm Các tổ chức muốn đưa định tốt liệu họ nên phát triển cách quán để định lượng giá trị Họ nên đo lường chi phí liệu chất lượng thấp lợi ích liệu chất lượng cao Quản lý liệu có nghĩa quản lý chất lượng liệu: Đảm bảo liệu phù hợp với mục đích mục tiêu quản lý liệu Để quản lý chất lượng, tổ chức phải đảm bảo họ hiểu yêu cầu bên liên quan chất lượng đo lường liệu so với yêu cầu Cần Siêu liệu để quản lý liệu: Quản lý tài sản yêu cầu phải có liệu tài sản (số lượng nhân viên, mã kế toán, v.v.) Dữ liệu dùng để quản lý sử dụng liệu gọi Siêu liệu Bởi liệu khơng thể giữ chạm vào, để hiểu cách sử dụng địi hỏi phải có định nghĩa kiến thức dạng Siêu liệu Siêu liệu bắt nguồn từ loạt quy trình liên quan đến tạo, xử lý sử dụng liệu, bao gồm kiến trúc, mơ hình hóa, quản lý, quản trị, quản lý Chất lượng liệu, phát triển hệ thống, CNTT hoạt động kinh doanh phân tích 18 Cần lập kế hoạch để quản lý liệu: Ngay tổ chức nhỏ có bối cảnh quy trình kinh doanh kỹ thuật phức tạp Dữ liệu tạo nhiều nơi di chuyển nơi để sử dụng Để điều phối công việc giữ cho kết cuối phù hợp với yêu cầu lập kế hoạch từ quan điểm kiến trúc quy trình Quản lý liệu chức chéo; địi hỏi loạt kỹ chun mơn: Một nhóm đơn lẻ quản lý tất liệu tổ chức Quản lý liệu đòi hỏi kỹ kỹ thuật phi kỹ thuật khả cộng tác Quản lý liệu yêu cầu quan điểm doanh nghiệp: Quản lý liệu có ứng dụng cục bộ, phải áp dụng tồn doanh nghiệp để có hiệu Đây lý quản lý liệu quản trị liệu gắn liền với Quản lý liệu phải tính đến loạt quan điểm: Dữ liệu linh hoạt Quản lý liệu phải liên tục phát triển để theo kịp cách liệu tạo sử dụng người tiêu dùng liệu sử dụng Quản lý liệu quản lý vịng đời: Dữ liệu có vịng đời việc quản lý liệu đòi hỏi phải quản lý vòng đời Bởi liệu sinh nhiều liệu hơn, thân vịng đời liệu phức tạp Thực tiễn quản lý liệu cần tính đến vịng đời liệu Các loại liệu khác có đặc điểm vịng đời khác nhau: Và lý này, chúng có u cầu quản lý khác Thực tiễn quản lý liệu phải nhận khác biệt đủ linh hoạt để đáp ứng loại yêu cầu khác vòng đời liệu Quản lý liệu bao gồm quản lý rủi ro liên quan đến liệu: Ngoài việc tài sản, liệu đại diện cho rủi ro tổ chức Dữ liệu bị mất, bị đánh cắp bị sử dụng sai mục đích Các tổ chức phải xem xét tác động đạo đức việc sử dụng liệu họ Các rủi ro liên quan đến liệu phải quản lý phần vòng đời liệu Yêu cầu quản lý liệu phải định hướng định Công nghệ thông tin: Dữ liệu quản lý liệu gắn bó sâu sắc với cơng nghệ thơng tin quản lý công nghệ thông tin Quản lý liệu yêu cầu cách tiếp cận đảm bảo công nghệ phục vụ, thay thúc đẩy, nhu cầu liệu chiến lược tổ chức Quản lý liệu hiệu đòi hỏi cam kết lãnh đạo: Quản lý liệu bao gồm tập hợp quy trình phức tạp, để có hiệu quả, cần có phối hợp, cộng tác cam kết Để đạt điều đó, khơng địi hỏi kỹ quản lý mà cịn phải có tầm nhìn mục đích đến từ lãnh đạo tận tâm 19 Thành phần/ chức có Data management 2.1 Data access Hình 2.1: Data access Dữ liệu trở thành tài sản tổ chức tổ chức lấy liệu theo yêu cầu, mục tiêu đề Data access – tiếp cận liệu – liên quan đến khả tiếp cận, thu thập thông tin từ, liệu từ nguồn Dữ liệu mà tổ chức, công ty phải thu thập đến từ nhiều nơi khác bảng tính Excel, tệp văn bản, từ sở liệu, từ email, ứng dụng kinh doanh, bán hàng thông minh, từ website, trang mạng xã hội, liệu truyền từ thiết bị I.o.T (Internet of things – Internet vạn vật) Do khơng có biện pháp hiệu Data access, trình thu thập khó khăn ảnh hưởng đến tồn hệ thống Data management Chưa xét đến việc tổ chức xây dựng chiến lược cụ thể cho Data management, việc cần quan tâm sau xác định mục tiêu kinh doanh, xác định liệu, nguồn liệu hợp lý cách thức tiếp cận thu thập cho hiệu Các công cụ, phần mềm tiên tiến sử dụng, kế hoạch chi tiết đề Data access hỗ trợ tổ chức thu thập, trích xuất liệu tốt 20 2.2 Data integration Hình 2.2: Data integration Data integration hay cịn gọi tổng hợp, tích hợp liệu Dữ liệu mà tổ chức, công ty phải thu thập đến từ nhiều nguồn khác, khơng đồng nhất, có nhiều định dạng khác Sau thu thập liệu từ nguồn khác thơng thường cơng ty, tổ chức phải tiến hành tích hợp tất liệu khác nhau, cụ thể kết hợp liệu khác vào chung cấu trúc, format, tính chất định,…(hoặc chuyển đổi liệu với liệu để tổng hợp vào tập liệu thống nhất) Nói cách khác, Data integration mục tiêu lưu trữ liệu từ nhiều nguồn khác hệ sở liệu, nguồn liệu định, dạng bảng tính, tệp liệu, để hỗ trợ quản lý phân tích tương lai Mặc dù q trình tích hợp gặp khó khăn, lợi ích đem lại, khơng định đến tính hiệu hệ thống Data management, mà cịn cung cấp thơng tin hữu ích lúc tích hợp Ví dụ cơng ty có tập liệu thơng tin cá nhân khách hàng số điện thoại, nghề nghiệp, tuổi, tập liệu số lần giao dịch khách hàng, sản phẩm giao dịch, mức giao dịch, lần cuối giao dịch,…Kết hợp tập liệu cơng ty xác định phân khúc khách hàng “thú vị”, “đâu nhóm khách hàng tiềm nhất”, “đâu sản phẩm quan tâm theo nhóm tuổi/ thu nhập/…?” 21 Để giúp công ty giảm bớt thách thức Data integration, nhiều tập đồn cơng nghệ IBM, Microsoft hay tổ chức đầu lĩnh vực phần mềm phân tích, giải pháp liệu Oracle, SAS cho mắt nhiều công cụ hỗ trợ Data integration tốt 2.3 Data governance Hình 2.3: Data governance Data governance – quản trị liệu – chức cốt lõi hệ thống Data management Nhiều người thường nhầm lẫn Data governance Data management, thực chất không phải, bạn thấy viết này, Data governance phần, chức Data management mà Ở viết tới INDA giới thiệu Data governance nhiều hơn, Data governance đóng vai trị quan trọng việc hỗ trợ khai thác liệu hiệu Data governance quy tắc, sách, quy trình, chiến lược, bao gồm định nhân lực công nghệ áp dụng Data governance “kim nam”, định hình cách thức cơng ty quản lý, bảo vệ liệu họ nào, đảm bảo mục tiêu khai thác, quản lý liệu đôi với mục tiêu kinh doanh Nói cách khác, Data governance việc lập kế hoạch, thực thi, giám sát tất hoạt động quản lý liệu, tức tất quy trình, chức có Data 22 management kể tới kiểm soát, định hướng điều kiển Data governance Đây nguyên nhân khiến nhiều người nhầm lẫn khái niệm Nếu Data management tập hợp chức năng, quy trình mà cơng ty triển khai để quản lý liệu, Data governance lại có vai trị liên kết quản lý tất chức năng, quy trình 2.4 Data quality Hình 2.4: Data quality Data quality liên quan đến công việc xem xét đảm bảo liệu thu thập xác, phù hợp, dùng cho mục đích phân tích sau Theo SAS, giống quy chuẩn chất lượng ISO sản xuất, cơng ty cần triển khai kiểm soát Data quality giai đoạn có Data management Điều quan tâm sau triển khai dự án liệu giá trị liệu, thơng tin hữu ích có sau phân tích liệu Tất bị ảnh hưởng chất lượng liệu hay gọi Data quality 23 Giả sử không tiến hành kiểm tra chất lượng liệu Data access, bước thu thập liệu, trình, chức cịn lại Data management gặp thất bại, dẫn đến kết phân tích cuối khơng cịn giá trị Tuy nhiên khơng phải tiến hành thực Data quality Data access mà song song tất chức khác, xuyên suốt toàn hệ thống Data management từ điểm bắt đầu thu thập liệu, tích hợp liệu đến điểm kết thúc trước bàn luận kết phân tích (trước xuất báo cáo trực quan hóa, đồ thị, bảng biểu cần kiểm tra lại liệu kết quả) 2.5 Data federation Hình 2.5: Data federation Data federation dịch xác theo tiếng Việt có nghĩa “liên đồn liệu”, nghe khơng “hợp tai” có nghĩa bao qt công cụ liên kết liệu Data federation loại hình đặc biệt khác Data integration Data integration hỗ trợ chuyển đổi, tích hợp tất liệu khác vào nơi lưu trữ thống có u cầu tính chất, đặc điểm, điều kiện đó,… tức có việc di chuyển lưu trữ liệu để dùng cho việc phân tích sau Trong khứ, công ty lưu trữ kho liệu gọi Data warehouse, có xu hướng lưu trữ Data lake (hồ liệu) Sự khác biệt Data lake Data warehouse: Data warehouse biến đổi, lưu trữ liệu từ nguồn khác nhau, liệu có cấu trúc rõ ràng, Data lake lưu trữ liệu chưa qua phân tích hay 24 cịn gọi liệu thơ Data federation dạng tích hợp ảo tức chun gia thơng qua nhìn vào thấy liệu kết hợp cần mà không cần phải di chuyển lưu trữ chúng vào nơi Các phần mềm Data federation tạo virtual database (cơ sở liệu ảo) cho phép tham chiếu liệu, xử lý trực tiếp liệu, thực phân tích kinh doanh thơng minh (Business Intelligence) hay phân tích thơng thường mà khơng cần phải chép, luân chuyển, lưu trữ qua tăng mức độ bảo mật, an tồn thơng tin, đặc biệt có chức cung cấp quyền truy cập, mã hóa liệu, 2.6 Data preparation Hình 2.6: Data preparation Chuẩn bị liệu cho mục đích phân tích, mục đích sử dụng khác nau chức quan trọng Data management Data preparation nhiệm vụ tổng hợp, tích hợp liệu từ nhiều nguồn khác (có thể cho bao gồm Data integration), chọn lọc, chuyển đổi, liệu trước phân tích sử dụng quy trình kinh doanh Data preparation cịn gọi q trình chuẩn bị đưa liệu vào sử dụng sau thu thập, lưu trữ, quản lý Khơng có cơng việc, kế hoạch diễn thành cơng khơng có chuẩn bị từ trước, phân tích liệu vậy, trước phân tích cơng ty phải tiến hành bước chuẩn bị liệu cách hoàn chỉnh Dữ liệu thu thập thường lớn, lại chứa nhiều liệu không liên quan, liệu bị hỏng, liệu không đầy đủ, liệu không chứa thông tin, giá trị (missing value hay null value), cần xử lý trước Theo chuyên gia IBM, thời gian thực trình chuẩn bị liệu nhiều nhất, chiếm gần 90% tổng thời gian dành cho dự án phân tích liệu 25 Qua cho thấy tầm quan trọng Data preparation, định kết phân tích sau có xác hay khơng, kết luận sau liệu có đem lại giá trị, thơng tin hữu ích hay không? Bên chức năng, thành phần, q trình mà cơng ty SAS cho khơng thể thiếu hệ thống Data management 2.7 Data architecture management Hình 2.7: Data architecture management Liên quan đến công việc: xác định nhu cầu, tiến hành thiết kế, trì phát triển hệ thống kiến trúc liệu bao gồm mơ hình, sách, quy tắc tiêu chuẩn tác động đến cách thức liệu thu thập, lưu trữ, xếp, tích hợp, đưa vào phân tích, sử dụng 26 2.8.Data modelling and design Hình 2.8: Data modelling and design Thiết kế mơ hình hóa liệu q trình khám phá, nghiên cứu, phân tích liệu, xác định, tìm hiểu nhu cầu, mục đích khai thác liệu, thể nhu cầu, mục đích vào mơ hình liệu thống nhất, chuẩn tắc, sử dụng nhiều lần, lặp lặp lại tương lại Data modelling đại diện cho đối tượng liệu, thể mối liên hệ, kết hợp đối tượng liệu khác quy tắc có chúng 2.9.Data storage and operations Lưu trữ vận hành liệu bao gồm việc thiết kế, triển khai, hỗ trợ lưu trữ liệu, mục đích tối đa hóa giá trị suốt vịng đời chúng, từ việc tiếp cận, thu thập, tích hợp đến xử lý Lưu trữ vận hành liệu bao gồm hai hoạt động phụ Thứ nhất, Database support, tập trung vào hoạt động liên quan đến vòng đời liệu, từ việc triển khai xây dựng môi trường sở liệu ban đầu, đến việc thu thập, lưu trữ, hay loại bỏ liệu, đảm bảo sở liệu hoạt động tốt thông qua giám sát, điều chỉnh Thứ hai, Database technology support, xác định nhu cầu, yêu cầu hệ thống lưu trữ liệu, xem xét với khả năng, nguồn lực tổ chức, xác định phần mềm kỹ thuật, kết cấu kiến trúc áp dụng, sau tiến hành xây dựng, cài đặt quản trị phần mềm, giải vấn đề phát sinh liên quan đến kỹ thuật tương lai 27 2.10 Data security Hình 2.10: Data security Data security, bảo mật liệu, bao gồm công việc lập kế hoạch, phát triển thực sách quy trình bảo mật, cung cấp cách thức xác thực, ủy quyền, truy cập kiểm soát, thống kê, báo cáo liệu tài sản thơng tin Các chi tiết cụ thể quy trình Data security (ví dụ liệu cần bảo vệ) khác công ty, ngành, lĩnh vực chí nước (do nước có luật riêng an ninh mạng, an toàn liệu, ) Tuy nhiên, mục tiêu hoạt động bảo mật liệu nhau: bảo vệ tài sản thông tin, liệu, tuân thủ quy định quyền riêng tư, bảo mật, yêu cầu, thỏa thuận khác kinh doanh 28 2.11 Data warehousing and Business Intelligence Hình 2.11: Data warehousing and Business Intelligence Data warehousing and Business Intelligence liên quan đến việc lập kế hoạch, thực kiểm sốt quy trình để cung cấp liệu hỗ trợ định hỗ trợ lập báo cáo, truy vấn phân tích liệu Data warehousing mơ tả q trình trích xuất, làm sạch, chuyển đổi, kiểm sốt, truyền tải liệu,… kho liệu Business Intelligence (BI) quy trình, cách thức sử dụng liệu để hỗ trợ nhà quản lý công ty đưa định kinh doanh hay gọi Business decisions BI coi thuật ngữ phổ biến để miêu tả cách sử dụng liệu phục vụ cho việc dự báo môi trường kinh doanh thơng qua bước phân tích để nắm bắt, phát vấn đề kinh doanh liệu, tiến hành đưa hành động, giải pháp cụ thể Chiến lược quản lý liệu Một chiến lược liệu nên bao gồm kế hoạch kinh doanh để sử dụng thông tin nhằm tạo lợi cạnh tranh hỗ trợ mục tiêu doanh nghiệp Chiến lược liệu phải xuất phát từ hiểu biết nhu cầu liệu vốn có chiến lược kinh doanh: tổ chức cần liệu gì, tổ chức lấy liệu nào, tổ chức quản lý liệu đảm bảo độ tin cậy theo thời gian cách thức tổ chức • Đề xuất biện pháp quản lý liệu thành cơng • Điều lệ quản lý liệu: Tầm nhìn tổng thể, tình kinh doanh, mục tiêu, nguyên tắc hướng dẫn, biện pháp sử dụng Các thành phần chiến lược quản lý liệu nên bao gồm: Tầm nhìn hấp dẫn để quản lý liệu 29 Một trường hợp nghiệp vụ tóm tắt để quản lý liệu, với ví dụ chọn Hướng dẫn nguyên tắc, giá trị quan điểm quản lý Nhiệm vụ mục tiêu định hướng dài hạn quản lý liệu Đề xuất biện pháp quản lý liệu thành công Ngắn hạn (12-24 tháng) mục tiêu chương trình Quản lý Dữ liệu SMART (cụ thể, đo lường, hành động, thực tế, có thời hạn) Mơ tả vai trị tổ chức quản lý liệu, với tóm tắt trách nhiệm họ quyền định Mô tả thành phần sáng kiến chương trình Quản lý Dữ liệu Một chương trình ưu tiên làm việc với ranh giới phạm vi Dự thảo lộ trình thực với dự án hạng mục hành động Cung cấp từ lập kế hoạch chiến lược để quản lý liệu bao gồm: Điều lệ quản lý liệu: Tầm nhìn tổng thể, tình kinh doanh, mục tiêu, nguyên tắc hướng dẫn, biện pháp thành công, yếu tố thành công quan trọng, rủi ro thừa nhận, mơ hình hoạt động, v.v Tuyên bố phạm vi quản lý liệu: Các mục tiêu mục tiêu cho số giai đoạn lập kế hoạch (thường năm) vai trò, tổ chức cá nhân lãnh đạo chịu trách nhiệm để đạt mục tiêu Lộ trình thực quản lý liệu: Xác định chương trình, dự án, nhiệm vụ cụ thể nhiệm vụ mốc giao hàng 30 Chương III: Kết luận Bởi quản lý liệu đóng vai trị quan trọng kinh tế kỹ thuật số ngày nay, việc hệ thống phải tiếp tục phát triển để đáp ứng nhu cầu liệu tổ chức cần thiết Quản lý liệu hiệu giúp giảm thiểu lỗi tiềm ẩn giảm thiệt hại liệu xấu gây Do đó, chiến lược quản lý liệu hiệu sáng kiến chất lượng liệu phải thực để kiếm soát tốt sức khỏe tài sản quý giá doanh nghiệp 31 DANH MỤC TÀI LIỆU KHAM KHẢO 1/ https://ocd.vn/quan-ly-du-lieu/#:~:text=Qu%E1%BA%A3n%20l%C3%BD%20d%E1%BB %AF%20li%E1%BB%87u%20l%C3%A0%20g%C3%AC%3F%20Qu%E1%BA%A3n%20l %C3%BD,%C4%91%C6%A1n%20gi%E1%BA%A3n%20l%C3%A0%20t%E1%BA%ADp %20h%E1%BB%A3p%20c%C3%A1c%20th%C3%B4ng%20tin 2/ https://meeyland.com/chuyen-doi-so/quan-ly-du-lieu-la-gi-cac-cong-cu-de-quan-ly-du-lieuhieu-qua/ 3/ https://inda.vn/data-catalog/tam-quan-trong-cua-quan-ly-du-lieu-data-management/ 4/ https://www.cambridgehealth.edu/blog/what-is-data-management-analytics/ 32 ... HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ Phân tích quản trị liệu (Data Management and Analytics) Giảng viên hướng dẫn: Vương Xuân Chí Sinh viên thực hiện: Trần Nguyễn Thanh Ngân. .. NHIỆM VỤ ĐỒ ÁN CHUYÊN NGÀNH/CƠ SỞ (Sinh viên phải đóng tờ vào báo cáo) Họ tên: TRẦN NGUYỄN THANH NGÂN MSSV: 2000006329 Chuyên ngành: CÔNG NGHỆ THÔNG TIN Lớp: 20DTH1D Email: 123456@GMAIL.COM... HỌC NGUYỄN TẤT THÀNH KỲ THI KẾT THÚC HỌC PHẦN TRUNG TÂM KHẢO THÍ HỌC KỲ NĂM HỌC 2021-2022 PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi: Đồ án sở Khoa Học Dữ Liệu Nhóm sinh viên thực : Trần Nguyễn Thanh