a. Quản trị dữ liệu
Quản trị dữ liệu được định nghĩa như là việc thực hiện và kiểm soát các công việc như lên kế hoạch, triển khai, giám sát toàn bộ các quy trình, hoạt động có trong quản lý dữ liệu, kiểm soát hệ thống quản lý dữ liệu. Hiện nay, hầu như tất cả các tổ chức đưa ra các quyết định dựa vào dữ liệu mặc dù họ chưa có một chiến lược quản trị dữ liệu rõ ràng. Các tổ chức ngày càng nâng cao được khả năng nâng cao được giá trị từ việc khai khác từ dữ liệu của họ. Quản trị dữ liệu là “kim chỉ nam” định hướng cho tất cả các thành phần khác trong DAMA Wheel. Mục đích của quản trị dữ liệu là đảm bảo rằng dữ liệu được quản lý đúng cách, tuân theo quy định và best practices. Trong khi mục tiêu tổng thể của quản lý dữ liệu là đảm bảo một tổ chức
Khoá luận tốt nghiệp
đạt được giá trị từ dữ liệu, thì quản trị dữ liệu tập trung vào việc làm thế nào đưa ra các quyết định dựa vào dữ liệu hay làm thế nào để con người hay quy trình trong tổ chức được mong đợi sẽ có hành vi liên quan đến dữ liệu. Các khía cạnh cần tập trung vào một kế hoạch quản trị dữ liệu cụ thể sẽ phụ thuộc vào các nhu cầu tổ chức, nhưng thông thường thì hầu hết các kế hoạch bao gồm các thành phần và nguyên tắc sau:
- Chiến lược (Strategy): Định nghĩa, cách thức thực thi chiến lược quản trị dữ liệu
- Quy định, chính sách (Policy): Thiết lập, và các quy định liên quan đến quản lý dữ liệu và siêu dữ liệu, truy cập, sử dụng, bảo mật và chất lượng dữ liệu
- Tiêu chuẩn và chất lượng: thiết lập và áp dụng các tiêu chuẩn chất lượng dữ liệu và kiến trúc dữ liệu
- Giám sát: cung cấp sự quan sát cần thiết và kiểm soát
- Tuân thủ: đảm bảo rằng tổ chức có thể đáp ứng được các yêu cầu tuân thủ về quản trị dữ liệu
- Quản lý vấn đề: nhận diện, định nghĩa, đo lường, giải quyết các vấn đề liên quan đến bảo mật dữ liệu, truy cập dữ liệu, chất lượng dữ liệu, sự tuân thủ các quy định, sở hữu dữ liệu, các quy định, tiêu chuẩn, các thuật ngữ liên quan, các thủ tục quản trị dữ liệu.
- Các dự án quản lý dữ liệu: các nỗ lực hỗ trợ để cải thiện các công việc quản lý dữ liệu
- Các tiêu chuẩn đánh giá giá trị tài sản dữ liệu: đó là các tiêu chuẩn và các quy trình được thiết lập để định nghĩa chính xác giá trị kinh tế của dữ liệu
Để đạt được những những mục tiêu trên, một kế hoạch quản trị dữ liệu cần phát triển các chính sách và thủ tục, thực hiện quản lý dữ liệu ở nhiều cấp độ trong một tổ chức và tham gia vào các nỗ lực thay đổi cách quản lý của tổ chức. Tích cực truyền đạt trong tổ chức các lợi ích của việc cải thiện quản trị dữ liệu và các hành động cần thiết để quản trị dữ liệu thành công như một tài sản.
Khả năng tạo ra và chia sẻ dữ liệu, thông tin đã thay đổi các tương tác cá nhân và nền kinh tế. Với sự thay đổi nhanh chóng của thị trường cạnh tranh và nhận thức ngày càng cao về giá trị mà dữ liệu mang lại, đã khiến cho các tổ chức
Khoá luận tốt nghiệp
cần sắp xếp, cân bằng lại các trách nhiệm trong quản lý dữ liệu. Có thể thấy rằng, sự thay đổi rõ nhất ở trong các lĩnh vực tài chính, thương mại, chính phủ và quản lý bán lẻ. Ngày nay, các tổ chức nỗ lực ngày càng tăng để điều khiển dữ liệu- chủ động xem xét các yêu cầu dữ liệu như một phần của sự phát triển chiến lược, lên kế hoạch, triển khai công nghệ. Tuy nhiên, nếu làm như thế thì thường kéo theo những thách thức văn hóa quan trọng. Thêm nữa, vì văn hóa doanh nghiệp có thể chống lại bất kỳ chiến lược nào, những nỗ lực quản trị dữ liệu cần bao gồm thành phần thay đổi văn hóa, và được hỗ trợ mạnh mẽ bởi các lãnh đạo. Để thu được lợi ích từ dữ liệu, văn hóa tổ chức phải bắt nguồn từ dữ liệu và các hoạt động quản lý dữ liệu. Thậm chí, với những chiến lược dữ liệu tốt nhất, kế hoạch quản trị dữ liệu và quản lý dữ liệu sẽ không thể thành công nếu như tổ chức không chấp nhận và quản lý sự thay đổi. Đối với nhiều tổ chức, thay đổi văn hóa là một thách thức lớn. Một trong những nguyên tắc cơ bản của quản lý sự thay đổi đó là tổ chức cần yêu cầu sự thay đổi từ các cá nhân.
b. Chất lượng dữ liệu
Quản lý dữ liệu hiệu quả bao gồm một tập các quy trình phức tạp và liên quan đến nhau mà cho phép tổ chức sử dụng dữ liệu để đạt được các mục tiêu chiến lược. Quản lý dữ liệu bao gồm các khả năng để thiết kế dữ liệu cho các ứng dụng, lưu trữ và truy cập dữ liệu an toàn, chia sẻ dữ liệu an toàn và đảm bảo rằng dữ liệu phù hợp với yêu cầu kinh doanh. Một cụm từ khẳng định giá trị của dữ liệu đáng tin cậy hay nói cách khác đó là dữ liệu chất lượng cao. Trên thực tế, có rất nhiều yếu tố gây ra dữ liệu chất lượng kém, như: thiếu hiểu biết về sự ảnh hưởng của chất lượng dữ liệu thấp lên sự thành công của tổ chức, hay một kết hoạch quản lý dữ liệu tồi, thiết kế hệ thống không có khả năng mở rộng, các quy trình phát triển không đồng nhất, tài liệu không hoàn thiện, thiếu tiêu chuẩn, thiếu sự quản trị. Rất nhiều tổ chức thất bại để xác định yếu tố gì làm cho dữ liệu phù hợp với mục đích.
Tất cả các nguyên tắc quản lý dữ liệu đóng góp vào chất lượng dữ liệu, và chất lượng dữ liệu cao hỗ trợ cho tổ chức nên là mục tiêu của tất cả các nguyên tắc quản lý dữ liệu. Bởi vì những quyết định hoặc hành động thiếu hiểu biết của bất kỳ ai khi tương tác dữ liệu có thể dẫn đến dữ liệu kém chất lượng, sản xuất dữ liệu chất lượng cao đòi hỏi sự cam kết và phối hợp chéo. Các tổ chức và các phòng ban nên chú ý
Khoá luận tốt nghiệp
đến điểm này và cần phải lên kế hoạch để có được dữ liệu chất lượng cao, bằng cách thực hiện các quy trình và dự án theo cách mà chúng ta có thể tính toán được rủi ro liên quan đến những điều kiện bất ngờ hoặc không mong đợi trong dữ liệu.
Bởi vì không một tổ chức nào có quy trình có quy trình kinh doanh hoàn hảo, quy trình kỹ thuật hoàn hảo, vận hành quy trình hoàn hảo, nên bất kỳ tổ chức nào cũng ít nhiều gặp vấn đề liên quan đến chất lượng dữ liệu của họ. Những tổ chức quản lý dữ liệu chất lượng cao thường gặp vấn đề ít hơn so với những tổ chức mà đang quản lý dữ liệu kém. Quản lý chất lượng dữ liệu tiêu chuẩn cũng tương tự quản lý chất lượng liên tục của các sản phẩm, mặt hàng trong lĩnh vực sản xuất kinh doanh. Nó bao gồm quản lý dữ liệu thông qua vòng đời bằng cách thiết lập tiêu chuẩn, xây dựng chất lượng vào các quy trình, bằng cách tạo, chuyển đổi, lưu trữ dữ liệu và đo lường theo các tiêu chuẩn đã thiết lập. Quản lý dữ liệu yêu cầu nhóm những người có nhiệm vụ xây dựng chương trình quản lý dữ liệu. Những người này có trách nhiệm đảm bảo quản lý dữ liệu đáp ứng cả về yêu cầu kỹ thuật và kinh doanh, điều phối việc ứng dụng các kỹ thuật quản lý chất lượng dữ liệu với mục đích là đảm bảo dữ liệu khi được sử dụng có thể đáp ứng được đa mục đích. Nhóm có thể tham gia vào một loạt các dự án mà thông qua đó họ có thể thiết lập các quy trình và thông lệ tốt nhất (best practices) hay được hiểu là những cách làm tốt nhất, đúng đắn nhất, mang lại hiệu quả cao nhất trong lúc họ giải quyết các vấn đề, công việc về dữ liệu.
Tại sao lại cần thiết xây dựng một chương trình quản lý chất lượng dữ liệu tiêu chuẩn? Dưới đây là các lợi ích đồng thời khi cũng là những tiêu chuần khi xây dựng chương trình chất lượng dữ liệu:
- Gia tăng giá trị dữ liệu của tổ chức. Nhờ đó, tổ chức sẽ đạt được các mục tiêu trong kinh doanh, đạt được lợi thế cạnh tranh so với đối thủ
- Giảm các rủi ro và chi phí mà dữ liệu chất lượng thấp gây nên
- Cải thiện hiệu quả và năng suất tổ chức
- Bảo vệ và nâng cao danh tiếng của tổ chức
Những tổ chức mong muốn khai thác giá trị từ dữ liệu đều nhận ra rằng dữ liệu chất lượng cao sẽ mang lại rất nhiều giá trị. Nếu chất lượng dữ liệu của tổ chức thấp thì đồng nghĩa với rủi ro cao, có thể gây một số hệ lụy không nhỏ, ví dụ như: phá
Khoá luận tốt nghiệp
hủy danh tiếng của tổ chức, thất thoát doanh thu, đánh mất khách hàng, truyền thông tiêu cực. Ngoài ra, có thể nhìn thấy rõ nhất các chi phí trực tiếp mà dữ liệu chất lượng thấp gây nên:
- Thất thoát doanh thu dẫn đến bỏ lỡ các cơ hội trong kinh doanh
- Cản trở sự hợp nhất trong quá trình sát nhập và mua lại
- Gia tăng gian lận
- Dữ liệu chất lượng kém dẫn đến các quyết định kinh doanh sai sót
- Mất cơ hội kinh doanh, tín dụng cao
Khi dữ liệu đạt chất lượng cao thì nó không phải là công việc cuối cùng hay là sự kết thúc. Dữ liệu chất lượng cao là một phương tiện để tổ chức thành công. Dữ liệu đáng tin cậy không chỉ giảm thiểu rủi ro và giảm chi phí, mà còn cải thiện hiệu quả. Những người sử dụng dữ liệu có thể trả lời các câu hỏi nhanh hơn và chính xác hơn khi họ làm việc với dữ liệu đáng tin cậy không. Họ dành ít thời gian hơn để tìm lỗi nếu dữ liệu không đúng, và dành nhiều thời gian để khai thác giá trị từ dữ liệu, đưa ra các quyết định và phục vụ khách hàng của mình.
Các kế hoạch quản lý dữ liệu tập trung vào những mục tiêu sau:
- Phát triển một cách tiế cận quản trị để tạo dữ liệu phù hợp với mục đích dựa vào các yêu cầu của dữ liệu
- Định nghĩa các tiêu chuẩn và đặc điểm cụ thể cho các kiểm soát chất lượng dữ liệu như là một phần của vòng đời dữ liệu
- Định nghĩa và triển khai các quy trình để đo lường, giám sát, báo cáo về các mức chất lượng dữ liệu
- Xác định và chủ trương các cơ hội để cải thiện chất lượng dữ liệu, thông qua thay đổi các quy trình và thay đổi hệ thống, tham gia vào các hoạt động cải thiện đáng kể chất lượng dữ liệu dựa trên yêu cầu của người sử dụng dữ liệu
Vào năm 2013, DAMA UK hay còn được gọi là cộng đồng quản lý dữ liệu Anh (Data management United Kingdom), nơi nuôi dưỡng cộng đồng các chuyên gia dữ liệu ở Anh - người sẽ bảo vệ giá trị của dữ liệu. Tổ chức này đã xuất bản bài báo mang tên The Six Primary Dimensions For Data Quality Assessment, trong đó nêu ra 6 tiêu chí để đo lường chất lượng dữ liệu
- Accuracy (Tính chính xác): Dữ liệu đại diện chính xác giá trị của thế giới thực:
Khoá luận tốt nghiệp
Ví dụ: tên người, số lượng sản phẩm phải đúng
- Validity (tính hợp lệ/xác thực): dữ liệu phù hợp với cú pháp theo định nghĩa ban đầu (định dạng, loại, phạm vi phù hợp). Ví dụ: giới tính Nam/ Nữ được quy định mã hóa thành F/M, nhưng trong dữ liệu lại xuất hiện 9,10 thì dữ liệu đó không hợp lệ. ví dụ 2: tuổi âm÷ không hợp lệ . Ngày sinh phải từ 1900- hiện tạ^ tính hợp lệ
- Timeliness (tính kịp thời): Dữ liệu đại diện cho thực tế tại thời điểm yêu cầu dữ liệu. Tức là dữ liệu cung cấp càng real-time thì tính kịp thời càng được đảm bảo. ví dụ: địa chỉ của khác hàng được thay đổi vào ngày 1/5, thì hệ thống cũng đảm bảo cập nhật vào ngày 1/5 thì khi đó bản ghi dữ liệu chứa thông tin khách hàng đó sẽ đảm bảo được tính kịp thời.
- Completeness (tính toàn vẹn/ đầy đủ): dữ liệu được thu thập đầy đủ, tức là mỗi bản ghi của dữ liệu thì đều không bị thiếu, hay còn gọi là missing value.
Ví dụ: Một bản ghi bị thiếu địa chỉ của khách hàng thì dữ liệu đó không có tính toàn vẹn
- Uniqueness (Tính duy nhất): Dữ liệu được xác định và được ghi lại một lần duy nhất theo một bản ghi với một mã duy nhất, nghĩa là không có sự trùng lặp của bất kỳ một bản ghi nào. Các bản ghi dữ liệu là riêng biệt, được phân biệt theo một khóa chính duy nhất. Ví dụ, trong bảng dữ liệu khác hàng chỉ có duy nhất một bản ghi của khách hàng A
- Consistency (Tính nhất quán): Một đối tượng được lưu trữ nhất quán trong các tập dữ liệu khác nhau. Ví dụ cùng một khách hàng A, thì thông tin của họ phải được lưu nhất quán trong các bảng khác nhau của cơ sở dữ liệu.
Khoá luận tốt nghiệp
COMPLETENESS
VALIDITY
Hình 5: Tiêu chuẩn đo lường chất lượng dữ liệu
Siêu dữ liệu rất quan trọng trong việc quản lý chất lượng dữ liệu. Chất lượng dữ liệu dựa vào việc làm thế nào để dữ liệu đáp ứng tốt yêu cầu của người dùng dữ liệu. Siêu dữ liệu định nghĩa dữ liệu đại diện cho cái gì. Có một quy trình mạnh mẽ mà theo đó dữ liệu được xác định hỗ trợ khả năng của tổ chức để tài liệu hóa các tiêu chuẩn và các yêu cầu mà từ đó chất lượng mà từ đó chất lượng dữ liệu có thể đo lường được.
Siêu dữ liệu quản lý dữ liệu tốt có thể hỗ trợ các nỗi lực trong việc cải thiện chất lượng dữ liệu. Kho lưu trữ siêu dữ liệu có thể chứa kết quả đo lường chất lượng siêu dữ liệu vì thế mà siêu dữ liệu thường được chia sẻ trong toàn tổ chức.
c. Siêu dữ liệu
Định nghĩa thông thường nhất của siêu dữ liệu là “dữ liệu của dữ liệu”. Siêu dữ liệu bao gồm thông tin về các quy trình kĩ thuật công nghệ và kinh doanh, các luật và các ràng buộc về dữ liệu, mô tả cấu trúc dữ liệu vật lý và logic. Siêu dữ liệu mô tả dữ liệu (ví dụ: cơ sở dữ liệu, các thành phần dữ liệu, mô hình dữ liệu). Các
Khoá luận tốt nghiệp
định nghĩa dữ liệu (các quy trình kinh doanh, hệ thống ứng dụng, hạ tầng công nghệ), các kết nối (mối quan hệ) giữa dữ liệu và khái niệm. Siêu dữ liệu giúp một tổ chức hiểu dữ liệu của họ, hệ thống của họ, và luồng công việc. Siêu dữ liệu cho phép đánh giá chất lượng dữ liệu và là thành phần không thể thiếu để quản lý cơ sở dữ liệu và các ứng dụng khác. Siêu dữ liệu góp phần vào khả năng xử lý, bảo trì, tích hợp, bảo mật, kiểm tra, quản trị dữ liệu khác.
Để thấu hiểu vai trò quan trọng của siêu dữ liệu trong quản lý dữ liệu, chúng ta thử đi so sánh siêu dữ liệu giống như một thư viện với hàng trăm quyển sách và tạp chí và thư viện đó không có danh mục thẻ. Không có danh mục thẻ, người đọc có thể thậm chí không biết được làm thế nào để bắt đầu tìm kiếm một quyển sách cụ thể hoặc thậm chí một chủ đề cụ thể. Thẻ danh mục không chỉ cung cấp các thông tin cần thiết, cụ thể thư viện sở hữu những quyển sách và tài liệu nào, hay những quyển sách được để ở đâu trên kệ. Những chiếc thẻ danh mục cũng cho phép tìm tài liệu bằng các cách khác nhau: chủ đề, tác giả, tiêu đề. Không có thẻ danh mục, việc tìm kiếm một cuốn sách cụ thể sẽ trở nên khó khăn, thậm chí là không thể. Một tổ chức mà không có siêu dữ liệu giống như một thư viện không có thẻ danh mục.
Siêu dữ liệu có vai trò quan trọng thiết yếu cho việc quản lý dữ liệu cũng như sự sử dụng dữ liệu. Tất cả các tổ chức lớn thường sản xuất tạo ra dữ liệu và sử dụng rất nhiều dữ liệu thì việc quản lý siêu dữ liệu cực kỳ quan trọng. Xuyên xuất một tổ