Trong thực tế, có rất nhiều nguyên nhân dẫn đến chất lượng thấp, bao gồm:
- Số lượng dữ liệu thu thập quá nhiều, trong khi đó thời gian cho phép lại quá ít, điều này dẫn đến việc một số bước xử lý của quá trình thu thập bị bỏ qua
- Có quá nhiều bước thủ công, di chuyển và tổng hợp dữ liệu
- Định nghĩa không chính xác, mô tả sai các trường có trong báo cáo. Nguyên nhân là do thiếu sự giao tiếp rõ ràng giữa bên kinh doanh và bên dữ liệu hay thiếu tài liệu mô tả dữ liệu chính thống. Điều này dẫn đến việc tổng hợp và phân tích sai, dẫn đến việc đưa ra quyết định kinh doanh sai liim÷ hậu quả cực kỳ nghiêm trọng
- Thiếu sự sử dụng thông tin, không khuyến khích việc cải thiện chất lượng dữ liệu
- Hệ thống thông tin lưu trữ phân mảnh, có thể dẫn đến việc bị duplicate dữ liệu
Các kỹ sư, nhà quản lý, hay những người trực tiếp làm về dữ liệu trước khi thực hiện quá trình thu thập, tổng hợp, sử dụng dữ liệu nên tính đến việc cần chuẩn hóa dữ liệu ở những giai đoạn nào để hạn chế dữ liệu chất lượng kém. Để cải thiện được chất lượng dữ liệu kém, cần có các bước sau:
Giai đoạn 1: Thiết kế giao diện nhập tốt, cơ sở dữ liệu tốt
Giai đoạn 2: Đảm bảo quá trình đồng bộ dữ liệu hay di chuyển dữ liệu từ nguồn này về nguồn kia không mất kết nối. Qúa trình mã hóa, giải mã dữ liệu được thực hiện theo đúng quy chuẩn. Qúa trình, cách thức tổng hợp dữ liệu thì phải phù hợp với yêu cầu kinh doanh
Giai đoạn 3: Qúa trình sử dụng dữ liệu. Dữ liệu sau khi được biến đổi, tổng hợp, giải mã, ...thì có thể chưa sử dụng được ngay, tùy thuộc vào sự đánh giá của những người chuyên về sử dụng dữ liệu ở giai đoạn cuối (Data Analyst, Data
Khoá luận tốt nghiệp
Scientis, BI analyst, kinh doanh, . .) sẽ cần có bước đánh giá chất lượng dữ liệu đã thực sự tốt chưa? Neu câu trả lời là những dữ liệu mà họ đang sử dụng chưa đáp ứng được yêu cầu thì cần phải chuẩn hóa lại những dữ liệu đó để dữ liệu hợp lệ hơn trước khi chúng ta dùng dữ liệu đó để xây dựng báo cáo hay xây dựng mô hình dự đoán.
Để thu thập hay sở hữu dữ liệu chất lượng cao thì không phải là dễ, hay chính xác hơn đó là một thách thức đối với bất kỳ một tổ chức nào
Một số biện pháp cụ thể cải thiện chất lượng dữ liệu:
a. Xây dựng một chiến lược dữ liệu chất lượng cao
Cải thiện chất lượng dữ liệu yêu cầu một chiến lược bao gồm các công việc và cách thức chúng ta sẽ thực hiện. Một chien lược cải thiện chất lượng dữ liệu phải được cân bằng với chiến lược kinh doanh, điều đó có nghĩa là đầu ra mong muốn đạt được của chiến lược dữ liệu chất lượng cao sẽ phù hợp với yêu cầu kinh doanh. Tuy nhiên, không phải tất cả dữ liệu có trong tổ chức đều quan trọng. Những nỗ lực trong quản lý chất lượng dữ liệu nên tập trung đầu tiên vào những dữ liệu quan trọng nhất của tổ chức. Nguyên nhân là bởi vì để đưa ra một chiến lược dữ liệu chất lượng cao và có thể thực hiện thành công thì đòi hỏi thời gian, nguồn nhân lực cực kỳ lớn của tổ chức, đặc biệt về nhân lực chất lượng cao và tài chính. Để xây dựng chiến lược thành công, thì cần hiểu và xuất phát từ những khía cạnh sau:
- Hiểu được những yêu cầu kinh doanh
- Xác định những loại dữ liệu quan trọng phù hợp nhu cầu kinh doanh
- Xác định các quy tắc trong kinh doanh và các tiêu chuẩn chất lượng dữ liệu dựa trên các yêu cầu kinh doanh
- Có các tiêu chí đánh giá dữ liệu
- Chia sẻ phản hồi và nhận kết quả từ những bên liên quan
- Quản lý các vấn đề theo thứ tự ưu tiên
- Xác định và ưu tiên các cơ hội cải tiến
- Đo lường, giám sát, và báo cáo chất lượng dữ liệu
- Quản lý siêu dữ liệu được tạo thông qua các quy trình chất lượng dữ liệu
- Tích hợp các kiểm soát chất lượng dữ liệu vào các quy trình kinh doanh và kỹ thuật
tên tốt, ...
Một cơ sở được thiết kế tốt thì cần tuân theo các bước cơ bản khi xây dựng và
cần thực hiện các bước chuẩn hóa cơ sở dữ liệu theo các chuẩn 1NF, 2NF, 3NF và BCNF (Boyce-Codd Normal Form)
Khoá luận tốt nghiệp
Làm thế nào để tổ chức dữ liệu chất lượng cao? Trong xây dựng chiến lược dữ liệu chất lượng cao, cần có:
- Xây dựng quy tắc chuẩn về thu thập và xử lý dữ liệu: Các tổ chức, doanh nghiệp ở Việt Nam hiện nay, đặc biệt là tổ chức vừa và nhỏ thì chưa thực sự quan tâm đến việc thiết kế một quy trình chuẩn trong việc thu thập và xử lý dữ liệu. Vì vậy mà cần đưa ra một tập các quy tắc chuẩn về thu thập và xử lý dữ liệu.
- Xác định các loại dữ liệu và kích thước dữ liệu cần thu thập: Dữ liệu cần
thu thập là dữ liệu giao dịch, dữ liệu thông tin khách hàng, ... Dữ liệu là có cấu trúc, phi cấu trúc hay bán cấu trúc. Cần phải xác định đặc điểm, kích thước của dữ liệu để lựa chọn và áp dụng công nghệ phù hợp.
- Đưa ra các tiêu chí đánh giá chất lượng dữ liệu: Tùy vào từng ngữ cảnh, doanh nghiệp sẽ đưa ra các tiêu chí, thước đo đánh giá chất lượng dữ liệu dựa vào bộ tiêu chuẩn đo lường chất lượng đang được áp dụng phổ biến hiện nay.
b. Cải thiện thiết kế giao diện nhập dữ liệu
Vấn đề thiết kế kém giao diện nhập dữ liệu là một trong những nguyên nhân gây ra dữ liệu chất lượng kém. Biểu hiện của việc thiết kế một giao diện nhập dữ liệu kém ở chỗ: không có khả năng chỉnh sửa khi người dùng nhập sai dữ liệu hay giao diện đó không có khả năng ngăn chặn các trường hợp như dữ liệu không chính xác, dữ liệu bị trùng lặp, không đúng định dạng hay là thiếu giá trị (missing values), .trước khi được đưa vào hệ thống và được lưu ở trong cơ sở dữ liệu. Và những dữ liệu chất lượng kém này sẽ không đạt chuẩn để triển khai cho giai đoạn tiếp theo là phân tích. Ngoài ra, dữ liệu chất lượng thấp cũng do một phần giao diện hay hệ thống nhập liệu gặp trục trặc. Việc dữ liệu đạt được chất lượng cao hay không thì cũng một phần không nhỏ phụ thuộc vào việc thiết kế hay sử dụng giao diện, phần mềm nhập liệu. Thử lấy một ví dụ để chứng minh. Công ty nghiên cứu hiện đang lưu trữ dữ liệu của khách hàng, trong dữ liệu khác hàng có trường tuổi, giới tính. Hiện tại, thấy rằng trường tuổi, giới tính đang có các giá trị không đúng, như tuổi mang giá trị âm, có rất nhiều bản ghi mang giá trị không hợp lệ
c. Thiết kế cơ sở dữ liệu tốt
Một cơ sở dữ liệu được thiết kế tốt khi đảm bảo được đáp ứng nhu cầu lưu trữ dữ liệu, dữ liệu không bị dư thừa hay không hợp lệ, có ràng buộc mạnh, được đặt
Bùi Thị Doan Hằng- Lớp K19HTTTA 65
a. Cần chuẩn hoá lại dữ liệu sau quá trình thu thập
Chuẩn hóa dữ liệu theo nhiều cách: bằng tay hoặc công cụ tự động. Lấy một ví dụ trường hợp về dữ liệu sai, ví dụ: sai định dạng. Cột thời gian ở bảng A thì định dạng timestamp, ở bảng B kiểu dữ liệu định dạng là String nên cần phải chuẩn hóa lại dữ liệu về cùng một định dạng để khi khai thác, hoặc báo cáo, thực hiện một số quá trình tổng hợp dữ liệu thì không bị xảy ra lỗi hay sai sót
Trước khi chuẩn hóa dữ liệu, cần tiến hành làm sạch dữ liệu (loại bỏ giá trị trống- missing value, giá trị ngoại biên-outliers, giá trị không hợp lệ, .). Một số phương pháp chuẩn hóa dữ liệu phổ biến như: z-score, chuẩn hóa min-max, t- score,..
b. Tài liệu hóa (documenting) lại dữ liệu để có đặc tính kế thừa, đặc biệt là dữ liệu chủ và dữ liệu tham chiếu vì dữ liệu cần được chia sẻ trong tổ chức nên việc hệ thống hóa dữ liệu, đặc biệt là những dữ liệu có tính kế thừa để có một tài liệu hoàn chỉnh và thống nhất
c. Sử dụng các phần mền, công cụ đánh giá chất lượng dữ liệu: khi thu thập dữ liệu, cần thiết sử dụng các công cụ để đánh giá chất lượng dữ liệu, ví dụ: Talend, RingLead, Oracle Data Quality, DemandTools, ...