Làm sạch dữ liệu mức đa nguồn

Một phần của tài liệu Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 28)

Các vấn đề trong mức đơn nguồn càng trở nên trầm trọng khi có nhiều nguồn được tích hợp. Mỗi nguồn có thể chứa dữ liệu bẩn và dữ liệu trong các nguồn có thể được thể hiên khác nhau, chúng chồng chéo hoặc mâu thuẫn nhau. Đó là do các nguồn được phát triển , triển khai và duy trì độc lập để phục vụ cho các nhu cầu riêng biệt. Đây là kết quả của sự không đồng nhất ở mức cao trong các hệ thống quản lý dữ liệu, các mô hình dữ liệu, các bản thiết kế lược đồ và các nguồn dữ liệu thực.

2.3.2.1 Đa nguồn – mức lược đồ

Ở mức lược đồ, sự khác nhau về mô hình dữ liệu và thiết kế lược đồ là do bước dịch và tích hợp lược đồ. Những vấn đề chính xuất hiện khi thiết kế lược đồ là xung đột tên và xung đột cấu trúc.

Xung đột tên trong các trường hợp như : Đồng âm – nghĩa là tên giống nhau dùng cho các đối tượng khác nhau (hymonyms). Đồng nghĩa – câc tên khác nhau nhưng cùng chỉ một đối tượng (synonyms).

Xung đột cấu trúc xảy ra trong nhiều trường hợp khác nhau. Chúng là những thể hiện khác nhau của cùng một đối tượng trong các nguồn khác nhau.Thể hiện trong thuộc tính, cấu trúc các thành phần, kiểu dữ liệu, các ràng buộc toàn vẹn khác nhau…

2.3.2.2 Đa nguồn – mức thể hiện hay mức bản ghi.

Ở mức thể hiện, có nhiều xung đột xảy ra . Chúng bao gồm tất cả những vấn đề xảy ra trong đơn nguồn. Và lại có thể xảy ra ở đa nguồn do các thể hiện khác nhau trong các nguồn khác nhau (ví dụ : trùng lặp bản ghi, mâu thuẫn giữa các bản ghi…). Ngoài ra có một số vấn đề khác như :

 Các thể hiện khác nhau kiểu dữ liệu đối với cùng một thuộc tính (Tiền tệ có thể là Dollar hoặc Euro).

 Các ràng buộc khác nhau : vidu : Sex= {M, F}, Sex= {0,1}…

 Các mức kết tập khác nhau ( vidu : thống kê bán hàng theo một sản phẩm hoặc theo một nhóm sản phấm). Hoặc các điểm thời gian khác nhau, có thể là theo ngày, theo tháng hoặc theo năm ( vidu : thống kê bán hàng của ngày hôm qua cho nguồn 1 so với thống kê bán hàng của tuần trước cho nguồn 2)…

 Dư thừa dữ liệu, trùng lặp bản ghi.

Một phần của tài liệu Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 28)