2.3.3 Các giải pháp làm sạch dữ liệu
2.3.3.1 Đối sánh trùng lặp
Trong trường hợp nhiều nguồn tích hợp, thường hay xảy ra trường hợp trùng lặp bản ghi, có nghĩa là các bản ghi khác nhau tham chiếu đến cùng một đối tượng trong thế giới thực. Giải pháp cho bài toán LSDL ở đây là :
Chỉ ra sự trùng lặp trong các bản ghi
Ghép chúng lại thành một bản ghi đảm bảo chất lượng dữ liệu của bản ghi là mức cao.
Công việc này còn được gọi là quá trình “merge/purge” (hợp nhất và làm sạch) hay còn gọi là liên kết bản ghi (record linkage).
Khi nghiên cứu lĩnh vực này, người ta tập trung vào các phương thức, giải pháp mà đảm bảo cả hai mặt :
Số lượng các phép đối sánh đúng cao và số lượng các phép đối sánh sai thấp
Khả năng hoàn thành tiến độ. Có nghĩa là thời gian thực hiện trong giới hạn cho phép của hệ thống.
2.3.3.2 Sửa đổi và chuẩn hóa dữ liệu
Vẫn là vấn đề đa nguồn, khi mà nhiều khu vực khác nhau sử dụng các hệ thống nguồn khác nhau. Giải pháp cho bài toán LSDL ở đây là chuyển đổi tất cả các giá trị trong các hệ nguồn đó thành một tập giá trị chuẩn trong hệ đích. Ngoài ra, nếu có bất kì lỗi nào xuất hiện, LSDL sẽ chỉ ra và sửa đổi chúng.
2.3.3.3 Dịch lược đồ
Những hệ nguồn có thể sử dụng các mô hình dữ liệu khác nhau. Giải pháp cho bài toán LSDL là cung cấp một ánh xạ từ các mô hình dữ liệu này đến một mô hình dữ liệu đích. Điều này có thể cần tách các trường có dạng tự do thành một tập các thuộc tính nguyên tố .
Vidụ: Giả sử trường “address” chung , tách thành các trường {“street”, “home no”, “zip code”}.
CHƯƠNG 3 XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU CƯỚC KHÁCH HÀNG TẠI CÔNG TY THÔNG TIN VIỄN THÔNG ĐIỆN LỰC 3.1 Hiện trạng và yêu cầu
3.1.1 Giới thiệu về Công ty Thông tin Viễn thông Điện lực
Công ty thông tin Viễn thông Điện lực (EVNTelecom) là một doanh nghiệp trực thuộc Tập đoàn Điện lực Việt Nam. EVNTelecom kinh doanh các dịch vụ viễn thông tại Việt Nam. Cơ cấu tổ chức của Công ty như sau: