Các vấn đề chất lượng dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 25)

Thông tin được định nghĩa là dữ liệu và phương thức thể hiện chúng. Thông tin nằm ẩn trong dữ liệu . Do đó, để có thông tin tốt thì điều cơ bản là phải duy trì được chất lượng dữ liệu – Data Quality. Chất lượng dữ liệu ở mức cao có nghĩa là nó phải phù hợp cho sử dụng, đủ tốt và thỏa mãn các ứng dụng nghiệp vụ có liên quan. Một số tiêu chuẩn sau đây cho phép đánh giá mức độ của chất lượng dữ liệu :

 Hoàn thiện (completeness) : Tất cả các thuộc tính cho mỗi bản ghi phải đầy đủ.

 Hợp lệ (validity) : tất cả các thuộc tính cho mỗi bản ghi phải đảm bảo giá trị trong phạm vi cho phép.

 Nhất quán (consistency) : các thuộc tính của mỗi bản ghi không được phép mâu thuẫn với bản ghi khác.

 Hợp thời (timeliness): Các bản ghi phải được cập nhật ở thời điểm gần nhất. Thông tin về một đối tượng bất kì cần được cập nhật ngay khi có sự thay đổi về nó trong thế giới thực.

 Chính xác (Accuracy) : Các bản ghi phải mô tả chính xác với các thuộc tính của đối tượng trong thế giới thực.

 Phù hợp (Relevancy ) : CSDL chỉ nên chứa các thông tin cần thiết về đối tượng để hỗ trợ cho chúng.

 Có thể truy cập và hiểu được : các nguồn metadata mô tả dữ liệu trong CSDL cần có ngay khi chúng được cần đến.

Các vấn đề chất lượng dữ liệu có thể chia thành 2 loại chính : đơn nguồn (single- source problems) và đa nguồn (multi-source problems) như được mô tả trong hình 7:

Hình 7. Phân loại vấn đề chất lượng dữ liệu

2.3.1 Làm sạch dữ liệu mức đơn nguồn

2.3.1.1 2.3.1.1. Đơn nguồn – mức lược đồ (Schema level)

Chất lượng nguồn dữ liệu phụ thuộc rất lớn vào mức độ được tổ chức bởi lược đồ (schema) và các ràng buộc toàn vẹn. Với những nguồn không có lược đồ (vd: các files), có rất ít ràng buộc cho các dữ liệu được đưa vào lưu trữ. Do đó mà khả năng xuất hiện lỗi và sự thiếu nhất quán ở mức cao.

Các vấn đề ở mức lược đồ chủ yếu là do thiếu sự hợp lý về các ràng buộc toàn vẹn. Loại này hầu như là xảy ra do những thiếu sót trong khi thiết kế CSDL nguồn. Nếu bảng nguồn không có ràng buộc khóa chính mà chỉ có đinh danh bản ghi duy nhất. khi đó có thể xảy ra trường hợp mà 2 bản ghi tham chiếu đến hai đối tượng trong thế giới thực mà chúng lại có cùng một định danh. Nếu thiếu ràng buộc Check, một cột có thể chứa giá trị ngoài dải cho phép (vd : nhiều hơn 2 giá trị về giới tình). Nếu ràng buộc Not-Null không tồn tại, một bản ghi có thể bị thiếu giá trị với thuộc tính mà bất buộc phải có. Nếu lược đồ nguồn không có ràng buộc tham chiếu (reference), ta có thể có các bản ghi trong một bảng mà tham chiếu đến các bản ghi không tồn tại trong một bảng khác.

Mức vi

phạm Vấn đề vi phạm Dữ liệu lỗi Ghi chú

Thuộc tính

Giá trị không hợp

lệ Bdate=30.13.70

Giá trị nằm ngoài dải cho phép

Một bản ghi

Sự phụ thuộc giữa

các thuộc tính bị vi Age =21,bdate =12.02.86

Có thể xác định tuồi : Age=(ngày hiện tại -

Data Quality (chất lượng dữ liệu) Single-Source (mức đơn nguồn) Multi-Source (mức đa nguồn) Schema Level (mức lược đồ) Instance Level (mức thể hiện) Schema Level (mức lược đồ) Instance Level (mức thể hiện)

Giữa các bản ghi Vi phạm tính duy nhất Emp1=(name=“John Smith”,SNN=“123456”) Emp1=(name =“Perter Miller”,SNN=“123456”) Tính duy nhất của SNN(Social Security Number) bị vi phạm. Nguồn Vi phạm tính toàn vẹn tham chiếu Emp=(name =“John Smith”,deptno=127) Phòng được tham chiếu đến (127) không được định nghĩa trước đó.

Bảng 1. Ví dụ về bài toán đơn nguồn - mức lược đồ

2.3.1.2 Đơn nguồn – mức thể hiện hay mức bản ghi (Instance level hay

record level)

Loại này liên quan đến các lỗi và sự không nhất quán xảy ra tại thời điểm nhập dữ liệu vào hệ thống nguồn. Các lỗi này không thể ngăn được ở mức lược đồ. Điển hình như :

 Lỗi chính tả : gây nên bởi sự thiếu hoàn hảo của phần mềm nhận dạng kí tự ( OCR - Optical Character Recognition ) hoặc có thể do các lỗi in ấn, lỗi ngữ âm.

 Các giá trị mặc định cho các thuộc tính bắt buộc có.

 Không nhất quán.

 Các giá trị sai trường., có nghĩa là giá trị đúng nhưng đặt sai thuộc tính (Vd : Country = “Hà Nội”).

 Trùng lặp bản ghi : có nhiều hơn một bản ghi đề cập đến cùng một đối tượng trong thế giới thực.

Mức vi

phạm Vấn đề vi phạm Dữ liệu lỗi Ghi chú

Thuộc tính

Lỗi chính tả City = “Liipzig” Thường sinh ra do in ấn hoặc do ngữ âm Nhiều giá trị cùng

thuộc tính

Name = “J.Smith 12.02.70 New York”

Nhiều giá trị cùng được đưa vào trong một trường có định dạng tự do của một bản ghi Các giá trị sai

trường City = “England”

Giá trị đúng nhưng đặt nhầm trường trong một bản ghi

Một bản ghi Sự phụ thuộc giữa các thuộc tính bị vi phạm City = “Redmond” , Zip = 77777

City và mã Zip phải phù hợp nhau

Giữa các bản ghi

Đổi chỗ từ Name1 = “J. Smith” Name2 = “Miller P.” Thường dùng trong một trường có định dạng tự do Trùng lặp bản ghi Emp1= (“John Smith”,…), Emp2=(“J.Smith”,…) Cùng một đối tượng nhưng được thể hiện 2 lần do nhập dữ liệu bị lỗi. Các bản ghi mâu thuẫn nhau Emp1=(name =“John Smith”,bdate=12.02.70) Emp1=(name =“John Smith”,bdate=12.12.70) Cùng một thực thể trong thế giới thực nhưng được thể hiện bởi các giá trị khác nhau.

Nguồn Lỗi tham chiếu Emp=(name =“John

Smith”,deptno=17)

Phòng tham chiếu đến (17) đã được định nghĩa trước nhưng giá trị sai

Bảng 2. Ví dụ về bài toán đơn nguồn – mức thể hiện

2.3.2 Làm sạch dữ liệu mức đa nguồn

Các vấn đề trong mức đơn nguồn càng trở nên trầm trọng khi có nhiều nguồn được tích hợp. Mỗi nguồn có thể chứa dữ liệu bẩn và dữ liệu trong các nguồn có thể được thể hiên khác nhau, chúng chồng chéo hoặc mâu thuẫn nhau. Đó là do các nguồn được phát triển , triển khai và duy trì độc lập để phục vụ cho các nhu cầu riêng biệt. Đây là kết quả của sự không đồng nhất ở mức cao trong các hệ thống quản lý dữ liệu, các mô hình dữ liệu, các bản thiết kế lược đồ và các nguồn dữ liệu thực.

2.3.2.1 Đa nguồn – mức lược đồ

Ở mức lược đồ, sự khác nhau về mô hình dữ liệu và thiết kế lược đồ là do bước dịch và tích hợp lược đồ. Những vấn đề chính xuất hiện khi thiết kế lược đồ là xung đột tên và xung đột cấu trúc.

Xung đột tên trong các trường hợp như : Đồng âm – nghĩa là tên giống nhau dùng cho các đối tượng khác nhau (hymonyms). Đồng nghĩa – câc tên khác nhau nhưng cùng chỉ một đối tượng (synonyms).

Xung đột cấu trúc xảy ra trong nhiều trường hợp khác nhau. Chúng là những thể hiện khác nhau của cùng một đối tượng trong các nguồn khác nhau.Thể hiện trong thuộc tính, cấu trúc các thành phần, kiểu dữ liệu, các ràng buộc toàn vẹn khác nhau…

2.3.2.2 Đa nguồn – mức thể hiện hay mức bản ghi.

Ở mức thể hiện, có nhiều xung đột xảy ra . Chúng bao gồm tất cả những vấn đề xảy ra trong đơn nguồn. Và lại có thể xảy ra ở đa nguồn do các thể hiện khác nhau trong các nguồn khác nhau (ví dụ : trùng lặp bản ghi, mâu thuẫn giữa các bản ghi…). Ngoài ra có một số vấn đề khác như :

 Các thể hiện khác nhau kiểu dữ liệu đối với cùng một thuộc tính (Tiền tệ có thể là Dollar hoặc Euro).

 Các ràng buộc khác nhau : vidu : Sex= {M, F}, Sex= {0,1}…

 Các mức kết tập khác nhau ( vidu : thống kê bán hàng theo một sản phẩm hoặc theo một nhóm sản phấm). Hoặc các điểm thời gian khác nhau, có thể là theo ngày, theo tháng hoặc theo năm ( vidu : thống kê bán hàng của ngày hôm qua cho nguồn 1 so với thống kê bán hàng của tuần trước cho nguồn 2)…

 Dư thừa dữ liệu, trùng lặp bản ghi.

2.3.3 Các giải pháp làm sạch dữ liệu

2.3.3.1 Đối sánh trùng lặp

Trong trường hợp nhiều nguồn tích hợp, thường hay xảy ra trường hợp trùng lặp bản ghi, có nghĩa là các bản ghi khác nhau tham chiếu đến cùng một đối tượng trong thế giới thực. Giải pháp cho bài toán LSDL ở đây là :

 Chỉ ra sự trùng lặp trong các bản ghi

 Ghép chúng lại thành một bản ghi đảm bảo chất lượng dữ liệu của bản ghi là mức cao.

Công việc này còn được gọi là quá trình “merge/purge” (hợp nhất và làm sạch) hay còn gọi là liên kết bản ghi (record linkage).

Khi nghiên cứu lĩnh vực này, người ta tập trung vào các phương thức, giải pháp mà đảm bảo cả hai mặt :

 Số lượng các phép đối sánh đúng cao và số lượng các phép đối sánh sai thấp

 Khả năng hoàn thành tiến độ. Có nghĩa là thời gian thực hiện trong giới hạn cho phép của hệ thống.

2.3.3.2 Sửa đổi và chuẩn hóa dữ liệu

Vẫn là vấn đề đa nguồn, khi mà nhiều khu vực khác nhau sử dụng các hệ thống nguồn khác nhau. Giải pháp cho bài toán LSDL ở đây là chuyển đổi tất cả các giá trị trong các hệ nguồn đó thành một tập giá trị chuẩn trong hệ đích. Ngoài ra, nếu có bất kì lỗi nào xuất hiện, LSDL sẽ chỉ ra và sửa đổi chúng.

2.3.3.3 Dịch lược đồ

Những hệ nguồn có thể sử dụng các mô hình dữ liệu khác nhau. Giải pháp cho bài toán LSDL là cung cấp một ánh xạ từ các mô hình dữ liệu này đến một mô hình dữ liệu đích. Điều này có thể cần tách các trường có dạng tự do thành một tập các thuộc tính nguyên tố .

Vidụ: Giả sử trường “address” chung , tách thành các trường {“street”, “home no”, “zip code”}.

CHƯƠNG 3 XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU CƯỚC KHÁCH HÀNG TẠI CÔNG TY THÔNG TIN VIỄN THÔNG ĐIỆN LỰC 3.1 Hiện trạng và yêu cầu

3.1.1 Giới thiệu về Công ty Thông tin Viễn thông Điện lực

Công ty thông tin Viễn thông Điện lực (EVNTelecom) là một doanh nghiệp trực thuộc Tập đoàn Điện lực Việt Nam. EVNTelecom kinh doanh các dịch vụ viễn thông tại Việt Nam. Cơ cấu tổ chức của Công ty như sau:

Hình 9. Mô hình tổ chức EVNTelecom

Ngoài các phòng ban, trung tâm trực thuộc, EVNTelecom còn có một hệ thống các điện lực cấp tỉnh. Các đơn vị điện lực thao tác trực tiếp trên các phần mềm tác nghiệp.

3.1.2 Hiện trạng tổ chức thông tin

Hiện nay Công ty Thông tin Viễn thông Điện lực sử dụng một số phần mềm tác nghiệp sau:

 Phần mềm khai báo thuê bao, khách hàng Miền Bắc

 Phần mềm khai báo thuê bao, khách hàng Miền Nam

 Phần mềm tính cước khách hàng

 Phầm mềm chấm nợ khách hàng

Ban Giám Đốc

Phòng Tính Cước Phòng Kinh doanh Phòng Đối Soát

Điện lực Hầ Nội Điện lực Ninh Bình Điện lực HCM Điện lực Đà Nẵng

 Phần mềm đối soát cước.

Dữ liệu tác nghiệp từ các phần mềm trên được lưu trong các CSDL tương ứng và tập trung tại một số phòng ban của Công ty quản lý:

Hình 10. Hiện trạng tổ chức thông tin tại EVNTelecom

1. Cơ sở dữ liệu thông tin khách hàng Miền Bắc, Miền Nam: lưu toàn bộ thông

tin khách hàng đã hòa mạng, bao gồm thông tin về khách hàng, về thuê bao, lịch sử thuê bao, lịch sử hòa mạng, tạm ngưng, thanh lý thuê bao, lịch sử đăng ký gói cước…CSDL này do phòng Tính cước quản lý

2. Cơ sở dữ liệu cước khách hàng: lưu thông tin chi tiết cuộc gọi của các thuê

bao các tháng khác nhau, thông tin về khuyến mại, khấu trừ cước… CSDL này do phòng Tính cước quản lý

3. Cơ sở dữ liệu công nợ: lưu thông tin chấm nợ, gạch nợ của các đai lý…. CSDL

này do phòng Tính cước quản lý

4. Cơ sở dữ liệu thanh khoản: Lưu toàn bộ chi tiết, tổng hợp cuộc gọi từ thuê

bao EVNTelecom đi và đến từ thuê bao ngoại mạng như Viettel, vinaphone, mobiphone, vnpt,… CSDL này do phòng Đối soát quản lý.

Các phần mềm tác nghiệp trên có chức năng xuất báo cáo tháng. Hàng tháng Công ty yêu cầu tổng hợp các rất nhiều báo cáo từ các nguồn dữ liệu trên. Quy trình thực hiện báo cáo như sau:

Server khách hàng MN

CSDL

khách

hàng MN Các điện lực miền Nam

Server khách hàng MB CSDL khách hàng MB Các điện lực miền Bắc Server cước khách hàng CSDL Cước Các điện lực Server Công nợ CSDL công nợ Các điện lực

Server đối soát cước CSDL đối

Phòng tính cước

- Xuất các báo cáo từ hệ thống tính cước

Phòng đối soát

- Xuất các báo cáo từ hệ thống thanh khoản

Phòng kinh doanh

- Tổng hợp các báo cáo - Ra các chiến lược kinh doanh phù

hợp

Ban lãnh đạo Công ty

Gửi Gửi

Báo cáo

Hình 11. Quy trình báo cáo hiện nay tại EVNTelecom

1. Hàng tháng Bộ phận đối soát và Bộ phận tính cước xuất báo cáo từ hệ thống ra, và gửi phòng Kinh doanh

2. Phòng kinh doanh nghiên cứu các báo cáo. Đối với các báo cáo cần tổng hợp từ hai hệ thống, chuyên viên phòng Kinh doanh tổng hợp thủ công để ra các báo cáo tổng. Từ đó xem xét ra các chiến lược kinh doanh

3. Phòng Kinh doanh trình lãnh đạo công ty về các báo cáo và đề xuất kinh doanh

3.1.3 Hạn chế của các tổ chức thông tin hiện tại

Với mô hình tổ chức thông tin như hiện nay bộc lộ nhiều hạn chế:

 Phòng Kinh doanh tốn thời gian và nhân lực để tổng hợp các báo cáo. Không kịp thời đưa ra những chiến lược kinh doanh hiệu quả.

 Lãnh đạo công ty thiếu chủ động trong việc theo dõi các thông tin.

3.1.4 Yêu cầu bài toán

Xuất phát từ hạn chế của mô hình tổ chức thông tin hiện tại, trong luận văn sẽ đề xuất xây dựng một kho dữ liệu tổng hợp tích hợp năm nguồn dữ liệu ở trên theo mô hình như sau:

Hình 12. Mô hình kho dữ liệu cước khách hàng

 Tích hợp các nguồn dữ liệu: CSDL cước khách hàng Miền Bắc, CSDL cước khách hàng Miền Nam, CSDL cước khách hàng, CSDL công nợ khách hàng, CSDL đối soát cước

 Xây dựng hệ thống báo cáo kết nối vào kho dữ liệu xuất các báo cáo về tình hình tăng giảm doanh thu, các biểu đồ phân tích tình hình kinh doanh.

 Căn cứ vào các báo cáo, phân tích tổng thể tình hình kinh doanh qua các tháng, lãnh đạo Công ty và phòng kinh doanh đưa ra các chiến lược kinh doanh hiệu quả và đúng lúc.

3.2 Xây dựng kho dữ liệu

3.2.1 Giới thiệu công cụ Oracle Warehouse Builder

Oracle Warehouse Builder (OWB) còn được gọi là Warehouse Builder (WB) là một framework có khả năng mở rộng, một phần không thể thiếu của Oracle Database. Nó cung cấp các giải pháp thiết kế, triển khai và quản lý KDL cho doanh nghiệp, các KDL cục bộ và các ứng dụng quản trị doanh nghiệp thông minh (e-business intelligence).

OWB còn là một công cụ thực hiện quá trình trích chiết, chuyển đổi và nạp (ETL) dữ liệu vào trong KDL.

CSDL khách hàng

MB

CSDL Cước CSDL Đối soát CSDL Công nợ

CSDL Khách hàng Miền Nam Tr ich c họ n Là m s ạc h Ch uy ển đ ổi Nạ p dữ liệ u Kho dữ liệu Đầ u ra 10 0 90 80 70 60 50 40 30 40 50 Biểu đồ phân tích Báo cáo/truy vấn

3.2.1.1 Các thành phần của OWB

OWB gồm hai thành phần như hình 13: thành phần thiết kế (design environment) và thành phần thực thi (runtime environment). Mỗi thành phần xử lý các khía cạnh khác nhau của hệ thống. Thành phần thiết kế xử lý dữ liệu metadata, thành phần thực thi xử lý dữ liệu vật lý.

Hình 13. Các thành phần của OWB

Thành phần thiết kế bao gồm kho dữ liệu metadata ( metadata repository) được

chứa trong cơ sở dữ liệu oracle và một tập các công cụ thiết kế và báo cáo phía client, công cụ này được viết bằng Java hoặc HTML

Tạo ra metadata là một hoạt động thiết kế cho phép sử dụng các công cụ phía client để thiết kế các đối tượng, các quy trình và luồng công việc. Warehouse Builder hỗ trợ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 25)

Tải bản đầy đủ (PDF)

(65 trang)