1. Trang chủ
  2. » Công Nghệ Thông Tin

Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx

24 682 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 395,46 KB

Nội dung

Những điều kiện này có thể đơn giản khi cho biết rằng phải có dữ liệu trong trường tức là, nó có đầy đủ không hoặc khi có dữ liệu thì nó cần tuân theo một số định dạng hoặc bộ các giá tr

Trang 1

Sử dụng các định nghĩa quy tắc dựng sẵn với IBM

InfoSphere Information Analyzer

Tìm hiểu cách sử dụng các gói dựng sẵn của các quy tắc phân tích chất lượng dữ liệu IBM® InfoSphere® Information Analyzer (Trình phân tích thông tin InfoSphere của IBM) Chúng tôi

sẽ cho bạn thấy cách hiểu nội dung có sẵn, cách sử dụng thông tin đó để giải quyết các điều kiện chất lượng dữ liệu chung và sau đó là cách nhập khẩu nó vào môi trường Information Analyzer của bạn để đẩy nhanh việc phát triển và đánh giá quy tắc

Tổng quan

Với InfoSphere Information Analyzer của IBM, bạn có thể tạo ra các quy tắc chất lượng dữ liệu

để giám sát tự động các vấn đề chất lượng dữ liệu tiềm năng dựa vào các yêu cầu kinh doanh đã định hoặc dựa trên các vấn đề đã xác định trong việc phân tích hiệu năng dữ liệu Các quy tắc này có thể mất thời gian để phát triển và thử nghiệm để tìm ra hàng loạt dữ liệu trong một bảng,

hệ thống hoặc môi trường cụ thể

Mục tiêu của bài này là cho bạn thấy các cách để đẩy nhanh sự phát triển này thông qua việc nhập khẩu và sử dụng các định nghĩa quy tắc dựng sẵn của Information Analyzer, có kèm theo bài này Bằng cách sử dụng các định nghĩa quy tắc chất lượng dữ liệu dựng sẵn, bạn sẽ có thể đẩy nhanh việc phát triển xác nhận hợp lệ chất lượng dữ liệu trong doanh nghiệp của bạn

Bài này tập trung vào các nhiệm vụ sau:

 Hiểu biết về các định nghĩa quy tắc có sẵn trong các gói dựng sẵn

 Sử dụng các định nghĩa quy tắc dựng sẵn để giải quyết các điều kiện chất lượng dữ liệu chung

 Rà soát lại cấu trúc và nội dung của tệp XML định nghĩa quy tắc của Information

Analyzer

 Nhập khẩu các định nghĩa quy tắc dữ liệu dựng sẵn bằng cách sử dụng API HTTP/CLI — một tính năng được giới thiệu trong phiên bản V8.5 và phiên bản nâng cao V8.7 của InfoSphere Information Analyzer

Các quy tắc chất lượng dữ liệu dựng sẵn kèm theo bài này nhằm mục đích:

 Giảm nỗ lực xác định các vấn đề chất lượng dữ liệu trong nhiều miền thông tin phổ biến (các khóa, các mã định danh quốc gia, các ngày tháng, các mã quốc gia, các địa chỉ email, v.v ) và các điều kiện (các kiểm tra tính toàn vẹn, các giá trị hợp lệ, các kiểm tra phạm vi, tổng số gộp chung, các phương trình, v.v )

 Dùng làm các mô hình, các khuôn mẫu và các ví dụ dùng cho việc thiết kế quy tắc bổ sung riêng của bạn

 Được sử dụng trong các công việc của Information Analyzer (hoặc V8.5 hoặc V8.7) hoặc thông qua Rule Stage (Giai đoạn quy tắc) có sẵn trong Phiên bản V8.7 của Information Server (Máy chủ thông tin)

Trang 2

Về đầu trang

Giải quyết các miền dữ liệu và các điều kiện chất lượng chung

Hầu như bất kỳ mảnh dữ liệu nào được lưu trong một cơ sở dữ liệu hay tệp hay đang được xử lý thông qua một công việc hay dịch vụ web có một số điều kiện liên quan cho biết liệu dữ liệu có đáp ứng được các quy tắc xác nhận hợp lệ đã thiết lập không Những điều kiện này có thể đơn giản khi cho biết rằng phải có dữ liệu trong trường (tức là, nó có đầy đủ không) hoặc khi có dữ liệu thì nó cần tuân theo một số định dạng hoặc bộ các giá trị đã quy định (tức là, các giá trị hợp lệ) Hoặc các điều kiện có thể chỉ ra rằng dữ liệu phải khớp với các bản ghi trong một nguồn tham khảo đã quy định, ví dụ như các mã bưu điện hoặc cho biết rằng một phương trình cụ thể được tính toán đúng

Phạm vi tiềm năng của dữ liệu có thể được đánh giá và số lượng tiềm năng của các điều kiện chất lượng có thể được xác định là rất phong phú và bài này (và các định nghĩa quy tắc dựng sẵn kèm theo) không thể giải quyết mọi tình huống có thể Thay vào đó, bài này tập trung vào việc cung cấp tài nguyên cho một tập các miền và các điều kiện dữ liệu được tìm thấy phổ biến trong nhiều nguồn dữ liệu

Information Analyzer cung cấp một khả năng để xác định logic quy tắc cho các miền dữ liệu và các điều kiện như vậy tách rời khỏi bất kỳ nguồn dữ liệu vật lý nào, do đó cùng một logic luôn được áp dụng nhất quán từ nguồn dữ liệu này sang nguồn dữ liệu khác (tức là, một định nghĩa quy tắc dữ liệu có thể được áp dụng và được sử dụng với nhiều nguồn dữ liệu) Được kết hợp với một khả năng nhập khẩu một bộ các định nghĩa quy tắc theo một định dạng XML đã định nghĩa, bạn có thể lấy các định nghĩa quy tắc dựng sẵn này và nạp chúng vào Information Analyzer và bắt đầu áp dụng chúng cho các nguồn dữ liệu riêng của bạn

Các định nghĩa quy tắc

Các định nghĩa quy tắc tiếp theo một cú pháp cơ bản mà ở đó một biến, có thể chỉ đơn giản là một từ hoặc thuật ngữ, được đánh giá dựa trên một điều kiện hoặc kiểu kiểm tra đã quy định Các điều kiện hoặc kiểm tra đã quy định có thể hoặc không thể yêu cầu một số giá trị tham khảo bổ sung, ví dụ như biến khác, một danh sách các giá trị, một định dạng cụ thể, v.v Hơn nữa, một số điều kiện có thể được kết nối cùng với các mệnh đề IF, THEN, AND hoặc OR Ví dụ, một định nghĩa quy tắc rất đơn giản có thể như sau: DateOfBirth IS_DATE

Điều kiện này chỉ ra rằng một biến gọi là DateOfBirth phải có một định dạng ngày được công nhận

Trong một trường hợp phức tạp hơn một chút, bạn có thể có một định nghĩa quy tắc như Liệt kê

Trang 3

AND DateOfBirth < date()

THEN CustomerType = 'P'

Ở đây, có một câu lệnh có điều kiện để kiểm tra xem biến DateOfBirth có tồn tại và nằm trong một phạm vi đã thiết lập không và chỉ khi các điều kiện đó được đáp ứng, một biến khác được gọi là CustomerType mới được kiểm tra để xem liệu nó có bằng với một giá trị đã quy định không

Thông tin thêm về việc tạo và sử dụng các định nghĩa quy tắc có sẵn trong tài liệu hướng dẫn người dùng Information Analyzer (xem Các định nghĩa Quy tắc dữ liệu)

Các ví dụ về miền dữ liệu cơ bản

Các định nghĩa quy tắc cơ bản nhất kiểm tra để tìm sự đầy đủ của một trường hoặc một định dạng chữ hoặc số tiêu chuẩn Các quy tắc dựng sẵn gồm các ví dụ về những điều kiện này

Hình 1 Các quy tắc kiểu dữ liệu và tính đầy đủ phổ biến

Ví dụ, định nghĩa quy tắc AlphanumFieldExists đánh giá điều kiện sau: Field1 EXISTS AND len(trim(Field1)) <> 0

Ví dụ này bao gồm một số khả năng cơ bản của Information Analyzer:

 Việc sử dụng một tên biến chung — trong trường hợp này, chỉ cần gọi là Field1

o LƯU Ý: Biến có thể được kết nối để (kết buộc) tới bất kỳ cột hoặc trường dữ liệu

nào Đây là tính linh hoạt cho phép một định nghĩa quy tắc cung cấp cơ sở cho nhiều quy tắc dữ liệu có thể thực hiện được thực tế

 Kiểm tra để tìm nhiều điều kiện — Sự tồn tại của dữ liệu và một điều kiện không bằng (<>)

o LƯU Ý: Không có giới hạn cụ thể nào về số lượng các điều kiện có thể được đưa

vào trong một định nghĩa quy tắc, mặc dù trên thực tế để giữ cho các định nghĩa quy tắc dễ hiểu là rất có ích Trong việc tạo ra các định nghĩa quy tắc, hãy tìm kiếm các khối xây dựng cơ bản và lợi dụng khả năng của bộ quy tắc của

Trang 4

Information Analyzer để kết hợp các điều kiện thay vì xây dựng tất cả chúng thành một quy tắc (xem Các kỹ thuật phân tích quy tắc dữ liệu trong Trung tâm Thông tin của IBM]

 Việc đưa vào các chức năng — Trong trường hợp này là len và trim

o LƯU Ý: Hãy tham khảo Hướng dẫn người dùng Information Analyzer để biết

Các loại chức năng có sẵn Thường có thể sử dụng các chức năng để tạo các điều kiện dễ giải quyết hơn Trong trường hợp này, các chức năng được sử dụng để kiểm tra các khoảng trống trong một trường Trước tiên chức năng trim (cắt tỉa) loại bỏ bất kỳ số lượng các giá trị để trống (khoảng trống) từ bên trái hoặc bên phải của bất kỳ văn bản thực tế nào Chức năng len xác định độ dài của tất cả các

ký tự chữ và số còn lại với một hy vọng rằng trường này sẽ có ít nhất một giá trị

ký tự (có nghĩa là, chiều dài khác 0)

Các miền dữ liệu theo phân loại dữ liệu

Ở mức cơ bản, ngoài các ví dụ chung chung ở trên, bạn hầu như có thể phân loại dữ liệu vào một tập các miền dữ liệu chung như đã thấy trong các thông tin chi tiết về Column Analysis (Phân tích Cột) của Information Analyzer:

 Mã định danh — Một trường phổ biến duy nhất và có thể nhận biết dữ liệu liên quan (ví

dụ, Customer ID - mã định danh khách hàng, National identifier - mã định danh quốc gia)

 Bộ chỉ thị — Một trường, thường được gọi là một Cờ, có một điều kiện nhị phân (ví dụ, True - Đúng hay False - Sai, Yes - Có hoặc No - Không, Female - Nữ hay Male - Nam)

 Mã (Code) — Một trường, có một bộ các giá trị riêng biệt và đã xác định, thường được viết tắt (ví dụ, Mã trạng thái, Trạng thái khách hàng)

 Ngày — Một trường có chứa một số giá trị ngày

 Số lượng — Một trường có chứa một giá trị số và không được phân loại như một Mã định danh hoặc Mã (ví dụ như, Price - Giá, Amount - Số tiền, Asset Value - Giá trị tài sản)

 Văn bản — Một trường có chứa các giá trị chữ và số, văn bản có thể dài và không được phân loại như một Mã định danh hoặc Mã (ví dụ, Name - Tên, Address - Địa chỉ,

Description - Mô tả)

Ngoài ra, có một phân loại quy tắc cơ bản: Valid Value Combination (Kết hợp giá trị hợp lệ), trong đó một trường thường là một giá trị nhất định, một trường thứ hai phải có một số giá trị cụ thể

Một tập con các định nghĩa quy tắc dựng sẵn tiếp sau các việc phân nhóm chung và các yêu cầu xác nhận hợp lệ điển hình này Ví dụ, Hình 2 nêu bật các định nghĩa quy tắc dựng sẵn cho các trường Code

Trang 5

Hình 2 Các định nghĩa quy tắc dựa trên phân loại phổ biến cho các mã số

Các định nghĩa quy tắc này dựa trên các phân loại dữ liệu phổ biến thường đánh giá các định dạng cấu trúc hay các yêu cầu xác nhận hợp lệ cơ bản (ví dụ, một Mã định danh phải nằm trong một phạm vi được giới hạn giữa một giá trị thấp và một giá trị cao, nhưng nó không quy định bất

kỳ giá trị chính xác nào)

Ví dụ, nếu bạn có một trường Code cho phép các giá trị chữ số 0-9, bạn có lẽ cần áp dụng định nghĩa quy tắc Code1DigitNumeric (xem trong Hình 2) để kiểm tra xem trường này có chứa một giá trị số một chữ số không Định nghĩa quy tắc này như sau: Code MATCHES_FORMAT '9'

Ví dụ này cho thấy một điều kiện đơn giản:

 Sử dụng một biến chung được gọi là Code

 Một việc kiểm tra để tìm một điều kiện định dạng duy nhất: MATCHES_FORMAT

o LƯU Ý: Information Analyzer có hai bước kiểm tra riêng biệt về định dạng dữ

liệu: MATCHES_FORMAT, được hiển thị ở đây và MATCHES_REGEX, đánh giá dựa vào một loạt các điều kiện của biểu thức chính quy (có thể tìm thấy nhiều ví dụ thông qua một tìm kiếm Google đơn giản theo thuật ngữ "regular expression" - biểu thức chính quy)

 Điều kiện MATCHES_FORMAT đòi hỏi một giá trị tham khảo; trong trường hợp này, nó dự kiến một và chỉ một giá trị số (tất cả các chữ số bằng số được biểu diễn bằng một số 9) Các miền dữ liệu phổ biến

Như đã lưu ý, có nhiều miền dữ liệu tiềm năng có thể được kết hợp vào một gói các định nghĩa quy tắc dữ liệu dựng sẵn Các ví dụ về các miền phổ biến cho các gói có sẵn gồm có:

 Thông tin nhân khẩu học

o Tuổi

o Ngày sinh

o Ngày mất

o Mã định danh quốc gia (ví dụ, Số an sinh xã hội của Hoa Kỳ, số SIN của Canada,

số hộ chiếu, Mã tài chính của Ý, v.v )

 Thông tin địa chỉ Internet

o Địa chỉ email

Trang 6

(qtyValue1 * price) - (qtyValue1 * discount) + (((qtyValue1 * price) -

(qtyValue1 * discount)) * salesTax) = totalAmount

Ví dụ này nhấn mạnh rằng thông tin nguồn (trong trường hợp này) hoặc thông tin tham khảo được sử dụng trong việc xác nhận hợp lệ có thể kết hợp một số tiêu chí:

 Có năm biến đang dùng trong logic này:

o qtyValue1 — Số lượng của một mục trong một đơn đặt hàng hoặc bán hàng

o price — Giá của một mục trong một đơn đặt hàng hoặc bán hàng

o discount — Một phần tiền giảm giá được áp dụng cho một mục trong một đơn đặt hàng hoặc bán hàng

o salesTax — Thuế doanh thu được áp dụng trên một đơn đặt hàng hoặc bán hàng

o totalAmount — Tổng số tiền của một đơn đặt hàng hoặc bán hàng

o LƯU Ý: Không có đặc tả nào trong chính định nghĩa quy tắc đó ở nơi lưu trữ dữ

liệu thực sự vào đó; có thể chứa tất cả các biến này trong một cơ sở dữ liệu hay tệp hoặc có thể đến từ các nguồn khác nhau Thông tin đó chỉ bắt buộc khi các

biến được kết buộc khi tạo một quy tắc dữ liệu có thể thực hiện được

 Một bước kiểm tra để tìm một điều kiện duy nhất = (bằng)

o LƯU Ý: Quy tắc này cũng có thể được viết ngược lại, ở đây totalAmount là biến nguồn (ở bên trái), bằng với dữ liệu tham khảo (phương trình đặt ở bên phải)

 Một phương trình sử dụng một loạt các hàm (các toán tử số tiêu chuẩn +, -, * và /) và các dấu ngoặc đơn có liên quan

Các miền dữ liệu tiêu chuẩn hóa (của Mỹ)

Trang 7

Một gói quy tắc dựng sẵn kèm theo được nhắm vào việc xác nhận hợp lệ đầu ra của các quá trình tiêu chuẩn hóa với các tên, các địa chỉ đường phố và các vùng bưu chính của Mỹ từ IBM

InfoSphere QualityStage® Giai đoạn Tiêu chuẩn hóa của QualityStage nhận dữ liệu đến như các tên và các địa chỉ của Mỹ không rõ, phân tích dữ liệu đó và tạo ra một dạng tiêu chuẩn hóa Ví

dụ, hãy xem xét hai địa chỉ sau:

One hundred West Main Street apt 10

100 W Main St #10

Rất có thể, hai địa chỉ này biểu thị cùng một vị trí Nhưng sự khác biệt về định dạng và mô tả thường ngăn không cho thông tin đó được kết nối Kết quả đầu ra của giai đoạn Tiêu chuẩn hoá khi sử dụng một bộ các quy tắc dùng cho các địa chỉ của Mỹ cho cả hai địa chỉ trên sẽ tạo ra:

Street# Pre-direction Street St Type Unit Unit#

kiểm tra xem một kiểu tuyến đường nông thôn có hợp lệ không

Ví dụ này làm nổi bật một số tiêu chí dùng một điều kiện IF…THEN:

 IF…AND… giống như ví dụ đầy đủ AlphanumFieldExists được hiển thị ở trên Khi được biểu diễn trong một điều kiện IF, chỉ các bản ghi mà trường của chúng có một giá trị sẽ được đánh giá bằng điều kiện THEN tiếp theo Các bản ghi không có giá trị nào sẽ không được đánh giá và sẽ không tạo ra bất kỳ trường hợp ngoại lệ nào

 Điều kiện THEN là cơ sở để đáp ứng hoặc không đáp ứng định nghĩa quy tắc Trong điều kiện đó, chức năng rtrim loại bỏ bất kỳ khoảng trống nào ở bên phải của

RuralRouteType và giá trị kết quả được đánh giá dựa vào một bộ có 4 giá trị hợp lệ cụ thể trong danh sách

LƯU Ý: Kiểu các định nghĩa quy tắc IF…THEN này làm việc tốt với nhau như là một phần của một bộ quy tắc lớn hơn Về bản chất, chúng mô tả một loạt các trường hợp, mỗi trường hợp có tiêu chí riêng Nhờ xác định các định nghĩa quy tắc riêng biệt và tạo nhóm

Trang 8

thành bộ quy tắc, nó cho phép hiểu sâu hơn về các bản ghi có vấn đề, cũng như có bao nhiêu bản ghi vi phạm quy tắc cụ thể

Về đầu trang

Sử dụng các định nghĩa quy tắc dựng sẵn

Các định nghĩa quy tắc dựng sẵn kèm theo có thể được xem xét từ quan điểm thiết kế và quan điểm triển khai

Bộ tăng tốc thời gian thiết kế, các khuôn mẫu và các mô hình

Theo quan điểm thiết kế, bạn có thể sử dụng các định nghĩa quy tắc dựng sẵn như nó vốn có, sao chép/sửa đổi để đáp ứng các nhu cầu của bạn hoặc sử dụng chúng làm các mô hình thiết kế Các phần tiếp theo về "Nhập khẩu các định nghĩa quy tắc dựng sẵn" mô tả các bước cơ bản để đưa các gói dựng sẵn vào dự án hay các dự án của bạn

Tệp IARuleDefs-BaseSet1-General-v8x.xml gồm có hơn 130 định nghĩa về các quy tắc chung và các miền phổ biến đã mô tả ở trên Tệp IARuleDefs-BaseSet1 USStan-v8x.xml gồm có gần 60 định nghĩa để xác nhận hợp lệ thông tin tiêu chuẩn hóa tên, địa chỉ và vùng bưu chính của Mỹ đã

mô tả ở trên

Trước tiên, một khi đã nhập khẩu vào dự án của bạn, bạn có thể ngay lập tức sử dụng các định nghĩa quy tắc này để kiểm tra hoặc đánh giá các nguồn dữ liệu của bạn, tạo các quy tắc dữ liệu như đã mô tả trong Hướng dẫn người dùng Information Analyzer (xem Tạo một quy tắc dữ liệu

từ một định nghĩa quy tắc) Theo khả năng này, các định nghĩa quy tắc đẩy nhanh khả năng bắt đầu đánh giá chất lượng dữ liệu chi tiết của bạn

Thứ hai, bạn có thể sử dụng các định nghĩa quy tắc này làm các khuôn mẫu để tùy chỉnh cho các điều kiện dữ liệu cụ thể riêng của bạn Hãy xem xét trường hợp ví dụ nơi bạn có một trường có tên là Region (Vùng) biểu thị một phân vùng cụ thể của thế giới Vùng được định nghĩa là một trường văn bản có chiều dài năm ký tự và hai ký tự đầu tiên là các ký tự chữ phải nằm trong danh sách sau đây: AM (châu Phi và Trung Đông), AP (châu Á-Thái Bình Dương), EU (Châu Âu),

NA (Bắc Mỹ) và SA (Nam Mỹ)

Các định nghĩa quy tắc dựng sẵn không có một định nghĩa quy tắc chính xác như vậy Tuy nhiên, định nghĩa quy tắc TextSubstrInRefList được mô tả là "giá trị văn bản chuỗi con bắt đầu ở vị trí 3 với chiều dài 3 trong danh sách tham khảo" Việc này cũng tương tự như định nghĩa quy tắc

mà bạn cần: đánh giá một chuỗi con để đưa vào một danh sách tham khảo

Trong trường hợp này, bạn có thể làm như sau:

1 Đăng nhập vào Information Analyzer

2 Mở dự án của bạn và chuyển hướng đến trình đơn Develop và mục trình đơn Data

Quality

Trang 9

3 Chọn định nghĩa quy tắc muốn có trong dự án của bạn (trong trường hợp này là

TextSubstrInRefList)

4 Chọn Create a Copy (Tạo một bản sao), như trong Hình 3

Hình 3 Tạo một bản sao

5 Trong hộp thoại Create a Copy (Tạo một bản sao), chọn OK

6 Việc này sẽ tạo ra một bản sao của quy tắc ban đầu được gọi (trong trường hợp này là Copy_of_TextSubstrInRefList)

7 Mở định nghĩa quy tắc mới này để chỉnh sửa khi cần thiết:

o Thay đổi tên định nghĩa-quy tắc: Region_SubstrInRefList

o Thay đổi chức năng chuỗi con từ:

 Trước: substring(TextField, 3, 3)

 Sau: substring(Region, 1, 2)

LƯU Ý: Trong trường hợp này, bạn muốn bắt đầu chức năng chuỗi con

tại ký tự đầu tiên với một chiều dài là 2

o Thay đổi dữ liệu danh sách tham khảo từ:

 Trước: {'AAA','AAB','BAA','CCC'}

 Sau: {'AM','AP','EU','NA','SA'}

8 Lưu định nghĩa quy tắc cập nhật của bạn

Thứ ba, bạn có thể sử dụng các định nghĩa quy tắc như các mô hình tham khảo — các ví dụ về các chức năng hoặc các điều kiện cụ thể đang sử dụng có thể hướng dẫn bạn khi bạn thiết kế và phát triển các quy tắc duy nhất cho môi trường của mình

Triển khai các cách tiếp cận để xác nhận hợp lệ và giám sát chất lượng

Như với tất cả các định nghĩa quy tắc, các gói dựng sẵn có thể:

 Được sử dụng để tạo ra các quy tắc dữ liệu có thể thực hiện được để xác nhận hợp lệ chất lượng

 Được bao gồm trong các định nghĩa bộ-quy tắc và các bộ quy tắc có thể thực hiện được

để xác nhận hợp lệ nhiều điều kiện với nhau

o Dù được thảo luận rất chi tiết trong Hướng dẫn phương pháp luận và các hướng dẫn thực hành tốt nhất của Information Analyzer (xem Tài nguyên), các bộ quy tắc có một số lợi thế triển khai riêng:

 Chúng cung cấp sự hỗ trợ để đánh giá dữ liệu dựa trên nhiều điều kiện quy tắc dữ liệu Với các định nghĩa quy tắc dựng sẵn, bạn có thể kết hợp nhiều định nghĩa quy tắc dựng sẵn khi cần thiết để đánh giá tất cả các trường trong một bản ghi cụ thể, gồm nhiều cá thể của cùng một định nghĩa quy tắc, ví dụ như FieldExists

 Chúng cho điểm tất cả các quy tắc đã kiểm tra với mỗi bản ghi trong tập sao cho có thể xem các kết quả theo nhiều chiều (Ví dụ, bạn có thể thấy

Trang 10

tất cả các bản ghi thiếu từng quy tắc cụ thể, thấy tất cả các quy tắc có một bản ghi cụ thể bị lỗi, hoặc xem các phần giao nhau của các bộ quy tắc cụ thể)

 Chúng tối ưu hóa việc đánh giá quy tắc để thực hiện và xử lý

o LƯU Ý: Bất kỳ định nghĩa bộ-quy tắc nào mà bạn tạo ra có thể chứa các định

nghĩa quy tắc dựng sẵn này và/hoặc các định nghĩa quy tắc riêng của bạn theo bất

kỳ cách kết hợp nào

 Được xuất bản cho người dùng trong các dự án khác để tận dụng: — Khi bạn nhập khẩu các định nghĩa quy tắc dựng sẵn, chúng được nhập khẩu vào dự án của bạn Đối với những người dùng khác không thuộc một phần dự án của bạn, các định nghĩa quy tắc phải được xuất bản hoặc được nhập khẩu vào các dự án của họ

 Được xuất khẩu để triển khai trong các môi trường Information Analyzer khác: — Ví dụ, nếu bạn đang làm việc trong một môi trường phát triển với dữ liệu kiểm tra để đảm bảo các quy tắc dữ liệu của bạn làm việc đúng, thì bạn có thể cần xuất khẩu các quy tắc dữ liệu này tới một môi trường sản xuất để giám sát chất lượng đang diễn ra

Với sự giới thiệu về Phiên bản Information Analyzer V8.7, các định nghĩa quy tắc được xây dựng trong Information Analyzer có thể được tăng thêm một Rule Stage (Giai đoạn quy tắc) mới trong một công việc InfoSphere DataStage hoặc QualityStage của IBM Khả năng này cho phép

sử dụng bất kỳ định nghĩa quy tắc đã xuất bản nào để xác nhận hợp lệ dữ liệu là một phần tích

hợp dữ liệu hay các quá trình xóa-dữ liệu, bao gồm cả những định nghĩa quy tắc được tăng thêm thông qua các gói định nghĩa quy tắc dựng sẵn kèm theo

Ví dụ, hàng ngày bạn nhận được một tệp từ một nguồn ngoài của bên thứ ba Chất lượng của nguồn dữ liệu này thường thấp, dẫn đến các vấn đề trong các hệ thống thông tin khác, gồm cả việc tạo báo cáo kinh doanh của bạn Tệp hàng ngày này đang chạy thông qua một công việc QualityStage để tiêu chuẩn hóa tệp và tải các nguồn dữ liệu hiện có Bạn cần kiểm tra dữ liệu đến

có đầy đủ không bằng cách sử dụng một bộ các định nghĩa quy tắc và xác nhận hợp lệ các kết quả đầu ra tiêu chuẩn hóa QualityStage

Hình 4 cho thấy việc thêm vào Rule Stage mới, CustomerValidityCheck, trong công việc mẫu này Rule Stage có thể có một hoặc nhiều định nghĩa quy tắc, tùy thuộc vào số các trường dữ liệu cần được xác nhận hợp lệ Các kết quả đầu ra của giai đoạn này gồm có dữ liệu hợp lệ, dữ liệu không hợp lệ và các thông tin chi tiết về vi phạm cụ thể

Trang 11

Hình 4 Xác nhận hợp lệ dữ liệu đang thực hiện trong DataStage hoặc QualityStage

Xem Sử dụng Data Rule Stage để biết thêm thông tin chi tiết về khả năng này

Bằng cách lợi dụng các định nghĩa quy tắc dựng sẵn, bạn có thể:

 Giảm nỗ lực để giải quyết nhiều miền và điều kiện thông tin chung

 Cung cấp các mô hình và xuất bản các định nghĩa quy tắc cho người dùng khác để làm việc với nó

 Đẩy nhanh quá trình đánh giá, thử nghiệm và triển khai các quy tắc dữ liệu trong

Information Analyzer

 Triển khai các định nghĩa quy tắc để giám sát chất lượng đang diễn ra và xác nhận dữ liệu đang hoạt động

Về đầu trang

Tìm hiểu về các gói định nghĩa quy tắc dựng sẵn

Các định nghĩa quy tắc dựng sẵn của Information Analyzer kèm theo bài này được nhập khẩu thông qua các API của Information Analyzer

Cấu trúc nội dung

Các định nghĩa dựng sẵn được cấu trúc bằng cách sử dụng một lược đồ XML đã xác định Để biết thông tin chi tiết đầy đủ về cấu trúc này, hãy tham khảo Các phần tử tệp Lược đồ cho Các định nghĩa quy tắc

Ở mức rút gọn, các tệp định nghĩa trông giống như Liệt kê 2

Liệt kê 2 Lược đồ XML của định nghĩa quy tắc

Trang 12

Copyright IBM 2011 All rights reserved

Disclaimer:INTERNATIONAL BUSINESS MACHINES CORPORATION PROVIDES THIS PUBLICATION 'AS IS' WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS

OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE Some states do not allow disclaimer of express or implied warranties

in certain transactions, therefore, this statement may not apply to ->"

<description>Alphanumeric Field Exists; null & \

blank value check</description>

<expression>Field1 EXISTS AND len(trim(Field1)) <> 0</expression>

<description>Example Alphanumeric Format 1; as with \

Vehicle plate #; excludes null values</description>

<expression>IF Field1 EXISTS THEN Field1 MATCHES_FORMAT

'999AAA'</expression>

</DataRuleDefinition>

Nội dung bao gồm:

 Một tiêu đề XML chung: <?xml version="1.0" encoding="UTF-8"?>, không cần thay đổi

 Một tiêu đề XML cụ thể cho Information Analyzer: <iaapi:Project

xmlns:iaapi="http://www.ibm.com/investigate/api/iaapi"

name="your-project"> Bạn sẽ cần phải sửa đổi tên dự án-của bạn (your-project) thành bất kể tên

dự án nào của Information Analyzer mà bạn sử dụng

 Các chú thích XML được gắn kèm giữa <! và >

 Mở đầu của phần các định nghĩa quy tắc: <DataRuleDefinitions>

 Các khối nội dung cho mỗi định nghĩa quy tắc, gồm có:

o Tên định nghĩa quy tắc

Ngày đăng: 18/03/2014, 05:20

HÌNH ẢNH LIÊN QUAN

Hình 1. Các quy tắc kiểu dữ liệu và tính đầy đủ phổ biến - Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx
Hình 1. Các quy tắc kiểu dữ liệu và tính đầy đủ phổ biến (Trang 3)
Hình 2. Các định nghĩa quy tắc dựa trên phân loại phổ biến cho các mã số - Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx
Hình 2. Các định nghĩa quy tắc dựa trên phân loại phổ biến cho các mã số (Trang 5)
Hình 4. Xác nhận hợp lệ dữ liệu đang thực hiện trong DataStage hoặc QualityStage - Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx
Hình 4. Xác nhận hợp lệ dữ liệu đang thực hiện trong DataStage hoặc QualityStage (Trang 11)
Hình 5. Các định nghĩa quy tắc đã nhập khẩu - Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx
Hình 5. Các định nghĩa quy tắc đã nhập khẩu (Trang 16)
Hình 6. Dạng Poster của Firefox - Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx
Hình 6. Dạng Poster của Firefox (Trang 17)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w