1. Trang chủ
  2. » Công Nghệ Thông Tin

Các mẫu dịch vụ thông tin, Phần 3: Mẫu làm sạch dữ liệu pot

17 385 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 455,21 KB

Nội dung

Các mẫu dịch vụ thông tin, Phần 3: Mẫu làm liệu Giới thiệu Thông tin tài sản chiến lược tổ chức Chất lượng liệu điều kiện tiên quan trọng sử dụng thông tin để đạt lợi thấy rõ thị trường Dữ liệu tồi biến thơng tin có giá trị tiềm cao thành luồng byte vơ dụng Ví dụ, thơng tin địa khơng xác "bên tham gia" (chẳng hạn người dùng dịch vụ, bệnh nhân khách hàng) hạn chế tầm hiểu biết chiến lược để hiểu rõ thơng tin Loại liệu bao gồm thông tin biết liệu hai bên tham gia có giống hay khơng, số tổng người dùng dịch vụ có nhìn đầy đủ khách hàng Dữ liệu tùy tiện làm giảm hài lòng khách hàng, làm cho việc trao đổi thơng tin khó khăn làm tăng chi phí cố tìm cách né tránh vấn đề, tạo thách thức khác Các tầng kiến trúc phần mềm Một kiến trúc phần mềm có bốn tầng: Tầng Cơ sở liệu Nằm "dưới cùng", chịu trách nhiệm trì liệu cung cấp hoạt động tạo, đọc, cập nhật xóa liệu Tầng Ứng dụng Nằm tầng sở liệu, cung cấp logic nghiệp vụ Tầng Tiến trình Nó xếp thứ tự logic nghiệp vụ thơng qua việc quản lý luồng cơng việc Tầng Trình bày Nằm cùng, đưa hiển thị trực quan tất tầng bên cho người dùng cuối Các vấn đề chất lượng liệu nghiêm trọng thông tin nằm rải rác kho lưu trữ liệu bị cô lập không đồng Bản chất không đồng cô lập môi trường thường với kiến trúc có định dạng khác giá trị không quán Ngay sở liệu đơn lẻ, chất lượng liệu lưu giữ lâu dài không thiết tốt không thực thi quy tắc thích hợp Cho dù thơng tin cịn kho lưu trữ liệu ứng dụng hoạt động xử lý, chất lượng liệu thường không thực thi chút bị kiểm soát thành phần khác nhau, sử dụng quy tắc không quán, nhúng mã ứng dụng Để chuyển thơng tin thành hiểu biết sử dụng giá trị quan trọng nó, chất lượng liệu cần giải cách áp dụng phương pháp làm liệu theo cách quán; có nghĩa là, sử dụng quy tắc làm qn tồn doanh nghiệp, khơng tầng sở liệu mà tầng ứng dụng tiến trình Sau mơ tả tóm tắt giá trị cách tiếp cận này, bạn tìm hiểu bối cảnh nên áp dụng mẫu làm liệu Tiếp theo, bạn tìm hiểu cách tiếp cận theo vấn đề giải pháp cho mẫu Cuối cùng, bạn có nhìn sơ tổng quan vùng trọng tâm vùng nhiều rủi ro, hạn chế mẫu Về đầu trang Đề xuất giá trị mẫu làm liệu Mẫu cung cấp ba giá trị là: Ưu điểm tính quán chất lượng Giảm chi phí phát triển bảo trì Ưu điểm khả tái sử dụng Chúng ta xem xét kỹ giá trị Ưu điểm tính quán chất lượng Lợi ích quan trọng áp dụng mẫu làm liệu cải thiện tính qn chất lượng thơng tin, cho dù mẫu trì sở liệu hay ứng dụng xử lý Mẫu cải thiện chất lượng liệu bảo đảm có chất lượng cao Việc áp dụng mẫu làm liệu bối cảnh SOA cung cấp quy trình nghiệp vụ có khả quản lý bảo đảm chất lượng liệu "ngay thời điểm thu thập ban đầu nó" Việc áp dụng làm liệu trước thông tin lưu giữ lâu dài cho phép đưa vào chế xác nhận hợp lệ quy định nghiệp vụ điểm nhập liệu, chẳng hạn cổng thông tin nhập liệu Giảm chi phí phát triển bảo trì Mẫu cung cấp hướng dẫn thực hành gợi ý cách định rõ quy tắc làm cách áp dụng có hiệu hướng dẫn cho liệu lưu giữ lâu dài liệu tạm thời Nhiều thực mẫu làm liệu cung cấp công cụ tinh vi để phát triển, thử nghiệm triển khai quy tắc làm Các cơng cụ giúp làm giảm chi phí hoạt động nhiều dự án quy tắc làm xác định thủ công phải trì cách vất vả Ưu điểm khả tái sử dụng Một khía cạnh quan trọng mẫu làm liệu tập trung vào khả tái sử dụng mức doanh nghiệp Nếu sở liệu ứng dụng thực quy trình làm riêng mình, điều dẫn đến quy tắc làm khơng qn, mức chất lượng liệu tăng thêm, không theo cách quán có hiệu chưa đạt đến mức cần thiết Mẫu mơ tả làm áp dụng cách quán quy tắc làm cho nhiều người tiêu dùng Về đầu trang Bối cảnh Bối cảnh truyền thống mẫu làm liệu tầng sở liệu, nơi áp dụng mẫu thường xuyên Dựa quan tâm ngày tăng SOA, thấy có nhiều hội để áp dụng mẫu bối cảnh SOA Bối cảnh truyền thống, không-SOA Mẫu làm liệu thường áp dụng việc làm thông tin tên địa chỉ, áp dụng cho văn dạng tự nào, chẳng hạn mô tả sản phẩm hệ thống hàng tồn kho Văn dạng tự thường hay nói đến văn nhập liệu thủ công, không chọn liệu từ danh sách lựa chọn tiêu chuẩn nhập liệu không theo định dạng nào, chẳng hạn địa đầy đủ trường đơn lẻ Mẫu làm liệu định nghĩa tiêu chuẩn hóa, làm cuối cùng, so khớp (hoặc loại bỏ trùng lặp dư thừa) ghi dựa nội dung trường văn dạng tự Định nghĩa Quản lý liệu chủ Chúng ta gọi liệu chủ tập hợp liệu cốt lõi, quan trọng mục tiêu kinh doanh tổ chức Tập hợp bao gồm sản phẩm bên tham gia (chẳng hạn khách hàng, nhà cung cấp, v.v) Vì liệu chủ quan trọng hầu hết tất chức nghiệp vụ, nên thường phân tán nhiều ứng dụng Quản lý liệu chủ (MDM) giải việc quản lý, tích hợp đồng hóa có hiệu liệu chủ nhiều ứng dụng Trong bối cảnh khơng-SOA truyền thống, q trình thường chức xử lý theo gói, thực định kỳ để đáp ứng u cầu tồn vẹn thơng tin Quản lý liệu chủ (Master Data Management) để đạt khung nhìn quán thực thể quan trọng công ty Theo truyền thống, việc làm liệu áp dụng nhiều dự án kho liệu Để hỗ trợ phân tích, lập báo cáo, cung cấp tầm nhìn bao quát thực thể khách hàng chẳng hạn, liệu thu thập từ nhiều nguồn xung quanh doanh nghiệp Những hịn đảo thơng tin tạo đơn vị độc lập, nhóm sản phẩm, cơng ty kiện xảy lần sau sáp nhập hay mua lại Nếu khơng có cơng nghệ nội muốn làm giàu thêm liệu với chi tiết nhân học hay tiếp thị, liệu thu thập thường gửi tới cơng ty bên ngồi để làm Một thời gian sau, có lẽ vài ngày chí lâu hơn, liệu trả về, coi không trùng lặp dư thừa mà cải thiện Nếu xử lý nội bộ, mẫu làm liệu truyền thống thường chức "đúng thời điểm", thực hàng đêm hay hàng tuần để làm liệu nói chung nạp liệu vào kho lưu trữ liệu, hệ thống tạo báo cáo kho liệu vận hành Ví dụ sử dụng Cửa hàng bán lẻ đồ trang sức sử dụng mẫu làm liệu sở hàng tuần để kết nối tên khách hàng từ mảng nhiều hệ thống để xử lý tài khoản khách hàng mới, trung thành khách hàng, tạo hướng dẫn khách hàng tốn Mỗi điểm nhập liệu nguồn gây trùng lặp hay dư thừa tên khách hàng nhiều khách hàng sống địa điểm Cách tiếp cận để loại bỏ trùng lặp hay dư thừa mang lại ý nghĩa cho thơng tin ví dụ việc áp dụng mẫu làm liệu Ban đầu xem cách để tiết kiệm thứ đơn giản phí bưu chính, công ty biết lo xa tin dùng mẫu làm liệu để đạt hiểu biết tốt mẫu chi tiêu người tiêu dùng, để xác định tốt người mua khối lượng lớn để hợp yêu cầu bán hàng, hỗ trợ khách hàng toán vào chỗ để cải thiện trải nghiệm khách hàng Hình minh họa kiến trúc mức cao áp dụng mẫu làm liệu bối cảnh truyền thống Hình Bối cảnh truyền thống mẫu làm liệu Bối cảnh SOA Bối cảnh SOA với mẫu làm liệu tận dụng lợi kỹ thuật tiêu chuẩn hóa so khớp tinh vi mở rộng chúng tới vị trí quan trọng ứng dụng gần thời gian thực Được xem xét bối cảnh này, mẫu làm liệu cho phép doanh nghiệp mở rộng khả để xác nhận hợp lệ so khớp với điểm tạo Hơn nữa, tích hợp logic loại bỏ trùng lặp logic so khớp giống thường dùng hoạt động xử lý theo gói với phương pháp luận tìm kiếm tinh vi để tăng cường khả định vị thông tin khách hàng thông tin hay mã định danh khách hàng chưa biết chưa đầy đủ Bối cảnh SOA để làm liệu cho phép tiêu chuẩn hóa so khớp chuỗi yêu cầu riêng lẻ Một tên địa đơn lẻ tự động làm sạch, trả theo định dạng tiêu chuẩn trường hợp phát hiện, trả với tập hợp ứng viên tiềm xác định trình so khớp Trong giải pháp nhập liệu, việc cải thiện biểu diễn liệu (các chữ viết tắt thống cho kiểu đường phố bang, chẳng hạn) tăng thêm lợi để tìm kiếm liệu trùng lặp hay dư thừa trước lưu giữ lâu dài Việc tránh trước vấn đề liệu trùng lặp hay dư thừa gây tốn nhiều so với việc cố gắng sửa chữa chúng sau phải chịu hậu tài khoản bị xử lý sai có quan niệm khách hàng Ví dụ sử dụng Có thể sử dụng ứng dụng điểm bán hàng, biểu cổng thơng tin phía bên trái ví dụ Hình 2, làm mơ đun trung thành khách hàng để quản lý hồ sơ khách hàng thông thường Trong trường hợp chuỗi bán lẻ đồ trang sức lớn nói trên, ứng dụng mẫu làm liệu bối cảnh SOA cải tiến phận ứng dụng Hãy tưởng tượng khách truy cập vào cửa hàng quên chưa biết mã khách hàng trung thành Tên khách hàng nhập vào chữ (và dễ có khả bị lỗi) so khớp động với kho lưu trữ liệu chủ trung tâm theo thời gian thực danh sách tên ứng viên trả Từ ứng viên đó, tìm thấy xác nhận hợp lệ hồ sơ khách hàng thực tế khách hàng Bấy nhân viên bán hàng cung cấp dịch vụ mà khách hàng trung thành hưởng, chẳng hạn đánh giá miễn phí đề nghị mua q dựa hồ sơ cá nhân, chẳng hạn sinh nhật ngày kỷ niệm tới Khách hàng nhận quan tâm thêm cảm thấy đối xử người đặc biệt Việc triển khai làm liệu dịch vụ mang lại lợi nhuận tiềm có lợi cho trải nghiệm khách hàng Các quy tắc so khớp tiêu chuẩn hóa sử dụng lại, nhờ chức tương tự áp dụng lúc chạy chương trình xử lý theo bó Hình Bối cảnh SOA mẫu làm liệu Về đầu trang Đặt vấn đề Mẫu làm liệu giải thách thức cải thiện chất lượng liệu bảo đảm tính quán liệu mức siêu liệu mức liệu Các nguyên nhân điển hình chất lượng liệu thiếu nghèo nàn là: Các lỗi nhập liệu (lỗi gõ phím) Các định nghĩa siêu liệu (các mơ hình liệu) q lỏng lẻo khơng xác định quán Các ràng buộc tính tồn vẹn khơng xác định thực thi (thích hợp) Ví dụ, định nghĩa ràng buộc mã bưu điện phải số hợp lệ chẳng hạn, bị bỏ sót khơng thực thi quán Nhiều thực khơng kiểm tra xem số mã có hợp lệ khơng chí số mã có số hay không Các định dạng để biểu diễn thực thể giới thực mâu thuẫn (ví dụ: kiểu số so với kiểu chuỗi ký tự để biểu diễn mã bưu điện) Đúng vừa mơ tả, khơng qn thể mức siêu liệu, mức liệu Thậm chí mơ hình liệu định nghĩa cách thích hợp quán, việc thiếu ràng buộc thích hợp tính tồn vẹn giá trị liệu dẫn đến vấn đề chất lượng tính quán Cùng thực thể giới thực biểu diễn giá trị liệu khác nhau, chẳng hạn số mã phận khác sản phẩm số đo trọng lượng khác Một số vấn đề phổ biến bao gồm: Thiếu phân tách giá trị (ví dụ, địa đầy đủ dạng trường văn tự mà khơng có dấu hiệu cho thấy nơi tên đường phố kết thúc bắt đầu tên thành phố) Thiếu tiêu chuẩn cho định dạng giá trị liệu như: Các kiểu liệu (ví dụ, số nguyên varchar) Định dạng văn ("123-45-6789" "123.456.780" "123 45 6789") Các từ viết tắt ("IBM" "I.B.M" "Int Bus Machines" "International Business Machines") Mức độ trừu tượng hóa độ chi tiết ("Massachusetts" "Suffolk County") Các thuộc tính bắt buộc (danh hiệu cho người) phần thuộc tính (kiểu tổ chức bên tên (ví dụ "IBM" "IBM Corporation") Thiếu giá trị qn cho mã định danh Bố trí khơng giá trị vào thuộc tính (giá trị mã bưu điện-ZIP xuất thuộc tính số điện thoại) Các giá trị không nhập liệu không thông tin lỗi thời ("Somers, CT 10589", mã bưu điện "10589" tiểu bang Connecticut mà New York) Trùng lặp hay dư thừa ghi giá trị không quán hay nhiều thuộc tính Về đầu trang Mô tả giải pháp Các đặc điểm thời gian thiết kế mẫu làm liệu xoay quanh việc thiết lập quy tắc tiêu chuẩn để chuyển đổi làm nguồn liệu, việc định nghĩa tiêu chí so khớp để hỗ trợ loại bỏ trùng lặp hay dư thừa việc nhận biết cách xác định liệu phổ biến xác Như bạn tưởng tượng, thiết kế giai đoạn quan trọng phức tạp q trình làm liệu Một hồn thành nhiệm vụ này, việc áp dụng quy tắc làm sạch, so khớp tiếp tục tồn sử dụng trình thời gian chạy Các đặc điểm thời gian thiết kế Các nhà thiết kế áp dụng mẫu phải quy định quy tắc làm sạch, hỗ trợ cơng cụ thích hợp Có thể chia hoạt động thành bốn bước chính: Phân tích cú pháp liệu đầu vào gắn vào phần tử tiêu chuẩn đủ chi tiết Tiêu chuẩn hóa liệu So khớp loại bỏ trùng lặp hay dư thừa mục nhập liệu Sự tiếp tục tồn thơng tin xác Như nêu phần đặt vấn đề, biểu diễn giá trị liệu theo văn tự số trường gộp lại (thuộc tính street nắm giữ số nhà, hướng phố tên phố) Dựa hiểu biết liệu thực bắt giữ trường, bước xác định thuật toán để tách giá trị liệu gán chúng tới thuộc tính thích hợp Điều địi hỏi phải có kiến thức đặc trưng miền ứng dụng (ví dụ, đường phố có phần hướng Mỹ, chẳng hạn "1007 North Main Street", không phổ biến Đức) Sau gán xác giá trị liệu cho thuộc tính, nhà thiết kế cần quy định cách chuẩn hóa giá trị Điều có nghĩa nhà thiết kế cần tìm câu trả lời cho câu hỏi sau: Văn có dạng chữ hoa dạng hỗn hợp chữ hoa, chữ thường? Các số chuyển đổi sang kiểu liệu thích hợp (chẳng hạn "mười chín" thành "19") hay khơng? Các số trường mã bưu điện có biểu diễn mã bưu điện khơng? Mã bưu điện có khớp với bang (và thành phố) không)? Địa đầy đủ (số phố, phố, thành phố, bang, mã bưu điện) có tồn khơng? Biểu diễn chuẩn cho tên (ví dụ "Bob") gì? (Bước để nhận biết trùng lặp, đề xuất tên xác, "Bob" mà khơng phải "Robert") Một số quy tắc tiêu chuẩn hóa đơn giản khơng địi hỏi nỗ lực đáng kể nào, chẳng hạn chuyển đổi liệu ký tự hỗn hợp thành liệu chữ hoa Một số quy tắc tương đối nâng cao yêu cầu truy cập vào sở liệu lưu trữ giá trị xác, chẳng hạn kết hợp xác mã bưu điện, thành phố bang Mỹ Các quy tắc chuẩn hóa phải theo ngữ cảnh: chuỗi "St Virginia St." xác định có tên phố "St Virginia" kiểu “phố” viết "street" (giả sử địa Hoa Kỳ) " St." " St.", mặt kỹ thuật giống nhau, chúng có ý nghĩa khác diễn giải qua mắt quy tắc thông minh Trong nhiều trường hợp, nhà thiết kế phải nhận biết ghi trùng lặp tiềm Thật không may, sau chuẩn hóa, giá trị liệu ghi thường không giống hệt Trong ghi, tên người "J Smith" ghi khác, tên "John Smith" Một thách thức nhận biết trùng khớp xác định liệu có khả tên "J Smith" "John Smith" không Rõ ràng, điều tùy thuộc vào thông tin khác chứa hồ sơ Nếu địa hồn tồn giống nhau, có khả Điều tùy thuộc vào có người có họ tên: có khả có hai người có tên "April Back-Cunninghams" thành phố so với trường hợp hai người có tên "Robert Johnson" Có thể áp dụng mẫu tương tự dùng cho việc phân tích cú pháp phân tích từ vựng tên địa dạng tự để tiêu chuẩn hóa loại bỏ trùng lặp danh sách sản phẩm phận phụ tùng nhằm cải tiến việc kiểm soát hàng tồn kho Cần lưu ý sử dụng chủ yếu địa Hoa kỳ, cách tiếp cận chắn áp dụng cho quốc gia khơng địa Có hai phương pháp để giải việc so khớp: so khớp tất định so khớp xác suất So khớp tất định dựa quy tắc nghiệp vụ thuật toán để định nghĩa trùng khớp Ưu điểm phương pháp cung cấp kết rõ ràng chẳng hạn hai ghi có trùng khớp hay không Tuy nhiên, quy tắc thường bị hạn chế theo quy tắc thuật tốn phân loại có mức độ phức tạp trung bình hay đơn giản Phương pháp so khớp xác suất sử dụng thuật toán thống kê logic mờ (fuzzy) để báo trùng khớp Cách tiếp cận sử dụng nhiều chế mạnh mẽ để nhận biết trùng khớp đưa xác suất để trùng khớp, chẳng hạn 93% Mức tin cậy trùng khớp cân giá trị thông tin xử lý chi phí để xác định trùng khớp Dựa quy tắc so khớp, nhà thiết kế quy định cụ thể quy tắc tiếp tục tồn để xác định ghi thuộc tính ghi phản ánh thơng tin xác cần chọn lấy loại bỏ ghi thuộc tính Bây hoàn thành phần cốt lõi quy định quy tắc làm sạch, bước cuối xác định cách thu gom liệu đầu vào (bằng cách sử dụng yêu cầu dịch vu, trích ra/truy vấn sở liệu) cách đưa kết trình làm (áp dụng với sở liệu cung cấp đáp ứng dịch vụ) Hình Hình cho thấy tổng quan hoạt động Hình Các khía cạnh thời gian thiết kế Mẫu làm liệu Định nghĩa lược tả liệu Lược tả liệu phân tích sở liệu để hiểu rõ siêu liệu chúng Các mục tiêu gồm có: Phát siêu liệu chưa quy định bao gồm mối quan hệ bên sở liệu Kiểm tra độ xác quy tắc tồn vẹn quy định Gợi ý mơ hình liệu thích hợp Mục tiêu cuối đặc biệt quan trọng để định nghĩa mơ hình liệu tích hợp nguồn khơng đồng Điều quan trọng cần lưu ý mẫu làm liệu thường áp dụng với mẫu khác, hộp màu xanh Hình ví dụ Đối với nhà phát triển nhà thiết kế, để quy định quy tắc làm sạch, cần thiết phải có hiểu biết đầy đủ nguồn liệu nên áp dụng mẫu làm liệu cho chúng Điều bao gồm việc nhận biết hiểu ngữ nghĩa thông tin, chẳng hạn ý nghĩa phần tử mơ hình liệu thơng tin cấu trúc Lược tả liệu giúp lấy kiến thức từ nguồn liệu bên Trong nhiều trường hợp, mẫu làm liệu áp dụng với mẫu hợp liệu Trong kịch vậy, cần quy định ánh xạ phần tử liệu từ nguồn tới đích (được gọi mơ hình hóa tích hợp - integration modeling Hình 3) Thời gian chạy Dịch vụ làm liệu nhận liệu có mức chất lượng liệu không xác định làm đầu vào Thông thường, dịch vụ gọi với đầu vào làm tham số yêu cầu dịch vụ (theo giá trị) dịch vụ thu gom liệu từ nhiều nguồn định (theo tham chiếu) Sau dịch vụ áp dụng quy tắc làm liệu nguồn Tùy thuộc vào phức tạp quy tắc làm liệu, q trình u cầu tra tìm sở liệu từ điển để xác nhận tính xác thơng tin (chẳng hạn tổ hợp mã bưu điện, thành phố, bang) Sau xử lý thành công, thông tin làm trả đáp ứng dịch vụ Trong bối cảnh truyền thống, kết đầu thường áp dụng cho sở liệu tiếp tục xử lý trình hợp liệu (Xem phần Tài nguyên để biết nhiều viết liệu hợp nhất) Các dịch vụ làm liệu thường đòi hỏi mức độ tinh vi cao thực máy chủ làm liệu để cung cấp mức hiệu khả mở rộng quy mô cao thông qua việc khai thác xử lý song song Sau máy chủ xử lý làm khối lượng liệu vơ lớn chế độ gói tốt với ghi đơn lẻ môi trường chạy thời gian thực Một kịch liên quan đến việc hợp làm toàn nội dung nhiều hệ thống di sản minh họa yêu cầu xử lý nhiều khối lượng liệu lớn Ở đầu kịch bản, gọi máy chủ làm liệu thông qua dịch vụ Web ứng dụng cổng thông tin để kiểm tra địa nhập hình Trong trường hợp này, máy chủ cần đáp ứng với số lượng lớn yêu cầu đồng thời theo thời gian thực Về đầu trang Những việc cần xem xét Khi áp dụng mẫu làm liệu, điều quan trọng cần hiểu xem ảnh hưởng đến yêu cầu không chức sau Tần suất thực giao dịch Khả dịch vụ làm để thực giao dịch làm liệu tốc độ cao xác định tốc độ máy chủ làm liệu truy cập liệu đầu vào áp dụng quy tắc làm Các quy tắc làm phức tạp yêu cầu tra tìm nhiều hơn, việc thực hoạt động làm kéo dài Một máy chủ làm liệu khai thác khả xử lý song song có ưu điểm đáng kể so với cách tiếp cận khác; IBM® WebSphere® QualityStage ((xem phần Tài nguyên) ví dụ máy chủ làm liệu sẵn sàng chạy Hiệu /thời gian đáp ứng giao dịch Sự phức tạp quy tắc làm khả máy chủ làm để xử lý liệu có hiệu xác định thời gian đáp ứng giao dịch (áp dụng quy tắc làm liệu đầu vào trả kết quả) Nhiều thực máy chủ làm phối hợp quy tắc khai thác khả xử lý song song thực tốt so với khác Khối lượng liệu cho giao dịch Việc áp dụng mẫu làm liệu tập hợp liệu lớn ghi riêng lẻ phổ biến Vì vậy, máy chủ làm liệu cần có khả điều chỉnh quy mơ để xử lý nhiều khối lượng liệu lớn Các khả chuyển đổi Các hoạt động làm liệu (phân tích cú pháp hay phân tách giá trị, chuẩn hóa so khớp tiếp tục tồn tại) quy định dạng quy tắc làm Cuối áp dụng hoạt động cho việc chuyển đổi liệu đầu vào, có chất lượng thấp, thành kết đầu có mức chất lượng tính qn cao Do quy tắc chuyển đổi có nhiều phức tạp, nên nhiều thực mẫu làm liệu triển khai quy tắc làm dạng hoạt động chuyển đổi cách sử dụng máy chủ làm liệu Các khả chuyển đổi mẫu làm liệu chun mơn hóa tập trung vào việc cải thiện chất lượng tính tồn vẹn liệu cách tiêu chuẩn hóa so khớp liệu Các cách tiếp cận chuyển đổi liệu tổng quát – chẳng hạn mô tả Phần 2: Mẫu hợp liệu tập trung vào việc trao đổi định dạng lại, chia tách sáp nhập liệu khơng có hỗ trợ tinh vi chất lượng liệu Các yêu cầu chuyển đổi thường hay bị ảnh hưởng đa dạng nguồn liệu vậy, khả để định nghĩa đặc điểm chuyển đổi phức tạp quan trọng Các yêu cầu chuyển đổi phức tạp khác nhau, việc chuyển đổi thời gian chạy máy chủ làm liệu phải tinh vi Kiểu mơ hình nguồn, giao diện, giao thức Các triển khai sản phẩm mẫu làm liệu thay đổi tùy theo phạm vi định dạng khác mà chúng hỗ trợ liệu đầu vào Do áp dụng đầy đủ xác, mẫu làm liệu loại bỏ phức tạp mơ hình nguồn, giao diện giao thức khác cho nhà phát triển cần quan tâm đến mơ hình, giao diện giao thức mà Thời gian phân phối giải pháp Các triển khai sản phẩm mẫu làm liệu thường cung cấp hỗ trợ công cụ tinh vi để quy định quy tắc làm để hiển thị trực quan tính hiệu quy tắc liệu đầu vào Ví dụ, ghi nhận dạng ghi trùng khớp dựa quy tắc so khớp xác suất? Nhiều số thực định sẵn hoạt động (quy tắc làm sạch) để dùng với sản phẩm Tính cho phép người thực áp dụng cách tiếp cận hiệu khoảng thời gian ngắn Người ta thường áp dụng mẫu liệu có mức chất lượng tính qn thấp Do cần phải tinh chỉnh nhiều lần quy tắc làm Nỗ lực có liên quan trực tiếp đến đặc điểm toán cần giải cách tiếp cận mẫu Tập hợp kỹ kinh nghiệm Có hai tập hợp kỹ kinh nghiệm cần thiết để làm liệu Các kỹ phân tích cần thiết để hiểu định nghĩa nhiều sắc thái gắn với nguồn liệu đích định dạng, giá trị, phạm vi đặc điểm khác quan trọng Nếu tiếp cận theo cách sử dụng cơng cụ, nhà phân tích cần có kiến thức cụ thể sản phẩm để định nghĩa quy tắc làm Thứ hai, nhà phát triển cần hiểu khái niệm, tiêu chuẩn công nghệ SOA cần thiết để thực dịch vụ làm Ngoài ra, sử dụng cách tiếp cận có cơng cụ cho máy chủ thời run-time, nhà phát triển kiến trúc sư hệ thống cần có kiến thức kinh nghiệm để bảo đảm máy chủ có khả mở rộng quy mô để đáp ứng thỏa thuận mức dịch vụ bắt buộc Chi phí phát triển Các chi phí phát triển phụ thuộc phần lớn vào tính phức tạp nhiệm vụ làm liệu Các chi phí thấp cần áp dụng quy tắc chuẩn hóa Các quy tắc làm trở nên phức tạp, chi phí phát triển thực cao Chi phí gắn liền với phân tích liệu, kèm với chu kỳ phát triển thử nghiệm nhiều lần cần thiết để giải tính phức tạp cao Khả tái sử dụng Khả tái sử dụng mẫu làm liệu thực thông qua việc định nghĩa quy tắc làm để áp dụng quy tắc làm mức ghi thông qua dịch vụ thông qua q trình xử lý theo gói cho liệu lớn Cơ hội tái sử dụng thứ hai thơng qua việc sử dụng quy trình máy chủ chung để thực quy tắc làm Về đầu trang Kết luận Mẫu làm liệu rõ cách thực hành gợi ý để cải thiện chất lượng liệu liệu lưu giữ lâu dài vào lúc nhập liệu sau nhập liệu Các vùng trọng tâm để áp dụng mẫu làm liệu Cải thiện chất lượng tính quán liệu cho nhu cầu thông tin quan trọng, chẳng hạn tên địa khách hàng Như mô tả trên, mẫu làm liệu biến liệu chưa qn (và đó, khơng dùng được) thành tài sản chiến lược có giá trị Các vùng nhiều rủi ro áp dụng mẫu hợp liệu Thiếu hiểu biết định nghĩa chung liệu nghiệp vụ cốt lõi Thiếu hướng dẫn nghiệp vụ quản trị ổn định chất lượng liệu Đặc tả quy tắc làm liệu cần dựa hướng dẫn chuyên gia nghiệp vụ phê duyệt phần lớn ổn định Nếu hướng dẫn chất lượng thay đổi thường xuyên chưa phê duyệt, việc trì quy tắc làm triển khai liên tục quy định dẫn đến việc gia tăng đáng kể tải công việc Thiếu hỗ trợ phòng ban, đặc biệt ứng dụng truy cập sửa đổi thông tin vượt qua ranh giới phòng ban Mặc dù tổ chức cải thiện chất lượng liệu họ, ứng dụng thay đổi liệu bên ngồi phạm vi kiểm sốt tổ chức, điều dẫn đến suy giảm chất lượng IBM Information Server tảng tích hợp liệu khối lượng lớn để làm sạch, chuyển đổi bố trí lại liệu WebSphere QualityStage thành phần cốt lõi danh mục nhằm cung cấp công nghệ làm liệu WebSphere QualityStage hỗ trợ tiêu chuẩn hóa, làm giàu thêm so khớp liệu văn dạng tự WebSphere QualityStage quan trọng giải pháp Master Data Management (Quản lý liệu chủ) WebSphere QualityStage cho phép liên kết loại bỏ trùng lặp ghi hay bên nhiều nguồn liệu cách áp dụng quy tắc phân tích cú pháp tinh vi hàm so khớp thống kê Công cụ cho phép lựa chọn ghi "tốt nhất" để lưu giữ lâu dài nguồn cách tự động điền vào giá trị thực thể cịn thiếu, rỗng khơng đầy đủ, để có quan niệm tồn diện liệu trải rộng nhiều hệ thống WebSphere Information Services Director - Giám đốc Các dịch vụ thông tin WebSphere (cũng phần sản phẩm danh mục IBM Information Server) trưng khả quản lý thông tin dịch vụ Nó đóng gói logic tích hợp thông tin, quy tắc làm sạch, truy cập thông tin v.v dịch vụ Điều cách ly nhà phát triển khỏi nhà cung cấp bên chức Điều quan trọng sản phẩm có khả trưng việc làm liệu thông qua giao diện hướng dịch vụ EJB, JMS (Java™ Message Service) dịch vụ Web Sản phẩm cung cấp sở hạ tầng tảng (gồm cân tải khả chịu lỗi) cho dịch vụ thông tin Nó thực thành phần hỗ trợ dịch vụ thơng tin minh họa Hình WebSphere Information Services Director xây dựng sở hạ tầng siêu liệu mạnh mẽ WebSphere QualityStage ... chạy Dịch vụ làm liệu nhận liệu có mức chất lượng liệu không xác định làm đầu vào Thông thường, dịch vụ gọi với đầu vào làm tham số yêu cầu dịch vụ (theo giá trị) dịch vụ thu gom liệu từ nhiều nguồn... cảnh SOA mẫu làm liệu Về đầu trang Đặt vấn đề Mẫu làm liệu giải thách thức cải thiện chất lượng liệu bảo đảm tính quán liệu mức siêu liệu mức liệu Các nguyên nhân điển hình chất lượng liệu thiếu... dụng mẫu làm liệu, điều quan trọng cần hiểu xem ảnh hưởng đến yêu cầu không chức sau Tần suất thực giao dịch Khả dịch vụ làm để thực giao dịch làm liệu tốc độ cao xác định tốc độ máy chủ làm liệu

Ngày đăng: 09/03/2014, 03:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN