Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,1 MB
Nội dung
Kỹ Kiến trúc sư liệu Rational, Phần 3: Phát mối quan hệ lược đồ Kiến trúc sư liệu Rational Tạo ánh xạ lược đồ bán tự động Torsten Bittner, Kỹ sư phần mềm, IBM Tóm tắt: Bạn sử dụng Kiến trúc sư Dữ liệu Rational® IBM® để định nghĩa ánh xạ liệu Khi làm việc với lược đồ lớn, cồng kềnh tạo ánh xạ tay Kiến trúc sư Dữ liệu Rational cung cấp thành phần khám phá để nhận biết cách bán tự động ánh xạ có tiềm Hướng dẫn cung cấp giới thiệu nhập môn thành phần khám phá quan hệ Kiến trúc sư Dữ liệu Rational Trước bạn bắt đầu Trong hướng dẫn này, tìm hiểu làm để sử dụng thành phần khám phá Kiến trúc sư Dữ liệu Rational (Rational Data Architect) để tạo bán tự động ánh xạ nguồn liệu quan hệ nguồn liệu XML Hướng dẫn phần thứ ba loạt viết Kiến trúc sư Dữ liệu Rational Về hướng dẫn Hướng dẫn dẫn cho bạn thấy bước làm để: Gọi thực thuật toán phát giống từ vựng Kiến trúc sư Dữ liệu Rational (RDA) để phát ánh xạ lược đồ tiềm dựa vào giống tên cột Định nghĩa mơ hình bảng giải thuật ngữ có chứa từ, chữ viết tắt từ đồng nghĩa cách sử dụng trình soạn thảo Mơ hình bảng giải thuật ngữ RDA Sử dụng thơng tin mơ hình bảng giải thuật ngữ với thuật toán dựa vào nghĩa tên để phát thêm kết phù hợp Thiết lập việc khám phá quan hệ để sử dụng mẫu liệu Tìm ánh xạ có tiềm với thuật toán, sử dụng mẫu liệu Mục tiêu Sau hoàn thành hướng dẫn này, bạn có khả sử dụng thành phần khám phá Kiến trúc sư Dữ liệu Rational để tìm ánh xạ lược đồ Các điều kiện cần trước Thay đổi tên sản phẩm Ngày 16 tháng Mười Hai năm 2008 IBM thông báo rằng, kể từ phiên 7.5.1, Kiến trúc sư Dữ liệu Rational đổi tên thành Kiến trúc sư Dữ liệu InfoSphere (InfoSphere Data Architect) để đề cao vai trị công cụ InfoSphere Hướng dẫn giả thiết bạn quen với sở liệu quan hệ, tốt DB2® Việc quen thuộc với trình soạn thảo ánh xạ Kiến trúc sư Dữ liệu Rational có lợi, khơng bắt buộc Để tham khảo, tra cứu viết sau developerWorks: Phần 1: Truy cập tích hợp siêu liệu doanh nghiệp với Kiến trúc sư Dữ liệu Rational Phần 2: Tạo truy vấn SQL/XML với Kiến trúc sư Dữ liệu Rational Sử dụng Kiến trúc sư Dữ liệu Rational để tích hợp nguồn liệu Các yêu cầu hệ thống Để thực bước mô tả hướng dẫn này, bạn cần phải có Kiến trúc sư Dữ liệu Rational phiên V7 Enterprise DB2® IBM cài đặt Bạn tải phiên dùng thử Kiến trúc sư Dữ liệu Rational V7 DB2 V9.1 IBM (xem Tài nguyên) Các bước thiết lập Cài đặt DB2 V9.1 Cài đặt Kiến trúc sư Dữ liệu Rational V7 Giải nén gói ar-rdamapcode.zip từ tệp tin vào thư mục (ví dụ, C:\RDA_Tutorials) Bước tạo thư mục RDA_Discovery Khởi động Kiến trúc sư Dữ liệu Rational rõ thư mục bạn giải nén gói làm thư mục cho vùng làm việc bạn (ví dụ, C:\RDA_Tutorials) Thư mục RDA_Discovery gói phần mềm thư mục dự án liệu Kiến trúc sư Dữ liệu Rational Trong Kiến trúc sư Dữ liệu Rational bạn phải nhập vào vùng làm việc bạn Từ trình đơn File, chọn Import Chọn trình thủ thuật Existing Project into Workspace Hình Chọn trình thủ thuật Import Nhấn vào Next Duyệt đến vị trí bạn giải nén tệp tin arrdamapcode.zip (ví dụ, C:\RDA_Tutorials) Hình Trình thủ thuật Import Project Nhấn vào Finish Kết là, bạn thấy dự án RDA_Discovery với tập hợp mô hình liệu, mơ hình bảng giải thuật ngữ tệp tin mơ hình ánh xạ vùng làm việc bạn hiển thị Hình (Nếu bạn khơng nhìn thấy Database Explorer, kiểm tra chắn bạn phối cảnh Dữ liệu, thấy Hình 4.) Hình Data Project Explorer sau nhập dự án Hình Phối cảnh Dữ liệu Một số thuật toán phát mối quan hệ yêu cầu liệu mẫu Tệp tin kịch lệnh rda_discovery_db.sql tạo THƯ VIỆN (LIBRARY) sở liệu DB2 chèn vào mẫu liệu Để triển khai kịch lệnh sở liệu DB2 bạn, khởi động cửa sổ lệnh DB2 (trình đơn Windows Start > IBM DB2 > Command Line Tools > Command Window) 10 Đi đến thư mục RDA_Discovery mà bạn giải nén từ tệp tin virdamapcode.zip 11 Để tạo sở liệu LIBRARY, định nghĩa khóa khóa ngồi chèn thêm liệu mẫu, chạy lệnh này: db2 -tvf rda_discovery_db.sql 12 Hình Tạo sở liệu LIBRARY 12 Để tạo sở liệu OLD_LIB, định nghĩa khóa khóa ngồi chèn thêm mẫu liệu, chạy lệnh: db2 -tvf rda_discovery_db_old.sql 13 13 Kết nối vào sở liệu LIBRARY Kiến trúc sư Dữ liệu Rational Trong Database Explorer, nhấn chuột phải vào Connection chọn New Connection (Nếu bạn khơng nhìn thấy Database Explorer, kiểm tra chắn bạn phối cảnh Dữ liệu, hiển thị Hình 4.) Hình Tạo kết nối sở liệu 14 Chỉ rõ thông tin kết nối theo môi trường bạn tương tự Hình Hình Các thông số cài đặt kết nối sở liệu 15 Nhấn vào Test Connection để kiểm tra xem tất tham số thiết lập chưa Nếu thử nghiệm thành công, nhấn vào Finish 16 Lặp lại bước từ 13 đến 15 cho sở liệu OLD_LIB cách sử dụng giá trị thiết lập kết nối, trừ tên sở liệu Tổng quan kịch mô tả vấn đề Kịch cho hướng dẫn có liên quan chặt chẽ đến kịch hướng dẫn xuất trước Mục đích để sử dụng trình soạn thảo ánh xạ Kiến trúc sư Dữ liệu Rational để tích hợp liệu (xem Phần 1) tạo truy vấn (xem Phần 2) Trình soạn thảo ánh xạ làm giảm đáng kể lượng thời gian phải dùng để tự tay viết truy vấn SQL SQL/XML Trình soạn thảo cho phép người sử dụng nắm bắt mối quan hệ liệu công bố thông tin báo cáo Tuy nhiên, vấn đề phát sinh sử dụng trình soạn thảo ánh xạ Việc tạo tay ánh xạ, một, tốn thời gian Đặc biệt, làm việc với lược đồ lớn phía nguồn phía đích, thật khó tìm thấy cột ánh xạ tới Kiến trúc sư Dữ liệu Rational giải vấn đề thành phần khám phá mối quan hệ Ý tưởng để tạo ánh xạ cách bán tự động Công cụ phát ánh xạ có tiềm cho người sử dụng, người phải chấp nhận từ chối kết so khớp đề xuất Thành phần khám phá hoạt động dựa giả thiết phần tử nguồn đích đưa vào ánh xạ có giống định Các đặc điểm giống rơi vào hai thể loại Phát ánh xạ cách sử dụng từ đồng nghĩa Trong phần này, bạn sử dụng thuật tốn dựa vào nghĩa tên, có khả tương tự thuật toán tương tự từ vựng Thuật tốn xem xét thơng tin từ đồng nghĩa Các từ đồng nghĩa định nghĩa từ điển liệt kê từ đồng nghĩa Thuật toán dựa vào nghĩa tên hỗ trợ ba loại từ điển liệt kê từ đồng nghĩa: Các mơ hình bảng giải thuật ngữ RDA Từ điển liệt kê từ đồng nghĩa WordNet Từ điển liệt kê từ đồng nghĩa Mở mơ hình ánh xạ CompanyMapping.msl Nhấn chuột phải vào trình soạn thảo ánh xạ chọn Discover Relationships > Advanced Configuration từ trình đơn ngữ cảnh Hình 28 Gọi trình thủ thuật cấu hình nâng cao Trình thủ thuật cấu hình nâng cao (Advanced Configuration wizard) cho phép bạn chọn thuật tốn khám phá mà bạn ưa thích Hãy chắn khơng đánh dấu chọn thuật tốn Lexical Similarity đánh dấu chọn thuật toán Semantic Name Trong phần cấu hình thuật tốn dựa nghĩa tên (Semantic Name), có danh sách tất từ điển liệt kê từ đồng nghĩa sẵn có cho dự án Theo mặc định, mơ hình bảng giải thuật ngữ kết hợp với dự án (xem Hình 18) chọn trước Khi Sureword Wordnet cài đặt hệ thống bạn, chúng tự động hiển thị danh sách Hãy bảo đảm chắn CompanyGlossary.ndm chọn nhấn vào Finish Hình 29 Cấu hình nâng cao cho thuật tốn Semantic Name Gọi thực khám phá Find Similar cho cột nguồn WORK.Employee (xem Hình 27) Trong kết quả, hiển thị đây, có cột đích Worker WR Cột Worker phát từ đồng nghĩa Employee cột WR định nghĩa chữ viết tắt Worker mơ hình bảng giải thuật ngữ CompanyGlossary.ndm Do mơ hình bảng giải thuật ngữ cịn định nghĩa tiêu chuẩn đặt tên doanh nghiệp cho lược đồ Company_new.dbm/SALES (xem Hình 18), WR phát Hình 30 Các kết phù hợp tìm thấy sử dụng phát từ đồng nghĩa Gọi thực khám phá Find Similar cho cột nguồn WORK.WR Kết phù hợp phát cột WORK.WR bên phía đích Nhấn chuột phải vào trình soạn thảo ánh xạ chọn Reject All Mappings từ trình đơn ngữ cảnh Nhấn chuột phải vào trình soạn thảo ánh xạ chọn Discover Relationships > Enterprise Naming Standard từ trình đơn ngữ cảnh Thêm tệp CompanyGlossary.ndm vào lược đồ Company_old.dbm/SALES (tương tự Hình 25 Hình 26) Gọi thực khám phá Find Similar cho cột nguồn WORK.WR lần Bây WR công nhận từ viết tắt Worker Do đó, kết phát bao gồm chữ viết tắt từ đồng nghĩa cho Worker Kết giống với cột nguồn WORK.Employee, hiển thị Hình 31 Hình 31 Kết phù hợp tìm thấy cách sử dụng chữ viết tắt từ đồng nghĩa kết hợp Phát ánh xạ từ phức hợp Trong lược đồ liệu bạn thường tìm thấy từ phức hợp, ví dụ tên cột CUSTOMER_NUMBER EMPLOYEE_ID Thuật toán dựa nghĩa tên phát giống từ phức hợp Trong phần này, bạn tìm hiểu làm để sử dụng đặc tính Mở mơ hình ánh xạ CompanyMapping.msl Đặt cấu hình trình soạn thảo ánh xạ sử dụng thuật tốn semantic name với CompanyGlossary.ndm đóng vai trò từ điển liệt kê từ đồng nghĩa cấu hình tiêu chuẩn đặt tên doanh nghiệp CompanyGlossary.dbm cho hai lược đồ nguồn đích Gọi thực khám phá Find Similar cột nguồn CUSTOMER.Customer_ID Như hiển thị Hình 32, số từ phức hợp trả kết Kết bao gồm chữ viết tắt từ đồng nghĩa từ riêng lẻ Hình 32 Phát từ phức hợp Có nhiều cách khác để phân cách từ với Theo mặc định, thuật toán dựa nghĩa tên ghi nhận dấu phân tách sau từ: o Khoảng trống " " o Dấu gạch "_" o Biểu tượng đường ống "|" o Dấu chấm phẩy ";" o Dấu lược "'" o Dấu phẩy "," o Các từ kiểu bướu lạc đà (Camelcase) (ví dụ, CustomerNumber) Bạn sử dụng dấu phân tách khác Mở trình đơn Window > Preferences chuyển đến Data > Naming Standard Các phiếu Logical Physical-Table/Column có trường văn để nhập dấu phân tách Các dấu phân tách mà bạn định nghĩa hai phiếu xem xét trình phát Thay đổi Separator cho Physical-Table/Column thành "+" (dấu cộng) Hình 33 Định nghĩa dấu phân tách tùy chỉnh Gọi thực khám phá Find Similar cột nguồn CUSTOMER.Customer_ID lần Các cột đích CLNT+NBR phần kết Hình 34 Phát cột cách sử dụng dấu phân tách tùy chỉnh "+" Các chức thuật toán tương tự từ vựng thuật toán dựa nghĩa tên có sẵn ánh xạ mơ hình sở liệu vật lý tới lược đồ XML Xin tự nhiên thử nghiệm chúng với mô hình ánh xạ CompanyOld_CompanyXSD.msl, phần gói hướng dẫn Phát ánh xạ cách sử dụng mẫu liệu Các kết phù hợp phát hướng dẫn dựa giống siêu liệu Phần cách làm để cấu hình gọi thực khám phá cách sử dụng mẫu liệu Các thuật toán sử dụng mẫu liệu có sẵn ánh xạ mơ hình sở liệu vật lý nguồn đích Mở mơ hình ánh xạ LibraryMapping.msl thư mục Mappings Trong kịch này, bạn có hai sở liệu chứa liệu bạn muốn tích hợp chúng Cơ sở liệu nguồn định nghĩa mơ hình "old library system.dbm" sở liệu đích định nghĩa "new library system.dbm" Để đơn giản hướng dẫn này, hai lược đồ giống hệt Tuy nhiên, liệu có chứa sở liệu vật lý LIBRARY OLD_LIB (đã tạo Hình 5) khác Gọi trình thủ thuật cấu hình nâng cao cho thuật tốn khám phá (nhấn chuột phải vào trình soạn thảo ánh xạ chọn Discover Relationships > Advanced Configuration từ trình đơn ngữ cảnh) Đánh dấu chọn vào thuật toán Signature từ danh sách bỏ chọn tất thuật toán khác Hình 35 Thuật tốn Signature Trong Configuration for Signature Algorithm bạn đặt cấu hình số hàng mà bạn muốn bao gồm mẫu bạn Một mẫu lớn làm cho kết phát xác hơn, làm tăng thời gian khám phá Sampling rate định nghĩa tỷ lệ phần trăm hàng lấy vào mẫu (ví dụ, 20% có nghĩa 200 số 1000 hàng lấy mẫu) Sampling size (rows) giá trị thiết lập thêm để rõ số lượng lớn hàng lấy mẫu Hãy đảm bảo chắn giá trị Sampling size đặt 100 hàng Sampling rate đặt 20% Hình 36 Cấu hình thuật tốn Signature Một giá trị khác mà bạn thiết lập cấu hình cho tất thuật toán khám phá Ngưỡng loại bỏ (Rejection Threshold) Giá trị dùng làm lọc Trình soạn thảo ánh xạ hiển thị đường phát phù hợp màu vàng với tỷ số phù hợp thấp ngưỡng loại bỏ rõ Hãy chắn giá trị Rejection threshold với thuật toán signature đặt 0,5, hiển thị nhấn vào Next Cách thực hành thích hợp Nếu bạn thường thấy điều chỉnh giá trị thiết lập cấu hình nâng cao mặc định thuật tốn khám phá, thay đổi trị mặc định phần tùy chọn ưa thích (Trình đơn Window > Preferences, chuyển tới Data > Mapping Editor > Discover Relationships) Các trang trình thủ thuật yêu cầu bạn rõ kết nối sở liệu cho hai lược đồ nguồn đích Nhấn nút bên cạnh mục /RDA_Discovery/old library system.dbm hiển thị Hình 37 Các thơng số lấy mẫu liệu Chọn OLD_LIB từ danh sách nhấn vào Finish Hình 38 Chọn sở liệu lấy mẫu Lặp lại bước với /RDA_Discovery/new library system.dbm sở liệu LIBRARY Thuật toán khám phá cung cấp ba tùy chọn cho nhớ sẵn (caching) liệu mẫu: o Không nhớ sẵn (No caching) Dữ liệu thu thập từ nguồn liệu cho lần chạy thực khám phá o Có nhớ sẵn (Memory caching) Dữ liệu lưu trữ nhớ trình thực khám phá lần Các lần khám phá chạy bảng thực nhanh Khuyến nghị dùng thiết lập thực khám phá 50 bảng o Có nhớ sẵn sở liệu (Database caching) Dữ liệu lưu trữ sở liệu quan hệ trình thực khám phá lần Các lần khám phá thực nhanh Khuyến nghị dùng thiết lập thực khám phá 50 bảng Hãy chắn tùy chọn nhớ sẵn In memory đánh dấu chọn Nhấn vào Finish Hình 39 Lựa chọn nhớ sẵn in-memory 10 Gọi thực khám phá Find Similar cột nguồn BOOK_AUTHORS.AUTHORNAME 11 Các kết phù hợp sau trả về: BOOK_AUTHORS.AUTHORNAME 100% BOOK.PUBLISHER_NAME 75% STUDENT.NAME 75% LOCATION.NAME 50% BOOK.TITLE 25% 12 13 Loại bỏ tất ánh xạ 14 Mở trình thủ thuật cấu hình nâng cao cho thuật tốn khám phá đặt giá trị Rejection threshold cho thuật toán signature thành 0,3, hiển thị Hình 40 Hình 40 Điều chỉnh giá trị ngưỡng loại bỏ theo kết lọc 14 Gọi thực khám phá Find Similar cột nguồn BOOK_AUTHORS.AUTHORNAME lần Kết phù hợp BOOK.TITLE khơng cịn phần kết Nó lọc giá trị tỷ số phù hợp cao 0,3 Tóm tắt Trong hướng dẫn này, bạn học cách làm để sử dụng thành phần khám phá Kiến trúc sư liệu Rational để phát mối quan hệ lược đồ Bây bạn gọi thực thuật toán dựa theo siêu liệu dựa theo liệu để phát điểm giống lược đồ Bạn tạo mô hình bảng giải thuật ngữ riêng bạn sử dụng để phát điểm giống cách sử dụng chữ viết tắt từ đồng nghĩa Bạn đặt cấu hình thuật toán khám phá sử dụng mẫu liệu gọi thực thuật toán signature để phát điểm giống liệu Thành phần khám phá mối quan hệ Kiến trúc sư Dữ liệu Rational giúp làm giảm đáng kể thời gian tạo ánh xạ phức tạp trình soạn thảo ánh xạ Kiến trúc sư Dữ liệu Rational ... siêu liệu doanh nghiệp với Kiến trúc sư Dữ liệu Rational Phần 2: Tạo truy vấn SQL/XML với Kiến trúc sư Dữ liệu Rational Sử dụng Kiến trúc sư Dữ liệu Rational để tích hợp nguồn liệu Các yêu... xạ lược đồ Các điều kiện cần trước Thay đổi tên sản phẩm Ngày 16 tháng Mười Hai năm 2008 IBM thông báo rằng, kể từ phiên 7.5.1, Kiến trúc sư Dữ liệu Rational đổi tên thành Kiến trúc sư Dữ liệu. .. khơng cịn phần kết Nó lọc giá trị tỷ số phù hợp cao 0,3 Tóm tắt Trong hướng dẫn này, bạn học cách làm để sử dụng thành phần khám phá Kiến trúc sư liệu Rational để phát mối quan hệ lược đồ Bây bạn