Kỹ thuật lai

Một phần của tài liệu Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính (Trang 35)

Các kỹ thuật đƣợc sử dụng bởi các ứng dụng tích hợp dữ liệu sẽ phụ thuộc vào hai yêu cầu là kinh doanh và công nghệ. Nó khá là phổ biến cho một ứng dụng tích hợp dữ liệu để sử dụng một cách tiếp cận lai mà bao gồm một vài kỹ thuật tích hợp dữ liệu. Một ví dụ tốt ở đây là tích hợp dữ liệu khách hàng - CDI (customer data integration) ở đó mục tiêu là cung cấp một khung nhìn thích hợp về thông tin khách hàng.

Một cách tiếp cận đơn giản tới CDI là xây dựng một kho dữ liệu khách hàng hợp nhất mà chứa đựng dữ liệu khách hàng đƣợc lấy từ các hệ thống nguồn. Độ trễ của thông tin trong kho đƣợc hợp nhất sẽ phụ thuộc vào hoặc là dữ liệu sẽ đƣợc hợp nhất trực tuyến hoặc theo khối và thƣờng xuyên đƣợc cập nhật đƣợc áp dụng tới kho dữ liệu. Một cách tiếp cận khác tới CDI là liên hợp dữ liệu, ở đó các khung nhìn kinh doanh ảo của dữ liệu khách hàng trong các hệ thống nguồn đƣợc định nghĩa. Các khung nhìn đó đƣợc sử dụng bởi các ứng dụng kinh doanh để truy cập đến thông tin khách hàng hiện tại trong các hệ thống nguồn. Cách tiếp cận liên hợp cũng có thể đƣợc sử dụng một file tham chiếu metadata để kết nối đến thông tin khách hàng liên quan dựa trên đặc tính chung. Một cách tiếp cận lai là hợp nhất dữ liệu và liên hợp dữ liệu có lẻ là phù hợp. Dữ liệu khách hàng phổ biến nhƣ tên, địa chỉ...sẽ đƣợc hợp nhất trong một kho độc lập, nhƣng dữ liệu khách hàng là duy nhất tới một ứng dụng nguồn xác định nhƣ loại khách hàng sẽ đƣợc liên hợp. Cách tiếp cận lai này có thể mở rộng hơn nữa bằng cách sử dụng kỹ thuật lan truyền dữ liệu (data propagation). Nếu một khách hàng cập nhật tên và địa chỉ trong thời gian giao dịch kho dữ liệu web thì sự thay đổi này sẽ đƣợc gửi đến kho dữ liệu hợp nhất và sau đó truyền đến các hệ thống nguồn khác nhƣ là một cơ sở dữ liệu cửa hàng bán lẻ.

Changed data capture - CDC

Hai kỹ thuật hợp nhất dữ liệu và lan truyền dữ liệu tạo và duy trì bản sao của dữ liệu nguồn, thách thức với cả hai kỹ thuật đó là làm thế nào để xử lý đƣợc dữ liệu thay đổi mà xảy ra trong các hệ thống nguồn. Một cách tiếp cận là xây dựng lại kho dữ liệu đích một cách thƣờng xuyên để giữ liên hệ chặt chẽ với hiện tại của dữ liệu nguồn, nhƣng điều này là không thực tế ngoại trừ các kho dữ liệu đó là nhỏ.

Nếu dữ liệu nguồn chứa đựng một nhãn thời gian (time-stamp) thể hiện khi dữ liệu đƣợc sửa sau cùng, nó sẽ đƣợc sử dụng để định vị dữ liệu mà đã thay đổi từ khi ứng dụng CDC thực hiện sau cùng. Trừ khi một bản ghi mới hoặc phiên bản của dữ liệu đƣợc tạo ra mỗi lần nó thay đổi, ứng dụng CDC đó sẽ chỉ biết đƣợc hầu hết thay đổi hiện tại tới một bản ghi riêng lẻ, không phải tất cả sự thay đổi từ lần cuối cùng ứng dụng thực thi.

Nếu dữ liệu nguồn không có nhãn thời gian (time-stamped) thì các ứng dụng kinh doanh nguồn sẽ đƣợc sửa hoặc là tạo ra một time-stamp hoặc duy trì một file dữ liệu riêng biệt hoặc hàng đợi thông điệp của dữ liệu thay đổi. Các nhà cung cấp ứng dụng đóng gói nhƣ SAP thƣờng cung cấp các điều kiện tại mức ứng dụng để thực hiện điều này. Trong kiến trúc hƣớng đối tƣợng, một web service sẽ đƣợc gọi để ghi nhận sự thay đổi.

Một cách tiếp cận phổ biến trong các ứng dụng CSDL quan hệ là thêm các trigger cập nhật CSDL để thực hiện copy dữ liệu bị thay đổi. Một nguồn khác cho việc tìm dữ liệu thay đổi là hệ thống nhật ký (log) khôi phục DBMS. Các giải pháp EDR - Enterprise data replication thƣờng hỗ trợ CDC sử dụng các trigger DBMS và/hoặc log khôi phục. Các trigger có nhiều ảnh hƣởng đến hiệu suất của các ứng dụng nguồn, bởi vì các trigger đó và tiến trình cập nhật dữ liệu nguồn thƣờng đƣợc thực hiện trong cùng giao dịch vật lý. Mặt khác việc xử lý các log recovery là ít ảnh hƣởng hơn, bởi vì nó xảy ra không đồng bộ từ tiến trình cập nhật dữ liệu.

Việc gắn nhãn thời gian và phiên bản là thƣờng khá phổ biến trong các ứng dụng dữ liệu phi cấu trúc. Khi một tài liệu đƣợc tạo ra hoặc sửa đổi metadata tài liệu thƣờng đƣợc cập nhật để phản ánh ngày và giờ của hoạt động. Nhiều hệ thống dữ liệu phi cấu trúc cũng tạo một phiên bản mới của một tài liệu mỗi khi thời gian đƣợc thay đổi.

Có rất nhiều cách thức khác nhau để triển khai CDC. Nếu khả năng này là quan trọng với tổ chức thì điều đó là cần thiết để xem xét các giải pháp tích hợp dữ liệu một cách cẩn thận để thấy nếu chúng hỗ trợ CDC và để đánh giá hiệu suất ảnh hƣởng của tiếp cận CDC trên các hệ thống nguồn.

Một phần của tài liệu Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính (Trang 35)