Hình 5: Mô hình mạng CSDL quốc gia về TTHC
TTHC Sohoso TenTTHC Malinhvuc MaCoquanthongke TrinhtuThuchien CachthucThuchien Hoso ThoiHangiaiquyet Coquanthuchien Doituongthuchien MaudonTokhai LePhi Ketqua YeucauDieukien CanCuphaply LINHVUC Malinhvuc Linhvuc Macoquanthongke COQUANTHONGKE Macoquanthongke TencoquanThongke Diachi 1 1 N 1 N 1
Mô tả:
- Hai máy chủ proxy phục vụ truy cập internet trực tiếp nằm ở vùng DMZ, không truy cập trực tiếp vào máy chủ web và CSDL.
- Hai máy chủ proxy lƣu giữ thông tin tạm thời cho các truy xuất từ bên ngoài, cân băng tải và đảm bảo cho hoạt động của máy chủ web tối ƣu.
- Hai web servers sử dụng phân vùng ổ cứng trên SAN - Hai máy chủ CSDL theo kiểu quan hệ Master-Slave
Mọi giao dịch và yêu cầu ghi dữ liệu thực hiện trên máy Master, mọi yêu cầu đọc dữ liệu đều thực hiện trên máy chủ slave. Trong trƣờng hợp lỗi, máy chủ Slave sẽ đƣợc thiết lập để thay thế máy chủ CSDL Master.
CHƢƠNG 2: PHÂN TÍCH MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU 2.1. NỀN TẢNG VỀ TÍCH HỢP DỮ LIỆU
Về các kỹ thuật tích hợp dữ liệu chúng ta xem xét từ góc độ là điểm nhìn logic và điểm nhìn vật lý. Trƣớc tiên đƣợc nói đến là tích hợp lƣợc đồ, là hợp nhất các lƣợc đồ từ nhiều nguồn dữ liệu mà sử dụng nhiều mô hình dữ liệu và lƣợc đồ khác nhau.
Kết quả của quá trình tích hợp lƣợc đồ đƣợc gọi là lƣợc đồ trung gian và các luật ánh xạ (các luật tích hợp dữ liệu) đƣợc định nghĩa trong việc ánh xạ thông tin của các nguồn dữ liệu lên lƣợc đồ trung gian. Tích hợp dữ liệu từ điểm nhìn vật lý sử dụng các luật tích hợp dữ liệu logic và đánh giá các truy vấn ngƣời dùng trên lƣợc đồ trung gian. Chúng ta sẽ xem xét tích hợp dữ liệu từ điểm nhìn logic để có một cơ sở cho các kỹ thuật đánh giá các truy vấn.
2.1.1. Tích hợp dữ liệu từ điểm nhìn Logic
Các hệ thống tích hợp dữ liệu kết hợp dữ liệu từ nhiều nguồn khác nhau và cung cấp một cách nhìn thống nhất trên các dữ liệu đó bởi một lƣợc đồ toàn cục tới các ứng dụng và ngƣời dùng. Trong một hệ thống tích hợp dữ liệu chúng ta có một tập các nguồn dữ liệu đã tồn tại từ trƣớc mà tạo nên nền tảng của ứng dụng. Mỗi một nguồn dữ liệu đó có thể sử dụng nhiều mô hình và lƣợc đồ dữ liệu khác nhau. Nói cách khác, mỗi một nguồn biểu thị một phần khung nhìn về ứng dụng theo cách thức riêng của nó về mô hình. Thực tế nếu chúng ta thiết kế một hệ thống CSDL cho một ứng dụng bắt đầu từ sự hỗn hợp, chúng ta sẽ có mô hình khác dựa trên lƣợc đồ của các nguồn dữ liệu đƣợc tích hợp. Mỗi nguồn cần đƣợc ánh xạ đến các phần có liên quan của một lƣợc đồ thống nhất. Lƣợc đồ đơn này của hệ thống tích hợp đƣợc gọi là lƣợc đồ trung gian.
2.1.2. Cách tiếp cận có cấu trúc
Cách tiếp cận có cấu trúc về tích hợp CSDL là cách tiếp cận mô hình dữ liệu phổ biến. Việc định nghĩa một lƣợc đồ toàn cục là cách tiếp cận có cấu trúc sớm nhất để tích hợp các CSDL không đồng nhất. Phƣơng pháp này cần rất nhiều nhân lực và yêu cầu ngƣời quản trị CSDL để thực hiện vai trò quản trị và hiểu đƣợc tất cả các hệ thống CSDL phân tầng ở phía dƣới và kiến trúc của chúng. Ngƣời quản trị phải hiểu những gì đang đƣợc tích hợp và tích hợp chúng nhƣ thế nào, và đó là trở ngại lớn của cách tiếp cận này. Theo cách tiếp cận này, nhiều hệ quản trị CSDL cho phép ngƣời dùng định nghĩa các 'view' để giải quyết các xung đột mà không thể giải quyết đƣợc thông qua cách tiếp cận thuật toán.
Tiến trình tích hợp thực hiện qua các bƣớc: Tiền tích hợp, so sánh, hợp nhất và cấu trúc lại dữ liệu. Một cách tiếp cận khác đƣợc sử dụng nhiều trong tiếp cận tích hợp có cấu trúc là liên kết các hệ thống CSDL thành phần độc lập hay hệ thống CSDL liên
việc chia sẻ tạo ra hiệu quả cao bởi cho nó phép export lƣợc đồ có thể chia sẻ của mỗi CSDL địa phƣơng để tích hợp vào bên trong lƣợc đồ toàn cục. Một hệ thống quản lý CSDL liên hợp (Federated) cung cấp thao tác điều khiển và tổ chức/sắp xếp các hệ thống CSDL thành phần. FDBMS miêu tả sự thỏa hiệp giữa việc không tích hợp và tích hợp toàn bộ.
Các hệ thống CSDL liên hợp đƣợc chia thành hai loại, đó là kết hợp lỏng và kết hợp chặt. Trong các hệ thống kết hợp lỏng ngƣời dùng chịu trách nhiệm tạo và duy trì sự liên hợp và trong các hệ thống kết hợp chặt các nhà quản trị hệ thống có trách nhiệm đầy đủ để duy trì sự liên hợp. Dữ liệu, CSDL, các tập lệnh, các bộ vi xử lý, lƣợc đồ, và ánh xạ thông tin là các thành phần chính của kiến trúc liên hợp CSDL. Theo FDBMS có năm mức lƣợc đồ đƣợc áp đặt lên cách tiếp cận có cấu trúc: Lƣợc đồ địa phƣơng, một CSDL, một lƣợc đồ thành phần, lƣợc đồ export mà mỗi CSDL địa phƣơng có thể export và một lƣợc đồ liên hợp mà đại diện cho toàn bộ lƣợc đồ và các lƣợc đồ bên ngoài đại diện cho khung nhìn 'view' của mỗi ngƣời dùng.
Tất cả các cách tiếp cận trên đều có một quy luật cơ bản chung đó là tất cả sử dụng một hình thức của một mô hình phổ biến để đại diện cho các khung nhìn 'view' ngƣời dùng và thực hiện một số giao tác của lƣợc đồ cục bộ đến các lƣợc đồ toàn cục. Cách tiếp cận có cấu trúc là rất khó và cồng kềnh bởi các ngữ nghĩa đƣợc nhúng cố hữu bên trong mỗi lƣợc đồ địa phƣơng và lƣợc đồ toàn cục.
2.1.3. Cách tiếp cận ngữ nghĩa
Cách tiếp cận ngữ nghĩa sử dụng một ngôn ngữ bậc cao mà có thể diễn tả phạm vi thông tin trên các CSDL độc lập. Giống nhƣ cách tiếp cận có cấu trúc có một số mô hình khác đã đƣợc đề xuất trong mô hình ngữ nghĩa. Trong lý thuyết về tiếp cận ngữ nghĩa các loại khác nhau về quan hệ đã đƣợc thảo luận, nhƣ ngữ nghĩa tƣơng đƣơng, ngữ nghĩa tƣơng đồng, ngữ nghĩa tƣơng thích, ngữ nghĩa trái ngƣợc nhau.
Đặc tính phổ biến mà tất cả các cách tiếp cận ngữ nghĩa tuân theo là ngữ nghĩa đƣợc trích chọn sử dụng tri thức của toàn bộ lĩnh vực ứng dụng.
2.1.4. Cách tiếp cận tích hợp thông minh
Có hai ý tƣởng chính hoặc các khái niệm đƣợc đề cập để đạt đƣợc tích hợp thông minh. Thứ nhất dựa trên sự thiết lập một số mô hình hợp tác thông minh giữa các hệ thống không đồng nhất bằng cách biến đổi các hệ thống thông tin thụ động vào trong các agent xử lý thông tin thông minh. Cách tiếp cận thứ hai dựa trên khái niệm về bộ phận dàn xếp mà phục vụ hòa giải bằng việc liên kết các nguồn dữ liệu và các chƣơng trình ứng dụng. Cả hai thông tin agent và bộ phận dàn xếp yêu cầu kiến thức nền về lĩnh vực ứng dụng. Kiến thức này phải đƣợc phát hiện ra từ các ứng dụng đang tồn tại để cung cấp sự thông minh cần thiết cho tích hợp.
Một trong những lĩnh vực nghiên cứu tích cực nhất quan hệ với tích hợp thông minh là dựa trên mô hình của sự thông minh và các hệ thống thông tin cộng tác. Mục
đích thiết kế là tiếp cận để các tài nguyên tính toán có khả năng sử dụng trong suốt và hiệu quả các tài nguyên.
2.1.5. Xử lý truy vấn trong các hệ thống tích hợp dữ liệu
Thách thức quan trọng nhất đối với hệ thống tích hợp dữ liệu đó là sự trong suốt và có thể mở rộng. Trong suốt thể hiện ở chỗ tích hợp truy cập của ngƣời dùng, có nghĩa là các client, đến sự hỗn hợp các nguồn thông tin độc lập nhƣ các CSDL quan hệ, tài liệu XML, các file text, bảng tính, các ứng dụng kế thừa. Tất cả các nguồn dữ liệu đó sẽ đƣợc truy cập sử dụng một định dạng dữ liệu đơn, lƣợc đồ và ngôn ngữ truy vấn. Bên cạnh đó, các hệ thống tích hợp dữ liệu sẽ cung cấp sự trong suốt về vị trí, có nghĩa là đƣa ra các khả năng mà độc lập với cả vị trí của dữ liệu và hệ thống mà ở đó hoạt động đƣợc thực hiện trong khi các nguồn dữ liệu vẫn giữ nguyên sự độc lập.
Khả năng mở rộng nghĩa là hệ thống tích hợp dữ liệu có khả năng đƣợc xử lý một khối lƣợng lớn các nguồn dữ liệu độc lập và trả lời truy vấn của nhiều ngƣời dùng mà không làm tăng lên đáng kể thời gian đáp ứng. Hệ thống sẽ có khả năng chống lại các lỗi
nhƣ: dữ liệu lỗi, lỗi mạng, máy chủ down hoặc thậm chí với các host độc hại. Thông thƣờng, các nguồn dữ liệu đƣợc phân tán qua Internet. Phụ thuộc vào khả năng kết nối, ví dụ: Tất cả các dữ liệu nguồn thuộc về cùng một tổ chức, cho đến các đối tác kinh doanh nhƣ nhà cung cấp hoặc là các công ty độc lập, nhận thức rõ về các thành phần vật lý khác nhau về hệ thống tích hợp dữ liệu là hoàn toàn có thể thực hiện đƣợc. Các khả năng đó có thể đƣợc thực hiện truy vấn qua các kho dữ liệu trung tâm cho đến các kiến trúc phân tán với các thành phần trung tâm.
2.1.6. Thực thi truy vấn trong kho dữ liệu trung tâm (data warehouse)
Trong nhiều ngữ cảnh, ví dụ bên trong một tổ chức, doanh nghiệp, kiến trúc vật lý tốt nhất là một server tập trung. Trƣớc hết chúng ta xem xét đến một kho dữ liệu trung tâm cổ điển để thấy rõ về hệ thống tích hợp dữ liệu. Khi các nguồn dữ liệu đa dạng, độc lập, và phân tán cần đƣợc tích hợp, chúng ta phải phân biệt giữa các tải (loading) của kho dữ liệu trung tâm với dữ liệu và xử lý truy vấn trên dữ liệu đƣợc tích hợp.
Hình vẽ sau mô tả hai giai đoạn của cách tiếp cận này. Kho dữ liệu định nghĩa định dạng dữ liệu và lƣợc đồ cho tất cả các dữ liệu đƣợc lƣu trữ tập trung. Kho dữ liệu đƣợc tích hợp bởi sử dụng công cụ ETL (Extract, Transform, Load).
Hình 6: Tích hợp dữ liệu với một kho dữ liệu trung tâm
Với việc phải cấu hình cho mỗi nguồn dữ liệu riêng rẻ. Dữ liệu đƣợc chiết xuất (extracted), chuyển đổi (transformed) và cuối cùng là nạp (loaded) vào trong kho dữ liệu (data warehouse). Toàn bộ xử lý truy vấn xảy ra tại kho dữ liệu trung tâm: Việc truy vấn chỉ xử lý truy cập tập trung đến các bản sao của dữ liệu ban đầu. Điều này dẫn đến truy cập đồng nhất tới các nguồn dữ liệu tại kho dữ liệu trung tâm nên việc xử lý truy vấn là đơn giản hơn. Vì vậy chỉ có các phép toán của kho dữ liệu trung tâm là đƣợc thực hiện nhƣ scan, join hay select các bảng.
Nhƣ vậy cách tiếp cận kho dữ liệu tập trung là phù hợp và tốt nhất cho các ứng dụng xử lý phân tích trực tuyến (OLAP). Các truy vấn đó thực hiện trên khối lƣợng lớn dữ liệu và bao gồm rất nhiều kết nối, nhƣng không thực hiện việc cập nhật trên dữ liệu. Trong các ứng dụng OLAP dữ liệu không phải đầy đủ theo thời gian (up-to-date), một số dữ liệu cũ hơn có thể đƣợc sử dụng mà không làm sai lệch kết quả quá nhiều. Do đó dữ liệu mới hoặc dữ liệu thay đổi chỉ có thể đƣợc tích hợp một cách định kỳ từ các nguồn dữ liệu, nhƣ theo ngày hoặc theo tuần.
2.2. CÁC KỸ THUẬT TÍCH HỢP DỮ LIỆU
Có ba kỹ thuật chính đƣợc sử dụng để tích hợp dữ liệu, đó là kỹ thuật Hợp nhất (consolidation), liên hiệp (federation) và lan truyền (propagation). Đƣợc thể hiện trong hình vẽ sau.
Hình 7: Các kỹ thuật tích hợp: consolidation, federation và propagation
2.2.1. Kỹ thuật hợp nhất dữ liệu (Data Consolidation)
Hợp nhất dữ liệu - Data Consolidation lấy dữ liệu từ nhiều hệ thống nguồn và tích hợp vào trong một kho dữ liệu, kho dữ liệu này có thể đƣợc sử dụng cho việc sắp xếp và phân tích nhƣ trong data warehouse, hoặc nó thể hoạt động nhƣ một nguồn dữ liệu cho các ứng dụng nhƣ trong một kho dữ liệu tác nghiệp.
Với kỹ thuật Data Consolidation thƣờng có độ trễ (delay) giữa thời gian cập nhật xảy ra trong các hệ thống nguồn và thời gian cập nhật xuất hiện trong hệ thống đích. Phụ thuộc vào các yêu cầu kinh doanh, độ trễ này có thể là một vài giây, vài giờ, hoặc nhiều ngày. Thuật ngữ 'gần thời gian thực' thƣờng đƣợc sử dụng để mô tả dữ liệu đích mà có độ trễ thấp, khoảng vài giây, phút hoặc giờ. Dữ liệu với độ trễ gần nhƣ là zero là đƣợc biết đến nhƣ dữ liệu thời gian thực, nhƣng điều này là rất khó để đạt đƣợc khi sử dụng Data Consolidation. Kho dữ liệu đích chứa đựng dữ liệu có độ trễ cao đƣợc xây dựng sử dụng các ứng dụng tích hợp dữ liệu theo khối (batch) mà việc kéo|đẩy (pull|push) dữ liệu từ các hệ thống nguồn tại các khoảng thời gian đã đƣợc lập lịch. Việc kéo dữ liệu này tiếp cận sử dụng các truy vấn dữ liệu mà thực hiện theo chu kỳ để lấy đƣợc dữ liệu nguồn. Mặc dù các truy vấn đó lấy đƣợc phiên bản hiện tại của dữ liệu, nhƣng chúng sẽ không phản ánh đƣợc sự thay đổi từ khi dữ liệu cuối cùng đƣợc lấy về - một bản ghi nguồn sẽ đƣợc cập nhật vài lần giữa các khoảng thời gian.
Kho dữ liệu đích có độ trễ thấp đƣợc cập nhật bởi các ứng dụng tích hợp dữ liệu trực tuyến, nó liên tục nắm bắt để lấy và đẩy dữ liệu thay đổi tới kho dữ liệu đích
thuật CDC - Changed Data Capture thƣờng đƣợc sử dụng để thực hiện việc này. Trong trƣờng hợp này tác vụ 'capture' sẽ trích xuất tất cả dữ liệu thay đổi mà xảy ra trong dữ liệu nguồn. Mô hình hợp nhất Pull và Push có thể sử dụng cùng với nhau - có thể là một ứng dụng đẩy (push) trực tuyến để tích lũy dữ liệu thay đổi trong khu vực chuẩn bị dữ liệu (staging area) mà đã đƣợc truy vấn tại các khoảng thời gian đƣợc lập lịch bởi một ứng dụng kéo (pull) theo khối. Điều này rất là quan trọng để thấy rõ rằng mô hình đẩy là mô hình điều khiển theo sự kiện và mô hình kéo là dựa theo yêu cầu. xem hình vẽ.
Hình 8: Mô hình đẩy và kéo của Data Consolidation
Các ứng dụng doanh nghiệp xử lý kho dữ liệu hợp nhất có thể truy vấn, sắp xếp, và phân tích dữ liệu trong kho. Chúng không thể luôn cập nhật đƣợc các dữ liệu đã hợp nhất bởi vì vấn đề về động bộ hóa giữa các cập nhật và các hệ thống nguồn. Tuy nhiên, một số sản phẩm về tích hợp dữ liệu mang đến một khả năng đó là việc cung cấp khả năng để xử lý các xung đột dữ liệu có thể xảy ra giữa dữ liệu đã đƣợc cập nhật trong kho dữ liệu đã hợp nhất và các hệ thống nguồn. Một số các ứng dụng cập nhật kho dữ liệu đƣợc hợp nhất và định tuyến các thay đổi trở về các hệ thống nguồn. Điểm nổi bật của hợp nhất dữ liệu là nó cho phép khối lƣợng lớn dữ liệu đƣợc biến đổi (cấu trúc lại, làm cho phù hợp, làm sạch, và/hoặc kết hợp lại) bởi vì nó xuất phát từ các hệ thống nguồn đến kho dữ liệu đích. Điểm hạn chế là các tài nguyên máy tính yêu cầu đƣợc hỗ trợ cho quá trình kết hợp dữ liệu và dung lƣợng ổ đĩa yêu cầu cần hỗ trợ kho dữ liệu đích phải đƣợc đảm bảo.
Kết hợp dữ liệu là cách tiếp cận chính, đƣợc sử dụng bởi các ứng dụng data warehouse để xây dựng và duy trì một kho dữ liệu quan hệ và một data warehouse doanh nghiệp. Kết hợp dữ liệu cũng có thể đƣợc sử dụng các data mart phụ thuộc, nhƣng trong trƣờng hợp này quá trình kết hợp sử dụng một nguồn dữ liệu đơn (có nghĩa là data warehouse doanh nghiệp) trong môi trƣờng data warehouse công nghệ ETL (extract, transform, and load) là một trong nhiều công nghệ phổ biến thƣờng đƣợc