Kỹ thuật lan truyền dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan 04 (Trang 34 - 36)

Các ứng dụng triển khai kỹ thuật này thường hoạt động trực tuyến và sử dụng cơ chế push để đưa dữ liệu đến đích. Quá trình lan truyền dữ liệu có thể được sử dụng bằng phương thức truyền dữ liệu đồng bộ hoặc truyền dữ liệu bất đồng bộ. Phương thức truyền dữ liệu đồng bộ yêu cầu quá trình cập nhật dữ liệu nguồn và dữ liệu đích phải được tiến hành trong cùng một phiên giao dịch. Phương pháp truyền dữ liệu bất đồng bộ cho phép việc cập nhật dữ liệu đích có thể tiến hành ở một thời điểm khác không nằm trong giao dịch cập nhật dữ liệu nguồn điều này giúp đảm bảo tốc độ đối với những hệ thống OLTP. Yêu cầu đối với cả hai phương thức truyền dữ liệu này là cần phải đảm bảo được dữ liệu phải được cập nhật đến đích. Hiện nay, hầu hết các công nghệ lan truyền dữ liệu đều hỗ trợ đồng bộ dữ liệu theo cả hai chiều. Các công nghệ EAI (Enterprise Application Integration) và EDR (Enterprise Data Replication) là những ví dụ về công nghệ hỗ trợ kỹ thuật lan truyền dữ liệu.

Ưu điểm lớn nhất của việc sử dụng kỹ thuật lan truyền dữ liệu đó là dữ liệu có thể cập nhật theo cơ chế thời gian thực hoặc gần thời gian thực, dữ liệu được đảm bảo được cập nhật đến đích (có thể theo cả 2 chiều). Kỹ thuật lan truyền dữ liệu có thể được sử dụng cho việc cân bằng tải, lưu trữ và phục hồi hoặc được sử dụng trong hệ thống phòng chống thảm họa. Tuy nhiên, việc chuyển đổi dữ liệu có hạn chế hơn so với kỹ thuật hợp nhất dữ liệu.

Ngoài ra, cũng giống như kỹ thuật hợp nhất dữ liệu, kỹ thuật lan truyền dữ liệu cũng sử dụng kỹ thuật CDC (Change Data Capture) để phát hiện và lấy các dữ liệu thay đổi ở các nguồn dữ liệu và cập nhật dữ liệu này đến đích. Ứng dụng hỗ trợ CDC thường hoạt động dựa trên nguyên lý sau:

 Nếu nguồn dữ liệu chứa nhãn thời gian (time-stamp) để mô tả thời gian cho lần cập nhật dữ liệu gần nhất thì ứng dụng CDC sẽ dựa vào giá trị thời gian này để so sánh với lần chạy gần nhất của ứng dụng CDC từ đó biết được dữ liệu này đã được phản ánh sang cơ sở dữ liệu đích hay chưa, nếu chưa thì sẽ đưa sang.

 Nếu nguồn dữ liệu không chứa nhãn thời gian, các ứng dụng sẽ cần phải được sửa đổi để bổ sung thêm nhãn thời gian hoặc phải ghi log những thay đổi ra các file hoặc ghi ra hàng đợi thông điệp (message queue). Trong kiến trúc hướng dịch vụ, Webservice có thể được gọi để ghi nhận lại các thay đổi. Trong hệ cơ sở dữ liệu quan hệ có thể sử dụng các Trigger để ghi nhận các phần thay đổi tuy nhiên cần phải chú ý đến vần đề hiệu năng của hệ thống.

2.1.4 Kỹ thuật lai

Tùy vào trong các trường hợp cụ thể, người ta có thể kết hợp một số kỹ thuật tích hợp ở trên để tạo ra kỹ thuật lai. Chẳng hạn đối với bài toán tích hợp dữ liệu khách hàng có thể giải quyết bằng các kỹ thuật hợp nhất dữ liệu và liên hợp dữ liệu như sau:

Hợp nhất dữ liệu: Tạo ra một cơ sở dữ liệu thông tin khách hàng hợp nhất từ dữ liệu các hệ thống nguồn. Độ trễ của việc làm mới dữ liệu sẽ tùy thuộc vào các giải pháp được triển khai.

Liên hợp dữ liệu: Chúng ta sẽ tạo ra một khung nhìn ảo về thông tin của khách hàng để cung cấp cho các ứng dụng có thể tham chiếu đến. Tốc độ truy vấn tùy thuộc vào mức độ phức tạp của việc định nghĩa khung nhìn ảo.

Hai kỹ thuật trên đều có những ưu điểm và nhược điểm riêng. Nếu kết hợp chúng lại chúng ta có thể tạo ra được một giải pháp tốt hơn. Cụ thể ở đây kỹ thuật lai sẽ được thực hiện như sau:

Kỹ thuật lai: Chúng ta sẽ áp dụng kỹ thuật hợp nhất dữ liệu đối với các dữ liệu chung (common) của khách hàng như: tên, địa chỉ, số điện thoại… bởi vì những thông tin này sẽ được sử dụng rất thường xuyên trên tất cả các hệ thống thành phần. Đối với các thông tin riêng lẻ khác (được lưu ở các nguồn dữ liệu) sẽ được truy cập thông qua một khung nhìn ảo được cung cấp bằng cách áp dụng kỹ thuật liên hợp dữ liệu do các dữ liệu này không được yêu cầu sử dụng thường xuyên bởi các ứng dụng khác.

2.2Các công nghệ tích hợp dữ liệu

Hiện nay có rất nhiều công nghệ được sử dụng để triển khai cho các kỹ thuật tích hợp dữ liệu đã nói ở trên. Các công nghệ chính thường được sử dụng hiện nay là ETL (Extract, Transform, Load); EII (Enterprise Information Integration); EAI (Enterprise Application Integration) ; EDR (Enterprise Data Replication) ; ECM (Enterprise Content Management).

2.2.1 Công nghệ ETL

Công nghệ ETLlà công nghệ cho phép kết xuất dữ liệu từ cơ sở dữ liệu nguồn, chuyển đổi dữ liệu đó thành dữ liệu phù hợp với yêu cầu nghiệp vụ từ đó đưa dữ liệu này vào cơ sở dữ liệu gốc.

Dữ liệu có thể được kết xuất theo cơ chế pull và push. Chế độ pull thường được sử dụng trong các ứng dụng chạy ngầm (batch application) và thực hiện theo thời gian đã ấn định trước. Chế độ push thường được sử dụng trong các ứng dụng tích hợp trực tuyến và thực hiện khi có các sự kiện thay đổi dữ liệu phát sinh.

Công việc thực hiện trong ETL được mô tả trong ba bước chính sau: Bước 1 : Kết xuất dữ liệu

Kết xuất dữ liệu từ các nguồn dữ liệu. Các nguồn dữ liệu thường khác nhau cả về cấu trúc và thường không đồng nhất nên cần chú ý chọn sản phẩm tích hợp có hỗ trợ nguồn dữ liệu mong muốn.

Bước 2: Chuyển đổi dữ liệu

Tại bước này các công đoạn sau có thể được sử dụng:

 Làm sạch dữ liệu (Ví dụ: đổi giá trị bị thiếu null thành giá trị mặc định, chuẩn hóa dữ liệu Nam là 0 và Nữ là 1…).

 Lọc dữ liệu : Lựa chọn các trường dữ liệu để xử lý, các bản ghi dữ liệu sẽ xử lý.

 Chia nhỏ dữ liệu : Chia một trường dữ liệu trong dữ liệu nguồn ra các trường nhỏ hơn.

 Hợp nhất dữ liệu từ các dữ liệu đã lấy ở bước 1.

 Loại bỏ những dữ liệu không đủ điều kiện để đưa vào dữ liệu đích. Bước 3. Đưa dữ liệu đã được xử lý vào cơ sở dữ liệu đích.

Các bước xử lý thể hiện qua hình vẽ dưới đây :

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan 04 (Trang 34 - 36)