GIỚI THIỆU CHUNG
Tích hợp dữ liệu
1.1.1 Khái niệm về tích hợp dữ liệu
Tích hợp dữ liệu là một lĩnh vực nghiên cứu quan trọng trong cơ sở dữ liệu, bắt đầu từ khi cơ sở dữ liệu được áp dụng cho quản lý kinh doanh Mục tiêu của tích hợp hệ thống thông tin là kết hợp các hệ thống khác nhau để tạo ra một hệ thống thông tin đầy đủ và thống nhất cho người dùng Điều này giúp người dùng có được cái nhìn đồng nhất về dữ liệu, mặc dù dữ liệu có thể phân tán và nguồn gốc dữ liệu có thể khác nhau về cấu trúc và công nghệ.
Tích hợp dữ liệu là quá trình kết hợp các quy trình kỹ thuật và kinh doanh nhằm tổng hợp dữ liệu từ nhiều nguồn khác nhau, tạo ra thông tin có giá trị và ý nghĩa Từ góc độ giải pháp, tích hợp dữ liệu được xem như một ứng dụng nền tảng, sản phẩm hoặc các kỹ thuật và công nghệ, cung cấp một cái nhìn thống nhất cho nhiều nguồn dữ liệu đa dạng.
1.1.2 Các mức độ tích hợp dữ liệu
Dựa trên kiến trúc tầng của một hệ thống thông tin chúng ta sẽ có các mức độ tích hợp dữ liệu khác nhau như hình vẽ dưới đây:
Hình 1.1: Kiến trúc ứng dụng và mức độ tích hợp dữ liệu
Từ hình vẽ trên, chúng ta có thể thấy được về lý thuyết sẽ có các cách tiếp cập sau:
Tích hợp thủ công: Cách tiếp cận này sẽ đặt người sử dụng làm trung tâm
Người sử dụng cần thu thập dữ liệu từ nhiều hệ thống thông tin khác nhau để tổng hợp và đạt được thông tin mong muốn Để thực hiện điều này hiệu quả, họ phải hiểu rõ các nguồn thông tin và mối quan hệ giữa chúng.
Tích hợp giao diện dùng chung giúp người sử dụng truy cập tất cả các hệ thống thông qua một nền tảng duy nhất Mặc dù dữ liệu vẫn được lưu trữ riêng biệt, người dùng cần kết hợp các dữ liệu riêng lẻ bằng cách sử dụng giao diện này.
Tích hợp ứng dụng là phương pháp sử dụng các ứng dụng tích hợp để truy cập nhiều nguồn dữ liệu khác nhau, kết hợp và cung cấp thông tin cho người dùng Tuy nhiên, khi có quá nhiều ứng dụng, việc tích hợp trở nên khó khăn do cần duy trì nhiều giao diện và kết nối đến các nguồn dữ liệu có định dạng không đồng nhất, dẫn đến sự cồng kềnh trong quá trình tích hợp.
Tích hợp bằng phần mềm lớp giữa là một phương pháp hiệu quả, giúp giảm chi phí xây dựng ứng dụng Phần mềm lớp giữa cung cấp các chức năng dễ dàng tái sử dụng cho nhiều ứng dụng khác nhau, cho phép các nhà phát triển tiết kiệm thời gian và công sức mà không cần phải xây dựng lại các chức năng tích hợp.
Tầng truy xuất dữ liệu tích hợp logic tạo ra các khung nhìn (view) để cung cấp dữ liệu ảo liên kết từ nhiều nguồn khác nhau Khi ứng dụng yêu cầu dữ liệu từ các khung nhìn này, tầng truy xuất sẽ truy xuất và kết hợp thông tin từ các nguồn dữ liệu thực, sau đó trả về cho người dùng Tuy nhiên, việc kết hợp dữ liệu từ nhiều nguồn có thể tốn thời gian xử lý, do đó cần xem xét hiệu năng của hệ thống khi áp dụng phương pháp này.
Tích hợp ở tầng lưu trữ dữ liệu là quá trình chuyển đổi dữ liệu từ nhiều nguồn khác nhau vào một kho lưu trữ mới, giúp dễ dàng truy cập và đảm bảo tốc độ truy vấn Tuy nhiên, các ứng dụng cần được điều chỉnh để tương thích với dữ liệu tích hợp, đồng thời cần duy trì cơ chế đồng bộ hóa dữ liệu từ các nguồn gốc về kho lưu trữ mới, điều này có thể dẫn đến lãng phí bộ nhớ.
1.1.3 Vấn đề của tích hợp dữ liệu
Việc tích hợp các hệ thống thông tin nhằm tạo ra một hệ thống thông tin đầy đủ và thống nhất cho người sử dụng là rất quan trọng Để đạt được điều này, tất cả dữ liệu cần được biểu diễn theo một mô hình dữ liệu toàn cục thống nhất về nguyên tắc và ngữ nghĩa.
Vấn đề tích hợp hệ thống phát sinh khi các hệ thống được lựa chọn không được thiết kế để tương tác với nhau, do chúng được phát triển trên các nền tảng công nghệ và kiểu dữ liệu khác nhau Điều này dẫn đến việc không thể tích hợp trực tiếp, yêu cầu tạo ra các bộ tích hợp để chuyển đổi dữ liệu, giúp các hệ thống có thể kết nối và giảm thiểu xung đột khi kết hợp Do đó, giải pháp tích hợp dữ liệu cho các hệ thống thông tin phụ thuộc vào một số yếu tố chính.
Kiến trúc của hệ thống thông tin
Nội dung và chức năng của các hệ thống được tích hợp
Kiểu thông tin được quản lý bởi từng hệ thống (dữ liệu có cấu trúc hay phi cấu trúc)
Mức độ hoạt động độc lập của các hệ thống
Mục đích sử dụng của hệ thống thông tin đã được tích hợp (OLTP hay OLAP)
Hiệu năng của hệ thống
Nguồn lực dành cho dự án (Thời gian, nhân lực, kinh phí, các kinh nghiệm đã có…)
Ngoài ra các yếu tố sau cũng cần phải được cân nhắc khi xem xét đến vấn đề tích hợp dữ liệu:
Phần cứng và hệ điều hành chạy ứng dụng
Hệ quản trị cơ sở dữ liệu
Mô hình dữ liệu, lược đồ dữ liệu và ngữ nghĩa dữ liệu
Các rằng buộc toàn vẹn dữ liệu
1.1.4 Vai trò của tích hợp dữ liệu trong các tổ chức
Tích hợp dữ liệu là yếu tố then chốt trong các tổ chức và doanh nghiệp, giúp chia sẻ thông tin một cách hiệu quả giữa các bộ phận Khi doanh nghiệp sở hữu nhiều nguồn thông tin được quản lý bởi các hệ thống khác nhau, việc tích hợp dữ liệu trở nên cần thiết để giải quyết các khó khăn trong quản lý và tối ưu hóa quy trình làm việc.
Việc chia sẻ dữ liệu gặp nhiều khó khăn do mỗi bộ phận tự quản lý dữ liệu riêng, khiến cho quá trình chia sẻ phải thực hiện thủ công qua các chức năng xuất dữ liệu của từng hệ thống Nếu hệ thống không hỗ trợ xuất dữ liệu, việc chia sẻ trở nên bất khả thi Hơn nữa, dữ liệu chia sẻ cần được lưu trữ tại một nơi chung, nhưng điều này gây khó khăn trong việc tìm kiếm và kiểm soát quyền truy cập Đặc biệt, dữ liệu chia sẻ thường không phản ánh kịp thời tình hình hoạt động thực tế, dẫn đến việc sử dụng dữ liệu cũ thay vì thông tin mới nhất.
Việc tạo báo cáo tổng hợp gặp nhiều khó khăn do yêu cầu tổng hợp dữ liệu từ nhiều nguồn khác nhau, ảnh hưởng trực tiếp đến quyết định hoạt động của tổ chức Người thực hiện báo cáo cần am hiểu cách kết xuất dữ liệu từ các hệ thống riêng lẻ và mối quan hệ giữa các dữ liệu này Quá trình tổng hợp thường phải thực hiện thủ công, dẫn đến tốn nhiều thời gian, công sức và có nguy cơ xảy ra sai sót.
Việc vận hành các hệ thống thông tin gặp nhiều khó khăn do cần duy trì đội ngũ kỹ thuật để đảm bảo hệ thống hoạt động an toàn và liên tục Đội ngũ này có nhiệm vụ kiểm tra, phát hiện và khắc phục sự cố Chi phí cho việc vận hành và bảo trì hệ thống sẽ không nhỏ và có xu hướng gia tăng nhanh chóng trong tương lai khi nhiều hệ thống mới được phát triển Hơn nữa, các hệ thống này có thể tiêu tốn nhiều tài nguyên nếu không có chính sách quản lý và chia sẻ tài nguyên hợp lý khi hoạt động độc lập.
Việc tích hợp dữ liệu thành công sẽ giúp giải quyết mọi khó khăn trong doanh nghiệp và tổ chức, do đó, vai trò của tích hợp dữ liệu là cực kỳ quan trọng.
1.1.5 Các yếu tố quyết định đến việc lựa chọn giải pháp tích hợp dữ liệu
Cơ sở dữ liệu trong hệ thống OLTP và OLAP
Một yếu tố quan trọng trong thiết kế ứng dụng tích hợp là mục đích sử dụng cơ sở dữ liệu tích hợp Hệ thống thông tin có thể được phân chia thành hai loại chính: hệ thống xử lý giao dịch trực tuyến (OLTP) và hệ thống phân tích dữ liệu trực tuyến (OLAP) Sự khác biệt và mối quan hệ giữa hệ thống OLAP và OLTP được thể hiện rõ qua hình vẽ dưới đây.
Hệ thống OLTP thường cung cấp dữ liệu cho hệ thống OLAP, giúp phân tích các thông tin chi tiết từ OLTP thành những dữ liệu có giá trị.
Hệ thống xử lý giao dịch trực tuyến (OLTP) là một công cụ quan trọng trong các tổ chức và doanh nghiệp hiện nay, được thiết kế để thu thập và xử lý một lượng lớn giao dịch đơn giản như insert, update và delete trong thời gian ngắn Yêu cầu chính của hệ thống này là khả năng xử lý nhanh chóng các truy vấn dữ liệu và duy trì tính toàn vẹn dữ liệu trong môi trường đa người dùng Hiệu suất của hệ thống OLTP thường được đo bằng số lượng giao dịch trên mỗi giây Cơ sở dữ liệu trong hệ thống OLTP thường được tổ chức theo chuẩn 3NF để lưu trữ chi tiết thông tin phục vụ cho các tác vụ.
Hệ thống phân tích dữ liệu trực tuyến (OLAP) khác biệt với hệ thống xử lý giao dịch trực tuyến (OLTP) ở chỗ có ít giao dịch hoạt động đồng thời và các truy vấn phức tạp, yêu cầu kết hợp nhiều thông tin từ cơ sở dữ liệu Thời gian phản hồi của các truy vấn là chỉ số quan trọng để đánh giá hiệu suất của hệ thống OLAP Ứng dụng OLAP phổ biến trong các kỹ thuật khai phá dữ liệu, với dữ liệu được lưu trữ ở dạng tổng hợp và có tính lịch sử trong các lược đồ đa chiều, thường là lược đồ hình sao hoặc bông tuyết Sự khác biệt giữa OLTP và OLAP được tóm tắt trong bảng so sánh dưới đây.
Tiêu chí Hệ thống OLTP Hệ thống OLAP
Dữ liệu hoạt động của tổ chức, là dữ liệu gốc ban đầu do người dùng đầu cuối nhập vào
Dữ liệu hợp nhất Dữ liệu OLAP đến từ nhiều nguồn khác nhau của hệ thống OLTP
Dữ liệu có vai trò quan trọng trong việc kiểm soát và thực hiện các nghiệp vụ cơ bản hàng ngày, phục vụ người dùng ở cấp độ hoạt động trong tổ chức và doanh nghiệp.
Lập kế hoạch, giải quyết vấn đề và hỗ trợ ra quyết định là những chức năng quan trọng trong quản lý chiến lược của tổ chức và doanh nghiệp Những hoạt động này giúp các cấp bậc quản lý tối ưu hóa quy trình làm việc và nâng cao hiệu quả hoạt động.
Phản ánh dữ liệu nào
Cho thấy một ảnh chụp nhanh của các quá trình vận hành, kinh doanh liên tục của tổ chức, doanh nghiệp
Số liệu cung cấp góc nhìn đa chiều các hoạt động vận hành, kinh doanh trong tổ chức, doanh nghiệp Thêm và sửa dữ liệu
Thêm, sửa nhanh chóng và được tạo bởi người dùng cuối ở cấp hoạt động
Chạy theo chu kỳ, theo lô lớn các giao dịch, như vào một giờ nhất định để tập hợp, tính toán và làm mới dữ liệu
Truy vấn Các truy vấn cơ bản, số lượng dòng dữ liệu trả về ít
Thường truy vấn với các câu truy vấn tính toán phức tạp dựa trên khối lượng dữ liệu rất lớn
Thường rất nhanh trong một vài giây
Thời gian xử lý dữ liệu có thể kéo dài hàng giờ đồng hồ, tùy thuộc vào khối lượng dữ liệu cần xử lý và số lượng truy vấn được thực hiện trong mỗi lô.
Tương đối nhỏ nếu dữ liệu lịch sử được cắt giảm và lưu trữ thích hợp
Thường rất lớn, do sự tồn tại của dữ liệu tổng hợp mang tính lịch sử, cần nhiều index hơn so với OLTP Thiết kế database
Chuẩn hóa ở mức cao, cần nhiều table
Thường không cần chuẩn hóa, ít table hơn Dữ liệu thường theo 2 mô hình là sao (Star) hoặc bông tuyết (Snowflake)
Backup và phục hồi dữ liệu
Việc sao lưu dữ liệu thường xuyên là rất quan trọng cho hoạt động kinh doanh, vì mất mát dữ liệu có thể dẫn đến thiệt hại về thời gian, chi phí và công sức nhập liệu, đồng thời còn liên quan đến trách nhiệm pháp lý Do đó, việc duy trì quy trình sao lưu cẩn thận là cần thiết để bảo vệ thông tin hoạt động.
Thay vì thực hiện sao lưu dữ liệu thường xuyên, nhiều hệ thống OLAP thường lựa chọn phương pháp phục hồi dữ liệu đơn giản bằng cách tải lại dữ liệu từ các nguồn gốc trong hệ thống OLTP khi xảy ra mất mát dữ liệu.
Kho dữ liệu (Datawarehouse)
Trong bối cảnh kinh tế khó khăn và sự gia tăng cạnh tranh giữa các doanh nghiệp, việc phân tích dữ liệu trở nên cực kỳ quan trọng để đưa ra các quyết định chiến lược nhằm nâng cao lợi thế cạnh tranh Hệ thống OLAP được phát triển để đáp ứng nhu cầu này, khi mà hệ thống OLTP không đủ khả năng Thuật ngữ Datawarehouse được sử dụng để chỉ các cơ sở dữ liệu hỗ trợ cho hệ thống OLAP.
1.3.1 Định nghĩa kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu có cấu trúc hướng chủ đề, được tích hợp và có tính thời gian, không thay đổi, nhằm hỗ trợ quá trình ra quyết định trong quản lý.
Kho dữ liệu là một hệ thống lưu trữ dữ liệu quan hệ hoặc đa chiều, được thiết kế chủ yếu để truy vấn và phân tích thay vì xử lý giao dịch Nó tổng hợp dữ liệu lịch sử và dữ liệu phân tích từ nhiều nguồn khác nhau, tách biệt việc phân tích và xử lý giao dịch, đồng thời cho phép hợp nhất dữ liệu từ nhiều nguồn Kho dữ liệu thường lưu trữ thông tin trong nhiều tháng hoặc nhiều năm để phục vụ cho các phân tích liên quan đến thời gian Dữ liệu được đưa vào kho thông qua quy trình ETL (Extract, Transform, Load) từ các ứng dụng OLTP hoặc các nhà cung cấp dữ liệu bên ngoài Người dùng có thể thực hiện các phân tích phức tạp như phân tích xu hướng và khai thác dữ liệu, từ đó dự đoán các xu hướng và tương lai Kho dữ liệu đóng vai trò quan trọng trong việc xây dựng môi trường kinh doanh thông minh.
1.3.2 Các đặc trƣng của kho dữ liệu
Dữ liệu trong kho dữ liệu được tổ chức theo các chủ đề chính như khách hàng, sản phẩm và sản xuất, nhằm hỗ trợ việc mô hình hóa và phân tích cho các nhà ra quyết định Kho dữ liệu này không chú trọng vào các xử lý nghiệp vụ thông thường, mà loại bỏ những dữ liệu không hữu ích cho hệ thống hỗ trợ ra quyết định Điều này cung cấp cho người dùng một cái nhìn toàn diện, đơn giản và đầy đủ về các sự kiện liên quan đến các chủ đề chính.
Tính tích hợp là đặc tính quan trọng nhất của kho dữ liệu, nơi dữ liệu được tổng hợp từ nhiều nguồn khác nhau như cơ sở dữ liệu, file Excel, flat file và raw file Để đảm bảo tính nhất quán của dữ liệu, các kỹ thuật làm sạch, sắp xếp và rút gọn dữ liệu sẽ được áp dụng.
Tính ổn định của kho dữ liệu rất cao, vì dữ liệu được chuyển đổi từ môi trường tác nghiệp và lưu trữ lâu dài Khi dữ liệu đã được đưa vào kho, các thao tác cập nhật và xóa thường không diễn ra, chỉ còn hai thao tác chính là chèn mới và đọc dữ liệu.
Dữ liệu trong kho dữ liệu có tính lịch sử và gắn liền với thời gian, với phạm vi thời gian lưu trữ dài hơn so với các hệ thống tác nghiệp Trong khi dữ liệu tác nghiệp chỉ phản ánh giá trị hiện tại, kho dữ liệu cung cấp thông tin lịch sử lâu dài, mang lại cái nhìn tổng quát và chi tiết hơn Thời gian được lưu trữ như một phần của khóa chính, đảm bảo tính duy nhất và đặc trưng thời gian của dữ liệu, giúp dữ liệu luôn gắn với một giá trị thời gian cụ thể.
1.3.3 Kiến trúc của kho dữ liệu
Về cơ bản kho dữ liệu sẽ bao gồm 04 thành phần:
Nguồn dữ liệu (Data Sources)
Khu vực xử lý (Staging Area)
Công cụ truy cập dữ liệu hay người khai thác dữ liệu(Users)
Các thành phần này được mô tả ở hình vẽ dưới đây:
Hình 1.4: Kiến trúc kho dữ liệu
Dữ liệu trong kho dữ liệu đươc tổng hợp từ rất nhiều nguồn dữ liệu khác nhau và có cấu trúc dữ liệu khác nhau:
Dữ liệu từ hệ thống OLTP là nguồn chính để xây dựng kho dữ liệu, cung cấp các thông tin chi tiết và cập nhật nhất từ hệ thống tác nghiệp.
Dữ liệu từ hệ thống OLAP là những thông tin đã được tổng hợp từ nhiều nguồn khác nhau của các hệ thống phân tích dữ liệu, được tổ chức lại theo nhiều phương pháp đa dạng.
Khu vực xử lý (Staging Area) là nơi thực hiện các kỹ thuật làm sạch và chuyển đổi dữ liệu để đảm bảo tính nhất quán trước khi đưa vào kho dữ liệu Thông thường, các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) được sử dụng để thực hiện các thao tác này, bao gồm trích xuất dữ liệu, chuyển đổi dữ liệu và tải dữ liệu vào kho dữ liệu.
Kho dữ liệu là cơ sở dữ liệu được tổ chức theo mô hình hình sao hoặc bông tuyết, cho phép phi chuẩn hóa và chấp nhận sự dư thừa dữ liệu Mô hình này giúp đơn giản hóa truy vấn và tăng tốc độ xử lý so với mô hình dữ liệu chuẩn hóa Bên cạnh đó, kho dữ liệu còn chứa nhiều loại dữ liệu khác nhau.
Siêu dữ liệu là thông tin mô tả các dữ liệu được lưu trữ trong kho dữ liệu, định nghĩa các thành phần của kho dữ liệu, quy trình tải dữ liệu vào kho và ghi lại hoạt động của kho dữ liệu Các dạng siêu dữ liệu bao gồm nhiều loại khác nhau.
- Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu
- Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu
- Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn
- Dữ liệu định nghĩa và chú thích về tiến trình ETL
- Dữ liệu định nghĩa các luật (quy định) về chất lượng dữ liệu, các mức độ sai lệch của dữ liệu và cách thức xử lý
- Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu
- Dữ liệu chứa các sự kiện hoạt động của các ứng dụng
Bảng sự kiện tổng hợp lưu trữ dữ liệu tính toán nhằm nhanh chóng đáp ứng các câu hỏi của người dùng Dữ liệu này được tính toán từ các bảng khác, nhưng để tăng tốc độ xử lý, nó được lưu trữ sẵn, giúp tiết kiệm thời gian và công sức cho các truy vấn lặp lại.
Các công cụ khai thác dữ liệu trong kho dữ liệu giúp người dùng truy cập và phân tích thông tin Chúng có thể dao động từ các công cụ hỗ trợ truy vấn SQL đơn giản đến các bộ công cụ báo cáo chuyên nghiệp như Business Objects, Microsoft Business Intelligence và Oracle Business Intelligence.
1.3.4 Mô hình dữ liệu sử dụng trong kho dữ liệu
Dữ liệu trong kho dữ liệu thường được tổ chức theo mô hình hình sao hoặc mô hình bông tuyết để tối ưu hóa tốc độ xử lý Mô hình hình sao bao gồm một bảng sự kiện (fact) trung tâm và các bảng chiều (dimensions) xung quanh Trong khi đó, mô hình bông tuyết là sự mở rộng của mô hình hình sao, trong đó một số cấu trúc chiều được chuẩn hóa thành các bảng chiều nhỏ hơn.
Hình 1.4: Mô hình dữ liệu hình sao và bông tuyết.
Hiện trạng mô hình dữ liệu ngành hải quan
1.4.1 Các hệ thống đang đƣợc sử dụng
Trong quá trình tin học hóa quản lý hành chính, ngành Hải quan gặp phải tình trạng phân tán dữ liệu do các hệ thống rời rạc được triển khai riêng lẻ tại các cấp tổng cục, cục và chi cục Nhiều hệ thống được phát triển nhằm giải quyết một phần nghiệp vụ của từng đơn vị, nhưng không đáp ứng được yêu cầu tổng thể, như hệ thống quản lý tờ khai xuất nhập khẩu, hệ thống quản lý kế toán thuế, và các chương trình khác như giám sát container và thông quan điện tử.
Quy trình thủ tục Hải quan hiện nay đang áp dụng theo các văn bản hướng dẫn như sau:
- Nghị định 154/2005/NĐ-CP ngày 15/12/2005
- Thông tư 112/2005/TT-BTC ngày 15/12/2005
- Thông tư 113/2005/TT-BTC ngày 15/12/2005
- Thông tư 40/2008/TT-BTC ngày 21/05/2008
- Quyết định 874/QĐ-TCHQ ngày 15/05/2006
Các khâu chính như sau:
Bước 1: Tiếp nhận hồ sơ đăng ký tờ khai
1 - SLXNK: Nhập các thông tin đăng ký tờ khai, tra cứu thông tin phân loại doanh nghiệp, kiểm tra phân luồng tờ khai
2 - GTT22: Nhập thông tin tờ khai trị giá (nếu có)
3 - KT559: Nhập thông tin số thuế phải nộp của tờ khai
4 - KT559: Tra cứu tình trạng nợ thuế của doanh nghiệp (trong hạn, quá hạn, cưỡng chế),
5 - ViCum: Tra cứu thông tin vi phạm của doanh nghiệp
6 - Tra cứu thông tin doanh nghiệp đã từng nợ thuế quá hạn 90 ngày (cưỡng chế) trong thời hạn 365 ngày kể từ ngày đăng ký tờ khai
(Cục Hải quan TP HCM quy định thêm các bước tra cứu 4,5,6)
Bước 2: Kiểm tra chi tiết hồ sơ
1 - GTT22: Tra cứu thông tin, xác định giá tính thuế
2 - KT559: Tính lại thuế, ra quyết định điều chỉnh thuế (nếu có)
3 - SLXNK: Cập nhật lại những thay đổi thông tin tờ khai phát sinh tại bước này Cập nhật kết quả kiểm tra hồ sơ
Bước 3: Kiểm tra thực tế hàng hóa
1 - SLXNK: Nhập thông tin kết quả kiểm hoá
2 - GTT22: Nhập thông tin chi tiết hàng hoá Bước 4: Phúc tập hồ sơ
1 - GTT22: Xác nhận thông tin tờ khai đã phúc tập
1.4.3 Những tồn tại và nhu cầu bổ sung
Các chương trình ứng dụng hiện tại chỉ đáp ứng các yêu cầu riêng lẻ trong nghiệp vụ hải quan, dẫn đến việc quy trình thông quan phải được thực hiện qua nhiều ứng dụng khác nhau.
Hầu hết các hệ thống hiện nay được xây dựng theo mô hình phân tán, dẫn đến việc đầu tư tài chính lớn và phân tán Mỗi chi cục cần phải trang bị thiết bị phần cứng và có nhân viên chuyên trách để vận hành hệ thống Đặc biệt, việc đầu tư vào thiết bị lưu trữ rất tốn kém cho từng chi cục Hơn nữa, khối lượng dữ liệu truyền nhận hàng ngày rất lớn, gây tắc nghẽn đường truyền và ảnh hưởng đến việc truyền tải thông tin khác.
Hệ thống hiện tại không đảm bảo an ninh và an toàn cho dữ liệu, thiếu kiểm soát trong việc hiệu chỉnh, sửa đổi, xóa và bổ sung danh mục chuẩn Đồng thời, việc sao lưu dữ liệu tại các Chi cục cũng không được đảm bảo, ảnh hưởng đến khả năng vận hành liên tục của hệ thống.
Người sử dụng cần có trình độ chuyên môn cao, đặc biệt là công chức hải quan, vì họ phải tích lũy nhiều kinh nghiệm và kỹ năng trong việc thao tác nghiệp vụ Điều này giúp họ sử dụng hiệu quả các ứng dụng khác nhau để hoàn thành quy trình thủ tục một cách chính xác và nhanh chóng.
Các hệ thống hiện tại thiếu tính nhất quán, gây khó khăn trong việc quản lý phiên bản, cập nhật và bảo trì ứng dụng cùng cơ sở dữ liệu tại Chi cục Hơn nữa, khả năng trao đổi dữ liệu giữa các hệ thống cũng bị hạn chế.
Hệ thống CNTT tại Trung tâm dữ liệu hiện chưa đạt tiêu chuẩn để hoạt động như một "Trung tâm dữ liệu tập trung" thực thụ và chưa được thiết kế theo mô hình "Data Center" chuẩn.
Nhu cầu cần bổ sung:
- Xây dựng thành một hệ thống thống nhất đáp ứng được đầy đủ các khâu trong quy trình thông quan
- Hệ thống xử lý tập trung tại cấp Cục, Tổng Cục
- Đảm bảo an ninh, an toàn dữ liệu tính sẵn sàng của hệ thống
- Xây dựng trung tâm dữ liệu theo mô hình “Data center”.
Hiện trạng ứng dụng CNTT tại cục Hải quan TP HCM
Cục Hải quan TP Hồ Chí Minh, với gần 50% dữ liệu xuất nhập khẩu của toàn ngành hải quan, được chọn làm địa điểm thử nghiệm giải pháp tích hợp dữ liệu trong luận văn Dưới đây là mô tả chi tiết về hiện trạng ứng dụng công nghệ thông tin tại cục Hải quan TP Hồ Chí Minh.
Tất cả các Chi cục trực thuộc đều được kết nối bằng MPLS, UTP hoặc Leaseline tới Trung tâm Dữ liệu Cục Hải quan TP HCM và đã triển khai hệ thống mạng nội bộ (LAN) Mỗi Chi cục được trang bị máy chủ PC Server cùng máy trạm để phục vụ cho việc xử lý thông tin và quy trình nghiệp vụ.
Bảng và hình sau mô tả hiện trạng kết nối mạng của Cục hải quan TP Hồ Chí Minh
Số lƣợng đuờng kêt nối
Cục Hải quan Hồ Chí Minh 16 16
1 Trụ sở Cục Hải quan HCM 1
2 Chi cục HQ cảng KV1 - Tâng Cảng 2 256 MPLS
3 Chi cục HQ cảng KV2 2 256 MPLS
4 Chi cục HQ cảng KV3 - Bến Nghé 2 256 MPLS
5 Chi cục HQ KCX Tân Thuận 2 256 MPLS
Hình 1.5: Mô hình hạ tầng mạng Cục Hải quan TP Hồ Chí Minh
6 Chi cục HQ KCX Linh Trung 1 2 256 MPLS
7 Chi cục HQ KV4 - ICD1 2 256 MPLS
8 Chi cục HQ KV3 - VICT 2 256 MPLS
9 Chi cục HQ Sân bay Tân Sơn Nhất 2 256 MPLS
10 Chi cục HQ Bưu Điện 2 256 MPLS
11 Chi cục HQ KV4 - ICD4 2 256 MPLS
12 Chi cục HQ KVI - Cát Lái 2 256 MPLS
13 Chi cục HQ KCX Linh Trung 2 2 256 MPLS
14 Chi cục HQ Gòn - KV4 - ICD2 2 256 MPLS
17 KCX Linh Trung - KCN cao 2 256 MPLS
18 Chi cục Hải quan Đầu tư 1 100M UTP
19 Chi cục Hải quan Gia công 1 100M UTP
20 Chi cục Hải quan Điện tử 1 100M UTP
21 Chi cục Kiểm tra sau thông quan 1 512 Leaseline
Danh sách thiết bị được sử dụng trong cục:
STT Tên thiết bị Chủng loại Nơi lắp đặt
1 Modem Dialup Trung tâm dữ liệu
2 Modem Leaseline Trung tâm dữ liệu
Trung tâm dữ liệu Các Chi cục
Cisco 4506 Cisco 2950 Cisco 3750 Loại khác
Trung tâm dữ liệu Các Chi cục
IBM232 IBM235 IBM236 IBM346 IBM365
Trung tâm dữ liệu Các Chi cục
6 Total Storage IBM DS4300 Trung tâm dữ liệu
7 SAN Switch IBM Trung tâm dữ liệu
8 Tape Backup IBM Trung tâm dữ liệu
1.5.3 Các ứng dụng đã triển khai
Hiện nay, các Chi cục và đơn vị nghiệp vụ của Hải quan TP Hồ Chí Minh đã triển khai phần mềm ứng dụng cho tất cả các khâu nghiệp vụ chính, bao gồm các ứng dụng đã đề cập trong Chương I phần 1.4.1 Thực trạng triển khai chi tiết được trình bày trong bảng dưới đây.
STT Tên ứng dụng Chức năng Công nghệ Mô hình triển khai
1 Hệ thống thông tin quản lý tờ khai XNK –
Cập nhật thông tin khai báo tờ khai và C/O hàng hóa xuất nhập khẩu của doanh nghiệp, kết nối với hệ thống QLRR để phân luồng tờ khai, quản lý thông tin kết quả kiểm hóa và tính thuế Ứng dụng được phát triển dưới dạng Windows form.
VB 6.0 với CSDL SQL Server
Triển khai tại tất cả chi cục, Trung tâm Truyền nhận dữ liệu (dạng file) hàng ngày với Trung tâm DL&CNTT
2 Hệ thống thông tin quản kế toán thuế XNK
Quản lý tình hình nợ thuế, nộp thuế, phạt chậm nộp thuế, hoàn thuế và truy thu thuế của doanh nghiệp là rất quan trọng Hệ thống kế toán thuế ngành Hải quan được phát triển dưới dạng ứng dụng Windows Form, giúp theo dõi và quản lý hiệu quả các vấn đề liên quan đến thuế.
VB 6.0 với CSDL SQL Server
Triển khai tại tất cả chi cục, Phòng nghiệp vụ Truyền nhận dữ liệu (dạng file) hàng ngày với phòng nghiệp vụ qua Trung tâm Trung tâm DL&CNTT
3 Hệ thống thông tin quản lý thông tin giá tính thuế -
Cập nhật thông tin về tờ khai trị giá, kết quả xác định và kiểm tra trị giá của các lô hàng nhập khẩu Doanh nghiệp có thể tra cứu xác định giá cho các lô hàng nhập khẩu và cập nhật dữ liệu giá một cách dễ dàng Ứng dụng được phát triển dưới dạng Windows Form.
VB 6.0 với CSDL SQL Server
Triển khai hệ thống tại tất cả các chi cục và Phòng trị giá tính thuế, thực hiện việc truyền nhận dữ liệu hàng ngày (dạng file) với Phòng trị giá tính thuế thông qua Trung tâm DL&CNTT.
4 Hệ thống thông tin quản lý thông tin vi phạm -
Cập nhật và quản lý thông tin về kết quả xử lý vi phạm của doanh nghiệp là cần thiết để đánh giá hiệu quả hoạt động của họ Điều này hỗ trợ trong việc đưa ra quyết định phân luồng xử lý các tờ khai của doanh nghiệp Ứng dụng được phát triển dưới dạng Windows Form, giúp tối ưu hóa quy trình quản lý thông tin.
VB 6.0 với CSDL SQL Server
Triển khai tại tất cả chi cục, Phòng TMXL- CBL Truyền nhận dữ liệu (dạng file) hàng ngày với Phòng TMXL- CBL qua Trung tâm Trung tâm DL&CNTT
- Cập nhật thông tin PMD, C/O, hành khách XNC
- Khai thác dữ liệu của Ứng dụng dạng Web viết bằng VB.Net với CSDL
Triển khai tập trung tại cấp Cục, tất cả chi cục sử dụng
STT Tên ứng dụng Chức năng Công nghệ Mô hình triển khai
6 Hệ thống thông tin quản Thống kê thuế theo từng dòng hàng - TKT
Báo cáo thống kê định kỳ và bất thường về chi tiết thông tin từng loại hàng hóa xuất nhập khẩu (XNK) được xây dựng dựa trên dữ liệu từ SLXNK và KT559 Ứng dụng này được phát triển dưới dạng form sử dụng VB 6.0 kết hợp với cơ sở dữ liệu SQL Server.
Triển khai tại tất cả chi cục Truyền nhận dạng file dữ liệu hàng ngày với Trung tâm
7 Chương trình quản lý hàng gia công
Cập nhật và quản lý thông tin tờ khai hàng gia công, hợp đồng, phụ kiện, nguyên phụ liệu và sản phẩm, cũng như thanh lý nguyên phụ liệu hàng gia công, được thực hiện thông qua ứng dụng dạng form viết bằng VB 6.0 kết nối với cơ sở dữ liệu SQL Server.
Triển khai tại Chi cục
HQ quản lý hàng đầu tư và Chi cục HQ quản lý hàng gia công và các khu chế xuất
Tiếp nhận khai báo từ xa đối với các loại hình
Cho phép các doanh nghiệp khai báo thông tin tờ khai gia công thông qua kết nối từ xa đến Cục Hải quan TP
Chương trình Hồ Chí Minh cung cấp dữ liệu đầu vào cho hệ thống Quản lý hàng Gia công và SXXK, sử dụng ứng dụng web với cơ sở dữ liệu SQL Server.
Triển khai tập trung tại Trung tâm và các Chi cục
Quản lý rủi ro (RISK-
Tra cứu thông tin về phân loại doanh nghiệp, thang điểm rủi ro và hỗ trợ quyết định phân luồng tờ khai, cũng như xác định ân hạn nợ thuế cho doanh nghiệp Ứng dụng này được phát triển dưới dạng web.
ASP.NET với CSDL SQL Server
Triển khai tập trung tại Tổng cục Các chi cục truy xuất qua mạng WAN
10 Chương trình quản lý loại hình nhập sản xuất hàng xuất khẩu
Cập nhật thông tin về nguyên phụ liệu và sản phẩm trong tờ khai nhập, xuất hàng sản xuất xuất khẩu Hỗ trợ thanh khoản cho các tờ khai, ứng dụng web được phát triển nhằm tối ưu hóa quy trình này.
ASP.NET với CSDL SQL Server
Triển khai tại 2 chi cục: Đầu tư và Gia công Tuy nhiên chưa được sử dụng và vận hành chính thức
STT Tên ứng dụng Chức năng Công nghệ Mô hình triển khai khai nhập nguyên phụ liệu sản xuất hàng xuất khẩu
Giám sát container cảng biển
Quản lý thông tin tàu biển, container xuất nhập khẩu hàng hoá Ứng dụng dạng form viết bằng VB 6.0 với CSDL SQL Server
Triển khai tại Chi cục Hải quan KV3 - Cảng VICT
Quản lý thông tin văn bản đi, đến và hồ sơ công việc Ứng dụng dạng web viết bằng ASP với CSDL SQL Server
Triển khai tập trung tại văn phòng Cục, các đơn vị khai thác thông qua mạng WAN
Hiện nay, quy trình thông quan điện tử đang được mở rộng để quản lý hiệu quả các loại hình kinh doanh, đặc biệt là gia công và sản xuất xuất khẩu Ứng dụng này được phát triển dưới dạng web, giúp tối ưu hóa quy trình và nâng cao hiệu suất trong hoạt động thương mại.
Triển khai tại Chi cục
HQ điện tử và Trung tâm DL&CNTT đóng vai trò quan trọng trong việc kết nối doanh nghiệp thông qua hệ thống VAN Hệ thống này giúp doanh nghiệp khai báo thông tin và nhận phản hồi từ cơ quan Hải quan một cách hiệu quả.
MỘT SỐ KỸ THUẬT, CÔNG NGHỆ TÍCH HỢP DỮ LIỆU31
Các kỹ thuật tích hợp dữ liệu
Hiện nay, có ba kỹ thuật chính để tích hợp dữ liệu trên toàn cầu: Hợp nhất (consolidation), Liên hiệp (federation) và Lan truyền (propagation) Hầu hết các giải pháp tích hợp dữ liệu hiện tại đều áp dụng những kỹ thuật này Bài viết sẽ phân tích chi tiết từng kỹ thuật để hiểu rõ hơn về cách thức hoạt động của chúng.
2.1.1 Kỹ thuật hợp nhất dữ liệu
Kỹ thuật hợp nhất dữ liệu là quá trình thu thập và kết hợp thông tin từ nhiều nguồn khác nhau để tạo ra một cơ sở dữ liệu duy nhất Cơ sở dữ liệu này có thể được ứng dụng trong việc báo cáo và phân tích dữ liệu như trong kho dữ liệu (data warehouse) hoặc phục vụ cho các giao dịch trực tuyến.
Hình 2.1: Kỹ thuật hợp nhất dữ liệu
Khi kết hợp dữ liệu từ nhiều nguồn khác nhau vào một cơ sở dữ liệu mới, thường xảy ra độ trễ (latency) trong việc cập nhật dữ liệu từ nguồn gốc nếu có sự thay đổi Độ trễ này có thể dao động từ vài giây đến vài giờ hoặc thậm chí vài ngày, tùy thuộc vào yêu cầu nghiệp vụ Thuật ngữ "gần thời gian thực" được áp dụng khi độ trễ cập nhật dữ liệu thấp Nếu không có độ trễ trong việc cập nhật dữ liệu từ nguồn đến đích, hệ thống sẽ hoạt động ở chế độ thời gian thực, nhưng việc đạt được điều này là rất khó khăn.
Có hai cơ chế chính để chuyển dữ liệu từ cơ sở dữ liệu nguồn sang cơ sở dữ liệu đích: Pull (kéo) và Push (đẩy) Cơ chế Pull thường được áp dụng cho các hệ thống có độ trễ cao, nơi việc cập nhật không cần thiết phải ngay lập tức Trong trường hợp này, các ứng dụng tích hợp sẽ hoạt động ngầm và thực hiện việc lấy dữ liệu theo lô vào những khoảng thời gian nhất định Ngược lại, cơ chế Push được sử dụng cho các hệ thống yêu cầu cập nhật gần như thời gian thực, với việc cập nhật dữ liệu diễn ra liên tục Để đáp ứng yêu cầu này, các ứng dụng tích hợp cần có khả năng phát hiện và lấy ngay dữ liệu thay đổi từ nguồn Kỹ thuật Change Data Capture (CDC) thường được sử dụng để theo dõi và chuyển giao dữ liệu đã thay đổi trong quá trình tích hợp dữ liệu.
Chúng ta có thể kết hợp cơ chế pull và push trong nhiều tình huống thực tế, tạo ra một mô hình hiệu quả hơn cho việc quản lý thông tin và tài nguyên.
Hình 2.2: Mô hình kết hợp cơ chế pull và push
Kỹ thuật hợp nhất dữ liệu cho phép tích hợp cơ sở dữ liệu, phục vụ cho các truy vấn và báo cáo thống kê, nhưng ít được sử dụng cho việc cập nhật do vấn đề đồng bộ giữa cơ sở dữ liệu đích và nguồn Ưu điểm của kỹ thuật này là khả năng chuyển đổi, tổ chức lại, làm sạch và kết hợp một lượng lớn dữ liệu từ các nguồn khác nhau Tuy nhiên, nhược điểm của nó là lãng phí tài nguyên tính toán và lưu trữ cho dữ liệu đã được hợp nhất.
Kỹ thuật hợp nhất dữ liệu là yếu tố then chốt trong việc xây dựng kho dữ liệu, với công nghệ ETL (extract, transform, and load) là một trong những giải pháp phổ biến hỗ trợ quá trình này Bên cạnh ETL, công nghệ ECM (enterprise content management) cũng đóng vai trò quan trọng, tập trung vào việc hợp nhất và quản lý dữ liệu phi cấu trúc như báo cáo và trang web.
2.1.2 Kỹ thuật liên hợp dữ liệu
Kỹ thuật liên hợp dữ liệu tạo ra một khung nhìn ảo từ nhiều nguồn dữ liệu, cho phép ứng dụng nghiệp vụ truy vấn dữ liệu một cách hiệu quả Khi thực hiện truy vấn, cỗ máy liên hợp dữ liệu sẽ thu thập và kết hợp dữ liệu từ các nguồn đã được định nghĩa trong khung nhìn, sau đó trả kết quả về cho ứng dụng Hình ảnh minh họa dưới đây mô tả rõ hơn về kỹ thuật này.
Hình 2.3: Kỹ thuật liên hợp dữ liệu
Kỹ thuật liên hợp dữ liệu sử dụng cơ chế pull để lấy dữ liệu từ các nguồn khi có yêu cầu EII (Enterprise Information Integration) là một trong những công nghệ hỗ trợ cho kỹ thuật này.
Dữ liệu metadata là một thành phần quan trọng trong hệ thống liên hợp, giúp cỗ máy liên hợp dữ liệu truy cập vào cơ sở dữ liệu nguồn Trong những trường hợp đơn giản, metadata chỉ bao gồm một khung nhìn ảo định nghĩa ánh xạ đến các file dữ liệu nguồn Tuy nhiên, trong các giải pháp phức tạp hơn, metadata có thể chứa thông tin chi tiết về nguồn dữ liệu, như số lượng bản ghi và đường dẫn truy cập Những thông tin này hỗ trợ tối ưu hóa tốc độ truy cập dữ liệu cho các ứng dụng sử dụng giải pháp liên hợp.
Kỹ thuật liên hợp dữ liệu cho phép người dùng tích hợp metadata để mô tả mối quan hệ ngữ nghĩa giữa các nguồn dữ liệu, mang lại ưu điểm là không lãng phí tài nguyên lưu trữ như kỹ thuật hợp nhất dữ liệu Tuy nhiên, nhược điểm lớn của kỹ thuật này là sự phức tạp trong việc kết hợp khi số lượng nguồn dữ liệu tăng lên, đặc biệt khi mỗi nguồn chứa một lượng lớn dữ liệu, dẫn đến tốc độ xử lý chậm.
Giải pháp này nên được xem xét nếu chi phí áp dụng kỹ thuật hợp nhất dữ liệu vượt quá giá trị kinh tế mà hệ thống mang lại, hoặc nếu có vấn đề bản quyền khiến việc tạo ra các bản lưu khác không được phép.
2.1.3 Kỹ thuật lan truyền dữ liệu
Kỹ thuật lan truyền dữ liệu là phương pháp sao chép thông tin từ một vị trí này sang một vị trí khác Hình minh họa dưới đây thể hiện rõ quy trình của kỹ thuật này.
Hình 2.4: Kỹ thuật lan truyền dữ liệu
Các ứng dụng triển khai kỹ thuật lan truyền dữ liệu thường hoạt động trực tuyến và sử dụng cơ chế push để gửi dữ liệu đến đích, với hai phương thức truyền dữ liệu chính là đồng bộ và bất đồng bộ Phương thức đồng bộ yêu cầu cập nhật dữ liệu nguồn và đích trong cùng một phiên giao dịch, trong khi phương thức bất đồng bộ cho phép cập nhật dữ liệu đích tại thời điểm khác, giúp nâng cao tốc độ cho các hệ thống OLTP Cả hai phương thức đều cần đảm bảo dữ liệu được cập nhật chính xác đến đích Hiện nay, nhiều công nghệ như EAI (Enterprise Application Integration) và EDR (Enterprise Data Replication) hỗ trợ việc lan truyền dữ liệu theo cả hai chiều Ưu điểm lớn nhất của kỹ thuật này là khả năng cập nhật dữ liệu theo thời gian thực hoặc gần thời gian thực, đồng thời đảm bảo dữ liệu được truyền tải chính xác Kỹ thuật lan truyền dữ liệu có thể được áp dụng trong cân bằng tải, lưu trữ và phục hồi, cũng như trong các hệ thống phòng chống thảm họa, nhưng có một số hạn chế so với kỹ thuật hợp nhất dữ liệu.
Kỹ thuật lan truyền dữ liệu tương tự như kỹ thuật hợp nhất dữ liệu, đều áp dụng phương pháp CDC (Change Data Capture) để phát hiện và thu thập các thay đổi từ các nguồn dữ liệu, sau đó cập nhật những thay đổi này đến đích Các ứng dụng hỗ trợ CDC thường hoạt động dựa trên nguyên lý này.
Các công nghệ tích hợp dữ liệu
Currently, various technologies are employed to implement the aforementioned data integration techniques The primary technologies commonly used include ETL (Extract, Transform, Load), EII (Enterprise Information Integration), EAI (Enterprise Application Integration), EDR (Enterprise Data Replication), and ECM (Enterprise Content Management).
Công nghệ ETL là quá trình kết xuất dữ liệu từ nguồn, chuyển đổi dữ liệu để đáp ứng yêu cầu nghiệp vụ, và sau đó đưa dữ liệu đã được chuyển đổi vào cơ sở dữ liệu gốc.
Dữ liệu có thể được kết xuất qua hai cơ chế chính là pull và push Chế độ pull thường áp dụng cho các ứng dụng chạy ngầm (batch application) và được thực hiện theo lịch trình đã định trước Ngược lại, chế độ push thường được sử dụng trong các ứng dụng tích hợp trực tuyến, thực hiện khi có sự kiện thay đổi dữ liệu xảy ra.
Công việc thực hiện trong ETL được mô tả trong ba bước chính sau:
Bước 1 : Kết xuất dữ liệu
Kết xuất dữ liệu từ các nguồn khác nhau có cấu trúc không đồng nhất là một thách thức Do đó, việc lựa chọn sản phẩm tích hợp phù hợp, hỗ trợ các nguồn dữ liệu mong muốn là rất quan trọng.
Bước 2: Chuyển đổi dữ liệu
Tại bước này các công đoạn sau có thể được sử dụng:
Làm sạch dữ liệu (Ví dụ: đổi giá trị bị thiếu null thành giá trị mặc định, chuẩn hóa dữ liệu Nam là 0 và Nữ là 1…)
Lọc dữ liệu : Lựa chọn các trường dữ liệu để xử lý, các bản ghi dữ liệu sẽ xử lý
Chia nhỏ dữ liệu : Chia một trường dữ liệu trong dữ liệu nguồn ra các trường nhỏ hơn
Hợp nhất dữ liệu từ các dữ liệu đã lấy ở bước 1
Loại bỏ những dữ liệu không đủ điều kiện để đưa vào dữ liệu đích
Bước 3 Đưa dữ liệu đã được xử lý vào cơ sở dữ liệu đích
Các bước xử lý thể hiện qua hình vẽ dưới đây :
Hình 2.5: Tiến trình trong ETL
Công nghệ EII cung cấp khung nhìn ảo cho dữ liệu phân tán, cho phép thực hiện các truy vấn dữ liệu phục vụ cho chức năng hệ thống trong tổ chức và doanh nghiệp Bên cạnh đó, EII cũng hỗ trợ phân tích và báo cáo dữ liệu, giúp tích hợp hiệu quả thông qua kỹ thuật liên hợp dữ liệu.
Mục đích của EII là giúp các ứng dụng truy cập và tương tác với các cơ sở dữ liệu phân tán một cách dễ dàng, giống như khi làm việc với một cơ sở dữ liệu duy nhất.
Ứng dụng EII thường xử lý các truy vấn dữ liệu bằng cách phân tách câu truy vấn thành các thành phần riêng biệt, tương ứng với từng nguồn dữ liệu yêu cầu Sau đó, các thành phần này được gửi đến các nguồn dữ liệu tương ứng để thực thi truy vấn Cuối cùng, EII nhận kết quả trả về và kết hợp các dữ liệu này thành một.
Các sản phẩm công nghệ EII được xây dựng trên hai nền tảng công nghệ chính: hệ quản trị cơ sở dữ liệu quan hệ và XML Hiện nay, đa số các sản phẩm EII đều tích hợp hỗ trợ cho cả hai loại dữ liệu này, bao gồm SQL cho DBMS và Xpath, XQuery cho XML.
Hầu hết các sản phẩm EII hiện nay được phát triển dựa trên công nghệ Java, với tốc độ xử lý truy vấn và khả năng tối ưu hóa là những yếu tố quan trọng trong việc lựa chọn sản phẩm Nhiều sản phẩm EII còn cung cấp tính năng lưu trữ kết quả truy vấn vào bộ nhớ đệm, cho phép người quản trị cấu hình quy tắc xác định thời điểm dữ liệu trong bộ nhớ đệm là hợp lệ hay cần làm mới.
EAI (Enterprise Application Integration) là công nghệ giúp tích hợp các ứng dụng hệ thống bằng cách cho phép chúng giao tiếp và trao đổi dữ liệu qua các giao diện chuẩn Công nghệ này cho phép ứng dụng truy cập dữ liệu một cách liền mạch mà không cần biết vị trí lưu trữ hay định dạng của dữ liệu EAI thường được áp dụng trong các hệ thống xử lý thời gian thực, hỗ trợ kỹ thuật lan truyền dữ liệu trong quá trình tích hợp dữ liệu.
EAI thường sử dụng trục tích hợp ESB (Enterprise Service Bus) để tối ưu hóa việc tích hợp ứng dụng và quy trình ESB cung cấp một nền tảng phân tán với khả năng điều hướng thông minh, bảo mật và tự động chuyển đổi dữ liệu, giúp các ứng dụng không cần thực hiện các yêu cầu trao đổi dữ liệu riêng biệt Giải pháp ESB giải quyết điểm yếu của các phương pháp tích hợp truyền thống bằng cách tạo ra một chuẩn chung, thay thế mô hình point to point bằng cách yêu cầu mỗi thành phần chỉ cần một giao diện để kết nối với bus Hệ thống ESB cung cấp giao tiếp phân tán, xử lý nghiệp vụ ổn định và bảo mật, đồng thời hỗ trợ dịch vụ plug-and-play từ các nhà cung cấp khác, nhờ vào tính chuẩn hóa của nó.
Hình 2.8: Công nghệ EAI với ESB
EAI đóng vai trò quan trọng trong tích hợp dữ liệu, cho phép truyền dữ liệu giữa các ứng dụng và tạo ra các sự kiện thời gian thực để kích hoạt quy trình ETL của các ứng dụng tích hợp dữ liệu khác Việc truy cập vào ứng dụng nguồn và ứng dụng đích là cần thiết để đảm bảo sự liên kết và hiệu quả trong quá trình này.
JMS và EAI được phát triển nhằm mục đích truyền tải dữ liệu nhỏ giữa các ứng dụng Hệ thống này chỉ hỗ trợ chuyển đổi dữ liệu và metadata cho các tác vụ đơn giản và thông điệp có cấu trúc, do đó không phù hợp cho việc xử lý dữ liệu phức tạp, mà thường được thực hiện bởi các ứng dụng ETL.
EDR là công nghệ tích hợp dữ liệu quan trọng, thường được sử dụng trong các hệ quản trị cơ sở dữ liệu Nó hỗ trợ kỹ thuật lan truyền dữ liệu và kỹ thuật CDC, giúp cải thiện quy trình tích hợp dữ liệu Ngoài ra, EDR còn được áp dụng trong các hoạt động sao lưu, phục hồi và cân bằng tải, làm cho nó trở thành một công nghệ thiết yếu trong lĩnh vực này Do đó, EDR thường được tích hợp vào các gói sản phẩm đi kèm với hệ quản trị cơ sở dữ liệu.
Các công cụ EDR thường sử dụng trigger trong cơ sở dữ liệu hoặc recovery logs để ghi nhận thay đổi trên cơ sở dữ liệu nguồn và lan truyền dữ liệu đến các cơ sở dữ liệu đích Việc sử dụng recovery logs giúp giảm thiểu ảnh hưởng đến cơ sở dữ liệu nguồn Hầu hết các công cụ EDR áp dụng cơ chế lan truyền dữ liệu không đồng bộ và một số còn cho phép chuyển đổi dữ liệu trước khi đưa vào cơ sở dữ liệu nguồn.
Nhận xét đánh giá
Bức tranh tổng thể về các kỹ thuật và công nghệ trong tích hợp dữ liệu được thể hiện rõ qua hình ảnh sau đây.
Hình 2.9: Các kỹ thuật và công nghệ tích hợp dữ liệu
2.3.2 So sánh sự khác biệt
Sự khác biệt của các công nghệ có thể được thể hiện thông qua bản so sánh dưới đây
Tiêu chí ETL EII EAI EDR
Luồng dữ liệu Một chiều từ đích đến nguồn Hỗ trợ hai chiều Hỗ trợ hai chiều Hỗ trợ hai chiều
Chế độ thực hiện Thực hiện theo lịch Bất kỳ thời gian nào, tùy thuộc vào yêu cầu của ứng dụng.
Thực hiện theo sự kiện phát sinh.
Theo lịch hoặc theo sự kiện. Độ trễ Theo ngày, theo tháng Thời gian thực Gần thời gian thực Gần thời gian thực
Chuyển đổi dữ liệu, tái cấu trúc, làm sạch.
Phù hợp nhất cho chuyển đổi dữ liệu, cấu trúc lại dữ liệu.
Khả năng chuyển đổi ở mức độ trung bình Việc chuyển đôi chỉ trong các view nên có giới hạn
Khả năng chuyển đổi, tái cấu trúc dữ liệu kém.
Khả năng chuyển đổi, tái cấu trúc dữ liệu ở mức độ trung bình.
Vận chuyển Đa dạng qua: HTTP,FTP,SOAP, các kết nối trực tiếp đến nguồn dữ liệu.
Kết nối trực tiếp đến nguồn dữ liệu
Qua các chuẩn thông điệp Kết nối trực tiếp đến nguồn dữ liệu Khả năng xử lý dữ liệu
Khả năng xử lý dữ liệu lớn Xử lý dữ liệu kích cỡ dữ liệu trung bình (vài triệu bản ghi)
Xử lý dữ liệu kích thước nhỏ
Có khả năng xử lý xong xong.
Khả năng xử lý dữ liệu lớn. Độ phức tạp chuyển đổi dữ liệu
Không giới hạn Dữ liệu chuyển đổi thông qua
Các quy tắc chuyển đổi đơn giản Dữ liệu chuyển đổi thông qua
Hỗ trợ giám sát sự kiện
Giới hạn với độ trễ cao Giới hạn phụ thuộc vào các trigger của dữ liệu nguồn.
Hỗ trợ tốt Hỗ trợ tốt.
2.3.3 Kết hợp các công nghệ
Các công nghệ này có thể được kết hợp để giải quyết một số bài toán tích hợp cụ thể, nhằm tận dụng những tính năng ưu việt của từng công nghệ.
Mô hình tổ chức dưới đây là một ví dụ :
Hình 2.10: Mô hình kết hợp nhiều công nghệ.