TỔNG QUAN VỀ KHO DỮ LIỆU
Giới thiệu về kho dữ liệu
Theo Wikipedia, kho dữ liệu là cơ sở dữ liệu dùng để quản lý, tạo báo cáo tổng hợp và phân tích dữ liệu Nó tập trung dữ liệu từ nhiều nguồn khác nhau, hỗ trợ truy vấn phức tạp nhằm cung cấp thông tin phân tích đầy đủ KDL được định nghĩa là một tập hợp dữ liệu hướng chủ đề và đảm bảo tính toàn vẹn.
Kho dữ liệu (Data Warehouse) cho phép người dùng quản lý và đưa ra quyết định phân tích thông qua hệ thống OLAP, giúp tạo báo cáo, Dashboard, khai thác dữ liệu (data mining) và phân tích thống kê (BI) một cách nhanh chóng và dễ dàng Với khả năng lưu trữ khối lượng lớn dữ liệu, KDL hỗ trợ người dùng tối ưu hóa quá trình ra quyết định dựa trên thông tin chính xác và kịp thời.
GB (TB) của KDL được phát triển để tối ưu hóa quản lý và thuận tiện cho việc truy cập từ nhiều nguồn và kiểu dữ liệu khác nhau Hệ thống này kết hợp ứng dụng hiện đại với công nghệ từ các hệ thống đã có, nhằm nâng cao hiệu quả và khả năng tương tác.
Một kho dữ liệu thường có các đặc tính sau:
Kho dữ liệu tập trung vào việc phân tích các yêu cầu quản lý ở các cấp độ khác nhau trong quy trình ra quyết định Những yêu cầu này thường rõ ràng và xoay quanh các hoạt động kinh doanh của tổ chức.
Tính toàn vẹn dữ liệu là yếu tố quan trọng trong việc tích hợp thông tin từ nhiều nguồn khác nhau Điều này bao gồm việc khắc phục các sai sót liên quan đến trường dữ liệu, đảm bảo ý nghĩa chính xác của các bản ghi và tuân thủ các định dạng chuẩn.
Tính bất biến của dữ liệu đảm bảo sự thống nhất theo thời gian, giúp hạn chế việc thêm, sửa, hoặc xóa dữ liệu Điều này dẫn đến việc quy mô dữ liệu sẽ tăng đáng kể so với các hệ thống nghiệp vụ truyền thống.
Giá trị lịch sử đóng vai trò quan trọng trong việc thu thập các thông tin khác nhau từ nhiều nguồn và thời điểm khác nhau Ví dụ, mặc dù thông tin như email và số điện thoại có thể thay đổi, nhưng điều này không làm ảnh hưởng đến giá trị của báo cáo Việc phân tích dữ liệu xảy ra trước khi có sự thay đổi giúp đảm bảo tính chính xác và đáng tin cậy của thông tin.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
1.1.3.1 Dữ liệu nghiệp vụ (Business data)
Dữ liệu nghiệp vụ là yếu tố quan trọng cho việc quản lý và vận hành hiệu quả của một tổ chức doanh nghiệp lớn Nó phản ánh tình hình hoạt động của tổ chức và các đối tượng cụ thể như khách hàng và sản phẩm Dữ liệu này được hình thành nhằm phục vụ cho hệ thống xử lý thông tin, hỗ trợ quyết định và thúc đẩy kinh doanh thông minh.
Siêu dữ liệu, hay metadata, là thông tin mô tả trong kho dữ liệu (DWH) giúp các nhà quản lý giải đáp các câu hỏi liên quan đến thời gian, đối tượng, phương thức và nội dung của dữ liệu Nó đóng vai trò quan trọng trong việc duy trì, quản lý và sử dụng DWH, đồng thời là công cụ thiết yếu trong kho dữ liệu.
+ Siêu dữ liệu nghiệp vụ (Business Metadata)
+ Siêu dữ liệu kĩ thuật (Technical Metadata)
+ Siêu dữ liệu tác nghiệp (Operational Metadata)
Một KDL thường mang cho tổ chức lợi ích sau:
+ Giúp quản trị công việc tốt cho tổ chức doanh nghiệp
+ Giúp quản trị thông tin khách hàng chuyên nghiệp
+ Tạo ra những quyết định có ảnh hưởng lớn
+ Tái tạo lại mô hình, tiến trình kinh doanh
+ Tái tại lại mô hình hệ thống thông tin
+ Giúp công việc kinh doanh trở nên dễ dàng nhờ cung cấp thông tin kịp thời chính xác.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
1.1.5 Hướng phát triển tương lai
Hiện nay, kho dữ liệu (KDL) mang lại nhiều lợi ích cho người dùng, giúp tổng hợp thông tin và truy cập nhanh chóng KDL có khả năng trả lời các câu hỏi phức tạp liên quan đến việc thu thập dữ liệu từ nhiều nguồn khác nhau Để đáp ứng sự phát triển của khoa học và thời gian, một KDL cần phải sở hữu những đặc điểm nhất định.
+ Quản trị doanh nghiệp thống minh
+ Tích hợp dữ liệu khách hàng
+ Dữ liệu không có cấu trúc
+ Kho dữ liệu thời gian thực
+ Tìm kiếm, truy xuất dữ liệu dễ dàng
+ Kiến trúc hướng dịch vụ
Thiết kế kho dữ liệu
Để thiết kế được KDL, trước hết cần tìm hiểu mô hình kiến trúc tổng thể nói chung và một KDL nói riêng.
1.2.1 Mô hình kiến trúc tổng thể
Kiến trúc tổng thể của kho dữ liệu bao gồm các thành phần chính như: Dữ liệu nguồn (Data Source), xử lý dữ liệu trung gian, kho dữ liệu, tầng Data Mart và hỗ trợ ra quyết định Những thành phần này phối hợp chặt chẽ để đảm bảo việc thu thập, xử lý và phân tích dữ liệu hiệu quả, từ đó cung cấp thông tin chính xác cho quá trình ra quyết định.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hình 1 1: Mô hình tổng thể DWH
The source system comprises inherited data from legacy information systems, operational data from transaction processing systems, and external data sources such as OLTP databases, enterprise applications, traditional third-party systems, and web applications.
Tầng staging là khu vực lưu trữ tạm thời cho dữ liệu được trích xuất từ hệ thống nguồn Tại đây, dữ liệu sẽ được làm sạch và xử lý trước khi được tải lên các bảng trong tầng Data Warehouse.
Data Mart là một phần của hệ thống quản lý dữ liệu, nơi dữ liệu được tổ chức theo từng nghiệp vụ cụ thể và điều chỉnh để phục vụ cho từng nhóm người dùng khác nhau Dữ liệu từ Data Warehouse (DWH) được chuyển đổi thành các mô hình hình sao hoặc bông tuyết, bao gồm các bảng Fact và Dimension Mỗi Data Mart được thiết kế với mức chi tiết phù hợp để đáp ứng nhu cầu thiết yếu của người sử dụng.
Dimension (DIM) là bảng chứa thông tin chiều, mô tả dữ liệu cho từng nghiệp vụ cần lưu trữ Sự phân cấp trong các thuộc tính của bảng DIM đóng vai trò quan trọng nhất trong việc tổ chức và quản lý dữ liệu.
* Bảng Fact: là bảng sự kiện, chứa các khoá ngoại kết nối với các bảng Dimension ngoài
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
1.2.2 Các giai đoạn thiết kế kho dữ liệu Để xây dựng được một KDL cho tổ chức, thông thường thực hiện các bước sau
B1: Phân tích và thiết kế KDL:
+ Xây dựng các nhu cầu nghiệp vụ cần tổng hợp, phân tích, báo cáo, dự đoán.
+ Xây dựng các bảng dimension.
+ Xây dựng các bảng fact.
B2: Xây dựng ETL (Extract, Tranform, Load):
Để thu thập dữ liệu từ các hệ thống khác, cần xác định nguồn dữ liệu và yêu cầu dữ liệu cần thiết cho quá trình Data Warehouse (DW) Tiếp theo, thiết lập các quy tắc để trích xuất dữ liệu và thực hiện quá trình trích xuất một cách hiệu quả.
Chuẩn hóa dữ liệu từ định dạng nguồn để phù hợp với kho dữ liệu DWH bao gồm các bước như chỉnh sửa định dạng, giải mã các nguồn dữ liệu, chuyển đổi ký tự, điều chỉnh thời gian, và loại bỏ các bản ghi trùng lặp hoặc sai lệch.
Đưa dữ liệu đã chuẩn hóa vào kho dữ liệu (DWH) là bước quan trọng, bao gồm việc chuyển giao các dữ liệu đã được xử lý cùng với các bản cập nhật từ các hệ thống nghiệp vụ lên tầng DWH, nhằm đảm bảo rằng dữ liệu luôn được cập nhật kịp thời.
B3: Tổ chức dữ liệu trong DWH phục vụ cho phân tích, khai thác dữ liệu:
+ Xây dựng OLAP CUBE (Khối dữ liệu đa chiều)
B4: Báo cáo, phân tích, khai thác dữ liệu:
+ Báo cáo động, Dashboard: Nội dung thay đổi liên tục theo dữ liệu thay đổi theo khoảng thời gian quy định (Sử dụng các công cụ BI).
+ Báo cáo tĩnh: Báo cáo dựa vào các câu lệnh truy vấn truyền thống.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
OLAP (Xử lý Phân tích Trực tuyến) cho phép tạo ra các khối dữ liệu đa chiều và trực quan, giúp người dùng có cái nhìn mới về dữ liệu Công nghệ này cung cấp khả năng truy xuất nhanh chóng đến các thông tin cần thiết, nâng cao hiệu quả phân tích và ra quyết định.
DW do dữ liệu đã được tính toán và sắp xếp trước).
Data Mining là quá trình phân tích dữ liệu nhằm phát hiện quy luật và quy tắc, hỗ trợ đưa ra quyết định kinh doanh hiệu quả Khác với việc sử dụng câu truy vấn thông thường, Data Mining áp dụng các thuật toán đặc biệt, bao gồm mô hình thống kê và toán học, để khai thác thông tin từ dữ liệu.
Nguồn dữ liệu gốc của DWH được thu thập từ nhiều nguồn khác nhau các nguồn có thể là:
+ Dữ liệu từ các hệ thống tác nghiệp.
+ Từ nguồn dữ liệu bên ngoài (OLTP Database,Enterprise applications, Tranditional third-party data, webapp ).
1.2.4 Mô hình kho dữ liệu
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 3 thành phần chính:
+ Các bảng sự kiện (FACT ).
+ Các bảng Dimenson sẽ mô tả các chiều dữ liệu.
+ Các đường kết nối bảng FACT và bảng DIM
Các bước thiết kế một lược đồ hình sao:
+ Xác định rõ nghiệp vụ để phần tích
+ Định nghĩa bảng sự kiện
+ Xây dựng các chiều cho bảng sự kiện (VD: chiều địa bàn, chiều hàng hoá, chiều thời gian, chiều vận tải )
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
+ Xây dựng các cột cho mỗi bảng chiều (Tên vùng, tên kho, tên chi nhánh, tên người thực hiện )
+ Xác định mức tổng hợp từ thấp đến cao cho bảng sự kiện
Hình 1 2: Mô hình hình sao
Mô hình bông tuyết, phát triển từ sơ đồ hình sao, bao gồm nhiều bảng dimension với một số chiều được phân cấp để chuẩn hóa bảng chiều Mô hình này cải thiện khả năng truy xuất và bảo trì nhờ vào việc liên kết các bảng nhỏ hơn Tuy nhiên, sự gia tăng số lượng bảng có thể làm cho việc truy xuất trở nên phức tạp hơn do cần phải kết nối với quá nhiều bảng.
Lược đồ bông tuyết có 4 thành phần chính
+ Bảng sự kiện: Thuộc tính và các khoá ngoại để liên kết với các bảng chiều
+ Bảng chiều: Thuộc tính tham chiếu, và các bảng đã chuẩn hoá
+ Đường liên kết các bảng chiều
+ Đường liên kết bảng chiều với bảng sự kiện
Thuộc tính mô tả Thuộc tính phân cấp Thuộc tính do lường
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Bảng chiều(DIM) Thuộc tính mô tả Thuộc tính phân cấp Thuộc tính do lường
Hình 1 3: Mô hình hình bông tuyết
Mô hình dữ liệu hợp nhất từ lược đồ hình sao và sơ đồ bông tuyết, trong đó một số công cụ truy vấn và OT cơ sở dữ liệu, đặc biệt là các công cụ xử lý phân tích trực tuyến, yêu cầu lược đồ hình sao Đây là một mô hình quan hệ được thiết kế để hỗ trợ dữ liệu đa chiều, điều này là cốt lõi trong OLAP.
1.2.4.3 Mô hình dữ liệu đa chiều
Bản chất đa chiều của các câu hỏi trong nghiệp vụ thể hiện rõ qua nhu cầu của những người quản lý thị trường, họ không chỉ dừng lại ở những câu hỏi đơn giản mà còn tìm kiếm những câu hỏi phức tạp hơn Để hình dung một mô hình dữ liệu đa chiều, ta có thể liên tưởng đến khối rubic với nhiều chiều khác nhau thay vì chỉ 4 chiều.
Người dùng Cán bộ quản lý, phân tích
Truy vấn bất ngờ, không xác định trước
Có kế hoạch trước, lặp đi lặp lại
Cấu trúc dữ liệu Thích hợp cho các truy vấn phức tạp trên lượng dữ liệu lớn
Thích hợp cho các giao dịch nhỏ
Cấu dữ liệu Theo yêu cầu phân tích Theo các yêu cầu nghiệp vụ
Dữ liệu Lịch sử, ở mức tổng hợp
Thời điểm hiện tại, ở mức chi tiết
Loại truy cập Đọc, ghi Đọc, ghi, sửa, xoá
Dài (phút hoặc giờ) Ngắn
Tần suất từ thấp đến trung bình
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Cơ sở dữ liệu (database) là hệ thống lưu trữ thông tin được tổ chức theo cấu trúc cột, hàng và bảng, với việc lập chỉ mục định kỳ nhằm tăng cường khả năng truy cập và tìm kiếm thông tin liên quan một cách dễ dàng hơn.
Data Warehouse là hệ thống tập hợp dữ liệu từ nhiều nguồn khác nhau, phục vụ cho mục đích báo cáo và phân tích Các báo cáo này được tạo ra từ những truy vấn phức tạp trong kho dữ liệu, giúp hỗ trợ việc lập kế hoạch kinh doanh hiệu quả.
Do đó Database và Data Warehouse chỉ khác nhau về mặt khái niệm, một Database
Mức độ xử lý đồng thời
Thấp Cao, các thao tác xử lý đồng thời trên một bản ghi nhất định xảy ra thường xuyên
Mô hình dữ liệu Mô hình dữ liệu đa chiều Mô hình quan hệ thực thể
Không cập nhật Thường xuyên
Dư thừa data Cao (Dữ liệu thường không chuẩn)
Thấp (Đã qua chuẩn hoá)
Khoá Không cần thiết Cần thiết
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành Hải quan Việt Nam
Bảng 1: So sánh Database với Data Warehouse
1.4 So sánh Data Warehouse và Data Mart
So sánh Data Warehouse và Data Mart
DWH (Data Warehouse) là một tổ chức trung tâm chuyên lưu trữ và xử lý thông tin từ nhiều lĩnh vực, tập hợp dữ liệu từ nhiều nguồn khác nhau DWH bao gồm nhiều Data Mart, vốn được chia nhỏ và ít phức tạp hơn so với DWH, giúp dễ dàng hơn trong việc thiết kế và bảo trì Bảng so sánh dưới đây sẽ làm rõ sự khác biệt giữa Data Warehouse và Data Mart.
Tính chất Data Mart Data Warehouse
Tuỳ theo từng nghiệp vụ Toàn thể tổ chức
Kích cỡ 100GB -> TB
Nguồn dữ liệu Một vài nguồn Nhiều nguồn
Lĩnh vực Một loại cụ thể Tổng hợp nhiều loại
Hàng tuần/ hàng tháng Hàng tháng đến hàng năm
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành Hải quan Việt Nam
Bảng 2: So sánh Data Warehouse với Data Mart
Kết luận chương
Chương 1 đã trình bày các khái niệm liên quan đến kho dữ liệu và các bước cần thiết để xây dựng kho dữ liệu Tác giả cũng đã so sánh kho dữ liệu với cơ sở dữ liệu để làm nổi bật lợi ích thực tế của kho dữ liệu Nội dung tiếp theo sẽ tập trung vào việc xây dựng kho dữ liệu nhằm hỗ trợ lập báo cáo cho ngành Hải quan, với các chi tiết cụ thể sẽ được giới thiệu trong các chương sau.
CƠ QUAN TỒNG CỤC HẢI QUAN Các tổ chức sự nghiệp
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ CHO VIỆC LẬP BÁO CÁO NGÀNH HẢI QUAN
Trong chương cuối của khoá luận, chúng tôi trình bày thực nghiệm lý thuyết từ chương 1 và chương 2, áp dụng vào việc xây dựng kho dữ liệu nhằm hỗ trợ cán bộ Hải quan trong quá trình thực thi nghiệp vụ.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
CHƯƠNG I: TỔNG QUAN VỀ KHO DỮ LIỆU
1.1 Giới thiệu về kho dữ liệu
Kho dữ liệu là cơ sở dữ liệu thiết yếu cho việc quản lý, tạo báo cáo và phân tích thông tin Nó tập trung dữ liệu từ nhiều nguồn khác nhau, cho phép thực hiện các truy vấn phức tạp nhằm cung cấp thông tin phân tích đầy đủ và chính xác KDL được tổ chức theo hướng chủ đề và đảm bảo tính toàn vẹn của dữ liệu.
Kho dữ liệu (Data Warehouse) giúp người dùng quản lý và phân tích dữ liệu hiệu quả thông qua hệ thống xử lý thông tin phân tích trực tuyến (OLAP) Nó hỗ trợ việc tạo báo cáo, dashboard, khai thác dữ liệu (data mining) và phân tích thống kê (BI) một cách nhanh chóng và dễ dàng, với khả năng lưu trữ hàng nghìn dữ liệu.
KDL được xây dựng nhằm mục đích quản lý hiệu quả và thuận tiện cho việc truy cập đa chiều, từ nhiều nguồn và kiểu dữ liệu khác nhau Hệ thống này kết hợp ứng dụng hiện đại với công nghệ từ các hệ thống có sẵn, tạo ra một nền tảng linh hoạt và tối ưu cho người dùng.
Một kho dữ liệu thường có các đặc tính sau:
Kho dữ liệu chủ yếu phục vụ cho việc phân tích các yêu cầu quản lý trong quy trình ra quyết định ở nhiều cấp độ Các yêu cầu phân tích thường rõ ràng và tập trung vào các khía cạnh kinh doanh của tổ chức.
Tính toàn vẹn của dữ liệu là yếu tố quan trọng trong việc tích hợp thông tin từ nhiều nguồn khác nhau Điều này bao gồm việc xử lý các sai sót trong trường dữ liệu, đảm bảo ý nghĩa chính xác của bản ghi và tuân thủ các định dạng chuẩn.
Tính bất biến trong hệ thống dữ liệu giúp duy trì sự thống nhất theo thời gian, đồng thời hạn chế việc thêm, sửa, hoặc xóa dữ liệu Điều này dẫn đến sự gia tăng đáng kể về quy mô dữ liệu so với các hệ thống nghiệp vụ truyền thống.
Giá trị lịch sử là việc thu thập các thông tin đa dạng từ nguồn dữ liệu và thời điểm khác nhau Ví dụ, mặc dù thông tin như email và số điện thoại có thể thay đổi, nhưng điều này không ảnh hưởng đến giá trị của báo cáo Phân tích dữ liệu thường diễn ra trước khi có sự thay đổi này.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
1.1.3.1 Dữ liệu nghiệp vụ (Business data)
Dữ liệu nghiệp vụ là loại dữ liệu thiết yếu cho việc quản lý và vận hành hiệu quả của các tổ chức doanh nghiệp lớn Nó phản ánh tình hình hoạt động của tổ chức và các đối tượng cụ thể như khách hàng và sản phẩm Dữ liệu này được hình thành nhằm phục vụ cho hệ thống xử lý thông tin, hỗ trợ quyết định và thúc đẩy kinh doanh thông minh.
Siêu dữ liệu là thông tin mô tả trong kho dữ liệu (DWH), giúp các nhà quản lý giải đáp các câu hỏi như thời điểm, đối tượng, phương thức và nội dung liên quan đến dữ liệu Việc sử dụng siêu dữ liệu rất quan trọng trong việc duy trì, quản lý và khai thác DWH, đồng thời đóng vai trò là công cụ thiết yếu trong kho dữ liệu.
+ Siêu dữ liệu nghiệp vụ (Business Metadata)
+ Siêu dữ liệu kĩ thuật (Technical Metadata)
+ Siêu dữ liệu tác nghiệp (Operational Metadata)
Một KDL thường mang cho tổ chức lợi ích sau:
+ Giúp quản trị công việc tốt cho tổ chức doanh nghiệp
+ Giúp quản trị thông tin khách hàng chuyên nghiệp
+ Tạo ra những quyết định có ảnh hưởng lớn
+ Tái tạo lại mô hình, tiến trình kinh doanh
+ Tái tại lại mô hình hệ thống thông tin
+ Giúp công việc kinh doanh trở nên dễ dàng nhờ cung cấp thông tin kịp thời chính xác.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
1.1.5 Hướng phát triển tương lai
Kho dữ liệu hiện nay mang lại nhiều lợi ích và tiện ích cho người dùng, giúp tổng hợp thông tin và truy cập nhanh chóng Nó hỗ trợ người sử dụng trả lời các câu hỏi phức tạp liên quan đến việc thu thập dữ liệu từ nhiều nguồn khác nhau Để đáp ứng sự phát triển của khoa học và thời gian, một kho dữ liệu cần phải có những đặc điểm nhất định.
+ Quản trị doanh nghiệp thống minh
+ Tích hợp dữ liệu khách hàng
+ Dữ liệu không có cấu trúc
+ Kho dữ liệu thời gian thực
+ Tìm kiếm, truy xuất dữ liệu dễ dàng
+ Kiến trúc hướng dịch vụ
1.2 Thiết kế kho dữ liệu Để thiết kế được KDL, trước hết cần tìm hiểu mô hình kiến trúc tổng thể nói chung và một KDL nói riêng.
1.2.1 Mô hình kiến trúc tổng thể
Kiến trúc tổng thể của kho dữ liệu bao gồm các thành phần chính như Dữ liệu nguồn, xử lý dữ liệu trung gian, kho dữ liệu, tầng Data Mart và hỗ trợ ra quyết định Các thành phần này kết hợp chặt chẽ với nhau để đảm bảo quá trình thu thập, xử lý và phân tích dữ liệu diễn ra hiệu quả, từ đó cung cấp thông tin hỗ trợ cho việc ra quyết định.
Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hình 1 1: Mô hình tổng thể DWH
The source system comprises inherited data from legacy information systems, operational data from transaction processing systems, and external data sources, including OLTP databases, enterprise applications, traditional third-party systems, and web applications.
Tầng staging là khu vực lưu trữ tạm thời cho dữ liệu được trích xuất từ hệ thống nguồn Tại đây, dữ liệu sẽ được làm sạch và xử lý trước khi được chuyển lên tầng Data Warehouse.
Data Mart là một phần quan trọng trong hệ thống quản lý dữ liệu, nơi dữ liệu được tổ chức theo từng nghiệp vụ cụ thể và được điều chỉnh để phục vụ nhu cầu của từng nhóm người dùng Từ kho dữ liệu tổng hợp (DWH), dữ liệu được chuyển đổi thành các mô hình hình sao hoặc bông tuyết, bao gồm các bảng Fact và Dimension Mỗi Data Mart được thiết kế với mức độ chi tiết phù hợp để đáp ứng những yêu cầu thiết yếu của người dùng.