1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp

85 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan Việt Nam
Tác giả Nguyễn Quang Long
Người hướng dẫn TS. Chu Hồng Hải
Trường học Học viện Ngân hàng
Chuyên ngành Hệ thống thông tin quản lý
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 85
Dung lượng 2,67 MB

Cấu trúc

  • Lời cảm ơn

  • LỜI CAM KẾT

    • Mục lục

      • Danh mục bảng biểu

    • Danh mục hình vẽ

    • Lời mở đầu

    • Kết cấu của đề tài

      • Chươg 2: Các nghiệp vụ và nhu cầu cần xây dựng kho dữ liệu phục vụ cho việc lập báo ngành hải quan

      • Chương 3: Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành hải quan

    • CHƯƠNG I: TỔNG QUAN VỀ KHO DỮ LIỆU

      • 1.1. Giới thiệu về kho dữ liệu

      • 1.1.1. Định nghĩa

      • 1.1.2. Các đặc tính

      • 1.1.3. Các loại dữ liệu

      • 1.1.3.1. Dữ liệu nghiệp vụ (Business data)

      • 1.1.3.2. Siêu dữ liệu (Metadata)

      • 1.1.4. Lợi ích mang lại

      • 1.1.5. Hướng phát triển tương lai

      • 1.2. Thiết kế kho dữ liệu

      • 1.2.1. Mô hình kiến trúc tổng thể

      • 1.2.2. Các giai đoạn thiết kế kho dữ liệu

      • 1.2.3. Nguồn gốc dữ liệu

      • 1.2.4. Mô hình kho dữ liệu

      • 1.2.4.1. Mô hình hình sao

      • 1.2.4.2. Mô hình bông tuyết

      • 1.2.4.3. Mô hình kết hợp

      • 1.2.4.3. Mô hình dữ liệu đa chiều

      • 1.4. So sánh Data Warehouse và Data Mart

      • 1.5. Kết luận chương

    • CHƯƠNG 2: CÁC NGHIỆP VỤ VÀ NHU CẦU CẦN XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ CHO VIỆC LẬP BÁO NGÀNH HẢI QUAN

      • 2.1. Cơ cấu tổ chức và các hệ thống nghiệp vụ ngành Hải quan

      • 2.1.1. Giới thiệu tổ chức

      • 2.1.2. Các nghiệp vụ

      • 2.1.2.1. Hệ thống thông tin thu thập và xử lý nghiệp vụ (CI02)

      • 2.1.2.5. Hệ thống giá tính thuế (GTT02)

      • 2.2. Khảo sát nhu cầu xây dựng kho dữ liệu phục vụ cho việc lập báo cáo

      • 2.2.1. Lập danh sách đối tượng cần hỏi

      • 2.3. Quá trình lập báo cáo của ngành Hải quan hiện nay

      • 2.3.1. Quy trình

      • 2.3.2. Các loại báo cáo

      • 2.3.2.1. Báo cáo chi tiết

      • 2.3.2.2. Báo cáo tổng hợp

      • 2.3.2.3. Báo cáo phân tích biến động

      • 2.4. Phân tích thực trạng

      • 2.4.1. Hiện trạng các hệ thống

      • 2.4.2. Hiện trạng công tác lập báo cáo

      • 2.5. Kết luận chương

    • CHƯƠNG 3: XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ CHO VIỆC LẬP BÁO CÁO NGÀNH HẢI QUAN

      • 3.1. Mô tả bài toán

      • 3.2.1.2. SAP Crystal report

      • 3.2.2.2. Mô hình dữ liệu

      • 3.2.3. Triển khai xây dựng kho dữ liệu

      • 3.2.3.1) Xây dựng tầng Staging

      • 3.2.3.2. Xây dựng tầng Data Warehouse

      • 3.2.3.3. Tầng Data Mart

      • 3.3.4. Kêt xuât dữ liệu lập báo cáo

      • 3.4. Kết luận chương

      • Kết luận đề tài

    • Tài liệu tham khảo

    • Phụ lục

      • c) Thiết kế dữ liệu vật lý

      • * Bảng QL kho

      • * Bảng QL mã HS

      • * Bảng QL hàng hoá

      • * Bảng QL container

      • * Bảng QL kho chi tiết

      • * Bảng kết nối kho với hàng

      • * Bảng QL xuất nhập khẩu

      • * Bảng chi tiết xuất nhập khẩu

      • Một số biểu mẫu báo cáo của ngành Hải quan

Nội dung

TỔNG QUAN VỀ KHO DỮ LIỆU

Giới thiệu về kho dữ liệu

Theo Wikipedia, kho dữ liệu là cơ sở dữ liệu dùng để quản lý, tạo báo cáo tổng hợp và phân tích dữ liệu Nó tập trung dữ liệu từ nhiều nguồn khác nhau, hỗ trợ truy vấn phức tạp nhằm cung cấp thông tin phân tích đầy đủ KDL được định nghĩa là một tập hợp dữ liệu hướng chủ đề và đảm bảo tính toàn vẹn.

Kho dữ liệu (Data Warehouse) cho phép người dùng quản lý và đưa ra quyết định phân tích thông qua hệ thống OLAP, giúp tạo báo cáo, Dashboard, khai thác dữ liệu (data mining) và phân tích thống kê (BI) một cách nhanh chóng và dễ dàng Với khả năng lưu trữ khối lượng lớn dữ liệu, KDL hỗ trợ người dùng tối ưu hóa quá trình ra quyết định dựa trên thông tin chính xác và kịp thời.

GB (TB) của KDL được phát triển để tối ưu hóa quản lý và thuận tiện cho việc truy cập từ nhiều nguồn và kiểu dữ liệu khác nhau Hệ thống này kết hợp ứng dụng hiện đại với công nghệ từ các hệ thống đã có, nhằm nâng cao hiệu quả và khả năng tương tác.

Một kho dữ liệu thường có các đặc tính sau:

Kho dữ liệu tập trung vào việc phân tích các yêu cầu quản lý ở các cấp độ khác nhau trong quy trình ra quyết định Những yêu cầu này thường rõ ràng và xoay quanh các hoạt động kinh doanh của tổ chức.

Tính toàn vẹn dữ liệu là yếu tố quan trọng trong việc tích hợp thông tin từ nhiều nguồn khác nhau Điều này bao gồm việc khắc phục các sai sót liên quan đến trường dữ liệu, đảm bảo ý nghĩa chính xác của các bản ghi và tuân thủ các định dạng chuẩn.

Tính bất biến của dữ liệu đảm bảo sự thống nhất theo thời gian, giúp hạn chế việc thêm, sửa, hoặc xóa dữ liệu Điều này dẫn đến việc quy mô dữ liệu sẽ tăng đáng kể so với các hệ thống nghiệp vụ truyền thống.

Giá trị lịch sử đóng vai trò quan trọng trong việc thu thập các thông tin khác nhau từ nhiều nguồn và thời điểm khác nhau Ví dụ, mặc dù thông tin như email và số điện thoại có thể thay đổi, nhưng điều này không làm ảnh hưởng đến giá trị của báo cáo Việc phân tích dữ liệu xảy ra trước khi có sự thay đổi giúp đảm bảo tính chính xác và đáng tin cậy của thông tin.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

1.1.3.1 Dữ liệu nghiệp vụ (Business data)

Dữ liệu nghiệp vụ là yếu tố quan trọng cho việc quản lý và vận hành hiệu quả của một tổ chức doanh nghiệp lớn Nó phản ánh tình hình hoạt động của tổ chức và các đối tượng cụ thể như khách hàng và sản phẩm Dữ liệu này được hình thành nhằm phục vụ cho hệ thống xử lý thông tin, hỗ trợ quyết định và thúc đẩy kinh doanh thông minh.

Siêu dữ liệu, hay metadata, là thông tin mô tả trong kho dữ liệu (DWH) giúp các nhà quản lý giải đáp các câu hỏi liên quan đến thời gian, đối tượng, phương thức và nội dung của dữ liệu Nó đóng vai trò quan trọng trong việc duy trì, quản lý và sử dụng DWH, đồng thời là công cụ thiết yếu trong kho dữ liệu.

+ Siêu dữ liệu nghiệp vụ (Business Metadata)

+ Siêu dữ liệu kĩ thuật (Technical Metadata)

+ Siêu dữ liệu tác nghiệp (Operational Metadata)

Một KDL thường mang cho tổ chức lợi ích sau:

+ Giúp quản trị công việc tốt cho tổ chức doanh nghiệp

+ Giúp quản trị thông tin khách hàng chuyên nghiệp

+ Tạo ra những quyết định có ảnh hưởng lớn

+ Tái tạo lại mô hình, tiến trình kinh doanh

+ Tái tại lại mô hình hệ thống thông tin

+ Giúp công việc kinh doanh trở nên dễ dàng nhờ cung cấp thông tin kịp thời chính xác.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

1.1.5 Hướng phát triển tương lai

Hiện nay, kho dữ liệu (KDL) mang lại nhiều lợi ích cho người dùng, giúp tổng hợp thông tin và truy cập nhanh chóng KDL có khả năng trả lời các câu hỏi phức tạp liên quan đến việc thu thập dữ liệu từ nhiều nguồn khác nhau Để đáp ứng sự phát triển của khoa học và thời gian, một KDL cần phải sở hữu những đặc điểm nhất định.

+ Quản trị doanh nghiệp thống minh

+ Tích hợp dữ liệu khách hàng

+ Dữ liệu không có cấu trúc

+ Kho dữ liệu thời gian thực

+ Tìm kiếm, truy xuất dữ liệu dễ dàng

+ Kiến trúc hướng dịch vụ

Thiết kế kho dữ liệu

Để thiết kế được KDL, trước hết cần tìm hiểu mô hình kiến trúc tổng thể nói chung và một KDL nói riêng.

1.2.1 Mô hình kiến trúc tổng thể

Kiến trúc tổng thể của kho dữ liệu bao gồm các thành phần chính như: Dữ liệu nguồn (Data Source), xử lý dữ liệu trung gian, kho dữ liệu, tầng Data Mart và hỗ trợ ra quyết định Những thành phần này phối hợp chặt chẽ để đảm bảo việc thu thập, xử lý và phân tích dữ liệu hiệu quả, từ đó cung cấp thông tin chính xác cho quá trình ra quyết định.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

Hình 1 1: Mô hình tổng thể DWH

The source system comprises inherited data from legacy information systems, operational data from transaction processing systems, and external data sources such as OLTP databases, enterprise applications, traditional third-party systems, and web applications.

Tầng staging là khu vực lưu trữ tạm thời cho dữ liệu được trích xuất từ hệ thống nguồn Tại đây, dữ liệu sẽ được làm sạch và xử lý trước khi được tải lên các bảng trong tầng Data Warehouse.

Data Mart là một phần của hệ thống quản lý dữ liệu, nơi dữ liệu được tổ chức theo từng nghiệp vụ cụ thể và điều chỉnh để phục vụ cho từng nhóm người dùng khác nhau Dữ liệu từ Data Warehouse (DWH) được chuyển đổi thành các mô hình hình sao hoặc bông tuyết, bao gồm các bảng Fact và Dimension Mỗi Data Mart được thiết kế với mức chi tiết phù hợp để đáp ứng nhu cầu thiết yếu của người sử dụng.

Dimension (DIM) là bảng chứa thông tin chiều, mô tả dữ liệu cho từng nghiệp vụ cần lưu trữ Sự phân cấp trong các thuộc tính của bảng DIM đóng vai trò quan trọng nhất trong việc tổ chức và quản lý dữ liệu.

* Bảng Fact: là bảng sự kiện, chứa các khoá ngoại kết nối với các bảng Dimension ngoài

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

1.2.2 Các giai đoạn thiết kế kho dữ liệu Để xây dựng được một KDL cho tổ chức, thông thường thực hiện các bước sau

B1: Phân tích và thiết kế KDL:

+ Xây dựng các nhu cầu nghiệp vụ cần tổng hợp, phân tích, báo cáo, dự đoán.

+ Xây dựng các bảng dimension.

+ Xây dựng các bảng fact.

B2: Xây dựng ETL (Extract, Tranform, Load):

Để thu thập dữ liệu từ các hệ thống khác, cần xác định nguồn dữ liệu và yêu cầu dữ liệu cần thiết cho quá trình Data Warehouse (DW) Tiếp theo, thiết lập các quy tắc để trích xuất dữ liệu và thực hiện quá trình trích xuất một cách hiệu quả.

Chuẩn hóa dữ liệu từ định dạng nguồn để phù hợp với kho dữ liệu DWH bao gồm các bước như chỉnh sửa định dạng, giải mã các nguồn dữ liệu, chuyển đổi ký tự, điều chỉnh thời gian, và loại bỏ các bản ghi trùng lặp hoặc sai lệch.

Đưa dữ liệu đã chuẩn hóa vào kho dữ liệu (DWH) là bước quan trọng, bao gồm việc chuyển giao các dữ liệu đã được xử lý cùng với các bản cập nhật từ các hệ thống nghiệp vụ lên tầng DWH, nhằm đảm bảo rằng dữ liệu luôn được cập nhật kịp thời.

B3: Tổ chức dữ liệu trong DWH phục vụ cho phân tích, khai thác dữ liệu:

+ Xây dựng OLAP CUBE (Khối dữ liệu đa chiều)

B4: Báo cáo, phân tích, khai thác dữ liệu:

+ Báo cáo động, Dashboard: Nội dung thay đổi liên tục theo dữ liệu thay đổi theo khoảng thời gian quy định (Sử dụng các công cụ BI).

+ Báo cáo tĩnh: Báo cáo dựa vào các câu lệnh truy vấn truyền thống.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

OLAP (Xử lý Phân tích Trực tuyến) cho phép tạo ra các khối dữ liệu đa chiều và trực quan, giúp người dùng có cái nhìn mới về dữ liệu Công nghệ này cung cấp khả năng truy xuất nhanh chóng đến các thông tin cần thiết, nâng cao hiệu quả phân tích và ra quyết định.

DW do dữ liệu đã được tính toán và sắp xếp trước).

Data Mining là quá trình phân tích dữ liệu nhằm phát hiện quy luật và quy tắc, hỗ trợ đưa ra quyết định kinh doanh hiệu quả Khác với việc sử dụng câu truy vấn thông thường, Data Mining áp dụng các thuật toán đặc biệt, bao gồm mô hình thống kê và toán học, để khai thác thông tin từ dữ liệu.

Nguồn dữ liệu gốc của DWH được thu thập từ nhiều nguồn khác nhau các nguồn có thể là:

+ Dữ liệu từ các hệ thống tác nghiệp.

+ Từ nguồn dữ liệu bên ngoài (OLTP Database,Enterprise applications, Tranditional third-party data, webapp ).

1.2.4 Mô hình kho dữ liệu

Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 3 thành phần chính:

+ Các bảng sự kiện (FACT ).

+ Các bảng Dimenson sẽ mô tả các chiều dữ liệu.

+ Các đường kết nối bảng FACT và bảng DIM

Các bước thiết kế một lược đồ hình sao:

+ Xác định rõ nghiệp vụ để phần tích

+ Định nghĩa bảng sự kiện

+ Xây dựng các chiều cho bảng sự kiện (VD: chiều địa bàn, chiều hàng hoá, chiều thời gian, chiều vận tải )

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

+ Xây dựng các cột cho mỗi bảng chiều (Tên vùng, tên kho, tên chi nhánh, tên người thực hiện )

+ Xác định mức tổng hợp từ thấp đến cao cho bảng sự kiện

Hình 1 2: Mô hình hình sao

Mô hình bông tuyết, phát triển từ sơ đồ hình sao, bao gồm nhiều bảng dimension với một số chiều được phân cấp để chuẩn hóa bảng chiều Mô hình này cải thiện khả năng truy xuất và bảo trì nhờ vào việc liên kết các bảng nhỏ hơn Tuy nhiên, sự gia tăng số lượng bảng có thể làm cho việc truy xuất trở nên phức tạp hơn do cần phải kết nối với quá nhiều bảng.

Lược đồ bông tuyết có 4 thành phần chính

+ Bảng sự kiện: Thuộc tính và các khoá ngoại để liên kết với các bảng chiều

+ Bảng chiều: Thuộc tính tham chiếu, và các bảng đã chuẩn hoá

+ Đường liên kết các bảng chiều

+ Đường liên kết bảng chiều với bảng sự kiện

Thuộc tính mô tả Thuộc tính phân cấp Thuộc tính do lường

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

Bảng chiều(DIM) Thuộc tính mô tả Thuộc tính phân cấp Thuộc tính do lường

Hình 1 3: Mô hình hình bông tuyết

Mô hình dữ liệu hợp nhất từ lược đồ hình sao và sơ đồ bông tuyết, trong đó một số công cụ truy vấn và OT cơ sở dữ liệu, đặc biệt là các công cụ xử lý phân tích trực tuyến, yêu cầu lược đồ hình sao Đây là một mô hình quan hệ được thiết kế để hỗ trợ dữ liệu đa chiều, điều này là cốt lõi trong OLAP.

1.2.4.3 Mô hình dữ liệu đa chiều

Bản chất đa chiều của các câu hỏi trong nghiệp vụ thể hiện rõ qua nhu cầu của những người quản lý thị trường, họ không chỉ dừng lại ở những câu hỏi đơn giản mà còn tìm kiếm những câu hỏi phức tạp hơn Để hình dung một mô hình dữ liệu đa chiều, ta có thể liên tưởng đến khối rubic với nhiều chiều khác nhau thay vì chỉ 4 chiều.

Người dùng Cán bộ quản lý, phân tích

Truy vấn bất ngờ, không xác định trước

Có kế hoạch trước, lặp đi lặp lại

Cấu trúc dữ liệu Thích hợp cho các truy vấn phức tạp trên lượng dữ liệu lớn

Thích hợp cho các giao dịch nhỏ

Cấu dữ liệu Theo yêu cầu phân tích Theo các yêu cầu nghiệp vụ

Dữ liệu Lịch sử, ở mức tổng hợp

Thời điểm hiện tại, ở mức chi tiết

Loại truy cập Đọc, ghi Đọc, ghi, sửa, xoá

Dài (phút hoặc giờ) Ngắn

Tần suất từ thấp đến trung bình

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

Cơ sở dữ liệu (database) là hệ thống lưu trữ thông tin được tổ chức theo cấu trúc cột, hàng và bảng, với việc lập chỉ mục định kỳ nhằm tăng cường khả năng truy cập và tìm kiếm thông tin liên quan một cách dễ dàng hơn.

Data Warehouse là hệ thống tập hợp dữ liệu từ nhiều nguồn khác nhau, phục vụ cho mục đích báo cáo và phân tích Các báo cáo này được tạo ra từ những truy vấn phức tạp trong kho dữ liệu, giúp hỗ trợ việc lập kế hoạch kinh doanh hiệu quả.

Do đó Database và Data Warehouse chỉ khác nhau về mặt khái niệm, một Database

Mức độ xử lý đồng thời

Thấp Cao, các thao tác xử lý đồng thời trên một bản ghi nhất định xảy ra thường xuyên

Mô hình dữ liệu Mô hình dữ liệu đa chiều Mô hình quan hệ thực thể

Không cập nhật Thường xuyên

Dư thừa data Cao (Dữ liệu thường không chuẩn)

Thấp (Đã qua chuẩn hoá)

Khoá Không cần thiết Cần thiết

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành Hải quan Việt Nam

Bảng 1: So sánh Database với Data Warehouse

1.4 So sánh Data Warehouse và Data Mart

So sánh Data Warehouse và Data Mart

DWH (Data Warehouse) là một tổ chức trung tâm chuyên lưu trữ và xử lý thông tin từ nhiều lĩnh vực, tập hợp dữ liệu từ nhiều nguồn khác nhau DWH bao gồm nhiều Data Mart, vốn được chia nhỏ và ít phức tạp hơn so với DWH, giúp dễ dàng hơn trong việc thiết kế và bảo trì Bảng so sánh dưới đây sẽ làm rõ sự khác biệt giữa Data Warehouse và Data Mart.

Tính chất Data Mart Data Warehouse

Tuỳ theo từng nghiệp vụ Toàn thể tổ chức

Kích cỡ 100GB -> TB

Nguồn dữ liệu Một vài nguồn Nhiều nguồn

Lĩnh vực Một loại cụ thể Tổng hợp nhiều loại

Hàng tuần/ hàng tháng Hàng tháng đến hàng năm

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành Hải quan Việt Nam

Bảng 2: So sánh Data Warehouse với Data Mart

Kết luận chương

Chương 1 đã trình bày các khái niệm liên quan đến kho dữ liệu và các bước cần thiết để xây dựng kho dữ liệu Tác giả cũng đã so sánh kho dữ liệu với cơ sở dữ liệu để làm nổi bật lợi ích thực tế của kho dữ liệu Nội dung tiếp theo sẽ tập trung vào việc xây dựng kho dữ liệu nhằm hỗ trợ lập báo cáo cho ngành Hải quan, với các chi tiết cụ thể sẽ được giới thiệu trong các chương sau.

CƠ QUAN TỒNG CỤC HẢI QUAN Các tổ chức sự nghiệp

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ CHO VIỆC LẬP BÁO CÁO NGÀNH HẢI QUAN

Trong chương cuối của khoá luận, chúng tôi trình bày thực nghiệm lý thuyết từ chương 1 và chương 2, áp dụng vào việc xây dựng kho dữ liệu nhằm hỗ trợ cán bộ Hải quan trong quá trình thực thi nghiệp vụ.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

CHƯƠNG I: TỔNG QUAN VỀ KHO DỮ LIỆU

1.1 Giới thiệu về kho dữ liệu

Kho dữ liệu là cơ sở dữ liệu thiết yếu cho việc quản lý, tạo báo cáo và phân tích thông tin Nó tập trung dữ liệu từ nhiều nguồn khác nhau, cho phép thực hiện các truy vấn phức tạp nhằm cung cấp thông tin phân tích đầy đủ và chính xác KDL được tổ chức theo hướng chủ đề và đảm bảo tính toàn vẹn của dữ liệu.

Kho dữ liệu (Data Warehouse) giúp người dùng quản lý và phân tích dữ liệu hiệu quả thông qua hệ thống xử lý thông tin phân tích trực tuyến (OLAP) Nó hỗ trợ việc tạo báo cáo, dashboard, khai thác dữ liệu (data mining) và phân tích thống kê (BI) một cách nhanh chóng và dễ dàng, với khả năng lưu trữ hàng nghìn dữ liệu.

KDL được xây dựng nhằm mục đích quản lý hiệu quả và thuận tiện cho việc truy cập đa chiều, từ nhiều nguồn và kiểu dữ liệu khác nhau Hệ thống này kết hợp ứng dụng hiện đại với công nghệ từ các hệ thống có sẵn, tạo ra một nền tảng linh hoạt và tối ưu cho người dùng.

Một kho dữ liệu thường có các đặc tính sau:

Kho dữ liệu chủ yếu phục vụ cho việc phân tích các yêu cầu quản lý trong quy trình ra quyết định ở nhiều cấp độ Các yêu cầu phân tích thường rõ ràng và tập trung vào các khía cạnh kinh doanh của tổ chức.

Tính toàn vẹn của dữ liệu là yếu tố quan trọng trong việc tích hợp thông tin từ nhiều nguồn khác nhau Điều này bao gồm việc xử lý các sai sót trong trường dữ liệu, đảm bảo ý nghĩa chính xác của bản ghi và tuân thủ các định dạng chuẩn.

Tính bất biến trong hệ thống dữ liệu giúp duy trì sự thống nhất theo thời gian, đồng thời hạn chế việc thêm, sửa, hoặc xóa dữ liệu Điều này dẫn đến sự gia tăng đáng kể về quy mô dữ liệu so với các hệ thống nghiệp vụ truyền thống.

Giá trị lịch sử là việc thu thập các thông tin đa dạng từ nguồn dữ liệu và thời điểm khác nhau Ví dụ, mặc dù thông tin như email và số điện thoại có thể thay đổi, nhưng điều này không ảnh hưởng đến giá trị của báo cáo Phân tích dữ liệu thường diễn ra trước khi có sự thay đổi này.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

1.1.3.1 Dữ liệu nghiệp vụ (Business data)

Dữ liệu nghiệp vụ là loại dữ liệu thiết yếu cho việc quản lý và vận hành hiệu quả của các tổ chức doanh nghiệp lớn Nó phản ánh tình hình hoạt động của tổ chức và các đối tượng cụ thể như khách hàng và sản phẩm Dữ liệu này được hình thành nhằm phục vụ cho hệ thống xử lý thông tin, hỗ trợ quyết định và thúc đẩy kinh doanh thông minh.

Siêu dữ liệu là thông tin mô tả trong kho dữ liệu (DWH), giúp các nhà quản lý giải đáp các câu hỏi như thời điểm, đối tượng, phương thức và nội dung liên quan đến dữ liệu Việc sử dụng siêu dữ liệu rất quan trọng trong việc duy trì, quản lý và khai thác DWH, đồng thời đóng vai trò là công cụ thiết yếu trong kho dữ liệu.

+ Siêu dữ liệu nghiệp vụ (Business Metadata)

+ Siêu dữ liệu kĩ thuật (Technical Metadata)

+ Siêu dữ liệu tác nghiệp (Operational Metadata)

Một KDL thường mang cho tổ chức lợi ích sau:

+ Giúp quản trị công việc tốt cho tổ chức doanh nghiệp

+ Giúp quản trị thông tin khách hàng chuyên nghiệp

+ Tạo ra những quyết định có ảnh hưởng lớn

+ Tái tạo lại mô hình, tiến trình kinh doanh

+ Tái tại lại mô hình hệ thống thông tin

+ Giúp công việc kinh doanh trở nên dễ dàng nhờ cung cấp thông tin kịp thời chính xác.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

1.1.5 Hướng phát triển tương lai

Kho dữ liệu hiện nay mang lại nhiều lợi ích và tiện ích cho người dùng, giúp tổng hợp thông tin và truy cập nhanh chóng Nó hỗ trợ người sử dụng trả lời các câu hỏi phức tạp liên quan đến việc thu thập dữ liệu từ nhiều nguồn khác nhau Để đáp ứng sự phát triển của khoa học và thời gian, một kho dữ liệu cần phải có những đặc điểm nhất định.

+ Quản trị doanh nghiệp thống minh

+ Tích hợp dữ liệu khách hàng

+ Dữ liệu không có cấu trúc

+ Kho dữ liệu thời gian thực

+ Tìm kiếm, truy xuất dữ liệu dễ dàng

+ Kiến trúc hướng dịch vụ

1.2 Thiết kế kho dữ liệu Để thiết kế được KDL, trước hết cần tìm hiểu mô hình kiến trúc tổng thể nói chung và một KDL nói riêng.

1.2.1 Mô hình kiến trúc tổng thể

Kiến trúc tổng thể của kho dữ liệu bao gồm các thành phần chính như Dữ liệu nguồn, xử lý dữ liệu trung gian, kho dữ liệu, tầng Data Mart và hỗ trợ ra quyết định Các thành phần này kết hợp chặt chẽ với nhau để đảm bảo quá trình thu thập, xử lý và phân tích dữ liệu diễn ra hiệu quả, từ đó cung cấp thông tin hỗ trợ cho việc ra quyết định.

Khoá luận tốt nghiệp Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành

Hình 1 1: Mô hình tổng thể DWH

The source system comprises inherited data from legacy information systems, operational data from transaction processing systems, and external data sources, including OLTP databases, enterprise applications, traditional third-party systems, and web applications.

Tầng staging là khu vực lưu trữ tạm thời cho dữ liệu được trích xuất từ hệ thống nguồn Tại đây, dữ liệu sẽ được làm sạch và xử lý trước khi được chuyển lên tầng Data Warehouse.

Data Mart là một phần quan trọng trong hệ thống quản lý dữ liệu, nơi dữ liệu được tổ chức theo từng nghiệp vụ cụ thể và được điều chỉnh để phục vụ nhu cầu của từng nhóm người dùng Từ kho dữ liệu tổng hợp (DWH), dữ liệu được chuyển đổi thành các mô hình hình sao hoặc bông tuyết, bao gồm các bảng Fact và Dimension Mỗi Data Mart được thiết kế với mức độ chi tiết phù hợp để đáp ứng những yêu cầu thiết yếu của người dùng.

Ngày đăng: 07/04/2022, 11:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Inmon, W.H. Tech Topic: What is a Data Warehouse? Prism Solutions.Volume 1. 1995 Sách, tạp chí
Tiêu đề: Tech Topic: What is a Data Warehouse
[2] Thang Luu-Kho dữ liệu và cách thiết kế kho dữ liệu-02/2013 Khác
[3] Artech House, Boston London (1997), Data Warehousing and Data Mining forTelecommunications, London Khác
[4] IBM (2003), Telecommunications Data Mart, USA Khác
[5] J.D. Meier, Alex Mackman, Michael Dunner, and Srinath Vasireddy, Microsoft Corporation (2002), .NET Remoting Security Khác
[6] Oracle (2007), Data Warehousing Guide 11g Release 1, USA Khác
[7] VINCENT RAINARDI (2008), Building a Data Warehouse With Examples inSQL Server, USA Khác
[8] Ralph Kimball Margy Ross (2002), The Data WarehouseToolkit Second Edition The Complete Guide to Dimensional Modeling, New York Khác
[9] Stephen Toub (2002), “Secure Your .NET Remoting Traffic by Writing an Asymmetric Khác
[10] Encryption Channel Sink”, MSDN Magazine. Oracle (2007), Warehou Builder Guide 11g Release 1, USA Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. 1: Mô hình tổng thể DWH - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 1. 1: Mô hình tổng thể DWH (Trang 20)
Mô hình dữ liệu - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
h ình dữ liệu (Trang 26)
Bảng 1: So sánh Database với Data Warehouse - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Bảng 1 So sánh Database với Data Warehouse (Trang 27)
Bảng 2: So sánh Data Warehouse với DataMart - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Bảng 2 So sánh Data Warehouse với DataMart (Trang 28)
Hình 2. 2: HTTT thu thập và xử lý nghiệp vụ - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 2: HTTT thu thập và xử lý nghiệp vụ (Trang 30)
Hình 2. 3:HTTT eCargo - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 3:HTTT eCargo (Trang 31)
Hình 2. 4:: HTTT VNACC-VCIS - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 4:: HTTT VNACC-VCIS (Trang 32)
Hình 2. 5: HTTT kế toán thuế - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 5: HTTT kế toán thuế (Trang 33)
HỆ THÕNG GTT02 - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
02 (Trang 33)
Hình 2. 6: HTTT giá tính thuế - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 6: HTTT giá tính thuế (Trang 34)
Hình 2. 8: HTTT cơ chế một cửa với một quôc gia - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 2. 8: HTTT cơ chế một cửa với một quôc gia (Trang 35)
Bảng 3: Danh sách đối tượng khảo sát - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Bảng 3 Danh sách đối tượng khảo sát (Trang 38)
xử lý. Oracle có những mô hình cung cấp một loạt các ràng buộc về tính toàn vẹn nhằm cải thiện độ chính xác của dữ liệu - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
x ử lý. Oracle có những mô hình cung cấp một loạt các ràng buộc về tính toàn vẹn nhằm cải thiện độ chính xác của dữ liệu (Trang 53)
Hình 3. 2: Mô hình kiến trúc hệ thông tích hợp - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 3. 2: Mô hình kiến trúc hệ thông tích hợp (Trang 54)
Hình 3. 3: Mô hình dữliệu - Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp
Hình 3. 3: Mô hình dữliệu (Trang 55)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w