1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng kho dữ liệu và dự báo kim ngạch hàng hóa xuất nhập khẩu tại Tổng cục Hải quan

26 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

PHẠM ĐÌNH VŨ

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU VÀ

DU BAO KIM NGẠCH HÀNG HÓA XUẤT NHAP KHẨU TAI TONG CUC HAI QUAN

Chuyên ngành: Hệ thống thông tinMã số: 60.48.01.04

HÀ NỘI - NĂM 2014

Trang 2

Luận văn được hoàn thành tại:

Người hướng dẫn khoa học: PGS TS HOÀNG MINH

Phản biện 1: PGS TS Đặng Văn Chuyết

Phản biện 2: TS Nguyễn Duy Phương

Luận văn được bảo vệ trước hội đồng luận văn thạc sỹ tại Học viện

Công nghệ Bưu chính Viễn thông

Vào lúc: 9 giờ 45 ngày 08 tháng 02 năm 2015

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Thống kê hàng hoá xuất nhập khẩu (còn gọi là thống kê nhà nước về hải quan hay thống kê ngoại thương) là một trong những nhiệm vụ chính của ngành Hải quan theo quy định tại Luật Hải quan Sản phẩm của thống kê hang hoá xuất nhập khẩu ngày càng được đánh giá cao của các Lãnh đạo Đảng, Nhà nước, các Bộ, ngành ca về chat lượng và tính kịp thời của thông tin Thông tin của Thống kê hàng hoá xuất nhập khẩu được coi là nguồn thông tin tin cậy và kịp thời để góp phần vào việc điều hành quản lý vĩ mô nền kinh tế đất

Số liệu thống kê hàng hóa xuất nhập khẩu được thu thập từ tờ khai hải quan và các chứng từ kèm theo Số lượng tờ khai hải quan và số lượng dòng hàng trên tờ khai tăng trung bình hàng năm khoảng 15% (số lượng tờ khai hải quan năm 2013 là 5,9 triệu tờ khai với hon 38 triệu dòng hàng) [nguồn: Tổng cục Hải quan] trong khi phải đáp ứng yêu cầu ngày cảng cao trong công tác điều hành hoạt động xuất nhập khẩu của Chính phủ và các Bộ,

ngành nói chung và của ngành Hải quan nói riêng Do đó, việc áp dụng kỹ thuật quản lý tiên

tiến song song với ứng dụng CNTT vào công tác thống kê hàng hoá xuất nhập khâu sẽ góp phần giúp thống kê hoàn thành tốt nhiệm vụ này, đặc biệt là khi số lượng các giao dịch/tờ khai xuất nhập khâu hàng hóa ngày càng lớn, số lượng yêu cau xử lý số liệu ngày càng tăng, các yêu cầu báo cáo gấp, trong khi đó nguồn nhân lực làm công tác thống kê không tăng.

Phân tích thống kê hàng hóa xuất nhập khâu là bước tiếp theo sau tổng hợp và xử lý thông tin trong quy trình thống kê Hiện tại, công tác phân tích thường chỉ dựa vào kim ngạch các mặt hàng chủ yếu trên biểu mẫu cố định Việc khai thác dữ liệu báo cáo ở dạng các biêu mẫu cô định không đáp ứng được yêu cau đặt ra về tính mềm dẻo, tính khai thác da chiều cũng như tinh kip thời, đặc biệt đối với việc cung cấp các báo cáo thống kê đột xuất theo yêu cầu của Lãnh đạo và từ các cơ quan quản lý nhà nước khác nhau Hiện tại, khi phải thực hiện báo cáo đột xuất, các chuyên viên phải trích xuất dữ liệu theo yêu cau ra file MS Access dé xử lý gây lãnh phí tài nguyên và không đảm bảo an toàn thông tin.

Hàng tháng từ ngày 20 đến 23, Bộ Kế hoạch & Đầu tư chủ trì tổ chức cuộc họp giữa liên Bộ (Bộ Kế hoạch & Đầu tư, Bộ Công thương, Ngân hàng Nhà nước, Tổng cục Thống

kê và Tổng cục Hải quan) để ước tính (dự báo) kim ngạch (gọi là số ước liên Bộ) xuất nhập

khẩu hàng hóa của tháng hiện thời phục vụ phiên họp thường kỳ của Chính phủ Số ước liên

Trang 4

Bộ hàng tháng này được xây dựng trên số thực tế 15 ngày đầu tháng của Tổng cục Hải quan cộng thêm số ước tính của nửa cuối tháng đó Hang năm từ tháng 5 đến thang 6, Tổng cục Hải quan tiến hành ước (dự báo) kim ngạch hàng hóa xuất nhập khẩu (có tách kim ngạch xuất nhập khẩu chịu thuế) đến hết năm hiện tại và cả năm tiếp theo dé thực hiện dự toán thu ngân sách nhà nước của năm hiện tại và dự báo năm tiếp theo Tuy nhiên, việc thực hiện số liệu ước liên Bộ hàng tháng thường chỉ dựa vào kinh nghiệm và ý kiến chuyên gia của các thành viên nhóm liên Bộ nên độ chính xác của số liệu dự báo chưa cao, mức độ chênh lệch

so với số liệu thực tế của Tổng cục Hải quan công bố là khá lớn Do đó, cần phải có công cụ

hỗ trợ cho công tác dự báo kim ngạch hàng hóa xuất nhập khẩu được thuận tiện và tăng cường độ chính xác của dự báo.

Xuất phát từ những vấn đề nêu trên, học viên chọn đề tài luận văn về nghiên cứu kho dữ liệu trợ giúp cho công tác phân tích và dự báo kim ngạch hàng hóa xuất nhập khẩu tại Tổng cục Hải quan Đề tài luận văn mang tên “Nghiên cứu xây dựng kho dữ liệu và dự báo kim ngạch hang hóa xuất nhập khẩu tại Tổng cục Hải quan” với ý nghĩa khoa học và thực

tiễn sau đây:

- Xây dựng được kho dit liệu thống kê hàng hóa xuất nhập khẩu trợ giúp khai thác dữ liệu, phân tích thống kê linh hoạt và thông minh hơn;

- Xây dựng được chức năng dự báo kim ngạch hàng hóa xuất nhập khẩu dựa trên mô hình/thuật toán dự báo thông dụng hiện nay như cây quyết định;

- Có thê làm mô hình tham khảo cho các đề án/dự án của Tổng cục Hải quan Luận văn gồm phần mở đầu, phần kết luận và 3 chương:

Chương 1: Kho dữ liệu và các vấn đề liên quan Chương này trình bày về nhu cầu xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu và nhu cầu về dự báo kim ngạch hàng hóa xuất nhập khâu Tổng quan về kho dữ liệu và khai phá dữ liệu Giới thiệu bộ công

cụ BI trong hệ quản tri cơ sở dữ liệu MS SQL Server 2008.

Chương 2: Xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cục Hải quan Chương này tập trung vào trình bày việc xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cục Hải quan.

Chương 3: Ứng dụng khai phá dữ liệu để dự báo kim ngạch hàng hóa xuất nhập

khâu.

Trang 5

CHUONG 1: KHO DU LIEU VÀ CAC VAN DE LIÊN QUAN

1.1 Nhu cầu xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu

1.2 Nhu cầu về dự báo kim ngạch hàng hóa xuất nhập khẩu

1.2.1 Khái niệm về dự báo

1.2.2 Chức năng của dự báo thống kê hàng hóa xuất nhập khẩu

1.2.2.1 Chức năng tham mưu

1.2.2.2 Chức năng khuyến nghị điều chỉnh

1.2.3 Vai trò của dự báo thông kê hàng hóa xuất nhập khẩu

1.2.4 Dự báo kim ngạch hàng hóa xuất nhập khẩu 1.3 Lý thuyết về kho dữ liệu

1.3.1 Một số khái niệm về kho dữ liệu

1.3.1.1 Khái niệm kho dữ liệu

Dinh nghĩa kho dữ liệu do W.H.Inmon [6] đưa ra : Kho dữ liệu (Data Warehouse) là

tập hợp dữ liệu tích hợp theo hướng chủ dé từ nhiều nguồn khác nhau, tương đối én định trong khoảng thời gian, được cập nhật định kỳ nhằm hỗ trợ quá trình tạo quyết định.

1.3.1.2 Các đặc trưng của kho dir liệu

Kho dữ liệu có các đặc trưng sau đây (theo W.H.Inmon) [6]:

- Hướng chủ đề: Hướng chủ dé có nghĩa là kho dữ liệu được tô chức xung quanh các chủ đề chính Tập trung vào việc mô hình hóa và phân tích dữ liệu cho việc quyết định mà không tập trung vào các xử lý thông thường; cung cấp cấp cho người dùng khung nhìn toàn vẹn, đơn giản và đầy đủ về các sự kiện theo các chủ đề.

- Tính tích hợp: Dit liệu trong kho dit liệu được xây dựng bang cách tổng hợp dữ liệu từ nhiều nguồn khác nhau: Cơ sở dữ liệu, tệp dữ liệu Trước khi đưa vào kho dữ liệu, các dữ liệu được làm sạch và tích hợp dữ liệu nhằm đảm bảo tính nhất quán của dữ

- Tính bền vững: Dũ liệu trong kho dữ liệu được trích xuất từ các hệ thống dữ liệu tác nghiệp và được lưu trữ ổn định với một thời gian dài Thông thường thao tác trong kho dữ liệu chỉ bao gồm các thao tác thêm mới và truy vấn dữ liệu.

Trang 6

- Dữ liệu theo thời gian: Phạm vi về thời gian của dit liệu lưu trữ trong kho dữ liệu là lớn hơn trong các hệ thống tác nghiệp Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định, thời gian này đóng vai trò là một thành phần của khóa chính đảm bảo tính duy nhất của dữ liệu.

- Dữ liệu tong hợp: Dữ liệu được tích hợp vào các bảng tông hợp trong kho dit liệu nhằm phục vụ cho các mục đích xử lý và phân tích.

1.3.2 Mục tiêu của kho dữ liệu

Mục tiêu chính của kho dữ liệu là nhằm đáp ung các tiêu chuẩn cơ bản sau [6]:

- Truy cập dễ dàng : Kho dữ liệu phải đảm bảo cho người dùng truy xuất thông tin nhanh, day đủ, và tong hợp được thông tin một cách trực quan dễ hiéu.

- Thông tin nhất quán: Dữ liệu trong Kho dữ liệu được lấy từ nguồn khác nhau, kèm theo đó một thông tin có thé được định nghĩa và hiểu theo nhiều cách khác nhau, thậm trí có nhiều lỗi dữ liệu khác nhau Khi lưu chữ chung trong Kho dữ liệu thì toàn bộ dữ liệu được qua quá trình làm sạch và lưu chữ một cách nhất quán.

- Bảo mật: Kho dữ liệu của một doanh nghiệp là rất quan trọng nhất là dữ liệu đó là dữ liệu tông hợp toàn bộ dit liệu của các chi nhánh của doanh nghiệp Vì vậy kho dữ liệu cũng cần được bảo mật cao.

- Hỗ trợ ra quyết định: đây chính là mục tiêu quan trọng nhất của kho dữ liệu Từ

dữ liệu lưu chữ trong kho dữ liệu người ta sẽ dé dàng hơn trong việc xây dựng các báo cáo,

biểu đồ thé hiện xu hướng hoạt động theo thời gian Người quan lý sẽ dé lắm bat được xu thế nhu cầu của khác hàng và tình hình hoạt động của doanh nghiệp dé từ đó đưa ra các quyết định hợp lý.

1.3.3 Kiến trúc kho dữ liệu

Mô hình kiến trúc của hệ thống kho dit liệu cơ bản gồm có ba thành phan: Dữ liệu nguồn, vùng dir liệu trung gian và kho dữ liệu.

Trang 7

Nguồn dữ liệu | ETL ị Kho dữ liệu Ứng dụng

Hình 1.1: Mô hình kho dữ liệu

Kho dữ liệu xây dựng dựa trên các hệ quản trị cơ sở dữ liệu quan hệ, có chức năng

giống như một kho lưu trữ thông tin trung tâm Trong đó, dit liệu tác nghiệp và phan xử lý

được tách riêng khỏi quá trình xử lý kho dữ liệu Kho lưu trữ trung tâm được bao quanh bởi

các thành phan được thiết kế dé làm cho kho dữ liệu có thé hoạt động, quan lý và truy nhập

được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu.

1.3.3.1 Kho đữ liệu chủ đề (Datamart)

1.3.3.2 Siêu dữ liệu (Metadata)

1.3.3.3 Cơ sở dữ liệu kho dữ liệu

Cơ sở dữ liệu tập trung là một nền tảng cơ bản của môi trường kho dữ liệu Cơ sở dữ liệu này hầu hết được cai đặt dựa trên công nghệ của Hệ thống quan tri cơ sở dữ liệu quan hệ (RDBMS) Tuy nhiên việc cài đặt một kho dt liệu dựa trên kỹ thuật của RDBMS truyền thống bị ràng buộc bởi một thực tế là việc cài đặt RDBMS truyền thống đã được tối ưu hoá đối với việc xử lý cơ sở dữ liệu giao dịch Những thuộc tính tất yếu của kho dữ liệu như kích cỡ rất lớn, xử lý các truy vấn đặc biệt và sự cần thiết tạo ra những khung nhìn linh hoạt cho người sử dụng bao gồm việc tập hợp, kết hợp nhiều bảng trở thành những định hướng cho các cách tiếp cận khác nhau tới cơ sở dữ liệu của kho dữ liệu Những cách tiếp cận đó bao gồm:

- Thiết kế CSDL quan hệ song song.

Trang 8

- Một cách tiếp cận mới dé làm tăng tốc độ RDBMS truyền thống là cách sử dụng một cau trúc chỉ số bỏ qua kiểm tra các bảng quan hệ.

- Các cơ sở dữ liệu đa chiều dựa trên công nghệ cơ sở dữ liệu phổ biến hoặc được cài đặt sử dụng trên nền RDBMS quen thuộc Cơ sở dữ liệu đa chiều được thiết kế để khắc phục những giới hạn tồn tại trong kho dữ liệu gây ra do bản chất của mô hình dữ liệu quan hệ Cách tiếp cận này gan liền với các công cụ xử lý phân tích trực tuyến thực hiện như một đối tác của các kho dữ liệu đa chiều Các công cụ này gộp lại thành một nhóm công cụ truy van, tạo báo cáo, phân tích va khai phá dữ liệu.

1.3.4 Mô hình dữ liệu sử dụng trong kho dữ liệu

1.3.4.1 Lược đồ hình sao

Lược đồ hình sao được đưa ra bởi Dr Ralph Kimball Lược đồ hình sao cho phép một hệ thống đối tượng có thé kết nối với nhiều đối tượng khác Mô hình này thé hiện cách nhìn của người sử dụng về nhiều van dé trong tác nghiệp Trong lược đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiêu:

- Các sự kiện được tổ chức thành bang sự kiện (Fact) Bảng sự kiện chứa các thông tin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng dụng cần thiết Các bảng sự kiện

thường rat lớn, chứa hàng triệu dòng mà phan lớn là số.

- Các chiều của dữ liệu (bảng Dimension) được tổ chức thành các bảng chiều Bảng chiều thường là tương đối nhỏ so với các bảng sự kiện, chứa các thông tin mô tả Đó là các bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự kiện Bảng chiều chứa các dữ liệu

cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó.

1.3.4.2 Lược đồ bông tuyết — Snowflake 1.3.4.3 Lược đồ kết hợp

1.3.5 Ứng dụng của kho dữ liệu

Kho dữ liệu được đưa vào ba mảng ứng dụng chính.

Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử

dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ liệu thô đã đuợc chuyển sang thành các dữ liệu ồn định, có chất luợng nên kho dir liệu dã giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống Với cách thứ hai, các kho dữ liệu được sử dụng dé hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ SQL và các

Trang 9

công cụ xây dựng báo cáo truyền thống chỉ có thé mô tả những gi có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích di liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra đuợc các giả thuyết Ngoài ra,

sử dụng OLAP còn giúp phân tích tông hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan.

Cách thứ ba dể khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu Đây là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cung nhu yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong

việc xây dựng kế hoạch, chiến lược.

1.4 Khai phá dữ liệu

1.4.1 Khái niệm về khai phá dữ liệu

Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tim ra các moi quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khong

l và phức tap, dong thoi cũng tim ra các mẫu tiềm ẩn trong tập dữ liệu đó.

Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (KnowleadgeDiscovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:

1 Làm sạch dit liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không cần thiết.

2 Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &

3 Trích chon dữ liệu (data selection): trích chon dữ liệu từ những kho đữ liệu và sau

đó chuyên đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), V.V.

4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá

trình xử lý.

5 Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh dé chat lọc ra những mẫu dữ liệu.

6 Đánh giá mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua một số phép đo.

Trang 10

7 Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật dé biểu diễn và thé hiện trực quan cho người dùng.

1.4.2 Các kỹ thuật khai phá dữ liệu

- Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

+ Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kĩ thuật này có thể liệt kê: phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualization), phan tích sự phát hiện biến đổi và độ lệch, phân tích luật kết hợp (association rules) ;

+ Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy

diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp (classification), hồi quy

- Với hai đích chính của khai phá dữ liệu là Du đoán (Prediction) va Mô tả(Description), người ta thường sử dụng các kỹ thuật sau cho khai phá dữ liệu:

+ Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp va tóm tắt khái niệm Ví dụ: tóm tắt văn bản.

+ Luật kết hợp (association rules): là dạng luật biéu diễn tri thứ ở dang khá đơn giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài

chính & thị trường chứng khoán, v.v.

+ Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của học may như cây quyết định (decision tree), mạng

nơ ron nhân tạo (neural network), v.v Người ta còn gọi phân lớp là học có giám sát (học có

+ Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước Người ta còn gọi phân cum là học không giám sát (học không thay).

+ Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong

lĩnh vực tài chính và thi trường chứng khoán vi nó có tính dự báo cao.

Trang 11

1.4.3 Ứng dụng của khai pha dữ liệu

1.4.4 Cây quyết định ứng dụng trong khai phá dữ liệu 1.4.4.1 Khái niệm cây quyết định

1.4.4.2 Thuật toán ID3

1.4.4.3 Thuật toán C4.5

1.4.4.4 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu

1.5 Giới thiệu bộ công cụ BI trong hệ quản trị cơ sở dữ liệu MS SQL Server

1.5.1 Dich vụ phân tích (Business Analysis Services)1.5.2 Dich vụ báo cáo (Reporting Services)

1.5.3 Dịch vụ OLAP của Microsoft SQL Server

1.5.3.1 Mô hình kiến trúc dịch vụ OLAP

1.5.3.2 Các đặc điểm của dịch vụ OLAP

1.5.3.3 Các mô hình lưu trữ hỗ trợ OLAP

1.6 Kết luận chương 1

Trong Chương 1, luận văn tập trung vào giới thiệu về nhu cầu xây dựng kho dit liệu thống kê hang hóa xuất nhập khâu và nhu cau dự báo kim ngạch hang hóa xuất nhập khẩu tại Tổng cục Hải quan Chương này cũng giới thiệu về lý thuyết đối kho dữ liệu và khai phá dữ liệu, thuật toán phân lớp dựa trên cây quyết định.

Để ứng dụng lý thuyết kho dữ liệu và khai phá dữ liệu vào thực tế, chương này giới

biệu bộ công cụ BI trong hệ quản tri cơ sở dữ liệu SQL Server 2008.

Trang 12

CHUONG 2: XÂY DỰNG KHO DU LIEU THONG KE HÀNG HÓA XUAT NHAP KHAU TAI TONG CUC HAI QUAN

2.1 Đặt bài toán

2.1.1 Nhiệm vụ của Thống kê hàng hóa xuất nhập khẩu 2.1.1.1 Thống kê hàng hóa xuất nhập khâu của Việt Nam

2.1.1.2 Tổ chức thực hiện thống kê hàng hóa xuất nhập khâu

2.1.1.3 Nhiệm vụ của Thống kê hàng hóa xuất nhập khẩu

2.1.2 Quy trình sản xuất số liệu thống kê hàng hóa xuất nhập khẩu

2.1.2.1 Quy trình tổng quan nghiệp vụ thống kê

2.1.2.2 Mô hình liên kết luồng dit liệu thống kê giữa các môđun của hệ thống thong

kê hiện hành

2.1.2.3 Thông tin về đữ liệu thống kê hàng hóa xuất nhập khẩu

Thông tin về số lượng tờ khai và kim ngạch hàng hóa xuất khâu, nhập khẩu của Việt Nam (chỉ tính hàng hóa mậu dịch) trong một số năm gần đây, được cho trong bảng số liệu

dưới đây:

Bảng 2.1: Số lượng tờ khai và kim ngạch hàng hóa XNK của Việt Nam

Năm To khai (triệu tờ) Trị giá (ty USD)

Trang 13

Thông tin chi tiết về kim ngạch theo từng mặt hang chủ yếu có thé tham khảo trên Công thông tin điện tử hải quan (địa chỉ www.customs.gov.vn), chuyên mục Thống kê hải

2.1.3 Mục tiêu và phạm vi của bài toán

a) Mục tiêu

Mục tiêu của bài toán đặt ra trong luận văn này là xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cục Hải quan Cục thể như sau:

- Kho đữ liệu này được xây dựng dựa trên CSDL thống kê đầu ra là CSDL đã qua quy trình sản xuất số liệu thống kê;

- Kho dữ liệu bao gồm các chỉ tiêu cho kim ngạch chung và kim ngạch của các mặt

- Cho phép thực hiện khai thác dữ liệu đa chiều, linh hoạt; - Triển khai các báo cáo dạng phân tích dữ liệu trực tuyến.

b) Phạm vi cua bài toán:

Dữ liệu chỉ bao bồm dữ liệu của các tờ khai xuất nhập khẩu nhằm mục đích thương mại (còn gọi là tờ khai mậu dịch) Các tờ khai phi mậu dịch có kim ngạch rất nhỏ, chỉ chiếm khoảng 0,1% số với tổng kim ngạch chung và hiện chưa được thu thập đầy đủ nên không

đưa vao trong phạm vi của luận văn.

2.2 Xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cục Hải

2.2.1 Mô tả yêu cầu của ứng dụng

Ứng dụng được xây dựng cần:

- Hỗ trợ và tô chức khai thác dữ liệu hướng đối tượng, cung cấp khả năng khai thác đữ liệu ở nhiều mức khác nhau: tổng hợp hoặc chi tiết; theo nhiều chiều khác nhau, ;

- Cho phép khai thác dữ liệu hiện thời, số liệu so sánh và số liệu lịch sử;

Ngày đăng: 07/04/2024, 12:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w