HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONGPHẠM ĐÌNH VŨ NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU VÀ DU BAO KIM NGẠCH HÀNG HÓA XUẤT NHAP KHẨU TAI TONG CUC HAI QUAN Chuyên ngành: Hệ thống thông tin Mã
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
PHẠM ĐÌNH VŨ
NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU VÀ
DU BAO KIM NGẠCH HÀNG HÓA XUẤT NHAP KHẨU
TAI TONG CUC HAI QUAN
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
HÀ NỘI - NĂM 2014
Trang 2Luận văn được hoàn thành tại:
Người hướng dẫn khoa học: PGS TS HOÀNG MINH
Phản biện 1: PGS TS Đặng Văn Chuyết
Phản biện 2: TS Nguyễn Duy Phương
Luận văn được bảo vệ trước hội đồng luận văn thạc sỹ tại Học viện
Công nghệ Bưu chính Viễn thông
Vào lúc: 9 giờ 45 ngày 08 tháng 02 năm 2015
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Thống kê hàng hoá xuất nhập khẩu (còn gọi là thống kê nhà nước về hải quan haythống kê ngoại thương) là một trong những nhiệm vụ chính của ngành Hải quan theo quyđịnh tại Luật Hải quan Sản phẩm của thống kê hang hoá xuất nhập khẩu ngày càng đượcđánh giá cao của các Lãnh đạo Đảng, Nhà nước, các Bộ, ngành ca về chat lượng và tính kịpthời của thông tin Thông tin của Thống kê hàng hoá xuất nhập khẩu được coi là nguồnthông tin tin cậy và kịp thời để góp phần vào việc điều hành quản lý vĩ mô nền kinh tế đất
nước.
Số liệu thống kê hàng hóa xuất nhập khẩu được thu thập từ tờ khai hải quan và cácchứng từ kèm theo Số lượng tờ khai hải quan và số lượng dòng hàng trên tờ khai tăng trungbình hàng năm khoảng 15% (số lượng tờ khai hải quan năm 2013 là 5,9 triệu tờ khai vớihon 38 triệu dòng hàng) [nguồn: Tổng cục Hải quan] trong khi phải đáp ứng yêu cầu ngàycảng cao trong công tác điều hành hoạt động xuất nhập khẩu của Chính phủ và các Bộ,
ngành nói chung và của ngành Hải quan nói riêng Do đó, việc áp dụng kỹ thuật quản lý tiên
tiến song song với ứng dụng CNTT vào công tác thống kê hàng hoá xuất nhập khâu sẽ gópphần giúp thống kê hoàn thành tốt nhiệm vụ này, đặc biệt là khi số lượng các giao dịch/tờkhai xuất nhập khâu hàng hóa ngày càng lớn, số lượng yêu cau xử lý số liệu ngày càng tăng,các yêu cầu báo cáo gấp, trong khi đó nguồn nhân lực làm công tác thống kê không tăng
Phân tích thống kê hàng hóa xuất nhập khâu là bước tiếp theo sau tổng hợp và xử lýthông tin trong quy trình thống kê Hiện tại, công tác phân tích thường chỉ dựa vào kimngạch các mặt hàng chủ yếu trên biểu mẫu cố định Việc khai thác dữ liệu báo cáo ở dạngcác biêu mẫu cô định không đáp ứng được yêu cau đặt ra về tính mềm dẻo, tính khai thác dachiều cũng như tinh kip thời, đặc biệt đối với việc cung cấp các báo cáo thống kê đột xuấttheo yêu cầu của Lãnh đạo và từ các cơ quan quản lý nhà nước khác nhau Hiện tại, khi phảithực hiện báo cáo đột xuất, các chuyên viên phải trích xuất dữ liệu theo yêu cau ra file MSAccess dé xử lý gây lãnh phí tài nguyên và không đảm bảo an toàn thông tin
Hàng tháng từ ngày 20 đến 23, Bộ Kế hoạch & Đầu tư chủ trì tổ chức cuộc họp giữaliên Bộ (Bộ Kế hoạch & Đầu tư, Bộ Công thương, Ngân hàng Nhà nước, Tổng cục Thống
kê và Tổng cục Hải quan) để ước tính (dự báo) kim ngạch (gọi là số ước liên Bộ) xuất nhập
khẩu hàng hóa của tháng hiện thời phục vụ phiên họp thường kỳ của Chính phủ Số ước liên
Trang 4Bộ hàng tháng này được xây dựng trên số thực tế 15 ngày đầu tháng của Tổng cục Hải quancộng thêm số ước tính của nửa cuối tháng đó Hang năm từ tháng 5 đến thang 6, Tổng cụcHải quan tiến hành ước (dự báo) kim ngạch hàng hóa xuất nhập khẩu (có tách kim ngạchxuất nhập khẩu chịu thuế) đến hết năm hiện tại và cả năm tiếp theo dé thực hiện dự toán thungân sách nhà nước của năm hiện tại và dự báo năm tiếp theo Tuy nhiên, việc thực hiện sốliệu ước liên Bộ hàng tháng thường chỉ dựa vào kinh nghiệm và ý kiến chuyên gia của cácthành viên nhóm liên Bộ nên độ chính xác của số liệu dự báo chưa cao, mức độ chênh lệch
so với số liệu thực tế của Tổng cục Hải quan công bố là khá lớn Do đó, cần phải có công cụ
hỗ trợ cho công tác dự báo kim ngạch hàng hóa xuất nhập khẩu được thuận tiện và tăngcường độ chính xác của dự báo.
Xuất phát từ những vấn đề nêu trên, học viên chọn đề tài luận văn về nghiên cứu kho
dữ liệu trợ giúp cho công tác phân tích và dự báo kim ngạch hàng hóa xuất nhập khẩu tạiTổng cục Hải quan Đề tài luận văn mang tên “Nghiên cứu xây dựng kho dữ liệu và dự báokim ngạch hang hóa xuất nhập khẩu tại Tổng cục Hải quan” với ý nghĩa khoa học và thực
tiễn sau đây:
- Xây dựng được kho dit liệu thống kê hàng hóa xuất nhập khẩu trợ giúp khai thác dữliệu, phân tích thống kê linh hoạt và thông minh hơn;
- Xây dựng được chức năng dự báo kim ngạch hàng hóa xuất nhập khẩu dựa trên môhình/thuật toán dự báo thông dụng hiện nay như cây quyết định;
- Có thê làm mô hình tham khảo cho các đề án/dự án của Tổng cục Hải quan
Luận văn gồm phần mở đầu, phần kết luận và 3 chương:
Chương 1: Kho dữ liệu và các vấn đề liên quan Chương này trình bày về nhu cầuxây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu và nhu cầu về dự báo kim ngạchhàng hóa xuất nhập khâu Tổng quan về kho dữ liệu và khai phá dữ liệu Giới thiệu bộ công
cụ BI trong hệ quản tri cơ sở dữ liệu MS SQL Server 2008.
Chương 2: Xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cụcHải quan Chương này tập trung vào trình bày việc xây dựng kho dữ liệu thống kê hàng hóaxuất nhập khẩu tại Tổng cục Hải quan
Chương 3: Ứng dụng khai phá dữ liệu để dự báo kim ngạch hàng hóa xuất nhập
khâu.
Trang 5CHUONG 1: KHO DU LIEU VÀ CAC VAN DE LIÊN QUAN
1.1 Nhu cầu xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu
1.2 Nhu cầu về dự báo kim ngạch hàng hóa xuất nhập khẩu
1.2.1 Khái niệm về dự báo
1.2.2 Chức năng của dự báo thống kê hàng hóa xuất nhập khẩu
1.2.2.1 Chức năng tham mưu
1.2.2.2 Chức năng khuyến nghị điều chỉnh
1.2.3 Vai trò của dự báo thông kê hàng hóa xuất nhập khẩu
1.2.4 Dự báo kim ngạch hàng hóa xuất nhập khẩu
1.3 Lý thuyết về kho dữ liệu
1.3.1 Một số khái niệm về kho dữ liệu
1.3.1.1 Khái niệm kho dữ liệu
Dinh nghĩa kho dữ liệu do W.H.Inmon [6] đưa ra : Kho dữ liệu (Data Warehouse) là
tập hợp dữ liệu tích hợp theo hướng chủ dé từ nhiều nguồn khác nhau, tương đối én địnhtrong khoảng thời gian, được cập nhật định kỳ nhằm hỗ trợ quá trình tạo quyết định
1.3.1.2 Các đặc trưng của kho dir liệu
Kho dữ liệu có các đặc trưng sau đây (theo W.H.Inmon) [6]:
- Hướng chủ đề: Hướng chủ dé có nghĩa là kho dữ liệu được tô chức xung quanhcác chủ đề chính Tập trung vào việc mô hình hóa và phân tích dữ liệu cho việc quyết định
mà không tập trung vào các xử lý thông thường; cung cấp cấp cho người dùng khung nhìntoàn vẹn, đơn giản và đầy đủ về các sự kiện theo các chủ đề
- Tính tích hợp: Dit liệu trong kho dit liệu được xây dựng bang cách tổng hợp dữliệu từ nhiều nguồn khác nhau: Cơ sở dữ liệu, tệp dữ liệu Trước khi đưa vào kho dữliệu, các dữ liệu được làm sạch và tích hợp dữ liệu nhằm đảm bảo tính nhất quán của dữ
Trang 6- Dữ liệu theo thời gian: Phạm vi về thời gian của dit liệu lưu trữ trong kho dữ liệu
là lớn hơn trong các hệ thống tác nghiệp Dữ liệu trong kho luôn gắn với một giá trị thờigian nhất định, thời gian này đóng vai trò là một thành phần của khóa chính đảm bảo tínhduy nhất của dữ liệu
- Dữ liệu tong hợp: Dữ liệu được tích hợp vào các bảng tông hợp trong kho dit liệunhằm phục vụ cho các mục đích xử lý và phân tích
1.3.2 Mục tiêu của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ung các tiêu chuẩn cơ bản sau [6]:
- Truy cập dễ dàng : Kho dữ liệu phải đảm bảo cho người dùng truy xuất thông tinnhanh, day đủ, và tong hợp được thông tin một cách trực quan dễ hiéu
- Thông tin nhất quán: Dữ liệu trong Kho dữ liệu được lấy từ nguồn khác nhau,kèm theo đó một thông tin có thé được định nghĩa và hiểu theo nhiều cách khác nhau, thậmtrí có nhiều lỗi dữ liệu khác nhau Khi lưu chữ chung trong Kho dữ liệu thì toàn bộ dữ liệuđược qua quá trình làm sạch và lưu chữ một cách nhất quán
- Bảo mật: Kho dữ liệu của một doanh nghiệp là rất quan trọng nhất là dữ liệu đó là
dữ liệu tông hợp toàn bộ dit liệu của các chi nhánh của doanh nghiệp Vì vậy kho dữ liệucũng cần được bảo mật cao
- Hỗ trợ ra quyết định: đây chính là mục tiêu quan trọng nhất của kho dữ liệu Từ
dữ liệu lưu chữ trong kho dữ liệu người ta sẽ dé dàng hơn trong việc xây dựng các báo cáo,
biểu đồ thé hiện xu hướng hoạt động theo thời gian Người quan lý sẽ dé lắm bat được xuthế nhu cầu của khác hàng và tình hình hoạt động của doanh nghiệp dé từ đó đưa ra cácquyết định hợp lý
1.3.3 Kiến trúc kho dữ liệu
Mô hình kiến trúc của hệ thống kho dit liệu cơ bản gồm có ba thành phan: Dữ liệunguồn, vùng dir liệu trung gian và kho dữ liệu
Trang 7Nguồn dữ liệu | ETL ị Kho dữ liệu Ứng dụng
Hình 1.1: Mô hình kho dữ liệu
Kho dữ liệu xây dựng dựa trên các hệ quản trị cơ sở dữ liệu quan hệ, có chức năng
giống như một kho lưu trữ thông tin trung tâm Trong đó, dit liệu tác nghiệp và phan xử lý
được tách riêng khỏi quá trình xử lý kho dữ liệu Kho lưu trữ trung tâm được bao quanh bởi
các thành phan được thiết kế dé làm cho kho dữ liệu có thé hoạt động, quan lý và truy nhập
được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu.
1.3.3.1 Kho đữ liệu chủ đề (Datamart)
1.3.3.2 Siêu dữ liệu (Metadata)
1.3.3.3 Cơ sở dữ liệu kho dữ liệu
Cơ sở dữ liệu tập trung là một nền tảng cơ bản của môi trường kho dữ liệu Cơ sở dữliệu này hầu hết được cai đặt dựa trên công nghệ của Hệ thống quan tri cơ sở dữ liệu quan
hệ (RDBMS) Tuy nhiên việc cài đặt một kho dt liệu dựa trên kỹ thuật của RDBMS truyềnthống bị ràng buộc bởi một thực tế là việc cài đặt RDBMS truyền thống đã được tối ưu hoáđối với việc xử lý cơ sở dữ liệu giao dịch Những thuộc tính tất yếu của kho dữ liệu nhưkích cỡ rất lớn, xử lý các truy vấn đặc biệt và sự cần thiết tạo ra những khung nhìn linh hoạtcho người sử dụng bao gồm việc tập hợp, kết hợp nhiều bảng trở thành những định hướngcho các cách tiếp cận khác nhau tới cơ sở dữ liệu của kho dữ liệu Những cách tiếp cận đóbao gồm:
- Thiết kế CSDL quan hệ song song
Trang 8- Một cách tiếp cận mới dé làm tăng tốc độ RDBMS truyền thống là cách sử dụngmột cau trúc chỉ số bỏ qua kiểm tra các bảng quan hệ.
- Các cơ sở dữ liệu đa chiều dựa trên công nghệ cơ sở dữ liệu phổ biến hoặc được càiđặt sử dụng trên nền RDBMS quen thuộc Cơ sở dữ liệu đa chiều được thiết kế để khắcphục những giới hạn tồn tại trong kho dữ liệu gây ra do bản chất của mô hình dữ liệu quan
hệ Cách tiếp cận này gan liền với các công cụ xử lý phân tích trực tuyến thực hiện như mộtđối tác của các kho dữ liệu đa chiều Các công cụ này gộp lại thành một nhóm công cụ truyvan, tạo báo cáo, phân tích va khai phá dữ liệu
1.3.4 Mô hình dữ liệu sử dụng trong kho dữ liệu
1.3.4.1 Lược đồ hình sao
Lược đồ hình sao được đưa ra bởi Dr Ralph Kimball Lược đồ hình sao cho phépmột hệ thống đối tượng có thé kết nối với nhiều đối tượng khác Mô hình này thé hiện cáchnhìn của người sử dụng về nhiều van dé trong tác nghiệp Trong lược đồ hình sao, dữ liệuđược xác định và phân loại theo 2 kiêu:
- Các sự kiện được tổ chức thành bang sự kiện (Fact) Bảng sự kiện chứa các thôngtin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng dụng cần thiết Các bảng sự kiện
thường rat lớn, chứa hàng triệu dòng mà phan lớn là số
- Các chiều của dữ liệu (bảng Dimension) được tổ chức thành các bảng chiều Bảngchiều thường là tương đối nhỏ so với các bảng sự kiện, chứa các thông tin mô tả Đó là các
bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự kiện Bảng chiều chứa các dữ liệu
cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó.
1.3.4.2 Lược đồ bông tuyết — Snowflake
1.3.4.3 Lược đồ kết hợp
1.3.5 Ứng dụng của kho dữ liệu
Kho dữ liệu được đưa vào ba mảng ứng dụng chính.
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữliệu thô đã đuợc chuyển sang thành các dữ liệu ồn định, có chất luợng nên kho dir liệu dãgiúp nâng cao kỹ thuật biểu diễn thông tin truyền thống Với cách thứ hai, các kho dữ liệuđược sử dụng dé hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ SQL và các
Trang 9công cụ xây dựng báo cáo truyền thống chỉ có thé mô tả những gi có trong cơ sở dữ liệu thìphân tích trực tuyến có khả năng phân tích di liệu, xác định xem giả thuyết đúng hay sai.Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra đuợc các giả thuyết Ngoài ra,
sử dụng OLAP còn giúp phân tích tông hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặcbảng biểu trực quan
Cách thứ ba dể khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu Đây làmột phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cung nhuyêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trongviệc xây dựng kế hoạch, chiến lược
1.4 Khai phá dữ liệu
1.4.1 Khái niệm về khai phá dữ liệu
Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự độngkhai thác và tim ra các moi quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khong
l và phức tap, dong thoi cũng tim ra các mẫu tiềm ẩn trong tập dữ liệu đó
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:
1 Làm sạch dit liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệukhông cần thiết
2 Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữliệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &
preprocessing).
3 Trích chon dữ liệu (data selection): trích chon dữ liệu từ những kho đữ liệu và sau
đó chuyên đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cảviệc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), V.V
4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá
trình xử lý.
5 Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đó
sử dụng những phương pháp thông minh dé chat lọc ra những mẫu dữ liệu
6 Đánh giá mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm đượcthông qua một số phép đo
Trang 107 Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật débiểu diễn và thé hiện trực quan cho người dùng.
1.4.2 Các kỹ thuật khai phá dữ liệu
- Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:
+ Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặctính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kĩ thuật này có thể liệt kê: phân cụm(clustering), tóm tắt (summerization), trực quan hóa (visualization), phan tích sự phát hiệnbiến đổi và độ lệch, phân tích luật kết hợp (association rules) ;
+ Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy
diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp (classification), hồi quy
+ Luật kết hợp (association rules): là dạng luật biéu diễn tri thứ ở dang khá đơn giản
Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt
bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài
chính & thị trường chứng khoán, v.v.
+ Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trongnhững lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cậnnày thường sử dụng một số kỹ thuật của học may như cây quyết định (decision tree), mạng
nơ ron nhân tạo (neural network), v.v Người ta còn gọi phân lớp là học có giám sát (học có
thầy)
+ Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như têncủa cụm chưa được biết trước Người ta còn gọi phân cum là học không giám sát (họckhông thay)
+ Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợpnhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong
lĩnh vực tài chính và thi trường chứng khoán vi nó có tính dự báo cao.
Trang 111.4.3 Ứng dụng của khai pha dữ liệu
1.4.4 Cây quyết định ứng dụng trong khai phá dữ liệu
1.4.4.1 Khái niệm cây quyết định
1.4.4.2 Thuật toán ID3
1.4.4.3 Thuật toán C4.5
1.4.4.4 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu
1.5 Giới thiệu bộ công cụ BI trong hệ quản trị cơ sở dữ liệu MS SQL Server
2008
1.5.1 Dich vụ phân tích (Business Analysis Services)
1.5.2 Dich vụ báo cáo (Reporting Services)
1.5.3 Dịch vụ OLAP của Microsoft SQL Server
1.5.3.1 Mô hình kiến trúc dịch vụ OLAP
1.5.3.2 Các đặc điểm của dịch vụ OLAP
1.5.3.3 Các mô hình lưu trữ hỗ trợ OLAP
1.6 Kết luận chương 1
Trong Chương 1, luận văn tập trung vào giới thiệu về nhu cầu xây dựng kho dit liệuthống kê hang hóa xuất nhập khâu và nhu cau dự báo kim ngạch hang hóa xuất nhập khẩutại Tổng cục Hải quan Chương này cũng giới thiệu về lý thuyết đối kho dữ liệu và khai phá
dữ liệu, thuật toán phân lớp dựa trên cây quyết định
Để ứng dụng lý thuyết kho dữ liệu và khai phá dữ liệu vào thực tế, chương này giới
biệu bộ công cụ BI trong hệ quản tri cơ sở dữ liệu SQL Server 2008.
Trang 12CHUONG 2: XÂY DỰNG KHO DU LIEU THONG KE HÀNG HÓA
XUAT NHAP KHAU TAI TONG CUC HAI QUAN
2.1 Đặt bài toán
2.1.1 Nhiệm vụ của Thống kê hàng hóa xuất nhập khẩu
2.1.1.1 Thống kê hàng hóa xuất nhập khâu của Việt Nam
2.1.1.2 Tổ chức thực hiện thống kê hàng hóa xuất nhập khâu
2.1.1.3 Nhiệm vụ của Thống kê hàng hóa xuất nhập khẩu
2.1.2 Quy trình sản xuất số liệu thống kê hàng hóa xuất nhập khẩu
2.1.2.1 Quy trình tổng quan nghiệp vụ thống kê
2.1.2.2 Mô hình liên kết luồng dit liệu thống kê giữa các môđun của hệ thống thong
kê hiện hành
2.1.2.3 Thông tin về đữ liệu thống kê hàng hóa xuất nhập khẩu
Thông tin về số lượng tờ khai và kim ngạch hàng hóa xuất khâu, nhập khẩu của ViệtNam (chỉ tính hàng hóa mậu dịch) trong một số năm gần đây, được cho trong bảng số liệu
dưới đây:
Bảng 2.1: Số lượng tờ khai và kim ngạch hàng hóa XNK của Việt Nam
Năm To khai (triệu tờ) Trị giá (ty USD)
Trang 13- Cho phép thực hiện khai thác dữ liệu đa chiều, linh hoạt;
- Triển khai các báo cáo dạng phân tích dữ liệu trực tuyến
b) Phạm vi cua bài toán:
Dữ liệu chỉ bao bồm dữ liệu của các tờ khai xuất nhập khẩu nhằm mục đích thươngmại (còn gọi là tờ khai mậu dịch) Các tờ khai phi mậu dịch có kim ngạch rất nhỏ, chỉ chiếmkhoảng 0,1% số với tổng kim ngạch chung và hiện chưa được thu thập đầy đủ nên không
đưa vao trong phạm vi của luận văn.
2.2 Xây dựng kho dữ liệu thống kê hàng hóa xuất nhập khẩu tại Tổng cục Hải
quan
2.2.1 Mô tả yêu cầu của ứng dụng
Ứng dụng được xây dựng cần:
- Hỗ trợ và tô chức khai thác dữ liệu hướng đối tượng, cung cấp khả năng khai thác
đữ liệu ở nhiều mức khác nhau: tổng hợp hoặc chi tiết; theo nhiều chiều khác nhau, ;
- Cho phép khai thác dữ liệu hiện thời, số liệu so sánh và số liệu lịch sử;