Nghiên cứu luật kết hợp, thử nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu

83 134 0
Nghiên cứu luật kết hợp, thử nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐỨC TOẢN NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐỨC TOẢN NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHÙNG VĂN ỔN Hà Nội - 2015 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Đức Toản LỜI CẢM ƠN Để có đƣợc kết nhƣ ngày hơm nay, tơi muốn gửi lời cảm ơn đến thầy cô giáo trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội quan tâm tổ chức đạo trực tiếp giảng dạy khố cao học chúng tơi Đặc biệt, xin gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS Phùng Văn Ổn, ngƣời tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Nếu khơng có giúp đỡ thầy tơi khó hồn thành đƣợc luận văn Cũng qua đây, xin gửi lời cảm ơn đến Anh/Chị/Em Trung tâm phần mềm Hải quan thuộc công ty Hệ thống thông tin FPT, nơi công tác, tạo điều kiện thuận lợi cho thời gian hồn thành mơn học nhƣ suốt trình làm luận văn tốt nghiệp Cuối cùng, xin cảm ơn bố mẹ, bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Hà Nội, ngày tháng năm 2015 MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Khái niệm Khai phá liệu 1.1.2 Quá trình khai phá liệu 1.1.3 Kiến trúc hệ thống khai phá liệu 1.1.4 Nhiệm vụ khai phá liệu 1.1.5 Các phƣơng pháp khai phá liệu 1.1.6 Các sở liệu khai phá 14 1.2 Ứng dụng khai phá liệu 15 1.3 Một số khó khăn thách thức khai phá liệu 16 1.3.1 Các vấn đề sở liệu 16 1.3.2 Một số vấn đề khác 19 1.4 Kết luận 20 CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 21 2.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 21 2.2 Lý thuyết luật kết hợp 21 2.2.1 Luật kết hợp 22 2.2.2 Một số tính chất luật kết hợp 25 2.3 Đặc tả toán khai phá luật kết hợp 26 2.4 Một số thuật toán khai phá luật kết hợp 27 2.4.1 Tìm tập mục phổ biến (Pha 1) 27 2.4.2 Sinh luật từ tập mục phổ biến 36 2.5 Một số hƣớng tiếp cận khai phá luật kết hợp 38 2.5.1 Luật kết hợp nhị phân (binary association rule boolean association rule) 38 2.5.2 Luật kết hợp có thuộc tính số thuộc tính danh mục (quantitative and categorial association rule) 38 2.5.3 Luật kết hợp tiếp cận theo hƣớng tập thô (mining association rules base on rough set) 38 2.5.4 Luật kết hợp nhiều mức (multi-level association rules) 38 2.5.5 Luật kết hợp mờ (fuzzy association rule) 39 2.5.6 Luật kết với thuộc tính đƣợc đánh trọng số (association rule with weighted items) 39 2.5.7 Luật kết hợp song song (parallel mining of association rules) 39 2.6 Một số giải pháp triển khai khai phá luật kết hợp 40 2.6.1 Xây dựng chƣơng trình dựa thuật tốn Apriori 40 2.6.2 Sử dụng công cụ Weka 42 2.6.3 Sử dụng công cụ Business Intelligence Development Studio (BIDS)45 2.7 Kết luận 46 CHƢƠNG 3: THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP CHO CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU 47 3.1 Giới thiệu toán 47 3.2 Mô tả liệu 48 3.2.1 Mơ hình liệu 49 3.2.2 Danh sách bảng mô tả 50 3.3 Phân tích liệu 61 3.4 Lựa chọn giải pháp 62 3.5 Tiền xử lý liệu 62 3.6 Khai phá sở liệu xuất nhập với BIDS 63 3.6.1 Tạo Mining Model structure 63 3.6.2 Hiệu chỉnh tham số cho mơ hình 65 3.6.3 Khám phá Mining Models 65 3.7 Đánh giá kết 71 3.8 Kết luận 71 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tên viết tắt BIDS Diễn giải Business Intelligence Development Studio Công cụ khai thác liệu Micosoft Ck Tập k-itemset ứng viên (Candidate sets) Conf Độ tin cậy (Confidence) CSDL Cơ sở liệu D Cơ sở liệu giao dịch Di Phần thứ i sở liệu D Item Mục Itemset Tập mục k-itemset Tập mục gồm k mục Lk Tập k-itemset phổ biến Minconf Ngƣỡng tin cậy tối thiểu (minimum confidence) Minsup Ngƣỡng hỗ trợ tối thiểu (minimum support) Sup Độ hỗ trợ (Support) T Giao dịch (Transaction) TID Định danh giao dịch (Unique Transaction Identifer) XY Luật kết hợp (Với X tiền đề, Y hệ quả) XNK Xuất nhập DANH MỤC CÁC BẢNG Bảng 2.1 Ví dụ sở liệu dạng giao dịch - D 23 Bảng 2.2 Các tập phổ biến CSDL bảng với độ hỗ trợ tối thiểu 50% 23 Bảng 2.3 Một số ký hiệu dùng thuật toán Apriori 28 Bảng 3.1 Danh sách bảng mô tả 50 Bảng 3.2 Thông tin tờ khai 51 Bảng 3.3 Thơng tin hàng hóa 52 Bảng 3.4 Thơng tin hàng hóa chi tiết 53 Bảng 3.5 Thông tin chung tờ khai trị giá 53 Bảng 3.6 Thông tin tờ khai trị giá phương pháp 54 Bảng 3.7 Thông tin chi tiết tờ khai trị giá phương pháp 55 Bảng 3.8 Thông tin tờ khai trị giá phương pháp 56 Bảng 3.9 Thông tin tờ khai trị giá phương pháp 56 Bảng 3.10 Thông tin tờ khai trị giá phương pháp 57 Bảng 3.11 Thông tin tờ khai trị giá phương pháp 58 Bảng 3.12 Thông tin kiểm tra hồ sơ tờ khai 58 Bảng 3.13 Thơng tin kiểm hóa tờ khai 58 Bảng 3.14 Thông tin chứng nhận xuất xứ hàng hóa 59 Bảng 3.15 Thông tin chi tiết chứng nhận xuất xứ hàng hóa 59 Bảng 3.16 Thơng tin chứng từ đính kèm tờ khai 59 Bảng 3.17 Thông tin cấp số tờ khai 60 Bảng 3.18 Danh sách bảng liệu khai phá 61 Bảng 3.19 Thông tin chi tiết mã HS 70 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Q trình khai phá liệu Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 2.1 Minh họa thuật tốn Apriori tìm tập mục phổ biến 33 Hình 2.2 Sinh luật từ tập mục phổ biến 36 Hình 2.3 Sinh luật từ tập mục phổ biến 40 Hình 2.4 Sinh luật từ tập mục phổ biến 41 Hình 2.5 Giao diện chương trình Weka 42 Hình 2.6 Giao diện môi trường Explorer 43 Hình 2.7 Ví dụ tập liệu có khn dạng ARFF 44 Hình 3.1 Mơ hình liệu tốn 49 Hình 3.2 Danh sách bảng danh mục 60 Hình 3.3 Thơng tin quản lý mã HS 61 Hình 3.4 Mơ hình quan hệ bảng liệu khai phá 62 Hình 3.5 View liệu tiền xử lý 63 Hình 3.6 Cấu hình Case Nested cho mơ hình 64 Hình 3.7 Màn hình Mining Models 64 Hình 3.8 Cấu hình tham số Mining Models 65 Hình 3.9 Danh sách tập phổ biến 66 Hình 3.10 Danh sách luật 67 Hình 3.11 Mạng phụ thuộc 68 Hình 3.12 Chi tiết node mạng phụ thuộc 68 MỞ ĐẦU Đặt vấn đề Ngày nay, ngƣời sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm cho kho liệu tăng lên nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lƣợng liệu khổng lồ thành tri thức có ích Mặt khác, mơi trƣờng cạnh tranh ngƣời ta ngày cần có thơng tin với tốc độ nhanh để giúp cho việc định Hơn ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Tiến hành cơng việc nhƣ q trình phát tri thức sở liệu, kỹ thuật khai phá liệu cho phép phát tri thức tiềm ẩn Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời Công nghệ thơng tin giới nói chung Việt Nam nói riêng Rất nhiều tổ chức cơng ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Từ vấn đề nêu trên, chọn đề tài “Nghiên cứu luật kết hợp, thử nghiệm khai phá sở liệu xuất nhập khẩu” để làm luận văn tốt nghiệp Mục tiêu luận văn  Tìm hiểu khái quát khai phá liệu  Đi sâu tìm hiểu luật kết hợp  Nghiên cứu Data mining hệ quản trị sở liệu SQL Server  Thử nghiệm khai phá luật kết hợp sở liệu xuất nhập 3.2.2.16 Bảng KD_CapSoTK Allow nulls Primary Key Description varchar (50) No Yes Mã đơn vị hải quan mở tờ khai MA_LH varchar (50) No Yes Mã loại hình XNK NAM_DK int (4) No Yes SO_MAX int (4) No Năm đăng ký tờ khai Số tờ khai lớn theo tiêu Field name Data type MA_HQ Default value Bảng 3.17 Thơng tin cấp số tờ khai Ngồi có bảng danh mục nhƣ sau class Data Model STINHTP «column» *PK MaTinhTP: varchar(50) * TenTinhTP: nvarchar(50) «PK» + PK _1 15(varchar) SNGUONTT STHKE «column» * ID: int TEN_HANG: nvarchar(50) MA_THKE: varchar(10) MA_HANG: varchar(12) * IS_NHAP: bit * IS_XUAT: bit MA_DVT: varchar(50) TEN_DVT: nvarchar(50) CONGDONLG: decimal(18) CONGDONTG: money TEN_NHOM: nvarchar(255) «column» *PK MA_NGUON_TT: char(2) * MO_TA: nvarchar(250) SNGTE «PK» + PK_SNGUONTT(char) «column» *PK Ma_NT: varchar(50) * Ten_NT: nvarchar(50) Tygia_VND: money = ((0)) «PK» + PK _1 12(varchar) SLHINHPMD «column» *PK Ma_LH: varchar(6) * Ten_LH: nvarchar(255) Ten_VT: nvarchar(50) «PK» + PK _2 16(varchar) SLHINHMD «column» * Nhom_LH: varchar(50) *PK Ma_LH: varchar(6) * Ten_LH: nvarchar(50) * Ten_VT: nvarchar(50) * LH_ND: tinyint = ((0)) * So_TT: int SPTVT SPTTT «column» *PK Ma_PTVT: varchar(3) * Ten_PTVT: nvarchar(50) «column» *PK Ma_PTTT: varchar(10) GhiChu: nvarchar(50) «PK» + PK _6 12(varchar) «PK» + PK _7 12(varchar) SMATHKE SNUOC «column» *PK Ma_Nuoc: varchar(50) * Ten_Nuoc: nvarchar(50) Ma_NT: varchar(50) «PK» + PK _8 12(varchar) SLOAIHQ SLOAIDG «column» *PK MA_THKE: varchar(10) * TEN_HANG: nvarchar(50) * IS_NHAP: bit * IS_XUAT: bit * MA_DVT: varchar(50) * TEN_DVT: nvarchar(50) TEN_NHOM: nvarchar(255) CONGDONLG: numeric(18) CONGDONTG: money «column» *PK Ma_Loai: varchar(3) * Ten_Loai: nvarchar(50) «PK» + PK _10 12(varchar) SNHOMLHMD «column» *PK Ma_NLH: varchar(50) * Ten_NLH: nvarchar(50) «PK» + PK _9 12(varchar) SLOAICK «column» *PK Ma_DG: varchar(50) GhiChu: nvarchar(50) «column» *PK Ma_Loai: varchar(3) * Ten_Loai: nvarchar(50) «PK» + PK _2 12(varchar) «PK» + PK_SLOAICK_1 22(varchar) «PK» + PK_SMATHKE_1 13(varchar) SLHINHDN «column» *PK MaLH_DN: varchar(50) * TenLH_DN: nvarchar(50) TenVT: nvarchar(50) «PK» + PK _1 16(varchar) SHIEPDINH «column» *PK Ma: varchar(50) Ten: nvarchar(80) «PK» + PK_SHIEPDINH(varchar) SHAIQUAN «column» *PK Ma_HQ: varchar(50) * Ten_HQ: nvarchar(255) * Cap_HQ: tinyint = ((0)) «PK» + PK _1 19(varchar) SDVT «column» *PK Ma_DVT: varchar(50) * Ten_DVT: nvarchar(50) Ma_Std: varchar(50) TL_QuyDoi: numeric(15,6) «PK» + PK _4 12(varchar) «PK» + PK_SLHINHMD_1 12(varchar) SDONVI «column» *PK Ma_DV: varchar(50) * Ten_DV: nvarchar(255) Ten_GD: nvarchar(255) * MaLHDN: varchar(50) TWDP: varchar(50) NoiQuanLy: varchar(50) SoGPKD: nvarchar(50) NgayCapGPKD: datetime DiaChi: nvarchar(50) DienThoai: nvarchar(50) Fax: nvarchar(50) GiamDoc: nvarchar(50) KeToan: nvarchar(50) TaiKhoan: nvarchar(50) PPT_GTGT: char(1) Nhom_CQ: nvarchar(50) TT_DV: varchar(5) * So_TT: int MLNSChuong: varchar(50) SoGC: nvarchar(50) SDMUCHS «column» *PK ID: int Ma_HS: varchar(50) MaNhom: varchar(10) MaMuc: varchar(10) MaPhan: varchar(10) MoTa_VN: nvarchar(255) Mota_EN: nvarchar(255) CoGiaiThich: bit SDKGH SCUCHQ «column» *PK Ma_GH: varchar(10) GhiChu: nvarchar(255) «column» *PK Ma_CUC: varchar(50) * Ten_CUC: nvarchar(255) «PK» + PK _13 12(varchar) «PK» + PK _14 12(varchar) SCUAKHAU «column» *PK Ma_CK: varchar(50) * Ten_CK: nvarchar(255) * Ma_Cuc: varchar(10) «PK» + PK_SCUAKHAU_1 13(varchar) «PK» + PK_SDMUCHS(int) «PK» + PK_SDONVI_1 12(varchar) Hình 3.2 Danh sách bảng danh mục 60 SBNDP «column» *PK Ma_BNDP: varchar(3) * Ten_BNDP: nvarchar(255) «PK» + PK_SBNDP_1 22(varchar) 3.3 Phân tích liệu Trong CSDL Xuất nhập bảng KD_ToKhai bảng trung tâm để lƣu thông tin chung, danh sách hàng hóa đƣợc lƣu bảng KD_Hàng, thêm vào tờ khai có thơng tin chứng nhận, giấy phép, hợp đồng tờ khai trị giá cho mặt hàng đƣợc lƣu bảng vệ tinh mơ hình Ngồi để phục vụ cơng tác quản lý có thêm bảng lƣu thông tin trạng thái thông tin ghi nhận nhƣ KD_CapSoTK, KD_KiemTraHoSo, KD_KiemHoa, CSDL Xuất nhập CSDL quan hệ đƣợc lƣu trữ quản hệ quản trị CSDL SQL Server 2008 Microsoft Nó mang tính chất CSDL giao tác (Transaction database) Dữ liệu tờ khai đƣợc lƣu trữ theo dạng - nhiều (một tờ khai có nhiều thơng tin hồng hóa) Mỗi mặt hàng tờ khai đƣợc định danh theo mã HS Các mặt hàng theo mã HS nằm nhiều tờ khai khác Các mã HS đƣợc quản lý cập nhật dựa thay đổi tổ chức Hải quan quốc tế Từ mã HS ta biết đƣợc thơng tin hàng hóa đƣợc phân loại vào phần nào, nhóm nào, mục giải thích liên quan Ví dụ với mã 85171200 ta có thơng tin sau Hình 3.3 Thơng tin quản lý mã HS Trong phạm vị toán sử dụng bảng sau TT Tên bảng/View KD_ToKhai Mô tả Bảng lƣu thông tin chung tờ khai KD_Hang Bảng lƣu thông tin hàng tờ khai SDMUCHS Bảng lƣu thông tin danh mục mã HS Bảng 3.18 Danh sách bảng liệu khai phá 61 Mỗi tờ khai chứa nhiều dòng hàng ta có hệ bảng KD_ToKhai KD_Hang quan hệ nhiều theo mơ hình sau: Hình 3.4 Mơ hình quan hệ bảng liệu khai phá 3.4 Lựa chọn giải pháp Ở chƣơng tìm hiểu phƣơng pháp triển khai khai phá luật kết hợp, với CSDL Xuất nhập xin đề xuất sử dụng công cụ Business Intelligence Development Studio (BIDS) phù hợp lý sau: - CSDL XNK lƣu trữ hệ quản trị SQL Server mà BIDS lại tích hợp ln với SQL Server - Dữ liệu cần khai phá lƣu trữ bảng theo dạng - nhiều (việc tự xây dựng chƣơng trình sử dụng weka chủ yếu sử dụng bảng phẳng chứa tồn thơng tin) - Số lƣợng ghi liệu tƣơng đối lớn, tự xây dựng sử dụng Weka gặp khó vấn đề performance - Việc tiền xử lý liệu cho BIDS SQL Server thuận tiện 3.5 Tiền xử lý liệu Sau chọn đƣợc giải pháp ta cần tiến hành tiền xử lý liệu để giảm số lƣợng ghi không liên quan thuận tiện cho trình khai phá Do thông tin tờ khai thông tin hàng quan hệ nhiều với thông qua key(MA_HQ, MA_LH, NAM_DK, SO_TK) nên khó khăn 62 việc áp dụng BIDS nên ta tạo key dựa key với tên KeyTK= MA_HQ+ MA_LH+NAM_DK+SO_TK Ngoài cần giới hạn phạm vi liệu khai phá số lƣợng trƣờng hiển thị nên tao tƣơng ứng cho bảng tờ khai bảng hàng Sau tiền xử lý ta có View liệu nhƣ sau Hình 3.5 View liệu tiền xử lý 3.6 Khai phá sở liệu xuất nhập với BIDS Cũng nhƣ qui trình xây dựng Data Mining Model khác, qui trình xây dựng mơ hình khai phá luật kết hợp với BIDS theo bƣớc sau: - Tạo Mining Model structure - Hiệu chỉnh model - Khai phá liệu từ Model 3.6.1 Tạo Mining Model structure Trƣớc tiên, tạo Analysis Services Project với tên “CIS.AssociationRule” tạo kết nối liệu, tạo Data Source Data Source view gồm liệu views vToKhai vHang Trong cửa sổ Solution Explorer, right-click Mining Structures, click New Mining Structure Click Next Click From existing relational database or data warehouse, click Next, 63 Trong mục What data mining technique you want to use?, chọn Microsoft Association Rules, Click Next, Trong mục Select data source view chọn CIS_WORKING Chọn Case vToKhai Nested vHang, lick Next, Thiết chọn thuộc tính Key, Input Predictable cho mơ hình Hình 3.6 Cấu hình Case Nested cho mơ hình Click Next, 10 Click Next, 11 Đặt tên cho Mining Structures Click Finish; ta có hình Mining Models nhƣ sau: Hình 3.7 Màn hình Mining Models 64 3.6.2 Hiệu chỉnh tham số cho mơ hình Trong cửa sổ Mining Models, bấm phím phải chuột vào Microsoft Association Rules chọn Set Algorithm Parameters thiết lập giá trị tham số MINIMUM_PROBABILITY 0.1 MINIMUM_SUPPORT 0.01 nhƣ sau: Hình 3.8 Cấu hình tham số Mining Models 3.6.3 Khám phá Mining Models Sau hiệu chỉnh tham số Mining Models, bấm F5 để thực mơ hình Kết Microsoft Association Rules thể Tab Mining Models Viewer nội dung Itemsets, Rules, Dependency Net Itemsets: Itemsets cho biết thông tin quan trọng luật kết hợp nhƣ Support (độ hỗ trợ luật kết hợp), Size (Số items Itemsets) Để hiển thị Itemsets có chứa item (ví dụ mã HS 5401100000) nhập Filter Itemset 65 Hình 3.9 Danh sách tập phổ biến Hình với Itemsets có Support 1896 gồm items 5401100000 5807900000 có nghĩa tất giao dịch có 1896 giao dịch doanh nghiệp nhập loại hàng 5401100000 nhập loại hàng 5807900000 Rules Tab: Phần trình bày luật kết hợp đƣợc phát mơ hình Các thông tin luật kết hợp bao gồm: - Probability: Cho biết xác suất xảy luật - Importance: Đo lƣờng tính hữu dụng luật, giá trị cao luật kết hợp tốt - Rules: Phần thể luật kết hợp dạng X=>Y 66 Hình 3.10 Danh sách luật Các luật cho biết kết hợp items cở sở liệu giao dịch Chẳn hạn luật kết hợp thứ cho bạn biết doanh nghiệp nhập sản phẩm 5901909000 5604100000 ngƣời ln nhập sản phẩm 5807900000 với xác suất 92% Dependency Net (Mạng phụ thuộc) Sử dụng Dependency Net cho phép bạn hiểu đƣợc tác động items khác Model Mỗi Node Dependency Net thể Item, cách chọn item bạn thấy đƣợc items khác đƣợc xác định Item chọn (hoặc dùng để xác định Item chọn) model Ta kéo trƣợt (Slile) bên phải để xem mức độ kết hợp (mạnh hay yếu) giữ Items model 67 Hình 3.11 Mạng phụ thuộc Trong Dependency Net, chọn Node 5901909000 ta thấy Item 5901909000 đƣợc dự đốn items khác 5407690000 5806399000 5901909000 đƣợc dùng để dự đoán Items 5407690000 5806399000 (Dấu mũi tên chiều, xem hình dưới) Hình 3.12 Chi tiết node mạng phụ thuộc Kết Microsoft Association Rules cho ta mối quan hệ tƣơng quan theo mã mặt hàng, từ mã tham chiếu vào bảng danh mục HS ta có mặt hàng tƣơng ứng sau: 68 TT Mã HS 5401100000 Mô tả 54: Sợi filament nhân tạo; sợi dạng dải dạng tƣơng tự từ nguyên liệu dệt nhân tạo 5401: Chỉ khâu làm từ sợi filament nhân tạo, chƣa đóng gói để bán lẻ 540110: Từ sợi filament tổng hợp 5807900000 58: Các loại vải dệt thoi đặc biệt; loại vải dệt chần sợi vòng; hàng ren; thảm trang trí; hàng trang trí; hàng thêu 5807: Các loại nhãn, phù hiệu mặt hàng tƣơng tự từ vật liệu dệt, dạng chiếc, dạng dải cắt theo hình kích cỡ, khơng thêu 58079000: Loại khác 5901909000 59: Các loại vải dệt đƣợc ngâm tẩm, tráng, phủ ép lớp; mặt hàng dệt thích hợp dùng công nghiệp 5901 Vải dệt đƣợc tráng keo hồ tinh bột, dùng để bọc ngồi bìa sách loại tƣơng tự; vải can; vải bạt xử lý để vẽ; vải hồ cứng loại vải dệt đƣợc làm cứng tƣơng tự để làm cốt mũ 5604100000 590190 - Loại khác: 59019090 - - Loại khác 56: Mền xơ, phớt sản phẩm không dệt; loại sợi đặc biệt; sợi xe, sợi coóc (cordage), sợi xoắn thừng, sợi cáp sản phẩm 69 TT Mã HS Mô tả chúng 5604 Chỉ cao su sợi (cord) cao su, đƣợc bọc vật liệu dệt; sợi dệt, dải dạng tƣơng tự thuộc nhóm 54.04 54.05, ngâm tẩm, tráng, phủ bao cao su plastic 56041000 - Chỉ cao su sợi (cord) cao su, đƣợc bọc vật liệu dệt 5806399000 58: Các loại vải dệt thoi đặc biệt; loại vải dệt chần sợi vòng; hàng ren; thảm trang trí; hàng trang trí; hàng thêu 5806 Vải dệt thoi khổ hẹp, trừ loại hàng thuộc nhóm 58.07; vải khổ hẹp gồm tồn sợi dọc khơng có sợi ngang liên kết với chất keo dính (bolducs) - Vải dệt thoi khác: 580639 - - Từ vật liệu dệt khác: - - - Loại khác: 58063991 - - - - Làm cho giấy cách điện 58063999 - - - - Loại khác Bảng 3.19 Thông tin chi tiết mã HS Điều có nghĩa hàng hóa có khả đƣợc nhập Các thơng tin giúp cho quan Hải quan công tác quản lý nhƣ kiểm tra hàng hóa tờ khai, dự đốn cung cấp thơng tin tình hình xuất nhập quan Hải quan 70 3.7 Đánh giá kết Công cụ BIDS giúp cho việc thực khai phá luật kết hợp cho sở liệu xuất nhập đƣợc dễ dàng Đã đƣa đƣợc thông tin tập phổ biến (Itemset), phát đƣợc luật kết hợp chứa sở liệu Chẳng hạn doanh nghiệp nhập mặt hang vải dệt cứng dùng công nghiệp(mã 5901909000) cao su, sợi plastic(mã 5604100000) họ ln nhập loại vải trang trí, hang ren, hàng thêu(mã 5807900000) làm trang trí, nhãn hiệu, phù hiệu Từ cung cấp thông tin cho doanh nghiệp nƣớc biết đƣợc nhu cầu, xu hƣớng để chuẩn bị, sản xuất cung cấp mặt hàng giúp cho doanh nghiệp nhập mà lại phát triển đƣợc ngành công nghiệp phụ trợ Nếu phát đƣợc nhiều liều kết hợp nhƣ có nhiều thơng tin cung cấp cho ban ngành khác để dự doán, phát triển ngành hàng nƣớc để cung cấp cho đơn vị nhập khẩu, vừa nhập vừa phát triển kinh tế nƣớc Điều mang lại ý nghĩa lợi ích to lớn Q trình khai phá thử nghiệm với CSDL xuất nhập với số lƣợng 212432 tờ khai năm 2011 với 22 đơn vị Hải quan Số lƣợng ghi không lớn thời gian xử lý tƣơng đối nhỏ nhanh 3.8 Kết luận Cơ sở liệu xuất nhập quan Hải quan sở liệu lớn, chứa nhiều thông tin quan trọng tình hình xuất nhập hàng hóa cá nhân doanh nghiệp nƣớc Các thơng tin CSDL đóng góp nhiều vào công tác thông tin, dự báo, điều chỉnh định hƣớng phát triển kinh tế xã hội quan chức Tuy nhiên dừng mức thống kê báo cáo, thiếu cơng tác phát hiện, phân tích mối quan hệ, mối tƣơng quan thành phần thông tin sở liệu Trong chƣơng vừa qua đã áp dụng công cụ BIDS để thử nghiệm khai phá phát mối quan hệ tƣơng quan mặt hàng trình nhập doanh nghiệp cách nhanh chóng thuận tiện Kết cộng với nhiều tính đƣợc giới thiệu cơng cụ BIDS chƣơng giúp có lựa chọn tốt BIDS tiến hành khai phá liệu CSDL quan hệ dựa hệ quản trị SQL Server Microsoft 71 KẾT LUẬN Luận văn đề cập đến vấn đề khai phá liệu nói chung chi tiết cho khai phá luật kết hợp nói riêng Đây vấn đề đƣợc quan tâm nghiên cứu nhằm giúp khai thác sử dụng thông tin cách hiệu thời đại bùng nổ thông tin nhƣ Qua thời gian học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, luận văn đạt đƣợc số kết cụ thể hƣớng phát triển nhƣ sau: Kết đạt Về lý thuyết, luận văn trình bày tổng quan khai phá liệu sâu trình bày nội dung khai phá luật kết hợp Về thuật tốn, luận văn trình bày thuật tốn pha trình khai phá liệu nhƣ Apriori thuật toán họ Apriori, thuật toán sinh luật kết hợp Về thử nghiệm, luận văn thực khai phá luật kết hợp công cụ BI Microsoft cho sở liệu xuất nhập nhằm phát mối quan hệ, kết hợp hay mối tƣơng quan hàng hóa xuất nhập để phục cơng tác quản lý, dự đốn cung cấp thơng tin tình hình xuất nhập quan Hải quan Hướng phát triển Luận văn tiếp tục nghiên cứu hoàn thiện chƣơng trình để áp dụng vào thực tế cách tốt nhất, theo bƣớc trình khai phá liệu nhƣ sau: 1- Chọn lọc liệu (chọn lọc, trích rút liệu cần thiết từ CSDL), 2- Làm liệu (chống trùng lặp giới hạn vùng giá trị), 3- Làm giàu liệu, 72 4- Khai thác tri thức từ liệu (tìm tác vụ phát luật kết hợp, trình chiếu báo cáo), 5- Chọn liệu có ích áp dụng vào hoạt động thực tế Tiếp tục nghiên cứu lý thuyết thuật toán khai phá liệu khác để khai thác triệt để thơng tin có sở liệu, giúp quan ban ngành khác có đƣợc thơng tin định hƣớng hỗ trợ định kịp thời để góp phần phát triển kinh tế đất nƣớc Trong trình thực luận văn, cố gắng tập trung tìm hiểu vấn đề cốt lõi đề tài Tuy nhiên trình độ có hạn thời gian không cho phép nên không tránh có hạn chế thiếu sót Tơi hy vọng nhận đƣợc nhận xét góp ý thầy cô giáo, bạn bè, đồng nghiệp ngƣời quan tâm để hồn thiện nghiên cứu 73 TÀI LIỆU THAM KHẢO Tiếng Việt Bộ môn Hệ thống thông tin, Bài giảng khai phá liệu, Khoa Công nghệ thông tin, Trƣờng Đại học Hàng hải Việt Nam Giang Thị Thu Huyền, Nghiên cứu luật kết hợp song song khai phá liệu - Luận văn thạc sĩ CNTT, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội Đỗ Phúc (2006), Giáo trình khai thác liệu, NXB Đại học Quốc gia TP Hồ Chí Minh Tiếng Anh John Wiley & Sons (2003) - Data Mining-Concepts Models Methods and Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc J Han and M Kamber (2006), Data Mining: Concepts and Techniques, 2nd Edition, Morgan Kaufmann Publishers Rakesh Agrawal, Ramakrishnan Srikant, Fast algorithms for mining association rules, ©Ofer Pasternak, Data Mining Seminar 2003 74 ... tắt luật kết hợp, mơ hình tốn khai phá luật kết hợp, khái niệm luật kết hợp, phƣơng pháp khai phá luật kết hợp, giải pháp triển khai khai phá luật kết hợp Chƣơng 3: Thử nghiệm khai phá luật kết. .. thuật khai phá liệu thành tựu nhƣ thách thức khai phá liệu Trong phƣơng pháp khai phá liệu, khai phá luật kết hợp lĩnh vực đƣợc quan tâm nghiên cứu rộng rãi 20 CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ...  Tìm hiểu khái quát khai phá liệu  Đi sâu tìm hiểu luật kết hợp  Nghiên cứu Data mining hệ quản trị sở liệu SQL Server  Thử nghiệm khai phá luật kết hợp sở liệu xuất nhập Bố cục luận văn

Ngày đăng: 07/12/2017, 16:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan