1. Trang chủ
  2. » Công Nghệ Thông Tin

Phương pháp phân vùng phân cấp trong khai thác tập trung phổ biến

69 137 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,43 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - HOÀNG TRUNG THÔNG PHƢƠNG PHÁP PHÂN VÙNG PHÂN CẤP TRONG KHAI THÁC TẬP PHỔ BIẾN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - HOÀNG TRUNG THÔNG PHƢƠNG PHÁP PHÂN VÙNG PHÂN CẤP TRONG KHAI THÁC TẬP PHỔ BIẾN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: PGS.TS LÊ TRỌNG VĨNH TP HỒ CHÍ MINH, tháng 03 năm 2015 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : PGS.TS LÊ TRỌNG VĨNH (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày 11 tháng 04 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS.TS Đỗ Phúc Chủ tịch TS Võ Đình Bảy Phản biện TS Lƣ Nhật Vinh Phản biện PGS.TS Lê Hoàng Thái Ủy viên TS Lê Tuấn Anh Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 14 tháng 03 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Hoàng Trung Thông Ngày, tháng, năm sinh: 06 / 09 /1975 I- Tên đề tài: Nơi sinh: Sơn La Công Nghệ Thông Tin Chuyên ngành: Giới tính: Nam MSHV: 1341860025 PHƢƠNG PHÁP PHÂN VÙNG PHÂN CẤP TRONG KHAI THÁC TẬP PHỔ BIẾN II- Nhiệm vụ nội dung: Phân vùng thứ bậc để khai thác tập phổ biến sở liệu lớn: - Khai thác tập phổ biến, cách tiếp cận - Cơ sở liệu có kích thƣớc lớn - Phƣơng pháp phân vùng, phân cấp liệu hệ thống nhiều máy - Áp dụng phƣơng pháp phân vùng phân cấp vào toán khai thác tập phổ biến - Xây dựng chƣơng trình demo III- Ngày giao nhiệm vụ: 18/08/2014 IV- Ngày hoàn thành nhiệm vụ: 14/03/2015 V- Cán hƣớng dẫn: PGS.TS LÊ TRỌNG VĨNH CÁN BỘ HƢỚNG DẪN PGS TS Lê Trọng Vĩnh KHOA QUẢN LÝ CHUYÊN NGÀNH I LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tôi, với hƣớng dẫn Thầy PGS.TS LÊ TRỌNG VĨNH đóng góp ý kiến thầy TS CAO TÙNG ANH Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Hoàng Trung Thông II LỜI CÁM ƠN Lời xin cám ơn chân thành sâu sắc đến Thầy PGS.TS LÊ TRỌNG VĨNH , Thầy dành nhiều thời gian hƣớng dẫn cách tận tâm, sâu sát giúp vƣợt qua thời điểm khó khăn luận văn Tôi xin gởi lời cảm ơn đến thầy TS CAO TÙNG ANH có đóng góp ý kiến quý báu cho luận văn Tiếp theo xin gởi lời cám ơn chân thành trân trọng đến quý Thầy Cô Khoa CNTT Trƣờng Đại Học Công Nghệ Tp.HCM truyền đạt nhiều kiến thức quý báu cho suốt trình học tập trƣờng Xin cám ơn gia đình, bạn học, bạn hữu, đồng nghiệp có góp ý động viên suốt thời gian qua TP Hồ Chí Minh, tháng 03/2015 III TÓM TẮT Mặc dù có nhiều phƣơng pháp đƣợc đề xuất để nâng cao hiệu khai thác liệu nhƣng có nghiên cứu khả mở rộng - vấn đề khai thác tập phổ biến kích thƣớc CSDL lớn Nghiên cứu [14] đề xuất phƣơng pháp phân vùng thứ bậc để khai thác tập phổ biến CSDL lớn dựa cấu trúc liệu gọi Danh sách mẫu phổ biến (FPL) Một tính FPL khả phân vùng sở liệu để chuyển đổi CSDL thành tập CSDL có kích thƣớc quản lý đƣợc Kết cách tiếp cận chia để trị đƣợc phát triển để thực nhiệm vụ khai thác liệu mong muốn Kết cho thấy phân vùng thứ bậc có khả khai thác tập phổ biến tập phổ biến đóng CSDL lớn IV ABSTRACT Although many methods have been proposed to enhance the efficiencies of data mining, little research has been devoted to the issue of scalability – that is, the problem of mining frequent itemsets when the size of the database is very large This study proposes a methodology, hierarchical partitioning, for mining frequent itemsets in large databases, based on a novel data structure called the Frequent Pattern List (FPL) One of the major features of the FPL is its ability to partition the database, and thus transform the database into a set of sub-databases of manageable sizes As a result, a divide-and-conquer approach can be developed to perform the desired data-mining tasks Experimental results show that hierarchical partitioning is capable of mining frequent itemsets and frequent closed itemsets in very large databases V MỤC LỤC MỞ ĐẦU 1 Đặt vấn đề Tính cấp thiết đề tài Mục tiêu đề tài Bố cục luận văn CHƢƠNG GIỚI THIỆU VỀ KHAI THÁC DỮ LIỆU, CƠ SỞ DỮ LIỆU KÍCH THƢỚC LỚN 1.1 Tổng Quan khai thác liệu 1.1.1 Mục tiêu khai thác liệu 1.1.2 Các bƣớc trình khai thác liệu [12] 1.1.3 Các dạng liệu khai thác đƣợc [12] 1.1.4 Hƣớng tiếp cận kỹ thuật khai thác liệu [12] 1.1.5 Phân loại hệ thống khai thác liệu[3] 1.1.6 Ứng dụng khai thác liệu[3] 1.2 Cơ Sở Dữ Liệu Kích Thƣớc Lớn 10 CHƢƠNG KHAI PHÁ TẬP PHỔ BIẾN 13 2.1 Phƣơng pháp tìm tập phổ biến 13 2.2 Thuật toán Apriori 13 2.3 Phƣơng pháp dựa c y P-Tree 16 2.3.1 Cấu trúc P-Tree [4], [6] 16 2.3.2 Xây dựng P-tree 17 2.3.3 Phép chiếu FP-tree 23 2.3.4 Tìm tập phổ biến với thuật toán FP-growth 24 CHƢƠNG PHƢƠNG PHÁP PHÂN VÙNG, PHÂN CẤP TRONG KHAI PHÁ TẬP PHỔ BIẾN 33 3.1 Giới thiệu 33 3.2 Danh sách mẫu phổ biến ( PL) dùng để khai thác tập phổ biến 34 3.3 Phân vùng thứ bậc với danh sách mẫu phố biến 38 VI 3.3.1 Một ví dụ phân vùng thứ bậc 39 3.3.2 Các thuật toán để phân vùng thứ bậc CSDL khai thác tập phổ biến 44 3.4 Kết thực nghiệm phân vùng phân cấp 47 CHƢƠNG KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI 52 41 phân vùng Sub-DB’p thành tập CSDL cấp thứ 2, đƣợc mô tả bƣớc Bƣớc 3: Vì PL phân vùng sở liệu nên trình phân vùng CSDL Sub-DB’p giống nhƣ xây dựng PL cho Sub-DB’p, ngoại trừ nút mục đƣợc coi nhƣ CSDL cấp thứ đƣợc lƣu trữ đĩa nhớ Sau quét Sub-DB'p hai lần (bởi trình xây dựng PL) để tìm xếp mục phổ biến, thấy mục c có tần số cao 5, mục b có tần số thấp Do đó, phân vùng cấp thứ hai cho Sub-DB'p thành CSDL nhƣ hình 3.4 Theo đó, ileHeader phải đƣợc cập nhật nhƣ hình 3.5 Sub-DBpc c: Sub-DBpf f: Sub-DBpa a: Empty Empty Empty Sub-database Sub-DBpm m: T1 1 1 T5 1 1 Transaction Set Sub-DBpb b: T4 0 T6 1 1 T7 1 1 Hình 3.4: Phân vùng cấp thứ hai cho CSDL Sub-DB'p Bảng Partition Level Parent itemset Sub-database pointers Sub-DBf Sub-DBpc Sub-DBc Sub-DBa Sub-DBpf Sub-DBb Sub-DBpa Sub-DBm Sub-DBpm Sub-DBp Sub-DBpb Φ { p}: Hình 3.5: FileHeader sau phân vùng cấp thứ hai cho CSDL Sub-DB'p 42 Lƣu ý Hình 3.5, tập mục cha phân vùng cấp thứ hai đƣợc mô tả {p}: Điều do: nhƣ đƣợc bƣớc (2), tất CSDL cấp thứ hai có nguồn gốc từ CSDL cấp Sub-DBp Sub-DB’p, tất năm giao dịch (T1, T4, T5, T6, T7) chứa mục p Bƣớc 4: Bây giờ, truy cập CSDL cấp thứ hai cuối Sub-DBpb hình 3.4 Tƣơng tự nhƣ bƣớc (2), loại bỏ mục cuối (mục b) để có đƣợc CSDL rút gọn Sub-DB'pb, đƣợc trình bày Bảng 3.3 Bảng 3.3: CSDL Sub-DB’pb Transaction ID Bit-string representation f a 0 T4 c m T6 1 1 T7 1 1 Từ bảng 3.3, định xây dựng PL trực tiếp cho Sub-DB’pb phân vùng lần Chúng ta thấy có 12 bit Sub-DB’pb, vừa với dung lƣợng nhớ 24 bit Do đó, không cần phải phân vùng Sub-DB’pb lần Thay vào đó, PL đƣợc xây dựng cho Sub-DB’pb đƣợc lƣu trữ nhớ nhƣ Hình 3.6, với ileHeader cập nhật nhƣ Hình 3.7 Item Node Node c: Transaction Set T4 Node f: Node a: Node m: T6 1111 T7 1111 Hình 3.6: FPL CSDL Sub-DB'pb Bảng 3.3 43 Partition Level Null Parent itemset Sub-database pointers Sub-DBf Sub-DBpc SubDBc SubDBa SubDBpf SubDBb SubDBpa SubDBm SubDBpm Sub-DBp Sub-DBpb Pointer to the FPL for Sub-DBpb Φ { p}: { p, b}: Hình 3.7: Fi eHeader sau F L đ ợc xây dựng cho Sub-DB'pb Lƣu ý ghi cuối ileHeader hình 3.7, cấp độ phân vùng trở thành Null, CSDL Sub-DBpb không đƣợc phân vùng lần Thay vào đó, PL thƣờng trú nhớ đƣợc xây dựng Ngoài ra, tập mục cha ghi cuối ileHeader đƣợc mô tả {p, b}: PL đƣợc xây dựng cho Sub-DB’pb, Sub-DB’pb, tất ba giao dịch chứa mục b, SubDB’pb có tập mục cha {p}: Do đó, có nguyên tắc sau: phân vùng thứ bậc mức sâu hơn, tập mục cha đƣợc hình thành cách ghép mục cuối dọc theo tất cấp phân vùng Bƣớc 5: Từ PL hình 3.6, sử dụng thuật toán dựa lực nhớ nhƣ PL-Mining để tìm tập phổ biến Bƣớc 6: Sau này, thực việc cắt tỉa di chuyển ký hiệu CSDL Sub-DBpb hình 3.4 Trƣớc tiên, loại bỏ bit cuối giao dịch T4, T6, T7 Sau đó, di chuyển T4 đến Sub-DBpc, di chuyển T6 T7 đến Sub-DBpm Các CSDL kết (sau thực di chuyển loại bỏ) đƣợc trình bày hình 3.8 Sau đó, ile Header hình 3.7 phải đƣợc cập nhật cách loại bỏ ghi cuối vô hiệu hóa trỏ đến Sub-DBpb ileHeader kết đƣợc trình bày hình 3.9 44 Sub-DBpc Sub-DBpf Sub-DBpa Sub-DBpm c: f: a: m: T4 Empty Empty T1 1 1 T5 1 1 Transaction Set T6 1 1 T7 1 1 Sub-database Hình 3.8: CSDL cấp thứ sau cắt di chuy n Sub-DBpb hình.3.4 Partition Level Parent itemset Sub-database pointers Sub-DBf Sub-DBpc Sub-DBc Sub-DBa Sub-DBpf Sub-DBb Sub-DBpa SubDBm Sub-DBpm Sub-DBp Null Φ { p}: Hình 3.9: File Header sau cắt di chuy n Sub-DBpb hình.3.4 Sau đó, trình tiếp tục với CSDL Sub-DBpm hình 3.8 CSDL đƣợc truy cập để khai thác tập phổ biến 3.3.2 Các thuật toán để ph n vùng thứ bậc CSDL khai thác tập phổ biến Thuật toán PL_HPDB [14], thuật toán phân vùng thứ bậc CSDL giao tác CSDL cuối cho phép cấu trúc liệu thƣờng trú nhớ (ví dụ: PL) đƣợc xây dựng Thuật toán thứ hai FPL_HP_Mining [14], thuật toán khai thác tập phổ biến từ CSDL đƣợc phân vùng thứ bậc Lƣu ý một cấu trúc liệu thƣờng trú nhớ (ví dụ: PL) đƣợc xây dựng cho CSDL thuật toán dựa nhớ để khai thác tập phổ biến đƣợc sử dụng Trong mô tả thuật toán, chọn thuật toán PL-Mining dựa phƣơng pháp PL cho tác vụ Hai thuật toán PL_HPDB PL_HP-Mining, đƣợc mô tả tƣơng ứng hình 3.10 3.11 45 Algorithm FPL_HPDB (DB, t, FileHeader, PartitionLevel, parent_itemset) /* Các tham số: (1) DB: CSDL giao dịch; (2) t: ngƣỡng hỗ trợ tối thiểu; (3) FileHeader: cấu trúc liệu lƣu giữ cấu trúc file csdl con; (4) PartiLevel: cấp độ phân vùng csdl, khởi tạo 1; (5) parent_set: itemset cha DB Trong lời gọi ban đầu, tập rỗng (null) */ begin /* bắt đầu thuật toán */ Quét csdl để tìm tất items phổ biến tần xuất Có n items phổ biến đặt items vào danh sách L-items, theo thứ tự giảm dần tần xuất Quét csdl lần thứ để tạo csdl đƣợc cắt tỉa DB-trimmed cách giữ lại items phổ biến cắt tỉa items không phổ biến, xếp items phổ biến theo thứ tự chúng L-items cho giao dịch If (DB-trimmed vừa với nhớ) then xây dựng PL cho DB, lƣu giữ trỏ tới PL vào FileHeader, với PartiLevel thiết lập Null; else begin /* phân vùng DB-trimmed thành tập n csdl con, n */ (1) Tạo n csdl Sub-DB1 đến Sub-DBn cách làm theo bƣớc giống nhƣ xây dựng PL, với nút đƣợc xem nhƣ csdl đƣợc lƣu (2) Lƣu trỏ file tới n csdl vào FileHeader lƣu PartiLevel tập parent_ vào FileHeader (3) Tăng PartiLevel lên end Đếm số ợng giao dịch (m) Sub-DBn , loại bỏ item cuối (item n) cho giao dịch Sub-DBn , để thu đƣợc csdl rút gọn SubDBn’ ; Gọi thủ tục /* phân vùng thứ bậc Sub-DBn’ */ FPL_HPDB (Sub-DBn’ , t, Fi eHeader, partiLeve , parent_set { item n}: m); end /* kết thúc thuật toán */ Hình 3.10: Thuật toán FPL_HPDB 46 Algorithm FPL_HP-Mining (FileHeader, t) /* Khai thác mẫu phổ biến cách phân vùng thứ bậc CSDL */ /* Các tham số: (1) FileHeader: cấu trúc liệu lƣu giữ cấu trúc file csdl đƣợc phân vùng; (2) t: ngƣỡng hỗ trợ tối thiểu */ begin /* bắt đầu thuật toán */ Lấy PL itemset cha (S) từ FileHeader, gọi FPL-Mining (FPL, n, t, S) để tìm itemsets phổ biến /* n: độ dài FPL */ Tạo itemset phổ biến từ itemset cha FPL (ví dụ, S), sau xóa ghi cuối (bản ghi cho FPL) từ FileHeader while (Fileheader không rỗng) begin (1) Thực việc cắt tỉa ký hiệu di chuyển csdl cuối cấp độ phân vùng sâu nhất; (2) if (chỉ có csdl (đối với item x) Sub-DBx) then i Đếm số lƣợng giao dịch (c) tạo itemset phổ biến cách ghép itemset cha Sub-DBx với item x, tổng số itemset phổ biến gán vào c; ii Tạo itemset phổ biến từ itemset cha Sub-DBx iii Xóa ghi cho Sub-DBx từ FileHeader; else /* Phân vùng thứ bậc khai thác csdl cuối */ i Từ FileHeader, lấy csdl cuối (Sub-DBy) cấp độ phân vùng sâu (level_x), tìm itemset cha (S); ii Đếm số ợng giao dịch (m) Sub-DBy , với giao dịch Tx Sub-DBy, loại bỏ item cuối (item n) để thu đƣợc CSDL rút gọn Sub-DBy’ ; iii Gọi thủ tục FPL_HPDB (Sub-DBy’ , t, Fi eHeader, Leve _x +1, S { item n}: m); iv Gọi thủ tục FPL_HP-Mining (FileHeader, t); end /* kết thúc while FileHeader không rỗng */ end /* kết thúc thuật toán */ Hình 3.11: Thuật toán FPL_HP-Mining 47 3.4 Kết thực nghiệm ph n vùng ph n cấp Trong luận văn nghiên cứu phƣơng pháp phân vùng phân cấp này, tiến hành thực nghiệm CSDL đƣợc mã hóa thành chuỗi bit nhị phân, với bit đại diện cho xuất mặt hàng, bit mặt hàng chƣa xuất Dữ liệu đƣợc mã hóa lƣu vào file có dạng txt, Hình 3.12 tập tin CSDL đƣợc mã hóa, có 10 giao dịch (từ đến 10) có mục (item) riêng biệt (f, c, a, b, m, p) Nhƣ thấy có tổng số bit 60, dung lƣợng nhớ tối đa đƣợc giả định 24 bit Hình 3.12: tập tin CSDL đ ợc mã hóa Trƣớc phân vùng liệu để lấy giao dịch phổ biến, tạo đƣờng dẫn nhƣ hình 3.13 để lấy tập tin cần xử lý 48 Hình 3.13: tạo d ờng dẫn đ lấy liệu Sau chƣơng trình xử lý xếp theo tần số xuất PL duyệt chúng theo thứ tự giảm dần tần số mục Nhƣ hình 3.14 Hình 3.14: duyệt xếp danh sách Hình 3.15 đƣợc xử lý phân vùng thành tập CSDL cấp đầu tiên, giao dịch 2, 3, 10, 9, (các dòng hiển thị tô màu) đƣợc tối ƣu phổ biến PL tƣơng ứng với node 2, 3, 4, 5, giao dịch 1, 4, 5, 6, CSDL hay node nhƣ hình 3.16 CSDL cấp thứ cần phải xử lý phân vùng 49 Hình 3.15: phân vùng thành tập CSDL cấp (các node) Hình 3.16: hi n thị node sau phân vùng CSDL 50 Nhƣ vậy, sau loại bỏ mục cuối node (p) để có đƣợc danh sách ngắn Chúng ta thấy có tổng cộng 25 bit, cao so với yêu cầu dung lƣợng nhớ Hình 3.17 (CSDL cấp rút gọn) Hình 3.17: CSDL cấp Chƣơng trình tiếp tục xử lý nhƣ bƣớc trên, nhƣ hình.3.18 Hình 3.18: duyệt xếp danh sách CSDL cấp thứ 51 Phân vùng liệu cấp thứ 2, hình 3.19 Hình 3.19: phân vùng thành tập CSDL cấp thứ (các node) Loại bỏ mục cuối Sub-DB-node1(b) để có đƣợc danh sách ngắn Hình 3.20: danh sách CSDL cấp thứ Chúng ta thấy có 12 bit Sub-DB1- node1 tƣơng ứng với giao dịch 4, 6, nhƣ hình 3.20, vừa dung lƣợng nhớ 24 bit Do không cần phải phân vùng thêm lần nữa, tìm tập phổ biến 52 CHƢƠNG KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI Nghiên cứu giới thiệu phƣơng pháp tiếp cận hiệu phƣơng pháp phân vùng thứ bậc để khai thác tập phổ biến CSDL lớn Phƣơng pháp dựa hai nguyên tắc Nguyên tắc tính chất phân vùng Danh sách mẫu phổ biến ( PL), danh sách phân vùng không gian tìm kiếm (cơ sở liệu) không gian giải pháp (tập hoàn chỉnh tập phổ biến CIs) Vì vậy, cách tiếp cận chia để trị đƣợc áp dụng cách có thứ bậc cho CSDL để khai thác liệu Nguyên tắc thứ hai tính đối ngẫu nút mục PL CSDL con: nút PL đƣợc coi CSDL thƣờng trú nhớ, CSDL đƣợc coi nhƣ nút mục PL thƣờng trú đĩa Vì vậy, thao tác kỹ thuật tối ƣu hóa cho PL tƣơng tự đƣợc áp dụng cho CSDL Một CSDL đặt vừa nhớ thuật toán dựa hiệu nhớ đƣợc sử dụng để khai thác mẫu phổ biến Do đó, phân vùng thứ bậc cách tiếp cận chung đƣợc sử dụng với thuật toán dựa lực nhớ để khai thác liệu CSDL lớn Ngoài ra, tập phổ biến đƣợc tạo từ phân vùng thứ bậc tập phổ biến toàn cục Do đó, không thêm chi phí để quét lại CSDL ban đầu nhằm kiểm tra tần số toàn cục Kết thực nghiệm cho thấy phân vùng thứ bậc cải thiện hiệu suất đáng kể khai thác tập phổ biến tập phổ biến đóng CSDL lớn Trong thời đại thƣơng mại điện tử kinh doanh, kích thƣớc CSDL giao tác tăng lên cách dễ dàng nhanh chóng Kết là, khả mở rộng thuật toán khai thác liệu vấn đề có tầm quan trọng ngày tăng Các thuật toán khai thác dựa phân vùng thứ bậc đƣợc sử dụng để khai thác liệu nhằm hiểu đƣợc hành vi ngƣời tiêu dùng trực tuyến, bao gồm ngƣời mua 53 sắm trực tuyến game thủ trực tuyến Đồng thời, CSDL đƣợc cập nhật tích lũy, nội dung CSDL thay đổi kích thƣớc tăng Cho nên, nghiên cứu tƣơng lai đƣợc dành cho phát triển thuật toán mở rộng nhằm tăng khả khai thác tập phổ biến CSDL lớn Phân chia CSDL làm nhiều máy để xử lý, dùng phƣơng pháp xử lý song song để giao nhận liệu xử lý./ 54 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1] Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM) [2] Võ Đình Bảy (2013), Bài giảng Luật Kết Hợp, Đại học KHTN (Đại học Quốc gia Tp.HCM) [3] Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai khoáng liệu nghiệp vụ xử ý c ớc điện thoại b u điện tỉnh Ninh Thuận, Luận văn Thạc Sỹ, Đại Học KHTN TP HCM, TP.HCM [4] Bùi Danh Hƣờng (2010), Ứng dụng khai mỏ sở liệu tai nạn giao thông, Luận văn Thạc Sỹ, Đại Học KHTN TP HCM, TP.HCM [5] Viktor Mayer – Schӧnberger, Kenneth Cukier; Vũ Duy Mẫn dịch, “Dữ Liệu Lớn”, NXB Trẻ 2014 TÀI LIỆU TIẾNG ANH [6] Han, J., Pei, J., & Yin, Y (2000), Mining frequent itemsets without candidate generation In: Proc 2000 ACM SIGMOD int conf on management of data (SIGMOD’00), pp 1–12 [7] Han, J., Kamber, M., & Pei, J (2011), Data mining: Concepts and techniques(3rd ed.) San Francisco, CA: Morgan Kaufmann [8] Mohammad Karim Sohrabi, Ahmad Abdollahzadeh Barforoush (2012), Efficient colossal pattern mining in high dimensional datasets Knowledge –Based Systems Vol.33, pp.41–52 [9] Tseng, F.-C (2012) An adaptive approach to mining frequent itemsets efficiently Expert Systems with Applications Vol.39, pp.13166–13172 55 [10] Tseng, F.-C., & Hsu, C.-C (2001), Generating frequent itemsets with the frequent pattern list.Lecture Notes in Artificial Intelligence, LNAI Vol.2035, pp.376–386, Springer - Verlag [11] Tseng, F.-C., Hsu, C.-C., & Fu, K.-S (2005a), The frequent pattern list: Another framework for mining frequent itemsets International Journal of Electronic Business Management Vol.3, 104–115 [12] Jiawei Han and Micheline Kamber (2002), DataMining:Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers [13] Jiawei Han, Micheline Kamber & Jian Pei (2012), DataMining:Concepts and Techniques 3rd ed., Morgan Kaufmann, USA, pp 243-276 [14] Tseng,F.-C.(2013), Mining frequent itemsets in large databases: The hierarchical partitioning approach Expert Systems with Applications Vol.40, Issue 5, pp.1654-1661 ... THÁC TẬP PHỔ BIẾN II- Nhiệm vụ nội dung: Phân vùng thứ bậc để khai thác tập phổ biến sở liệu lớn: - Khai thác tập phổ biến, cách tiếp cận - Cơ sở liệu có kích thƣớc lớn - Phƣơng pháp phân vùng, phân. .. PHƢƠNG PHÁP PHÂN VÙNG, PHÂN CẤP TRONG KHAI PHÁ TẬP PHỔ BIẾN 33 3.1 Giới thiệu 33 3.2 Danh sách mẫu phổ biến ( PL) dùng để khai thác tập phổ biến 34 3.3 Phân vùng. .. quan trọng khai thác liệu khai thác tập phổ biến, tập mặt hàng đƣợc thƣờng xuyên mua với giao dịch, công cụ khai thác tập phổ biến điển hình nhƣ phân tích so sánh, phân tích mẫu, phân loại, gom

Ngày đăng: 11/09/2017, 20:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w