1. Trang chủ
  2. » Thể loại khác

Một số vấn đề về khai phá dữ liệu

109 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 38,55 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI K H O A C Ồ N G N G H Ệ NGUYỀN HUY ĐỨC MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ DỮ LIỆU * ■ CHUYÊN NGÀNH; CÔNG NGHỆ THÔNG TIN MA SỐ: 01.01.10 LUẬN VĂN THẠC s ĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS» TS VŨ ĐỨC THI HÀ NỘI - Năm 2003 MỤC LỤC Lời in d ầ u C h n g 1: T ổ n g q u a n sở d ữ liệu k h a i p h d ữ liệu / / T ổ chức khai thác sở d ữ liệu truyền ỉhống 1.2 Bước phát triển việc tổ chức khai thác CSDL 1.3 Quá trình p h t tri thức 11 1.3.1 Pháỉ tri thức 1 1.3.2 Các giai đoạn trình phát tri thức 12 1.4 Khai phá d ữ li ệ u 14 1.4.1 K iến trúc hệ thống khai phá l i ệ u 15 1.4.2 Quá trình khai phá iiệu 16 1.4.3 Nhiệm vụ khai phá l i ệ u í 1.4.4 Các thành phẩn giải thuật khai phá l i ệ u 19 1.4.5 Mội số phương pháp khai thác liệu phổ b i ế n 20 1.4.6 Lựa chọn phương p h p 24 1.4.7 Có phải tất cấc mẫu lìm đáng quan t â m ? 25 C h n g 2: K h a i p h lu ậ t kết hợp Iro n g sở tia iiộu l n .27 2,1, ¡Mật kết h ợ p 27 2.1.1 Phân tích bán hàng siêu thị - ví dụ dộng thúc dẩy khai phá luật kết h ọ p 27 2.1.2 Các khái niệm s 28 2.1.3 Một s ố lính chất tập m ục phổ biến luật kếl h ợ p 32 2.2 Khai p h luật kết hợp boolean dơn chiều ỉừ C S D L tác vụ .35 2.2.1 Thuật toán Apriori: tìm tập mục phổ biến sử dụng sinh ứng cừ 35 2.2.2 Nồng cao hiệu Thuật toán Apriori 42 2.2.3 Sinh luật kồì hợp từ ỉập mục phổ biên .46 3:K hư i phá lập m ục p h ổ biến không sinh ứng cử 49 2.4 C sở iỷ ỉhuyâì luật kết hợp .59 2.5 Khai phá luật kết hợp ảịnh lượng .63 2.6 Khai phá ỉnậi kết hợp da mức 66 2.6.1: Luật kết hợp đa mức 66 2.6.2: Các cách tiếp cận khai phá luật kết hợp đa mức 68 Chưong 3: Khai phá luật kết hợp đ ó n g 73 3.1: Tập mục phổ biến dóng 73 3.2: Sình lu ậ t 79 3.3: Thuật toán CHARM .80 Chương 4ĩ Thử nghiệm khai phấ luật kết h ợ p 86 4.1: Mô tảđữỉiệu 86 4,2: Xây dựng chương trình 87 4.3: Kết q u ả th nghiệm .90 Kết kuân luân v ả o 93 > > Tài iiệu tham k h ả o 94 LỜ I M Ở ĐẨ U Sự phát triển mạnh mẽ công nghệ phần cứng tạo nên máy tính có xử lý tốc độ cao, nhớ dung ỉưọmg lớ» với điều phát triển khơng ngừng hệ thống viễn thông Các hệ thống Ihông tin phục vụ việc ụr (lộng hoá lĩnh vực kinh doanh quản !ỷ triển khai với lốc độ íãng trưởng virợi bậc Diều dó dã tạo dòng liệu khổng lồ, trớ Iliành tượng “bùng lỉố thông tin” Nhiều hệ quàn trị sở iiệu mạnh với cõng cụ phong phú thuận úện giúp người khai thác có hiệu nguồn lài nguyên Apriori; /* A p r io r i, Java /* package đm ar.đm ar; im port j a v a u t i l *; im port ja v a io IO E x cep ticn ; Ị ** Lop tr.huc h ien th uaỉi toan A p r io r i tim c a c tap muc b ien */ p iib ljc c la s s A p rio ri e x ten d s P req u en tltem setsM irter { p r iv a te / / s t a t i c Cac ta p fin a l muc in t INITIAL_CAPACXTY p r iv a te A rrayL ist c a n d id a te s; p r iv a te A rrayliíst k _ fr e q u e n t; / ì cac c a y bam cua ca c ung cu va p r iv a tô H ashTree h t_ ca n d id a tes,- p r iv a te HaehTree ht //s o la n p r iv a te / / tap b ìe n k 01UC k_E req uer,t; pass_num ; Chong tin can th ie t p r iv a te ), ĩ i g n \w _row s; p r iv a te lo n g m in Ị ** 10000,- du yet lint cac = (ite m se ts) ca c r.ap w eigh t; * Tim * tópararn dbReader muc * ®param cach eW riter đ oi * aparam m in Support m inim um * © return tra b ie n d oi ve so tron g tuorig lan CSDL duoc tuong dung đuoc de dung doc de CSDL v iô t vao support duyet qua CSDL */ p u b lic in t í in d F r e q u e n tlte m s e ts (DBReader D B C acheV ỉriter d ou b le dbReađer, ca ch eW rltei, m in Sup port) í * db _read «i- dbReader; ca ch e_ w r ite r num row s m in w eigh t ì! kh oi ~ = cach eW riter; đ b R e a đ e r getNuirsRovỉs o =■ ( l o n g ) (num rows * ; m in Support} ; ta o c a n d id a te s « new A rrayL ist{IN IT IA L _C A P A C IT Y ); k ,fr e q u e n t = new A rrayL istU N IT IA L _C A P A C IT Y ); III / / freq u en t khoi ht_k ta o = new cac freq u en t = ht c a n d id a te s = II lu c dau Item set for cac A rrayL ist(IN IT IA L _C A P A C IT Y ); cay bam new H a sh T ree(k _ freq u en t}; new ung H a sh T re e (c a n d id a te s); cu la ta t ca cac tap muc (in t i ~ X; i = d b _ r e a d e r getM um C olum ns0 } break; ch eck A b o rt(); II sin h ung cu moi tu tap muc cu b ien g e n e r a te C a n d id a te s (); / / th o a t khong co ung i f { c a n d i d a t e s s i z e (5 neu == 0) break; ) retu rn passjnum ; } / / thu tu c p r iv a te v o id qu et CSDL va tin h ho tr o cho w e i g h C a n d i d a t e s () { h t_ ca n d id a tes.p re p a r e F o r D esc en t

Ngày đăng: 23/09/2020, 21:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w