1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ ứng dụng luật kết hợp trên hệ thống thông tin nhị phân để xây dựng bài toán tư vấn xây dựng

61 444 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 184,16 KB

Nội dung

TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI _• Bộ GIÁO DỤC VÀ ĐÀO TẠO LỖ THỊ THU VÂN ỨNG DỤNG LUẬT KÉT HỢP TRÊN HỆ THÓNG THÔNG TIN NHỊ PHÂN ĐÉ XÂY DƯNG BÀI TOÁN Tư VẤN XÂY DựNG LUẬN VĂN THẠC sĩ MÁY TÍNH TRƯỜNG ĐAI HOC sư PHAM HÀ NỘI LỖ THỊ THU VÂN ỨNG DỤNG LUẬT KẾT HỢP TRÊN HỆ THỐNG THÔNG TIN NHỊ PHÂN ĐẺ XÂY DƯNG BÀI TOÁN Tư VẤN XÂY DựNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC sĩ MÁY TÍNH Ngưòi hướng dẫn khoa học: PGS.TS Lê Huy Thập Em xỉn chân thành cảm ơn thầy giảo PGS TS Lê Huy Thập nhiệt tình hướng dẫn giúp đỡ em suốt trình làm luận văn Em xỉn gửi lời cảm ơn chân thành đến tất thầy cô phòng Sau đại học trường Đại học Sư phạm Hà Nội thầy cô môn tận tình giúp đỡ, LỜI CẢM ƠN giảng dạy, cung cấp cho em kiến thức quỷ giả suốt trình học tập trường Cuối xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên giúp đỡ suốt thời gian học tập thời gian thực luận văn Hà Nội, tháng 12 năm 2015 Tác giả Lỗ Thị Thu Vân Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học PGS TS Lê Huy Thập Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác LỜI CẢM ƠN Hà Nội, tháng 12 năm 2015 Tác giả Lỗ Thị Thu Vân Kí hiêu • Ý nghĩa CSDL Cơ sở dư lịêu D sở liệu giao dịch DL DÌr liêu DM Data mining (khai pha dư liêu) KDD Knowledge discovery ( phát tri thức) KPDL Khai pha dư lịêu DWT Kỹ nghệ kho liệu DW Kho dĩr lịêu Độ hỗ trợ ( support) p Độ tin cậy (confidence) n Phép giao u Phép họp C Tập rỗng e Thuộc Ck Tập k-itemset ứng viên TID Tập giao dịch c: Tập k-itemset ứng viên mà TID giao dịch sinh liên k với tập mục ứng viên LỜI CẢM ƠN Tập LỜI CẢM ƠN MỤC LỤC LỜI MỞ ĐẦU Sự phát triển mạnh mẽ công nghệ phần cứng tạo máy tính ngày có khả lưu trữ cao, có dung lượng lớn, chất lượng cao giá thành ngày rẻ, đồng thời với phát triển vượt bậc công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội thời gian qua, bùng nổ thông tin đồng nghĩa với lượng liệu mà quan thu tích lũy ngày tăng Các kho liệu - nguồn tri thức nhân loại trở nên vô hữu ích ta khai thác Cá nhân hay tổ chức thu thập, phân tích, hiểu thông tin hành động dựa vào nguồn thông tin đạt thành công Đặc biệt môi trường cạnh tranh, người ta cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có vấn đề khai thác nguồn tri thức trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin Các mô hình sở liệu truyền thống ngôn ngữ thao tác liệu chưa đáp ứng yêu cầu Ngày nay, để giải vấn đề có hướng khai phá liệu phát tri thức (Knowledge discovery and datamining) Việc nghiên cứu mô hình liệu áp dụng phương pháp khai phá liệu xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam nghiên cứu dần đưa vào ứng dụng Ngày nay, khai phá liệu trở thành lĩnh vực nghiên cứu thu hút quan tâm nhiều người lĩnh vực hệ sở liệu, thống kê, nhận dạng, trí tuệ nhân tạo, Một nội dung phổ biến khai phá liệu phát luật kết họp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất (hoặc tập) thuộc tính khác Từ toán khai phá luật kết họp khai phá liệu giới thiệu, nhiều thuật toán đề xuất để tìm luật kết họp sở liệu lớn có toán khai phá luật kết họp hệ thông tin nhị phân Trong thực tế số công việc bao gồm nhóm công việc, công việc nhóm cần phải thực đồng theo kiểu hay song song, tức thực số công việc bắt buộc đã, phải thực nhóm công việc khác, chẳng hạn trộn vữa kéo theo việc đổ móng, đổ trần hay xây tường ngược lại, v.v vấn đề liên quan đến khai phá luật kết họp hệ thống thông tin nhị phân mà nghiên cứu đề tài: “ứng dụng luật kết họp hệ thống thông tin nhị phân để xây dựng toán tư vấn xây dựng” Mục đích nghiên cứu Dùng khai phá liệu đặc biệt khai phá luật kết họp hệ thống thông tin nhị phân để lập trình ứng dụng Nhiệm vụ nghiên cứu Nghiên cứu kỹ nghệ kho liệu Nghiên cứu khai phá liệu Ngôn ngữ lập trình Đối tượng phạm vỉ nghiên cứu Khai phá liệu ứng dụng Nội dung luận văn trình bày chương phần kết luận: Chương 1: Tổng quan khai phá liệu Trong giới thiệu tổng quan trình khai phá liệu, kiến trúc hệ thống khai phá liệu, nhiệm vụ chính, phương pháp khai phá ứng dụng khai phá liệu Chương 2: Khai phá luật kết họp hệ thống thông tin nhị phân Chương trình bày tổng quan luật kết họp, phát biểu toán khai phá liệu, phát luật kết họp, khái niệm luật kết họp phương pháp khai phá luật kết họp, khai phá luật kết hợp hệ thông tin nhị phân Chương 3: ứng dụng luật kết họp hệ thống thông tin nhị phân để xây dựng toán tư vấn xây dựng (2) For (k = 2; Lk_2 * 0; k++) { (3) ck= apriori_gen (Lk_i,minsup);// sinh tập ứng cử từ Lk_i (4) For (mỗi tác vụ D) {// quét D để đếm (5) ct = subset (Ck, t);// lấy tập t mà ứng cử ck For (Mỗi ứng ( cử c ct) c.count ++;// tăng đếm cho c đơn vị } ) Lk = {c Ck/c.count ^ minnsup}; ( ( 10) } (11) Return L = uk Lk; Thủ tuc sinh ứng cử Ck Procedure apriori _gen (Lk_i: Tập phổ biến (k-1) mục; minsup: Độ hỗ trợ cực tiểu) (1) For mục li Lk_i (2) For mục I2 e Lk_i { (3) If Ợi[l] = I2[l] A Ij[2] = I2[2] A Ail[k-2] = I2[k-2] Ail[k-1] = I2[k-1]) then c = li 1 thay cho việc duyệt CSDL Mỗi phần tử tập ck có dạng với X tập ứng viên thuộc ck tương ứng với giao dịch t có mã TID hay viết ct.TID, (ceCk I c có t}> Nếu giao dịch t không chứa tập ứng viên (Xk = 0) giao dịch t không đưa vào ck Do đó, số phần tử Ck nhỏ số lượng giao dịch CSDL, đặc biệt k lớn Khi số phần tử Ck nhỏ số lượng giao dịch CSDL việc duyệt ck để tính độ hỗ trợ cho phần tử ck phục vụ cho việc xác định Lk nhanh duyệt CSDL Thuât toán a Tính Ck ck tạo từ Lk-1 qua bước Bướcl Nổi L Ị với k Select p.HạngMụci,p.HạngMục2, .p.HạngMụck_i, q.HạngMụck_i From Lk_i as p, Lk_i as q; Where (p.HạngMựCi= q.HạngMụci)A A(p.HạngMụck_2 = q.HạngMụck_2) A(p.HạngMụck_i < q.HạngMụck_i); Bước Loại bớt tập hợp có tập không thuộc Lk_Ị b Tính Ck, Lk ck =0; For all te Ck~l Do Begin ct = (c e ck I (c-c[k]) e t.XAC-c[k-l] e t.X}; For all UngVien c e Q D o c.count ++; if (0*0) then Ck+= < t.TID, ct >; End Lk = (c e I c.count > rainsup} Ghi chú: Trong trình tính toán Count(TID) không thay đổi Vì thay minsup số nguyên sup count Nhân xét Với k=l, số phần tử Cj số giao dịch CSDL; tập X (ứng phần tử Cj) có số lượng thành viên số item giao dịch tương ứng CSDL Với k nhỏ (k>l), số lượng phần tử ck nhỏ không đáng kể so với số giao dịch CSDL; tập X (ứng phần tử Ck) có số lượng thành viên lớn số item giao dịch tương ứng CSDL số phần tử ck nhiều k nhỏ khả ứng viên tập ck có giao dịch lớn (trong ví dụ tập X giao dịch có TID 300 có số thành viên kho CSDL có item) Với k lớn, số lượng phần tử Ck nhỏ so với số giao dịch CSDL; tập X (ứng phần tử Ck) có số lượng thành viên nhỏ so item giao dịch tương ứng CSDL số phần tử ck không nhiều k lớn khả ứng viên tập ck có giao dịch nhỏ Kết chạy thực nghiệm R Agrawal cho thấy với k nhỏ, thuật toán Apriori chạy nhanh thuật toán AprioriTID; ngược lại với k lớn, thuật toán AprioriTID chạy nhanh hon Khi k nhỏ, số lượng phần tử Ck không số giao dịch CSDL nên việc tính độ hỗ trợ dựa Ck không nhanh so với dựa CSDL; ra, phần tử Ck có tập X lớn nên thời gian để tính toán Ck, tập Ck chiếm nhớ lớn nên vượt khả lưu trữ nhớ máy tính phải sử dụng đến nhớ nên thêm thời gian đọc ghi đĩa Do đó, thuật toán AprioriTID chạy chậm k nhỏ Khi k lớn, số lượng phần tử Ck nhỏ số giao dịch CSDL nên viêc tính độ hỗ trợ dựa Ck nhanh so với dựa CSDL; tập Ck nhỏ lại, không cần sử dụng đến nhớ Do đó, thuật toán AprioriTID chạy nhanh k lớn 2.5.3 Thuật toán phát tập báo luật kết hợp nhị phân Thuật toán phát triển từ thuật toán Apriori-Tid Để phát tập báo nhị phân phổ biến từ luật kết họp nhị phân từ hệ thông tin nhị phân Thuật toán làm việc với bit nhớ không làm việc với CSDL đĩa, cải tiến tốc độ trình phát luật Cho CSDL hai ngưỡng độ hỗ trợ tối thiểu minsup độ tin cậy tối thiểu minconf luật kết họp Thuật toán Apriori-Tid có hai pha: Pha : Phát tập báo phổ biến dựa ngưỡng minsup cho trước Pha 2: Xây dựng luật kết hợp dựa ngưỡng minconf cho trước Cho ma trận thông tin nhị phân SB = (O, D, B, x) ngưỡng 0, ß e(0, 1) Trong minsup ß minconf Chi tiết thuật toán Apriori-Tid sau: Pha : Phát tập báo phổ biến nhị phân TraLoi = ; Sinh Lß từ SB theo thủ tục a ; for (k = 2; LB]k {}; k++) {Sinh Lß k từ Lßk-1 theo thủ tục 2.a ; TraLoi = uk Lßk-1 ; } Return TraLoi ; // = = = = = = = = a Sinh LBI 1- Lß,i = ; for (i = 1; i * card(O)) { SaveLargeSet({di}, VSß i) ; SaveDescriptorVector(vB({di}, VSß 1» ; } TraLoi = Lß ; Return TraLoi ; // Trong m = card(D) lực lượng lập D a Sinh Lßk Dựa thuộc tính VS e Lß, T c s T e Lß, chúng sinh LBktừ Lßk-1 Kết sau: Tạo ma trận có dòng cột thành phần Lß k_! ■ LB]k = ; for (Mỗi X e Lß.k-1 && Xo Y) ỊT = X u Y ; if(card(supB(vB(T)) > 0*card(O)) && card(T) == k) { SaveLargeSet(T, Lßk) ; SaveDescñptorVector(vB(T), VSßk)) ; } TraLoi = Lßk ; 10 Return TraLoi ; Trong đó: SaveLargeSet(T, LB k) hàm để ghi tập báo phổ biến nhị phân T vào LB,k SaveDescriptorVector(vB(T), VSBk)) hàm để lưu vectơ báo phổ biến nhị phân VB(T) vào VSB k Dựa vào (1) (2), ta tính nhanh supB(vB(T)) bước thứ k vòng lặp trên, từ phần tử VSB k-1 Pha 2: Phát luật phổ biến nhị phân RB ß = ; // Khởi tạo tập luật ban đầu rỗng for (Mỗi L e LB) { for(Mỗi X, Y e L XnY ={}) { if(CFB(X => Y) > ß) SaveRule(X=>Y, Rß ß); // ghi luật X=>Y vào Rß ß if(CFB(Y =>X) > ß) SaveRule(Y=>X, RB ß); // ghi luật Y=>x vào RB ß } } 10 TraLoi = RB ß ; 11 Return RB ß ; // Kết thúc Xác định thuật toán tiền xử lý luật kết hợp nhị phân Thuật toán Nhập Item giao dịch BƯỚC 1: Tạo bảng: Bảng 1- Tên bảng B I t e m (Maliern C(5), Tenltem C(20), Nhan C(l)) Trong đó: B l t e m : Bảng Item Maltera: Mã Itera Tenltera: Tên Itera Nhan: Nhãn Item Nhập nội dung cho bảng này, khỉ nhập nhãn nên bẳt đầu chữ A sau đỏ theo chiều tăng từ điển sẳp xếp nhãn theo từ điển (chức sort thuật toán nỗi bọt) Chẳng hạn, sau nhập ta Bảng B_Item Maltera Nhan 003 Tenltera ? 004 ?? D 002 ??? B 001 005 ???? A ?????? E Sup c Bảng 2.13 Các Item nhãn (đã nhập Sau xếp nhãn theo từ điển ta ) Bảng B_Item Mai tem Tenltem Nhan 001 ???? A 002 ??? B 003 ? c 004 ?? D 005 ????? E Sup Bảng 2.14 xếp Nhan theo từ điển Dùng hàm n = Count(B_Item) để biết số Item, theo ví dụ hên ta số Item n = Bảng 2- Tên bảng: B_GD (MaGD C(5), ND_GD C(30)) Trong đó: B_GD : Bảng giao dịch MaGD: Mã giao dịch ND_GD: Nội dung giao dịch - gồm Item tham gia vào giao dịch Nhập nội dung cho bảng B_GD, phải chặn cho giao dịch Item Chẳng hạn, sau nhập ta Bảng B_GD MaGD ND_GD Ti ACD T2 BCE T3 ABCE T4 BE Bảng 2.15 Bảng giao dịch |T| = Dùng hàm T = Count(B GD) để đếm số giao dịch Ví dụ ta số giao dịch T = Thuật toán Chuyển bảng giao dịch sang dạng bảng giao dịch nhị phân B_GD_NP Var Str: integer; Strl = “o” For j = to n Strl = Strl & ‘d’ &Str(j) & “Number(l)” & Andíor {Kết được} Strl = “dl Number(l), d2 Number(l), d(n) Number(l),” Strl = Left(Strl, len(Strl) - 1) {Cần khử dấu cuối} Strl = “dl Number(l), d2 Number(l), d n Number(l)” { Kết ta khử {Tạo bảng B_GD_NP } Create table B_GD_NP( & Strl) {Kết có bảng dạng sau} B_GD_NP dn dl d2 Bảng 2.16 Bảng B_GD_NP Chú ý Nhan giao dịch xếp tăng theo từ điển tương ứng với di,d2, dn Tạo mảng chiều Array A_Nhan(n) of Char; {Nạp nhãn cho A_Nhan} For i = To n A_Nhan(i) = B_Item.Nhan Skip {Chuyển đến ghi tiếp theo} EndFor For i = To n B GD NP.0 = “o” & Str(i) For j = To Count(B_GD.ND_GD) If A_Nhan(i) = B_GD.ND_GD(j) Then B_GD_ND d & G) = Else B_GD_ND d & G) = Endlf Skip B_GD Endfor Skip B_GD_NP Endfor dl d2 dn Oi * * * 02 * * * Om * * Bảng 2.17 Bảng B_GD_NP nạp nhập liệu Trong * Chẳng hạn từ bảng 2.2 ta có dl d2 d3 d4 d5 Oi 1 02 1 03 1 1 04 0 Bảng 2.18 Bảng B_GD_NP nạp nhập liệu thực tê Kết luận chương Trong chưong trình bày tổng quan khai phá liệu, khai phá luật kết họp Để vào nghiên cứu cụ thể chương sau, chương cung cấp hiểu biết cần thiết toán khai phá luật kết họp Đặc biệt trình bày chi tiết thuật toán Apriori tìm tập mục phổ sinh ứng cử, sinh luật kết họp từ tập mục phổ biến Việc tìm kiếm luật kết họp CSDL nhị phân thực theo thuật toán nguyên thuỷ Apriori Một hạn chế đáng kể thuật toán làm việc với liệu dạng nhị phân, tức giá trị thuộc tính nhận giá trị Chính thuật toán khó áp dụng trực tiếp CSDL thực tế CSDL không chứa thuộc tính nhị phân, mà chứa liệu số hạng mục Muốn thực điều này, người ta phải tiến hành rời rạc hóa liệu cho thuộc tính số để chuyển chúng thuộc tính nhị phân Chương ỨNG DỤNG LUẬT KẾT HỢP TRÊN HỆ THỐNG THÔNG TIN NHI PHÂN ĐẺ XÂY DƯNG BÀI TOÁN TƯ VẤN XÂY DƯNG •«« 3.1 Yêu cầu toán Bài toán tư vấn xây dựng: Cho giao dịch thực tế với tập mục I = { ii, i2, ,in}, tập giao dịch TID = {ti, t2, ,tk} minsup = ỡ , minconf= p Hãy xác định luật kết họp sở thông tin cho 3.2 Cách giải yêu cầu toán Dựa vào sở liệu SQL thuật toán viết Microsoft Access 3.3 Chương trình ứng dụng Hình 3.1 Giao diện JH Nhsp so lieu Sưa So lieu Nháp sõtronq qiao dịch Khai phã Ketthuc Hình 3.2 Danh sách Menu j hMVuearns»IM4W«CHM jmb(iỉGUSKx NHẠP CÁC GIAO DỊCH lUntCV s Hcftun^Mdhcti AK M > II I • o fe Hình 3.4 Nhập giao dịch sế J BangMcHca:Table Hình GD A B 3.3 Các cForm nhập D 1 1 1 _3 1 1 A 0 35 7| ỉ 20 45 õ nil ill n ỈJ\ 0 1 õ n E 0 1 õ F 0 1 nn Hinh 3.7 Câc MinSup Conf KÉT QUA KHAIPHA Microsoft Office Access LI = {A, B, C, D EJ; L2 = {AB AC; BC DE}; LB = {ABC}; L4 = {}, Vay cac lust la: A => B, B = > Af A = > C, C => A, B = > C C => B, A => BC, BC = > A, B => AC, AC => B C=> AB,.AB=>C O Hinh 3.8 Câc két qua KẾT LUẬN Luận văn hoàn thành số kết cụ thể sau: - Tìm hiểu khai phá liệu phát tri thức - Tìm hiểu hai thuật toán tiêu biểu để khai phá liệu Apriori Apriori-TID - Tìm hiểu đưa chi tiết thuật toán khai phá luật kết họp nhị phân - Cài đặt thuật toán khai phá luật kết họp nhị phân để ứng dụng vào phát luật kết họp trường Trung cấp Xây dựng số Hướng phát triển Trên sở nghiên cứu trình bày luận văn, tiếp tục nghiên cứu sâu thuật toán khai phá luật kết họp nhị phân, tìm giải pháp nhằm khắc phục nhược điểm thuật toán có Phát triển ứng dụng để đem sử dụng thực tế [...]... số phương pháp rời rạc hoá để chuyển các dạng luật trên các kiểu dữ liệu này về dạng luật nhị phân để áp dụng các thuật toán đã có Ví dụ “Mua vải = “có” HOẶC “Mua chỉ” = “có” —> “Mua kim khâu” - có" với độ hỗ trợ và độ tin cậy nào đó Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set) Tìm kiếm luật kết họp dựa trên lý thuyết tập thô Luật kết hợp nhiều mức (multi-level... Có Có Bảng 2.5 Luật kết họp sinh từ tập phổ biến ADE 4 Một số hướng tiếp cận khai phá luật kết hợp Lĩnh vực khai thác luật kết họp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đề xuất nhằm cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn Một số hướng tiếp cận khai phá luật kết họp cần chú ý sau đây Luật kết hợp nhị phân (binaty assocỉation... PHÁ LUẬT KẾT HỢP Chương 1 Cơ SỞ LÝ THUYẾT TRÊN HỆ THỐNG THÔNG TIN NHỊ PHÂN Môt • •số khái niêm Giả sử chúng ta có một cơ sở dữ liệu D Luật kết họp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục của s nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của tập các mục của u (SnU = 0) cũng nằm trong bản ghi đó Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ hỗ trợ: độ hỗ trợ và độ tin. .. các thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lý khác nhau Đó cũng là đặc thù của DW DW có thể ghép nối các phiên bản (version) khác nhau của các cấu trúc CSDL DW tổng hợp thông tin để thể hiện chúng dưới những hình thức dễ hiểu đối với người sử dụng DW tích họp và kết nối thông tin từ nhiều nguồn khác nhau trên nhiều loại phương tiện lưu trữ và xử lý thông tin nhằm phục vụ cho các ứng. .. nghiên cứu đầu tiên của luật kết hợp Trong dạng luật kết hợp nhị phân, chỉ quan tâm là tập mục có xuất hiện (ứng với số 1 hoặc true) hay không xuất hiện (ứng số 0 hoặc False) trong giao dịch chứ không quan tâm về “tần suất“ xuất hiện Chẳng hạn, người ta mua hoặc không mua một một sản phẩm nào đó (không quan tâm số lượng) Thuật toán tiêu biểu nhất khai phá dạng luật kết hợp là thuật toán Apriori và các... các biến thể của nó Các luật khác cũng có thể có được bằng cách rời rạc hoá hoặc mờ hoá, v.v để đưa về dạng luật kết hợp nhị phân Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorỉal association rule) Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu rất đa dạng (nhị phân - binary, số - quantitative hoặc hạng mục categorial, ) Để phát hiện luật kết họp với các thuộc tính... tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của dữ liệu, Một kho dữ liệu là một khung nhìn thông tin mức toàn bộ đơn vị sản xuất kinh doanh đó, thống nhất toàn bộ các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó Ví dụ, hệ thống xử lý giao dịch trực tuyến (OLAP) truyền thống được xây dựng trên một vùng nghiệp vụ Một hệ thống bán hàng và một hệ thống tiếp thị (marketing)... tinh lọc Tổng hợp và kết nối dữ liệu Đồng bộ hoá các nguồn dữ liệu với DW Phân định và đồng nhất các hệ quản trị CSDL tác nghiệp như là các công cụ chuẩn để phục vụ cho DW Quản lí siêu dữ liệu (metadata) Cung cấp thông tin tích họp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề Các kết quả khai thác kho dữ liệu được dùng trong hệ thống hỗ trợ quyết định (DSS-Decision support system), các hệ thống. .. nghiệp Trên cơ sở các đặc trưng của DW, ta phân biệt DW với những hệ quản trị CSDL tác nghiệp truyền thống: - Kho dữ liệu phải được xác định hướng theo chủ đề Nó được thực hiện theo ý đồ của người sử dụng đầu cuối Trong khi đó các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung Những hệ CSDL thông thường không phải quản lý những lượng thông tin lớn mà quản lý những lượng thông tin vừa... hợp Cho một CSDL T, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf Bài toán khai phá luật kết họp là bài toán tìm tất cả các luật X —>Y (X, Yc I và X n Y = 0) thỏa mãn sup(X—>Y) > minsup và conf(X—>Y) > minconf Hầu hết các thuật toán được đề xuất để khai phá luật kết hợp thường được chia thành hai pha [13] [11]: Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ cho trước

Ngày đăng: 18/05/2016, 00:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w