Nghiên cứu một số phương pháp khai phá dữ liệu và thiết kế xây dựng ứng dụng khai phá dữ liệu trên kho dữ liệu khách hàng của bưu điện thành phố hà nội
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
27,64 MB
Nội dung
ĐAI HỌC QUỐC GIA HÀ NỘI KHOA CÒNG NGHÊ Đ O À N NHẬT MINH NGHIÊN CỨU MỘT s ố PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU TRÊN KHO D ữ LIỆU KHÁCH HANG CỦA B u ĐIỆN TP HÀ NỒI CHUYÊN N G ÀNH: CÔNG NGHỆ THÔNG TIN MÃ SÔ: 1.01.10 L U Ậ N V Ă N T H Ạ C SI NGƯỜI HƯỚMỈ DÂN KHOA HỌC: P(ỈS, TS VŨ ĐỨC THI Ị ỈA NÔI - Năm 0 Iỉ - L O / o l o i r M Ü C LÜC P ila n mochín Chương l: So lược xu hướng nghiên cứu phát trien h iệ n k lu ii phá dù liệu Chương 2: Kho (lũ liệu cõng nghệ khám phá tri thức 2.1 Kho liệu (Datawarehouse) 2.1 Tons quan kho liệu ỉ iMột số đặc điếm kho liệu 2.1 Vai trò mục tiêu kho liệu 2.1 Kho liệu với công nghệ Data mining (khai phádữliệu) 2.1 Môi trườn2 hoạt động kho liệu 6.Một số hướng tiếp cận DWH KDD ngành Bưuchính Vién thơn« 2.2 Cịn2 112 hệ khám phá tri thức (KDD) 2.2.1 Tons quan KDD 2.2.2 Khám phá tri thức ? 2.2.3 Vai trò m ục tiêu KDD 2.2.4 Q trìn h phất tri thức Chuông 3: Khai phá liệu 3.1 Tóns quan khai phá liệu 3.1.1 Khai phá liệu 1.2 Phán mềm khai phá liệu 3.1.3 Các thành phán cua trình khai phá liệu 3.1.4 Dư đoán liệu 3.1.5 Dự báo liệu 1.6 Lựa chọn dự báo (hổi qui) hay dự đốn (phan loại )? 3.2 Vai trị mục tiêu khai phá liệu 2.1 Vai trị 3.2.2 Mực tiêu 3.3 Các phương pháp khai phá liệu 3.3.1 Phan lớp (phân loại ) liệu 3.3.2 Hồi qui (dự báo) tlữ liệu 3.3.3 Phan nhóm liệu 3.3.4 Khái quất liệu 3.3.5 Tạo mau phụ thuộc 3.3.6 Tóm lát (summarization) 3.3.7 Các phương pháp dựa tròn man 3.3.8 M õ hình phụ ihc du a (ren thị xácsnal 3.3.9 Khai phá liệu villi ban (Tcxỉ M i n i n g ) 3.3.10 I ouie mờ v i l I Iluíl hiên lh;iv (loi \ ;i cl III ven hirñ'HL’ 8 10 I1 ỉ2 I2 13 14 14 15 I7 IS 23 23 23 23 23 24 26 26 26 27 27 27 27 28 29 29 29 30 30 30 30 30 MI 3.4 Các kv thuật khai phá liệu 3.4.1 Cây định 3.4.1.1 Một số khái niệm 3.4.1 Thuật toán Hunt 3.4.1 Thuạt toán 1133 Lặp 1*0 dổi 3.4.1 Thuật toán C4.5 3.4.1.5 Thuật toán rút ọn luật quyél định 3.4.1.6 Loại bỏ luật khône cán thiết 3.4.2 Suy diễn qui nạp 3.4.3 Phát cấc luật kết hợp 3.4.4 Phân nhóm phân loại 3.4.5 Mans neural 3.4.6 Gicii thuật di truyền 3.4.7 Lựa chọn kỹ thuật khai phá Chương 4: 31 32 32 35 41 47 53 54 55 56 51 58 60 Công nghệ khai phá liệu hãng Oracle với phiên ban 9i release Các chức đặc điểm mới: 4.2 Các thành phần Oracle Dataminins 60 (O D M ) 60 4.3 Các chức ODM 6! 4.3.1 Phân loại 4.3.2 Phân nhóm 4.3.3 Luật kết hợp 4.3.4 Thuộc tính quan trọim 4.4 Các thuật tốn khai phá liệu ODM 61 63 65 4.4.1 Thuật toán Adaptive Bayes Network 4.4.2 Giãi thuật Naive Baves 4.4.3 Bộ tìm kiếm mỏ hình (Model seeker) 4.5 Quá trình khai phá liệu 66 67 6 Phún m đ a u : Yêu tố thành côn 12 ironu hoại done san xuất kinh doanh - quan IÝ nũùy nav uòn lỉắn lien \'ới việc nam hãi ihốim kẽ \'à khai thác thơnÍ2 im hiệu qua Điểi có nũhĩa từ (lữ liêu sán có phai tìm thơn SI tin tiểm an có giá rị mà trước chua phát hiện, tìm nhũn« xu hướng phát triển nhữrtỊ yếu tố tác ctộns lên chúiiũ Đó k mục tiêu nhiệm vụ ban cua công nshệ khám phá tri thức tron« cư sở lien, mà tron« kỹ thuật cho phép ta lấy tri thức kỹ thuật khai }há liệu (Data minina) Phát liện tri thức tù' sở liệu q trình có sứ dụns nhiều phương pháp ccng cụ Tin học nhưno vần trình mà trono nu ười Trunn tàm 4] Do khơns phái lù hệ thố ne phàn tích tự động mà hệ bao tióm nhiéu hoạt cìộna tươns tác thường xuyèn siữa nuười so' liệu, với su' hổ trợ cône cụ tin học Nếu phát tri thức tồn q trình triết xuất tri thức từ sớ liệu khai phá (lũ' liệu giai đoạn u cưa q trình Khai phá liệu đế tìm mau hình cổ ý nghĩa, phù hợp với nhiệm vụ khai phá xác định trước, khơng phái thốn« kè cíữ liệu Khai pha liệu khừng tluiộc mộl nỵành cơim nũhiệp sử dưng kỹ thuật thuật tốn thơng minh đê khai phá tri thức tiềm ẩn liệu, đặc hiệt trons lĩnh vực tài V học viễn thơng, báo hiếm, hànti khơn o Trong tương lai gíìn khai phá liệu m ana lại nhiều lợi ích to lớn cho naười nói chung cho lĩnh vực quan lý kinh doanh nói riênũ C n o n ụ 1: So lu'o'c XU VC huoim imhiỏn cứu phát trien khai jjhá clL lien jije n nav Trong nhữim thap ky ũãn ctãv với phái trien mạnh mẽ cua côn li nsihệ diện lử Hr dị'i cua nhớ có đun« lượn« lớn xứ lý tốc độ cao cùn« với cúc hệ thống mạng viễn thỏim người ta xav dime hệ thonsz thơim tin nhăm tự độns hố hoạt độns kinh doanh quan lý Điều tạc IM địn" dừ liệu tãne lên khơng nsừna từ giao dịch đơn «ian nhu' gọi điện thoại, kiểm tra sức khoẻ sử dựng thé tín chins, v.v đểi iỉhi vào trons máy lính Cho đến số trở nên khốn» lò J 4— J J v_ bao gồm sớ liệu cực lớn cỡ gigabytes chí terabytes Ill'll trữ chì lieu kinh doanh ví dụ nhơ liệu thơns tin khách hàng, liệu lịch sử ma) dịch, liệu hán harm, liêu tài khoán, khoán vay, sử v.v Nhiều hệ quan Irị sỏ'dữ liệu (CSDL) mạnh với cỏns cụ c ỉu n ũ vốn phonsz p h ú thu;m tiện iiiúp cho nmrời khai Ihác có hiệu qua nuuổn tài nmiyên liệu Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác CSDL phu; vụ u cầu trợ giúp định nềy càn« có ý nghĩa quan trọns nhu cầu to lớn troiiii lình vực hoạt động kinh doanh, quan lý Dữ liệu thu Ihập \'à Ill'll trữ níZctv càn Í2 nhiồu nhung n ill rời quyêt định troim quan lý kinh doanh lai cân nhũn« ihơnao tin bố ích.7 nhũn«ní_! III) nh;m (liiiiLi hoc In;t \ Irí mộ n 11;111 l;io CTuưHii 2: K h o d l i e u v c ỏ n ụ n u l l e k h a m p h t r i t h ứ c k h o (lữ liệ u ỉ D n l a w n r e h o i i s e ) 1.1.1 Ton» C]Lutn VC kho lien vào íiiữa nhữne năm 80 IlWười ta bãt đáu dỏ cap don khái niệm kluinũ hoan” [han tích số liệu tác nshiộp Niiuyên nhân cua tình tran” tươnũ đối kỳ la: "ron mỏi trườn a thừa thãi số liệu, nhà phàn tích khơn« tìm cho nơntỉ tin can thiết nhằm có ctirợc hiếu biết thâu dáo ve nhữns trình xáy II xung quanh Tinh trạna số liệu chi tiết khổng có liên kết với cùa số liệu phan ánh q trình tirons đơi độc lập cua thực thể lý trực tiếp dần đến khủns hoang Tình trạiiíỊ thừa tỉiơmị till, triâ t tri tlĩức dược John N uisbdt canil báo:"Chúiií> Ici chilly clùni 11'ẠÌp troiiíi d ì liệu mà van đói tri thức." [4] Vào cuối nhiìnỵ năm 90, íIImon để xướng kết hợp số liiái p.iáp kỹ thuật đặt tên Data YVarehoushins - kỹ thuật xay ilựini kho (lữ liệu Data Warehouse hav DVV1I (kho lieu) (tược (lịnh Iiíihìa nhu' lập hợp phương tiện cho phép hình tlunũ liệu cách tona the hướng đối tượng để giúp cho việc phan tích định Niĩrrm nsirời đưa V tướng DVVH xác dinh run« liến hành phán tích trực tiếp liệu cùa hệ xứ lý íiiao dịch khỏnỉi hiệu C] đr khơnii dược khun khích Thay vào liệu từ vài hệ XII' lý iiiao lác trưc tuyến (Online Transaction Processing - OLTP) biến đổi sau đua vào nguồn liệu DVVH Quá trình ctươc iiọi đua liêu vào DVVH ũổm công đoan sau: + Làm (Bo liệu khóim cán thiết chuvẽn duna) + Liên kết số liệu (Tính trước số liệu lích ton” Irun il bình ) + Biến đổi liệu: so liệu hiên dõi llìành dạniỉ thích hợp lõ clc lại phù hợp với DWH + TÍCỈ1 hop so liệu tù'các 11Üuốn khác + Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh Khoo> I LI mól lie tlioni! liệu nhám chuán đẽ XUY (lưi)íi hệ lio irợ hị t|U\yết din (DSS-Decision Support Svstcms) hộ (O L L A P -O lin e phan líc h lrục luyến Analỵsis Processing) Nó chứa mol tập hựp đừ liêu khổn« lổ ctiKực thiốtvé hLi'ónÜ theo đề man« thuộc tính vổ Ihịi oịan vù hau nhu' khcràg bị hay đổi Dữ liệu tron« datawarehou.se lưu trữ dạn imiiyên tínoặc clạns tốna hợp phục vu cho ứns dụns phát tri thức \'à trự eĩúp qi/ết định Troing thàikV đầu định nshĩa DYVH tương đối đơn gián Đến DVVH vần hếu tập hợp liệu thoá mãn điều kiện ban: Hướng lối tượng - Tích họ - Thay đ(i theo thời gian - Lưu trù lâu đài Nhiêm vu (hĩnh cứa DWH phục vụ cho hệ hỗ trợ quyét định Các liệu co' sỏ' tong DVVH có thê hiếu diễn vài khuôn (lạnũ khác nhàm đáp mg khônu chi càu hỏi cho trước mà cho ca càu hói chua xác định DWH có kí;h thước lớn chứa tồn liệu lịch sử Chính lý đo kích thước, liệu DVV phùn chia làm hai loại: tích cực khõrm tích cực DVH chứa liệu tích hợp nhiều mức Mức ngỉiyêi tử ị mức th ấ p n h ấ t) chứa cốt lõi han snapshot (dữ liệu ghi lại thời điếm) đún lúc cua liệu Dữ liệu cìược LcSnti két theo °iai đoạn thời tiian nhu' theo từníi mo', theo nứa imày theo nuày theo Mức tCrn2 tuần Mức theo tùìiiỉ xử lv phức tạp ló'iii» i / i é t l ì ấ p : Thõng tin đuục ton» kết lại ihơnu tin tóm tal kơt hợp lại cho mục đích kinh doanh cụ thè Điên hình (.lữ liệu lổn 30 A N D 1) T M A not in ¡ A A < B l B2 O I T T ¡ A N D T O N G _ C U O C < = 408515 THEN HUY = W I T H m i s c l a s s i f i c a t i o n co st = [ TREE NODE T o t a l re c o rd s : 26 ( ) T a r g e t re c o rd s : 22 ( ) J IF SO NG AY_CAT_PHUC_TB > A N D D T _ \ A n o t in { A A B1 B2 T T | A N D T O N G _ C U O C > 408515 THEN HUY = W I T H m i s c l a s s i f i c a t i o n c o s t = - C a y c o n so se la: Hoot r S0MGAY_CAT_PHLIC_TB 0 I DT_MAin{A2A3 B1 B2 01 T2 T3 } [ j DT.MAnohn {A2A3 B1 B2Q1 T2 T3 >| I ' TQ N G JC U Q C < = 408515 SONGAY.CAT PHUC TB 408 5 -S0MGAY_CAT_PHUC_i B>30 \ NT Kết Ilian K h a i phá ckì liệ u m ộ t hướng n a h iè n cứu c ò n tương d ố i m i m e thu h út n h iề u q u a n tà m cua giới C ô n e n tỉhệ t h ô n g tin H iệ n trê n th ế g iớ i phương p h p k h a i phá liệ u c ù n g với h n s lo t th u ậ t toán tiế p tục tiế n k h ô n ngừng L u ậ n vãn c ố sắ n g tr ìn h bày háu hết cá c p hư ơng pháp ban h iệ n n a y cua k h a i phá liệ u , đặc b iệ t trìn h b ày đ i sâu m rõ th u ậ t to n k h a i p há liệ u sứ d ụ n g c y q u v ế t đ ịn h Q u a đ ó, với m ụ c tiê u đ ạt m ộ t k ế t q u ả thự c tiễ n rõ rệt lu ậ n văn đ i sâu v o n g h iê n cứu l ý th u y ế t c ô n g n gh ệ k h a i phá liệ u c ủ a hãnơ O r a c le , thực h iệ n cài dặt tr iể n k h a i thử n g h iệ m m ò h ìn h k h a i phá liệ u Bưu đ iệ n với cách t iế p cạn tạo m ẫ u ứng d u n g H n g phát triể n : - V ề [ý th u y ế t: Đ ể tài cù a lu ậ n vãn c ó thể t iế p tục n g h iê n c iầ i vế cá c c i tiế n cua th u ậ t toán c â y q u y ế t đ ịn h , c c h k ế t hợp g iữ a phư ơng p h p k h a i phá (lữ liệ u n h m n ân g cao h iệ u suất k h a i phá V é phát triể n ứ n U d ụ n g c ô n g n g h ệ : H n g phát t r iể n ứng d ụ n g tập t u m i ỉ x â y d ng ứrm d ụ n g c h u y ê n b iệ t th e o y ê u càu riê n cua cáp lã nh đao sử (.lun» n g ô n 11 m ì Java x â v tlựníi ứnu tlụ rm lớp đê tương tác VỚI rnav c h u D M S k h a i thá c liệ u trực t iế p lừ k h o liệ u ( O c le D a ta W a re h o u s e ) c iia Bưu đ iệ n H nội Tili liệu tham khao T ie n » V i e t V ũ Đ ứ c T h i L ê H a i K h ô i ( 1999) “ M ộ t số n m iy ê n lý h oạt đ ộ n g k h o d ữ l i ệ u " T p c h í T i ll H o c Đ iê u khiển T n g - V ũ Đ ứ c T h i ( 9 ), Co' sờ clữ liệ u - K iê n thức VCI thực hàn h N h xuất ban T h ố n g kê V ũ Đ ứ c T h i ( 9 - 0 ) , Báo cáo kết cỊitá thực dê tà i ngh iên cứu c bàn, V i ệ n C ô n g n g h ệ th ô n g tin N g u y e n T h a n h T h u ý (2 0 ) K h u i p h d ữ liệu - K ĩ th u ậ t it'll" dụng, B ài g iá n g trường th u Hệ m ứng d ụ n g Hà N ộ i N g u y ễ n X u â n T ù n g (2 0 ) , M ộ t s ố vấn đề c bán th iế t kê xâ y dựng m h ìn h D a ta w a r e h o iis e , L u ậ n vãn thạ c sỹ, Đ i học q u ố c g ia , khoa C ô n g nghệ T iế n g A n h A l e x F re ita s a n d S im o n L a v i n ü t o n ( 1998) M in i n o V e ry L a rg e D a tab ases w ith P a r a l le l P ro c e s s in g K lu v v e r A c a d e m ic P u b lish e rs J R oss Q u i n l a n ( 9 ) C : P ro g r a m s f o r M a c h in e L e a rn in g M o r g a n K a u fm a n n J S fe r R A a r a w a l and M M e h t a ( 1996) S P R IN T : A S ca lab le P a r a lle l C la s s ifie r f o r Delta M i ll in g , Proc 2 n d Int C o n l O n V e r y L a r g e D atab a ses M u m b a i In d ia Ho Tu N a tu r a l Bao in s t it u t e S c ie n c e and o f In fo rm a tio n T e c h n o lo g y T e c h n o lo g y (2 0 ) N a t io n a l I n ir o il ii c ii o n to C e n te r fo r know ledge d is c o v e ry a n d (latam inini> M M e h ta R A a a rv v a l and J R is s a n c n ( 1996) S L IO : A Fust Sealable C la s s ifie r f o r D a ta M in in g Proc O f the f i f t h Int C o n f O n E x t e n d in g Datab a se T e c h n o l o g y ( E D B T ) A v i i i n o n France I Michael BeiTV and Gordon Linolf ( 1997) Diiia Mining Tcrliiiu/Iirs II’fir Marketing Sales (//Ill Customer Sup/ioi'ii John W ilcv t’v Sons 12.O R A C L E (2 0 ) I n tr o d u c tio n ln O c le D a r w i n Release f o r Solaris 13.O R A C L E (2 0 ) O c le 9i D a ta n u n in g - A d m in is t r a tio n s te ch n ica l 14.O R A C L E (2 0 ) O c le 91 D a t a m in i/ ! Ự - C o ncepts Release l S h o lo m M W e is s and N i t i n I n d u r k h y a ( 199 ), P r e d ic tiv e D a ta M in i n g (il p r a c t ic a l múde), M o r g a n K a u f m a n n P u b lis h e rs 16.U s a m a F a y y a d , G r e g o r y P ia te ts k y - S h a p ir o P a d h ic S m y th , and R a m a s a m y U t h u r a s a m y (e d s ) (1 9 ) , A d va n ce s in K n o w le d g e D is c o v e ry Ltncl D a ta M i n i n g A A A I P ress/ T h e M I T Press D i a c h l In te rn e t: w w v v base g ro up , ru w w w c c s Li.cdu/dttti.imin in g w v v w d a ta m i ni n g c o m w w w o r a c le c o m w w w L[.scrs.cs.L im n cdii/~ m jo s h i/ h p d m t L it / in d e x h t m www.research.ibm.com ... Khám phá tri thức ? 2.2.3 Vai trò m ục tiêu KDD 2.2.4 Q trìn h phất tri thức Chng 3: Khai phá liệu 3.1 Tóns quan khai phá liệu 3.1.1 Khai phá liệu 1.2 Phán mềm khai phá liệu 3.1.3 Các thành phán... xu hướng nghiên cứu phát trien h iệ n k lu ii phá dù liệu Chương 2: Kho (lũ liệu cõng nghệ khám phá tri thức 2.1 Kho liệu (Datawarehouse) 2.1 Tons quan kho liệu ỉ iMột số đặc điếm kho liệu 2.1... mục tiêu kho liệu 2.1 Kho liệu với công nghệ Data mining (khai phád? ?liệu) 2.1 Môi trườn2 hoạt động kho liệu 6 .Một số hướng tiếp cận DWH KDD ngành Bưuchính Vién thơn« 2.2 Còn2 112 hệ khám phá tri