Nghiên cứu một số phương pháp khai phá dữ liệu và thiết kế, xây dựng ứng dụng khai phá dữ liệu trên kho dữ liệu khách hàng của bưu điện thành phố hà nội
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
27,64 MB
Nội dung
ĐAI HỌC QUỐC GIA HÀ NỘI KHOA CÒNG NGHÊ ĐOÀN NHẬT MINH NGHIÊN CỨU MỘT số PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU TRÊN KHO Dữ LIỆU KHÁCH HANG CỦA Bưu ĐIỆN TP HÀ NỒI CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SÔ: 1.01.10 L U Ậ N V Ă N T H Ạ C SI NGƯỜI HƯỚMỈ DÂN KHOA HỌC: P(ỈS, TS VŨ ĐỨC THI Ị Iỉ-L O /o lo ir ỈA NÔI - Năm 2003 M Ü C LÜC Chương l: So lược về xu hướng nghiên cứu và phát trien kluii phá dù liệu 6 h iệ n n a y Chương 2: Kho (lũ liệu và cõng nghệ khám phá tri thức 8 2.1. Kho dữ liệu (Datawarehouse) . 8 2.1 1. Tons quan về kho dữ liệu 8 2. ỉ 2. iMột số đặc điếm của kho dữ liệu 10 2.1 3. Vai trò và các mục tiêu chính của kho dữ liệu I 1 2.1 4. Kho dữ liệu với công nghệ Data mining (khai phá dữ liệu) ỉ 2 2.1 5. Môi trườn 2 hoạt động của kho dữ liệu I 2 2.1 6.Một số hướng tiếp cận DWH và KDD trong ngành Bưu chính Vién 13 thôn« 2.2. Còn 2 112 hệ khám phá tri thức (KDD) 14 2.2.1. Tons quan về KDD 14 2.2.2. Khám phá tri thức là 2 1 ? 15 2.2.3. Vai trò và các mục tiêu chính của KDD I 7 2.2.4. Quá trình phất hiện tri thức IS Chuông 3: Khai phá dữ liệu 23 3.1. Tóns quan về khai phá dữ liệu 23 3.1.1. Khai phá dữ liệu 23 3.1.2. Phán mềm khai phá dữ liệu 23 3.1.3. Các thành phán cua quá trình khai phá dữ liệu 23 3.1.4. Dư đoán dữ liệu 24 3.1.5. Dự báo dữ liệu 26 3.1.6. Lựa chọn dự báo (hổi qui) hay dự đoán (phan loại )? 26 3.2. Vai trò và các mục tiêu chính của khai phá dữ liệu 26 3. 2.1. Vai trò 27 3.2.2. Mực tiêu chính 27 3.3. Các phương pháp khai phá dữ liệu chính 27 3.3.1. Phan lớp (phân loại ) dữ liệu 27 3.3.2. Hồi qui (dự báo) tlữ liệu 28 3.3.3. Phan nhóm dữ liệu 29 3.3.4 Khái quất dữ liệu 29 3.3.5. Tạo mau phụ thuộc 29 3.3.6. Tóm lát (summarization) 30 3.3.7. Các phương pháp dựa tròn man 30 3.3.8. M õ hình phụ ihuòc dua (ren do thị xác snal 30 3.3.9. Khai phá dữ liệu villi ban (Tcxỉ M in ing) 30 3.3.10. I .ouie mờ 30 v i l I. Iluíl hiên lh;iv (loi \ ;i cl III ven hirñ'HL’ MI Pilan mochín 6 4 3.4. Các kv thuật khai phá dữ liệu 3.4.1. Cây quyết định 3.4.1.1. Một số khái niệm chính 3.4.1. 2. Thuật toán Hunt 3.4.1. 3. Thuạt toán 1133 Lặp 1*0 dổi 3.4.1. 4. Thuật toán C4.5 3.4.1.5. Thuật toán rút 2 ọn các luật quyél định 3.4.1.6. Loại bỏ các luật khône cán thiết 3.4.2. Suy diễn và qui nạp 3.4.3. Phát hiện cấc luật kết hợp 3.4.4. Phân nhóm và phân loại 3.4.5. Mans neural 3.4.6. Gicii thuật di truyền 3.4.7. Lựa chọn các kỹ thuật khai phá Chương 4: Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2 4.1. Các chức năng và đặc điểm mới: 4.2. Các thành phần của Oracle Dataminins (O D M ) 4.3. Các chức năng chính của ODM 4.3.1. Phân loại 4.3.2. Phân nhóm 4.3.3. Luật kết hợp 4.3.4. Thuộc tính quan trọim 4.4. Các thuật toán khai phá dữ liệu của ODM 4.4.1. Thuật toán Adaptive Bayes Network 4.4.2. Giãi thuật Naive Baves 4.4.3. Bộ tìm kiếm mỏ hình (Model seeker) 4.5. Quá trình khai phá dữ liệu 4.5.1. Xây dựng mỏ hình 4.5.2. Kiếm tra mỏ hình 4.5.3. Tính toán tý lệ 4.5.4. Ap dụng mỏ hình 4.6. Các đối tượng ODM và lính nânsỉ 4.6.1. Đặc trưng clữ liệu vật lý 4.6.2. Cấc thiết lập chức năng khai phá 4.6.3. Các thiết lập giải th u ậ t khai phá 4.6.4. Đặc trứng dữ liệu logic 4.6.5. Các thuộc tính khai phá 4.6.6. Chí định kỹ ihuát sử thum dữ liệu 4.6.7. Đòi tưựim mỏ hình khai phá 4.6.S. Đối tượng kết qua khai phá 4.6.9. Ma (rận kiếm (ra 4 .'S.10. Apellina ko I t|ii;i l\h;ii phá 31 32 32 35 41 47 53 54 55 56 51 58 60 60 60 6! 61 63 64 64 65 66 67 6<s 68 69 70 70 71 72 72 74 74 74 74 75 75 75 76 76 4.7. C;.c LI i á trị thiếu và sự rời rạc 77 Chưoiiu 5: 7.S Bỉii toán khai phá dữ liệu khách liàiiiỉ (licn thoại di dọiií» V inaphoiK' 5.1. Đ;it ván dồ cua hài toán 78 5.2. Qui trình thực hiện bài toán 78 5.3. Thiết kè bài toán 80 Kết luận 87 Tài liéII tliam kluio 88 (> Phún mơ đau: Yêu tố thành côn 12 ironu mọi hoại done san xuất kinh doanh - quan IÝ nũùy nav uòn lỉắn lien \'ới việc nam hãi. ihốim kẽ \'à khai thác thônÍ 2 im hiệu qua. Điểi đó có nũhĩa là từ các (lữ liêu sán có. phai tìm ra những thôn SI tin tiểm an có giá rị mà trước đó chua được phát hiện, tìm ra nhũn« xu hướng phát triển và nhữrtỊ yếu tố tác ctộns lên chúiiũ. Đó k mục tiêu và nhiệm vụ cơ ban cua công nshệ khám phá tri thức tron« cư sở dữ lien, mà tron« đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai }há dữ liệu (Data minina). Phát liện tri thức tù' cơ sở dữ liệu là một quá trình có sứ dụns nhiều phương pháp và ccng cụ Tin học nhưno vần là một quá trình mà trono đó con nu ười là Trunn tàm. 4] Do đó nó khôns phái lù một hệ thố ne phàn tích tự động mà là một hệ thỏm bao tióm nhiéu hoạt cìộna tươns tác thường xuyèn siữa con nuười và cơ so' dữ liệu, với su' hổ trợ của các cône cụ tin học. Nếu phát hiện tri thức là toàn bộ quá trình triết xuất tri thức từ các cơ sớ dữ liệu thì khai phá (lũ' liệu là giai đoạn chú yêu cưa quá trình đó. Khai phá dữ liệu là đế tìm ra các mau hình cổ ý nghĩa, phù hợp với nhiệm vụ khai phá đã xác định trước, chứ không phái là thốn« kè cíữ liệu. Khai pha dữ liệu khừng tluiộc mộl nỵành côim nũhiệp nào. nó sử dưng các kỹ thuật và thuật toán thông minh đê khai phá tri thức tiềm ẩn trong dữ liệu, đặc hiệt trons các lĩnh vực về tài chính. V học. viễn thông, báo hiếm, hànti khôn o Trong tương lai gíìn. khai phá dữ liệu sẽ mana lại nhiều lợi ích to lớn cho con naười nói chung và cho các lĩnh vực quan lý. kinh doanh nói riênũ. Cnonụ 1: So lu'o'c VC XU huoim imhiỏn cứu v à phát trien khai jjhá clL lien jijen n av Trong nhữim thap ky ũãn ctãv. với sự phái trien mạnh mẽ cua côn li nsihệ diện lử. sự Hr dò'i cua các bộ nhớ có đun« lượn« lớn. bộ xứ lý tốc độ cao cùn« với cúc các hệ thống mạng viễn thỏim. người ta đã xav dime các hệ thonsz thôim tin nhăm tự độns hoá mọi hoạt độns kinh doanh và quan lý của mình. Điều này đã tạc IM một đòn" dừ liệu tãne lên không nsừna vì ngay từ các giao dịch đơn «ian nhất nhu' một cuộc gọi điện thoại, kiểm tra sức khoẻ. sử dựng thé tín chins, v.v. đểi được iỉhi vào trons máy lính. Cho đến nay. con số này đã trở nên khốn» lò 4— J J J v_ bao gồm các cơ sớ dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes Ill'll trữ các chì lieu kinh doanh ví dụ nhơ dữ liệu thôns tin khách hàng, dữ liệu lịch sử các ma) dịch, dữ liệu hán harm, dữ liêu các tài khoán, các khoán vay, sử cỉunũ vốn. v.v. Nhiều hệ quan Irị cơ sỏ'dữ liệu (CSDL) mạnh với các cỏns cụ phonsz phú và thu;m tiện đã iiiúp cho con nmrời khai Ihác có hiệu qua các nuuổn tài nmiyên dữ liệu. Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác các CSDL phu; vụ các yêu cầu trợ giúp quyết định neày càn« có ý nghĩa quan trọns và là nhu cầu to lớn troiiii mọi lình vực hoạt động kinh doanh, quan lý. Dữ liệu được thu Ihập \'à Ill'll trữ níZctv càn Í2 nhiồu nhung n ill rời ra quyêt định troim quan lý. kinh doanh lai cân nhũn« ihôna tin bố ích. nhũn« “tri thức” rút ra từ những c? o 7 <— C- nguón dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định cua mình. Các nhu cầu đó đã được biết đốn tù' láu nhưnsỉ mới thực sự hùng nổ lừ thập niên 90. Do đổ những năm 2 ần đây đã phát trien mạnh mẽ một loạt các lĩnh vực nghiên cứu về tó chức các kho dữ liệu và kho thóng tin (dala warehouse, information warehouse), các hệ trợ Íiiíip quyết định, các phươnu pháp phát ỉiiộn tri thức và khai phá dữ lien (dala miniim). Tronũ dó. khai phá clũ' liệu và phái hiện iri thức đã III’)' thành mội lĩnh vực imhiên cứu SOI độnii. tlui Ill'll sự quan lam cua rãt nhiổu 11 ”ười ircn kli;ip các lình vực khác nhau nhu' các hệ co' sờ dữ liệu, [honi: kc. t'hỈL'1 \u;ì( 1 h( >n í_! III). nh;m (liiiiLi. hoc I n; t \ . Irí mộ n 1 1 ; 111 l;io. CTuưHii 2: K h o dư lieu và cỏ nụ nulle kham phá tri thức 2.1 k h o (lữ liệu ỉ D nlaw nreho iise) 1.1.1. Ton» C]Lutn VC kho dữ lien vào íiiữa nhữne năm 80. IlWười ta bãt đáu dỏ cap don khái niệm kluinũ hoan” [han tích số liệu tác nshiộp. Niiuyên nhân cua tình tran” này tươnũ đối kỳ la: "ron 2 mỏi trườn a thừa thãi số liệu, nhà phàn tích khôn« thế tìm ra cho mình nôntỉ tin can thiết nhằm có ctirợc sự hiếu biết thâu dáo ve nhữns quá trình xáy II xung quanh. Tinh trạna số liệu quá chi tiết và khổng có được sự liên kết với nhau cùa các số liệu phan ánh các quá trình tirons đôi độc lập cua một thực thể là lý do trực tiếp dần đến sự khủns hoang này. Tình trạiiíỊ thừa tỉiômị till, triât tri tlĩức dược John Nuisbdt canil báo:"Chúiií> Ici chilly clùni 11'ẠÌp troiiíi dì liệu mà van đói tri thức." [4] Vào cuối nhiìnỵ năm 90, íIImon đã để xướng một sự kết hợp của một số liiái p.iáp kỹ thuật và được đặt tên là Data YVarehoushins - kỹ thuật xay ilựini các kho (lữ liệu. Data Warehouse hav DVV1I (kho dữ lieu) (tược (lịnh Iiíihìa nhu' một lập hợp các phương tiện cho phép hình tlunũ dữ liệu một cách tona the. hướng đối tượng để giúp cho việc phan tích và ra quyết định. Niĩrrm nsirời đầu tiên đưa ra V tướng về DVVH xác dinh run« liến hành phán tích trực tiếp trên dữ liệu cùa các hệ xứ lý íiiao dịch và khỏnỉi hiệu C]uá và do đr khônii dược khuyên khích. Thay vào đó dữ liệu từ một vài hệ XII' lý iiiao lác trưc tuyến (Online Transaction Processing - OLTP) được biến đổi và sau đó đua vào một nguồn dữ liệu duy nhất là DVVH. Quá trình này ctươc iiọi là đua do liêu vào DVVH. ũổm các công đoan chính sau: + Làm sạch (Bo các dữ liệu khóim cán thiết hoặc quá chuvẽn duna) + Liên kết các số liệu (Tính trước số liệu lích. ton”. I run il bình ) + Biến đổi dữ liệu: so liệu được hiên dõi llìành dạniỉ thích hợp. lõ cluíc lại phù hợp với DWH + TÍCỈ 1 hop so liệu tù'các 11 Üuốn khác nhau. + Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh. Khoo> dữ I LI là mól lie tlioni! dữ liệu nhám chuán hị đẽ XUY (lưi)íi hệ lio irợ t|U\yết din (DSS-Decision Support Svstcms) và hộ phan lích lrục luyến (O L LA P -O line Analỵsis Processing). Nó chứa mol tập hựp đừ liêu khổn« lổ. ctiKực thiốtvé hLi'ónÜ theo chứ đề. man« các thuộc tính vổ Ihòi oịan vù hau nhu' khcràg bị hay đổi. Dữ liệu tron« datawarehou.se được lưu trữ dưới dạn 2 imiiyên tínoặc clạns tốna hợp phục vu cho các ứns dụns phát hiện tri thức \'à trự eĩúp qi/ết định. Troing thàikV đầu định nshĩa DYVH tương đối đơn gián. Đến hiện nay DVVH vần được hếu là tập hợp dữ liệu thoá mãn 4 điều kiện cơ ban: Hướng lối tượng. - Tích họ. - Thay đ(i theo thời gian. - Lưu trù lâu đài. Nhiêm vu (hĩnh cứa DWH là phục vụ cho các hệ hỗ trợ quyét định. Các dữ liệu co' sỏ' tong DVVH có thê được hiếu diễn dưới vài khuôn (lạnũ khác nhau nhàm đáp mg khônu chi các càu hỏi cho trước mà cho ca các càu hói chua xác định. DWH có kí;h thước rất lớn vì nó chứa toàn bộ dữ liệu lịch sử. Chính vì lý đo kích thước, dữ liệu trong DVV được phùn chia làm hai loại: tích cực và khõrm tích cực. DVH chứa các dữ liệu tích hợp ờ nhiều mức. Mức ngỉiyêi. tử ị mức th ấ p n h ấ t ) chứa cốt lõi căn han nhất và là một snapshot (dữ liệu được ghi lại ớ một thời điếm) đún 2 lúc cua dữ liệu. Dữ liệu cìược LcSnti két theo các °iai đoạn thời tiian nhu' theo từníi mo', theo nứa imày. theo nuày hoặc theo tCrn 2 tuần. Mức theo tùìiiỉ giờ là xử lv phức tạp nhất. Mức ló'iii» i/ié tlìấ p : Thõng tin đuục ton» kết lại là các ihônu tin được tóm tal và kôt hợp lại cho một mục đích kinh doanh cụ thè. Điên hình là (.lữ liệu được lổn <2 kếl theo thời man nhu'tlico ìmày. luán. 2 luân hoặc một Ihánũ. Mức tong ihc cun: T ho n ü lili được lổim két lại ()' mức cao là nlnìnũ ih o iiii im được lóm lát và kêt hợp theo m ót IÝ cío nao do ral cu llic. Đ iê n hình la dữ liệu 10 du'o'c tổn« kết sau một thời ũian dài ví dụ như hà 112 thánsí. hàim quí hoặc1 hànÜ năn. Các ilữ liệu này được xử lv một cách ihốn« nhát tronsz DWH đế phục vụ cho CỊIU. t inh khai thác sau này. Cúc cặc tính này là chun« cho mọi DWH. Tron tỉ V nsihĩa đó. mọi DWH đéu có cấu trúc như nhau. Tuy vậy các DYVH trong các lĩnh vực khác nhau đểu có các Hình 2.1: Mó hình tổng th ế hệ t h ố n g kho dữ liệu 2.1.2. M ót so dàc cticm cúa kho dữ lien: Mane các thuộc tính vé thời tiian: đãv là đặc diêm hết sức quan trọn í! cua kho dữ liệu nhằm đáp ứnu các yêu cầu của siai đoạn khai phá dữ liệu. Mỗi loại dữ liệu sẽ được tổ chức và lưu trữ và có gán nhãn thòi gian theo từng chư kỳ hoạt động nghiệp vụ. Tính ổn định: Dữ liệu trorui kho đữ liệu háu như khòntỉ bị thay đối. chú yêu đế phục vụ các yêu cáu truy vấn thôn» Ún. dam báo tính bén vữntỉ vé mậl thì liệu tron” quá trình thu thập thôim tin. Hướim chu đổ: Đay la thuộc lính căn ban cua kho dữ liệu vì trước khi phan tích ihict kê hẹ thoiiii. phủi xác định rõ ràne mục tiòii nííhiệp VỊI (chu etc) cán (Jal được cua kho dử lícu. Ví (lu Iilur ban (lau khi \a\ ilựnii kho dữ liệu, ilnéi ké viel chi đưa ra mục tiêu là xâv tỉựnĩi kho dữ liêu vé hán lé. sau đó do nhu cáu ph;l trien có thê cập nhai ihêm vào kho dứ lieu các chu đõ khác như hán hàn Li qu; mạn tỉ. chứne khoán Tím lích hợp: T hó nũ tin Ironíi kho dữ liệu phai phan ánh được tho n ũ Illicit dưa tròi các nsìuỏn thons tin khác nhau vù có the cùntỉ phan ánh tươnii lự m ột vàn đề lào đó. 2.1. ỷ Vai trò và các m ue ùèu chinh cua kho dữ lieu: Kho cữ liệu được tạo ra nhằm đạt dược 2 yêu cầu chính là : - Phin tích báo cáo - Hỗ rợ quyết định Các rạic tiêu chính: - Tĩct hợp dữ liệu và siêu dữ liệu (metadata) từ nhiều nguồn khác nhau - Nârg cao chất lượng dữ liệu thông qua các phươim pháp chuán hóa, làm sạch và lìm giàu ciữ liệu. - Toni hop và kết nối dữ liệu - Đổna bộ hóa các imuón dữ liệu - Qiub lý metadata - Cunỉ cáp dữ liệu và đáp ứng hiệu quá cho các hệ hỗ trợ ra quyết định. cun« cap tược các thòng tin (one hợp và chính xác theo các chú để mà nmròĩ sứ dụnt; quan tam. Hình dưới đây mô ta vai trò cứa kho dữ liệu trong các hệ hỗ trợ quyết định: r DSS A Y V V ODS DW OLAP DM A J Lim trư Phán tích Hình 2.2: Mò liìnli lióíi truv VÍIU Ỉ 1 Ỏ trợ quvẻt định [...]... h õ n t ớ c h tr c tu v n h t r q u y t n h Mễ HèNH KHO DU LIU D a ta M arts Khai p h ỏ d i i lie u \ c ỏ c c o n g cu k h a i p h ỏ d liờ u | I K h o d liờ u c ỏc c o n g c u D s s \ JEẽ1 Cỏc c o n g c u OI AP D l iộ u l ỏ y t ự thi tr ũ n bn n g o i o I A p Server d Q u n t n k h o d u leu Hỡnh 2.3: Mũi tr ng hot dng cua kho d liu 2 1 6 V ụ t s n g t i p c n D W jJ v K J D... niihip lựiiỡii I1 ĩ Y (Operation dala), ti liu ĩ phõn tỏn ( Dislribulc dala) cỏc nuuon d liu bộn nuoi (ihoim liu vộ IV uiiớ th Irn thi tit, chI N chnĩ kho n) Nhnu nmiừn d liu nv c Ió\ O V lỡr cỏc h thụn L (lue I;1 >\ lio;III li';m IKIIII IèL ',|| kho cl Iiu C ớ 1 M Cỏc c ụ n il c il c h u y n ú i c h u n h ú a l m s c h v l m i i i ỡ u i (l l i u ctiớn li \';ii irũ tỏ n II I r m m c h u y... ỳ n ô m trc ú c h u a tns b i t DSS: H h t r q u y t n h , th c h i n t r u y v n t h ụ n g t i n a t r ờ n c ỏ c t h ụ n t i n c u n e cp t c ỏ c h C S D L tr ờ n 2.1.4 Kho d liờu vi cụng nghờ Data mimiỡu (khai phỏ d liờu) K h o d l i u ( D W H ) v i c ụ n g n h k h a i p h ỏ d l i u l c ỏ c b i n t h c ự a c ỏ c k h o d l i t t r u y n t h n g N h n g D V V H n y s d ... vi hi toỏn ny rt ln v rỏt khú cú thố duyt hột c mt cỏch tng tõn cr Mt cõy quyt nh l mt cu trỳc hỡnh cõy tron2 dú: Mi inh trong (nh c thờ khai trin c) hiu Ih cho mi phộp th i vi mt thuc tớnh Mi nhỏnh biu th cho mt kt quỏ cua phộp th Cỏc dinh lỏ (cỏc inh khụnằ khai trin c) biờu th cỏc lp hoc cỏc phõn h lp inh trờn c ự n s t r o n o m i c õ y c g i l ớ!c Vic sinh cõv quyt nh hao gm hai iiiai... t h u t h p t h c n s t i n n h a n h h n rõ t n h i ờ u v i c x l v t h ụ n tin C u o i th ờ k \ 20 p h u ' 0'nô p h ỏ p p h n l ớ c h s ụ l i u m t c ỏ c h t r i t u ( l p h n u p h ỏ p khai th ỏ c t h ụ n g t i n t r c t i p t d l i u t h ụ ) a n s c ỏ c n h k h o a h c d a n t p t r u r g g ia i q u y e l N h n g th n s h i m dó d c ỏp d n a th k h i p h õ n tớc h th ... h n h v i m n d n ô c u a n ó o b ( v ớ d m n u 1 D p l i c l d ) c h o ta k h a n n ô n h n d i i ớ i ILIOTU t' n l u r n ó o n m r ú 'i C a e m u i r c h u õ n l u \ n ele n h n clnu số k ớ c h th ớc h ()' m t v i i n y dó d c x ỏ c n h tr c N ỹU'ú'i ta d t ớ n h cliro'c r n u n ờ u m t h t h i clu'oc l i i c t l p tự' 10 N c u r a i h i u h i n h n tlin ic 5 I ( )... m g v c ú th ờ l m ĩ N a i ta l u t r cỏc lo n c ỏ c d vi chuna? d li u vỡ h i m h r n i i c ú th ờ c nhrnu c u a ỏ n 2 q u ớ n o ú d a n ô t i m õn t r o n o c h i m o V ố V n a h a khoa cai h c th i d li u c h ớ n h la n l m u q u a n sỏt d d c t p h p l i m i c ỏ c h c õ n l l i n va c ụ n g p h u v m t h i n t n g t' n h i ờ n h a v xó h i n o d ú c õ n p h a i (.lc... c b ỏ o c ỏ o v n ú v p h õ n p h ỏ t c h o n h r m n i v i q u a n t m K i ộ m tr a l i x e m t r i th c n y c ú e i t r ỏ i v ú i n h n s t r i t h c d ó c ú t r ú v õ \ khụng 'Chi u 3: Khai phỏ d jjcu 3 1 T ỹ ớ i ỹ q u a n ve k l i a i p h a d IC11 3 1 1 K h a i ph ỏ d liờ u l m t b c tr o n ằ q u i t r ỡ n h p h ỏ t h i n tr i th c e ụ m c ú cỏc :hut Ăoỏn k h a i p h ỏ d... oỏn : N h i ụ t I I y m a i s ir ờ n 3 6 ụ c? q u ớ sau l b a o n h i ờ u ? oỏn sau s h ỏ n c D D h ỏ o : N ớ i y m a i c o p h ỏ n X s h ỏ n c CHO n h ỏ t l h a o n h i ờ u ? D oỏn: : Nhna kho no quớ n h i ờ u san p h ỏ m A ? c p h n X s lờn X u n ĩ h a y ctn t r o n g n ỹ y m a i ? PhuriH p h ỏ p p h õ n n h ú m l k h ỏ c hỏ n v i p h n p h ỏ p p h õ n lo i K h i p h n lo i c... c h i t x u t ra c ỏ c m u l c ỏ c d o ỏ n n h n g o i ỏ t r c h a b i t h o c n h n ô c? i ỏ t r t r o n u o g . QUỐC GIA HÀ NỘI KHOA CÒNG NGHÊ ĐOÀN NHẬT MINH NGHIÊN CỨU MỘT số PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU TRÊN KHO Dữ LIỆU KHÁCH HANG CỦA Bưu ĐIỆN TP HÀ NỒI CHUYÊN. phá dữ liệu 23 3.1. Tóns quan về khai phá dữ liệu 23 3.1.1. Khai phá dữ liệu 23 3.1.2. Phán mềm khai phá dữ liệu 23 3.1.3. Các thành phán cua quá trình khai phá dữ liệu 23 3.1.4. Dư đoán dữ liệu. nghệ khám phá tri thức 8 2.1. Kho dữ liệu (Datawarehouse) . 8 2.1 1. Tons quan về kho dữ liệu 8 2. ỉ 2. iMột số đặc điếm của kho dữ liệu 10 2.1 3. Vai trò và các mục tiêu chính của kho dữ liệu I