Thông tin tài liệu
é ĐẠI HỌC QUỐC GIA HÀ NỘI l TRƯỜ NG ĐẠI HỌC CÔNG NGHỆ l l é l l NGUYỄN THẾ VINH l l ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ VÀ PHÁT TRIỂN VIỆT NAM l l l l l l l Ngà nh Mã số k c é l k : CÔNG NGHỆ THÔNG TIN : 1.01.10 p l l l l l LUẬN VĂN THẠC SỸ l l l N gười hướ n g dẫ n kho a họ c: PGS TS NGÔ QUỐC TẠO c z p c g p o x HÀ NỘI, 2006 l l Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam LỜI CẢ M ƠN k l Tô i x i n gử i lờ i cảm n châ n nh tớ i thầ y g iáo PGS.TS N gô Q uố c Tạo z p z p c z y z l p p v p v z v m c z l c h i PGS.TS Vũ Đứ c Th i - V iệ n Cô n g n ghệ thô n g t i n tậ n tì nh bảo hướ n g é z z p p c p c v p c v z p p v p v p @ i p c dẫ n cho tô i thự c h iệ n l uậ n vă n nà y g p v z v z p y h p i p p m Tô i cũ n g x i n bà y tỏ lò n g b iế t n củ a mì nh tớ i cá c thầ y cô th uộ c Đạ i họ c z p c p z p @ m v y p c @ z v p x l p v z 3 v m v h é z Cô n g n ghệ- Đạ i họ c Q uố c G i a Hà nộ i cá c thầ y cô V iệ n Cô n g n ghệ thô n g t i n p c p c é z h z x p z i 3 v m z p p c p c v p c v z p t r u yề n thụ cho tô i nhữ n g k iế n thứ c rấ t bổ í ch, tạo sở cho v iệ c làm l uậ n vă n p i v e h m p v v z p p c o z p v e v @ v l i z y l y h p i p cho cô n g v iệ c củ a tô i s a u nà y 3 p c i z 3 x v z l x h p m Lờ i cảm n c uố i cù n g tô i x i n đượ c gử i tớ i g i a đì nh bè bạ n, nhữ n g z l p h z p c v z p z p p c z v z c z x p p i @ @ p p p c n gườ i l uô n ủ n g hộ, g iú p đỡ độ n g v iê n tơ i t ro n g q t rì nh hoà n nh n gh iê n p c z y h p p c c z s p i p p c i z p v z v e p c h v e p p v p p c z p u kho a họ c h o x Họ c viê n thự c hiệ n l Luận văn thạc sĩ Công nghệ Thông tin_ Nguyễn Thế Vinh lớp K10T3CN i z p v z p N g u yễ n Thế V i nh c h m p z p Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam MỤC LỤC k MỤC LỤC k BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT .3 l DANH MỤC HÌ NH VẼ VÀ BẢNG BIỂU .4 l k l l LỜI MỞ ĐẦU k é CHƯƠ NG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆ N TRI THỨC l l 1.1 Kh a i phá l iệ u x z s g y z h 1.1.1 Tổ n g q u a n kh a i phá l iệ u p c h x p i o x z s g y z h 1.1.2 Nh iệm vụ chí nh củ a kh a i phá l iệ u .8 l z l i p x o x z s g y z h 1.1.3 Cá c n g l iệ u kh a i phá .9 g p c g y z h v o x z s 1.1.4 K iế n t rú c hệ thố n g kh a i phá l iệ u .10 z p v e v p c o x z s g y z h 1.1.5 Q uá t rì nh kh a i phá l iệ u 10 h v e p o x z s g y z h 1.1.6 Cá c nh phầ n kh a i phá l iệ u 11 v p s p o x z s g y z h 1.1.7 Mộ t số phươ n g phá p kh a i phá l iệ u 12 k v l s p c s s o x z s g y z h 1.1.9 Cá c ứ n g dụ n g củ a kh a i phá l iệ u 18 p c g p c x o x z s g y z h 1.1.10 Phâ n loạ i cá c hệ thố n g kh a i phá l iệ u 18 p y z 3 v p c o x z s g y z h 1.1.11 Nhữ n g khó khă n t ro n g v iệ c kh a i phá l iệ u .19 l p c o o p v e p c i z o x z s g y z h 2.2 Cô n g n ghệ khám phá t r i thứ c (KDD) 20 p c p c o l s v e z v 2.2.1 Khám phá t r i thứ c gì? 20 l s v e z v y c 2.2.2 V a i t rò cá c mụ c t iê u chí nh củ a KDD 22 x z v e i 3 l v z h p x 2.2.3 Q uá t rì nh phá t h iệ n t ri thứ c 23 h v e p s v z p v e z v CHƯƠ NG LUẬT KẾT HỢP 26 l 2.1 Mộ t số đị nh n ghĩ a l uậ t l uậ t kế t hợ p 26 k v l p p p c x i y h v i y h v o v s 2.2 Tí nh chấ t củ a l uậ t kế t hợ p 28 p v x y h v o v s 2.2.1 Tí nh chấ t củ a tậ p mụ c phổ b iế n 28 p v x v s l s @ z p 2.2.2 Cá c tí nh chấ t củ a l uậ t kế t hợ p 28 v p v x y h v o v s 2.3 Nhữ n g đặ c t rư n g bả n củ a l uậ t 29 l p c p v e p c @ p x y h v 2.3.1 Khô n g g i a n tìm k iếm 29 p c c z x p v l o z l 2.3.2 Độ hỗ t rợ 31 é v e 2.4 Nhữ n g hướ n g t iế p cậ n chí nh .32 l p c p c v z s p p CHƯƠ NG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠ NG PHÁP LUẬT KẾT HỢP 35 l k l l 3.1 Kh a i phá l uậ t kế t hợ p boo l e a n n ch iề u n mứ c 35 x z s y h v o v s @ y e x p p p z h i p p l 3.1 Th uậ t toá n A p r io ri 35 h v v p s e z e z 3.1.2 Th uậ t toá n P a r t i t io n ( kỹ th uậ t BFS g i ao tậ p hợ p củ a cá c tậ p mụ c) 39 h v v p x e v z v z p o v h v i c z x v s s x 3 v s l 3.1.3 Th uậ t toá n FP-G row th ( kỹ th uậ t DFS đếm tầ n s uấ t x uấ t h iệ n tậ p mụ c) 47 h v v p e v o v h v i p l v p Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN l h v p h v z p v s l Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam 3.1.4 Th uậ t toá n E c l a t ( kỹ th uậ t DFS g i ao tậ p mụ c) 50 h v v p y x v o v h v i c z x v s l 3.2 Kh a i phá l uậ t kế t hợ p đị nh lượ n g 51 x z s y h v o v s p p y p c 3.3 Kh a i phá l uậ t kế t hợ p t rừ u tượ n g, đ a mứ c .51 x z s y h v o v s v e h v p c p x l 3.4 L uậ t kế t hợ p có th uộ c tí nh số hạ n g mụ c 53 h v o v s v h v p l i p c l 3.5 L uậ t kế t hợ p mờ 56 h v o v s l 3.5.1 L uậ t kế t hợ p mờ vớ i th uộ c tí nh số đượ c đá nh t rọ n g số 66 h v o v s l i z v h v p l p p p v e p c l 3.5.2 Ch u yể n l uậ t kế t hợ p mờ l uậ t kế t hợ p vớ i th uộ c tí nh số 67 h m p y h v o v s l i y h v o v s i z v h v p l CHƯƠ NG Ứ NG DỤ NG THỬ NGHIỆ M 68 l l l l k 4.1 Đặ t vấ n đề .68 é v i p p 4.2 Mơ hì nh thử n gh iệ m .71 k p v p c z l 4.3 Chươ n g t rì nh thử n gh iệ m 77 p c v e p v p c z l KẾT LUẬ N .83 l l Nhữ n g vấ n đề đượ c g iả i q u yế t t ro n g l uậ n vă n 83 p c i p p p p c z z h m v v e p c y h p i p Hướ n g n gh iê n u t ro n g tươ n g l a i 84 p c p c z p h v e p c v p c y x z TÀI LIỆU THA M KHẢO 85 k Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT l Bả n g từ v iế t tắ t p c v i z v v v Từ hoặ c cụm từ 3 l Từ t iế n g A nh v v Cơ sở l iệ u l g y z c p c p c Từ v iế t tắ t p i D at a b ase h x Cô n g n ghệ thô n g t i n p z v p c v z v x @ x l p e l x v z p e p y c v e z v v CNTT m l Cở sở t r i thứ c l v CSDL e I nfo rm a t io n T e ch no lo g y p z CSTT Kh a i phá t r i thứ c t ro n g l iệ u K now l e d g e D is cov e r y i n D a t a KDD Kh a i phá l iệ u Data Mining KPDL x z x s z v s e z v g y z v e p c g y z h h l s v e z v y x Khám phá t r i thứ c l p v x e g k z c p e z z p l i e e m z p x c K now l e d g e D is cov e r y p y e g c e z l i e e p p c V iệ t N am z v l x l é h v i v v e z p x p o e p i e l v l e p v x p g D ev e lo pm e n t of V i e t N am e i e y s l e p v z e v l x KPTT m N gâ n hà n g Đầ u tư Phá t t r iể n B a n k fo r I nv es tm e n t a n d c v x l BIDV v DANH MỤC HÌNH VẼ VÀ BẢ NG BIỂU l k l l D a nh mụ c hì nh vẽ x p l p i Hì nh 1.1 K iế n t rú c hệ thố n g kh a i phá l iệ u 10 p z p v e v p c o x z s g y z h Hì nh 1.2 Q uá t rì nh kh a i phá l iệ u 11 p h v e p o x z s g y z h Hì nh 1.3 Ví dụ câ y q u yế t đị nh .13 p g i m h m v p p Hì nh 2.1 Dà n cho tậ p I={1,2,3,4} .30 p p v s Hì nh 3.1 Câ y FP-G row th đế m mứ c phổ b iế n 42 p m e v p l l s @ z p Hì nh 3.2 Câ y đ iề u k iệ n FP - T r e e .42 p m p z h o z p e e e Hì nh 3.3 Mứ c hoạ t độ n g củ a g iả i th uậ t 43 p k v p p c x c z z v h v Hì nh 3.4 Mơ phỏ n g l iệ u câ y băm .44 p k s p c g y z h m @ l Hì nh 3.5 Câ y cấ u t rú c thâ n .45 p m h v e v p Hì nh 3.6 Mơ phỏ n g kế t hợ p đầ u thâ n .46 p k s p c l o v s p h i v p Hì nh 4.1 D a nh sá ch cá c f i l e l iệ u củ a phâ n hệ t iề n gử i 70 p x p l 3 z y e g y z h x s p v z p c z Hì nh 4.2 T rì nh tự xử lý t ro n g ứ n g dụ n g thử n gh iệ m 71 p e p v p y v e p c p c g p c v p c z l Hì nh 4.3 Dữ l iệ u củ a hệ thố n g t rướ c kh i rờ i rạ c mờ hoá 75 p y z h x v p c v e o z e z e i l Hì nh 4.4 Dữ l iệ u củ a hệ thố n g s a u kh i rờ i rạ c mờ hoá .76 p y z h x v p c l x h o z e z e i l Hì nh 4.5 Mà n hì nh g i ao d iệ n chí nh củ a chươ n g t rì nh 77 p k p p c z x g z p p x p c v e p Hì nh 4.6 Mà n hì nh g i ao d iệ n h iể n thị l iệ u gố c 78 p k p p c z x g z p z p v g y z h c Hì nh 4.7 Mà n hì nh g i ao d iệ n h iể n thị l iệ u s a u kh i đượ c rờ i rạ c mờ hoá .78 p k p p c z x g z p z p v g y z h l x h o z p e z e i l Hì nh 4.8 Sự phụ th uộ c củ a thờ i g i a n xử lý vào fm i ns u p p 79 p s v h 3 x v z c z x p p y i l z p l h s s Hì nh 4.9 Sự phụ th uộ c củ a số lượ n g tậ p phổ b iế n l uậ t t i n cậ y vào g iá t rị fm i ns u p p 80 p s v h 3 x l y p c v s s @ z p i y h v v z p m i c z v e l z p l h s s Hì nh 4.10 Sự phụ th uộ c củ a số lượ n g l uậ t vào độ t i n cậ y tố i th iể u fm i n co nf .80 p s v h 3 x l y p c y h v i p v z p m v z v z h l z p p Hì nh 11 Sự th a y đổ i kí ch thướ c CSDL tá c độ n g tớ i thờ i g i a n thự c h iệ n kh a i phá 81 p v x m p z o v v p p c v z v z c z x p v z p o x z s Hì nh 4.12 Sự phụ th uộ c củ a số lượ n g tậ p phổ b iế n l uậ t kế t hợ p vào n gưỡ n g tậ p mờ81 p s v h 3 x l y p c v s s @ z p i y h v o v s i p c p c v s l D a nh mụ c bả n g b iể u x p l @ p c @ z h Bả n g 1: CSDL m ch uẩ n n bệ nh t i m củ a 17 bệ nh nhâ n 54 p c o l i h p p p @ p v z l x @ p p p Bả n g 2: Rờ i rạ c hố th uộ c tí nh số rờ i rạ c hữ u hạ n hoặ c th uộ c tí nh hạ n g mụ c 55 p c z e v h v p l e z e h p v h v p p c l Bả n g 3: Rờ i rạ c hoá th uộ c tí nh số “Lượ n g cho l e s t e ro l t ro n g má u” “T uổ i” 55 p c z e v h v p l p c y e l v e e y v e p c l h i h z Bả n g 4: CSDL khám ch uẩ n n bệ nh t im mạ ch củ a 13 bệ nh nhâ n 57 p c i o l i h p p p @ p v z l l 3 x @ p p p Bả n g 5: Bả n g cá c ký h iệ u sử dụ n g t ro n g th uậ t toá n kh a i phá l uậ t kế t hợ p mờ 61 p c p c 3 o z h l g p c v e p c v h v v p o x z s y h v o v s l Bả n g 6: TF - g iá t rị cá c th uộ c tí nh tạ i cá c bả n gh i đượ c mờ hoá .63 p c c z v e 3 v h v p v z 3 @ p c z p p l Bả n g 7: C1 - tậ p tấ t cá c tậ p th uộ c tí nh có lự c lượ n g bằ n g .64 p c v s v v 3 v s v h v p y y p c @ p c Bả n g 8: F2 - tậ p th uộ c tí nh phổ b iế n có lự c lượ n g bằ n g .65 p c v s v h v p s @ z p y y p c @ p c Bả n g 9: Cá c l uậ t mờ đượ c s i nh r a từ CSDL t ro n g bả n g 66 p c y h v l p l z p e x v v e p c @ p c LỜI MỞ ĐẦU k é T ro n g nhữ n g thậ p kỷ gầ n đâ y, vớ i phá t t r iể n mạ nh mẽ củ a cô n g n ghệ e p c p p c v s o c p p m i z l s v v e z p l p l x p c p c đ iệ n tử, r a đờ i củ a cá c nhớ có d u n g lượ n g lớ n, xử lý tố c độ c ao cù n g p i z p v l e x p z x 3 @ p g h p c y p c y p @ p y v p x p c vớ i cá c hệ thố n g mạ n g v iễ n thô n g N gườ i t a xâ y dự n g cá c hệ thố n g thô n g t i n z 3 v p c l p c i z p v p c l c z v x p m g p c 3 v p c v p c v z p nhằm tự độ n g hoá mọ i hoạ t độ n g k i nh a nh củ a mì nh Đ iề u nà y tạo r a mộ t p l v p p c l z v p p c o z p g x p x l p é z h p m p v e x l v dò n g l iệ u tă n g lê n khơ n g n gừ n g n g a y từ nhữ n g g i ao dị ch n g iả n nhấ t g p c g y z h v p c y p o p c p c p c i p c x m v p p c c z x g p p c z p p v mộ t c uộ c gọ i đ iệ n thoạ i, k iểm t r a sứ c khoẻ, sử dụ n g thẻ tí n dụ n g,v.v đề u p l v h c z p z p v z o z l v e x l o l g p c v v p g p c i i p h đượ c gh i vào t ro n g má y tí nh Cho đế n n a y, co n số nà y t rở lê n khổ n g lồ b ao p c z i v e p c l m v p p p p x m p l p m p v e y p o p c y @ x gồm cá c sở l iệ u lớ n cỡ g i g a b y t es chí t e r a b y t es lư u t rữ cá c l iệ u c l 3 l g y z h y p c z c x @ m v e l i v l v e e x @ m v e l y h v e 3 g y z h k i nh a nh ví dụ l iệ u thơ n g t i n ch hà n g, l iệ u lị ch sử cá c g i ao dị ch, o z p g x p i g g y z h v p c v z p o p c g y z h y l 3 c z x g g l iệ u bá n hà n g, l iệ u cá c tà i khoả n, cá c khoả n v a y, sử dụ n g vố n,v.v Nh iề u hệ y z h @ p p c g y z h 3 v z o p 3 o p i x m l g p c i p i i l z h q uả n t rị sở l iệ u (CSDL) mạ nh vớ i cá c cô n g cụ n g phú th uậ n t iệ n h p v e l g y z h l p i z 3 p c s p c s i v h p v z p p g iú p cho co n n gườ i kh a i thá c có h iệ u q uả cá c n g uồ n tà i n g u yê n l iệ u c z s 3 p p c z o x z v 3 z h h 3 p c h p v z p c h m p g y z h Cù n g vớ i c nă n g kh a i thá c có tí nh chấ t tá c n gh iệp, v iệ c kh a i thá c cá c p c i z 3 p p c o x z v 3 v p v v p c z s i z o x z v 3 CSDL phụ c vụ cá c yê u cầ u t rợ g iú p q u yế t đị nh n gà y cà n g có ý n ghĩ a q u a n t rọ n g s i i 3 m h h v e c z s h m v p p p c m p c p c x h x p v e p c nh u cầ u to lớ n t ro n g mọ i lĩ nh vự c hoạ t độ n g k i nh a nh, q uả n lý Dữ l iệ u y p h h v y p v e p c l z y p i v p p c o z p g x p h p y y z h đượ c th u thậ p l iệ u n gà y cà n g nh iề u n g n gườ i r a q u yế t đị nh t ro n g q uả n p v h v s i g y z h p c m p c p z h p p c p c z e x h m v p p v e p c h p lý k i nh a nh lạ i cầ n nhữ n g thơ n g t i n bổ í ch, nhữ n g “ t r i thứ c” rú t r a từ nhữ n g y o z p g x p y z p p p c v p c v z p @ p p c v e z v e v e x v p p c n g uồ n l iệ u hơ n chí nh nhữ n g n g uồ n l iệ u cho v iệ c r a q u yế t đị nh p c h p g y z h p p y p p p c p c h p g y z h p i z e x h m v p p củ a mì nh Cá c nh u cầ u đượ c b iế t đế n từ lâ u n g mớ i thự c bù n g nổ từ x l p p h h p p p @ z v p p v y h p p c l z v l @ p c p v thậ p n iê n 90 Do nhữ n g năm gầ n đâ y phá t t r iể n mạ nh mẽ mộ t loạ t cá c lĩ nh v i s p z p p p p c p l c p p m p s v v e z p l p l l v y v 3 y p vự c n gh iê n u tổ c cá c kho l iệ u kho thô n g t i n Cá c hệ t rợ g iú p p c z p h i v 3 3 o g y z h i o v p c v z p v e c z s q u yế t đị nh, cá c phươ n g phá p phá t h iệ n t r i thứ c kh a i phá l iệ u h m v p p 3 s p c s s s v z p v e z v i o x z s g y z h T ro n g đó, kh a i phá l iệ u phá t h iệ n t r i thứ c t rở nh mộ t lĩ nh vự c e p c p o x z s g y z h i s v z p v e z v p v e v p l v y p i n gh iê n u sô i độ n g th u hú t q u a n tâm n gh iê n u củ a nh iề u ch u yê n g i a t ro n g p c z p h l z p p c v h v l h x p v l p c z p h x p z h h m p c z x v e p c cá c lĩ nh vự c hệ sở l iệ u, thố n g kê, ch iế t x uấ t thô n g t i n, nhậ n n g, họ c l i y p i p l g y z h v p c o z v p h v v p c v z p p p g p c má y, t rí t uệ nhâ n tạo v.v Phầ n lớ n cá c kỹ th uậ t chí nh đượ c p dụ n g t ro n g lĩ nh m v e v h p p v i i p y p 3 o v h v p p s g p c v e p c y p vự c kh a i phá l iệ u đượ c kế thừ a từ cá c lĩ nh vự c t rê n Cá c bà i toá n chủ yế u o x z s g y z h p o v x v 3 y p i v e p @ z v p m h t ro n g KPDL phâ n lớ p/ dự n, phâ n cụm, kh a i phá l uậ t kế t hợ p, kh a i phá v e p c y s p y s g p p s p l o x z s y h v o v s o x z s ch uỗ i,v.v Lĩ nh vự c nà y cũ n g đ iểm hộ i tụ g i ao tho a củ a rấ t nh iề u lĩ nh vự c h z i i p i p m p c y p z l z v i c z x v x x e v p z h y p i c KPDL đ a n g đượ c ứ n g dụ n g nh cô n g vào thươ n g mạ i, tà i chí nh o p i p x p c p p c g p c v p p c i v p c l thị t rườ n g n g khoá n, s i nh họ c, y họ c, g iáo dụ c, v iễ n thô n g,v.v v v e p c p c o p l z p m c z g i z p v p c i i z v z p i Do KPDL mộ t lĩ nh vự c rộ n g lớ n nê n t ro n g l uậ n vă n nà y đề cập đế n y l v y p i e p c y p p p v e p c y h p i p p m p s p p khí a cạ nh kh a i phá l iệ u bằ n g l uậ t kế t hợ p dự a t rê n nề n tả n g củ a mộ t số o x p o x z s g y z h @ n gh iê n u đượ c thự c h iệ n p c z p h p p v z p p c y h v o v s g x v e p p p v p c x l v l CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC l l 1.1 Kh a i phá l iệ u x z s g y z h 1.1.1 Tổ n g q u a n kh a i phá l iệ u p c h x p i o x z s g y z h Hà n g n ghì n năm n a y vấ n đề tổ c kh a i thá c l iệ u vấ n đề mà p c p c p p l p x m i p p i v 3 o x z v g y z h y i p p l co n n gườ i phả i g iả i q u yế t Đế n n a y vấ n đề nà y vẫ n chư a g iả i q u yế t đượ c t r iệ t p p c z s z c z z h m v é p p x m i p p p m i p x c z z h m v p v e z v để Cá c ch u yê n g i a t ro n g lĩ nh vự c c nh a u t ro n g q uá t rì nh hoạ t độ n g củ a mì nh p 3 h m p c z x v e p c y p i o p x h v e p c h v e p v p p c x l p th u thậ p đượ c mộ t khố i lượ n g k iế n thứ c khổ n g lồ n g tổ c sở l iệ u v h v s p l v o z y p c o z p v o p c y p p c v 3 l g y z h p nh mộ t hệ thố n g để phâ n tí ch đư a r a nhữ n g thô n g t i n cầ n th iế t t rê n sở v p l v v p c p s p v p x e x p p c v p c v z p p v z v v e p l g l iệ u đượ c tậ p hợ p mộ t vấ n đề rấ t phứ c tạ p y z h p p v s s y l v i p p e v s v s Cá c hệ thố n g tồ n tạ i mộ t cá ch chồ n g chéo kh iế n cá c thô n g t i n thừ a xả y v p c v p v z l v 3 p c o z p 3 v p c v z p v x p m r a nh iề u vấ n đề xử lý số l iệ u lớ n rấ t phứ c tạ p Có mộ t n ghị ch lý n g t a e x p z h i i p p p y l y z h y p i e v s v s l v p c y y p c v x th u thậ p thô n g t i n nh a nh hơ n rấ t nh iề u v iệ c xử lý thô n g t i n v h v s v p c v z p p x p p e v p z h i z p y v p c v z p C uố i kỷ 20, phươ n g phá p phâ n tí ch số l iệ u mộ t cá ch t rí t uệ ( h s z v o s p c s s s p v l y z h l v 3 v e v h y phươ n g phá p kh a i thá c thô n g t i n t rự c t iế p từ l iệ u thô) th u hú t đượ c q u a n p c s s o x z v v p c v z p v e v z s v g y z h v p v h v p l h x p tâm củ a cá c nhà kho a họ c Nhữ n g thử n gh iệm đượ c áp dụ n g t ro n g nh iề u lĩ nh v i l x 3 p o x l p c v p c z l p p s g p c v e p c p z h y p vự c phâ n tí ch thị t rườ n g tà i chí nh, n gâ n hà n g, đá nh g iá khả nă n g cho v a y, s p s p v v v e p c v z p p c p p c p p c z o p p c i x m phâ n tí ch đá nh g iá nhữ n g mạo h iểm t ro n g đầ u tư đượ c t iế n hà nh rấ t nh iề u Đâ y p v p p c z p p c l z l v e p c p h v p v z p p e v p z h é m vấ n đề đặ c b iệ t khó kh i t a có mộ t lượ n g thô n g t i n khổ n g lồ Bà i toá n cầ n g iả i y i p p p @ z v o o z v x l v y p c v p c v z p o p c y z v p p c z z q u yế t đâ y phâ n tí ch số l iệ u r a s ao? Co n n gườ i má y tí nh kế t hợ p vớ i h m v p m y s p v l y z h e x l x p p c z i l m v p l o v s i z nh a u nào, co n n gườ i làm nhữ n g nhữ n g g i ao cho má y mó c Dự p x h p v p p p c z l y l p p c c i p p c c c z x l m l n cá c vấ n đề t rê n t ro n g tươ n g l a i rấ t khó n g q u a n t ro n g nhấ t h iể u p p 3 i p p v e p v e p c v p c y x z y e v o p p c h x p v e p c p v y z h đượ c g iớ i hạ n co n n gườ i g iớ i hạ n củ a cá c th iế t bị má y mó c Th eo Joh n p l c z z p p p c z i c z z p x 3 v z v @ l m l e p N e um a l số lượ n g n e u r a l củ a mộ t n gườ i 1020 b i t mặ c dù n g t a khô n g sử e h l x y v l y p c p e h e x y x l v p c z y @ z v l g p c v x o p c l dụ n g hế t số lượ n g nà y Mộ t số nhà bá c họ c mô phỏ n g cá c hà nh v i nhậ n n g g p c v l y p c p m k v l p @ 3 p l s p c 3 p i z p p g p c củ a não (ví dụ mạ n g Ho pf i e l d) cho n g t a khả nă n g nhậ n n g tươ n g tự x p @ i g l p c s z e y g 3 p c v x o p p c p p g p c v p c v não n gườ i Cá c mẫ u đượ c h uấ n l u yệ n để nhậ n n g kí ch thí ch mộ t p i p p c z l h p p h p y h m p p p p g p c l o v l v vù n g đượ c xá c đị nh t rướ c N gườ i t a tí nh đượ c rằ n g nế u mộ t hệ thố n g đượ c p c p p p p p v e l c z v x p v p p e p c p h l v v p c p th iế t lậ p từ 1020 N e u r a l gh i nhậ n đượ c 5.1018 mẫ u c nh a u bằ n g 5% số v z v y s v l e h e x y v c z p p p l h o p x h @ p c l lượ n g N e u r a l Đâ y cũ n g chí nh số lượ n g mẫ u lớ n nhấ t mà co n n gườ i y p c l e h e x y é m p c p y l y p c l h y p p v l p p c z v nhớ đượ c Đó co n số khổ n g lồ mà th iế t bị đ iệ n tử khô n g có khả nă n g đạ t đượ c p p é y p l o p c y l v z v @ p z p v o p c o p p c p v p T u y nh iê n, tố c độ củ a cá c N e u r a l s i nh họ c q uá chậm vớ i cá c n g n ghệ tí nh h m p z p v p x 3 l e h e x y l z p h l g i z 3 p toá n h iệ n n a y Vấ n đề nà y có lý N e u r a l s i nh họ c tố c độ phả n v p z p p x m p p p m y g y l e h e x y l z p v p s p c p c v p ứ n g nhỏ hơ n N e u r a l nhâ n tạo lầ n Từ h a i yế u tố số lượ n g tố c độ củ a N e u r a l p c p p l e h e x y p p v y p x z m h v l y p c i v p x l e h e x y t a xá c đị nh đượ c khả nă n g sử dụ n g hệ thố n g t rí t uệ nhâ n tạo t ro n g q uá t rì nh v x p p p p o p p c l g p c v p c v e v h p p v v e p c h v e p KDD q uá t rì nh kh a i thá c thô n g t i n từ sở l iệ u Khơ n g có mộ t chươ n g y h v e p o x z v v p c v z p v l g y z h p c l v p c t rì nh má y tí nh h iệ n n a y cũ n g t ro n g khoả n g thờ i g i a n sắ p tớ i mô v e p l m v p p z p p x m p c p v e p c o p c v z c z x p l s v z v l tả đượ c độ n g phú củ a t rí t uệ co n n gườ i Tố t nhấ t n g t a nê n hạ n chế cá c v p @ p s p c s x v e v h p p c z v p v p c v x p p p 3 bà i toá n củ a co n n gườ i t ro n g lĩ nh vự c tổ c n g v iệ c Má y mó c tố t nhấ t z v p x p p c z v e p c y p i v 3 p c i z k m l v v p v y tậ p t r u n g vào v iệ c tìm k iếm t r i thứ c mớ i( cá c q u y l uậ t ẩ n dướ i khố i l iệ u khổ n g v s v e h p c i i z v l o z l v e z v l z 3 h m y h v p g z o z g y z h o p c lồ) y Cá c hệ thố n g KDD xá c đị nh mộ t cá ch hì nh tượ n g cá c tă n g v p c v p p p l v 3 p v p c y 3 @ v p c tố c cho t rí t uệ co n n gườ i Ứ n g dụ n g củ a hệ thố n g KDD yê u cầ u phả i có n ghệ v 3 v e v h p p c z p c g p c x v p c m h h s z p c th uậ t b iể u d iễ n phươ n g phá p tổ c cá c bà i toá n Kế t q uả c uố i cù n g lờ i v h v @ z h g z p i s p c s s v 3 3 @ z v p v h h z p c y y z g iả i dự a t rê n nhữ n g thô n g t i n th u thậ p đượ c Chì a khó a củ a vấ n đề sử dụ n g c z z g x v e p p p c v p c v z p p v h v s p x o x x i p p l g p c KDD khô n g phả i lự a chọ n mộ t hoặ c i th uậ t toá n KDD b iế t mà dự a vào v iệ c o s i p c s z y x p l v i z v h v v p p @ z v l g x i i z phâ n tí ch l iệ u bằ n g tổ hợ p cá c phươ n g phá p T a lấ y ví dụ t ro n g lĩ nh p v g y z h @ p c v s 3 s p c s s x v y m i g v e p c y p vự c y tế Đầ u kỷ 21, loà i n gườ i b iế t đượ c 105 t r iệ u t rứ n g bệ nh, 105 mẫ u m v é h v o y z p c z p @ z v p v e z h v e p c @ p l h th uố c 104 cá c loạ i bệ nh c nh a u Rõ rà n g nế u khô n g có g iú p đỡ củ a KDD v h 3 y z @ p o p x h e p c p h o p c l c z s p x v iệ c khám phá r a t r i thứ c t ro n g đ iề u khô n g thể đố i vớ i bấ t kỳ ch u yê n v i z o l s e x v e z v v e p c p y p z h o p c v p z i z @ v o h m p g i a c z x p Chú n g t a co i t r i thứ c thô n g t i n tí ch hợ p b ao gồm cá c v iệ c p i l c v x v z v e z v p v p c v z p v s @ x c l 3 l i z nhữ n g q u a n hệ củ a n g mà t a lĩ nh hộ i, khám phá hoặ c họ c tậ p Nó i p p c h x p x p c l v x v y p z o l s 3 v s l z mộ t cá ch c, t r i thứ c l iệ u mứ c t rì u tượ n g hoá i q uá t c ao v 3 o v e z v 3 v y g y z h l v e h v p c i o z h v x 1.1.2 Nh iệm vụ chí nh củ a kh a i phá l iệ u l z l i p x o x z s g y z h T ro n g mọ i hoạ t độ n g sả n x uấ t - k i nh a nh - q uả n lý yế u tố t nh e p c l z v p p c l p p h v o z p g x p h p y v m h v v v p cô n g l uô n gắ n l iề n vớ i v iệ c nắm bắ t, thố n g kê kh a i thá c thô n g t i n h iệ u q uả p c y h p c p y z p i z i z p l @ v v p c o i o x z v v p c v z p z h h G iờ đâ y KPDL đ a n g t rở nh mộ t t ro n g nhữ n g hướ n g n gh iê n u chí nh z p m p i p x p c v e v p l v v e p c p p c p c p c z p h p củ a lĩ nh vự c kho a họ c má y tí nh n g n ghệ t r i thứ c Do co i mụ c đí ch x y p i o x l m v p i p c p c v e z v p v z l p chí nh củ a q t rì nh KPDL mộ t tả dự n mà cá c mẫ u KPDL phá t h iệ n p x h v e p y l v v i g p p l 3 l h s v z p đượ c đề u nhắm vào mụ c đí ch nà y p p h p l i l p p m Để đạ t đượ c h a i mụ c đí ch chí nh t rê n, nh iệm vụ chí nh củ a KPDL b ao gồm: é p v p x z l p 3 p v e p p z l i p x @ x c l Phâ n lớ p: v iệ c họ c mộ t hàm nh xạ (h a y phâ n loạ i) từ mộ t mẫ u l iệ u p i y s y i z 3 l v l p p x m vào mộ t t ro n g số cá c lớ p đượ c xá c đị nh t rướ c l v v e p c l 3 y s p p p p p v e s p y z v l v l h g y z h
Ngày đăng: 03/02/2024, 13:45
Xem thêm: