Luận văn áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam

110 0 0
Luận văn áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

é ĐẠI HỌC QUỐC GIA HÀ NỘI l TRƯỜ NG ĐẠI HỌC CÔNG NGHỆ l l é l l NGUYỄN THẾ VINH l l ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ VÀ PHÁT TRIỂN VIỆT NAM l l l l l l l Ngà nh Mã số k c é l k : CÔNG NGHỆ THÔNG TIN : 1.01.10 p l l l l l LUẬN VĂN THẠC SỸ l l l N gười hướ n g dẫ n kho a họ c: PGS TS NGÔ QUỐC TẠO c z p c g p o x HÀ NỘI, 2006 l l Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam LỜI CẢ M ƠN k l Tô i x i n gử i lờ i cảm n châ n nh tớ i thầ y g iáo PGS.TS N gô Q uố c Tạo z p z p c z y z l p p v p v z v m c z l c h i PGS.TS Vũ Đứ c Th i - V iệ n Cô n g n ghệ thô n g t i n tậ n tì nh bảo hướ n g é z z p p c p c v p c v z p p v p v p @ i p c dẫ n cho tô i thự c h iệ n l uậ n vă n nà y g p v z v z p y h p i p p m Tô i cũ n g x i n bà y tỏ lò n g b iế t n củ a mì nh tớ i cá c thầ y cô th uộ c Đạ i họ c z p c p z p @ m v y p c @ z v p x l p v z 3 v m v h é z Cô n g n ghệ- Đạ i họ c Q uố c G i a Hà nộ i cá c thầ y cô V iệ n Cô n g n ghệ thô n g t i n p c p c é z h z x p z i 3 v m z p p c p c v p c v z p t r u yề n thụ cho tô i nhữ n g k iế n thứ c rấ t bổ í ch, tạo sở cho v iệ c làm l uậ n vă n p i v e h m p v v z p p c o z p v e v @ v l i z y l y h p i p cho cô n g v iệ c củ a tô i s a u nà y 3 p c i z 3 x v z l x h p m Lờ i cảm n c uố i cù n g tô i x i n đượ c gử i tớ i g i a đì nh bè bạ n, nhữ n g z l p h z p c v z p z p p c z v z c z x p p i @ @ p p p c n gườ i l uô n ủ n g hộ, g iú p đỡ độ n g v iê n tơ i t ro n g q t rì nh hoà n nh n gh iê n p c z y h p p c c z s p i p p c i z p v z v e p c h v e p p v p p c z p u kho a họ c h o x Họ c viê n thự c hiệ n l Luận văn thạc sĩ Công nghệ Thông tin_ Nguyễn Thế Vinh lớp K10T3CN i z p v z p N g u yễ n Thế V i nh c h m p z p Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam MỤC LỤC k MỤC LỤC k BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT .3 l DANH MỤC HÌ NH VẼ VÀ BẢNG BIỂU .4 l k l l LỜI MỞ ĐẦU k é CHƯƠ NG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆ N TRI THỨC l l 1.1 Kh a i phá l iệ u x z s g y z h 1.1.1 Tổ n g q u a n kh a i phá l iệ u p c h x p i o x z s g y z h 1.1.2 Nh iệm vụ chí nh củ a kh a i phá l iệ u .8 l z l i p x o x z s g y z h 1.1.3 Cá c n g l iệ u kh a i phá .9 g p c g y z h v o x z s 1.1.4 K iế n t rú c hệ thố n g kh a i phá l iệ u .10 z p v e v p c o x z s g y z h 1.1.5 Q uá t rì nh kh a i phá l iệ u 10 h v e p o x z s g y z h 1.1.6 Cá c nh phầ n kh a i phá l iệ u 11 v p s p o x z s g y z h 1.1.7 Mộ t số phươ n g phá p kh a i phá l iệ u 12 k v l s p c s s o x z s g y z h 1.1.9 Cá c ứ n g dụ n g củ a kh a i phá l iệ u 18 p c g p c x o x z s g y z h 1.1.10 Phâ n loạ i cá c hệ thố n g kh a i phá l iệ u 18 p y z 3 v p c o x z s g y z h 1.1.11 Nhữ n g khó khă n t ro n g v iệ c kh a i phá l iệ u .19 l p c o o p v e p c i z o x z s g y z h 2.2 Cô n g n ghệ khám phá t r i thứ c (KDD) 20 p c p c o l s v e z v 2.2.1 Khám phá t r i thứ c gì? 20 l s v e z v y c 2.2.2 V a i t rò cá c mụ c t iê u chí nh củ a KDD 22 x z v e i 3 l v z h p x 2.2.3 Q uá t rì nh phá t h iệ n t ri thứ c 23 h v e p s v z p v e z v CHƯƠ NG LUẬT KẾT HỢP 26 l 2.1 Mộ t số đị nh n ghĩ a l uậ t l uậ t kế t hợ p 26 k v l p p p c x i y h v i y h v o v s 2.2 Tí nh chấ t củ a l uậ t kế t hợ p 28 p v x y h v o v s 2.2.1 Tí nh chấ t củ a tậ p mụ c phổ b iế n 28 p v x v s l s @ z p 2.2.2 Cá c tí nh chấ t củ a l uậ t kế t hợ p 28 v p v x y h v o v s 2.3 Nhữ n g đặ c t rư n g bả n củ a l uậ t 29 l p c p v e p c @ p x y h v 2.3.1 Khô n g g i a n tìm k iếm 29 p c c z x p v l o z l 2.3.2 Độ hỗ t rợ 31 é v e 2.4 Nhữ n g hướ n g t iế p cậ n chí nh .32 l p c p c v z s p p CHƯƠ NG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠ NG PHÁP LUẬT KẾT HỢP 35 l k l l 3.1 Kh a i phá l uậ t kế t hợ p boo l e a n n ch iề u n mứ c 35 x z s y h v o v s @ y e x p p p z h i p p l 3.1 Th uậ t toá n A p r io ri 35 h v v p s e z e z 3.1.2 Th uậ t toá n P a r t i t io n ( kỹ th uậ t BFS g i ao tậ p hợ p củ a cá c tậ p mụ c) 39 h v v p x e v z v z p o v h v i c z x v s s x 3 v s l 3.1.3 Th uậ t toá n FP-G row th ( kỹ th uậ t DFS đếm tầ n s uấ t x uấ t h iệ n tậ p mụ c) 47 h v v p e v o v h v i p l v p Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN l h v p h v z p v s l Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam 3.1.4 Th uậ t toá n E c l a t ( kỹ th uậ t DFS g i ao tậ p mụ c) 50 h v v p y x v o v h v i c z x v s l 3.2 Kh a i phá l uậ t kế t hợ p đị nh lượ n g 51 x z s y h v o v s p p y p c 3.3 Kh a i phá l uậ t kế t hợ p t rừ u tượ n g, đ a mứ c .51 x z s y h v o v s v e h v p c p x l 3.4 L uậ t kế t hợ p có th uộ c tí nh số hạ n g mụ c 53 h v o v s v h v p l i p c l 3.5 L uậ t kế t hợ p mờ 56 h v o v s l 3.5.1 L uậ t kế t hợ p mờ vớ i th uộ c tí nh số đượ c đá nh t rọ n g số 66 h v o v s l i z v h v p l p p p v e p c l 3.5.2 Ch u yể n l uậ t kế t hợ p mờ l uậ t kế t hợ p vớ i th uộ c tí nh số 67 h m p y h v o v s l i y h v o v s i z v h v p l CHƯƠ NG Ứ NG DỤ NG THỬ NGHIỆ M 68 l l l l k 4.1 Đặ t vấ n đề .68 é v i p p 4.2 Mơ hì nh thử n gh iệ m .71 k p v p c z l 4.3 Chươ n g t rì nh thử n gh iệ m 77 p c v e p v p c z l KẾT LUẬ N .83 l l Nhữ n g vấ n đề đượ c g iả i q u yế t t ro n g l uậ n vă n 83 p c i p p p p c z z h m v v e p c y h p i p Hướ n g n gh iê n u t ro n g tươ n g l a i 84 p c p c z p h v e p c v p c y x z TÀI LIỆU THA M KHẢO 85 k Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT l Bả n g từ v iế t tắ t p c v i z v v v Từ hoặ c cụm từ 3 l Từ t iế n g A nh v v Cơ sở l iệ u l g y z c p c p c Từ v iế t tắ t p i D at a b ase h x Cô n g n ghệ thô n g t i n p z v p c v z v x @ x l p e l x v z p e p y c v e z v v CNTT m l Cở sở t r i thứ c l v CSDL e I nfo rm a t io n T e ch no lo g y p z CSTT Kh a i phá t r i thứ c t ro n g l iệ u K now l e d g e D is cov e r y i n D a t a KDD Kh a i phá l iệ u Data Mining KPDL x z x s z v s e z v g y z v e p c g y z h h l s v e z v y x Khám phá t r i thứ c l p v x e g k z c p e z z p l i e e m z p x c K now l e d g e D is cov e r y p y e g c e z l i e e p p c V iệ t N am z v l x l é h v i v v e z p x p o e p i e l v l e p v x p g D ev e lo pm e n t of V i e t N am e i e y s l e p v z e v l x KPTT m N gâ n hà n g Đầ u tư Phá t t r iể n B a n k fo r I nv es tm e n t a n d c v x l BIDV v DANH MỤC HÌNH VẼ VÀ BẢ NG BIỂU l k l l D a nh mụ c hì nh vẽ x p l p i Hì nh 1.1 K iế n t rú c hệ thố n g kh a i phá l iệ u 10 p z p v e v p c o x z s g y z h Hì nh 1.2 Q uá t rì nh kh a i phá l iệ u 11 p h v e p o x z s g y z h Hì nh 1.3 Ví dụ câ y q u yế t đị nh .13 p g i m h m v p p Hì nh 2.1 Dà n cho tậ p I={1,2,3,4} .30 p p v s Hì nh 3.1 Câ y FP-G row th đế m mứ c phổ b iế n 42 p m e v p l l s @ z p Hì nh 3.2 Câ y đ iề u k iệ n FP - T r e e .42 p m p z h o z p e e e Hì nh 3.3 Mứ c hoạ t độ n g củ a g iả i th uậ t 43 p k v p p c x c z z v h v Hì nh 3.4 Mơ phỏ n g l iệ u câ y băm .44 p k s p c g y z h m @ l Hì nh 3.5 Câ y cấ u t rú c thâ n .45 p m h v e v p Hì nh 3.6 Mơ phỏ n g kế t hợ p đầ u thâ n .46 p k s p c l o v s p h i v p Hì nh 4.1 D a nh sá ch cá c f i l e l iệ u củ a phâ n hệ t iề n gử i 70 p x p l 3 z y e g y z h x s p v z p c z Hì nh 4.2 T rì nh tự xử lý t ro n g ứ n g dụ n g thử n gh iệ m 71 p e p v p y v e p c p c g p c v p c z l Hì nh 4.3 Dữ l iệ u củ a hệ thố n g t rướ c kh i rờ i rạ c mờ hoá 75 p y z h x v p c v e o z e z e i l Hì nh 4.4 Dữ l iệ u củ a hệ thố n g s a u kh i rờ i rạ c mờ hoá .76 p y z h x v p c l x h o z e z e i l Hì nh 4.5 Mà n hì nh g i ao d iệ n chí nh củ a chươ n g t rì nh 77 p k p p c z x g z p p x p c v e p Hì nh 4.6 Mà n hì nh g i ao d iệ n h iể n thị l iệ u gố c 78 p k p p c z x g z p z p v g y z h c Hì nh 4.7 Mà n hì nh g i ao d iệ n h iể n thị l iệ u s a u kh i đượ c rờ i rạ c mờ hoá .78 p k p p c z x g z p z p v g y z h l x h o z p e z e i l Hì nh 4.8 Sự phụ th uộ c củ a thờ i g i a n xử lý vào fm i ns u p p 79 p s v h 3 x v z c z x p p y i l z p l h s s Hì nh 4.9 Sự phụ th uộ c củ a số lượ n g tậ p phổ b iế n l uậ t t i n cậ y vào g iá t rị fm i ns u p p 80 p s v h 3 x l y p c v s s @ z p i y h v v z p m i c z v e l z p l h s s Hì nh 4.10 Sự phụ th uộ c củ a số lượ n g l uậ t vào độ t i n cậ y tố i th iể u fm i n co nf .80 p s v h 3 x l y p c y h v i p v z p m v z v z h l z p p Hì nh 11 Sự th a y đổ i kí ch thướ c CSDL tá c độ n g tớ i thờ i g i a n thự c h iệ n kh a i phá 81 p v x m p z o v v p p c v z v z c z x p v z p o x z s Hì nh 4.12 Sự phụ th uộ c củ a số lượ n g tậ p phổ b iế n l uậ t kế t hợ p vào n gưỡ n g tậ p mờ81 p s v h 3 x l y p c v s s @ z p i y h v o v s i p c p c v s l D a nh mụ c bả n g b iể u x p l @ p c @ z h Bả n g 1: CSDL m ch uẩ n n bệ nh t i m củ a 17 bệ nh nhâ n 54 p c o l i h p p p @ p v z l x @ p p p Bả n g 2: Rờ i rạ c hố th uộ c tí nh số rờ i rạ c hữ u hạ n hoặ c th uộ c tí nh hạ n g mụ c 55 p c z e v h v p l e z e h p v h v p p c l Bả n g 3: Rờ i rạ c hoá th uộ c tí nh số “Lượ n g cho l e s t e ro l t ro n g má u” “T uổ i” 55 p c z e v h v p l p c y e l v e e y v e p c l h i h z Bả n g 4: CSDL khám ch uẩ n n bệ nh t im mạ ch củ a 13 bệ nh nhâ n 57 p c i o l i h p p p @ p v z l l 3 x @ p p p Bả n g 5: Bả n g cá c ký h iệ u sử dụ n g t ro n g th uậ t toá n kh a i phá l uậ t kế t hợ p mờ 61 p c p c 3 o z h l g p c v e p c v h v v p o x z s y h v o v s l Bả n g 6: TF - g iá t rị cá c th uộ c tí nh tạ i cá c bả n gh i đượ c mờ hoá .63 p c c z v e 3 v h v p v z 3 @ p c z p p l Bả n g 7: C1 - tậ p tấ t cá c tậ p th uộ c tí nh có lự c lượ n g bằ n g .64 p c v s v v 3 v s v h v p y y p c @ p c Bả n g 8: F2 - tậ p th uộ c tí nh phổ b iế n có lự c lượ n g bằ n g .65 p c v s v h v p s @ z p y y p c @ p c Bả n g 9: Cá c l uậ t mờ đượ c s i nh r a từ CSDL t ro n g bả n g 66 p c y h v l p l z p e x v v e p c @ p c LỜI MỞ ĐẦU k é T ro n g nhữ n g thậ p kỷ gầ n đâ y, vớ i phá t t r iể n mạ nh mẽ củ a cô n g n ghệ e p c p p c v s o c p p m i z l s v v e z p l p l x p c p c đ iệ n tử, r a đờ i củ a cá c nhớ có d u n g lượ n g lớ n, xử lý tố c độ c ao cù n g p i z p v l e x p z x 3 @ p g h p c y p c y p @ p y v p x p c vớ i cá c hệ thố n g mạ n g v iễ n thô n g N gườ i t a xâ y dự n g cá c hệ thố n g thô n g t i n z 3 v p c l p c i z p v p c l c z v x p m g p c 3 v p c v p c v z p nhằm tự độ n g hoá mọ i hoạ t độ n g k i nh a nh củ a mì nh Đ iề u nà y tạo r a mộ t p l v p p c l z v p p c o z p g x p x l p é z h p m p v e x l v dò n g l iệ u tă n g lê n khơ n g n gừ n g n g a y từ nhữ n g g i ao dị ch n g iả n nhấ t g p c g y z h v p c y p o p c p c p c i p c x m v p p c c z x g p p c z p p v mộ t c uộ c gọ i đ iệ n thoạ i, k iểm t r a sứ c khoẻ, sử dụ n g thẻ tí n dụ n g,v.v đề u p l v h c z p z p v z o z l v e x l o l g p c v v p g p c i i p h đượ c gh i vào t ro n g má y tí nh Cho đế n n a y, co n số nà y t rở lê n khổ n g lồ b ao p c z i v e p c l m v p p p p x m p l p m p v e y p o p c y @ x gồm cá c sở l iệ u lớ n cỡ g i g a b y t es chí t e r a b y t es lư u t rữ cá c l iệ u c l 3 l g y z h y p c z c x @ m v e l i v l v e e x @ m v e l y h v e 3 g y z h k i nh a nh ví dụ l iệ u thơ n g t i n ch hà n g, l iệ u lị ch sử cá c g i ao dị ch, o z p g x p i g g y z h v p c v z p o p c g y z h y l 3 c z x g g l iệ u bá n hà n g, l iệ u cá c tà i khoả n, cá c khoả n v a y, sử dụ n g vố n,v.v Nh iề u hệ y z h @ p p c g y z h 3 v z o p 3 o p i x m l g p c i p i i l z h q uả n t rị sở l iệ u (CSDL) mạ nh vớ i cá c cô n g cụ n g phú th uậ n t iệ n h p v e l g y z h l p i z 3 p c s p c s i v h p v z p p g iú p cho co n n gườ i kh a i thá c có h iệ u q uả cá c n g uồ n tà i n g u yê n l iệ u c z s 3 p p c z o x z v 3 z h h 3 p c h p v z p c h m p g y z h Cù n g vớ i c nă n g kh a i thá c có tí nh chấ t tá c n gh iệp, v iệ c kh a i thá c cá c p c i z 3 p p c o x z v 3 v p v v p c z s i z o x z v 3 CSDL phụ c vụ cá c yê u cầ u t rợ g iú p q u yế t đị nh n gà y cà n g có ý n ghĩ a q u a n t rọ n g s i i 3 m h h v e c z s h m v p p p c m p c p c x h x p v e p c nh u cầ u to lớ n t ro n g mọ i lĩ nh vự c hoạ t độ n g k i nh a nh, q uả n lý Dữ l iệ u y p h h v y p v e p c l z y p i v p p c o z p g x p h p y y z h đượ c th u thậ p l iệ u n gà y cà n g nh iề u n g n gườ i r a q u yế t đị nh t ro n g q uả n p v h v s i g y z h p c m p c p z h p p c p c z e x h m v p p v e p c h p lý k i nh a nh lạ i cầ n nhữ n g thơ n g t i n bổ í ch, nhữ n g “ t r i thứ c” rú t r a từ nhữ n g y o z p g x p y z p p p c v p c v z p @ p p c v e z v e v e x v p p c n g uồ n l iệ u hơ n chí nh nhữ n g n g uồ n l iệ u cho v iệ c r a q u yế t đị nh p c h p g y z h p p y p p p c p c h p g y z h p i z e x h m v p p củ a mì nh Cá c nh u cầ u đượ c b iế t đế n từ lâ u n g mớ i thự c bù n g nổ từ x l p p h h p p p @ z v p p v y h p p c l z v l @ p c p v thậ p n iê n 90 Do nhữ n g năm gầ n đâ y phá t t r iể n mạ nh mẽ mộ t loạ t cá c lĩ nh v i s p z p p p p c p l c p p m p s v v e z p l p l l v y v 3 y p vự c n gh iê n u tổ c cá c kho l iệ u kho thô n g t i n Cá c hệ t rợ g iú p p c z p h i v 3 3 o g y z h i o v p c v z p v e c z s q u yế t đị nh, cá c phươ n g phá p phá t h iệ n t r i thứ c kh a i phá l iệ u h m v p p 3 s p c s s s v z p v e z v i o x z s g y z h T ro n g đó, kh a i phá l iệ u phá t h iệ n t r i thứ c t rở nh mộ t lĩ nh vự c e p c p o x z s g y z h i s v z p v e z v p v e v p l v y p i n gh iê n u sô i độ n g th u hú t q u a n tâm n gh iê n u củ a nh iề u ch u yê n g i a t ro n g p c z p h l z p p c v h v l h x p v l p c z p h x p z h h m p c z x v e p c cá c lĩ nh vự c hệ sở l iệ u, thố n g kê, ch iế t x uấ t thô n g t i n, nhậ n n g, họ c l i y p i p l g y z h v p c o z v p h v v p c v z p p p g p c má y, t rí t uệ nhâ n tạo v.v Phầ n lớ n cá c kỹ th uậ t chí nh đượ c p dụ n g t ro n g lĩ nh m v e v h p p v i i p y p 3 o v h v p p s g p c v e p c y p vự c kh a i phá l iệ u đượ c kế thừ a từ cá c lĩ nh vự c t rê n Cá c bà i toá n chủ yế u o x z s g y z h p o v x v 3 y p i v e p @ z v p m h t ro n g KPDL phâ n lớ p/ dự n, phâ n cụm, kh a i phá l uậ t kế t hợ p, kh a i phá v e p c y s p y s g p p s p l o x z s y h v o v s o x z s ch uỗ i,v.v Lĩ nh vự c nà y cũ n g đ iểm hộ i tụ g i ao tho a củ a rấ t nh iề u lĩ nh vự c h z i i p i p m p c y p z l z v i c z x v x x e v p z h y p i c KPDL đ a n g đượ c ứ n g dụ n g nh cô n g vào thươ n g mạ i, tà i chí nh o p i p x p c p p c g p c v p p c i v p c l thị t rườ n g n g khoá n, s i nh họ c, y họ c, g iáo dụ c, v iễ n thô n g,v.v v v e p c p c o p l z p m c z g i z p v p c i i z v z p i Do KPDL mộ t lĩ nh vự c rộ n g lớ n nê n t ro n g l uậ n vă n nà y đề cập đế n y l v y p i e p c y p p p v e p c y h p i p p m p s p p khí a cạ nh kh a i phá l iệ u bằ n g l uậ t kế t hợ p dự a t rê n nề n tả n g củ a mộ t số o x p o x z s g y z h @ n gh iê n u đượ c thự c h iệ n p c z p h p p v z p p c y h v o v s g x v e p p p v p c x l v l CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC l l 1.1 Kh a i phá l iệ u x z s g y z h 1.1.1 Tổ n g q u a n kh a i phá l iệ u p c h x p i o x z s g y z h Hà n g n ghì n năm n a y vấ n đề tổ c kh a i thá c l iệ u vấ n đề mà p c p c p p l p x m i p p i v 3 o x z v g y z h y i p p l co n n gườ i phả i g iả i q u yế t Đế n n a y vấ n đề nà y vẫ n chư a g iả i q u yế t đượ c t r iệ t p p c z s z c z z h m v é p p x m i p p p m i p x c z z h m v p v e z v để Cá c ch u yê n g i a t ro n g lĩ nh vự c c nh a u t ro n g q uá t rì nh hoạ t độ n g củ a mì nh p 3 h m p c z x v e p c y p i o p x h v e p c h v e p v p p c x l p th u thậ p đượ c mộ t khố i lượ n g k iế n thứ c khổ n g lồ n g tổ c sở l iệ u v h v s p l v o z y p c o z p v o p c y p p c v 3 l g y z h p nh mộ t hệ thố n g để phâ n tí ch đư a r a nhữ n g thô n g t i n cầ n th iế t t rê n sở v p l v v p c p s p v p x e x p p c v p c v z p p v z v v e p l g l iệ u đượ c tậ p hợ p mộ t vấ n đề rấ t phứ c tạ p y z h p p v s s y l v i p p e v s v s Cá c hệ thố n g tồ n tạ i mộ t cá ch chồ n g chéo kh iế n cá c thô n g t i n thừ a xả y v p c v p v z l v 3 p c o z p 3 v p c v z p v x p m r a nh iề u vấ n đề xử lý số l iệ u lớ n rấ t phứ c tạ p Có mộ t n ghị ch lý n g t a e x p z h i i p p p y l y z h y p i e v s v s l v p c y y p c v x th u thậ p thô n g t i n nh a nh hơ n rấ t nh iề u v iệ c xử lý thô n g t i n v h v s v p c v z p p x p p e v p z h i z p y v p c v z p C uố i kỷ 20, phươ n g phá p phâ n tí ch số l iệ u mộ t cá ch t rí t uệ ( h s z v o s p c s s s p v l y z h l v 3 v e v h y phươ n g phá p kh a i thá c thô n g t i n t rự c t iế p từ l iệ u thô) th u hú t đượ c q u a n p c s s o x z v v p c v z p v e v z s v g y z h v p v h v p l h x p tâm củ a cá c nhà kho a họ c Nhữ n g thử n gh iệm đượ c áp dụ n g t ro n g nh iề u lĩ nh v i l x 3 p o x l p c v p c z l p p s g p c v e p c p z h y p vự c phâ n tí ch thị t rườ n g tà i chí nh, n gâ n hà n g, đá nh g iá khả nă n g cho v a y, s p s p v v v e p c v z p p c p p c p p c z o p p c i x m phâ n tí ch đá nh g iá nhữ n g mạo h iểm t ro n g đầ u tư đượ c t iế n hà nh rấ t nh iề u Đâ y p v p p c z p p c l z l v e p c p h v p v z p p e v p z h é m vấ n đề đặ c b iệ t khó kh i t a có mộ t lượ n g thô n g t i n khổ n g lồ Bà i toá n cầ n g iả i y i p p p @ z v o o z v x l v y p c v p c v z p o p c y z v p p c z z q u yế t đâ y phâ n tí ch số l iệ u r a s ao? Co n n gườ i má y tí nh kế t hợ p vớ i h m v p m y s p v l y z h e x l x p p c z i l m v p l o v s i z nh a u nào, co n n gườ i làm nhữ n g nhữ n g g i ao cho má y mó c Dự p x h p v p p p c z l y l p p c c i p p c c c z x l m l n cá c vấ n đề t rê n t ro n g tươ n g l a i rấ t khó n g q u a n t ro n g nhấ t h iể u p p 3 i p p v e p v e p c v p c y x z y e v o p p c h x p v e p c p v y z h đượ c g iớ i hạ n co n n gườ i g iớ i hạ n củ a cá c th iế t bị má y mó c Th eo Joh n p l c z z p p p c z i c z z p x 3 v z v @ l m l e p N e um a l số lượ n g n e u r a l củ a mộ t n gườ i 1020 b i t mặ c dù n g t a khô n g sử e h l x y v l y p c p e h e x y x l v p c z y @ z v l g p c v x o p c l dụ n g hế t số lượ n g nà y Mộ t số nhà bá c họ c mô phỏ n g cá c hà nh v i nhậ n n g g p c v l y p c p m k v l p @ 3 p l s p c 3 p i z p p g p c củ a não (ví dụ mạ n g Ho pf i e l d) cho n g t a khả nă n g nhậ n n g tươ n g tự x p @ i g l p c s z e y g 3 p c v x o p p c p p g p c v p c v não n gườ i Cá c mẫ u đượ c h uấ n l u yệ n để nhậ n n g kí ch thí ch mộ t p i p p c z l h p p h p y h m p p p p g p c l o v l v vù n g đượ c xá c đị nh t rướ c N gườ i t a tí nh đượ c rằ n g nế u mộ t hệ thố n g đượ c p c p p p p p v e l c z v x p v p p e p c p h l v v p c p th iế t lậ p từ 1020 N e u r a l gh i nhậ n đượ c 5.1018 mẫ u c nh a u bằ n g 5% số v z v y s v l e h e x y v c z p p p l h o p x h @ p c l lượ n g N e u r a l Đâ y cũ n g chí nh số lượ n g mẫ u lớ n nhấ t mà co n n gườ i y p c l e h e x y é m p c p y l y p c l h y p p v l p p c z v nhớ đượ c Đó co n số khổ n g lồ mà th iế t bị đ iệ n tử khô n g có khả nă n g đạ t đượ c p p é y p l o p c y l v z v @ p z p v o p c o p p c p v p T u y nh iê n, tố c độ củ a cá c N e u r a l s i nh họ c q uá chậm vớ i cá c n g n ghệ tí nh h m p z p v p x 3 l e h e x y l z p h l g i z 3 p toá n h iệ n n a y Vấ n đề nà y có lý N e u r a l s i nh họ c tố c độ phả n v p z p p x m p p p m y g y l e h e x y l z p v p s p c p c v p ứ n g nhỏ hơ n N e u r a l nhâ n tạo lầ n Từ h a i yế u tố số lượ n g tố c độ củ a N e u r a l p c p p l e h e x y p p v y p x z m h v l y p c i v p x l e h e x y t a xá c đị nh đượ c khả nă n g sử dụ n g hệ thố n g t rí t uệ nhâ n tạo t ro n g q uá t rì nh v x p p p p o p p c l g p c v p c v e v h p p v v e p c h v e p KDD q uá t rì nh kh a i thá c thô n g t i n từ sở l iệ u Khơ n g có mộ t chươ n g y h v e p o x z v v p c v z p v l g y z h p c l v p c t rì nh má y tí nh h iệ n n a y cũ n g t ro n g khoả n g thờ i g i a n sắ p tớ i mô v e p l m v p p z p p x m p c p v e p c o p c v z c z x p l s v z v l tả đượ c độ n g phú củ a t rí t uệ co n n gườ i Tố t nhấ t n g t a nê n hạ n chế cá c v p @ p s p c s x v e v h p p c z v p v p c v x p p p 3 bà i toá n củ a co n n gườ i t ro n g lĩ nh vự c tổ c n g v iệ c Má y mó c tố t nhấ t z v p x p p c z v e p c y p i v 3 p c i z k m l v v p v y tậ p t r u n g vào v iệ c tìm k iếm t r i thứ c mớ i( cá c q u y l uậ t ẩ n dướ i khố i l iệ u khổ n g v s v e h p c i i z v l o z l v e z v l z 3 h m y h v p g z o z g y z h o p c lồ) y Cá c hệ thố n g KDD xá c đị nh mộ t cá ch hì nh tượ n g cá c tă n g v p c v p p p l v 3 p v p c y 3 @ v p c tố c cho t rí t uệ co n n gườ i Ứ n g dụ n g củ a hệ thố n g KDD yê u cầ u phả i có n ghệ v 3 v e v h p p c z p c g p c x v p c m h h s z p c th uậ t b iể u d iễ n phươ n g phá p tổ c cá c bà i toá n Kế t q uả c uố i cù n g lờ i v h v @ z h g z p i s p c s s v 3 3 @ z v p v h h z p c y y z g iả i dự a t rê n nhữ n g thô n g t i n th u thậ p đượ c Chì a khó a củ a vấ n đề sử dụ n g c z z g x v e p p p c v p c v z p p v h v s p x o x x i p p l g p c KDD khô n g phả i lự a chọ n mộ t hoặ c i th uậ t toá n KDD b iế t mà dự a vào v iệ c o s i p c s z y x p l v i z v h v v p p @ z v l g x i i z phâ n tí ch l iệ u bằ n g tổ hợ p cá c phươ n g phá p T a lấ y ví dụ t ro n g lĩ nh p v g y z h @ p c v s 3 s p c s s x v y m i g v e p c y p vự c y tế Đầ u kỷ 21, loà i n gườ i b iế t đượ c 105 t r iệ u t rứ n g bệ nh, 105 mẫ u m v é h v o y z p c z p @ z v p v e z h v e p c @ p l h th uố c 104 cá c loạ i bệ nh c nh a u Rõ rà n g nế u khô n g có g iú p đỡ củ a KDD v h 3 y z @ p o p x h e p c p h o p c l c z s p x v iệ c khám phá r a t r i thứ c t ro n g đ iề u khô n g thể đố i vớ i bấ t kỳ ch u yê n v i z o l s e x v e z v v e p c p y p z h o p c v p z i z @ v o h m p g i a c z x p Chú n g t a co i t r i thứ c thô n g t i n tí ch hợ p b ao gồm cá c v iệ c p i l c v x v z v e z v p v p c v z p v s @ x c l 3 l i z nhữ n g q u a n hệ củ a n g mà t a lĩ nh hộ i, khám phá hoặ c họ c tậ p Nó i p p c h x p x p c l v x v y p z o l s 3 v s l z mộ t cá ch c, t r i thứ c l iệ u mứ c t rì u tượ n g hoá i q uá t c ao v 3 o v e z v 3 v y g y z h l v e h v p c i o z h v x 1.1.2 Nh iệm vụ chí nh củ a kh a i phá l iệ u l z l i p x o x z s g y z h T ro n g mọ i hoạ t độ n g sả n x uấ t - k i nh a nh - q uả n lý yế u tố t nh e p c l z v p p c l p p h v o z p g x p h p y v m h v v v p cô n g l uô n gắ n l iề n vớ i v iệ c nắm bắ t, thố n g kê kh a i thá c thô n g t i n h iệ u q uả p c y h p c p y z p i z i z p l @ v v p c o i o x z v v p c v z p z h h G iờ đâ y KPDL đ a n g t rở nh mộ t t ro n g nhữ n g hướ n g n gh iê n u chí nh z p m p i p x p c v e v p l v v e p c p p c p c p c z p h p củ a lĩ nh vự c kho a họ c má y tí nh n g n ghệ t r i thứ c Do co i mụ c đí ch x y p i o x l m v p i p c p c v e z v p v z l p chí nh củ a q t rì nh KPDL mộ t tả dự n mà cá c mẫ u KPDL phá t h iệ n p x h v e p y l v v i g p p l 3 l h s v z p đượ c đề u nhắm vào mụ c đí ch nà y p p h p l i l p p m Để đạ t đượ c h a i mụ c đí ch chí nh t rê n, nh iệm vụ chí nh củ a KPDL b ao gồm: é p v p x z l p 3 p v e p p z l i p x @ x c l Phâ n lớ p: v iệ c họ c mộ t hàm nh xạ (h a y phâ n loạ i) từ mộ t mẫ u l iệ u p i y s y i z 3 l v l p p x m vào mộ t t ro n g số cá c lớ p đượ c xá c đị nh t rướ c l v v e p c l 3 y s p p p p p v e s p y z v l v l h g y z h

Ngày đăng: 03/02/2024, 13:45

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan