Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,26 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI é l TRƯỜ NG ĐẠI HỌC CÔNG NGHỆ l l l é l l NGUYỄN THỊ KI M THUÝ l k NGHIÊN CỨU MỘT SỐ KỸ THUẬT l k KHAI PHÁ CƠ SỞ DỮ LIỆU ẢNH l N gà nh: Cô n g n ghệ thô n g t i n Ch u yê n n gà nh: Hệ thố n g thô n g t i n Mã số: 60 48 05 l c p h v z p m k p p p c c p c v p v p p c v c z p v p c l LUẬN VĂN THẠC SĨ l l l NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ NĂNG TOÀN l l é Hà Nộ i - 2010 l z l l l MỤC LỤC k MỤC LỤC MỞ ĐẦU Chươ n g KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU ẢNH k k é p c l 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khá i n iệ m ch u n g kh a i phá l iệ u 1.1.2 Cá c n g l iệ u kh a i thá c l iệ u: 1.1.3 Q uá t rì nh kh a i phá l iệ u .8 1.1.4 Cá c bà i tố n thơ n g dụ n g t ro n g kh a i phá l iệ u .10 1.1.5 Ứ n g dụ n g kh a i phá l iệ u vào lớ p đố i tượ n g ả nh 10 1.2 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ẢNH 11 1.2.1 G iớ i th iệ u 11 1.2.2 Cá c vấ n đề t ro n g kh a i phá ả nh (Im a g e m i n i n g iss u es) .12 1.2.3 Cá c kh u n g kh a i phá ả nh 15 1.2.3.1 Cá c kh u n g hướ n g c nă n g 16 1.2.3.2 Kh u n g hướ n g thô n g t i n 17 z p g @ h l p v p z e h g p p c i h z p c z x v g p y o z c c z z y c g g x z p s s o g p x x v s v o o y v z h g y z h h c g z v y e z p h c o x i y z s s g p z y v p z h c p l z z v i o z h p p h v p c o h e c x h p p o p o z x z p l x c e l z p z p c z l l h e l p c p c s s p c c v p c v z p p c p Chươ n g 20 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ẢNH 20 p c k l 2.1 NHẬN DẠNG ĐỐI TƯỢNG 20 2.1.1 Cá c g i a i đoạ n chí nh t ro n g nhậ n n g 21 2.1.2 Kỹ th uậ t nhậ n n g 22 2.1.2.1 Nhậ n n g dự a vào phâ n hoạ ch khô n g g i a n .23 2.1.2.2 Nhậ n n g dự a vào cấ u t rú c 23 2.1.2.3 Nhậ n n g dự a mạ n g n e u r a l 24 2.2 TRUY VẤN ẢNH .27 2.2.1 Sơ đồ t r u y vấ n ả nh .28 2.2.2 Phươ n g phá p t r u y vấ n ả nh 29 2.2.2.1 T r u y vấ n ả nh th eo cá c đặ c t rư n g bả n .29 2.2.2.2 T r u y vấ n ả nh thô n g q u a mô tả .32 2.2.2.3 T r u y vấ n ả nh th eo n gữ n ghĩ a .33 2.2.2.4 T r u y vấ n ả nh dự a t rê n kỹ th uậ t xâ y dự n g số ả nh 34 2.3 PHÂN LOẠI VÀ PHÂ N CỤ M ẢNH 37 2.3.1 Phâ n loạ i ả nh 37 2.3.1.1 Phươ n g phá p phâ n loạ i có k iểm đị nh (S u p e rv i s e d C l ass if i c a t io n) 37 2.3.1.2 Phươ n g phá p phâ n loạ i khô n g k iểm đị nh (U ns u pU rv is e d C l a ss if i c a t io n) 38 2.3.2 Phâ n cụm ả nh 39 l l l c z v é x z h l p v p p p p g v p e p c l p g p c g x i s l p g p c g x i p g p c g x l l l p e h c m i p s s p p p c h c e h m i e h m i p p v e h m i p p v e h m i p p v e h m i p p p v p e e o p c c z x p h e x y p e p h p g y z p c e x v x p e p v e p l c l p g p v l p p l v p p c @ p v c o x v k c h v p m g p c l p l p p c p c l s s s p y z s s s p y z o o z p l p c o z p l h p p s e e i p z l l h e g s y e i x z l l l e z g z x y v x z l p l z z x v z p p Chươ n g 43 CHƯƠNG TRÌ NH THỬ NGHIỆ M 43 p c l l l k 3.1 BÀI TOÁN 43 3.2 PHÂN TÍCH BÀI TOÁN 44 3.2.1 Phươ n g phá p nhậ n n g ký tự .44 3.2.2 Xâ y dự n g hệ thố n g nhậ n n g ký tự 45 3.2.2.1 Hệ thố n g nhậ n n g ký tự 45 3.2.2.2 Xâ y dự n g mạ n g n e u r a l 46 3.2.2.3 Xử lý l iệ u 46 3.2.2.3.1 Tá ch ký tự .46 3.2.2.3.2 Tì m g iớ i hạ n ký tự 47 3.2.2.3.3 Á nh xạ vào m a t rậ n 48 l l l p m c s g p s p c v v p m p p l y l z p c g c p e p o h e z i p x o l y v x v e c v v z p v h o c o p g p c p p c p c p g p p c g y g p o v 3.2.2.4 H uấ n l u yệ n mạ n g n e u r a l 50 3.2.2.5 Nhậ n n g ả nh ký tự .51 3.3 GIỚI THIỆU ỨNG DỤNG 51 3.3.1 G i ao d iệ n chươ n g t rì nh 51 3.3.2 Thự c n gh iệ m .52 h l p y p g h m p p l c p p l z x g z p p c p e h e x y v l z c o p c v e p l KẾT LUẬN 53 TÀI LIỆU THA M KHẢO .55 LỜI CẢ M ƠN 56 l k k l k MỞ ĐẦU é Kh a i phá l iệ u q uá t rì nh tìm k iếm nhữ n g thô n g t i n có í ch, t iềm ẩ n x l z s g y z h y h v e p v l o z l p p c v p c v z p 3 v z l p i m a n g tí nh dự n t rê n khố i sở l iệ u lớ n T ro n g đ iề u k iệ n yê u cầ u củ a x p c v p g p p v e p o z l g y z h y p e p c p z h o z p i m h h x nh iề u lĩ nh vự c, đò i hỏ i phả i có nhữ n g phươ n g phá p nh a nh, phù hợ p, tự độ n g, chí nh p z h y p i p z z s z p p c s p c s s p x p s s v p p c p xá c có h iệ u q uả để lấ y đượ c thô n g t i n có g iá t rị Cá c t r i thứ c ch iế t x uấ t đượ c từ p i z h h p y m p v p c v z p c z v e v e z v 3 z v p h v p v sở l iệ u t rê n nh iề u lĩ nh vự c mộ t n g uồ n tà i l iệ u hỗ t rợ cho co n n gườ i l g y z h v e p p z h y p i l y l v p c h p v z y z h v e 3 p p c z t ro n g v iệ c lê n kế hoạ ch hoạ t độ n g hoặ c t ro n g v iệ c r a q u yế t đị nh sả n x uấ t k i nh v e p c i z y p o v p p c v e p c i z e x h m v p p l p p h v o z p a nh Vì vậ y, tí nh ứ n g dụ n g củ a kh a i thá c sở l iệ u mộ t vấ n đề đ a n g đượ c g x p i m v p p c g p c x o x z v 3 l g y z h y l v i p p p x p c p q u a n tâm bở i tí nh ứ n g dụ n g c ao t ro n g c uộ c số n g h x p v l @ z v p p c g p c x v e p c h l p c T ro n g kh i, thự c tế v iệ c xử lý ả nh số n gà y cà n g đượ c nh iề u n gườ i q u a n tâm, e l p c o z v v i z p y p l p c m p c p p z h p c z h x p v l mộ t phầ n d u n g lượ n g củ a cá c th iế t bị lư u t rữ ả nh tă n g nh a nh Thêm nữ a s v s p y g g h p c y p c x 3 v z v @ y h v e p v p c p x p l p x y l phá t t r iể n nh a nh củ a mạ n g I n t e r n e t làm cho mộ t số lượ n g khổ n g lồ cá c ả nh số v v e z p p x p x l p c p v e e p e v y l l v l y p c o p c y 3 p l đượ c đư a lê n mạ n g Nhờ nhữ n g t iế n vượ t bậ c t ro n g cô n g n ghệ th u nhậ n lư u p p x y p l p c l p p c v z p @ i v @ v e p c p c p c v h p p i y h t rữ ả nh nê n n g t a lư u t rữ cá c ả nh mộ t cá ch ch i t iế t chí vớ i kí ch cỡ v e p p p p c v x v y h v e 3 p l v 3 z v z v v l i z o 3 lớ n Kh i phâ n tí ch cá c bứ c ả nh, n g t a th u đượ c nh iề u thô n g t i n hữ u í ch y p z s p v 3 @ p p c v x v v h p p z h v p c v z p h cho c uộ c số n g Kh a i phá l iệ u ả nh chí nh v iệ c t rí ch chọ n cá c thơ n g t i n ẩ n, mố i 3 h l p c x z s g y z h p p y i z v e 3 p 3 v p c v z p p l z q u a n hệ l iệ u ả nh h a y cá c mẫ u c khô n g đượ c lư u t rữ rõ rà n g t ro n g ả nh Nó i h x p g y z h p x m 3 l h o o p c p y h v e e e p c v e p c p l z đú n g hơ n, kh a i phá ả nh chí nh mở rộ n g củ a kh a i phá l iệ u vớ i đố i tượ n g ả nh p p c p o x z s p p y l l e p c x o x z s g y z h i z p z v p c p Về mặ t họ c th uậ t, kh a i phá ả nh chí nh kế t hợ p củ a khả nă n g nhậ n b iế t ả nh sử l v v h v o x z s p p y l o v s x o p p c p p @ z v p l dụ n g má y tí nh, xử lý ả nh, phụ c hồ i ả nh, kh a i phá l iệ u, họ c má y, sở l iệ u g p c l m v p p y p s z p o x z s g y z h l m l g y z h i t rí t uệ nhâ n tạo X uấ t phá t từ thự c tế đó, l uậ n vă n nhằm n gh iê n u mộ t số kỹ th uậ t v e v h p p v h v s v v v v p y h p i p p l p c z p h l v l o v h v kh a i phá l iệ u nhằm p dụ n g cho lớ p cá c đố i tượ n g ả nh o x z s g y z h p l s g p c y s 3 p z v p c p L uậ n vă n đượ c bố cụ c nh b a chươ n g, gồm 60 t r a n g h p i p p @ 3 v p @ x p c c l v e x p c Chươ n g g iớ i th iệ u i q uá t kh a i phá kh a i phá l iệ u ả nh p c c z z v z h o z h v i o x z s i o x z s g y z h p Chươ n g n gh iê n u mộ t số kỹ th uậ t kh a i phá từ lự a chọ n để áp p c p c z p h dụ n g cho cá c đố i tượ n g ả nh g p c 3 p z v p c p l v l o v h v o x z s v p y x p p v s Chươ n g t rì nh bà y th iế t kế cà i đặ t thự c n gh iệm kỹ th uậ t nhậ n n g cho p i c v e p @ m v z v o i z p v v p c z l o v h v p p g p c v iệ c kh a i phá lớ p đố i tượ n g ả nh z o x z s y s p z v p c p C uố i cù n g, l uậ n vă n đư a r a mộ t số kế t l uậ n đề x uấ t cá c n gh iê n u t ro n g h z tươ n g l a i v p c y x z p c y h p i p p x e x l v l o v y h p i p p h v 3 p c z p h v e p c Chươ n g p c KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU Ả NH l 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khá i n iệm ch u n g kh a i phá l iệ u z p z l h p c i o x z s g y z h G iớ i th iệ u z z v z h T ro n g kỷ n g u yê n I n t e r n e t, I n t r a n e ts, W a r eho us es, mở r a nh iề u hộ i cho e p c o p c h m p p v e e p e v p v e x p e v l x e e h l e l p l e x p z h z nhữ n g nhà a nh n gh iệ p t ro n g v iệ c th u thậ p xử lý thô n g t i n Hơ n nữ a, cá c cô n g p p c p g x p p c z s v e p c i z v h v s i p y v p c v z p p p x 3 p c n ghệ lư u t rữ phụ c hồ i l iệ u phá t t r iể n mộ t cá ch nh a nh chó n g sở p c y h v e i s z g y z h s v v e z p l v 3 p x p p c i v l g l iệ u cá c q u a n, a nh n gh iệ p, n vị n gà y cà n g nh iề u thô n g t i n t iềm ẩ n n g y s z h 3 h x p g x p p c z s p p i p c m p c p z h v p c v z p v z l p s p c phú đ a n g i p x g p c Cơ sở l iệ u t ro n g cá c a nh n gh iệ p, q u a n, n vị, … n g mộ t v a i t rò l g y z h v e p c 3 g x p p c z s h x p p p i p p c l v i x z v e rấ t q u a n t rọ n g cho v iệ c hoạ ch đị nh kế hoạ ch k i nh a nh t rê n thươ n g t rườ n g vào e v h x p v e p c i z 3 p p o o z p g x p v e p v p c v e p c i nhữ n g năm t iế p th eo H iệ n tạ i, v iệ c sử dụ n g cá c l iệ u nà y t u y đạ t đượ c mộ t số p p c p l v z s v e z p v z i z l g p c 3 g y z h p m v h m p p v p l v l kế t q uả nhấ t đị nh so n g vẫ n cò n mộ t số vấ n đề tồ n đọ n g như: o v h p v p p l p c i p p l v l i p p v p p p c p Dự a hoà n tồ n vào l iệ u, khơ n g sử dụ n g t ri thứ c có sẵ n lĩ nh vự c, kế t x p v p i g y z h o p c l g p c v e z v 3 l p i y p i o v q uả phâ n tí ch khó làm rõ đượ c h s p v o v y l e p Phả i có hướ ng dẫ n ngườ i dù n g để xá c đị nh phâ n tí ch liệ u z l p c g p x p c z g p c p p p p s p v g y z h p đâ u v p i p h T ro n g đ iề u k iệ n yê u cầ u củ a nh iề u lĩ nh vự c, đò i hỏ i phả i có nhữ n g phươ n g e s p c p z h o z p i m h h x p z h y p i p z z s z p p c s p c phá p nh a nh, phù hợ p, tự độ n g, chí nh xá c có h iệ u q uả để lấ y đượ c thô n g t i n có s p x p s s v p p c p p i z h h p y m p v p c v z p g iá t rị Cá c t r i thứ c ch iế t x uấ t đượ c từ sở l iệ u t rê n mộ t n g uồ n tà i l iệ u hỗ c z v e v e z v 3 z v p h v p v l g y z h v e p l y l v p c h p v z y z h t rợ cho lã nh đạo t ro n g v iệ c lê n kế hoạ ch hoạ t độ n g hoặ c t ro n g v iệ c r a q u yế t đị nh v l e y p p v e p c i z y p o v p p c v e p c i z e x h m v p p sả n x uấ t k i nh a nh Vì vậ y, tí nh ứ n g dụ n g củ a kh a i thá c sở l iệ u mộ t vấ n p p h v o z p g x p i đề đ a n g đượ c q u a n tâm p p x p c p h x p v l m v p p c g p c x o x z v 3 l g y z h y l v i p Kh a i phá l iệ u x z s g y z h Kh a i phá l iệ u mộ t i n iệm r a đờ i vào nhữ n g năm c uố i củ a thậ p kỷ x z s g y z h y l v o z p z l e x p z i p p c p l h z x v s o 1980 Nó q uá t rì nh khám phá thơ n g t i n ẩ n đượ c tìm thấ y t ro n g cá c sở l iệ u l i y h v e p o l s v p c v z p p p v l v m v e p c 3 l g y z h x em mộ t bướ c t ro n g q uá t rì nh khám phá t r i thứ c Kh a i phá l iệ u v p e l p y l v @ v e p c h v e p o l s v e z v x z s g y z h g i a i đoạ n q u a n t rọ n g nhấ t t ro n g t iế n t rì nh kh a i phá t r i thứ c từ sở l iệ u, cá c y c z x z p p h x p v e p c p v v e p c v z p v e p o x z s v e z v v l g y z h 3 t r i thứ c nà y hỗ t rợ t ro n g v iệ c r a q u yế t đị nh t ro n g kho a họ c k i nh a nh v e z v é s p m v e v e p c i z e x h m v p p v e p c o x i o z p g x p Để hì nh d u n g vấ n đề nà y t a sử dụ n g mộ t ví dụ n g iả n s a u: Kh a i p g h p c i p p p m v x v l g p c l v i g p p c z p p l x h x z phá l iệ u đượ c ví tìm mộ t câ y k im t ro n g đố n g cỏ khơ T ro n g ví dụ nà y, câ y g y z h p i p v l l v m o z l v e p c p p c o e p c i g p m m k im mộ t mả nh nhỏ t r i thứ c hoặ c mộ t thô n g t i n có g iá t rị đố n g cỏ khô mộ t o z l y l v l p p v e z v 3 l v v p c v z p c z v e i p p c o y l v kho sở l iệ u rộ n g lớ n Như vậ y, nhữ n g thơ n g t i n có g iá t rị t iềm ẩ n t ro n g kho o l g y z h e p c y p l i m p p c v p c v z p c z v e v z l p v e p c o sở l iệ u đượ c ch iế t x uấ t r a sử dụ n g mộ t cá ch hữ u í ch nhờ kh a i phá l g y z h l p 3 z v p h v e x i l g p c l v 3 h p o x z s g l iệ u Chứ c nă n g kh a i phá l iệ u gồm có gộ p nhóm phâ n loạ i, dự báo, dự đố n y s z h p p c o x z s g y z h c l c s p l s p y z g @ g p p i phâ n tí ch cá c l iê n kế t Năm 1989 F a y y a d, S m y th P i a t es ts k y-Sh a p i ro dù n g p v 3 y z p o v l l x m m x g l m v i z x v e l v l o m x s z e p g p c i n iệm phá t h iệ n t r i thứ c từ sở l iệ u (K now l e d g e D is cov e r y i n D a t a b as e- o z p z l s v z p v e z v v l g y z h p y e g c e z l i e e m z p x v x @ x l e KDD) T ro n g đó, kh a i phá l iệ u mộ t g i a i đoạ n rấ t đặ c b iệ t t ro n g n q uá e p c p o x z s g y z h y l v c z x z p p e v p @ z v v e p c v p @ h t rì nh, sử dụ n g cá c kỹ th uậ t để tìm r a cá c mẫ u từ l iệ u v e p p l g p c 3 o v h v p v l e x 3 l h v g y z h Dướ i đâ y mơ hì nh d iễ n tả q uá t rì nh phá t h iệ n t r i thứ c z p m y l p g z p v h v e p s v z p v e z v Envalution of Data Mining Transformati Cleansing Pre- Knowledge Pattern Selection Transforme Gathering Cleansed Preprocessed Preparated Target Internet, Data Hì nh 1.1: Q uá t rì nh phá t h iệ n t r i thứ c p h v e p s v z p v e z v Discovery T ro n g đó: e p c p - Má y chủ CSDL h a y kho l iệ u: lấ y nhữ n g l iệ u thí ch hợ p dự a t rê n yê u k m x m o g y z h y m p p c g y z h v s g x v e p m h cầ u kh a i phá củ a co n n gườ i - h o x z s x p p c z Cơ sở t r i thứ c: m iề n t r i thứ c đượ c dù n g để tìm k iếm h a y đá nh g iá độ q u a n l v e z v l z p v e z v p g p c p v l o z l x m p p c z p h x p t rọ n g củ a cá c hì nh mẫ u kế t q uả v - e p c x 3 p l h o v h Má y kh a i phá l iệ u: tậ p cá c mo d u l e thự c h iệ n ch uỗ i cô n g v iệ c k - m o x z s g y z h v s 3 l g h y e v z p h z p c i z Đá nh g iá mẫ u: tươ n g tá c vớ i cá c mo d u l e kh a i phá l iệ u để tậ p t r u n g vào é i p c z l h v p c v i z 3 l g h y e o x z s g y z h p v s v e h p c i v iệ c d u yệ t tìm cá c mẫ u đượ c q u a n tâm z g h m v v l 3 l h p h x p v l G i ao d iệ n đồ họ a: cho phé p n gườ i sử dụ n g g i ao t iế p vớ i hệ thố n g kh a i phá l iệ u z x g z p p x s s p c z l g p c c z x v z s i z v p c o x z s g y z h Cá c c nă n g củ a kh a i phá l iệ u l 3 p p c x o x z s g y z h Nh iệm vụ củ a mộ t hệ kh a i phá l iệ u đượ c ch i a nh loạ i: z l i x l v o x z s g y z h v p 3 z x v p y z Mô tả: m iê u tả cá c đặ c đ iểm ch u n g củ a l iệ u t ro n g CSDL k v l z h v 3 p p z l h p c x g y z h v e p c Cho b iế t đ iề u hữ u í ch tìm thấ y đượ c t ro n g l iệ u @ z v p z h c y h 3 v v l v m p v e p c g y z h G iả i thí ch l iệ u z z v g y z h p Dự n: thự c h iệ n s u y l uậ n t rê n l iệ u h iệ n có để đư a r a dự n p p v z p l h m y h p v e p g y z h z p p p x e x g p p Dự a t rê n l iệ u q uá khứ, dự báo tươ n g l a i x v e p g y z h h o g @ v p c y x z X u phá t t r iể n h v s v v e z p 1.1.2 Cá c n g l iệ u kh a i thá c l iệ u: g p c g y z h v o x z v g y z h Cơ sở l iệ u q u a n hệ ( r e l a t io n a l d a t a b as es) l g y z h h x p e e y x v z p x y g x v x @ x l e l Cơ sở l iệ u đ a ch iề u (m u l t i d im e n t io n s t r u c t u r es, d a t a w a r eho us e, d a t a m a r t) l l x g e y z h p x z h l h y v z g z l e p v z p l v e h v h e e l g x v x x e e h l e g x v x v Cơ sở l iệ u g i ao tá c ( t r a ns a c t io n d a t a b as es) l g y z h c z x v v e x p l x v z p g x v x @ x l e l Cơ sở l iệ u q u a n hệ – hướ n g đố i tượ n g (o bj e c t r e l a t io n a l d a t a b as es) l g y z h h x p p c p z v p c @ e v e e y x v z p x y g x v x @ x l e l Dữ l iệ u khô n g g i a n thờ i g i a n (sp a t i a l, t em po r a l, a n d t im e – s e r i es d a t a) y z h o p c c z x p i v z c z x p l s x v z x y v e l s e x y x p Cơ sở l iệ u đ a phươ n g t iệ n ( M u l t im e d i a d a t a b as e) l g y z h p x s p c v z p k h y v z l e g z x g x v x @ x l e g v z l e l e e z e l g x v x 1.1.3 Q uá t rì nh kh a i phá l iệ u h v e p o x z s g y z h Mộ t q uá t rì nh kh a i phá l iệ u b ao gồm năm g i a i đoạ n chí nh s a u: k v h v e p o x z s g y z h @ x c l p l c z x z p p p l x h (1) Tì m h iể u n gh iệp vụ l iệ u l z h p c z s i i g y z h (2) Ch uẩ n bị l iệ u h p @ g y z h (3) Mơ hì nh hó a l iệ u k p x g y z h (4) Hậ u xử lý đá nh g iá mơ hì nh h p y i p p c z l p (5) T r iể n kh a i t r i thứ c e z p o x z v e z v Q t rì nh nà y đượ c lặ p lạ i nh iề u lầ n mộ t h a y nh iề u g i a i đoạ n dự a t rê n h s v e p p m v p y s y z p z h y p l v x m p z h c z x z p p g x v e p phả n hồ i từ kế t q uả củ a cá c g i a i đoạ n s a u Th am g i a chí nh t ro n g q uá t rì nh KPDL p z v o v h x 3 c z x z p p l x h x l c z x p v e p c h v e p y cá c nhà tư vấ n (NTV) phá t t r iể n ch u yê n n gh iệp t ro n g lĩ nh vự c KPDL 3 p v i p l i s v v e z p h m p p c z s v e p c y p i T ro n g g i a i đoạ n đầ u t iê n, Tìm h iể u n gh iệp vụ l iệ u, NTV n gh iê n u k iế n e p c c z x z p p p h v z p l z h p c z s i i g y z h l p c z p h o z p thứ c lĩ nh vự c áp dụ n g, b ao gồm cá c t r i thứ c cấ u t rú c hệ thố n g t r i thứ c, v i y p i l s g p c @ x c l 3 v e z v 3 h v e i v p c i v e z v cá c n g uồ n l iệ u h iệ n hữ u, ý n ghĩ a, v a i t rò tầm q u a n t rọ n g củ a cá c thự c thể 3 p c h p g y z h z p h p c x i x z v e i v l h x p v e p c x 3 v v g l iệ u V iệ c n gh iê n u nà y đượ c thự c h iệ n q u a v iệ c t iếp xú c g iữ a NTV n gườ i y z h z p c z p h p m p v z p h x i z v z s p c z x l i p c z dù n g Khá c vớ i phươ n g phá p g iả i q u yế t vấ n đề t r u yề n thố n g kh i bà i toá n đượ c xá c g p c i z s p c s s c z z h m v i p p v e h m p v p c o z @ z v p p p đị nh chí nh xá c bướ c đầ u t iê n, NTV tìm h iể u cá c yê u cầ u sơ khở i củ a n gườ i p p p p @ p h v z p l v l z h 3 m h h l o z x p c z dù n g đề n ghị cá c bà i toá n t iềm nă n g g iả i q u yế t vớ i n g uồ n l iệ u h iệ n g p c i p p c 3 @ z v p v z l p p c v c z z h m v i z p c h p g y z h z p hữ u Tậ p cá c bà i toá n t iềm nă n g đượ c t i nh nh làm hẹ p lạ i t ro n g cá c g i a i đoạ n h l s 3 @ z v p v z l p p c p v z p p i y l s y z v e p c 3 c z x z p p s a u Cá c n g uồ n đặ c tả l iệ u có l iê n q u a n đế n tậ p cá c bà i toá n t iềm nă n g cũ n g x h p c h p i p v g y z h y z p h x p p p v s 3 @ z v p v z l p p c p c đượ c xá c đị nh p p p p G i a i đoạ n Ch uẩ n bị l iệ u sử dụ n g cá c kỹ th uậ t t iề n xử lý để b iế n đổ i z x z p p h p @ g y z h l g p c 3 o v h v v z p p y p @ z p p z i i th iệ n chấ t lượ n g l iệ u để thí ch hợ p vớ i nhữ n g yê u cầ u củ a cá c g iả i th uậ t z v z p v y p c g y z h p v s i z p p c m h h x 3 c z z v h v họ c Phầ n lớ n cá c g iả i th uậ t KPDL h iệ n n a y làm v iệ c t rê n mộ t tậ p l iệ u p y p 3 c z z v h v z p p x m y l i z v e p l v v s g y z h n phẳ n g, l iệ u phả i đượ c t rí ch x uấ t b iế n đố i từ cá c n g sơ p p i s p c g p g y z h s z p v e p h v i @ z p p z v 3 g p c l g l iệ u phâ n bố, q u a n hệ h a y hướ n g đố i tượ n g s a n g n g sở l iệ u q u a n hệ n y c z h s p @ h x p x m p c p z v p c l x p c g p c l g y z h h x p p p g iả n vớ i mộ t bả n g l iệ u Cá c g iả i th uậ t t iề n xử lý t iê u b iể u b ao gồm: z p i z l v @ p c g y z h c z z v h v v z p p y v z h @ z h @ x c l (a) Xử lý l iệ u bị th iế u/mấ t: cá c l iệ u bị th iế u đượ c th a y bở i cá c y g y z h @ v z h l v 3 g y z h @ v z h l p v x m v @ z 3 g iá t rị thí ch hợ p c z v e v s (b) Khử t rù n g lặ p: cá c đố i tượ n g l iệ u t rù n g lặ p bị loạ i bỏ đ i Kỹ th uậ t l v e p c y s 3 p z v p c g y z h v e p c y s l @ y z @ p z v h v nà y khô n g đượ c sử dụ n g cho cá c tá c vụ có q u a n tâm đế n phâ n bố l iệ u p m o p c p l g p c 3 v i h x p v l p p s p @ g y z h (c) G iảm nh iễ u: nh iễ u cá c đố i tượ n g tá ch rờ i (o u t l i e r) khỏ i phâ n bố ch u n g z l l p z h p z h i 3 p z v p c v e z h v y z e e o z s p @ h p c bị loạ i đ i khỏ i l iệ u @ y z p z o z g y z h (d) Ch uẩ n hó a: m iề n g iá t rị củ a l iệ u đượ c ch uẩ n hó a h p x l z p c z v e x g y z h l p 3 h p x (e) Rờ i rạ c hó a: cá c l iệ u số đượ c b iế n đổ i r a cá c g iá t rị rờ i rạ c z e x 3 g y z h l l p @ z p p z e x 3 c z v e e z e (f) Rú t t rí ch xâ y dự n g đặ c t rư n g mớ i từ cá c th uộ c tí nh có v v e i p m g p c p v e p c l z v 3 v h v p p (g) G iảm ch iề u: cá c th uộ c tí nh a í t thơ n g t i n đượ c loạ i bỏ t z l z h 3 v h v p x v v p c v z p l p y z @ @ v Cá c bà i toá n đượ c g iả i q u yế t t ro n g g i a i đoạ n Mơ hì nh hó a l iệ u Cá c g iả i @ z v p p c z z h m v v e p c c z x z p p k p x g y z h c z z th uậ t họ c sử dụ n g cá c l iệ u đượ c t iề n xử lý t ro n g g i a i đoạ n h a i để tìm k iếm v h v l g p c 3 g y z h p p v z p p y v e p c c z x z p p x z p v l o z l cá c q u i tắ c ẩ n chư a b iế t Cô n g v iệ c q u a n t rọ n g nhấ t t ro n g g i a i đoạ n nà y lự a 3 h z v p i x @ z v p c i z h x p v e p c p v v e p c c z x z p p p m y y x chọ n kỹ th uậ t phù hợ p để g iả i q u yế t cá c vấ n đề đặ t r a Cá c bà i toá n đượ c phâ n loạ i i p o v h v s s p c z z h m v 3 i p p p v e x @ z v p p s p y z vào mộ t t ro n g nhữ n g nhóm bà i tố n chí nh t ro n g KPDL dự a t rê n đặ c tả củ a n g l v v e p c p p c p l @ z v p p v e p c g x v e p p v x p c Cá c bà i toá n chí nh t ro n g KPDL đượ c t rì nh bà y ch i t iế t t ro n g phầ n 1.1.4 @ z v p p v e p c l p v e p @ m z v z v v e p c s p Cá c mơ hì nh kế t q uả củ a g i a i đoạ n b a đượ c hậ u xử lý đá nh g iá t ro n g l p o v h x c z x z p p @ x l p h p y i p p c z v e p c g i a i đoạ n Dự a t rê n cá c đá nh g iá củ a n gườ i dù n g s a u kh i k iểm t r a t rê n cá c tậ p c z x z p p x v e p 3 p p c z x p c z g p c l x h o z o z l v e x v e p 3 v s thử, cá c mơ hì nh đượ c t i nh nh kế t hợ p lạ i nế u cầ n Chỉ cá c mơ hì nh đạ t v 3 l p l p v z p p i o v s y z p h p 3 l p p v đượ c mứ c yê u cầ u bả n củ a n gườ i dù n g mớ i đư a r a t r iể n kh a i t ro n g thự c tế p l m h h @ p x p c z g p c l z p x e x v e z p o x z v e p c v v T ro n g g i a i đoạ n nà y, cá c kế t q uả đượ c b iế n đổ i từ n g họ c th uậ t s a n g n g phù e p c c z x z p p p m 3 o v h p @ z p p z v g p c v h v l x p c g p c s hợ p vớ i n gh iệp vụ dễ h iể u hơ n cho n gườ i dù n g s i z p c z s i i g z h p p c z g p c T ro n g g i a i đoạ n c uố i, T r iể n kh a i t r i thứ c, cá c mô hì nh đượ c đư a vào e p c c z x z p p h z e z p o x z v e z v 3 l p p p x i nhữ n g hệ thố n g thô n g t i n thự c tế dướ i n g cá c mo d u l e hỗ t rợ v iệ c đư a r a q u yế t p p c v p c v p c v z p v v g z g p c 3 l g h y e v e i z p x e x h m v đị nh Mố i q u a n hệ chặ t chẽ g iữ a cá c g i a i đoạ n t ro n g q uá t rì nh kh a i phá l iệ u p p k z h x p v c z x 3 c z x z p p v e p c h v e p o x z s g y z h y rấ t q u a n t rọ n g cho v iệ c n gh iê n u t ro n g kh a i phá l iệ u Mộ t g iả i th uậ t t ro n g e v h x p v e p c i z p c z p h v e p c o x z s g y z h k v c z z v h v v e p c KPDL khô n g thể đượ c phá t t r iể n độ c lậ p, khô n g q u a n tâm đế n bố i nh p dụ n g mà o p c v p s v v e z p p y s o p c h x p v l p p @ z p s g p c l thườ n g đượ c xâ y dự n g để g iả i q u yế t mộ t mụ c t iê u cụ thể Do đó, h iể u b iế t bố i v p c p p m g p c p c z z h m v l v l v z h v p l z h @ z v @ z nh vậ n dụ n g rấ t cầ n th iế t Thêm vào đó, cá c kỹ th uậ t đượ c sử dụ n g t ro n g cá c c c p i p g p c y e v p v z v l i p 3 o v h v p l g p c v e p c 3 g i a i đoạ n t rướ c ả nh hưở n g đế n h iệ u q uả củ a cá c g iả i th uậ t sử dụ n g t ro n g cá c z x z p p v e 3 v g i a i đoạ n t iế p th eo z x z p p v z s v e p p c p p z h h x 3 c z z v h v l g p c v e p c 3