1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn nghiên cứu một số kĩ thuật khai phá cơ sở dữ liệu ảnh

58 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Một Số Kỹ Thuật Khai Phá Cơ Sở Dữ Liệu Ảnh
Tác giả Nguyễn Thị Kim Thúy
Người hướng dẫn PGS.TS Đỗ Năng Toàn
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2010
Thành phố Hà Nội
Định dạng
Số trang 58
Dung lượng 1,26 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI é l TRƯỜ NG ĐẠI HỌC CÔNG NGHỆ l l l é l l NGUYỄN THỊ KI M THUÝ l k NGHIÊN CỨU MỘT SỐ KỸ THUẬT l k KHAI PHÁ CƠ SỞ DỮ LIỆU ẢNH l N gà nh: Cô n g n ghệ thô n g t i n Ch u yê n n gà nh: Hệ thố n g thô n g t i n Mã số: 60 48 05 l c p h v z p m k p p p c c p c v p v p p c v c z p v p c l LUẬN VĂN THẠC SĨ l l l NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ NĂNG TOÀN l l é Hà Nộ i - 2010 l z l l l MỤC LỤC k MỤC LỤC MỞ ĐẦU Chươ n g KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU ẢNH k k é p c l 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khá i n iệ m ch u n g kh a i phá l iệ u 1.1.2 Cá c n g l iệ u kh a i thá c l iệ u: 1.1.3 Q uá t rì nh kh a i phá l iệ u .8 1.1.4 Cá c bà i tố n thơ n g dụ n g t ro n g kh a i phá l iệ u .10 1.1.5 Ứ n g dụ n g kh a i phá l iệ u vào lớ p đố i tượ n g ả nh 10 1.2 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ẢNH 11 1.2.1 G iớ i th iệ u 11 1.2.2 Cá c vấ n đề t ro n g kh a i phá ả nh (Im a g e m i n i n g iss u es) .12 1.2.3 Cá c kh u n g kh a i phá ả nh 15 1.2.3.1 Cá c kh u n g hướ n g c nă n g 16 1.2.3.2 Kh u n g hướ n g thô n g t i n 17 z p g @ h l p v p z e h g p p c i h z p c z x v g p y o z c c z z y c g g x z p s s o g p x x v s v o o y v z h g y z h h c g z v y e z p h c o x i y z s s g p z y v p z h c p l z z v i o z h p p h v p c o h e c x h p p o p o z x z p l x c e l z p z p c z l l h e l p c p c s s p c c v p c v z p p c p Chươ n g 20 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ẢNH 20 p c k l 2.1 NHẬN DẠNG ĐỐI TƯỢNG 20 2.1.1 Cá c g i a i đoạ n chí nh t ro n g nhậ n n g 21 2.1.2 Kỹ th uậ t nhậ n n g 22 2.1.2.1 Nhậ n n g dự a vào phâ n hoạ ch khô n g g i a n .23 2.1.2.2 Nhậ n n g dự a vào cấ u t rú c 23 2.1.2.3 Nhậ n n g dự a mạ n g n e u r a l 24 2.2 TRUY VẤN ẢNH .27 2.2.1 Sơ đồ t r u y vấ n ả nh .28 2.2.2 Phươ n g phá p t r u y vấ n ả nh 29 2.2.2.1 T r u y vấ n ả nh th eo cá c đặ c t rư n g bả n .29 2.2.2.2 T r u y vấ n ả nh thô n g q u a mô tả .32 2.2.2.3 T r u y vấ n ả nh th eo n gữ n ghĩ a .33 2.2.2.4 T r u y vấ n ả nh dự a t rê n kỹ th uậ t xâ y dự n g số ả nh 34 2.3 PHÂN LOẠI VÀ PHÂ N CỤ M ẢNH 37 2.3.1 Phâ n loạ i ả nh 37 2.3.1.1 Phươ n g phá p phâ n loạ i có k iểm đị nh (S u p e rv i s e d C l ass if i c a t io n) 37 2.3.1.2 Phươ n g phá p phâ n loạ i khô n g k iểm đị nh (U ns u pU rv is e d C l a ss if i c a t io n) 38 2.3.2 Phâ n cụm ả nh 39 l l l c z v é x z h l p v p p p p g v p e p c l p g p c g x i s l p g p c g x i p g p c g x l l l p e h c m i p s s p p p c h c e h m i e h m i p p v e h m i p p v e h m i p p v e h m i p p p v p e e o p c c z x p h e x y p e p h p g y z p c e x v x p e p v e p l c l p g p v l p p l v p p c @ p v c o x v k c h v p m g p c l p l p p c p c l s s s p y z s s s p y z o o z p l p c o z p l h p p s e e i p z l l h e g s y e i x z l l l e z g z x y v x z l p l z z x v z p p Chươ n g 43 CHƯƠNG TRÌ NH THỬ NGHIỆ M 43 p c l l l k 3.1 BÀI TOÁN 43 3.2 PHÂN TÍCH BÀI TOÁN 44 3.2.1 Phươ n g phá p nhậ n n g ký tự .44 3.2.2 Xâ y dự n g hệ thố n g nhậ n n g ký tự 45 3.2.2.1 Hệ thố n g nhậ n n g ký tự 45 3.2.2.2 Xâ y dự n g mạ n g n e u r a l 46 3.2.2.3 Xử lý l iệ u 46 3.2.2.3.1 Tá ch ký tự .46 3.2.2.3.2 Tì m g iớ i hạ n ký tự 47 3.2.2.3.3 Á nh xạ vào m a t rậ n 48 l l l p m c s g p s p c v v p m p p l y l z p c g c p e p o h e z i p x o l y v x v e c v v z p v h o c o p g p c p p c p c p g p p c g y g p o v 3.2.2.4 H uấ n l u yệ n mạ n g n e u r a l 50 3.2.2.5 Nhậ n n g ả nh ký tự .51 3.3 GIỚI THIỆU ỨNG DỤNG 51 3.3.1 G i ao d iệ n chươ n g t rì nh 51 3.3.2 Thự c n gh iệ m .52 h l p y p g h m p p l c p p l z x g z p p c p e h e x y v l z c o p c v e p l KẾT LUẬN 53 TÀI LIỆU THA M KHẢO .55 LỜI CẢ M ƠN 56 l k k l k MỞ ĐẦU é Kh a i phá l iệ u q uá t rì nh tìm k iếm nhữ n g thô n g t i n có í ch, t iềm ẩ n x l z s g y z h y h v e p v l o z l p p c v p c v z p 3 v z l p i m a n g tí nh dự n t rê n khố i sở l iệ u lớ n T ro n g đ iề u k iệ n yê u cầ u củ a x p c v p g p p v e p o z l g y z h y p e p c p z h o z p i m h h x nh iề u lĩ nh vự c, đò i hỏ i phả i có nhữ n g phươ n g phá p nh a nh, phù hợ p, tự độ n g, chí nh p z h y p i p z z s z p p c s p c s s p x p s s v p p c p xá c có h iệ u q uả để lấ y đượ c thô n g t i n có g iá t rị Cá c t r i thứ c ch iế t x uấ t đượ c từ p i z h h p y m p v p c v z p c z v e v e z v 3 z v p h v p v sở l iệ u t rê n nh iề u lĩ nh vự c mộ t n g uồ n tà i l iệ u hỗ t rợ cho co n n gườ i l g y z h v e p p z h y p i l y l v p c h p v z y z h v e 3 p p c z t ro n g v iệ c lê n kế hoạ ch hoạ t độ n g hoặ c t ro n g v iệ c r a q u yế t đị nh sả n x uấ t k i nh v e p c i z y p o v p p c v e p c i z e x h m v p p l p p h v o z p a nh Vì vậ y, tí nh ứ n g dụ n g củ a kh a i thá c sở l iệ u mộ t vấ n đề đ a n g đượ c g x p i m v p p c g p c x o x z v 3 l g y z h y l v i p p p x p c p q u a n tâm bở i tí nh ứ n g dụ n g c ao t ro n g c uộ c số n g h x p v l @ z v p p c g p c x v e p c h l p c T ro n g kh i, thự c tế v iệ c xử lý ả nh số n gà y cà n g đượ c nh iề u n gườ i q u a n tâm, e l p c o z v v i z p y p l p c m p c p p z h p c z h x p v l mộ t phầ n d u n g lượ n g củ a cá c th iế t bị lư u t rữ ả nh tă n g nh a nh Thêm nữ a s v s p y g g h p c y p c x 3 v z v @ y h v e p v p c p x p l p x y l phá t t r iể n nh a nh củ a mạ n g I n t e r n e t làm cho mộ t số lượ n g khổ n g lồ cá c ả nh số v v e z p p x p x l p c p v e e p e v y l l v l y p c o p c y 3 p l đượ c đư a lê n mạ n g Nhờ nhữ n g t iế n vượ t bậ c t ro n g cô n g n ghệ th u nhậ n lư u p p x y p l p c l p p c v z p @ i v @ v e p c p c p c v h p p i y h t rữ ả nh nê n n g t a lư u t rữ cá c ả nh mộ t cá ch ch i t iế t chí vớ i kí ch cỡ v e p p p p c v x v y h v e 3 p l v 3 z v z v v l i z o 3 lớ n Kh i phâ n tí ch cá c bứ c ả nh, n g t a th u đượ c nh iề u thô n g t i n hữ u í ch y p z s p v 3 @ p p c v x v v h p p z h v p c v z p h cho c uộ c số n g Kh a i phá l iệ u ả nh chí nh v iệ c t rí ch chọ n cá c thơ n g t i n ẩ n, mố i 3 h l p c x z s g y z h p p y i z v e 3 p 3 v p c v z p p l z q u a n hệ l iệ u ả nh h a y cá c mẫ u c khô n g đượ c lư u t rữ rõ rà n g t ro n g ả nh Nó i h x p g y z h p x m 3 l h o o p c p y h v e e e p c v e p c p l z đú n g hơ n, kh a i phá ả nh chí nh mở rộ n g củ a kh a i phá l iệ u vớ i đố i tượ n g ả nh p p c p o x z s p p y l l e p c x o x z s g y z h i z p z v p c p Về mặ t họ c th uậ t, kh a i phá ả nh chí nh kế t hợ p củ a khả nă n g nhậ n b iế t ả nh sử l v v h v o x z s p p y l o v s x o p p c p p @ z v p l dụ n g má y tí nh, xử lý ả nh, phụ c hồ i ả nh, kh a i phá l iệ u, họ c má y, sở l iệ u g p c l m v p p y p s z p o x z s g y z h l m l g y z h i t rí t uệ nhâ n tạo X uấ t phá t từ thự c tế đó, l uậ n vă n nhằm n gh iê n u mộ t số kỹ th uậ t v e v h p p v h v s v v v v p y h p i p p l p c z p h l v l o v h v kh a i phá l iệ u nhằm p dụ n g cho lớ p cá c đố i tượ n g ả nh o x z s g y z h p l s g p c y s 3 p z v p c p L uậ n vă n đượ c bố cụ c nh b a chươ n g, gồm 60 t r a n g h p i p p @ 3 v p @ x p c c l v e x p c Chươ n g g iớ i th iệ u i q uá t kh a i phá kh a i phá l iệ u ả nh p c c z z v z h o z h v i o x z s i o x z s g y z h p Chươ n g n gh iê n u mộ t số kỹ th uậ t kh a i phá từ lự a chọ n để áp p c p c z p h dụ n g cho cá c đố i tượ n g ả nh g p c 3 p z v p c p l v l o v h v o x z s v p y x p p v s Chươ n g t rì nh bà y th iế t kế cà i đặ t thự c n gh iệm kỹ th uậ t nhậ n n g cho p i c v e p @ m v z v o i z p v v p c z l o v h v p p g p c v iệ c kh a i phá lớ p đố i tượ n g ả nh z o x z s y s p z v p c p C uố i cù n g, l uậ n vă n đư a r a mộ t số kế t l uậ n đề x uấ t cá c n gh iê n u t ro n g h z tươ n g l a i v p c y x z p c y h p i p p x e x l v l o v y h p i p p h v 3 p c z p h v e p c Chươ n g p c KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU Ả NH l 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khá i n iệm ch u n g kh a i phá l iệ u z p z l h p c i o x z s g y z h G iớ i th iệ u z z v z h T ro n g kỷ n g u yê n I n t e r n e t, I n t r a n e ts, W a r eho us es, mở r a nh iề u hộ i cho e p c o p c h m p p v e e p e v p v e x p e v l x e e h l e l p l e x p z h z nhữ n g nhà a nh n gh iệ p t ro n g v iệ c th u thậ p xử lý thô n g t i n Hơ n nữ a, cá c cô n g p p c p g x p p c z s v e p c i z v h v s i p y v p c v z p p p x 3 p c n ghệ lư u t rữ phụ c hồ i l iệ u phá t t r iể n mộ t cá ch nh a nh chó n g sở p c y h v e i s z g y z h s v v e z p l v 3 p x p p c i v l g l iệ u cá c q u a n, a nh n gh iệ p, n vị n gà y cà n g nh iề u thô n g t i n t iềm ẩ n n g y s z h 3 h x p g x p p c z s p p i p c m p c p z h v p c v z p v z l p s p c phú đ a n g i p x g p c Cơ sở l iệ u t ro n g cá c a nh n gh iệ p, q u a n, n vị, … n g mộ t v a i t rò l g y z h v e p c 3 g x p p c z s h x p p p i p p c l v i x z v e rấ t q u a n t rọ n g cho v iệ c hoạ ch đị nh kế hoạ ch k i nh a nh t rê n thươ n g t rườ n g vào e v h x p v e p c i z 3 p p o o z p g x p v e p v p c v e p c i nhữ n g năm t iế p th eo H iệ n tạ i, v iệ c sử dụ n g cá c l iệ u nà y t u y đạ t đượ c mộ t số p p c p l v z s v e z p v z i z l g p c 3 g y z h p m v h m p p v p l v l kế t q uả nhấ t đị nh so n g vẫ n cò n mộ t số vấ n đề tồ n đọ n g như: o v h p v p p l p c i p p l v l i p p v p p p c p Dự a hoà n tồ n vào l iệ u, khơ n g sử dụ n g t ri thứ c có sẵ n lĩ nh vự c, kế t x p v p i g y z h o p c l g p c v e z v 3 l p i y p i o v q uả phâ n tí ch khó làm rõ đượ c h s p v o v y l e p Phả i có hướ ng dẫ n ngườ i dù n g để xá c đị nh phâ n tí ch liệ u z l p c g p x p c z g p c p p p p s p v g y z h p đâ u v p i p h T ro n g đ iề u k iệ n yê u cầ u củ a nh iề u lĩ nh vự c, đò i hỏ i phả i có nhữ n g phươ n g e s p c p z h o z p i m h h x p z h y p i p z z s z p p c s p c phá p nh a nh, phù hợ p, tự độ n g, chí nh xá c có h iệ u q uả để lấ y đượ c thô n g t i n có s p x p s s v p p c p p i z h h p y m p v p c v z p g iá t rị Cá c t r i thứ c ch iế t x uấ t đượ c từ sở l iệ u t rê n mộ t n g uồ n tà i l iệ u hỗ c z v e v e z v 3 z v p h v p v l g y z h v e p l y l v p c h p v z y z h t rợ cho lã nh đạo t ro n g v iệ c lê n kế hoạ ch hoạ t độ n g hoặ c t ro n g v iệ c r a q u yế t đị nh v l e y p p v e p c i z y p o v p p c v e p c i z e x h m v p p sả n x uấ t k i nh a nh Vì vậ y, tí nh ứ n g dụ n g củ a kh a i thá c sở l iệ u mộ t vấ n p p h v o z p g x p i đề đ a n g đượ c q u a n tâm p p x p c p h x p v l m v p p c g p c x o x z v 3 l g y z h y l v i p Kh a i phá l iệ u x z s g y z h Kh a i phá l iệ u mộ t i n iệm r a đờ i vào nhữ n g năm c uố i củ a thậ p kỷ x z s g y z h y l v o z p z l e x p z i p p c p l h z x v s o 1980 Nó q uá t rì nh khám phá thơ n g t i n ẩ n đượ c tìm thấ y t ro n g cá c sở l iệ u l i y h v e p o l s v p c v z p p p v l v m v e p c 3 l g y z h x em mộ t bướ c t ro n g q uá t rì nh khám phá t r i thứ c Kh a i phá l iệ u v p e l p y l v @ v e p c h v e p o l s v e z v x z s g y z h g i a i đoạ n q u a n t rọ n g nhấ t t ro n g t iế n t rì nh kh a i phá t r i thứ c từ sở l iệ u, cá c y c z x z p p h x p v e p c p v v e p c v z p v e p o x z s v e z v v l g y z h 3 t r i thứ c nà y hỗ t rợ t ro n g v iệ c r a q u yế t đị nh t ro n g kho a họ c k i nh a nh v e z v é s p m v e v e p c i z e x h m v p p v e p c o x i o z p g x p Để hì nh d u n g vấ n đề nà y t a sử dụ n g mộ t ví dụ n g iả n s a u: Kh a i p g h p c i p p p m v x v l g p c l v i g p p c z p p l x h x z phá l iệ u đượ c ví tìm mộ t câ y k im t ro n g đố n g cỏ khơ T ro n g ví dụ nà y, câ y g y z h p i p v l l v m o z l v e p c p p c o e p c i g p m m k im mộ t mả nh nhỏ t r i thứ c hoặ c mộ t thô n g t i n có g iá t rị đố n g cỏ khô mộ t o z l y l v l p p v e z v 3 l v v p c v z p c z v e i p p c o y l v kho sở l iệ u rộ n g lớ n Như vậ y, nhữ n g thơ n g t i n có g iá t rị t iềm ẩ n t ro n g kho o l g y z h e p c y p l i m p p c v p c v z p c z v e v z l p v e p c o sở l iệ u đượ c ch iế t x uấ t r a sử dụ n g mộ t cá ch hữ u í ch nhờ kh a i phá l g y z h l p 3 z v p h v e x i l g p c l v 3 h p o x z s g l iệ u Chứ c nă n g kh a i phá l iệ u gồm có gộ p nhóm phâ n loạ i, dự báo, dự đố n y s z h p p c o x z s g y z h c l c s p l s p y z g @ g p p i phâ n tí ch cá c l iê n kế t Năm 1989 F a y y a d, S m y th P i a t es ts k y-Sh a p i ro dù n g p v 3 y z p o v l l x m m x g l m v i z x v e l v l o m x s z e p g p c i n iệm phá t h iệ n t r i thứ c từ sở l iệ u (K now l e d g e D is cov e r y i n D a t a b as e- o z p z l s v z p v e z v v l g y z h p y e g c e z l i e e m z p x v x @ x l e KDD) T ro n g đó, kh a i phá l iệ u mộ t g i a i đoạ n rấ t đặ c b iệ t t ro n g n q uá e p c p o x z s g y z h y l v c z x z p p e v p @ z v v e p c v p @ h t rì nh, sử dụ n g cá c kỹ th uậ t để tìm r a cá c mẫ u từ l iệ u v e p p l g p c 3 o v h v p v l e x 3 l h v g y z h Dướ i đâ y mơ hì nh d iễ n tả q uá t rì nh phá t h iệ n t r i thứ c z p m y l p g z p v h v e p s v z p v e z v Envalution of Data Mining Transformati Cleansing Pre- Knowledge Pattern Selection Transforme Gathering Cleansed Preprocessed Preparated Target Internet, Data Hì nh 1.1: Q uá t rì nh phá t h iệ n t r i thứ c p h v e p s v z p v e z v Discovery T ro n g đó: e p c p - Má y chủ CSDL h a y kho l iệ u: lấ y nhữ n g l iệ u thí ch hợ p dự a t rê n yê u k m x m o g y z h y m p p c g y z h v s g x v e p m h cầ u kh a i phá củ a co n n gườ i - h o x z s x p p c z Cơ sở t r i thứ c: m iề n t r i thứ c đượ c dù n g để tìm k iếm h a y đá nh g iá độ q u a n l v e z v l z p v e z v p g p c p v l o z l x m p p c z p h x p t rọ n g củ a cá c hì nh mẫ u kế t q uả v - e p c x 3 p l h o v h Má y kh a i phá l iệ u: tậ p cá c mo d u l e thự c h iệ n ch uỗ i cô n g v iệ c k - m o x z s g y z h v s 3 l g h y e v z p h z p c i z Đá nh g iá mẫ u: tươ n g tá c vớ i cá c mo d u l e kh a i phá l iệ u để tậ p t r u n g vào é i p c z l h v p c v i z 3 l g h y e o x z s g y z h p v s v e h p c i v iệ c d u yệ t tìm cá c mẫ u đượ c q u a n tâm z g h m v v l 3 l h p h x p v l G i ao d iệ n đồ họ a: cho phé p n gườ i sử dụ n g g i ao t iế p vớ i hệ thố n g kh a i phá l iệ u z x g z p p x s s p c z l g p c c z x v z s i z v p c o x z s g y z h Cá c c nă n g củ a kh a i phá l iệ u l 3 p p c x o x z s g y z h Nh iệm vụ củ a mộ t hệ kh a i phá l iệ u đượ c ch i a nh loạ i: z l  i x l v o x z s g y z h v p 3 z x v p y z Mô tả: m iê u tả cá c đặ c đ iểm ch u n g củ a l iệ u t ro n g CSDL k v l z h v 3 p p z l h p c x g y z h v e p c  Cho b iế t đ iề u hữ u í ch tìm thấ y đượ c t ro n g l iệ u @ z v p z h c y h 3 v v l v m p v e p c g y z h  G iả i thí ch l iệ u z z v g y z h p  Dự n: thự c h iệ n s u y l uậ n t rê n l iệ u h iệ n có để đư a r a dự n p p v z p l h m y h p v e p g y z h z p p p x e x g p p  Dự a t rê n l iệ u q uá khứ, dự báo tươ n g l a i x v e p g y z h h o g @ v p c y x z  X u phá t t r iể n h v s v v e z p 1.1.2 Cá c n g l iệ u kh a i thá c l iệ u: g p c g y z h v o x z v g y z h  Cơ sở l iệ u q u a n hệ ( r e l a t io n a l d a t a b as es) l g y z h h x p e e y x v z p x y g x v x @ x l e l  Cơ sở l iệ u đ a ch iề u (m u l t i d im e n t io n s t r u c t u r es, d a t a w a r eho us e, d a t a m a r t) l l x g e y z h p x z h l h y v z g z l e p v z p l v e h v h e e l g x v x x e e h l e g x v x v  Cơ sở l iệ u g i ao tá c ( t r a ns a c t io n d a t a b as es) l g y z h c z x v v e x p l x v z p g x v x @ x l e l  Cơ sở l iệ u q u a n hệ – hướ n g đố i tượ n g (o bj e c t r e l a t io n a l d a t a b as es) l g y z h h x p p c p z v p c @ e v e e y x v z p x y g x v x @ x l e l  Dữ l iệ u khô n g g i a n thờ i g i a n (sp a t i a l, t em po r a l, a n d t im e – s e r i es d a t a) y z h o p c c z x p i v z c z x p l s x v z x y v e l s e x y x p  Cơ sở l iệ u đ a phươ n g t iệ n ( M u l t im e d i a d a t a b as e) l g y z h p x s p c v z p k h y v z l e g z x g x v x @ x l e g v z l e l e e z e l g x v x 1.1.3 Q uá t rì nh kh a i phá l iệ u h v e p o x z s g y z h Mộ t q uá t rì nh kh a i phá l iệ u b ao gồm năm g i a i đoạ n chí nh s a u: k v h v e p o x z s g y z h @ x c l p l c z x z p p p l x h (1) Tì m h iể u n gh iệp vụ l iệ u l z h p c z s i i g y z h (2) Ch uẩ n bị l iệ u h p @ g y z h (3) Mơ hì nh hó a l iệ u k p x g y z h (4) Hậ u xử lý đá nh g iá mơ hì nh h p y i p p c z l p (5) T r iể n kh a i t r i thứ c e z p o x z v e z v Q t rì nh nà y đượ c lặ p lạ i nh iề u lầ n mộ t h a y nh iề u g i a i đoạ n dự a t rê n h s v e p p m v p y s y z p z h y p l v x m p z h c z x z p p g x v e p phả n hồ i từ kế t q uả củ a cá c g i a i đoạ n s a u Th am g i a chí nh t ro n g q uá t rì nh KPDL p z v o v h x 3 c z x z p p l x h x l c z x p v e p c h v e p y cá c nhà tư vấ n (NTV) phá t t r iể n ch u yê n n gh iệp t ro n g lĩ nh vự c KPDL 3 p v i p l i s v v e z p h m p p c z s v e p c y p i T ro n g g i a i đoạ n đầ u t iê n, Tìm h iể u n gh iệp vụ l iệ u, NTV n gh iê n u k iế n e p c c z x z p p p h v z p l z h p c z s i i g y z h l p c z p h o z p thứ c lĩ nh vự c áp dụ n g, b ao gồm cá c t r i thứ c cấ u t rú c hệ thố n g t r i thứ c, v i y p i l s g p c @ x c l 3 v e z v 3 h v e i v p c i v e z v cá c n g uồ n l iệ u h iệ n hữ u, ý n ghĩ a, v a i t rò tầm q u a n t rọ n g củ a cá c thự c thể 3 p c h p g y z h z p h p c x i x z v e i v l h x p v e p c x 3 v v g l iệ u V iệ c n gh iê n u nà y đượ c thự c h iệ n q u a v iệ c t iếp xú c g iữ a NTV n gườ i y z h z p c z p h p m p v z p h x i z v z s p c z x l i p c z dù n g Khá c vớ i phươ n g phá p g iả i q u yế t vấ n đề t r u yề n thố n g kh i bà i toá n đượ c xá c g p c i z s p c s s c z z h m v i p p v e h m p v p c o z @ z v p p p đị nh chí nh xá c bướ c đầ u t iê n, NTV tìm h iể u cá c yê u cầ u sơ khở i củ a n gườ i p p p p @ p h v z p l v l z h 3 m h h l o z x p c z dù n g đề n ghị cá c bà i toá n t iềm nă n g g iả i q u yế t vớ i n g uồ n l iệ u h iệ n g p c i p p c 3 @ z v p v z l p p c v c z z h m v i z p c h p g y z h z p hữ u Tậ p cá c bà i toá n t iềm nă n g đượ c t i nh nh làm hẹ p lạ i t ro n g cá c g i a i đoạ n h l s 3 @ z v p v z l p p c p v z p p i y l s y z v e p c 3 c z x z p p s a u Cá c n g uồ n đặ c tả l iệ u có l iê n q u a n đế n tậ p cá c bà i toá n t iềm nă n g cũ n g x h p c h p i p v g y z h y z p h x p p p v s 3 @ z v p v z l p p c p c đượ c xá c đị nh p p p p G i a i đoạ n Ch uẩ n bị l iệ u sử dụ n g cá c kỹ th uậ t t iề n xử lý để b iế n đổ i z x z p p h p @ g y z h l g p c 3 o v h v v z p p y p @ z p p z i i th iệ n chấ t lượ n g l iệ u để thí ch hợ p vớ i nhữ n g yê u cầ u củ a cá c g iả i th uậ t z v z p v y p c g y z h p v s i z p p c m h h x 3 c z z v h v họ c Phầ n lớ n cá c g iả i th uậ t KPDL h iệ n n a y làm v iệ c t rê n mộ t tậ p l iệ u p y p 3 c z z v h v z p p x m y l i z v e p l v v s g y z h n phẳ n g, l iệ u phả i đượ c t rí ch x uấ t b iế n đố i từ cá c n g sơ p p i s p c g p g y z h s z p v e p h v i @ z p p z v 3 g p c l g l iệ u phâ n bố, q u a n hệ h a y hướ n g đố i tượ n g s a n g n g sở l iệ u q u a n hệ n y c z h s p @ h x p x m p c p z v p c l x p c g p c l g y z h h x p p p g iả n vớ i mộ t bả n g l iệ u Cá c g iả i th uậ t t iề n xử lý t iê u b iể u b ao gồm: z p i z l v @ p c g y z h c z z v h v v z p p y v z h @ z h @ x c l (a) Xử lý l iệ u bị th iế u/mấ t: cá c l iệ u bị th iế u đượ c th a y bở i cá c y g y z h @ v z h l v 3 g y z h @ v z h l p v x m v @ z 3 g iá t rị thí ch hợ p c z v e v s (b) Khử t rù n g lặ p: cá c đố i tượ n g l iệ u t rù n g lặ p bị loạ i bỏ đ i Kỹ th uậ t l v e p c y s 3 p z v p c g y z h v e p c y s l @ y z @ p z v h v nà y khô n g đượ c sử dụ n g cho cá c tá c vụ có q u a n tâm đế n phâ n bố l iệ u p m o p c p l g p c 3 v i h x p v l p p s p @ g y z h (c) G iảm nh iễ u: nh iễ u cá c đố i tượ n g tá ch rờ i (o u t l i e r) khỏ i phâ n bố ch u n g z l l p z h p z h i 3 p z v p c v e z h v y z e e o z s p @ h p c bị loạ i đ i khỏ i l iệ u @ y z p z o z g y z h (d) Ch uẩ n hó a: m iề n g iá t rị củ a l iệ u đượ c ch uẩ n hó a h p x l z p c z v e x g y z h l p 3 h p x (e) Rờ i rạ c hó a: cá c l iệ u số đượ c b iế n đổ i r a cá c g iá t rị rờ i rạ c z e x 3 g y z h l l p @ z p p z e x 3 c z v e e z e (f) Rú t t rí ch xâ y dự n g đặ c t rư n g mớ i từ cá c th uộ c tí nh có v v e i p m g p c p v e p c l z v 3 v h v p p (g) G iảm ch iề u: cá c th uộ c tí nh a í t thơ n g t i n đượ c loạ i bỏ t z l z h 3 v h v p x v v p c v z p l p y z @ @ v Cá c bà i toá n đượ c g iả i q u yế t t ro n g g i a i đoạ n Mơ hì nh hó a l iệ u Cá c g iả i @ z v p p c z z h m v v e p c c z x z p p k p x g y z h c z z th uậ t họ c sử dụ n g cá c l iệ u đượ c t iề n xử lý t ro n g g i a i đoạ n h a i để tìm k iếm v h v l g p c 3 g y z h p p v z p p y v e p c c z x z p p x z p v l o z l cá c q u i tắ c ẩ n chư a b iế t Cô n g v iệ c q u a n t rọ n g nhấ t t ro n g g i a i đoạ n nà y lự a 3 h z v p i x @ z v p c i z h x p v e p c p v v e p c c z x z p p p m y y x chọ n kỹ th uậ t phù hợ p để g iả i q u yế t cá c vấ n đề đặ t r a Cá c bà i toá n đượ c phâ n loạ i i p o v h v s s p c z z h m v 3 i p p p v e x @ z v p p s p y z vào mộ t t ro n g nhữ n g nhóm bà i tố n chí nh t ro n g KPDL dự a t rê n đặ c tả củ a n g l v v e p c p p c p l @ z v p p v e p c g x v e p p v x p c Cá c bà i toá n chí nh t ro n g KPDL đượ c t rì nh bà y ch i t iế t t ro n g phầ n 1.1.4 @ z v p p v e p c l p v e p @ m z v z v v e p c s p Cá c mơ hì nh kế t q uả củ a g i a i đoạ n b a đượ c hậ u xử lý đá nh g iá t ro n g l p o v h x c z x z p p @ x l p h p y i p p c z v e p c g i a i đoạ n Dự a t rê n cá c đá nh g iá củ a n gườ i dù n g s a u kh i k iểm t r a t rê n cá c tậ p c z x z p p x v e p 3 p p c z x p c z g p c l x h o z o z l v e x v e p 3 v s thử, cá c mơ hì nh đượ c t i nh nh kế t hợ p lạ i nế u cầ n Chỉ cá c mơ hì nh đạ t v 3 l p l p v z p p i o v s y z p h p 3 l p p v đượ c mứ c yê u cầ u bả n củ a n gườ i dù n g mớ i đư a r a t r iể n kh a i t ro n g thự c tế p l m h h @ p x p c z g p c l z p x e x v e z p o x z v e p c v v T ro n g g i a i đoạ n nà y, cá c kế t q uả đượ c b iế n đổ i từ n g họ c th uậ t s a n g n g phù e p c c z x z p p p m 3 o v h p @ z p p z v g p c v h v l x p c g p c s hợ p vớ i n gh iệp vụ dễ h iể u hơ n cho n gườ i dù n g s i z p c z s i i g z h p p c z g p c T ro n g g i a i đoạ n c uố i, T r iể n kh a i t r i thứ c, cá c mô hì nh đượ c đư a vào e p c c z x z p p h z e z p o x z v e z v 3 l p p p x i nhữ n g hệ thố n g thô n g t i n thự c tế dướ i n g cá c mo d u l e hỗ t rợ v iệ c đư a r a q u yế t p p c v p c v p c v z p v v g z g p c 3 l g h y e v e i z p x e x h m v đị nh Mố i q u a n hệ chặ t chẽ g iữ a cá c g i a i đoạ n t ro n g q uá t rì nh kh a i phá l iệ u p p k z h x p v c z x 3 c z x z p p v e p c h v e p o x z s g y z h y rấ t q u a n t rọ n g cho v iệ c n gh iê n u t ro n g kh a i phá l iệ u Mộ t g iả i th uậ t t ro n g e v h x p v e p c i z p c z p h v e p c o x z s g y z h k v c z z v h v v e p c KPDL khô n g thể đượ c phá t t r iể n độ c lậ p, khô n g q u a n tâm đế n bố i nh p dụ n g mà o p c v p s v v e z p p y s o p c h x p v l p p @ z p s g p c l thườ n g đượ c xâ y dự n g để g iả i q u yế t mộ t mụ c t iê u cụ thể Do đó, h iể u b iế t bố i v p c p p m g p c p c z z h m v l v l v z h v p l z h @ z v @ z nh vậ n dụ n g rấ t cầ n th iế t Thêm vào đó, cá c kỹ th uậ t đượ c sử dụ n g t ro n g cá c c c p i p g p c y e v p v z v l i p 3 o v h v p l g p c v e p c 3 g i a i đoạ n t rướ c ả nh hưở n g đế n h iệ u q uả củ a cá c g iả i th uậ t sử dụ n g t ro n g cá c z x z p p v e 3 v g i a i đoạ n t iế p th eo z x z p p v z s v e p p c p p z h h x 3 c z z v h v l g p c v e p c 3

Ngày đăng: 03/02/2024, 14:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w