Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư = Feature Selecton approach fo151552
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
19,44 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI NGHIÊN CỬU PHƯƠNG PHÁP LỤA CHỌN CÁC THUỘC TÍNH ĐẶC TRƯNG NHẰM TÃNG CƯỜNG KHA n ă n g c h u ẩ n đ o n CỦA HỆ THỐNG CHUẮN ĐOÁN BỆNH UNG THƯ Mã số: QC 07.27 Chủ nhiệm đề tài: Nguyễn Hà Nam ẠI HỌC QUOC GIA HA NỌl ^ U N G TẨM T H Ò N G TIN THỰ VIEN J)r / Hà N ộ i - 0 m Muc luc ■ ■ i Giải thích c h ữ viết t ắ t ii D anh sách cán bô tham gia thưc hiên đề t i iii D anh m u c hỉnh v ẽ iv Danh m uc b ả n g số l i ê u V T ó m tắt k ết q u ả c h ính đề t i vi 5.1 Kết q uả v ề k h o a h o c vi 5.2 Kết q uà p h u c v u thưc t ế .vi 5.3 K et quà đ t a o vi 5.4 Kết n â n g cao tiềm lưc khoa h o c vi A b stra ct Báo cáo tổ n g k ế t 6.1 Đ ăt vấn đ ề 6.2 T ổ n g q uan vấn đề nghiên c ứ u i 6.2.1 Giới thiêu trích chon nơi d u n g ■> 6.2.2 T h u â t Toán di tru y ề n 6.2.3 T hu ât to án K P C A 6.2.4 T hu ât to án R F 6.3 Phưcm g p h áp đề n g h i 6.3.2 K e t q u ả v thảo l u â n 10 6.4 M u c tiêu v N ò i dun g nghiên c ứ u K et q u ả n g h iê n c ú n 11 6.4.1 C ác c ô n g bổ liên quan đến kết qu ả c ủ a đề t i 11 6.4.2 K et q u ả đ tao củ a đề tà i 11 6.5 K ết luân kiến n g h i 12 6.6 Tài liêu th a m k h ả o 13 Phụ lụ c ]4 i Giải thích chữ viết tắt CSDL PC A RF KPCA OOB ANN IDS KN N C sở d ữ liệu Principle C o m p o n en t A nalysis (kỹ thuật phân tích thành phần ban) R a n d o m F orest (Thuật tốn phân lóp d ự a C A R T ) Kernel P C A (P hương pháp nhân P C A) O u t o f bag (m ột kỹ thuật dùn g để giảin thiểu lỗi trinh học) M n g neu ron Intrusions D etection System (Hệ th ố n g phát xâm nhập trái phép) T h u ậ t toán K láng giênq gần Danh sách cán tham gia thực đề tài STT H o v tên N guyên H N am H ọ c h àm học vị TS T rịn h N h ậ t T iê n K h o a C ô n g n g h ệ t h ỏ n e tin , Đ H Công nghệ Đ H Q G H N (c h ủ n h iệ m đề tài) C q u a n c ô n g tác P G S T S K h o a C ô n g n g h ệ t h ô n g tin, Đ H Công nghệ Đ H Q G H N N guyên C âm Tú CN ( T h k ý đề tài) Lê H ồng Hải K h o a C ô n g n g h ệ t h ô n g tin Đ H C ôns nghệ Đ H Ọ G H N ThS K h o a C ô n g n g h ệ t h ô n g tin, Đ H C ône nghệ Đ H Q G H N D Phương H ạnh ThS " K h o a C ô n g n g h ẹ t h ô n e tin, Đ H Công nghệ Đ H Q G H N H H u y G iáp s v K48 K h o a C ô n g n g h ệ t h ô n s tin Đ H C ơna nehệ Đ H Q Ị H N " Danh mục hình vẽ e H ì n h 1: H n g ti ế p c ậ n f ilte r (c c t h u ộ c t ín h đ ợ c c h ọ n đ ộc lậ p với th u ậ t t o n k h a i p h d ữ liệu ) [ ] H ì n h 2: H n g t i ế p c ậ n w r a p p e r ( c c th u ộ c tín h đ ợ c c h ọ n p h ụ t h u ộ c th e o m ộ t n e h ĩ a n o đ ó v i t h u ậ t t o n k h a i p h d ữ iiệu ) [ ] H ì n h 3: B a c c h t i ế p c ậ n c b ả n c ủ a tríc h c h ọ n n ộ i d u n g P h ầ n tô m u x m c h o b i ế t c c t h n h p h ầ n m h n g tiếp c ậ n đ ó s d ụ n g để đ a k ết q u ả c u ố i c ù n g H ì n h 4: K i ế n tr ú c t ổ n g th ể c ủ a p h n g p h p đề n e h ị ( K P C A - R F ) v ói m ỏ h ì n h h ọ c đ ê t ì m h m n h â n tô t n h ấ t H ì n h 5: S o s n h k ế t q u ả đ o n n h ậ n g i ữ a c h ỉ sử đ ụ n g R F vớ i t h u ậ t to n đ ợ c cải ti ế n K P C A - R F t h ô n g q u a 50 lần t h ự c n g h i ệ m Đ n g đ ậ m t h ể h i ệ n k ế t q u ả c ủ a t h u ậ t to n c ủ a c h ú n g c ò n đ ò 'n g m ả n h thê h i ệ n k ế t q u c ủ a t h u ậ t to n R F 10 Danh mục òảna số liệu ■ B ả n g 1: W ■ S o s n h k ế t q u ả p h â n lớ p v ó i m ộ t số n g h i ê n c u t r c đ â v với p h n g p h p đ ề n g h ị trê n c ù n g b ộ d ữ l i ệ u V Tóm tắt kết đề tàỉ 5.1 Kết quà khoa học • Đ ã hoàn thàn h 01 báo cáo khoa học hội thảo quốc Ìa c ơn g n s h ệ th ô n g tin N h a Trang, 07/2007 5.2 Kết phục vụ thực tế C h ủ n g đ ã h o n t h n h c h n g t rìn h m p h ò n g th u ậ t to n p h â n lớ p d ự a írên tìm đ ặ c t r n g u c ủ a d ữ liệu đ ầ u v o t h ô n e q u a tố i u h m n h â n C c k ế t q u ả n g h i ê n c ứ u c ủ a đ ề tài c h o th ấ y , p h n g p h p c h ú n g đ ề n g h ị v cài đ ặt có k h ả n ă n g p h â n l p tố t h o n so v ới t h u ậ t t o n b a n đ ầu P h n g p h p n y c ó k h a n ă n g m r ộ n g k h ả n ă n g h ọ c b ằ n g c c h t h ê m cá c t h a m số h o ặ c ứ n g d ụ n g cho v iệ c p h â n l p cá c b ộ đ Hệu k h c m ộ t c c h d ễ d àn g 5.3 Kết đào tạo • Đ ã h n g dẫn tốt nghiệp 01 sinh viên đại học bảo vệ tháng 6/2007 đề tài trích chọn nội d u n g (xem bìa luận văn kèm theo) • Đ a n g h n g dẫn 01 sinh viên đại học đề tài trích chọn nội d u n a, dự kiến bâo vệ th án g 6/2008 5.4 Kết nâng cao tiềm lực khoa học N ghiên u th uật tốn trích chọn nội d u n g ú n g d ụ n g tro n g việc khai phá dũ' liệu lớn Đ ã h n g dẫn sinh v iên tổ chức sem in ar khoa học kỹ thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g th ô n g tin VI Abstract T h i s p a p e r p r o p o s e d a c o m b i n a t i o n o f k e r n e l f u n c ti o n s K e r n e l PrincÌDỈe C o m p o n e n t A n a l y s i s a n d its le a r n in g m e t h o d w h i c h is h e lp to n o t o n l y t r a n s f o r m th e input space classific atio n to a low er perform ance dim en sio n featu re W e d e f in e d th e soace co m b in ed but also kernel in c re a s e f u n c ti o n the as the w e i g h t e d s u m o f a s e t o f d i f f e r e n c e t y p e s o f b a s is k e r n e l fu n c tio n consisting, o f p o l y n o m i a l , g a u s i a n a n d n e u r a l k e r n e l s , w h i c h is tr a i n e d b v a n o v e l le a r n in g m e t h o d b a s e d o n g e n e t i c a l g o r i t h m T h e w e i g h t s o f b a s i s k e r n e l f u n c ti o n s in th e c o m b i n e d k e r n e l a r e d e t e r m i n e d in l e a r n i n g p h a s e a n d u s e d as t h e p a r a m e t e r s in th e d e c i s i o n m o d e l in t h e c l a s s i f i c a t io n p h a s e T h e u n i f i e d k e r n e l a n d th e le a r n in g m e t h o d w e r e a p p l i e d t o o b t a i n th e o p t i m a l d e c i s i o n m o d e l fo r th e c l a s s i f i c a t io n o f a p u b l i c d a t a s e t f o r d i a g n o s i s o f c a n c e r d i s e a s e s T h e e x p e r i m e n t s h o w e d fast c o n v e r g e n c e in l e a r n i n g p h a s e a n d r e s u lt e d in th e o p t i m a l d e c is i o n m o d e l w i t h the b e t t e r p e r f o r m a n c e t h a n o t h e r k e r n e ls T h e r e f o r e , th e p r o p o s e d k e r n e l f u n c ti o n h a s the g r e a t e r f l e x i b i l i t y in r e p r e s e n t i n g a p r o b l e m s p a c e t h a n o th e r k e r n e l fu n c tio n s Báo cáo tổng kết 6.1 Đặt vấn đề T r o n g lĩn h v ự c n g h i ê n c ứ u v ề k h a i p h d ữ liệ u n ói c h u n e c ũ n s n h t r o n s n g h i ê n c ứ u v ề c c t h u ậ t t o n p h â n ló p nói riê n g , v ấ n đề x lý d ữ liệ u lớ n n s ỵ c n g t r t h n h v a n đ ề c ấ p th iế t v đ ó n g vai t r ò c h ủ đ o tr o n g v iệ c s iả i q u y ế t b ài t o n t h ự c tế P h ầ n l n t h u ậ t t o n p h â n ló p đ ã p h t t r i ể n chi cỏ th ể eiải q u y ế t đ ợ c v i m ộ t l ợ n g sổ liệu g i i h n c ũ n g n h với m ộ t đ ộ p h ứ c tạ p d ữ liệu b iế t t r c T r o n g k h i đ ó l ợ n g d ữ liệ u m c h ủ n g ta th u th ậ p đ ợ c n a y c n a trờ n ê n p h o n g p h ú v đ a d n g n h c c s ự p h t tr iể n m n h m ẽ c ủ a k h o a h ọ c k ỹ th u ật M ặ c d ù r ấ t n h i ề u t h u ậ t t o n p h â n lớ p d ự a trê n n h i ề u n ề n t ả n g lý t h u y ế t k h c n h a u đ ã đ ợ c p h t tr iể n v ú n g d ụ n g t rấ t lâu, n h n g t h ự c tế c h o t h ấ y k ết q u a p h ụ t h u ộ c rấ t n h i ề u v o đ ặ c tín h d ữ liệu c ũ n g n h k h ả n ă n g x ỉý d ữ liệu t h ô c ủ a từ n g n h ó m n g h i ê n c ú n M ộ t đ i ề u h i ể n n h i ê n v i m ỗ i p h n g p h p có th ê đ p ứ n s x lý tố t tr ê n m ộ t v i d ữ liệ u v ứ n g d ụ n e c ụ th ể n o N g y n a y với trợ g i ú p c ủ a c c h ệ t h ố n g t ự đ ộ n g h ó a v h ệ t h ố n g t r ợ e i ú p c n g n e y c n g tin h vi h n , k h ố i l ợ n g d ữ liệ u c ầ n p h ả i x lý t ă n g v i m ộ t tốc đ ộ c h ó n g m ặ t N g i ta c đ o n r ằ n g l ợ n g t h ô n g tin t r ê n t o n c ầ u t ă n g e ẩ p đôi sau k h o ả n g hai n ă m t h e o đ ó s ổ l ợ n g c ũ n g n h kíclì c ỡ c ủ a cá c c s d ữ liệu ( C S D L ) c ũ n a tă n g lên m ột cách nhanh chóng T r o n g k h a i p h d ữ liệ u th ì p h o n g p h p tríc h c h ọ n đ ó n g m ộ t vai trò q u a n t r ọ n g đ ể t r í c h c h ọ n v c h u ẩ n bị d ữ liệu H n g tiê p c ậ n n y m lă n g h iệ u n ă n g th u n h ậ n tri t h ứ c t r o n g c c n g n h n h tin sinh, x lý d ữ liệu w e b , x lý t i ê n g nói h ìn h ả n h v i đ ặ c t í n h c ó r ấ t n h i ề u t h u ộ c t í c h (vài t r ă m c h o đ ế n v ài t r ă m n g n t h u ộ c t í n h ) n h n g t h n g c h ỉ c ó m ộ t số l ợ n g t n g đố i n h ỏ cá c m ẫ u d ù n g để h u ấ n l u y ệ n ( t h n g v i t ră m ) P h n g p h p tr íc h c h ọ n s ẽ g iú p g i ả m k í c h c ỡ củ a k h ô n g g i a n d ữ liệu, lo i b ỏ n h ũ n g t h u ộ c t í n h k h ô n g liê n q u a n v n h ữ n g th u ộ c tín h n h iễ u P h n g p h p n y c ó ả n h h n g n g a y lậ p tứ c đ ê n cá c ứ n g d ụ n g n h tă n g lôc đ ộ c ủ a t h u ậ t t o n k h a i p h d ữ liệu, cải t h i ệ n c h ấ t l ợ n g d ữ liệu v v ậ y tă n g h iệ u s u ấ t k h a i p h d ữ liệ u , k i ể m s o t đ ợ c k ế t q u ả c ù a t h u ậ t to án P h n g p h p đ ợ c g iớ i t h i ệ u t n h ữ n g n ă m t r o n g cá c tài liệu v ê x c s u â t t h ô n g kê h ọ c m y v k h a i p h d ữ l i ệ u [1-7 ] P r i n c i p a l C o m p o n e n t A n a l y s i s ( P C A ) [4] m ộ t p h n g p h p k h n ô i tiế n g h i ê u q u ả t r o n g q u t r ì n h l m g i ả m số th u ộ c t í n h c ủ a tậ p d liệ u đ â u v o G â n đ ây p h n g p h p h m n h â n đ ã đ ợ c p d ụ n g đ ể c ó th ể ứ n g d ụ n g P C A v o giải q u y ế t c c b ài t o n ph i t u y ế n tín h P h n g p h p n y đ ã đ ợ c S c h o l k h o f v đ ô n g n g h i ệ p c ủ a ô n g đ a v i tê n g ọ i K P C A [9] T r o n g đê tài n y c h ú n g tỏi trìn h bàv m ộ t ti ế p c ậ n m i d ự a t r ê n h m n h â n đ ể có th ể c h ọ n n h ữ n g th u ộ c t ín h tó t n h ấ t đẻ t ă n g k h ả n ă n g p h â n ló p c ù a t h u ậ t to n R a n d o m F o r e s t ( R F ) T r o n g p h n g p h p đ ề n g h ị c h ú n g tô i s d ụ n g g iải t h u ậ t di t r u y ề n đ ể t ìm h m n h â n tố i u c h o việc tìm r a c c h c h u y ể n đ ổ i p h i t u y ế n tố t n h ấ t n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a o s m h p h â n ỉà x â y d ự n g c c t h u ộ c t í n h v l ự a c h ọ n t h u ộ c tín h đ ặc trư n g X â y d ự n e b ộ cá c th u ộ c tín h m ộ t c ô n g v i ệ c rấ t q u a n tr ọ n g tr o n g v iệ c x lý số liệu K h i x â v d ự n a d ữ liệu c h ú n g ta c ầ n p h ả i đ ả m b ả o k h ô n g đê m ấ t n h i ề u t h ô n g tin q u c ũ n g n h k h ô n q u tố n k é m v ề m ặ t c h i p h í P h ầ n t h ứ hai, c h ủ đề c h ín h c ủ a đ ề tài n y có m ụ c tiêu tìm n h ữ n g t h u ộ c t í n h đ i d i ệ n c h o đối t ợ n loại b ò nhừ na, t h u ộ c t ín h th a g â y n h i ễ u n h ằ m t ă n g h i ệ u s u ấ t c ủ a c c th u ậ t to n k h p h d ữ liệu C ó n h iề u p h n g p h p c ũ n g n h h n g tiế p c ậ n k h c n h a u b a o g m p h n g p h p k in h đ iể n [1-3] v i b ộ d ữ liệ u t n g đ ố i n h ỏ v h n g tiế p c ậ n h i ệ n đại [5-7], T u y v ậ y c h ú n g đ ề u có m ộ t số c c y ê u c ầ u c h u n g n h sau: G i ả m d ữ liệ u c ầ n lư u t r ữ v tă n g tố c đ ộ c ù a t h u ậ t to n ( tín h to n trê n d ữ liệ u đ ó ) G i ả m b ộ t h u ộ c t í n h n h ầ m tiết k i ệ m k h ô n g s i a n lư u t r ữ T ă n g c n g h i ệ u q u ả t h u ậ t to n : n h ằ m th u đưọ'c t ỷ lộ d ự đ o n đ ủ n g ca o h n C ó k i ế n t h ứ c d liệu: th u đ ợ c tri t h ứ c v ê d ữ liệu t h ô n a q u a p h n g p h p b ó c t c h d ữ liệu đ ể có th ể tạ o r a h a y b i ê u d iễ n d liệu dễ d n g v ề c b ả n c h ú n g ta c ó th ể p h â n loại cá c p h n g p h p tríc h c h ọ n th e o c c h tiế p c ậ n k h c n h a u f i l t e r / w r a p p e r , đ ọ ’c t r ì n h b y k ỹ t r o n g c c tài liệu [1, 2], L ợ c đ t h ự c h i ệ n c ủ a h a i c c h tiếp c ậ n n y đ ợ c g i ả n lư ợ c h ó a t r o n g h ìn h vẽ d i F e a tu r e su b se t selection In p u t fe a tu r e s H ì n h 1: In d u c tio n A lg o r ith m H n g tiếp cận filter (các thuộc tính đưọc chọn độc lập với thuật toán khai phá d ữ liệu) [1] ] lY iitiin ẹ '•et 11.'iiums 'êĩ J peil'oniKUKV FlmIih e '•i-1 eslini.iliou F e a tu r e selection search r t M iU K ‘íỂl liuluctior A lg o rith i F e a t u r e evaluation ie.mueser !, Hypothesis i n d u c tio n A lg o 111Inn31 E s lim a le d Tfsi -el H ìn h 2: Acnir.ìcy H n g tiế p cậ n w p p e r (các thuộc tính c họn p h ụ thuộc theo nghĩa với thu ật tốn khai phá d ữ liệu) [1] ... thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g... x â y d ự n e tập h u ấ n lu y ệ n v p h n o p h áp k iê m tra 6.3 Mục tiêu Nội dung nghiên cứu 6.3.1 Phương pháp đề nghị 6.3.1.1 T ổn g quan v ề mô hình học Perform ance validation V a l i d... n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a