Thông tin tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI NGHIÊN CỬU PHƯƠNG PHÁP LỤA CHỌN CÁC THUỘC TÍNH ĐẶC TRƯNG NHẰM TÃNG CƯỜNG KHA n ă n g c h u ẩ n đ o n CỦA HỆ THỐNG CHUẮN ĐOÁN BỆNH UNG THƯ Mã số: QC 07.27 Chủ nhiệm đề tài: Nguyễn Hà Nam ẠI HỌC QUOC GIA HA NỌl ^ U N G TẨM T H Ò N G TIN THỰ VIEN J)r / Hà N ộ i - 0 m Muc luc ■ ■ i Giải thích c h ữ viết t ắ t ii D anh sách cán bô tham gia thưc hiên đề t i iii D anh m u c hỉnh v ẽ iv Danh m uc b ả n g số l i ê u V T ó m tắt k ết q u ả c h ính đề t i vi 5.1 Kết q uả v ề k h o a h o c vi 5.2 Kết q uà p h u c v u thưc t ế .vi 5.3 K et quà đ t a o vi 5.4 Kết n â n g cao tiềm lưc khoa h o c vi A b stra ct Báo cáo tổ n g k ế t 6.1 Đ ăt vấn đ ề 6.2 T ổ n g q uan vấn đề nghiên c ứ u i 6.2.1 Giới thiêu trích chon nơi d u n g ■> 6.2.2 T h u â t Toán di tru y ề n 6.2.3 T hu ât to án K P C A 6.2.4 T hu ât to án R F 6.3 Phưcm g p h áp đề n g h i 6.3.2 K e t q u ả v thảo l u â n 10 6.4 M u c tiêu v N ò i dun g nghiên c ứ u K et q u ả n g h iê n c ú n 11 6.4.1 C ác c ô n g bổ liên quan đến kết qu ả c ủ a đề t i 11 6.4.2 K et q u ả đ tao củ a đề tà i 11 6.5 K ết luân kiến n g h i 12 6.6 Tài liêu th a m k h ả o 13 Phụ lụ c ]4 i Giải thích chữ viết tắt CSDL PC A RF KPCA OOB ANN IDS KN N C sở d ữ liệu Principle C o m p o n en t A nalysis (kỹ thuật phân tích thành phần ban) R a n d o m F orest (Thuật tốn phân lóp d ự a C A R T ) Kernel P C A (P hương pháp nhân P C A) O u t o f bag (m ột kỹ thuật dùn g để giảin thiểu lỗi trinh học) M n g neu ron Intrusions D etection System (Hệ th ố n g phát xâm nhập trái phép) T h u ậ t toán K láng giênq gần Danh sách cán tham gia thực đề tài STT H o v tên N guyên H N am H ọ c h àm học vị TS T rịn h N h ậ t T iê n K h o a C ô n g n g h ệ t h ỏ n e tin , Đ H Công nghệ Đ H Q G H N (c h ủ n h iệ m đề tài) C q u a n c ô n g tác P G S T S K h o a C ô n g n g h ệ t h ô n g tin, Đ H Công nghệ Đ H Q G H N N guyên C âm Tú CN ( T h k ý đề tài) Lê H ồng Hải K h o a C ô n g n g h ệ t h ô n g tin Đ H C ôns nghệ Đ H Ọ G H N ThS K h o a C ô n g n g h ệ t h ô n g tin, Đ H C ône nghệ Đ H Q G H N D Phương H ạnh ThS " K h o a C ô n g n g h ẹ t h ô n e tin, Đ H Công nghệ Đ H Q G H N H H u y G iáp s v K48 K h o a C ô n g n g h ệ t h ô n s tin Đ H C ơna nehệ Đ H Q Ị H N " Danh mục hình vẽ e H ì n h 1: H n g ti ế p c ậ n f ilte r (c c t h u ộ c t ín h đ ợ c c h ọ n đ ộc lậ p với th u ậ t t o n k h a i p h d ữ liệu ) [ ] H ì n h 2: H n g t i ế p c ậ n w r a p p e r ( c c th u ộ c tín h đ ợ c c h ọ n p h ụ t h u ộ c th e o m ộ t n e h ĩ a n o đ ó v i t h u ậ t t o n k h a i p h d ữ iiệu ) [ ] H ì n h 3: B a c c h t i ế p c ậ n c b ả n c ủ a tríc h c h ọ n n ộ i d u n g P h ầ n tô m u x m c h o b i ế t c c t h n h p h ầ n m h n g tiếp c ậ n đ ó s d ụ n g để đ a k ết q u ả c u ố i c ù n g H ì n h 4: K i ế n tr ú c t ổ n g th ể c ủ a p h n g p h p đề n e h ị ( K P C A - R F ) v ói m ỏ h ì n h h ọ c đ ê t ì m h m n h â n tô t n h ấ t H ì n h 5: S o s n h k ế t q u ả đ o n n h ậ n g i ữ a c h ỉ sử đ ụ n g R F vớ i t h u ậ t to n đ ợ c cải ti ế n K P C A - R F t h ô n g q u a 50 lần t h ự c n g h i ệ m Đ n g đ ậ m t h ể h i ệ n k ế t q u ả c ủ a t h u ậ t to n c ủ a c h ú n g c ò n đ ò 'n g m ả n h thê h i ệ n k ế t q u c ủ a t h u ậ t to n R F 10 Danh mục òảna số liệu ■ B ả n g 1: W ■ S o s n h k ế t q u ả p h â n lớ p v ó i m ộ t số n g h i ê n c u t r c đ â v với p h n g p h p đ ề n g h ị trê n c ù n g b ộ d ữ l i ệ u V Tóm tắt kết đề tàỉ 5.1 Kết quà khoa học • Đ ã hoàn thàn h 01 báo cáo khoa học hội thảo quốc Ìa c ơn g n s h ệ th ô n g tin N h a Trang, 07/2007 5.2 Kết phục vụ thực tế C h ủ n g đ ã h o n t h n h c h n g t rìn h m p h ò n g th u ậ t to n p h â n lớ p d ự a írên tìm đ ặ c t r n g u c ủ a d ữ liệu đ ầ u v o t h ô n e q u a tố i u h m n h â n C c k ế t q u ả n g h i ê n c ứ u c ủ a đ ề tài c h o th ấ y , p h n g p h p c h ú n g đ ề n g h ị v cài đ ặt có k h ả n ă n g p h â n l p tố t h o n so v ới t h u ậ t t o n b a n đ ầu P h n g p h p n y c ó k h a n ă n g m r ộ n g k h ả n ă n g h ọ c b ằ n g c c h t h ê m cá c t h a m số h o ặ c ứ n g d ụ n g cho v iệ c p h â n l p cá c b ộ đ Hệu k h c m ộ t c c h d ễ d àn g 5.3 Kết đào tạo • Đ ã h n g dẫn tốt nghiệp 01 sinh viên đại học bảo vệ tháng 6/2007 đề tài trích chọn nội d u n g (xem bìa luận văn kèm theo) • Đ a n g h n g dẫn 01 sinh viên đại học đề tài trích chọn nội d u n a, dự kiến bâo vệ th án g 6/2008 5.4 Kết nâng cao tiềm lực khoa học N ghiên u th uật tốn trích chọn nội d u n g ú n g d ụ n g tro n g việc khai phá dũ' liệu lớn Đ ã h n g dẫn sinh v iên tổ chức sem in ar khoa học kỹ thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g th ô n g tin VI Abstract T h i s p a p e r p r o p o s e d a c o m b i n a t i o n o f k e r n e l f u n c ti o n s K e r n e l PrincÌDỈe C o m p o n e n t A n a l y s i s a n d its le a r n in g m e t h o d w h i c h is h e lp to n o t o n l y t r a n s f o r m th e input space classific atio n to a low er perform ance dim en sio n featu re W e d e f in e d th e soace co m b in ed but also kernel in c re a s e f u n c ti o n the as the w e i g h t e d s u m o f a s e t o f d i f f e r e n c e t y p e s o f b a s is k e r n e l fu n c tio n consisting, o f p o l y n o m i a l , g a u s i a n a n d n e u r a l k e r n e l s , w h i c h is tr a i n e d b v a n o v e l le a r n in g m e t h o d b a s e d o n g e n e t i c a l g o r i t h m T h e w e i g h t s o f b a s i s k e r n e l f u n c ti o n s in th e c o m b i n e d k e r n e l a r e d e t e r m i n e d in l e a r n i n g p h a s e a n d u s e d as t h e p a r a m e t e r s in th e d e c i s i o n m o d e l in t h e c l a s s i f i c a t io n p h a s e T h e u n i f i e d k e r n e l a n d th e le a r n in g m e t h o d w e r e a p p l i e d t o o b t a i n th e o p t i m a l d e c i s i o n m o d e l fo r th e c l a s s i f i c a t io n o f a p u b l i c d a t a s e t f o r d i a g n o s i s o f c a n c e r d i s e a s e s T h e e x p e r i m e n t s h o w e d fast c o n v e r g e n c e in l e a r n i n g p h a s e a n d r e s u lt e d in th e o p t i m a l d e c is i o n m o d e l w i t h the b e t t e r p e r f o r m a n c e t h a n o t h e r k e r n e ls T h e r e f o r e , th e p r o p o s e d k e r n e l f u n c ti o n h a s the g r e a t e r f l e x i b i l i t y in r e p r e s e n t i n g a p r o b l e m s p a c e t h a n o th e r k e r n e l fu n c tio n s Báo cáo tổng kết 6.1 Đặt vấn đề T r o n g lĩn h v ự c n g h i ê n c ứ u v ề k h a i p h d ữ liệ u n ói c h u n e c ũ n s n h t r o n s n g h i ê n c ứ u v ề c c t h u ậ t t o n p h â n ló p nói riê n g , v ấ n đề x lý d ữ liệ u lớ n n s ỵ c n g t r t h n h v a n đ ề c ấ p th iế t v đ ó n g vai t r ò c h ủ đ o tr o n g v iệ c s iả i q u y ế t b ài t o n t h ự c tế P h ầ n l n t h u ậ t t o n p h â n ló p đ ã p h t t r i ể n chi cỏ th ể eiải q u y ế t đ ợ c v i m ộ t l ợ n g sổ liệu g i i h n c ũ n g n h với m ộ t đ ộ p h ứ c tạ p d ữ liệu b iế t t r c T r o n g k h i đ ó l ợ n g d ữ liệ u m c h ủ n g ta th u th ậ p đ ợ c n a y c n a trờ n ê n p h o n g p h ú v đ a d n g n h c c s ự p h t tr iể n m n h m ẽ c ủ a k h o a h ọ c k ỹ th u ật M ặ c d ù r ấ t n h i ề u t h u ậ t t o n p h â n lớ p d ự a trê n n h i ề u n ề n t ả n g lý t h u y ế t k h c n h a u đ ã đ ợ c p h t tr iể n v ú n g d ụ n g t rấ t lâu, n h n g t h ự c tế c h o t h ấ y k ết q u a p h ụ t h u ộ c rấ t n h i ề u v o đ ặ c tín h d ữ liệu c ũ n g n h k h ả n ă n g x ỉý d ữ liệu t h ô c ủ a từ n g n h ó m n g h i ê n c ú n M ộ t đ i ề u h i ể n n h i ê n v i m ỗ i p h n g p h p có th ê đ p ứ n s x lý tố t tr ê n m ộ t v i d ữ liệ u v ứ n g d ụ n e c ụ th ể n o N g y n a y với trợ g i ú p c ủ a c c h ệ t h ố n g t ự đ ộ n g h ó a v h ệ t h ố n g t r ợ e i ú p c n g n e y c n g tin h vi h n , k h ố i l ợ n g d ữ liệ u c ầ n p h ả i x lý t ă n g v i m ộ t tốc đ ộ c h ó n g m ặ t N g i ta c đ o n r ằ n g l ợ n g t h ô n g tin t r ê n t o n c ầ u t ă n g e ẩ p đôi sau k h o ả n g hai n ă m t h e o đ ó s ổ l ợ n g c ũ n g n h kíclì c ỡ c ủ a cá c c s d ữ liệu ( C S D L ) c ũ n a tă n g lên m ột cách nhanh chóng T r o n g k h a i p h d ữ liệ u th ì p h o n g p h p tríc h c h ọ n đ ó n g m ộ t vai trò q u a n t r ọ n g đ ể t r í c h c h ọ n v c h u ẩ n bị d ữ liệu H n g tiê p c ậ n n y m lă n g h iệ u n ă n g th u n h ậ n tri t h ứ c t r o n g c c n g n h n h tin sinh, x lý d ữ liệu w e b , x lý t i ê n g nói h ìn h ả n h v i đ ặ c t í n h c ó r ấ t n h i ề u t h u ộ c t í c h (vài t r ă m c h o đ ế n v ài t r ă m n g n t h u ộ c t í n h ) n h n g t h n g c h ỉ c ó m ộ t số l ợ n g t n g đố i n h ỏ cá c m ẫ u d ù n g để h u ấ n l u y ệ n ( t h n g v i t ră m ) P h n g p h p tr íc h c h ọ n s ẽ g iú p g i ả m k í c h c ỡ củ a k h ô n g g i a n d ữ liệu, lo i b ỏ n h ũ n g t h u ộ c t í n h k h ô n g liê n q u a n v n h ữ n g th u ộ c tín h n h iễ u P h n g p h p n y c ó ả n h h n g n g a y lậ p tứ c đ ê n cá c ứ n g d ụ n g n h tă n g lôc đ ộ c ủ a t h u ậ t t o n k h a i p h d ữ liệu, cải t h i ệ n c h ấ t l ợ n g d ữ liệu v v ậ y tă n g h iệ u s u ấ t k h a i p h d ữ liệ u , k i ể m s o t đ ợ c k ế t q u ả c ù a t h u ậ t to án P h n g p h p đ ợ c g iớ i t h i ệ u t n h ữ n g n ă m t r o n g cá c tài liệu v ê x c s u â t t h ô n g kê h ọ c m y v k h a i p h d ữ l i ệ u [1-7 ] P r i n c i p a l C o m p o n e n t A n a l y s i s ( P C A ) [4] m ộ t p h n g p h p k h n ô i tiế n g h i ê u q u ả t r o n g q u t r ì n h l m g i ả m số th u ộ c t í n h c ủ a tậ p d liệ u đ â u v o G â n đ ây p h n g p h p h m n h â n đ ã đ ợ c p d ụ n g đ ể c ó th ể ứ n g d ụ n g P C A v o giải q u y ế t c c b ài t o n ph i t u y ế n tín h P h n g p h p n y đ ã đ ợ c S c h o l k h o f v đ ô n g n g h i ệ p c ủ a ô n g đ a v i tê n g ọ i K P C A [9] T r o n g đê tài n y c h ú n g tỏi trìn h bàv m ộ t ti ế p c ậ n m i d ự a t r ê n h m n h â n đ ể có th ể c h ọ n n h ữ n g th u ộ c t ín h tó t n h ấ t đẻ t ă n g k h ả n ă n g p h â n ló p c ù a t h u ậ t to n R a n d o m F o r e s t ( R F ) T r o n g p h n g p h p đ ề n g h ị c h ú n g tô i s d ụ n g g iải t h u ậ t di t r u y ề n đ ể t ìm h m n h â n tố i u c h o việc tìm r a c c h c h u y ể n đ ổ i p h i t u y ế n tố t n h ấ t n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a o s m h p h â n ỉà x â y d ự n g c c t h u ộ c t í n h v l ự a c h ọ n t h u ộ c tín h đ ặc trư n g X â y d ự n e b ộ cá c th u ộ c tín h m ộ t c ô n g v i ệ c rấ t q u a n tr ọ n g tr o n g v iệ c x lý số liệu K h i x â v d ự n a d ữ liệu c h ú n g ta c ầ n p h ả i đ ả m b ả o k h ô n g đê m ấ t n h i ề u t h ô n g tin q u c ũ n g n h k h ô n q u tố n k é m v ề m ặ t c h i p h í P h ầ n t h ứ hai, c h ủ đề c h ín h c ủ a đ ề tài n y có m ụ c tiêu tìm n h ữ n g t h u ộ c t í n h đ i d i ệ n c h o đối t ợ n loại b ò nhừ na, t h u ộ c t ín h th a g â y n h i ễ u n h ằ m t ă n g h i ệ u s u ấ t c ủ a c c th u ậ t to n k h p h d ữ liệu C ó n h iề u p h n g p h p c ũ n g n h h n g tiế p c ậ n k h c n h a u b a o g m p h n g p h p k in h đ iể n [1-3] v i b ộ d ữ liệ u t n g đ ố i n h ỏ v h n g tiế p c ậ n h i ệ n đại [5-7], T u y v ậ y c h ú n g đ ề u có m ộ t số c c y ê u c ầ u c h u n g n h sau: G i ả m d ữ liệ u c ầ n lư u t r ữ v tă n g tố c đ ộ c ù a t h u ậ t to n ( tín h to n trê n d ữ liệ u đ ó ) G i ả m b ộ t h u ộ c t í n h n h ầ m tiết k i ệ m k h ô n g s i a n lư u t r ữ T ă n g c n g h i ệ u q u ả t h u ậ t to n : n h ằ m th u đưọ'c t ỷ lộ d ự đ o n đ ủ n g ca o h n C ó k i ế n t h ứ c d liệu: th u đ ợ c tri t h ứ c v ê d ữ liệu t h ô n a q u a p h n g p h p b ó c t c h d ữ liệu đ ể có th ể tạ o r a h a y b i ê u d iễ n d liệu dễ d n g v ề c b ả n c h ú n g ta c ó th ể p h â n loại cá c p h n g p h p tríc h c h ọ n th e o c c h tiế p c ậ n k h c n h a u f i l t e r / w r a p p e r , đ ọ ’c t r ì n h b y k ỹ t r o n g c c tài liệu [1, 2], L ợ c đ t h ự c h i ệ n c ủ a h a i c c h tiếp c ậ n n y đ ợ c g i ả n lư ợ c h ó a t r o n g h ìn h vẽ d i F e a tu r e su b se t selection In p u t fe a tu r e s H ì n h 1: In d u c tio n A lg o r ith m H n g tiếp cận filter (các thuộc tính đưọc chọn độc lập với thuật toán khai phá d ữ liệu) [1] ] lY iitiin ẹ '•et 11.'iiums 'êĩ J peil'oniKUKV FlmIih e '•i-1 eslini.iliou F e a tu r e selection search r t M iU K ‘íỂl liuluctior A lg o rith i F e a t u r e evaluation ie.mueser !, Hypothesis i n d u c tio n A lg o 111Inn31 E s lim a le d Tfsi -el H ìn h 2: Acnir.ìcy H n g tiế p cậ n w p p e r (các thuộc tính c họn p h ụ thuộc theo nghĩa với thu ật tốn khai phá d ữ liệu) [1] ĐẠI H Ọ C Q UÓ C GIA HÀ NỘI T R Ữ Ờ N G ĐẠI HỌC CÔ NG NGHỆ Hà Huy Giáp T Ì M H IẺ U VÀ ÁP DỤNG P H Ư Ơ N G PH ÁP TRÍCH C H Ọ N Đ É CẢI T H IẸN HIỆU Q U Ả CUA T H U Ậ T T O Á N KNN KH O Á LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin C n b ộ h n g dẫn: T S N g u y ễ n H N a m HÀ NỘI - 2007 ĐẠI H Ọ C Q U Ố C G I A H A NỘI TRƯ Ờ NG Đ Ạ ÍH Ọ C CƠNG NGHỆ ĐÊ CƯƠNG ĐẺ TÀI NGHIÊN CỨU KHOA HỌC DO TRƯỜNG QUẢN LÝ CÁP ĐẠÌ HỌC QUỐC GIA HÀ NỘI NĂM 2007 T ê n đề tài T iế n g V iệt: N g h iê n u p h n g p h p lựa chọn ihuộc tính đục tr im s nhỏm tcínỵ c trừng k h a n â n g chuáii đ o n CHCI hệ th ố n g C ìm ân đốn bệnh ung thư T iế n g A nh: F e a tu re S electio n app roach for im p ro v in g p erfo rm ances o f C ancer D iagnosis sy stem T h ò i gian tliực 12 t h n g (từ 2/2007 đến 02/2008) Đ ề tài t h u ộ c lĩnh v ụ t uii tiên C ốỉig nghệ th ô n ° tin Đ e tài có t r ù n g vó i m ột đ ề tài h o ặc đ a n g tiến hành k hơng? Đ ề tài m ó i C h ủ trì đề tài - H ọ vù lên: N iỊìiy ễn - N ă m sin h : ỉ 976 - C h u y ê n m ô n đ ả o tạo: Tin học - H ọ c hàm , h ọ c vị: Tiến s ỹ - C h ứ c vụ: G ia n g viên - Đ o n 17 cóncr tác: H N a m N úin , n ữ Bộ m ôn C ác hệ th ố n g th õ n g tin, K h o a Công nghệ Thõng !!!!, T rư n g Đ i h ọ c C ông ng h ệ _ Đ ịa cìn liên hệ: N h E3, ì 44 Đ n g X u â n Tìiĩiỵ, c ầ y Giấy H a nộị Sô đ iệ n th o i: Th i ỊỊÌan 03/2004 03/2005 - 7 Tên đề tài/cơng trình T cách tham gia C o m b in e d K e rnel F u n ctio n for S u p p o rt V e c to r M a c h in e and L e a r n in g M e th o d B ased on Thành viẽn E v o lu tio n a r y A lg o rith m Fax -1 , ; c p quán lý noi COI)" ho ] ] th on International Neural Processing ( o n ícrence !n Ibnrtii'.ion 03/2005 12/2005 - 03/2005 12/2006 - An O p tim iz e d Intrusion D e te ctio n S ystem U s in g P C A and B N N O p tim iz in g W eighted K ernel F u n ctio n for S u p p o rt V e cto r M a c h in e b y G enetic A lg o rith m Thành viên 6th A sia-Paeilic S\Tnposium on Information & Tel ecom Tech ICT park Y angon M y a n m a r Thành viên Fifth M exi ca n Ini emati oni ] C onference on Artihcu-.] Intel] i oen ce C q u a n p hối h ợ p cá c c ộ n g tác viên chí nh đề íài TT C quan phối họp K h o a C N T T Đại học C ô n nghệ * C ác c ộ n g tác viên TT C quail phối h ọ p Cộ ng tác viên Khoa CNTT Ho tên N guyên Ha Nam Khoa CNTT Trinh N hât Tiên Khoa CNTT Hà Q u a n g T h ụ y N g u y ê n T uệ N g u y ê n Hai Châu Khoa CNTT Khoa CNTT Khoa CNTT Khoa CNTT N guyên N aọc Hóa D P b n Hạnh Chuyên no nil TS P G S T S PG S.TS TS TS TS ThS C N TT C N TT CNTT CN TT CN TT C N TT C N TT ] M ụ c tiêu N ° h i ê n u th u ật toán tỉm đặc t r ù n ? cua tập liệu, nhăm tãnu cườn g hiệu qua c u a cá c th u ậ t to n p h â n lóp X â y d ụ n g c h n g trình m p h o n g nhăm giai quyêt mục tiêu đẻ T ó m tắt nội d u n g nghi ên cửu củ a đề tài T r o n ° l ĩ n h v ự c n g h i ê n c ứ u v ề k h a i p h đ ữ l i ệ u nói c h u n g c ù n g n h t r o n g n g h i ê n cu LI \ :c c t h u ậ t t o n p h â n l ó p n ó i r i ê n g , v ấ n đ ề x l ý d ữ l iệ u l n n g y c a n g t r t h n h v ã n đ ẽ c p t h i ế t v đ ó n ° v a i t r ò c h u đ o t r o n g v i ệ c g iả i q u y ế t c c bà i t o n t h ự c tẻ P h â n l o n c c t h u ậ t to án p h â n ló p đà p hát triển chì có th ể giai đ ợ c với lượng số liệu giới han nhu với n iô t độ p h ứ c tạp d liệu biết trước T ro n g lư ợng liệu m chung la thu thập n y càn ° trỏ n ê n p h o n g phú v đa d n g n h phát tn ẽ n m ạnh m è cua klioa hoc !;■ th u ậ t M ặc dù n hiều thuật toán p hân lóp dựa nhieu nen tang 1} tluiyẹl khac da đ ợ c p h át triển v im tí d ụ n g từ lâu, n ln m g thực lê cho thảy két qua plui thuộc rát nhiêu vào đ c l í n h d ữ l ie u Cl ing n h k h a n ă n g x ly d ù l i ệ u t h ô c u a t n g n h o m n g h i ê n CÍỊU M ộ t d i ê u h i ê n n h i ê n v i m ỗ i p h n g p h p c h i c ó t h ê đ p ứ n g v ả x iy tỏt trcn m ọ t VÍU d u l i eu \ a irn^ d ụ n o cụ thể n Với n h ữ n g lĩnh vực nghiên cửu đòi hoi \Ư l> mọt ì ượng dù licu lơn c h u a ro đ ặc trim g h o ặc k ho p h át đặc tru n g doi hoi cac nha n g h i ó i cini phai tim toi p h t triển h o ặ c áp d ụ n g thuật tốn thích họp H iệ n n a y co rẩl nhiều h n g cài tiến thuật toán phân lớp nlnr ap ciụnL’ cac thuat toan lai g h é p ( e n s e m b le m e th o d ), thuật toán d ự a vào p h n g pháp nhãn í kernel-based m e th o d ), h o ặ c áp d ụ n g p h n g p h p trích chọn đặc trim s (feature ext raction selection m e th o d ) T r o n g p h n g p h p k ê p h n g pháp trích chọn đặc trưng có mỘ! sô im đ iể m p h ù h ọ p tro n g việc x lý d ữ liệu ung thư T h ứ p h o n a pháp n ày s i ’j p ^iam 50 l ợ n g th u ộ c tính c ủ a d ữ liệu, điêu n y giúp giảm Thời gian tính lốn cua thuật toan phân ló p T h ứ hai, p h n g p h p trích ch ọ n đặc tru n g giúp tim thuộc tinh đặc tr n í cho í n g loại b ệ n h , đặc tín h n y có ích tron g việc xây dim e phác đồ điều trị bệnh nhân Thử b a , n ó g i ú p loại b o c c t h u ộ c t í n h t h a v n h ữ n g t h u ộ c t í n h s â y n h i ễ u c ó a n h h i r on q u ch u â n đoán T n h ữ n g đặc êm trên, đê tài nh ằm si 01.1 vết vẩn đề N g h iê n u tô n g q u a n hệ th ố n g chuấn đoán bệnh ung thu - đôn kế t sau: N g h iê n c ứ u c c t h u ậ t t o n t r í c h c h ọ n đ ặ c t r u n g v c c t h u ậ t t o n p h â n l ó p t iron ỉ n g từ đưa p h n g án giải q uyết phù họp X â y d ụ n g c h n g trình m p h ỏ n g kiêm c h ứ n o p h n g p h p d đ ề C c c h u y ê n đề n g hi ên c ứ u d ự kiến eủ n đ ề tài Nội d u n g N g h iê n cử u c ban C h u y ê n đề C h u ân doán bệnh ung th dựa phân tích liệu ap dụnu p h n g pháp m y học G ia i p h p c ó n g lĩglỉệ ứ n g d ụ n g tro n a việc chuân đoán bệnh Line thư tim dặc ứ n g (lụ n g t rư n g cua từriíí loại bệnh ung th Ư n g d ụ n g việc dự đoán bệnh áp d ụ n e plurơnự p h p điều trị thích họp với tưng loại bệnh C ấ u t r ú c dụ' kiến b áo cáo kết q u ả đề tài • P h ầ n m đau G iới th iệu m ụ c tiêu, nội d u n e nghiên cứu đề tài sơ lược vê trình thực đẽ tai k ết qua « C h n g ỉ : T ô n g q u a n vấn đề phân loại liệu C h n g n y c u n g cấp th ô n g tin khái niệm vẻ p h n g pháp dung p hân loại d ữ liệu , • C h u n ° 2: P h n g pháp lựa chọn đặc tru n g nhăm cai tiên két qua phân loại dù liệu T rìn h b y giải th u ậ t đại nh ăm tìm đặc trưng quan trọng cua dù heư • C -huơng 3: n g dụng: X â y d ự n ° c h n g trình th n g h iệ m nhăm cluiân đoán bệnh nhân ung thư • C h n g 4: Đ n h Íá kẽt luận Đ n h e i c h u n g v ề đ ề tà i , đ a r a n h ữ n g k ê t l u ậ n cụ t h ê c ũ n g n h n h ữ n g l i u i ì g n g h i ê n Oil'Ll 11 T í n h đ a n g n h v liên n g n h đ ề tài -Đ ề tài n y bao h àm n h iều c h u y ê n ngành c h u y ê n n g n h c h ín h đ ợ c liệt kê d ưới đây: • H ọ c m y ( M a c h in e L e a rn in g ) • K h a i pliá d ữ liệu (D a ta m in in g ) khác cõng nghe ihõnỊỊ tin Nhinvj • Phương pháp xác suất Thơng k è (Statistical met h od ) - T ín h đ a/liên ngành s ệ đ ợ c h iện qua việc tích hợp tri thức từ chuyên neảr.h tr-n giai q u y ế t n h ũ n g vấn đề tro n g k h u ô n khô đề tài 12 P h u o n g p h p luận p h n g p h áp k h o a học sử d ụ ng trono clề tài T n u thạp va n g n ie n cư u nọi đ u n g k h o a hoc từ Internet va tu n h ũ n CO' quan đỏi tac tro n g lĩnh vự c ch u â n đ oán b ệ n h u n thư K et hợp n g hiên círu c n g n ghệ lý thuyết T ô c h ú c s e m i n a r , t h a m g i a c c hội n g h ị , h ộ i t h a o l iê n q u a n đ ế n l ĩ n h v ụ c k h a i p h dù' liệu, Trí tuệ n hân tạo v Tin sinh học 13 S d ụ n g n h ũ n g t r a n g thi ết bị Bộ môn, Khoa C ác thiết bị h iện có m ô n Các hệ tbỏny th ône tin, K hoa C X T T : • M y tính cá n hân C ác thiết bị c ủ a p h ò n g m ụ c tiêu Các hệ tích họp th ịna minh : • M y chu, m v tính cá nhân, m y in, 14 K h ả n ă n g h ọ p tác q u ố c tế - H ợ p tác đ ã /đ a n g có: - H ọ p tác có: 15 C c h o t đ ộ n g n g hi ên u đê tài N g h iê n c ứ u lý th u y êt Đ iề u tra kh ảo sát B iên s o n tài l i ệ u V iết b o cáo k h o a học Hộ] thao k h o a học T ậ p huấn H o t đ ộ n g k hác C h y thử, k iểm n g hiệm 16 K ế t q u ả dụ kiến - - K ế t q u a KỈÌOCI h ọ c M ộ t báo cáo tổ n g h ọ p v ề kết qua nghiên c u c u a đẽ ùỉi M ộ t báo cáo b ỉ b o hội n e h ị / h ộ i th ảo khoa hoc quôc gia co liên quan va ung dung 16.2 K ế t q u a ứ n g d ụ n g C h n g trình m ò p h o n g th u ậ t toán p hân lớp dưa tim đác trưng ti uu cua liữ liệu đầu vào K ế t q u a đ o lụ o H n g dẫn m ộ t luận vãn đại học 16.4 K ế t q u ráng c n g tiềm Ị ực ch o đon vị K et q u b i d ỡ n g c n b ộ : - • K-êt q u c h í n h c ủ a đề tài chù yếu p h ụ c vụ m ụ c đích t ă n cưỏ-nỉ kha l ũ n " n g h i ê n c ứ u k h o a h ọ c c ù a c c s i n h v i ê n , n g h i ê n c ứ u s i n h c a n b ộ i r o n s b ụ m ô n C c h ệ t h ố n g t h ô n g tin * X â y đ ự n g m ộ t n h ó m n g hiên cún ứng dụn ỵ m y học vào kha; phá dù liệu - Đ ó n g gó p cho việc t ăng c ò n g t ran g thiết bị: 17 T o n g kinh p hí đề nghị H a i m i tám triệu đồng - 28.000.000 VND 18 N Ộ I D U N G V À T I É N Đ ộ T H Ụ C H I Ệ N C Ủ A ĐẼ TÀI ( C Á C C Ò N G V I Ệ C CẢN T R I Ề N KHAI, T H Ờ I H Ạ N T H ự c H IỆN VÀ SẢN PH ÃM Đ Ạ T ĐƯỢ C) T h ò i g ian t h ự c TT Ho t đ ộ n g n gh iê n cứu T hu thập v viêt tô n g q uan tài liệu ? N g h iê n cứu ban N g h iê n cứu đặc trư n g q uan trọ n g T tháng Đèn thán li 02/2007 04/2007 04,20 07 06 2007 06/2006 OS 2006 Snn phâm k hua họ c Bao c a0 tơ n '2 quan tìm đặc trư n g tro n g T in sinh học N g h iê n cứu kỹ th u ật phân loại liệu o r-o r1 co o io o Bảo cao chu vén dê N e h iê n cử u kỹ th u â t trích chon đăc trư n g p h ù h ọ p với liệu u n g thư Đ ề xu ất tíiài thuật tìm đặc trư ng tư ơn g úrm giúp n â n g cao h iệu q uà p h ân loại liệu U11ÍỊ th H ộ i t h o g i ữa kỳ 09/2007 09/2007 09 0 " 12 0 “ V iết b áo cáo c h u y ê n đê - C h u y ê n đề giai thuật trích chọn đặc t n r n g quan trọ n g từ d ữ liệu u ng thư - C h u y ê n đề giải thu ật ph ân lap t n g ứ n g sau áp d ụ n g p hư ng pháp trích chọn đặc trung Bao cao chuvẽn lỉc Ị X â y d ụ n g ứ n g d ụ n g th n g h iệ m 10/2007 02/2008 Phân m èm th’j nghiệm Đ n h g iá kết qu 01/2008 02 /2 00 s V iết báo cáo tố n g h ựp 02/2008 /2 0 s Báo cáo đanh s i Bảo cáo l ò n kết tài H ội Iháo lần cuối 03/2008 03 /20 OS N ộ p sản p h ấ m 04/2008 '2 00 s Tài liệu hội thao Các bao bá0 cáo phần mềm N g h iệ m thu đề tài 04/2008 04,2008 Kẻt qua nehiệm ihu đẻ tài 19 P H Â N B Õ K I N H P H Í TT Nội d u n g X â y d ụ n g đề c n g chi tiết T h u th ập viết tổ n g quan tài liệu K in h p h í ( V \ D ) 1.000.000 If) 0 T h u thập tư liệu {mua, thuê) D ịc h tài liệu th am k h a o (số t r a n g X g iá ) ị ì 500.000 V iết tơ n g quan tư liệu Đ iề u tra, k h o sát, thí n g h iệ m , thu thập sổ liệu, nghiên c ứ u 10.000.000 C hí phí tàu xe, c n g tác phí 6.000.1 'I/O Chi phí th u ê m n Chi phí hoạt đ ộ n g ch u y ê n m ô n T h u ê, m u a sắm tra n g thiết bị, n g u y ên vật liệu J 4.000.000 ° T h u ê tra n g thiết bị (1 M u a tra n g thiết bị M M u a n g u y ê n vật liệu, cây, V iết b o cá o k h o a học, n g h iệ m thu V iết b o cá o H ội th ảo 2.QÍlO íịiỴi i O'jO.fjijO r, N g h i ệ m thu 1.000.ÚÚ0 ' Chi khác '0 ‘V m 1M l í I ' l l M u a văn p h ò n g p h ẩm In ấn, p h o to c o p y Ị 1)00 - II1 Q u a n lý phí 1.000 uuO T o n g kình p h í 18.000.000 T n g k ín h phí: M i tám triệu đỏ ng TÀI LIỆU T H A M KHẢO K o v i R and John, G H : W r a p p e r s for Feature Subset Selection Artificial Intelligence (1 9 ) pages: -3 B l u m , A L an d Lan gl ey, p.: S el ect ion o f Relevant Features and Exampl es in Machine L ea rn in g , A rtificial Intelligence ( ] 997) pages: 245-27] B r e i m a n , L.: R a n d o m forest, M a c h i n e Learni ng, vol 45 (2001) pages: 5- 32 T o r k k o l a K V e n k a t e s a n , s , Hua n Liu: Sensor selection for m a ne uv e r classification P ro c e e d i n g s T h e 7th Int er nat ion al I E E E Con fer ence on Intelligent Transportation s>slums (2 0 ) P a g e ( s ):6 - 641 Y im in W u A i d o n s Z h a n a : F e a tu re selection for classifying high-dim ensional numerical d a t a P r o c e e d i n g s o f the 0 I E E E C o m p u t e r Society Confer ence on Co mp u te r Vision and P a t t e r n R e c o g n i t i o n , v o l ( 0 ) P a g e s : - D u d a R o Hart, p E., Stork D G.: Pattern Classification (2nd Edition) John Wiley ^ S o n s Inc (20 01) B rei mai l, L „ F r i e d m a n , J H „ Ol shen, R A Stone, c -I.: Classification and Regression T re es, C h a p m a n an d Hall, N e w \ ork (1984) G o l u b , T R S lo ni m, D K., T a m a y o , p., Huard c , Ga as enbeek J p Mesirov J C o i l - H , L o h M L D o w n i n g , J.R., Cal i ei ur i, M A Bloomfield, c D : and Lander E.: Molecular C la ss i f i c a t i o n o f Cancer: Cl as s D i s c o v e r y and Class Prediction by Gene Expression M o n i t o r i n g " S c i e n c e , vol 28 (1 9 ) pages: - _ F r o h l i c h H C hap el l e, o , and Sch ol ko pf B.: Feat ure Selection tor S upp o' t Vector M a c h i n e s b y M e a n s o f G e n et ic Al g o ri t h m s 15th IEEE International Confer ence on Tools w i t h A r t i f i c i a l I n t e l l i g e n c e ( 0 ) p a g e s : 142 N g y t h n g 04 n ă m 07 Ng a y C h ú trì đ ê tủ, Clui nhiẻm khoa CN U - Ẩ Ò tfr ftk - r ? ưf j ' * /5^ ; ’ T / L H ỈỆ U TP.ƯOr-O / b ! K'j^ivG Ịt Í © a i h o c \ \ ?:■'! Đ Ậ Q I AO ?- ;T ỵ / •> t> c TC " P G S T S T r ịn h NTiật l ũ i T R U Ở t :c- p h ị ’ -0 í t háng 04 nãni 2
Ngày đăng: 26/09/2020, 22:39
Xem thêm: Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư. Đề tài NCKH QC.07.27