Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư. Đề tài NCKH QC.07.27

45 33 0
Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư. Đề tài NCKH QC.07.27

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI NGHIÊN CỬU PHƯƠNG PHÁP LỤA CHỌN CÁC THUỘC TÍNH ĐẶC TRƯNG NHẰM TÃNG CƯỜNG KHA n ă n g c h u ẩ n đ o n CỦA HỆ THỐNG CHUẮN ĐOÁN BỆNH UNG THƯ Mã số: QC 07.27 Chủ nhiệm đề tài: Nguyễn Hà Nam ẠI HỌC QUOC GIA HA NỌl ^ U N G TẨM T H Ò N G TIN THỰ VIEN J)r / Hà N ộ i - 0 m Muc luc ■ ■ i Giải thích c h ữ viết t ắ t ii D anh sách cán bô tham gia thưc hiên đề t i iii D anh m u c hỉnh v ẽ iv Danh m uc b ả n g số l i ê u V T ó m tắt k ết q u ả c h ính đề t i vi 5.1 Kết q uả v ề k h o a h o c vi 5.2 Kết q uà p h u c v u thưc t ế .vi 5.3 K et quà đ t a o vi 5.4 Kết n â n g cao tiềm lưc khoa h o c vi A b stra ct Báo cáo tổ n g k ế t 6.1 Đ ăt vấn đ ề 6.2 T ổ n g q uan vấn đề nghiên c ứ u i 6.2.1 Giới thiêu trích chon nơi d u n g ■> 6.2.2 T h u â t Toán di tru y ề n 6.2.3 T hu ât to án K P C A 6.2.4 T hu ât to án R F 6.3 Phưcm g p h áp đề n g h i 6.3.2 K e t q u ả v thảo l u â n 10 6.4 M u c tiêu v N ò i dun g nghiên c ứ u K et q u ả n g h iê n c ú n 11 6.4.1 C ác c ô n g bổ liên quan đến kết qu ả c ủ a đề t i 11 6.4.2 K et q u ả đ tao củ a đề tà i 11 6.5 K ết luân kiến n g h i 12 6.6 Tài liêu th a m k h ả o 13 Phụ lụ c ]4 i Giải thích chữ viết tắt CSDL PC A RF KPCA OOB ANN IDS KN N C sở d ữ liệu Principle C o m p o n en t A nalysis (kỹ thuật phân tích thành phần ban) R a n d o m F orest (Thuật tốn phân lóp d ự a C A R T ) Kernel P C A (P hương pháp nhân P C A) O u t o f bag (m ột kỹ thuật dùn g để giảin thiểu lỗi trinh học) M n g neu ron Intrusions D etection System (Hệ th ố n g phát xâm nhập trái phép) T h u ậ t toán K láng giênq gần Danh sách cán tham gia thực đề tài STT H o v tên N guyên H N am H ọ c h àm học vị TS T rịn h N h ậ t T iê n K h o a C ô n g n g h ệ t h ỏ n e tin , Đ H Công nghệ Đ H Q G H N (c h ủ n h iệ m đề tài) C q u a n c ô n g tác P G S T S K h o a C ô n g n g h ệ t h ô n g tin, Đ H Công nghệ Đ H Q G H N N guyên C âm Tú CN ( T h k ý đề tài) Lê H ồng Hải K h o a C ô n g n g h ệ t h ô n g tin Đ H C ôns nghệ Đ H Ọ G H N ThS K h o a C ô n g n g h ệ t h ô n g tin, Đ H C ône nghệ Đ H Q G H N D Phương H ạnh ThS " K h o a C ô n g n g h ẹ t h ô n e tin, Đ H Công nghệ Đ H Q G H N H H u y G iáp s v K48 K h o a C ô n g n g h ệ t h ô n s tin Đ H C ơna nehệ Đ H Q Ị H N " Danh mục hình vẽ e H ì n h 1: H n g ti ế p c ậ n f ilte r (c c t h u ộ c t ín h đ ợ c c h ọ n đ ộc lậ p với th u ậ t t o n k h a i p h d ữ liệu ) [ ] H ì n h 2: H n g t i ế p c ậ n w r a p p e r ( c c th u ộ c tín h đ ợ c c h ọ n p h ụ t h u ộ c th e o m ộ t n e h ĩ a n o đ ó v i t h u ậ t t o n k h a i p h d ữ iiệu ) [ ] H ì n h 3: B a c c h t i ế p c ậ n c b ả n c ủ a tríc h c h ọ n n ộ i d u n g P h ầ n tô m u x m c h o b i ế t c c t h n h p h ầ n m h n g tiếp c ậ n đ ó s d ụ n g để đ a k ết q u ả c u ố i c ù n g H ì n h 4: K i ế n tr ú c t ổ n g th ể c ủ a p h n g p h p đề n e h ị ( K P C A - R F ) v ói m ỏ h ì n h h ọ c đ ê t ì m h m n h â n tô t n h ấ t H ì n h 5: S o s n h k ế t q u ả đ o n n h ậ n g i ữ a c h ỉ sử đ ụ n g R F vớ i t h u ậ t to n đ ợ c cải ti ế n K P C A - R F t h ô n g q u a 50 lần t h ự c n g h i ệ m Đ n g đ ậ m t h ể h i ệ n k ế t q u ả c ủ a t h u ậ t to n c ủ a c h ú n g c ò n đ ò 'n g m ả n h thê h i ệ n k ế t q u c ủ a t h u ậ t to n R F 10 Danh mục òảna số liệu ■ B ả n g 1: W ■ S o s n h k ế t q u ả p h â n lớ p v ó i m ộ t số n g h i ê n c u t r c đ â v với p h n g p h p đ ề n g h ị trê n c ù n g b ộ d ữ l i ệ u V Tóm tắt kết đề tàỉ 5.1 Kết quà khoa học • Đ ã hoàn thàn h 01 báo cáo khoa học hội thảo quốc Ìa c ơn g n s h ệ th ô n g tin N h a Trang, 07/2007 5.2 Kết phục vụ thực tế C h ủ n g đ ã h o n t h n h c h n g t rìn h m p h ò n g th u ậ t to n p h â n lớ p d ự a írên tìm đ ặ c t r n g u c ủ a d ữ liệu đ ầ u v o t h ô n e q u a tố i u h m n h â n C c k ế t q u ả n g h i ê n c ứ u c ủ a đ ề tài c h o th ấ y , p h n g p h p c h ú n g đ ề n g h ị v cài đ ặt có k h ả n ă n g p h â n l p tố t h o n so v ới t h u ậ t t o n b a n đ ầu P h n g p h p n y c ó k h a n ă n g m r ộ n g k h ả n ă n g h ọ c b ằ n g c c h t h ê m cá c t h a m số h o ặ c ứ n g d ụ n g cho v iệ c p h â n l p cá c b ộ đ Hệu k h c m ộ t c c h d ễ d àn g 5.3 Kết đào tạo • Đ ã h n g dẫn tốt nghiệp 01 sinh viên đại học bảo vệ tháng 6/2007 đề tài trích chọn nội d u n g (xem bìa luận văn kèm theo) • Đ a n g h n g dẫn 01 sinh viên đại học đề tài trích chọn nội d u n a, dự kiến bâo vệ th án g 6/2008 5.4 Kết nâng cao tiềm lực khoa học N ghiên u th uật tốn trích chọn nội d u n g ú n g d ụ n g tro n g việc khai phá dũ' liệu lớn Đ ã h n g dẫn sinh v iên tổ chức sem in ar khoa học kỹ thuật trích chọn nội dung khai p h d ữ liệu từ năm 2007 N ă m 008-2009 nghiên cứu áp dụng đưa vào giảng dạy p h o n s pháp trích chọn nội d ung khn khổ chương trình cao học ng àn h hệ th ố n g th ô n g tin VI Abstract T h i s p a p e r p r o p o s e d a c o m b i n a t i o n o f k e r n e l f u n c ti o n s K e r n e l PrincÌDỈe C o m p o n e n t A n a l y s i s a n d its le a r n in g m e t h o d w h i c h is h e lp to n o t o n l y t r a n s f o r m th e input space classific atio n to a low er perform ance dim en sio n featu re W e d e f in e d th e soace co m b in ed but also kernel in c re a s e f u n c ti o n the as the w e i g h t e d s u m o f a s e t o f d i f f e r e n c e t y p e s o f b a s is k e r n e l fu n c tio n consisting, o f p o l y n o m i a l , g a u s i a n a n d n e u r a l k e r n e l s , w h i c h is tr a i n e d b v a n o v e l le a r n in g m e t h o d b a s e d o n g e n e t i c a l g o r i t h m T h e w e i g h t s o f b a s i s k e r n e l f u n c ti o n s in th e c o m b i n e d k e r n e l a r e d e t e r m i n e d in l e a r n i n g p h a s e a n d u s e d as t h e p a r a m e t e r s in th e d e c i s i o n m o d e l in t h e c l a s s i f i c a t io n p h a s e T h e u n i f i e d k e r n e l a n d th e le a r n in g m e t h o d w e r e a p p l i e d t o o b t a i n th e o p t i m a l d e c i s i o n m o d e l fo r th e c l a s s i f i c a t io n o f a p u b l i c d a t a s e t f o r d i a g n o s i s o f c a n c e r d i s e a s e s T h e e x p e r i m e n t s h o w e d fast c o n v e r g e n c e in l e a r n i n g p h a s e a n d r e s u lt e d in th e o p t i m a l d e c is i o n m o d e l w i t h the b e t t e r p e r f o r m a n c e t h a n o t h e r k e r n e ls T h e r e f o r e , th e p r o p o s e d k e r n e l f u n c ti o n h a s the g r e a t e r f l e x i b i l i t y in r e p r e s e n t i n g a p r o b l e m s p a c e t h a n o th e r k e r n e l fu n c tio n s Báo cáo tổng kết 6.1 Đặt vấn đề T r o n g lĩn h v ự c n g h i ê n c ứ u v ề k h a i p h d ữ liệ u n ói c h u n e c ũ n s n h t r o n s n g h i ê n c ứ u v ề c c t h u ậ t t o n p h â n ló p nói riê n g , v ấ n đề x lý d ữ liệ u lớ n n s ỵ c n g t r t h n h v a n đ ề c ấ p th iế t v đ ó n g vai t r ò c h ủ đ o tr o n g v iệ c s iả i q u y ế t b ài t o n t h ự c tế P h ầ n l n t h u ậ t t o n p h â n ló p đ ã p h t t r i ể n chi cỏ th ể eiải q u y ế t đ ợ c v i m ộ t l ợ n g sổ liệu g i i h n c ũ n g n h với m ộ t đ ộ p h ứ c tạ p d ữ liệu b iế t t r c T r o n g k h i đ ó l ợ n g d ữ liệ u m c h ủ n g ta th u th ậ p đ ợ c n a y c n a trờ n ê n p h o n g p h ú v đ a d n g n h c c s ự p h t tr iể n m n h m ẽ c ủ a k h o a h ọ c k ỹ th u ật M ặ c d ù r ấ t n h i ề u t h u ậ t t o n p h â n lớ p d ự a trê n n h i ề u n ề n t ả n g lý t h u y ế t k h c n h a u đ ã đ ợ c p h t tr iể n v ú n g d ụ n g t rấ t lâu, n h n g t h ự c tế c h o t h ấ y k ết q u a p h ụ t h u ộ c rấ t n h i ề u v o đ ặ c tín h d ữ liệu c ũ n g n h k h ả n ă n g x ỉý d ữ liệu t h ô c ủ a từ n g n h ó m n g h i ê n c ú n M ộ t đ i ề u h i ể n n h i ê n v i m ỗ i p h n g p h p có th ê đ p ứ n s x lý tố t tr ê n m ộ t v i d ữ liệ u v ứ n g d ụ n e c ụ th ể n o N g y n a y với trợ g i ú p c ủ a c c h ệ t h ố n g t ự đ ộ n g h ó a v h ệ t h ố n g t r ợ e i ú p c n g n e y c n g tin h vi h n , k h ố i l ợ n g d ữ liệ u c ầ n p h ả i x lý t ă n g v i m ộ t tốc đ ộ c h ó n g m ặ t N g i ta c đ o n r ằ n g l ợ n g t h ô n g tin t r ê n t o n c ầ u t ă n g e ẩ p đôi sau k h o ả n g hai n ă m t h e o đ ó s ổ l ợ n g c ũ n g n h kíclì c ỡ c ủ a cá c c s d ữ liệu ( C S D L ) c ũ n a tă n g lên m ột cách nhanh chóng T r o n g k h a i p h d ữ liệ u th ì p h o n g p h p tríc h c h ọ n đ ó n g m ộ t vai trò q u a n t r ọ n g đ ể t r í c h c h ọ n v c h u ẩ n bị d ữ liệu H n g tiê p c ậ n n y m lă n g h iệ u n ă n g th u n h ậ n tri t h ứ c t r o n g c c n g n h n h tin sinh, x lý d ữ liệu w e b , x lý t i ê n g nói h ìn h ả n h v i đ ặ c t í n h c ó r ấ t n h i ề u t h u ộ c t í c h (vài t r ă m c h o đ ế n v ài t r ă m n g n t h u ộ c t í n h ) n h n g t h n g c h ỉ c ó m ộ t số l ợ n g t n g đố i n h ỏ cá c m ẫ u d ù n g để h u ấ n l u y ệ n ( t h n g v i t ră m ) P h n g p h p tr íc h c h ọ n s ẽ g iú p g i ả m k í c h c ỡ củ a k h ô n g g i a n d ữ liệu, lo i b ỏ n h ũ n g t h u ộ c t í n h k h ô n g liê n q u a n v n h ữ n g th u ộ c tín h n h iễ u P h n g p h p n y c ó ả n h h n g n g a y lậ p tứ c đ ê n cá c ứ n g d ụ n g n h tă n g lôc đ ộ c ủ a t h u ậ t t o n k h a i p h d ữ liệu, cải t h i ệ n c h ấ t l ợ n g d ữ liệu v v ậ y tă n g h iệ u s u ấ t k h a i p h d ữ liệ u , k i ể m s o t đ ợ c k ế t q u ả c ù a t h u ậ t to án P h n g p h p đ ợ c g iớ i t h i ệ u t n h ữ n g n ă m t r o n g cá c tài liệu v ê x c s u â t t h ô n g kê h ọ c m y v k h a i p h d ữ l i ệ u [1-7 ] P r i n c i p a l C o m p o n e n t A n a l y s i s ( P C A ) [4] m ộ t p h n g p h p k h n ô i tiế n g h i ê u q u ả t r o n g q u t r ì n h l m g i ả m số th u ộ c t í n h c ủ a tậ p d liệ u đ â u v o G â n đ ây p h n g p h p h m n h â n đ ã đ ợ c p d ụ n g đ ể c ó th ể ứ n g d ụ n g P C A v o giải q u y ế t c c b ài t o n ph i t u y ế n tín h P h n g p h p n y đ ã đ ợ c S c h o l k h o f v đ ô n g n g h i ệ p c ủ a ô n g đ a v i tê n g ọ i K P C A [9] T r o n g đê tài n y c h ú n g tỏi trìn h bàv m ộ t ti ế p c ậ n m i d ự a t r ê n h m n h â n đ ể có th ể c h ọ n n h ữ n g th u ộ c t ín h tó t n h ấ t đẻ t ă n g k h ả n ă n g p h â n ló p c ù a t h u ậ t to n R a n d o m F o r e s t ( R F ) T r o n g p h n g p h p đ ề n g h ị c h ú n g tô i s d ụ n g g iải t h u ậ t di t r u y ề n đ ể t ìm h m n h â n tố i u c h o việc tìm r a c c h c h u y ể n đ ổ i p h i t u y ế n tố t n h ấ t n h m m tă n g k h ả n ă n g p h â n ló p c ủ a RJF 6.2 Tổng quan vấn đề nghiên cứu 6.2.1 Gi ới íhiệu trích chọn nội dung V ê c b ả n v iệ c b ó c t c h cá c t h u ộ c t ín h đ ặc t r n g b a o s m h p h â n ỉà x â y d ự n g c c t h u ộ c t í n h v l ự a c h ọ n t h u ộ c tín h đ ặc trư n g X â y d ự n e b ộ cá c th u ộ c tín h m ộ t c ô n g v i ệ c rấ t q u a n tr ọ n g tr o n g v iệ c x lý số liệu K h i x â v d ự n a d ữ liệu c h ú n g ta c ầ n p h ả i đ ả m b ả o k h ô n g đê m ấ t n h i ề u t h ô n g tin q u c ũ n g n h k h ô n q u tố n k é m v ề m ặ t c h i p h í P h ầ n t h ứ hai, c h ủ đề c h ín h c ủ a đ ề tài n y có m ụ c tiêu tìm n h ữ n g t h u ộ c t í n h đ i d i ệ n c h o đối t ợ n loại b ò nhừ na, t h u ộ c t ín h th a g â y n h i ễ u n h ằ m t ă n g h i ệ u s u ấ t c ủ a c c th u ậ t to n k h p h d ữ liệu C ó n h iề u p h n g p h p c ũ n g n h h n g tiế p c ậ n k h c n h a u b a o g m p h n g p h p k in h đ iể n [1-3] v i b ộ d ữ liệ u t n g đ ố i n h ỏ v h n g tiế p c ậ n h i ệ n đại [5-7], T u y v ậ y c h ú n g đ ề u có m ộ t số c c y ê u c ầ u c h u n g n h sau: G i ả m d ữ liệ u c ầ n lư u t r ữ v tă n g tố c đ ộ c ù a t h u ậ t to n ( tín h to n trê n d ữ liệ u đ ó ) G i ả m b ộ t h u ộ c t í n h n h ầ m tiết k i ệ m k h ô n g s i a n lư u t r ữ T ă n g c n g h i ệ u q u ả t h u ậ t to n : n h ằ m th u đưọ'c t ỷ lộ d ự đ o n đ ủ n g ca o h n C ó k i ế n t h ứ c d liệu: th u đ ợ c tri t h ứ c v ê d ữ liệu t h ô n a q u a p h n g p h p b ó c t c h d ữ liệu đ ể có th ể tạ o r a h a y b i ê u d iễ n d liệu dễ d n g v ề c b ả n c h ú n g ta c ó th ể p h â n loại cá c p h n g p h p tríc h c h ọ n th e o c c h tiế p c ậ n k h c n h a u f i l t e r / w r a p p e r , đ ọ ’c t r ì n h b y k ỹ t r o n g c c tài liệu [1, 2], L ợ c đ t h ự c h i ệ n c ủ a h a i c c h tiếp c ậ n n y đ ợ c g i ả n lư ợ c h ó a t r o n g h ìn h vẽ d i F e a tu r e su b se t selection In p u t fe a tu r e s H ì n h 1: In d u c tio n A lg o r ith m H n g tiếp cận filter (các thuộc tính đưọc chọn độc lập với thuật toán khai phá d ữ liệu) [1] ] lY iitiin ẹ '•et 11.'iiums 'êĩ J peil'oniKUKV FlmIih e '•i-1 eslini.iliou F e a tu r e selection search r t M iU K ‘íỂl liuluctior A lg o rith i F e a t u r e evaluation ie.mueser !, Hypothesis i n d u c tio n A lg o 111Inn31 E s lim a le d Tfsi -el H ìn h 2: Acnir.ìcy H n g tiế p cậ n w p p e r (các thuộc tính c họn p h ụ thuộc theo nghĩa với thu ật tốn khai phá d ữ liệu) [1] ĐẠI H Ọ C Q UÓ C GIA HÀ NỘI T R Ữ Ờ N G ĐẠI HỌC CÔ NG NGHỆ Hà Huy Giáp T Ì M H IẺ U VÀ ÁP DỤNG P H Ư Ơ N G PH ÁP TRÍCH C H Ọ N Đ É CẢI T H IẸN HIỆU Q U Ả CUA T H U Ậ T T O Á N KNN KH O Á LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin C n b ộ h n g dẫn: T S N g u y ễ n H N a m HÀ NỘI - 2007 ĐẠI H Ọ C Q U Ố C G I A H A NỘI TRƯ Ờ NG Đ Ạ ÍH Ọ C CƠNG NGHỆ ĐÊ CƯƠNG ĐẺ TÀI NGHIÊN CỨU KHOA HỌC DO TRƯỜNG QUẢN LÝ CÁP ĐẠÌ HỌC QUỐC GIA HÀ NỘI NĂM 2007 T ê n đề tài T iế n g V iệt: N g h iê n u p h n g p h p lựa chọn ihuộc tính đục tr im s nhỏm tcínỵ c trừng k h a n â n g chuáii đ o n CHCI hệ th ố n g C ìm ân đốn bệnh ung thư T iế n g A nh: F e a tu re S electio n app roach for im p ro v in g p erfo rm ances o f C ancer D iagnosis sy stem T h ò i gian tliực 12 t h n g (từ 2/2007 đến 02/2008) Đ ề tài t h u ộ c lĩnh v ụ t uii tiên C ốỉig nghệ th ô n ° tin Đ e tài có t r ù n g vó i m ột đ ề tài h o ặc đ a n g tiến hành k hơng? Đ ề tài m ó i C h ủ trì đề tài - H ọ vù lên: N iỊìiy ễn - N ă m sin h : ỉ 976 - C h u y ê n m ô n đ ả o tạo: Tin học - H ọ c hàm , h ọ c vị: Tiến s ỹ - C h ứ c vụ: G ia n g viên - Đ o n 17 cóncr tác: H N a m N úin , n ữ Bộ m ôn C ác hệ th ố n g th õ n g tin, K h o a Công nghệ Thõng !!!!, T rư n g Đ i h ọ c C ông ng h ệ _ Đ ịa cìn liên hệ: N h E3, ì 44 Đ n g X u â n Tìiĩiỵ, c ầ y Giấy H a nộị Sô đ iệ n th o i: Th i ỊỊÌan 03/2004 03/2005 - 7 Tên đề tài/cơng trình T cách tham gia C o m b in e d K e rnel F u n ctio n for S u p p o rt V e c to r M a c h in e and L e a r n in g M e th o d B ased on Thành viẽn E v o lu tio n a r y A lg o rith m Fax -1 , ; c p quán lý noi COI)" ho ] ] th on International Neural Processing ( o n ícrence !n Ibnrtii'.ion 03/2005 12/2005 - 03/2005 12/2006 - An O p tim iz e d Intrusion D e te ctio n S ystem U s in g P C A and B N N O p tim iz in g W eighted K ernel F u n ctio n for S u p p o rt V e cto r M a c h in e b y G enetic A lg o rith m Thành viên 6th A sia-Paeilic S\Tnposium on Information & Tel ecom Tech ICT park Y angon M y a n m a r Thành viên Fifth M exi ca n Ini emati oni ] C onference on Artihcu-.] Intel] i oen ce C q u a n p hối h ợ p cá c c ộ n g tác viên chí nh đề íài TT C quan phối họp K h o a C N T T Đại học C ô n nghệ * C ác c ộ n g tác viên TT C quail phối h ọ p Cộ ng tác viên Khoa CNTT Ho tên N guyên Ha Nam Khoa CNTT Trinh N hât Tiên Khoa CNTT Hà Q u a n g T h ụ y N g u y ê n T uệ N g u y ê n Hai Châu Khoa CNTT Khoa CNTT Khoa CNTT Khoa CNTT N guyên N aọc Hóa D P b n Hạnh Chuyên no nil TS P G S T S PG S.TS TS TS TS ThS C N TT C N TT CNTT CN TT CN TT C N TT C N TT ] M ụ c tiêu N ° h i ê n u th u ật toán tỉm đặc t r ù n ? cua tập liệu, nhăm tãnu cườn g hiệu qua c u a cá c th u ậ t to n p h â n lóp X â y d ụ n g c h n g trình m p h o n g nhăm giai quyêt mục tiêu đẻ T ó m tắt nội d u n g nghi ên cửu củ a đề tài T r o n ° l ĩ n h v ự c n g h i ê n c ứ u v ề k h a i p h đ ữ l i ệ u nói c h u n g c ù n g n h t r o n g n g h i ê n cu LI \ :c c t h u ậ t t o n p h â n l ó p n ó i r i ê n g , v ấ n đ ề x l ý d ữ l iệ u l n n g y c a n g t r t h n h v ã n đ ẽ c p t h i ế t v đ ó n ° v a i t r ò c h u đ o t r o n g v i ệ c g iả i q u y ế t c c bà i t o n t h ự c tẻ P h â n l o n c c t h u ậ t to án p h â n ló p đà p hát triển chì có th ể giai đ ợ c với lượng số liệu giới han nhu với n iô t độ p h ứ c tạp d liệu biết trước T ro n g lư ợng liệu m chung la thu thập n y càn ° trỏ n ê n p h o n g phú v đa d n g n h phát tn ẽ n m ạnh m è cua klioa hoc !;■ th u ậ t M ặc dù n hiều thuật toán p hân lóp dựa nhieu nen tang 1} tluiyẹl khac da đ ợ c p h át triển v im tí d ụ n g từ lâu, n ln m g thực lê cho thảy két qua plui thuộc rát nhiêu vào đ c l í n h d ữ l ie u Cl ing n h k h a n ă n g x ly d ù l i ệ u t h ô c u a t n g n h o m n g h i ê n CÍỊU M ộ t d i ê u h i ê n n h i ê n v i m ỗ i p h n g p h p c h i c ó t h ê đ p ứ n g v ả x iy tỏt trcn m ọ t VÍU d u l i eu \ a irn^ d ụ n o cụ thể n Với n h ữ n g lĩnh vực nghiên cửu đòi hoi \Ư l> mọt ì ượng dù licu lơn c h u a ro đ ặc trim g h o ặc k ho p h át đặc tru n g doi hoi cac nha n g h i ó i cini phai tim toi p h t triển h o ặ c áp d ụ n g thuật tốn thích họp H iệ n n a y co rẩl nhiều h n g cài tiến thuật toán phân lớp nlnr ap ciụnL’ cac thuat toan lai g h é p ( e n s e m b le m e th o d ), thuật toán d ự a vào p h n g pháp nhãn í kernel-based m e th o d ), h o ặ c áp d ụ n g p h n g p h p trích chọn đặc trim s (feature ext raction selection m e th o d ) T r o n g p h n g p h p k ê p h n g pháp trích chọn đặc trưng có mỘ! sô im đ iể m p h ù h ọ p tro n g việc x lý d ữ liệu ung thư T h ứ p h o n a pháp n ày s i ’j p ^iam 50 l ợ n g th u ộ c tính c ủ a d ữ liệu, điêu n y giúp giảm Thời gian tính lốn cua thuật toan phân ló p T h ứ hai, p h n g p h p trích ch ọ n đặc tru n g giúp tim thuộc tinh đặc tr n í cho í n g loại b ệ n h , đặc tín h n y có ích tron g việc xây dim e phác đồ điều trị bệnh nhân Thử b a , n ó g i ú p loại b o c c t h u ộ c t í n h t h a v n h ữ n g t h u ộ c t í n h s â y n h i ễ u c ó a n h h i r on q u ch u â n đoán T n h ữ n g đặc êm trên, đê tài nh ằm si 01.1 vết vẩn đề N g h iê n u tô n g q u a n hệ th ố n g chuấn đoán bệnh ung thu - đôn kế t sau: N g h iê n c ứ u c c t h u ậ t t o n t r í c h c h ọ n đ ặ c t r u n g v c c t h u ậ t t o n p h â n l ó p t iron ỉ n g từ đưa p h n g án giải q uyết phù họp X â y d ụ n g c h n g trình m p h ỏ n g kiêm c h ứ n o p h n g p h p d đ ề C c c h u y ê n đề n g hi ên c ứ u d ự kiến eủ n đ ề tài Nội d u n g N g h iê n cử u c ban C h u y ê n đề C h u ân doán bệnh ung th dựa phân tích liệu ap dụnu p h n g pháp m y học G ia i p h p c ó n g lĩglỉệ ứ n g d ụ n g tro n a việc chuân đoán bệnh Line thư tim dặc ứ n g (lụ n g t rư n g cua từriíí loại bệnh ung th Ư n g d ụ n g việc dự đoán bệnh áp d ụ n e plurơnự p h p điều trị thích họp với tưng loại bệnh C ấ u t r ú c dụ' kiến b áo cáo kết q u ả đề tài • P h ầ n m đau G iới th iệu m ụ c tiêu, nội d u n e nghiên cứu đề tài sơ lược vê trình thực đẽ tai k ết qua « C h n g ỉ : T ô n g q u a n vấn đề phân loại liệu C h n g n y c u n g cấp th ô n g tin khái niệm vẻ p h n g pháp dung p hân loại d ữ liệu , • C h u n ° 2: P h n g pháp lựa chọn đặc tru n g nhăm cai tiên két qua phân loại dù liệu T rìn h b y giải th u ậ t đại nh ăm tìm đặc trưng quan trọng cua dù heư • C -huơng 3: n g dụng: X â y d ự n ° c h n g trình th n g h iệ m nhăm cluiân đoán bệnh nhân ung thư • C h n g 4: Đ n h Íá kẽt luận Đ n h e i c h u n g v ề đ ề tà i , đ a r a n h ữ n g k ê t l u ậ n cụ t h ê c ũ n g n h n h ữ n g l i u i ì g n g h i ê n Oil'Ll 11 T í n h đ a n g n h v liên n g n h đ ề tài -Đ ề tài n y bao h àm n h iều c h u y ê n ngành c h u y ê n n g n h c h ín h đ ợ c liệt kê d ưới đây: • H ọ c m y ( M a c h in e L e a rn in g ) • K h a i pliá d ữ liệu (D a ta m in in g ) khác cõng nghe ihõnỊỊ tin Nhinvj • Phương pháp xác suất Thơng k è (Statistical met h od ) - T ín h đ a/liên ngành s ệ đ ợ c h iện qua việc tích hợp tri thức từ chuyên neảr.h tr-n giai q u y ế t n h ũ n g vấn đề tro n g k h u ô n khô đề tài 12 P h u o n g p h p luận p h n g p h áp k h o a học sử d ụ ng trono clề tài T n u thạp va n g n ie n cư u nọi đ u n g k h o a hoc từ Internet va tu n h ũ n CO' quan đỏi tac tro n g lĩnh vự c ch u â n đ oán b ệ n h u n thư K et hợp n g hiên círu c n g n ghệ lý thuyết T ô c h ú c s e m i n a r , t h a m g i a c c hội n g h ị , h ộ i t h a o l iê n q u a n đ ế n l ĩ n h v ụ c k h a i p h dù' liệu, Trí tuệ n hân tạo v Tin sinh học 13 S d ụ n g n h ũ n g t r a n g thi ết bị Bộ môn, Khoa C ác thiết bị h iện có m ô n Các hệ tbỏny th ône tin, K hoa C X T T : • M y tính cá n hân C ác thiết bị c ủ a p h ò n g m ụ c tiêu Các hệ tích họp th ịna minh : • M y chu, m v tính cá nhân, m y in, 14 K h ả n ă n g h ọ p tác q u ố c tế - H ợ p tác đ ã /đ a n g có: - H ọ p tác có: 15 C c h o t đ ộ n g n g hi ên u đê tài N g h iê n c ứ u lý th u y êt Đ iề u tra kh ảo sát B iên s o n tài l i ệ u V iết b o cáo k h o a học Hộ] thao k h o a học T ậ p huấn H o t đ ộ n g k hác C h y thử, k iểm n g hiệm 16 K ế t q u ả dụ kiến - - K ế t q u a KỈÌOCI h ọ c M ộ t báo cáo tổ n g h ọ p v ề kết qua nghiên c u c u a đẽ ùỉi M ộ t báo cáo b ỉ b o hội n e h ị / h ộ i th ảo khoa hoc quôc gia co liên quan va ung dung 16.2 K ế t q u a ứ n g d ụ n g C h n g trình m ò p h o n g th u ậ t toán p hân lớp dưa tim đác trưng ti uu cua liữ liệu đầu vào K ế t q u a đ o lụ o H n g dẫn m ộ t luận vãn đại học 16.4 K ế t q u ráng c n g tiềm Ị ực ch o đon vị K et q u b i d ỡ n g c n b ộ : - • K-êt q u c h í n h c ủ a đề tài chù yếu p h ụ c vụ m ụ c đích t ă n cưỏ-nỉ kha l ũ n " n g h i ê n c ứ u k h o a h ọ c c ù a c c s i n h v i ê n , n g h i ê n c ứ u s i n h c a n b ộ i r o n s b ụ m ô n C c h ệ t h ố n g t h ô n g tin * X â y đ ự n g m ộ t n h ó m n g hiên cún ứng dụn ỵ m y học vào kha; phá dù liệu - Đ ó n g gó p cho việc t ăng c ò n g t ran g thiết bị: 17 T o n g kinh p hí đề nghị H a i m i tám triệu đồng - 28.000.000 VND 18 N Ộ I D U N G V À T I É N Đ ộ T H Ụ C H I Ệ N C Ủ A ĐẼ TÀI ( C Á C C Ò N G V I Ệ C CẢN T R I Ề N KHAI, T H Ờ I H Ạ N T H ự c H IỆN VÀ SẢN PH ÃM Đ Ạ T ĐƯỢ C) T h ò i g ian t h ự c TT Ho t đ ộ n g n gh iê n cứu T hu thập v viêt tô n g q uan tài liệu ? N g h iê n cứu ban N g h iê n cứu đặc trư n g q uan trọ n g T tháng Đèn thán li 02/2007 04/2007 04,20 07 06 2007 06/2006 OS 2006 Snn phâm k hua họ c Bao c a0 tơ n '2 quan tìm đặc trư n g tro n g T in sinh học N g h iê n cứu kỹ th u ật phân loại liệu o r-o r1 co o io o Bảo cao chu vén dê N e h iê n cử u kỹ th u â t trích chon đăc trư n g p h ù h ọ p với liệu u n g thư Đ ề xu ất tíiài thuật tìm đặc trư ng tư ơn g úrm giúp n â n g cao h iệu q uà p h ân loại liệu U11ÍỊ th H ộ i t h o g i ữa kỳ 09/2007 09/2007 09 0 " 12 0 “ V iết b áo cáo c h u y ê n đê - C h u y ê n đề giai thuật trích chọn đặc t n r n g quan trọ n g từ d ữ liệu u ng thư - C h u y ê n đề giải thu ật ph ân lap t n g ứ n g sau áp d ụ n g p hư ng pháp trích chọn đặc trung Bao cao chuvẽn lỉc Ị X â y d ụ n g ứ n g d ụ n g th n g h iệ m 10/2007 02/2008 Phân m èm th’j nghiệm Đ n h g iá kết qu 01/2008 02 /2 00 s V iết báo cáo tố n g h ựp 02/2008 /2 0 s Báo cáo đanh s i Bảo cáo l ò n kết tài H ội Iháo lần cuối 03/2008 03 /20 OS N ộ p sản p h ấ m 04/2008 '2 00 s Tài liệu hội thao Các bao bá0 cáo phần mềm N g h iệ m thu đề tài 04/2008 04,2008 Kẻt qua nehiệm ihu đẻ tài 19 P H Â N B Õ K I N H P H Í TT Nội d u n g X â y d ụ n g đề c n g chi tiết T h u th ập viết tổ n g quan tài liệu K in h p h í ( V \ D ) 1.000.000 If) 0 T h u thập tư liệu {mua, thuê) D ịc h tài liệu th am k h a o (số t r a n g X g iá ) ị ì 500.000 V iết tơ n g quan tư liệu Đ iề u tra, k h o sát, thí n g h iệ m , thu thập sổ liệu, nghiên c ứ u 10.000.000 C hí phí tàu xe, c n g tác phí 6.000.1 'I/O Chi phí th u ê m n Chi phí hoạt đ ộ n g ch u y ê n m ô n T h u ê, m u a sắm tra n g thiết bị, n g u y ên vật liệu J 4.000.000 ° T h u ê tra n g thiết bị (1 M u a tra n g thiết bị M M u a n g u y ê n vật liệu, cây, V iết b o cá o k h o a học, n g h iệ m thu V iết b o cá o H ội th ảo 2.QÍlO íịiỴi i O'jO.fjijO r, N g h i ệ m thu 1.000.ÚÚ0 ' Chi khác '0 ‘V m 1M l í I ' l l M u a văn p h ò n g p h ẩm In ấn, p h o to c o p y Ị 1)00 - II1 Q u a n lý phí 1.000 uuO T o n g kình p h í 18.000.000 T n g k ín h phí: M i tám triệu đỏ ng TÀI LIỆU T H A M KHẢO K o v i R and John, G H : W r a p p e r s for Feature Subset Selection Artificial Intelligence (1 9 ) pages: -3 B l u m , A L an d Lan gl ey, p.: S el ect ion o f Relevant Features and Exampl es in Machine L ea rn in g , A rtificial Intelligence ( ] 997) pages: 245-27] B r e i m a n , L.: R a n d o m forest, M a c h i n e Learni ng, vol 45 (2001) pages: 5- 32 T o r k k o l a K V e n k a t e s a n , s , Hua n Liu: Sensor selection for m a ne uv e r classification P ro c e e d i n g s T h e 7th Int er nat ion al I E E E Con fer ence on Intelligent Transportation s>slums (2 0 ) P a g e ( s ):6 - 641 Y im in W u A i d o n s Z h a n a : F e a tu re selection for classifying high-dim ensional numerical d a t a P r o c e e d i n g s o f the 0 I E E E C o m p u t e r Society Confer ence on Co mp u te r Vision and P a t t e r n R e c o g n i t i o n , v o l ( 0 ) P a g e s : - D u d a R o Hart, p E., Stork D G.: Pattern Classification (2nd Edition) John Wiley ^ S o n s Inc (20 01) B rei mai l, L „ F r i e d m a n , J H „ Ol shen, R A Stone, c -I.: Classification and Regression T re es, C h a p m a n an d Hall, N e w \ ork (1984) G o l u b , T R S lo ni m, D K., T a m a y o , p., Huard c , Ga as enbeek J p Mesirov J C o i l - H , L o h M L D o w n i n g , J.R., Cal i ei ur i, M A Bloomfield, c D : and Lander E.: Molecular C la ss i f i c a t i o n o f Cancer: Cl as s D i s c o v e r y and Class Prediction by Gene Expression M o n i t o r i n g " S c i e n c e , vol 28 (1 9 ) pages: - _ F r o h l i c h H C hap el l e, o , and Sch ol ko pf B.: Feat ure Selection tor S upp o' t Vector M a c h i n e s b y M e a n s o f G e n et ic Al g o ri t h m s 15th IEEE International Confer ence on Tools w i t h A r t i f i c i a l I n t e l l i g e n c e ( 0 ) p a g e s : 142 N g y t h n g 04 n ă m 07 Ng a y C h ú trì đ ê tủ, Clui nhiẻm khoa CN U - Ẩ Ò tfr ftk - r ? ưf j ' * /5^ ; ’ T / L H ỈỆ U TP.ƯOr-O / b ! K'j^ivG Ịt Í © a i h o c \ \ ?:■'! Đ Ậ Q I AO ?- ;T ỵ / •> t> c TC " P G S T S T r ịn h NTiật l ũ i T R U Ở t :c- p h ị ’ -0 í t háng 04 nãni 2

Ngày đăng: 26/09/2020, 22:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan