Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
0,95 MB
Nội dung
B GIÁO DO I HNG HOÀNG HỮU ĐỨC NG DNG K THUT HC BÁNGIÁMSÁT PHÂN LN Chuyên ngành: Khoa hc máy tính Mã s: 60.48.01 TÓM TT LU THUT ng - Công trình c hoàn thành ti I HNG ng dn khoa hc: PGS.TS. VÕ TRUNG HÙNG Phn bin 1: TS. PHM MINH TUN Phn bin 2: N Lun vn c bo v trc Hi ng chm Lun vn tt nghip th thut hp ti i hc à Nng vào ngày 18 tháng 5 nm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Hc liu, i Hc à Nng - 1 - M U 1. Lý do ch tài: Công ngh thông tin phát trin nhanh chóng và mnh m i nhiu tin ích cho cuc sng vi nhng ng dng công ngh c bit là các ng dng trên Internet, các dch v thông tin truy n t n t, tin tn t, Website cung c n xut hin trên mi mt tc Vng thông tin khng l chúng ta qun lý, cp nht và phân phi nh i dùng có nhu cu? Trong thc t, s ng thông tin quá ln, vic phân lp d liu th công u không kh thi. Gi trình máy tính t ng phân ln nh kh i t cao c x lý khng công vic rt ln mà vic thc hin bi là không kh thi. Mt gi thc hin vic phân ln t ng là ng dng k thut hc máy. Tuy nhiên, vic gii quyt v ng gp nhiu khó kh liu hun luyng rt hit do i phi tn nhiu thi gian và công sc c khc phc nhng hn ch trên cn phi có mc không cn nhiu d liu gán nu và có kh n d c các ngun d li c bángiám sát. Trong lu p trung nghiên cu ng dng bài toán phân ln s dng quá trình h - 2 - s tài có tỨng dụngkỹthuậthọcbángiámsátđểphânlớpvăn bản 2. Mu: tài tp trung nghiên cu v các k thut hc máy và nghiên cu mt s gii thung s dng trong hng dng k thut hc máy bángiámsát vào bài toán phân ln. 3. ng và phm vi nghiên cu: Đối tượng nghiên cứu: Các v c hc máy, hc bángiámsát và các gii thut hc bángiám sát. Phạm vi nghiên cứu: K thut hc máy bángiámsát và ng dng k thut h gii quyt bài toán phân l 4. u: Bao gc nghim: Phương pháp tài liệu: Tp trung nghiên cu v lý thuyt v h s lý thuyt v k thut h lý thuyt v x lý ngôn ng t nhiên. Phương pháp thực nghiệm: Trin khai ng du SVMlin vào chy trên d liu thc; Tp trung vào vic xây dng kho d liu hun luyn, d liu th nghim và xây d Vector tìm vector, to vector và nhãn cho kho d liu. Cu trúc các tp tin (file) d liu to ra t Vector tuân th theo cu trúc ca SVMlin làm d liu vào cho SVMlin trong hun luy m th. 5. c và thc tin: Ý nghĩa khoa học: Hiu và ng dc k thut hc bángiámsát vào bài toán thc tng dp t bng ngôn ng C, chy trên H - 3 - u Hành Linux biên dch li và chy trên H u Hành Windows. Vi tr ng dc t mu này vào bài toán thc t. Ý nghĩa thực tiễn: Hc tn ít th t hiu qu kt hp c học không giám sáthọc có giám sáty rt thích h ng dng vào x lý, gii quyt các bài toán thc t. 6. Cu trúc ca lu u tng quan. quát v bài toán phân lp d liu, phân ln, hc máy và các k thut hc máy. Quá trình phát trin và nhu cu gii quyt các bài toán thc t. c máy bángiámsát SVM. mt s thut toán hc máy và các ng dng ca hc máy trong khoa hc gm hc máy có giám sát, hc máy bángiám sát. ng dng hc máy bángiámsát h tr vector vào bài toán phân ln. c nghim. ng dng phn mm mã ngun m c biên dch chc vit bng ngôn ng C vào thut toán SVM và bángiámsát SVM. Vit thêm Vector h tr to vector và to nhãn cho kho d liu. - 4 - NGHIÊN CU TNG QUAN 1.1. TNG QUAN V HC MÁY 1.1.1. Khái nim và mt s v hc máy Hc máy (Machine Learning) là mc ca trí tu nhân to n vic phát trin các k thut cho phép các máy tính có th "hc". C th c máy là m t trình máy tính bng vic phân tích các tp d liu. Hc máy c liên quan nhiu n thng kê do c u tp trung vào vic nghiên cu phân tích d liu. Tuy nhiên, hc máy có s khác bit vi thng kê, hc máy tp trung vào nghiên cu s phc tp ca các gii thut trong quá trình tính toán, x lý d liu. Trên thc t, có nhiu bài toán suy luc xp loi là bài toán nh phân khó, vì th mt phn ca hc máy là nghiên cu s phát trin các gii thut suy lun xp x có th x c lp các bài toán nh phân mt cách tng quát nht. Vic chia nhóm các thut toán hc máy ph thuc vào tính cht ca tp d liu hun luyn u vào, các thut toán hc máy c chia thành ba nhóm: - Nhóm1: Các thut toán hc có giámsát (supervised learning): Hun luyn trên tp d liu mu c gán nhãn. Nhóm thut toán này c s dng trong các bài toán phân lp hoc ni suy. - Nhóm 2: các thut toán hc không giámsát (unsupervised learning): Nhóm này s dng các thut toán gom c khai thác các cu trúc vn có trong d li tìm ta các cu trúc, các lut trong tp d li - 5 - - Nhóm 3: các thut toán hc bángiámsát (semi-supervised learning): Nhóm này s dng c các mu d ligán nhãn và ti gán nhãn cho d liu mi- d li . Nhóm thut toán này n các tp d liu vi tp mu c gán nhãn ch chim mt phn nh (ch mt vài mu trong mi lp). Mt s hc máy: - Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [5]. - Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [4]. - Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [8]. Hc máy là mh vc ca trí tu nhân tn vic phát trin các k thut cho phép các máy tính có th "hc". + c máy Với: Một tập dữ liệu trong không gian X - Một tập mẫu S , cho S là tập hợp con của X - Một số hàm đích quá trình ghi nhãn f : X → {®óng, sai} - Một tập huấn luyện D được gán, D = { x, y | x thuộc S và y = f (x)} - Tính toán một hàm f ’: X → {®óng, sai} bằng cách sử dụng D như là: f ’x f (x) (1.1) cho tất cả các x thuộc X. - 6 - Có các p hc máy c gi là hc không có giám sát, không cn d liu hun luyn. Cui cùng, trình (1.1) a chúng ta v hc máy chính thc nói rng vic hc có th ft phép tính xp x hoc mô hình cu f da trên các ví d hun luyn trong D. 1.1.2. Hc có giámsát Hc có giámsát (Supervised Learning) là mt k thut ca ngành hc máy xây dng mt hàm t d liu hun luyn. D liu hun luyn bao gm các cp gu vào dng vector và u ra mong muu ra ca mt hàm có th là mt giá tr hoc là d mt nhãn phân lp cho mu vào (chng hphân lp n). Nhim v cc có giámsát là d ca hàm cho mng bt k u vào hp l mt s ví d hun luy ng): - Xác nh cu trúc ca hàm chc cn tìm và gii thut hc ng - Hoàn thin thit k. 1.1.3. Hc không có giámsát Hc không có giámsát (unsupervised learning) là m pháp ca ngành hc máy nhm tìm ra mt mô hình phù hp vi các quan sát. Nó khác bit vi hc có giámsát ch g ng cho mu vào là không bic. 1.1.4. Hc bángiámsát Hc bángiámsát (Semi-supervised learning) c máy mà d li hun luyn bao gm d li gán nhãn. Hc bángiámsát có th c áp dng vào vic phân lp và - 7 - phân cm. Mc tiêu ca hc bángiámsát là hun luyn tp phân lp tt c có giámsát t d li 1.2. PHÂN LN 1.2.1. Gii thiu ng, vic phân l c tin hành mt cách th cô là chúng ta thc hin công vic tn mt lp c th s tiêu tn thi gian và công sc quá lc vì chúng ta có vô s n; gán th công mn vào mt lp t v không th thc hic. Vi s n s thì vic phân ln t ng là mt nhu cu bc thit. 1.2.2. Các ng dng ca bài toán phân ln ng dng quan trng nht ca phân ln là trong tìm kim n. T mt tp d lin s s i vi tng lng. 1.3. MT S THUT TOÁN HC BÁNGIÁMSÁT 1.3.1. Thut toán hc bángiámsát Self-training a. Giới thiệu Cùng vi s liu ln ca d li, các thành phn hn hp có th c nhn ra cùng vi thut toán Ci k vng EM (expectation- maximization). Ch cn mt m mi thành ph c mô hình hn hp. Mô hình c áp dng thành công vào vic phân ln. Mt bin th khác ca mô hình này chính là self- training. Self-training là thut toán mà khi có mt s phân lp li thì có th ng thêm cho chính nó, còn co-training gim bc l ng có th xy ra khi có mt quá trình phân lp b li. - 8 - Cùng vi quá trình phát trin và vic áp dng ph bin và s lên v cht ng ca thut toán SVM (Support Vector Machine), SVM truyn dn (Transductive Support Vector Machine TSVM) ni bt lên t SVM chun m rp hc bángiám sát. a. Thuật toán * M rng tp các mu bng cách ch cn mt b phân lp vi mt khung nhìn ca d liu. *: - L: - U: * - Gán U * : - + L + U - Repeat: + C L. + Dùng C U. + U + Gán; U= U- ; - Until U = 1.3.2. Thut toán hc bángiámsát Co-training a. Giới thiệu Thut toán co-training da trên gi thit rng các c tính (features) có th c phân chia thành 2 tp con; Mi tp con phù hp