1. Trang chủ
  2. » Tất cả

Báo Cáo Theo Yêu Cầu Môn Học Thực Tập Cơ Sở Supervised Learning – Kỹ Thuật Học Có Giám Sát.docx

33 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌCVIỆNCÔNGNGHỆBƯUCHÍNHVIỄNTHÔNGKH OACÔNGNGHỆTHÔNGTIN  BÁOCÁO THEOYÊUCẦU Mônhọc Thực tậpcơsở Giảngviênhỗtrợ TrầnĐình Quế Họvàtên sinhviên NguyễnCôngHuânMãsinh viên B19DCCN288 Lớp D19CQCN12 B HàNội,[.]

HỌCVIỆNCƠNGNGHỆBƯUCHÍNHVIỄNTHƠNGKH OACƠNGNGHỆTHƠNGTIN  BÁOCÁO THEOUCẦU Mơnhọc:Thực tậpcơsở Giảngviênhỗtrợ:TrầnĐình Quế Họvàtên sinhviên:NguyễnCơngHnMãsinh viên:B19DCCN288 Lớp:D19CQCN12-B HàNội,ngày14tháng3năm2022 TRƯỚCKHIBẮTĐẦU Báo cáo trích từ Introduction to Machine Learning with Python, viết bởiAndreas C Müller Sarah Guido, trải qua lược dịch Một số định nghĩa, khái niệmđượcthamkhảotừmộtsốtrangwebkhác CácđoạnmãđượcsửdụngtrongbảnbáocáođãcósẵntrêntrangGitHubđượcnhắctớitrongtàiliệu, emchỉlấyvềvàphântích Cũng tài liệu có đề cập đến Anaconda, phân phối Python kèm vớiphần mềm môi trường Spyder chuyên dùng lĩnh vực khoa học máy tính – khoa họcdữliệu,Emđãcóbảncàicủachúngtrongmáyvàđãtiếnhànhchạythử,tuynhiêndohiểubiếtcịnhạn hẹp,emxinphépđược sửdụngcácphươngánthaythếtrongkhitìmhiểusâuhơnvềcáctrình/phầnmềmnày Mongthầythơngcảm! Cáctrìnhduyệt/phầnmềmemdùngthaythếbaogồm: - Pycharm Community Edition: Trình IDE công ty JetBrains (CH Séc) tạo ra,chuyên ngôn ngữ lập trình Python hỗ trợ ngôn ngữ khác nhưJavaScript, CSS… Bản Community Edition miễn phí, có hạn chế sốchứcnăng caocấp Đâylànơi emchạycácđoạn mãmàoutputcủa - JupyterNotebook:MộtsảnphẩmthuộcProjectJupyter(JupyterNotebook,JupyterHub, JupyterLab), dự án mã nguồn mở (open-source) nhằm phát triển phầnmềm mã nguồn mở, tiêu chuẩn mở (open-standards) dịch vụ nhằm mục tiêu kết nối cácthiếtbịmáytínhsửdụngnhiềungơnngữlậptrìnhkhácnhau.JupyterNotebooklấynguồngốctừIPython, sánglậpbởiFernando Pérezvà Brian Granger năm 2014 Cái tên Jupyterbắtnguồntừ ngơnngữ chínhtạonênJupyter:Julia,PythonvàR Đâylànơi emchạycácđoạnmãmàoutputcủanólàmột lượcđồ I Chương2: Supervisedlearning – Kỹthuậthọc cógiámsát Mởđầuvà địnhnghĩa 1.1 Địnhnghĩabanđầu Khái niệm kỹ thuật người đưa liệu đầu vào cho máy, đầura giá trị liên tục (hồi quy), dự đoán giá trị cho đối tượng đầu vào… nhưngdạngcủanólnlàmộthàm Cóhailoại họccógiámsát: - Phân loại (Classification): Sử dụng thuật tốn để điều liệu tới phân mục chínhxác.Chiarathànhphânloạinhịphân(binary classification)hoặcphânloạiđalớp(multiclassclassification)– thựcranhịphânlàtrườnghợpđặcbiệtcủađalớpkhicầnphânloạigiữa2lớpduynhất,sovớinhiềulớphơnởtrườnghợpcịn lại.Cóthểsosánhviệcphân loại nhị phân trả lời câu hỏi đúng/sai Phân loại có giám sát nhằm đưa dựđốn/kếtluậnvềmộtdữ liệunênđưavàolớpnàođangcósẵn vd.Phânloạihoa=>Đầuralàmột trongcácloạihoa Phânloạingơnngữ=>Đầuralàmộttrongnhữngngơn ngữ - Hồi quy (Regression): Dùng để làm rõ mối quan hệ biến (đầu vào) phụthuộc độc lập Như tên gọi nó, đầu hồi quy có giám sát giá trị liên tục(mộtconsốthực/sốthậpphân) vd.Đưaradựđốnvềthunhậpmộtnhânviêndựavàotrìnhđộgiáodục,tuổivànơiởcủa ngườiđó=>Mộtconsố Dựđốnvềdiệntíchmộtkhuruộngdựavàodiệntíchkhuđấtcũ,thờitiếtvàsốcơngnhânhiệ ntại=>Mộtconsố Các thuật tốn sử dụng mạng hệ thần kinh (neural network), phânlớp Bayes (Naïve Bayes), hồi quy tuyến tính (linear regression), (logisticregression),Kngườihàngxómgầnnhất(K-nearestneighbors– thuậttốnđượcsửdụngởChương1),… 1.2 Khai tháchóa,thừavàthiếuthơngtin hồi quy có logic Nói cách khác, mục tiêu kỹ thuật học có giám sát xây dựng mơ hình(model) dựa liệu mẫu/huấn luyện, từ dự đốn xác liệu cókết cấu tương tự Đó gọi q trình khái thác hóa (generalize) từ liệu mẫu tới liệuthực Đương nhiên cỗ máy với mục đích dự đốn nên cần khái thác hóa vớiđộlệchítnhấtcóthể Mộtkhíacạnhkháckhichúngtaxâydựngmơhìnhlàviệcnóđưaradựđốntừ nhữngđặcđiểmnàocủa dữliệu,hayđộphứctạpcủamơhình Xétvídụvềviệckhảosát50sinhviênvớimụctiêu“Sinhviêncómuốnmuaxe máy?”,người hỏichuẩnbịsẵnnhữngtiêuđề: Khóahọc–Nơiở–Khoảngcách–Việclàmthêm(y/n) –Phương tiệnkhác =>Nhucầu Lẽdĩnhiênchúngtamuốnmộtmơhìnhđơngiảnnhấtcóthể-đưaradựđốnchính xácdựatrêncàngít đặcđiểmdữliệucàngtốt Nếuchúngtasửdụngmệnhđềđểmơtảmơhìnhcầndựng,chúngtacóthểcónhững trườnghợpsau: “Sinh viên nhà riêng, cách trường 10km có việc làm thêm xe btcónhucầumuaxemáy”==>Mơhìnhthừathơngtin/qphứctạp(overfitting),hoạtđộngtốtvớidữ liệu mẫunhưng vớidữ liệumớisẽgặpvấnđề “Sinhviênnăm2cónhucầumuaxemáy”==>Mơhìnhthiếuthơngtin/qđơn giản(underfitting), thậmchícóthểdự đốnsaicảtrongđữliệumẫu Chúngtacầnmột“điểmngọt”nằmgiữahaicựcnày,chochúngtakếtquảkhaitháchóatốtnhất.Đ âylàmệnhđềsẽđượcsửdụngđểxâydựngmơhình.Vídụnhư: “Sinhviên cáchtrường hơn10kmvàcóviệclàmthêmcónhucầumuaxemáy.” Mốiquan hệgiữađộchínhxácvàsựkhai tháchóacủaviệc xâydựngmơhình 1.3 Mốiquanhệgiữa kíchthướcdữliệuvà độphứctạpmơhình Giờcũngvídụtrên,nhưngxét1trong2trườnghợpsau:  Ngườihỏi/ phỏngvấnsửdụngnhiềutiêuchíhơn(Tênsinhviên,tênlớp,thuộctầngnào,…)  Cónhiềusinhviênđượchỏihơn(dữliệumẫucóthểlà500hoặc1000sinhviên) Khiđóthìmệnhđề“Sinhviênởnhàriêng,cáchtrườnghơn10kmvàcóviệclàmthêmho ặcđixebtcónhucầu muaxemáy”trongtrường hợpnàylạiđượccoi tốiưu Dữliệumẫucànglớn,mơhìnhđượcdùngcàngchitiếtvàphứctạphơnmàkhơng lovấnđềtrànthơngtin Cácthuậttốnphổbiếnvà ví dụ Ở phần có nhắc thuật tốn sử dụng nhiều qtrình học có giám sát, phần thực hóa số thuật tốn vídụcụthể Vìthờigianbàihọccóhạnnênemxinchỉđiqua2thuậttốnlàKngườilánggiềnggầnnhấtvàthuậttốntuyếntính 2.1 Phân loạivà hồiquy Vớiphânloạicógiámsát,chúngtaxétdữliệumẫuforge-mẫudữliệuphânloại đơngiảnvới2class Tạo set liệu Tạo biểu đồ Trongđó2yếutố(feature)đượcbiểu diễnbằng2trụccủalượcđồ.Outputcủađoạncodelàhình ảnhphíadưới: Dữliệumẫubaogồm26 điểm liệu, với 2lớpđượcbiểudiễnbằnglư ợcđồphântán Với kỹ thuật hồi quy có giám sát, sử dụng liệu mẫu wave Cũng dùnglượcđồnhưvídụtrênnhưngchỉcó1trụcyếutố,trụccịnlạibiểudiễnmộtgiátrịmụctiêuhồiquy Giá trị ngoặc đơn ởdịng đoạn mã trêncàngcao,lượcđồcàngcó nhiềuchitiết.Bêncạnhlàhìnhả nhcủađoạnmãtươngt ự v igiátrị 2.2 K-ngườiláng giềnggầnnhất 2.2.1 Phânloại Được coi thuật toán đơn giản cách dựng mơ hình dựa vào liệuđầuvào,sauđóđưaradựđốnquaviệctìmđiểmdữliệugầnnhấtvớicácđiểmdữliệubanđầu Xétdữliệuforge,thêmvàotrướclệnhprintdịng Trong ngoặc số “hàng xóm”, mặc định khơng có tức = 1.Kếtquả thuđược(trườnghợptrênđặtgiátrị=3): Mỗi đánh dấu mộtđiểm liệu mới, đườngthẳngnốiracácđiểmgầnnhấttrong set liệu Dựa vào sốcác điểm tương ứng với từngngơi mà định ngơisaođóthuộclớp vd Ngơi góc bêntráiđượcđánhdấuthuộcclass1 dogầnvới2“hàngxóm” class1so với1“hàngxóm”class0 Từdữliệumẫuởtrên, tấpdụngthuậttốnnàyvớilớpscikit-learn Chia liệu thành training test Thêm khai báo lớp + Lưu liệu training Đưa dự đoán láng giềng kiếm thử độ xác Kếtquả:1mảngvớicácphầntừlàlớpd ựđốnvàtỉlệchínhxáccủadựđốn(l àmtrịnđến2chữsố) Vớimộtsốlánggiếngxácđịnhthìmơhìnhcómộttỉlệdựđốnthànhcơng.Chúngtaxétnếusốlán ggiềngthayđổithìtỉ lệnàysẽthayđổinhư thếnào Ápdụng:DữliệuthốngkêbệnhungthưvúWisconsin Sosánhtrực tiếpgiữahồiquynhiềulầnvàhồiquytuyến tính Thuậttố n hồi quy nhiềulầ n g h i n h ậ n k ế t q u ả sớ mhơ n nhiề u, n h n g nế uk í c h thướcmẫuđủlớn,hồi quytuyếntính–OLScóthểbắtkịp c) Lasso Mộtcáchtiếpcậnkháccủahồiquynhiềulần,vớimộtđiểmkhácbiệt:khisửdụngthuậttốnnày,một số tiêu chí giá trị tuyệt đối, đồng nghĩa với việc bị mô hình bỏ quahồntồn– điểmcộngcủaviệcnàylàmơhìnhthườngđượccàiđặtđơngiảnhơnvàcóthểtậptrungvàonhữngtiêuchíquantrọng nhấtcủanó.Qtrìnhnàyđượcgọilà“khaitháchóaL1” HàmLasso()cũngcóbiếnsốalphatùychỉnh.Ngồiranó cịnmộtbiếnsố Đểbiếtđượcbiếnsốnày,taquaylạivới liệu mẫuvềnhàởBoston: Kết ban đầu tệ, chứng tỏ tình trạng underfitting (dùng 4/105 tiêu chí) Giảm alpha, đồng thời tăng tham số nằm hàm Lasso: max_iter (số phép lặp tối Kết đạt tốt nhiều *)Sosánh giữaRidgevàLasso Ridgethườngđượcưutiênhơn,nhưngLassosẽtrởnênhữudụngtrongtrườnghợpdữ liệu phức tạp ngườidùngtinrằngchỉcó1phầnquantrọngvà/hoặc muốnnếu mơhìnhdễhiểu,dễcàiđặthơn Nhưng đặt alpha q thấp… Mơ hình lạicũng trở vềcó trạng thái overfitting nhưcủa hồi quy Thêm vào lớp scikit-learn ElasticNet, kết hợp 2tuyến thuậttính tốn hồiquynóitrên 2.3.2 Phânloại Phân loại tuyến tính dựa sở phương trình hồi quy tuyến tính,với mộtđiểmkhácbiệtnhỏ.Xéttrườnghợpphânloạinhịphân(binaryclassification): ... lovấnđềtrànthơngtin 2 Cácthuậttốnphổbiếnvà ví dụ Ở phần có nhắc thuật tốn sử dụng nhiều qtrình học có giám sát, phần thực hóa số thuật tốn vídụcụthể Vìthờigianbàihọccóhạnnênemxinchỉđiqua2thuậttốnlàKngườilánggiềnggầnnhấtvàthuậttốntuyếntính... emchạycácđoạnmãmàoutputcủanólàmột lượcđồ I Chương2: Supervisedlearning – Kỹthuậthọc cógiámsát Mởđầuvà địnhnghĩa 1.1 Địnhnghĩabanđầu Khái niệm kỹ thuật người đưa liệu đầu vào cho máy, đầura giá trị... Xétvídụvềviệckhảosát50sinhviênvớimụctiêu“Sinhviêncómuốnmuaxe máy?”,người hỏichuẩnbịsẵnnhữngtiêuđề: Khóahọc–Nơiở–Khoảngcách–Việclàmthêm(y/n) –Phương tiệnkhác =>Nhucầu Lẽdĩnhiênchúngtamuốnmộtmơhìnhđơngiảnnhấtcóthể-đưaradựđốnchính

Ngày đăng: 22/02/2023, 23:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w