BỘGIÁODỤCVÀ ĐÀOTẠO VIỆNHÀNLÂM KHOA HỌC VÀ CÔNG NGHỆ VNHỌCVIỆNKHOAHỌCVÀCÔNG NGHỆ LêAnhTú PHÁT TRIỂN CÁC CẤU TRÚC, THUẬT HỌC CỦA MẠNGNƠRONTỰTỔ CHỨC Chuyên ngành Cơ sở toán học cho tin họcMãsố 62460110 T[.]
BỘGIÁODỤCVÀ ĐÀOTẠO VIỆNHÀNLÂM KHOA HỌC VÀ CÔNG NGHỆ VNHỌCVIỆNKHOAHỌCVÀCÔNG NGHỆ LêAnhTú PHÁT TRIỂN CÁC CẤU TRÚC, THUẬT HỌC CỦA MẠNGNƠRONTỰTỔ CHỨC Chuyên ngành:Cơ sở toán học cho tin họcMãsố: 62460110 TĨMTẮTLUẬNÁNTIẾNSĨ TỐNHỌC HàNội -2016 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ - Viện HànlâmKhoahọcvàCôngnghệViệtNam Ngườihướngdẫnkhoa học:PGS.TS.NGUYỄNQUANGHOAN Phảnbiện1: Phảnbiện2: Phảnbiện3: Luậnánđượcbảovệtrước Hộiđồng chấmluậnáncấpHọcviện họptại: Vàohồi ngày tháng năm Cót h ể t ì m h i ể u l u ậ n n t i t h v i ệ n : MỞĐẦU Mạng nơron đồ tự tổ chức (SOM - Self Organizing Map) đề xuất giáo sư TeuvoKohonen vào năm 1980 Nó cịn biết đến với tên gọi khác là: Bản đồ đặc trưng tự tổ chức(SOFMSelfOrganizingFeatureMap)haymạngnơrontựtổchức,hayđơngiảnhơnlàmạngnơronKohonen ĐiểmmạnhcủaSOMlàkhảnăngkhaitháccácmốiliênhệcótínhcấutrúctrongkhơnggiandữliệu thơng qua đồ đặc trưng, nên phát triển để giải nhiều tốn thựctiễnhiệnnay.Tuynhiên,bảnthânmạngnơronSOMvẫncịntồntạinhiềunhượcđiểmdẫntớinhữngkhó khăn khả năngứngdụngthựctiễnbịhạnchế.Dovậy,cácnghiêncứuvềcảitiếncấutrúcvàthuật toán học mạng nơron SOM nhiều nhà nghiên cứu quan tâm Các nghiên cứu cảitiến mạng nơron SOM chia làm hai hướng chính, gồm: cải tiến cấu trúc cải tiến thuật toánhọccủamạng Cácnghiên cứu vềcải tiến cấutrúccủamạngcóthểđượcchialàm hai nhóm: Nhóm thứ gồm cấu trúc cải tiến tăng trưởng theo chiều ngang Các cấu trúc có đặcđiểmchunglàbanđầumạngcókíchthướcnhỏ,sauđómởrộngtrongqtrìnhhuấnluyệntùythuộcvàođặctính củatập dữliệu huấn luyện Nhóm thứ hai gồm cấu trúc cải tiến tăng trưởng theo chiều dọc, gọi cấu trúc (vớimỗi nút nơron) cấu trúc phân tầng (với nút mạng nơronSOMhoặcmộtbiếnthểcủaSOM).Cáccấutrúccâycóthểcốđịnhtrướckíchthước,nhưngcũngcóthểtăngt rưởngkíchthướctrongqtrìnhhuấnluyện,dođó,cịnđượcgọilàcấutrúccâytăngtrưởng.Cáccấu trúccâyđượcđưarachủyếu nhằm mụcđíchbiểu diễn tínhchất phân cấpcủadữliệu Các cải tiến thuật tốn học mạng chia làm hai nhóm chính: thuật tốn học cảitiến sử dụng phương pháp học không giám sát thuật tốn học cải tiến sử dụng phương pháphọcgiámsáthoặcbángiámsát.NhómthứhaihìnhthànhcácbiếnthểvớitêngọichunglàcácmạngnơronSO M giám sát hoặcbángiám sát Trêncơ sởnghiên cứuvềmạngnơronSOMgốcvàcácbiếnthểcủaSOMvềcấutrúcvàphươngpháphọc, có số vấnđềtồn cần tiếp tụcnghiêncứu phát triển sau: Thứnhất,đềxuấtcácphươngthứccảithiệnchấtlượngbảnđồđặctrưngkhácsovớicácphươngthứcđãcótrước đây;nghiêncứucảithiệnchấtlượngbiểudiễndữliệucủacácmạngnơronSOMcảitiến.Đâylàmộthướngnghiêncứumởdohiện naycácnghiêncứucảithiệnchấtlượngcácmạngnơronSOMcải tiến chưa có nhiều Thứ hai, SOM gốc hầu hết biến thể SOM chủ yếu thiết kế cho mục tiêu biểudiễndữliệu(biểudiễnsựphânbốhoặcsựphâncấpcủadữliệu)nênkhiứngdụngSOMchocácmụcđích khác cần nghiên cứu phương án cải tiến phù hợp Ví dụ, mạng nơron SOM chưa có phươngánphânloạidữliệu chínhxác,dođókhảnăngứngdụngSOMđểgiảiquyếtcácvấnđềcủakhaiphádữliệu (ví dụ phân lớp vàphân cụm)cịnhạnchế Thứba: dosửdụngphươngpháphọckhơnggiám sátnên họccủaSOMthiếuthơngtinhướngdẫnđểnângcao hiệuquảứngdụngtrongmộtsố dụnhưbàitốnphân lớpdữliệu qtrình bàitốnthựctế,ví Các tồn lý lựa chọn đưa mục tiêu nghiên cứu đề tài luận án Mục tiêunghiên cứu củađềtài luận án gồm: Đềxuấtmột sốgiảiphápcảithiệnchất lượngbảnđồ đặctrưngmạngnơron SOM Cảitiếncấutrúc,thuậttoánhọcmạngnơronSOMứngdụngchobàitoánphânlớp,phâncụmdữliệu Cácnộidungnghiêncứunàyđượcthựcnghiệmtrongphạmvidữliệudạngvectorthuộctínhsốthực;khơngá pdụngvớicácloạidữliệukhác.Chươngtrìnhthựcnghiệmđượccàiđặtbằngngơn ngữ lập trình C# tiến hành thực nghiệm tập liệu công bố sử dụng máy tínhmáytính cánhân (Chipset Corei5-1.7GHz, RAM6GB) Nội dung luận án bao gồm chương Chương đầu trình bày nghiên cứu tổng quan nộidung đề tài Các chương cịn lại trình bày đóng góp luận án Nội dung chươngcóthểtóm tắt sau: Chương1trìnhbàynghiêncứutổngquanvềmạngnơronnhântạo,mạngnơronSOM;tậptrungphân tích hạn chếvàbiệnphápkhắcphụccáchạnchếcủaSOMtrêncơsởnghiêncứucácbiếnthểđượccải tiến từSOM Chương 2trình bày nghiên cứu liên quan đến vấn đề đánh giá cải thiện chất lượng bảnđồ đặc trưng mạng nơron SOM từ đưa hai đề xuất, gồm: Thứ nhất, đưa tham số điềuchỉnh hàm lân cận đối xứng dạng mũ Tham số điều chỉnh xác định riêng cho tập dữliệu, cho phép giảm đồng thời lỗi lượng tử lỗi hình trạng mạng Thứ hai, đưa thuật tốnđiềuchỉnhtrọngsốnơronđểgiảmlỗilượngtửcủamạng,chophépgiảmlỗilượngtửcủamọibảnđồmàkhơngqu antâmđếncácthamsốcấuhìnhmạng,cũngnhưkhơnggiatăngthêmcácthamsốkhác.Nộidungcủađềxuất gồm định nghĩa, địnhlý, hệquảvàmột thuật toán Chương 3trình bày nghiên cứu liên quan đến cải tiến SOM giám sát bán giám sát nóichung áp dụng cho tốn phân lớp nói riêng, từ đề xuất cấu trúc SOM phân tầng tăngtrưởng thuật tốn học bán giám sát cho mục đích phân lớp liệu Mơ hình đề xuất hoạtđộng mơ hình phân lớp truyền thống (100% liệu huấn luyện có gán nhãn) mơ hìnhphânlớp bán giám sát Chương 4trình bày nghiên cứu liên quan đến việc cải tiến SOM áp dụng cho toán phâncụmdữliệu,từđóđưarahaiđềxuấtcảitiếncấutrúcvàthuậttốnhọcSOM,gồm:Thứnhất,cảitiếnthuật tốn học SOMchophéptừngbướchìnhthànhcáccụmvàhiệuchỉnhcácnơronthuộcvềmỗi cụm q trình học mạng Thứ hai, đưa cấu trúc SOM mở rộng hai lớp thuậttoán huấn luyện tương ứng cho mục đích phân cụm liệu Tiếp theo trình bày kết thực nghiệmcủacácphươngthứcđềxuất sosánh kết quảvới số phươngthứcphân cụm khác CHƯƠNG1:TỔNGQUANVỀCÁCMƠHÌNHMẠNGNƠRONTỰTỔ CHỨC 1.1 Tổngquanvềmạngnơronnhântạo Mụcnàycungcấpcáckiếnthứctổngquanvềmạngnơronnhântạogồm:kháiniệm,cácdạngkiếntrúccăn bản, cácphương pháp học, xu hướngpháttriển cácmạngnơron 1.2 Mạngnơrontựtổ chức b 1.2.1 Cấu trúcmạngnơron tựtổ chức MạngnơronSOMcócấutrúcđơnlớp(Kohonen,2001),g ồm:cáctínhiệuvàovàlớpra(đượcgọilàlớpKohonen), đó, tất đầu vào kết nốiđầyđủ với nơron trênlớp raKohonen a 1.2.2 Thuật toán học mạng nơron tự tổ chứcThuậttoánhọc củamạng nơrontựtổ c h ứ c hay thuậttốnSOM(Kohonen,2001),gồm4bước: Bước1Khởitạo:Kíchthướcmạng(làkíchthướclớpKohonen),vectortrọ ngsốcủacácnơron:khởitạogiátrịngẫunhiên, bánkính lâncận, tỉlệhọckhởitạo Hình 1 Minh họa cấu trúc SOM vớilớpKohonen chiều Bước2Cạnhtranh:Vớimỗimẫuđầuvàox(t)Rntạilầnhuấnluyệnthứt,tìmnơronkhớpnhấtvớimẫux(t).Nơroncđược gọi nơronkhớp nhất(BMU)nếu thỏamãncôngthức: dist xtwc min xtwi (1.1) i Bước 3- Hợp tác:Cơ sở cho hợp tác nơron phạm vi ảnh hưởng BMU hay cịn gọilàbán kính lân cậncủaBMU(kýhiệuNc(t)).Nc(t)đượcxácđịnh theocơng thức: t N tNe x p (1.2) c trongđó:tlàlânhuấnluyện(haylầnhọc);N cậncủaBMUtạilầnhọcthứt; làbán kính lâncận khởi tạo; Nc tlàbánkínhlân T làhằngsố thờigian, vớiTlà tổngsốlần học logN0 Bước4Thíchnghi:ĐiềuchỉnhtrọngsốcủaBMUvàcácnơrontrongbánkínhlâncậncủaBMUtheocơngthức: wit 1witL t hcitvwit (1.3) trongđó: - hci(t)là hàm nội suytheokhoảngcách (hayhàm lân cận), đượcxácđịnh theo côngthức: h texp c c i - rr2i (1.4) 2N 2t c vớircv ril vị trítươngứngcủanơroncvànơronitronglớp Kohonen Ltlà tỉlệhọctạilầnlặpthứt,với0 L t1).L tcó thểlàmộthàmtuyếntính,hàmmũ Cơngthức(1.5) làmột ví dụ củahàm xácđịnh tỉ lệhọc LtL t 1 T (1.5) trongđó:L0l tỉlệhọckhởitạo(01, lỗi hình trạngTEcó thể khơng tin cậy phụthuộcvào việckhởi trọngsố củanơron Dođó,việcđiều chỉnhthamsốpcótácđộngkhơngđángkểtớiviệccảithiệnchấtlượngbảnđồđặctrưngcủamạngnơron tựtổ chức Nhận xét:Tham sốqcó ý nghĩa tích cực việc cải thiện chất lượng đồ đặc trưng củamạngnơrontựtổchức.ThamsốqcànglớnthìQEcàngnhỏ,tuynhiênqđạtgiátrịphùhợpnhấtkhiTEnhỏ Do vậy, nghiên cứu sinh đề xuất cải tiến hàm lân cận với tham số điều chỉnh nhưsau: h texp qc c i r r2i (2.3) Nc t 2.3 Thuậttốnđiềuchỉnhtrọngsốnơronđểgiảmlỗilượngtử 2.3.1 Đặtvấnđề GiảsửIlà tậpdữliệu huấnluyện,sau huấnluyệntacó: (2.4) I I1,I2, ,Is trongđó:Iil tập mẫuđượcđạidiện bởinơron thứi, vớii=1 s;s=ablà tổngsố nơron;ablà kíchthướclớp Kohonen Nhưvậy,mỗitập conIit h ự c chấtlàmộtcụmdữliệutrongtrongtậpdữliệuđầuvào,vìthếtheok-meansthì cáccụm dữliệu tốt nếuhàm mụctiêuEtối thiểu: s E x centeri (2.5) i1x Ii trongđó,centeril t â m cụm thứi, xácđịnhtheo côngthức: centeri 1 (2.6) xI ix Ii với,|.|làsốphầntửcủamộttậphợp Tathấy,đểtốithiểuhóahàmmựctiêuEphảiđiềuchỉnhcácphầntửtrongmỗitậpIivà tâmcụm centeri GọiQilà giátrịlỗicủanơronthứi,đượcxácđịnhlàtổngkhoảngcáchcủacácmẫudữliệuthuộccụmIiđ ố i t r ọ n g sốwi, ta có: Qidx,wi (2.7) xIi trongđó:wil t r ọ n g sốcủanơroni;d(x,wi)làkhoảngcáchgiữavectorxvàvectorwi, dx,wi x wi với vector với: (2.8) Về nguyên tắc, số lần huấn luyện mạng lớn chất lượng đồ đặc trưng đượccảithiện.Tuynhiên,tỉlệhọccủamạnglàmộthàmgiảmdầntheothờigianhuấnluyện,nêntỉlệhọcL(t)0nếu tổng số lần huấn luyệnT Tức là, việc tăng số lần huấn luyện mạng q lớn làmtăngtổngthời gian tính tốn, cịn hiệu quảcảithiện chất lượngbản đồ đặctrưnglà khôngcao Spiral Jain Compound R15 D31 Iris Vowel Zoo 4.9053 5.2967 4.4481 2.2694 5.1947 0.7622 0.0200 2.6522 0.003 1.6328 1.8792 0.1667 1.6913 0.0483 1.4561 0.0526 0.9755 0.0033 1.2570 0.1639 0.3926 0.1867 1.5399 0.1222 0.9977 0.099 3.6889 3.7646 0.0054 3.0018 0.0050 1.8055 3.3776 0.5526 0.0133 2.2776 0.0172 1.3044 0.8728 0.3397 1.0424 0.1609 0.8799 0.2030 0.8900 0.0183 0.7306 0.0816 0.2398 0.2400 1.1500 0.4212 0.7192 0.1188 3.2971 0.0032 3.1354 0.0107 2.5214 0.015 1.5845 2.9099 0.001 0.4995 0.0133 2.1422 0.0121 1.2268 0.6095 0.3429 0.7534 0.1796 0.694 0.1955 0.5435 0.0117 0.6021 0.2094 0.1793 0.3067 0.9997 0.4485 0.6645 0.2574 Ghi chú:Các giá trị đạt có sai số0.02 lần thực nghiệm khác Kết củamỗitậpdữliệutrìnhbàytronghaidịng.DịngthứnhấtbiểudiễnđộđoQEvàdịngthứhaibiểudiễnđộđoTE 2.7 Kếtluậnchương2 Chươngnàyđãtrình bàyhai đềxuất đểcải thiện chất lượngbảnđồ đặctrưngcủamạngnơron tựtổchức.Đề xuất thứ nhất, bổ sung tham số điều chỉnh cho hàm lân cận đối xứng Gaussian Kết quảcóthểgiảmđượcđồngthờicảlỗilượngtửvàlỗihìnhtrạngcủamạng.Tuynhiên,giátrịcủathamsốđiều chỉnh phải xác địnhriêngđốivớimỗitậpdữliệucụthể.Đềxuấtthứhai,đưarathuậttốnđiềuchỉnhtrọngsốnơronđểgiảmlỗilượngtửcủamạng.Thuậttốncóthểgiảmlỗilượngtử củamạngmà khơng quan tâm đến tham số cấu hình, khơng gia tăng thêm tham số khác Tuynhiên,nhượcđiểm làlỗi hình trạngtăngtỉ lệnghịch với lỗi lượngtử CHƯƠNG3:MỘTMẠNGNƠRONTỰTỔ CHỨCCĨ CẤUTRÚCPHÂNTẦNG TĂNG TRƯỞNGVÀTHUẬTTỐNHỌCBÁNGIÁM SÁT CHO BÀITỐNPHÂNLỚP DỮLIỆU 3.1 Tổng quan mạng nơron tự tổ chức cải tiến học giám sát, bán giám sát cho phân lớpdữliệu 3.2 Phátbiểu bàitoán phânlớpdữliệu 3.3 Một cấu trúc phân tầng tăng trưởng thuật toán học bán giám sát mạng nơron tự tổchứccho toán phânlớp dữliệu Mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho toán phân lớp liệu,đượcgọilàGHSSOM(GrowingHierarchicalSemi-SupervisedSOM)[4A],[5A], [8A].CấutrúccủaGHSSOMđượclaighéptừcấutrúccủaGHSOM(GrowingHierarchicalSOM) (Rauber,2002),HTS(HierarchicalTreeStructure) [2A] vàcấu trúc giảgiám sátCPN(Zupan,1997) 3.3.1 Các cấu trúc tảng để xây dựng mạng nơron tự tổ chức phân tầng tăng trưởng học bángiámsát cho phân lớp dữliệu 3.3.2 Cấu trúc mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp liệuMỗin út c ủ a G H S S O M mộ t m n g SOM mở rộng, gồm có hai lớp tương tự mạngCPN.LớpthứnhấtgọilàXmap(haylớpKoho nen) Xmap đồ tự tổ chức biểu diễnđặc trưng mẫu đầu vào huấnluyện thuật tốn SOM gốc Lớp thứ hai gọilà Ymap.Ymaplàbảnđồphânbốđầura(nhãn)củadữliệu.Ymapcókíchthước Xmap.Tuynhiên,cácđơnvịtrênYmapkhôngđượccậpn hậtđồngthờicùngXmapgiốngnhưmạngCPN,màđược cậpnhật s au khiX map đãđượchuấn luyện xong Việc cập nhật nhãn cho Ymap đượcthựchiện theo hai bước: Bước1.Cậpnhậtnhãn:duyệttấtcảcácmẫudữliệuđã gán nhãn (x, y) thuộc tập liệuhuấn luyện, vớixlà mẫu đầu vào vàylà giá trịnhãn(đầuratươngứngcủax),vớiy>0.Quyướcy=0c hobiếtmẫuđầu vàoxchưađượcgán nhãn (trong trường hợp học bán giám sát, tập liệuhuấnluyệncóthểtồntạicácmẫudữliệuchưacónhãn) - Ymap y 2 1 3 Xmap -1 2 x Ymap Ymap -1 Xmap Xmap Hình3.1MinhhọacấutrúcmạngGHSSOM Xácđịnhnơronchiếnthắng(BMU)củaxtrênXmap.GiảsửnơronthứicủaXmapđượcxácđịnhlà nơronchiến thắng Kếtnạp mẫu dữliệu(x, y)vàotập dữliệu đượcđại diện bởinơron thứi Cập nhật nhãnycho Ymap theo nguyên tắc: Nếu nơron thứichưa gán nhãn sẽđược gán nhãn lày(vớiy>0) Ngược lại, nơron thứiđã gán nhãn, giá trịnhãn khácythì gán cho nơronimột nhãn đặc biệte=-1(elà nhãn lỗi dùng để đánhdấuvị trí nơron phân lớp sai nhãn lỗikhơng cótrongtập dữliệu) Bước2.Lantruyềnnhãn:vớimỗiđơnvịthứithuộcYmapchưaxácđịnhnhãn(giátrịnhãnbằng0),thựchiện: - Tìm Xmap nơron thứjcó vị trí tương ứng Ymap gán nhãn (là nhãn có trongtập liệu nhãn lỗie) thỏa mãn:ijvà trọng số nơron thứikhớp với trọng sốcủanơronthứj Gánnhãn củanơron thứibằngnhãn củanơron thứj:Ymap[i]=Ymap[j] Gántập dữliệu đượcđạidiệnbởi nơronthứibằng tậpdữliệuđượcđạidiệnbởinơron thứj Cách thức cập nhật nhãn Ymap cho phép GHSSOM giải toán phân lớpmà tập liệu huấn luyện đầy đủ nhãn (phân lớp truyền thống) có số lượng địnhmẫudữliệu có nhãn (phân lớp bán giám sát) Khi bắt đầu, GHSSOM khởi tạo với nút gốc có kích thướcab Xmap củanútgốcđượchuấnluyệnbởitấtcảcácmẫudữliệucủatậphuấnluyện(kýhiệulàI).SaukhixácđịnhnhãnchoYmapcủa nútgốcthìmỗinơronthứicủa Xmap đại diện cho tập liệuIiI,(vớii=1 s, s=ab) NguyêntắctăngtrưởngcủaGHSSOM: GiảsửmlàmộtnútcủaGHSSOM;klàmộtnơronthuộcnútmcógiátrịnhãnlàe;subnetlànút Ichild I parent contăngtrưởngtừnơronk;I parentl tậpdữliệuhuấnluyệnnútm, làtậpdữliệuhuấn luyệnnútconsubnet(tậpdữliệuđượcđạidiệnbởi nơronk).Xét theohai trườnghợpsau: Trườnghợp1:nếu|Ichild||Iparent| thìphátsinhnútconsubnetliênkếtvớinơronk.Kíchthướcnútconsubnetxácđịnh theo cơngthức: | I child ceil |Iparent | n parent | nchild (3.1) trongđó:n childl kíchthướcnútcon;n parentl kíchthướcnútcha; thamsốđiềuchỉnhmứcđộgiảmkíchthư ớcnútconsovới nútcha;ceil(): hàmlàm trịnlên;|.|sốphầntửtrongmộttập hợp Trườnghợp2:nếu|Ichild|=|Iparent|thìđiềuchỉnhlại nútđangxétm.Xétđiềukiệnsau: qek QE (3.2) trongđó:làthamsốxácđịnhngưỡngtăngtrưởng,cóvaitrịquantrọng, đảmbảochomạngkhôngrơivàotrạngthái“quá khớp” với liệu huấn luyện (overfitting1), với0