Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
37,45 MB
Nội dung
Đ Ạ I H Ọ C Q U Õ C G IA H Ả N Ộ I PHƯƠNG PHÁP TÓI ƯU TÔ HỢP TRONG CÔNG NGHỆ TRI THỨC (B o c o tổ n g h ợ p D ê tài n g h i ê n c ứ u k h o a h ọ c c ấ p Đ H Q G H N K h o a q u n lý ) M ã số: Q C 05.04 C h ủ n h iệ m đ ề tài: H oàn g X u ân H u ấn ĐAI HOC G U Ố C GIA HA NỘI TRUNG TAM ĨHÒNG TIN THƯ VIỆN o õ õ b õ o c õ õ ~ ĩi _ H N ội - 0 M U* C L U* C l.Phần m đầu 1.1 D anh s ách n h ữ n g người tham gia thực đề tài 1.2.Tóm tất kết đề tài 3 Nội dung 2.1 Đặt vấn đ ề 2.2 T ồng quan cấn đề nghiên cứu 2.3 Nội d u n g kết nghiên c ứ u 2.4 Ket luận v kiến nghị .11 Tài liệu tham k h ả o 11 Phụ lục (Các báo đà cơng bố, trích tóm tắt hội thảo bìa luận văn thạc sỹ 4.1 M ulti-Level A n t System - a new approach through the ne w pherom one update for A nt Colony O p tim ization 13 4.2 Phương pháp lặp huấn luyện m ạng nội suy R B F 19 4.3 Một m rộng thuật toán phân cụm k-mean cho Jiệu hỗn h ợ p 3 4.4 Xác định phần tử ngoại lai sở liệu quan h ệ 39 4.5 Phát phần tử ngoại lai theo luật họp thành ứng dụng việc phát sai sót chửng từ kế toán 50 4.6 ủ n g dụng định vào xác định rủi ro kiểm to n 54 4.7 Phát phần tử ngoại lai sở liệu quan hệ n h phân tích hồi quy.58 4.8 Phân cụm nửa giám sát với mơ hình phân c ấ p 69 4.9 Tóm tắt báo cáo Đ Lạt 4.9.1 M ạng nơron R B F địa ph n g nội suy 82 4.9.2 Nâng cao hiệu thuật toán đàn kiến thông qua cài tiến đồ thị trạng thải 83 4.93 n g dụng kernel m ethod vào toán phân cụm liệu 85 4.10 Bìa luận văn T hạc sĩ 10.1 Giải thuật di truyền toán phân cụm liệ u 86 ld.2 Phân cụm d ữ liệu không gian có c hư ng ngại v ậ t 87 5.103 Hệ trợ giúp định công tác đảm bào kỹ th u ật 88 5.Phiếu đăng ký kết nghiên ciru 89 I Phần mỏ’Đầu Danh sách nguửi tham gia thực đề tài TT H ọ tên Học Chuyên vị ngành C q uan công tác Đinh M ạnh T ờng PGS Tin học K hoa C N T T Phạm H ông N guyên TS Tin học K hoa C N T T N guyên P hư ng Thái ThS Tin học K hoa C N T T Đinh Q uang H uy CN Tin học K hoa C N T T Phạm H ông Thái TS Tin học K hoa C N T T Hoàng thi N gọc T rang CM Tin học K hoa C N T T Lê M inh Khôi CN Tin học K hoa C N T T Bùi N gọc Thăng CN Tin học K hoa C N T T Đô Trung Tuân PGS Tin học ĐHKHTN 10 Đô Đức Dông CN Tin học H ọc viên cao học 11 Đặng Thị T hu Hiên ThS Tin học Đại học giao thông 12 Phạm Mạ Thủy ThS Tin học K iêm toán nhà nước ThS Tin học Đ H D L Hải Phòng 13 Nlguyên Thị X u â n H ơng 14 N guycn T ru n g T h ô n g sv Tin học K hoa C N T T , K 46 CA 15 H oàng X u â n H uân TS Tin học K hoa C N T T 16 Trân Q uôc Long ThS Tin học K hoa C N T T 17 N guyễn Văn Vinh ThS Tin học Cơng ty Lạc Việt 18 1Iồng V ăn Đức ThS Tin học Sỏ' giáo dục Hài phòng 19 Nguyễn Hữu Mùi MCS Tin học Đ IIS P H Nội T Ó M T Ấ T N H Ữ N G K ÉT Q U Ả C H ÍN H C Ủ A Đ È TÀ I N C K H Ten đề tài: Phương pháp toi ưu tổ hợp công nghệ tri thức ú v g dụng Mã số: QC 05.04 Chủ trì đề tài: TS Hồng Xn Huấn Những kết chính: а Kết khoa học Đc xuât cải tiến thuật loán đàn kiến, phân cụm liệu huấn luyện m ạng nơron, dể xuất cách tiếp cận phần tử ngoại lai sở liệu thuật tốn tìm kiếm chúng dựa nghiên cứu thử nghiệm ứng dụng kiểm tốn nhà nước Có báo báo cáo khoa học cơng bố tạp chí nước kỷ yếu hội nghị khoa học quốc tế quổc gia: Dinh Q uang I-Juy, Do Due Dong and Hoang X uan Huan, M u lti-L evel A n t System a new ap p ro a ch through the new ph evo m o n e update f o r A n t C olony O ptim ization Pro o r the th IEEE international conference on C om puter Sciences research, Inovation& Vision for J dture, Februry 12-16 2006, H CM city, Vietnam , 55-58 Phạm Mạ I huỷ, ÚhíỊ d ụ n g quyẽt định vào xá c định rủ i ro kiêm to n , Tạp chí kiềm toán số (60) (tháng 11-2005), 32-34 1loáng X uân H uấn Phạm Hạ Thuỷ, Phát p h ầ n từ ngoại lai tro n g c sờ d ữ liệu quan hộ n h ò 'p h â n tích hồi quy, Tạp chí tin học điều khiển học, T22, S l , 2006, 45-52 Phạm Hạ Thuỷ, X c định p h ầ n từ ngoại lai c s d ữ liệu quan /ỉệ.Tạp tin học diều khiển học, T 21, S4, 2005, 352-360 Phạm Hạ Thuỷ, P hải p h ầ n lử ngoại lai theo ỉuật hợ p thành ứng dụng IronX' viộc p h i sa i sót ng từ kê tốn, T ạp chí tin học tài chính, s 29 (lining 1-2005), 23-25 б I loãng Xuân I luấn Đ ặng Thị Tlui 1liền, P hư ng p h p lặp huấn luyện m ạng nội su y RIỈF Hội thào quốc gia vấn đề chọn lọc cùa C N T T Hải phòng, 25-27 iliáng năm 2005 N X B Khoa học kỷ thuật năm 2006, 274-283 Hồntí X n H uấn N guyễn Thị Xuân Hương, M ột m rộ n g thuật (oán p h â n cụm k-m ea n cho d ữ liệu hỗn hợ p , Hội thào quốc gia vân đê chọn lọc cùa C N T T lái Phòng, 25-27 tháng năm 2005, N X B K hoa học kỹ thuật năm 2006,284-290 H oàng X u â n H uấn N guyễn Trung Thông, Phân cụm nửa giám sát với m hình phân câp, K ỷ u hội thảo quôc gia lần thứ hai nghiên cứu bàn ứng dụng công nghệ thông tin (FAIR) 2005, 251-260 Ngồi có báo cáo khoa học trình bày hội thảo quốc gia vào tháng năm phát triển, hồn thiện dể cơng bố thức: 1-Jlồng X u â n H uấn Đ ặng Thị Thu Miền, M ạng non R B F địa ph n g nội suy, Báo cáo hội thào quốc gia lần thử vấn đề chọn lọc cùa công nghệ thông tin Đ Lạt, 15-17-6-2006 Tóm tẳt báo cáo trang 32 2- Đô Đức Đông; Đinh Q uang I-Iuy Hoàng X uân Huấn, N â n g cao hiệu thuật tốn đàn kiến thơng qua cải tiến đô thị Irạng thái., Báo cáo hội thào quốc gia lân thứ VC vân đê chọn lọc cùa cơng nghệ thơng tin Đà Lạt, 15-17-62006 Tóm tắt báo cáo trang 52 3-Bùi N gọc T hăng Hoàng X uân I-Iuấn, ủ n g dụng kernel m ethod vào toán phân cụm d ữ liệu.Báo cáo hội thảo quốc gia lần thứ vấn đề chọn lọc công nghệ thông tin Dà Lạt, 15-17-6-2006 T óm tắt báo cáo trang 87 b K ê t q u ả p h ụ c vụ th ự c tế (các sàn phẩm công nghệ, khả áp dựng thực tế) Đã có nghiên cứu khà ứng dụng tìm kiếm gian lận kiểm, phân loại bệnh y tế hỗ trợ kỹ thuật quân đội Các kết dược trình bày báo kc ên luận văn thạc sỹ dã bào vệ c Kct tạo Có luận văn thạc sĩ bão vệ, bôn luận văn k h i'đ a n g thực nghiên cứu sinh (một vừa mói thi tiến hành nghiên cứu năm nay) thực d K ế t q u ả n â n g cao tiềm lực k h o a học (nâng cao trình độ cán tăng cường trang thiết bị cho dơn vị) T hông qua xêm ine hàng tuần m ôn hoạt đông nghiên cứu, kiến thức đư ọ c câp nhật thườ ng xuyên, đặc biệt cho cán trù thực tập sinh Các giảng: m ạng noron ứ ng dụng, hệ hồ trợ định, học m áy hồn thiện thêm bước e T ìn h h ìn h sù' d ụ n g k ỉn h phí Kinh phí từ ngân sách nhà nước 50 triệu, chi hết hoán trá chửng lừ cho tài vụ trường I'ronii dó chi phí th nnrón 36 triệu bao gồm: nghiên cứu; lập trinh; thu thập dữ' liệu : chi cho nghiệp vụ chuyên mòn 14 triệu bao gồm: quàn lý, biên dịch, in án, phô tô, xẽminc khoa học, nghiệm thu CHỦ NHIỆM ĐÈ TÀI XÁC N H Ậ N CỦA Đ Ơ N VỊ (Ký ghi rõ họ tên) H o n g X u â n I-Iuấn X Á C NH ẶN CO QUAN CHỦ QUẢN Sum m ary S u b je c t: Cobinatoriaỉ optim ization mcthode in know ledge technology and applications C ode:Q C -05-04 M a in c h a rg e : Dr Hoang X u a n H uan Essential results a Scientific results B asing on experim ent study in audit review and som e applied fields, we propose and im prove algorithm s o f ACO, clstering, neural netw ork training, and propose a new aproach to study outliers in databases There are paper and scientific reports published in proceeding and journal, they are: Dinh Quang Huy, Do Due Dong and Hoang Xuan Huan, Multi-Level Ant System - a new approach through the new pheroinone update fo r Ant Colony Optimization Pro of the 4" IEEE international conference on Computer Sciences research, Innovation& Vision for l-'utiire, February 12-16 2006, HCM city, Vietnam, 55-58 Hoang Xuan l-luan and Dang Thi Thu Hien, An iterative Algorithm fo r Training Interpolation Radial Basis Function Networks, Proc o f Vietnam workshop on selected topics ill information technologies, 25-27th August 2005, scientific and technology publishers 2006, 284-290 (in Vietnamese) I Ioang Xuan l-Iuan and Nguyen Thi Xuan Huong, A generalization ofk-m ean algorithm for clustering mixture child, Proc of Viclnain workshop on sclcctcd topics in information technologies, 25-27th August 2005, scientific and technology publishers 2006, 284-290 (in Vietnamese) I Ioann Xuan Milan and Nguyen Trung Thong, sem i-supervised clustering with hicrachiciil model, Proc o f Vietnam workshop on fundamental and applied information technology research, September 2005, scientific and technology publishers 2006 25 1-259 (in Vietnamese) Pham Ha Tluiv, Ourlicrs detecting in relational databases Journal of Computer and cvbcrnelics,V.2l, No (2005), 352- 360 (in Vietnamese) 6 Pham Ha Thuy, applications o f decision trees in determinig audit-review risks, Journal o f audit review n (60) (N ovem ber 11-2005), 32-34 (in Vietnamese) Phạm Hạ Thuy, Ourliers delecting by associate rules and, Journal o f finance Informatics n 29 (N ovem ber-2005), 23-25 (in Vietnamese) 8.I lacing Xuan Huan and Pham ỈIa Thuy, Outlier discovery in relational databases by regression analysis, Journal o f computer and cybernetics, V.22, No I (2006), 45- 52 (in Vietnamese) b R esults o f p r a c t ic c se rv in g We h a v e studied the m odels to apply fields o f outlier detecting in audit review and clustering algorithm in health care c.Training results m aster thesis had been completed, other thesis are studying post graduate students d Knowledge Updating U pdate knowledge to every lecturer and researcher, improvement lcetures o f m achin learning, neural netw orks and applications, decision suport systems c finance using 50.000.000 VN D II Nội dung Đặt vấn đề Công nghệ tri thức lĩnh vực nóng thu hút nhiều nhà khoa học quan tâm nghiên cửu ứng dụng Lĩnh vực đòi hỏi kiến thức toán học, sờ liệu trí tuệ nhân tạo dể khám phá tri trức từ sở d ữ liệu lớn K hó khăn giải qut tốn cơng nghệ tri thức phải tìm m ột p h n g pháp thích hợp để giải tốn tối ưu tổ hợp tương ứng như: tìm kiếm lời giải, phân lóp dừ liệu tìm kiếm phần tử ngoại lai Đe dáp ứng với phát triển cùa nghiên cứu khoa học nâng cao trình dộ đào tạo trường, chủng tơi sâu nghiên cứu khả ứng d ụng tốn: • Phân lớp liệu ứng dụng y- sinh học, xử lý ảnh x lý ngơn ngữ tự nhiên • Thuật tốn toi ưu đàn kiến ứng dụng • Phát phần từ ngoại lai ứng dụng kiềm toán nhà nước Ngoài nghiên cửu chuyên sâu khả ứng dụng cụ thể, thông qua nghiên cứu xcminc khoa học môn, việc thực đề tài góp phần nâng cao trình độ khoa học cho cán cung cấp chủ đề nghicn cứu cho học viên sau đại học cán trẻ Tổng quan vấn đề nghiên cứu Bài loan p h ù n lớp d ữ liệu ứ ng dụng Phân lớp liệu toán lớn lũih vực học máy bao gồm toán: phân loại mẫu (học có giám sal) phân cụm (học không giám sát ngày chúng úng dụng rộng rãi dể khai thác d ữ liệu (D ata mining) Có nhiều thuật tốn phân lóp việc sử dụng chúng phủi tuỳ theo toán cụ thể Các thuật tốn phân lớp dang dược ứng dụng có hiệu dỏ phân loại; x lý vãn bản, chẩn đoán bệnh chọn ph n g pháp điều trị, nghiên cứu cấu trúc di truyền lồi sinh học, xử lý ảnh 2.2 Thuật tốn tối ưu đàn kiến ứ n g dụng Thuật toán tối ưu dàn kiến M Dorigo đề xuấl nhờ kết hợp tìm kiếm ngẫu nhiên học tăn" cưịng dỏ tìm lịi giải phát triển thành hướ ng nghiên cứu mới, dược gọi chung phươim pháp lối ưu dàn kiến để giải toán toi ưu tổ hợp khó hờ đề xuất mà tháim 11 năm 2003 M Dorigo nhận giải thư ng đặc biệt hội đồng châu âu Các năm 2000, 2002 dã có hội nghị quốc tế phư ng pháp A C O từ năm '’004 lói hùim năm có nliicu hội thào, hội nghị liên qitaa lỏi thuật toán lịnh vực ừng dụng nỏ 2.3 r i ì l h iệ n p h tin l n o ụ i la i n íỊ d ụ n g Phần từ ngoại lai dổi lượm; dừ liệu có nhiều khác biệt so với liệu khác tập liệu Bài toán phát phần từ ngoại lai topán lập toán phân lớp Tuy theo cách hiểu tính khác biệt mà người ta có định nghĩ khác vẽ phân tử ngoại lai va sở đưa Ihuật tốn tìm kiếm thích ứng V iệc tìm kiếm, phát phân tử ngoại lai tốn quan trọng data m ining có nhiều ứng dụng đê phát sai sót, gian lận tài kế tốn nói riêng làm dừ liệu nối chung Nội dung kết nghiên cứu Dưới chúng tơi trình bày kết nghiên cứu theo trình tự vấn đề nêu tách riêng mục cuối giới thiệu kết đào tạo ứng dụng 3.1 B ài loan p h â n cụm d ữ liệu Phân tập liệu thành tập cho đối tirợng tập tương tự nhau, đơi tượ ng thuộc tập khác khác theo nghĩa toán quan trọng khám phá tri thức từ liệu Trong số thuật toán phân cụm, thuật toán k-mean (M acQ ueen ,1967) có nhiều ưu điêm dược sử dụng rộng rãi, đặc biệt phân cụm lập liệu lớn Ban dâu thuật toán biên thê làm việc với liệu sơ, sau có mội số m rộng dể làm việc với liệu định danh d ữ liệu hỗn họp, thuật toán làm m ất m ột số ưu điểm cùa thuật tốn ngun thủy C húng tơi đề xuất mở rộng thuật toán cho liệu hỗn hợp gọi thuật tốn k-tâm, thuật cơng bổ [3]: "H oàng X uân H uấn N guyễn Thị X uân Mương, M ột m rộ n g ihuãl toán p h â n cụm k-m cun cho d ữ liệu hôn hợp, Kỷ yếu hội thào quốc gia vấn đề chọn lọc C N T T I lãi Phòng, 25-27 tháng năm 2005" Thuật toán thử nghiệm cho toán phân loại bệnh gan bệnh viện Việt tiệp Hài pl ơng Mặt khác, có nhiều ưu điểm, nhược điểm thuật tốn k-m ean là: 1) chất lượng cùa kết phân cụm phụ thuộc vào cách chọn tâm ban đầu, 2) khó xác định số cụm k Đẻ hạn chế nhươc điểm này, gần đày nhiều tác giả giải theo hướng học nửa giám sát, việc phàn cụm thực dựa thông tin bổ sung từ người dùng, n h mà hiệu quà cải thiện rõ rệt T uy vậy, cải tiến chưa đưa ph n g pháp phân tích để tăng hiệu xác dịnh sổ cụm cho ihuật toán C hú n g tơi đề xuất thuật tốn theo mơ hình phân cấp (xem [4]) nhờ kết hợp thuật toán Seedcd-K m ean (Basu ct al, 2002) với tiêu chuẩn thông tin Bayes để xác định số cụm k cụm Các thí nghiệm d ữ liệu chuẩn U C I cho thấy giãi pliúp (hực có V nựhĩa việc dự đốn K cách xác mà giữ dược càu Irúc cụm tơt Ngối nghiên cứu bước dầu vồ ứng dụng phư ng pháp hàm nhân (kernel m ethod ) vào toán phàn cụm liệu đà đựoc nhận báo cáo hội thào quôc gia lân thứ vồ vấn dồ c họn lọc cùa công nghệ thông tin Đ Lạt ngày 15-17/6/2006 (xem [10]) 3.2 Thuật tốn lịi ưu đàn kiên I huậl tốn tối ưu dàn kiến để tìm lời giải cùa toán tối ưu tổ hợp n h đưa toán cần giải vê toán tìm kiêm đồ thị cấu trúc nhờ thơng tin heuristic thông tin học tăng cường thể bời c ng độ vết mùi Chúng đề xuất phư ng pháp cập nhật mùi đa m ức để cải tiến hiệu thuật toán Thuật toán trình bày [11]: "Dinh Quang Huy, D o D u e D o n g and H oang X uan Huan, M u líi-L evel A n t System - a new approach through the new p h e ro m o n e update f o r A nt C olony O ptim ization Proc O f the 4th IEEE international conference on C om puter Sciences research, Inovation& Vision for Future" Ngoài m ột nghiên cứu ban đầu khác để nâng cao hiệu thuật tốn đàn kiến thơng qua cài tiến dồ thị trạng thái báo cáo hội thảo quốc gia lần thứ vấn dề chọn ỉọc công nghệ thông tin Đ Lạt (xem [9]) 3.3 Phát p h â n tử ngoại lai Cho đến tiếp cận nghiên cưu phát phần từ ngoại lai dựa vào phân tích nội đặc lính tập liệu mà chưa lấy thông tin từ nguồn liệu Chúng đu a khai niêm phân lừ ngoại lai sở liệu có phụ thuộc hàm Các phụ thuộc hàm naỳ ihông tin chuyên gia lĩnh vực nguồn d ữ liệu cung cấp Mơ hình phát triển dựa nghiên cứu ứng dụng cùa kiểm toán nhà nước cơng bổ Irong báo sau [3-6]: • Phạm Hạ Thuỷ, X c định p h a n tử ngoại lai c s d ữ liệu quan /ít?, l ạp chí tin học diều khiển học, T 21, S4, 2005, 352-360 • Phạm I lạ Thuỷ, Phát p h a n tử ngoại lai theo luật hợp thành thìg dụng việc p h i sa i sót trung chứng lừ kẻ tốn, Tạp chí tin học tài chính, s 29 (tháng 1-2005) 25-25 • Phạm Hạ Tliuỷ, ứ n g dụng định vào xá c định rủi ro kiêm tốn, Tạp chí kiêm tốn số (60) (tháng 11-2005), 32-34 • Hồng X n H uấn Phạm Hạ Tliuỷ, P hái p h ầ n tử ngoại lai CO' sở d ữ Hậu quan hệ nhỏ-phân tích hồi quy, Tạp chí tin học điều khiển học, T22, S l , 2006, 45-52 3.4 Dào tạo nâng cao trình độ cán X cm ine cua m ôn dược lổ chức vào thứ bày hàng tuần để cán học viên trình bàv kci nghicn cứu tìm hiểu dã góp phần nâng cao trình độ cán môn dặc biệt cán (rè Bộ m ơn có nghiên cửu sinh (mơt người thi năm nhưn" dã iham gia lừ Irước), thực tập sinh số học viên cao học nghiên cứu toán Irong lĩnh vực Trong có luận văn thạc sỹ dã bảo vệ thời gian qua: • N BIC (C* c hy - Loại bò c k C/, khỏi Q - Thêm c, vào Cì 2.3 Cfip nhật: - r < - c U n / / Them cụm tập Q vào tập c \ c u BIC ( O > Total BIC : Total_BIC (> }1 K É T QUẢ THÍ NG H IỆM Chúng tơi tiến hành thí nghiệm trẽn tập liệu letter (gồm 20000 đối tượng liệu) thuộc dử liệu clmân UCI [3] UCI ĩà liệu chuẩn nhà khoa học giới dùng đề đánh gin so sáiili thuật tốn với Trong dó, letter tập ỉiộii mó tã 26 chừ ill Im.i troi IU hộ clũr ticnj- Anh 20 dạng phông chữ khác Trong letter đổi tượniỉ liệu yồm có 16 thuộc tính kiỏLi số (nu m erical) Đế tim hiểu ảnh lurờng cùa tập giống đến trình phân cụm chúng tỏi dà tiến hành thí nghiệm hai thuật tốn H-KMcans S-KMcans (Seeded-KMcans) trcn tập oiốiiíỉ khác Biíng 1: Khả dự đốn số cụm thuật toán H-KMcans Ko 12 14 Kd 24 25 16 20 24 25 27 22 24 25 26 26 26 Kct quà bànu cho (háy số cụm dự đoán K,| chi bicn thiên tron” Uiiúiiị: 12-1 27) Kn bie.il t l ii ên k h o ả n g [ , ] , t ứ c K,| chi lệch I đ ế n c ụ m so với sơ c ụ m c h í n h x c I;'| f y Kỏt C|IKÌ ch o lliãy K() c n g lớn ílự đốn sơ cụm I l-KMcnns cán í' lót N lur tập íĩiơnụ có ànii lurỡny tiến clult lượng dự đoán số cụm cùa tlui(it toán I ỉ-kiYkvtns, nlnrim kliônl: qu.i lớn ! {(>11 the nữa, Kf> dền giá trị tối đa (là 26) Kj 26 Điều khang dinh định b o CỊII11 \;ì '_’hcp CỊII11 ihco tiêu cluuui BIC d tin cậy M ỗi tluiậl toán dền thực s lần ú liu, với tập giốn g cỏ số cụm giỏn g 12 M, 16 26 Thill'll toán S -K M c a n s nliịin số cụm cần phân Ị>iá trị K,| dự đoán dược từ thuật tốn I l-KMc:ins Nựồi ch ún g lỏi so sánh hai tluiậl toán H-KMcnns S-KMc; ms b;ìit” cách (lo L'iá IrỊ hám mục tiêu E (1) eiá trị BIC (2) tròn cụm thu sau thực hiên thuật toán, k ct q ỏ' hinh cho ta thấy tlmậí tốn I l-K M ea n s cho giá trị E nhỏ thuật tốn S-KM cnns, l,:iy nói cách klúc lí-KMo;ms c h o |;i mộl giỏi pliííp pliíln cụm lối ưu h(»n S-KMciins Ngtv'ii (it Iiị / ' ) ;i kn Illicit Iniin dều c ó XII 111rớm; gi.ìm số lượng cụm gi ống tăm: lẽn nhiên E ó' tluiịìi lo.'m S-KMuims uKim rát nhanh cị n E thuật tốn ! l-K M can s giảm chạm Diều chứng tó chát lượn ị: phãn cụm cua SKMcans H - K M c a n s bị ánh hường bời tập gióng, II-KM cans chịu linh liuớn;: ii hern Il on kết quà hình ch o lliầy thuật tốn H-K M cans ln cho gia tri BỈC lún hon thuật loán SKMeans N h so với S -K M c a n s H -K M cans có khả IO 1,1 in> ■ hinli \ C.XI tmc cụm hợp lý hon 257 í 88 - H -K m e a n s S -K m e a n s 82 79 73 S ổ c ụ m g iố n g 10 22 26 Hình 5: BIC S-KJ\lcans II-KMcans Ilinli 4: E cùa S-KMcans H-KMcans Như vậy, kct quà thu dược hình hình dã thổ ưu diôm vượt trội cùa ịiliuunt’ sứ dụng IIIỎ lilnli |)liì'tii c/ip (ờ llmíil lo/iii Il-KMciiiiíi) so Vi'ri pliưouy, |>liii|> sinh cụm Iigiui nhicn (ở thuật toán S-KMcans) việc bổ sung cụm thiếu tập giống chưa dầy dú KÉT LUẬN Phân cụm nửa giám sát kct hợp phương pháp học c ó giám sát phương pháp học khơng cú giám sát Quá trinh giám sát thổ thông qua tập thông tin bổ trợ cung cấp bời người dùng Những g trình nghiên cứu gần dây chi ràng phân cụm nửa giám sát có n h i ề u ưu diem so với phân cụm truyền thống Báo cáo cùa chúng tỏi đề xuắt thuật toán K - M e a n s p h â n cấp đổ giâi tốt toán mủ tliuật toán liiện xử lý hiệu quả, dó tốn phán cụm vói số lượng cụm cẩn phân hoạch K chưa dược xác dịnh xúc Phương pháp chúng tỏi tỏ liiộu quà vừa dựdoán tối giá Irị K, vừa giữ dược cấu trúc cụm tốt Trong thời gian tới chúng tơi thừ nghiệm áp dụng thuật tốn vào lĩnh vực cụ the tìm lliuậl tốn nứa giám sát cho liệu cỏ lliuộc tính dịnh danh i.uặc hỗn hợp TÀI LIỆU THAM KHẢO [I], Basil, S., Buncrjec, A., & M ooney, R J (2002) Scmi-supcrviscd clustering by seeding ['rt/c