Có thể phân làm hai hoại: mẫu trừu tượng và mẫu cụ thể. Các ý tưởng, lập luận và khái niệm... là những ví dụ về mẫu trừu tượng, nhận dạng các mẫu như vậy thuộc về lĩnh vực nhận dạng khái niệm.Các mẫu cụ thể bao gồm các đối tượng có tính không gian, thời gian và hình ảnh, hoặc các đối tượng vật lý, chữ ký, chữ viết, ký hiệu, ảnh, đoạn sóng âm thanh, điện não đồ hoặc điện tâm đồ, hàm số...là những ví dụ về mẫu cụ thể.
MỤC LỤC MỞ ĐẦU CHƯƠNG 1: BÀI TOÁN PHÂN LỚP VÀ MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN.3 1.1 PHÁT BIỂU BÀI TOÁN PHÂN LỚP 1.1.1Mẫu (pattern/sample) .3 1.1.2Nhận dạng mẫu gì? 1.1.3Các toán nhận dạng mẫu thường gặp .4 1.2 MẠNG NEURAL NHÂN TẠO 1.2.1 Mạng Neural sinh học 1.2.2 Mạng Neural nhân tạo 1.3 PPHƯƠNG PHÁP K LÁNG GIỀNG GẦN NHẤT 10 1.3.1 Thuật toán k láng giềng gần gì? 10 1.3.2 Thuật toán KNN 11 CHƯƠNG 2: BẢN ĐỒ TỰ TỔ CHỨC 15 2.1 Giới thiệu 15 2.2 Thuật toán 16 2.3 Phân tích 22 CHƯƠNG 3: KANTS – HỆ KIẾN NHÂN TẠO CHO PHÂN LỚP 24 3.1 Giới thiệu 24 3.2 Các khái niệm mở đầu 25 3.2.1 Mô hình nhận thức bầy đàn hệ kiến nhân tạo .25 3.2.2 Nhắc lại SOM – đồ tự tổ chức 27 3.2.3 Ant System 27 3.3 Mô hình kiến tự tổ chức 29 CHƯƠNG 4: KẾT QUẢ VÀ THỰC NGHIỆM 34 4.1 Xây dựng chương trình kiểm thử 34 4.2 Chuẩn bị liệu kiểm tra 35 4.3 Sự phụ thuộc chất lượng thuật toán vào tham số 36 4.3.1 βδ – Độ ngẫu nhiên theo mùi .37 4.3.2 Tham số k thuật toán k láng giềng gần 39 4.3.3 Kích thước lưới 39 4.3.4 Bán kính lân cận 40 4.3.5 Tham số q0 40 4.3.6 Tham số bán kính trọng tâm cr 40 4.3.7 Tham số bay 41 4.3.8 Số lần lặp tối thiểu cách xác định điều kiện dừng thuật toán 41 4.4 Mở rộng KANTS 41 4.4.1 Giới thiệu Ensembler learning 41 4.4.2 Áp dụng ensembler learning vào toán phân lớp với KANTS 44 CHƯƠNG 5: KẾT LUẬN 46 MỞ ĐẦU Sự phát mạnh mẽ công nghệ cao nói chung khoa học máy tính nói riêng ngày thu hút nhiều nhà khoa học công nghệ quan tâm nghiên cứu toán nhận dạng mẫu Thoạt tiên, toán nhận dạng mẫu xuất phát từ nhu cầu tạo nên thành phần máy có khả quan sát môi trường Cùng với phát triển ứng dụng công nghệ thông tin, đặc biệt lĩnh vực học máy, người ta phải sâu phát triển hệ nhận dạng mẫu có khả tìm mẫu sở liệu lớn hay gọi khám phá tri thức từ liệu Phân lớp mẫu toán thường gặp nhận dạng mẫu phân thành hai loại có giám sát giám sát Trong toán phân lớp có giám sát, dựa tập liệu gán nhãn, người ta xây dựng phân lớp để gán nhãn cho liệu chưa biết Còn toán không giám sát, người ta phân tập liệu chưa gán nhãn thành các tập cho đối tượng liệu tập có đặc tính giống so với đối tượng tập khác Trong toán nhận dạng mẫu, toán phân lớp có giám sát toán ứng dụng rộng rãi Việc xây dựng phân lớp toán thực thuật toán học máy (học có giám sát) Với học có giám sát truyền thống, người thường phải bỏ nhiều công sức để gán nhãn cho tập liệu đào tạo muốn có học tốt Phương pháp đơn giản thông dụng để giải toán phân lớp k láng giềng gần Gần đây, phương pháp KANTS mô hành vi loài kiến kết hợp với đồ tự tổ chức (SOM) Kohonen Nội dung khóa luận trình bày khái quát phương pháp phân lớp KANTS, sở xây dựng chương trình thử nghiệm thuật toán C++ đánh giá hiệu với k khác Ngoài ra, xây dựng phân lớp nhờ phương pháp học tập hợp học với k khác có Kết thực nghiệm cho thấy, chất lượng học cải tiến đáng kể so với học thành phần Trong phương pháp kinh điển để giải toán phân lớp có giám sát, mô hình mạng neural nhân tạo phương pháp kláng giềng gần chứng tỏ tính hiệu Xong, hiệu suất độ xác phương pháp/mô hình chưa cao kì vọng Khóa luận xin trình bày thuật toán KANTS: kết hợp đồ tự tổ chức (một loại mạng neural nhân tạo) Kohonen phương pháp hệ kiến Chialvo Milonas Bố cục khóa luận gồm phần sau: Chương 1: Giới thiệu toán phân lớp hai phương pháp kinh điển để giải toán là: mạng neural nhân tạo phương pháp kláng giềng gần Chương 2: Giới thiệu đồ tự tổ chức Kohonen bao gồm kiến trúc luật học Chương 3: Phương pháp hệ kiến thuật toán KANTS Chương 4: Kết thực nghiệm mở rộng KANTS Chương 5: Kết luận 10 CHƯƠNG 1: BÀI TOÁN PHÂN LỚP VÀ MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN Chương trình bày khái niệm toán phân lớp học máy hai phương pháp kinh điển để giải toán nay: mạng neural kláng giềng gần 4.4.1 PHÁT BIỂU BÀI TOÁN PHÂN LỚP 4.4.2 Mẫu (pattern/sample): Có thể phân làm hai hoại: mẫu trừu tượng mẫu cụ thể Các ý tưởng, lập luận khái niệm ví dụ mẫu trừu tượng, nhận dạng mẫu thuộc lĩnh vực nhận dạng khái niệm Các mẫu cụ thể bao gồm đối tượng có tính không gian, thời gian hình ảnh, đối tượng vật lý, chữ ký, chữ viết, ký hiệu, ảnh, đoạn sóng âm thanh, điện não đồ điện tâm đồ, hàm số ví dụ mẫu cụ thể 4.4.3 Nhận dạng mẫu gì? Không có định nghĩa thống nhận dạng mẫu (Pattern recognition viết tắt PR) điều không gây tranh cãi giới nghiên cứu Sau số định nghĩa theo ngữ cảnh nghiên cứu: Duda et al: Nhận dạng mẫu việc quy đối tượng vật lí hay kiện vào loại (nhóm) xác định từ trước Jürgen Schürmann: Nhận dạng mẫu việc gán nhãn w cho quan sát x 11 Selim Aksoy: Nhận dạng mẫu việc nghiên cứu cách làm cho máy thực hiện: + Quan sát môi trường + Học cách phân biệt mẫu cần quan tâm + Đưa định đắn loại (nhóm) mẫu Như thay cho việc tìm định nghĩa xác cho khái niệm nhận dạng mẫu ta liệt kê toán lĩnh vực 4.4.4 Các toán nhận dạng mẫu thường gặp Các toán nhận dạng mẫu thường gặp quy dạng sau Phân lớp có giám sát hay phân loại (categorize): Dựa tập (tập đào tạo) biết nhãn, đưa cách gán nhãn cho đối tượng để phân tập đối tượng thành lớp Ví dụ: nhận dạng chữ viết tay nhờ chữ biết, nhận dạng loài hoa nhờ thông tin độ dài, độ rộng, màu sắc Phân lớp không giám sát hay phân cụm (cluster): Chia tập đối tượng thành nhóm cho đối tượng nhóm tương đối giống đối tượng khác nhóm khác Phân tích hồi quy (regression) hay nhận dạng hàm: Xác định biến (hàm) qua tập biến khác Nhận thực (Identify): Xác định đối tượng tập cho có đối tượng quan tâm hay không Chẳng hạn nhận thực vân tay, nhận thực mặt người Mô tả: Mô tả đối tượng hình thức dễ phân tích Chẳng hạn mô tả điện tâm đồ dạng biểu đồ đặc trưng xâu mã Khóa luận đề cập đến toán đầu tiên: Phân lớp có giám sát hay phân loại (categorize) Để hiểu rõ yêu cầu bài, xem ví dụ phần 1.3 phương pháp k láng giềng gần 12 4.4.5 MẠNG NEURAL NHÂN TẠO Bộ não người chứa đựng bí mật mà đến khoa học chưa giải đáp được, nhờ có não hoàn chỉnh mà người trở thành động vật bậc cao thống trị muôn loài Đã từ lâu người nghiên cứu cấu trúc đặc biệt não từ ứng dụng để giải toán khoa học kỹ thuật Người ta phát não người mạng lưới chằng chịt Neural liên kết với nhau, sở hình thành nên cấu trúc mạng Neural nhân tạo Về chất toán học mạng Neural nhân tạo mặt không gian đa chiều để xấp xỉ hàm chưa biết Nhưng mạng Neural nhân tạo lại giống mạng Neural sinh học chỗ huấn luyện(học), đặc điểm quan trọng mạng Neural nhân tạo Chính đặc điểm mà mạng Neural nhân tạo có khả thực tốt công việc sau huấn luyện, đến môi trường thay đổi ta lại huấn luyện lại mạng Neural nhân tạo để thích nghi với điều kiện 1.2.1 Mạng Neural sinh học Mạng Neural sinh học mạng lưới (plexus) Neuron có kết nối có liên quan mặt chức trực thuộc hệ thần kinh ngoại biên (peripheral nervous system) hay hệ thần kinh trung ương (central nervous system) Hình : Minh họa Neuron thần kinh sinh học Trên hình ảnh tế bào thần kinh(Neural thần kinh), ta ý thấy tế bào thần kinh có ba phần quan trọng: Phần đầu có nhiều xúc tu (Dendrite) nơi tiếp xúc với với điểm kết nối(Axon Terminal) tế bào thần kinh khác Nhân tế bào thần kinh (Nucleus) nơi tiếp nhận tín hiệu điện truyền từ xúc tu Sau tổng hợp xử lý tín hiệu nhận truyền tín hiệu kết qua trục cảm ứng (Axon) đến điểm kết nối (Axon Terminal) đuôi Phần đuôi có nhiều điểm kết nối (Axon Terminal) để kết nối với tế bào thần kinh khác Khi tín hiệu vào xúc tu kích hoạt nhân nhân Neuron có tín hiệu trục cảm ứng Neuron gọi cháy Mặc dù W Mculloch W.Pitts (1940) đề xuất mô hình mạng neural nhân tạo sớm định đề Heb (1949) tảng lý luận cho mạng neural nhân tạo Định đề Heb: Khi neuron(thần kinh) A gần neuron B, kích hoạt thường xuyên lặp lại việc làm cháy phát triển trình sinh hoá neuron làm tăng tác động 1.2.2 Mạng Neural nhân tạo Mạng Neural nhân tạo thiết kế để mô hình số tính chất mạng Neural sinh học, nhiên, khác với mô hình nhận thức, phần lớn ứng dụng lại có chất kỹ thuật Mạng Neural nhân tạo (ANN) máy mô cách não hoạt động thực hiên nhiệm vụ Một mạng Neural xử lý song song phân tán lớn giống não người mặt: Tri thức nắm bắt Neural thông qua trình học Độ lớn trọng số kết nối Neural đóng vai trò khớp nối cất giữ thông tin a) Cấu tạo Neuron mạng Neural nhân tạo Cấu tạo Neural nhân tạo Một neuron bao gồm liên kết nhận tín hiệu vào số có trọng số kết nối wi tương ứng với tín hiệu xi, hàm F gọi hàm kích hoạt để tạo tín hiệu dựa giá trị hàm tổng có trọng số giá trị đầu vào, Y giá trị đầu Neural Ta biểu diễn Neural nhân tạo theo công thức toán học sau: Tùy vào thực tế toán hàm F hàm cụ thể đấy, trình huấn luyện(học) tham số wi xác định Trên thực F thường chọn hàm sau: 1.5 0.5 1) Hàm ngưỡng 2 0.5 1.5 Hình : Đồ thị hàm ngưỡng 2) Hàm tuyến tính 2 4 Hình : Đồ thị hàm tuyến tính 0.5 3) Hàm sigmoid 2 Hình : Đồ thị hàm sigmoid 0.5 4) Hàm 2 0.5 Hình : Đồ thị hàm chọn lân cận cách sử dụng vòng quay sổ xố để xác định Pij xác suất cho lân cận j Hàm UpdateGrid giống hàm tương tự thuật toán kiến, tăng cường mùi lên đường mà kiến qua Tại bước đi, kiến k cập nhật đỉnh I sử dụng hàm học SOM [xem lại chương 2: đồ tự tổ chức] Và với mẫu liệu vào vector kiến mang theo ta có nvars biến, công thức là: Với Vi vector đỉnh i, t bước lặp tại, ak vector kết hợp với kiến k R loại tốc độ học tăng cường: Với α nhân tử tốc độ học thường thấy SOM (là số thuật toán này), CTRi lại trọng tâm vùng mà có tâm i Cuối D khoảng Ơ clit trung bình vector kiến vector tọng tâm: Như tất thuật toán kiến khác, điều quan trọng việc môi trường quay lại trạng thái trước (trạng thái khởi đầu) Việc bay KANTS thực đỉnh cho tất kiến di chuyển vào cập nhật môi trường Với ρ tham số bay thông thường Vi0 vector khởi tạo tương ứng với đỉnh i Hàm thay đổi vector để gần với giá trị khởi tạo Hàm hiểu mô bay vệt mùi môi trường Sau lưới tạo, thông thường ta sử dụng phương pháp tìm kiến địa phương để phân lớp Trong khóa luận dùng thuật toán k láng giềng gần để tìm nhãn cho ô lưới Sau đó, tiến hành test thuật toán k láng giềng gần Cụ thể sau: Pha 1: Với ô lưới, ta tìm k kiến huấn luyện có khoảng cách Ơ clit với nhỏ nhất, sau đó, dựa vào nhãn kiến huấn luyện ta tiến hành bỏ phiếu để lấy nhãn lớp bỏ nhiều nhất, gán nhãn cho ô Làm cho tất ô lưới Pha 2: Với liệu muốn test, ta đưa vào kiến, lại tính khoảng cách Ơ clit kiến với tất ô lưới Tìm k ô có khoảng cách Ơ clit gần với vector kiến Dựa vào nhãn ô tìm được, tìm nhãn xuất nhiều so sánh nhãn với nhãn thực kiến Nếu hai nhãn giống tức ta phân lớp Chương 4: KẾT QUẢ VÀ THỰC NGHIỆM Chương trình bày xây dựng phần mềm kiểm tra kết KANTS, so sánh với KNN, đồng thời phụ thuộc kết vào tham số Cuối chương trình bày thuật toán để cải tiến KNN 4.4.13.Xây dựng chương trình kiểm thử: Trong khóa luận này, viết chương trình để tính toán kiểm tra độ xác thuật toán phân loại KANTS, đồng thời viết chương trình cho thuật toán k láng giềng gần để tiện so sánh Chương trình viết ngôn ngữ C+ + Microsoft Windows công cụ Visual Studio Phần mềm gồm class chính: Cell, Ant Kants Mỗi đối tượng Cell biểu diễn ô lưới Mỗi đối tượng Ant biểu diễn kiến Kants đối tượng gồm mảng chiều ô (Cell) mảng kiến (Ant) Mỗi ô xác định tọa độ (x, y) Mỗi ô đặc trưng vector trọng số Số chiều ô xác định số chiều liệu đầu vào Ngoài ô có biến để xác định class tương ứng cờ để xác định có kiến ô chưa (trường hợp cho kiến ô) Mỗi kiến đặc trưng vector trọng số mà mang theo để huấn luyện mạng, vị trí (x, y) tọa độ ô mà đứng, class tương ứng với vector trọng số mà mang theo Ma trận trọng tâm xác định ma trận có kích thước với kích thước lưới Vị trí (x, y) ma trận trọng tâm vùng có tâm ô (x, y) lưới, tính trung bình cộng vector trọng số Tham số bán kính tâm tùy chọn chương trình, thông thường bán kính tâm xấp xỉ bán kính cụm tối ưu Hàm định Decide_where_to_go: Hàm xác định xem bước lặp, kiến đâu Theo KANTS nói trên: chương trình sinh số ngẫu nhiên q, q < q0 Chương trình chọn điểm (x, y) lưới cho khoảng cách Ơ clit vector vector kiến với vector ma trận trọng tâm (x, y) cho hàm xác xuất nhỏ Hàm updateVector: cập nhật vector xung quanh kiến theo vector Hàm centroid_calculate: tính lại ma trận trọng tâm sau bước lặp Hàm vote_cell: gán nhãn cho ô lưới dựa vào khoảng cách Ơ clit Hàm read_patterns: đọc mẫu vào Hàm main: trước hết chương trình đọc tham số vào, đọc file mẫu vào, khởi tạo lưới với trọng số ngẫu nhiên Đặt kiến ngẫu nhiên lưới Sau đó, bước lặp, chương trình tính ma trận trọng tâm, xác định bước cho kiến, cập nhật môi trường xung quanh, bay mùi đến thuật toán đạt điều kiện dừng Chương trình cho thuật toán k láng giềng gần đơn giản có hàm đọc liệu vào hàm vote để tính toán độ xác phân lớp 4.4.14 Chuẩn bị liệu kiểm tra Các tập liệu sử dụng để kiểm tra kiểm chứng mô hình sở liệu giới thực quen thuộc lấy từ UCI Machine Learning repository (http://archive.ics.uci.edu/ml/) IRIS chứa liệu gồm loài hoa iris( Iris Setosa, Versicolo Virginica), 50 mẫu loại thuộc tính số học ( độ dài độ rộng cánh đo cm) GLASS chưa liệu từ loại ống nhòm khác nghành tội phạm học Có lớp với 214 mẫu (được phân bố không lớp) đặc tính số học liền quan đến thành phần hóa học thủy tinh PIMA (cơ sở liệu bệnh đái đường Ấn độ) chứa liệu liên quan đến số bệnh nhân nhãn lớp biểu diễn chuẩn đoán bênh đái đường theo tiêu chuẩn tổ chức y tế giới Có 768 mẫu với thuộc tính số học (dữ liệu thành phần hóa học) Với sở liệu, tập dựng lên việc chuyển liệu gốc thành tập rời có kích cỡ Phân bố lớp gốc bảo toàn tập hợp Vậy cặp tập liệu traningtest tạo cách chia tập thành 2; chúng đặt tên 50tran50tst (nghĩa nửa để huấn luyện nửa để kiểm tra) Và, cặp khác tạo phân bố gồm 90% mẫu cho huấn luyện 10 % để kiểm tra Những tập đặt tên 90tra10tst Để phân lớp với KANTS, than số cần là: số lân cận cần so sánh với mẫu kiểm tra Theo cách này, thuật toán tìm kiếm K vector gần lưới (sử dụng khoảng cách Ơclit) tới vector tương ứng với mẫu muốn phân lớp Nó gán lớp cho mẫu lớp phần lớp vector tìm Nói cách khác ta sử dụng phương pháp KNearest Neihbours (KNN – hay K láng giềng gần nhất), trường hợp ta sử dụng đồng thời cho việc gán nhãn neural tìm nhãn lớp liệu kiểm tra nhiều lần thuật toán làm việc tốt chí với K = Với K = 10, ta có bảng so sánh KANTS KNN với tập liệu khác sau: Tập liệu KANTS KNN IRIS (91) 86.6666% 86.6666% PIMA(91) 72.7272% 71.4286% GLASS(91) 54.5454% 50.00% IRIS(55) 89.3333% 94.6667% PIMA(55) 70.833332% 73.4375% GLASS(55) 59.090908% 51.4019% Sử dụng cách tiếp cận thống kê, chạy 10 lần với cặp tập liệu (huấn luyện test) Thu kết phân loại tốt làm phép thống kê Khi so sánh với phương pháp kinh điển ta thấy KANTS trội hẳn chọn hệ số tốt 4.4.15.Sự phụ thuộc chất lượng thuật toán vào tham số: Các tham số có ảnh hưởng lớn đến chất lượng thuật toán, việc chọn tham số cho thường khó, phụ thuộc vào đặc điểm mẫu liệu huấn luyện: số mẫu, số lớp… Sau ta xét tiến hành thí nghiệm để xem tham số ảnh hướng đến kết 4.4.16 βδ – Độ ngẫu nhiên theo mùi: Trong [9] tác giả thực so sánh phân bố kiến AS, với cặp βδ không gian tham số khác Ba loại hành vi quan quan sát nhìn vào ảnh chụp hệ thống sau lặp lại 1000 lần: rối hoạn, vá lỗ hổng tạo đường mòn Rối loạn trạng thái mà cụm chưa phân, trạng thái hệ thống bắt đầu học, ta nhìn cụm trạng thái Vá lỗ hổng giai đoạn cụm hình thành chưa rõ ràng (chưa tròn), có “lỗ hổng” cụm, trạng thái hệ thống học sau số bước Tạo đường mòn giai đoạn mà vệt mùi hình thành rõ nét, cụm phân bố tương đối rõ, kiến theo “đường mòn” để cụm lại với Dưới biểu đồ thể phân bố phụ thuộc vào hai tham số βδ Các tham số α (nr) (cr) lấy là: 1, Nhìn vào biểu đồ ta thấy là: tham số lý tưởng để việc phân cụm diễn nhanh là: β ~ 3264 δ gần phụ thuộc tuyến tính vào β với δ ~ – 0.4 Quá trình làm thí nghiệm để rút điều kiện để tham số tối ưu, thu bảng thể phân bố kiến sau (): Hình : Sự phân cụm kiến theo tham sô Nhìn vào biểu đồ ta thấy trình miêu tả Dựa vào kết này, KANTS công cụ phân cụm hiệu đầy hứa hẹn Với tham số βδ khởi tạo hợp lí, liệu biểu diễn kiến tạo nên cụm, cụm dễ dàng phân biệt lưới Trong thực tế ta cần sử dụng số loại tìm kiếm địa phương để xử lí gán nhãn cho ô lưới dựa vào khoảng cách Ơ clit gán tìm k ô lưới gần với mẫu liệu test Phương pháp k láng giềng gần đủ tốt trình huấn luyện “làm mịn” liệu vào, xong chưa hoàn toàn “mịn” hẳn, cuối chương có giới thiệu phương pháp học tập hợp để cải thiện hiệu thuật toán trình huấn luyện làm mịn tăng thêm độ xác 4.4.17 Tham số k thuật toán k láng giềng gần nhất: K số xác định số lân cận dùng thuật toán KNN, thực tế sau lưới KANTS huấn luyện, k = cho kết đủ tốt Nguyên nhân phân cụm neural làm giảm đáng kể nhiễu Tuy nhiên, số neural lưới nhỏ mà số cụm (số nhãn lớp liệu huấn luyện) lại lớn bán kính cụm lại nhỏ, chọn k lớn có nhiễu, sai sốlớn đáng kể Ta có bảng thống kê sau: k Iris(9 1) 86.6666 % Pima 65.62500 93.33333 64.84375 36.36363 6% 0% 6% 4.4.18 86.66666 4% % Glass 93.33333 6% 69.79167 2% 63.63636 4% 69.01042 2% 59.09090 8% 93.33333 6% 70.83332 8% 59.09090 8% 54.54545 6% Kích thước lưới: Bảng thống kê khảo sáo thay đổi theo kích thước lưới: Kích thước Iris 30x50 35x50 50x50 80x50 100x100 80.00000 0% 80.00000 0% 86.66666 4% 86.66666 4% 80.00000 0% Pima 67.96875 0% 67.44792 2% 63.54166 8% 68.48957 8% 66.66667 2% Glass 40.90909 2% 54.54545 6% 59.09090 8% 63.63636 4% 59.09090 8% 4.4.19.Bán kính lân cận: Bảng thống kê với bán kính lân cận thay đổi: nr Iris(91) 86.66666 4% 80.00000 0% 86.66666 4% 86.66666 4% Pima(91) 68.831169 % 68.831169 % 66.23376 5% 67.532471 % Glass(9 1) 31.818182 % 45.45454 8% 50.00000 0% 59.09090 8% 4.4.20.Tham số q0: Tham số điều khiển cân khai thác khám phá Nghĩa khả kiến chọn đường để tìm cụm hay tiếp tục đường có nồng độ mùi cao Nhìn chung tham số q0 không ảnh hưởng nhiều đến kết phân loại với tập liệu nhỏ chương trình 4.4.21.Tham số bán kính trọng tâm cr: Bán kính trọng tâm, ảnh hưởng nhiều đến thời gian chạy thuật toán, cr nhỏ, thời gian chạy thuật toán nhỏ cụm nhỏ, khả kiến xa thấp, điều làm lưới xuất nhiều cụm bé cho kết phân lớp xác Tuy nhiên cr không lớn, cr lớn, thời gian chạy thuật toán lớn mà cụm vừa hình thành bị xé ra… Cr Iris(9 1) 86.66666 4% Pima( 91) 63.63636 4% Glass( 91) 86.66666 4% 63.63636 4% 59.09090 8% 86.66666 4% 86.66666 4% 63.63636 63.63636 4% 4% 59.09090 8% 59.09090 8% 86.66666 4% 63.63636 4% 59.09090 8% 59.09090 8% 4.4.22.Tham số bay Tham số thể tốc độ bay mùi, tốc độ bay lớn, vector ô lưới dễ tiến (0, 0), tức gần với class có vector trọng số nhỏ mà kiến chưa kịp cập nhật Nếu tốc độ bay nhỏ, vệt mùi khó hình thành, nhiều thông tin học tăng cường 4.4.23 Số lần lặp tối thiểu cách xác định điều kiện dừng thuật toán: Điều kiện dừng thuật toán bước lặp t xác định hình dạng lưới không thay đổi sau bước lặp t + Nghĩa có lặp thêm không thay đổi dạng lưới, thực tế điều khó xảy đồng thời lưới xảy hai hành động trái ngược nhau: bay mùi cập nhật mùi Hai hành động bù trừ khiến lưới không ổn định Tuy nhiên thay đổi đủ nhỏ, ta xem lưới đủ ổn định, xác định ổn định cách tính khoảng cách Ơ clit vector vector kiến vector mà kiến 4.4.24.Mở rộng KANTS: Trong thực tế thực gán nhãn cho ô cho liệu test, ta thực thuật toán k láng giềng gần (KNN), nhiên k láng giềng gần có nhược điểm số trường hợp liệu nhiễu làm sai kết Để làm giảm ảnh hưởng nhiễu, ta sử dụng Emsembler learning cho KNN, tức tiến hành bỏ phiếu với k thay đổi dựa kết này, tìm nhãn lớp bỏ nhiều sau giá trị k, gán cho nhãn lớp 4.4.25.Giới thiệu Ensembler learning: Ensembler learning trình học tập hợp mà nhiều mô hình nhiều liệu huấn luyện sử dụng phân loại, chiến lược kết hợp để sinh kết quả, kết hợp kết để sinh kết cuối Ensembler learning chủ yếu sử dụng để cải thiện (phân loại, dự báo, xấp xỉ…) hiệu suất mô hình, làm giảm khả lựa chọn không may mô hình xác Mô hình trực quan sau: Hình : Mô hình trực quan giải thích học tập hợp Giải thích sơ đồ: với mô hình (phương pháp) cho ta lời giải (đường biên phân lớp) khác nhau, tất có chung nhược điểm có sai số, ta cần giảm thiểu tối đa sai số này, lẽ di nhiên phương pháp cải thiện thêm nữa, nhiên kết hợp kết phương pháp theo tư tưởng thống kê, lời giải kết hợp cho kết đáng tin cậy Tức là, sơ đồ trên, đường biên gộp chung đường biên cho kết tin cậy Sơ đồ thuật toán: Hình : Mô hình nguyên lý học tập hợp Việc kết hợp học Ci cho ta kết cuối Ngoài có học tập hợp kết hợp mô hình chuyên gia, nghĩa với mô hình kết hợp với trọng số thể độ xác để tăng cường tốt Do tính phức tạp nên khoa luận đưa mô hình Mô sau: Hình : Ensembler learning với hỗ trợ mô hình chuyên gia 4.4.26.Áp dụng ensembler learning vào toán phân lớp với KANTS: Có hai gian đoạn mà ta áp dụng học tập hợp ensembler learning vào toán Thứ nhất: giai đoạn gán nhãn cho ô: việc gán nhãn cho ô i lưới việc áp dụng phương pháp k láng giềng gần để tìm nhãn lớp bỏ phiếu nhiều nhất, kết nhãn lớp gán cho ô Áp dụng học tập hợp, thay gán cho ô đó, ta chọn N kết quả, tức chọn cho k = 1,N Áp dụng phương pháp k láng giềng gần với k để tìm K nhãn bỏ phiếu, chọn nhãn bảo phiếu nhiều N gán nhãn cho ô Vậy việc gán nhãn hai lần bỏ phiếu, nhãn gán nhãn qua vòng hai Thứ hai: giai đoạn tìm nhãn cho mẫu liệu (phân lớp): Việc gán nhãn tiến hành tương tự giai đoạn thay gán nhãn cho ô, ta gán nhãn cho mẫu liệu thay tính khoảng cách với kiến, ta tính khoảng cách với ô Độ xác thuật toán tính tương tự Kết so sánh thuật toán cũ mới: Kiểu học KANTS KANTS với Ensembler learning thuật toán Với KNN Iris(91) 86.666664% 93.333336% Pima(91) 72.727272% 74.025978% Glass(91) 45.454548% 54.545456% Nhận xét: Nhìn chung ensembler learning có cải thiện thuật toán cho kết tốt KANTS thông thường, việc cải thiện nhiều hay phụ thuộc vào việc chọn tham số liệu huấn luyện Tuy nhiên trường hợp lưới KANTS đủ “mịn” việc N lớn làm sai số tăng lên Nếu N = thuật toán trở dạng ban đầu với k = CHƯƠNG 5: KẾT LUẬN Khóa luận trình bày thuật toán KohonAnts (hay gọi KANTS), phương pháp cho việc phân lớp liệu, dựa kết hợp thuật toán kiến đồ tự tổ chức Kohonen Mô hình đưa mẫu liệu nbiến vào kiến nhân tạo lưới xuyến 2D với vector nchiều Dữ liệu/kiến di chuyển lưới để tạo khác biệt mặt liệu, từ cụm hình thành Quá trình di chuyển kiến tạo độ mịn lưới Khi lưới đủ ổn định, kiến dừng ta tiến hành gán nhãn cho ô lưới Lưới sau gán nhãn giống lưới SOM huấn luyện, công cụ để phân lớp tốt nhiều công cụ thông thường khác Khóa luận đồng thời việc kết hợp KANTS với phương pháp học tập hợp cho kết khả quan Tuy nhiên hiệu KANTS phân lớp liệu phức tạp, nhiều biến, nhiều lớp tốt KNN xong nhiều hạn chế Việc chọn hệ số thích hợp khó khăn chắn cho kết tốt KNN ... luyện neural bị tác động để tạo khoảng cách với Quá trình tạo lên dạng ổn định lưới mà nhờ đó, liệu giống cụm lại gần CHƯƠNG 3: KANTS – HỆ KIẾN NHÂN TẠO CHO PHÂN LỚP Chương giới thiệu mô hình... neural nhân tạo) Kohonen phương pháp hệ kiến Chialvo Milonas Bố cục khóa luận gồm phần sau: Chương 1: Giới thiệu toán phân lớp hai phương pháp kinh điển để giải toán là: mạng neural nhân tạo phương... hoạt nhân nhân Neuron có tín hiệu trục cảm ứng Neuron gọi cháy Mặc dù W Mculloch W.Pitts (1940) đề xuất mô hình mạng neural nhân tạo sớm định đề Heb (1949) tảng lý luận cho mạng neural nhân tạo