Mạng nơron nhân tạo và mạng RBF
Tiểu luận : Trí tuện nhân tạo LỜI MỞ ĐẦU Các mô hình tính toán mô não người nghiên cứu nửa đầu kỷ 20 Mặc dù có nhiều mô hình khác đề xuất, song tất dùng cấu trúc mạng gọi nơron Các nơron xử lý tín hiệu số gửi tới từ môi trường bên từ nơron khác mạng thông qua kết nối sau gửi tín hiệu đến nơron khác môi trường Mạng nơron nhân tạo, gọi tắt mạng nơron lớp mô hình tính toán Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn lớn cho phép tạo thiết bị kết hợp khả song song cao não với tốc độ tính toán cao máy tính Trong năm gần mạng nơron nhân tạo nghiên cứu ứng dụng lĩnh vực y học, điều khiển,… đặc biệt ứng dụng nhiều lĩnh vực công nghệ thông tin Hàm xuyên tâm lên dạng mạng nơron nhân tạo vào cuối năm 80.Tuy nhiên, nguồn gốc chúng bắt nguồn từ kỹ thuật nhận dạng mẫu lâu đời nhiều hàm tiềm năng, chuỗi, ước lượng hàm, trục liên cực mô hình hỗn hợp Mạng nơron sử dụng hàm sở xuyên tâm (Radial Basic Function Neural Network – RBFNN) nghiên cứu nhiều năm gần Các nhà nghiên cứu thu kết lý thuyết định, với nhiều ứng dụng nhiều cải thiện cho RBFNN RBFNN sử dụng nhiều để giải toán nội suy loại mạng có khả xáp xỉ toàn cục tốt Nhận thức vấn đề trên, mạnh dạn chọn đề tài :” Mạng nơron nhân tạo Mạng RBF ” Nội dung đề tài gồm chương: Chương 1: NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO Chương 2: MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI CHO MẠNG BRF Em xin chân thành cảm ơn PGS.TS Nguyễn Thanh Thuỷ tận tình giúp đỡ cho em tạo điều kiện tốt cho em học tập hoàn thiện tiểu luận Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo Chương NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO 1.1 Nơron sinh hoc não người 1.1.1 Cấu tạo hạt động Nơron Các nhà nghiên cứu sinh học não cho ta thấy tế bào thần kinh (nơron) sở đảm nhiệm chức xử lý định hệ thần kinh, bao gồm não, tuỷ sống dây thần kinh Mỗi nơron có phần thân nhân bên (gọi soma), đầu thần kinh (gọi sợi trục axon) hệ thống dạng dây thần kinh vào (gọi dendrite) Các dây thần kinh vào tạo thành lưới dày đặc xung quanh thân tế bào, chiếm diện tích khoảng 0,25mm2, dây thần kinh tạo thành trục dài từ 1cm hàng mét.Đường kính nhân tế bào thường 10 -4m Trục dây thần kinh phân nhánh theo dạng để nối với dây thần kinh vào trực tiếp với nhân tế bào nơron khác thông qua khớp nối (gọi synapse) Thông thường , nơron gồm vài chục hàng trăm ngàn khớp nối để nối với nởon khác Người ta ước lượng dây thần kinh với khớp nối bao phủ diện tích khoảng 90% bề mặt nơron Thân tế bào Khớp nối Nhân tế bào Dây thần kinh vào Trục Hình 1.1 Hình ảnh tế bào nơron não người Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo Một số cấu trúc nơron thần kinh hình thành từ lúc bẩm sinh, số khác phát triển thông qua trình học Đây liên kết, tạo Quá trình phát triển điều đáng ý thời kỳ sống Cấu trúc nơron liên tục thay đổi hoàn thiện theo xu hướng thích nghi với điều kiện sống Các tín hiệu truyền dây thần kinh vào dây thần kinh nơron tín hiệu điện thực thông qua trình phản ứng giải phóng chất hữu Các chất phát từ khớp nối dẫn tới dây thần kinh vào làm tăng hay giảm điện nhân tế bào Khi điện đạt tới ngưỡng đó, tạo xung điện dẫn tới trục dây thần kinh Xung truyền theo trục, tới nhánh rẽ chạm tới khớp nối với nơron khác giải phóng chất truyền điện Người ta chia làm hai loại khớp nối: khớp nối kích thích (excitatory) khớp nối ức chế (inhibitory) 1.1.2 Cấu tạo số khả não Não tổ chức vật lý cao cấp, có cấu tạo vô phức tạp, dày đặc mối liên kết nơron xử lý thông tin linh hoạt môi trường bất định Trong não có khoảng 1011 – 1012 nơron nơron liên kết với 104 nơron khác qua khớp nối Những kích hoạt ức chế truyền qua trục nơron (axon) đến nơron khác Hình 1.2: Hình ảnh tế bào nơron não người Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo Phát quan trọng ngành nghiên cứu não liên kết khớp thần kinh mềm dẻo, biến động chỉnh đổi theo thời gian tuỳ thuộc vào dạng kích thích Hơn nữa, nơron sản sinh liên kết với nơron khác lưới nơron chuyển từ vùng sang vùng khác não Các nhà khoa học cho sở quan trọng để giải thích chế học não Phần lớn trình xử lý thông tin xảy vỏ não Toàn vỏ não bao phủ mạng tổ chức sở có dạng hình trụ tròn với đường kính khoảng 0,5 mm, độ cao mm Mỗi đơn vị sở chứa khoảng 2000 nơron Các nơron não đơn giản chế làm việc, chúng liên kết với nhau, có khả tính toán, suy nghĩ, ghi nhớ điều khiển Có thể điểm qua chức não sau: -Bộ nhớ tổ chức theo bó thông tin truy nhập theo nội dung (Có thể truy xuất thông tin dựa theo giá trị thuộc tính đối tượng) - Bộ não có khả tổng quát hoá, truy xuất tri thức hay mối liên kết chung đối tượng tương ứng với khái niệm chung - Bộ não có khả phán đoán theo nghĩa điều chỉnh tiếp tục thực có sai lệch thông tin bị thiếu hay không xác Ngoài ra, não phát phục hồi thông tin bị dựa tương tự đối tượng - Bộ não bị xuống cấp lại có khả thay Khi có trục trặc vùng não (do bệnh, chấn thương) bắt gặp thông tin hoàn toàn lạ, não tiếp tục làm việc - Bộ não có khả học 1.1.3 Mô hình Nơron sinh học Các nơron sinh học có nhiều dạng khác dạng hình tháp đại não, dạng tổ ong tiểu não, dạng rễ cột sống Tuy nhiên, chúng có cấu Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo trúc nguyên lý hoạt động chung Từ mô hình chung nhất, người ta mô tả chúng nơron chuẩn gồm phần bản: Hình 1.3: Mô hình nơron sinh học + Các nhánh rễ: phận nhận thông tin Các đầu nhạy hay đầu nơron khác bám vào rễ nhánh nơron + Thân thần kinh (Soma) chứa nhân quan tổng hợp prôtêin Các iôn vào tổng hợp biến đổi Khi nồng độ iôn đạt đến giá trị định, xẩy trình phát xung (hay kích thích) Xung phát đầu nơron Dây dẫn đầu xung gọi thần kinh (axon) + Dây thần kinh (axon): đầu Đó phương tiện truyền dẫn tín hiệu Dây thần kinh cấu tạo gồm đốt dài từ vài micro mét đến vài mét tùy kết cấu cụ thể Đầu truyền tín hiệu đến nơron khác + Khớp thần kinh (synape): phận tiếp xúc đầu nơron với rễ, nhánh nơron khác Chúng có cấu trúc màng đặc biệt để tiếp nhận tín hiệu Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo 1.1.4 So sánh khả làm việc não máy tính Người ta thấy não người lưu giữ nhiều thông tin máy tính đại Tuy nhiên điều mãi, lẽ tiến hoá não chậm, nhờ tiến công nghệ vi điện tử, nhớ máy tính nâng cấp nhanh Hơn nhớ không quan trọng so với khác biệt tốc độ tính toán khả xử lý song song Các vi xử lý tính 10 lệnh/s, mạng nơron xử lý chậm hơn, cần khoảng vài miligiây để kích hoạt Tuy nhiên, não kích hoạt lúc nhiều nơron khớp nối, máy tính đại có số lượng hạn chế vi xử lý song song Nếu chạy mạng nơron nhân tạo máy tính phải tốn hàng trăm lệnh để máy kiểm tra nơron có kích hoạt hay không (tiêu phí khoảng 10-8 × 102 giây/nơron) Do đó, dù vi xử lý tính toán nhanh hàng triệu lần so với nơron não, xét tổng thể não lại tính toán nhanh hàng tỷ lần Khi người ta nhìn não từ góc độ tính toán, dễ dàng phát cách thức tính toán não khác xa với tính toán thuật toán chương trình thường làm với trợ giúp máy tính Sự khác biệt trước tiên hai điểm quan trọng sau: - Quá trình tính toán tiến hành song song gần hư đồng thời phân tán nhiều nơron - Tính toán thực chất trình học theo sơ đồ định sẵn từ trước Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn lớn cho phép tạo thiết bị kết hợp khả song song cao não với tốc độ tính toán cao máy tính Tuy vậy, cần phải có khoảng thời gian dài để mạng nơron nhân tạo mô hành vi sáng tạo não người Chẳng hạn, não thực nhiệm vụ phức tạp nhận khuôn mặt người quen sau không giây, Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo máy tính phải thực hàng tỷ phép tính (khoảng 10 giây) để thực thao tác với chất lượng nhiều, đặc biệt trường hợp thông tin không xác, không đầy đủ 1.2 Mạng Nơron nhân tạo 1.2.1 Mạng Nơron nhân tạo số khái niệm Mạng nơron nhân tạo mô xử lý thông tin, nghiên cứu từ hệ thống thần kinh sinh vật, giống não để xử lý thông tin Nó bao gồm số lượng lớn mối gắn kết cấp cao để xử lý yếu tố làm việc mối liên hệ giải vấn đề rõ ràng Mạng nơron nhân tạo giống người, học kinh nghiệm, lưu kinh nghiệm hiểu biết sử dụng tình phù hợp Để có nhìn tổng quát mạng nơron nhân tạo, trước hết tìm hiểu qua mạng nơron sinh học 1.2.1.1 Mô hình mạng Nơron nhân tạo Từ sở nghiên cứu nơron sinh học, xây dựng mô hình nơron nhân tạo theo ngôn ngữ ký hiệu chung (hình 1.4) Mô hình nơron nhân tạo xây dựng từ ba thành phần chính: tổng liên kết đầu vào, động học tuyến tính, phi tuyến không động học Hình 1.4: Mô hình mạng Noron nhân tạo Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo + Bộ tổng liên kết: Bộ tổng liên kết đầu vào phần tử nơron mô tả sau: m V (t ) =WY (t ) +∑ b x u x (t ) +I k =1 (1.1) Trong đó: V(t) tổng tất đầu vào mô tả toàn tác động thân nơron ux (t) đầu vào mô tả tín hiệu vào từ khớp nơron tới nơron tại, m số đầu vào, k= 1,…,m; Y(t) đầu nơron (còn dung làm đầu vào phản hồi, đầu vào cho nơron khác) mô tả tín hiệu bx trọng liên kết đầu vào ngoài, hệ số mô tả mức độ liên kết đầu vào với nơron W trọng liên kết đầu vào trong, hệ số mô tả mức độ liên kết nơron mạng nơron, liên kết phản hồi, tự liên kết I ngưỡng, xác định ngưỡng kích thích hay ức chế (hằng số) + Phần động học tuyến tính: Đầu vào phần động học tuyến tính đầu tổng liên kết v(t) Đầu u(t) tìn hiệu dạng tương tự Có nhiều hàm để mô tả phần động học tuyến tính Dùng toán tử Laplace mô tả hàm truyền phần động học tuyến tính ta dạng: X (s) = H ( s ).V ( s ) (1.2) Trong miền thời gian phương trình (1.2) viết: ∞ X (t ) = ∫h(t −t ' )v (t ' ) dt (1.3) −∞ + Phần phi tuyến: Phần phi tuyền phần sử dụng hàm g(.) cho đầu y với đầu vào x(t): y =g ( x (t )) Lớp CHCNTT - K0810 (1.4) Tiểu luận : Trí tuện nhân tạo 1.2.1.2 Mạng Nơron nhân tạo Cũng nơron sinh học, nơron nhân tạo liên kết với để tạo thành mạng Có nhiều cách để kết hợp nơron thành mạng, cách kết hợp tạo thành lớp mạng khác Với mạng nơron nhân tạo, có ba lớp kiến trúc sau: a Các mạng tiến (feedforward) đơn mức Trong mạng nơron phân mức, nơron tổ chức dạng mức Với dạng đơn giản mạng phân mức, có mức đầu vào gồm nút nguồn chiếu trực tiếp tới mức đầu gồm nơron Như vậy, mạng thực chu trình Được minh họa (hình 1.9) trường hợp ba nút với mức đầu đâu vào Một mạng gọi mạng đơn mức Mức đầu vào gồm nút nguồn Mức đầu gồm nơron Hình 1.5: Mạng tiến với mức Nơron b Các mạng tiến (feedforward) đa mức Lớp thứ hai mạng nơron tiến phân biệt có mặt hay nhiều mức ẩn, mà nút tính toán chúng gọi nơron ẩn hay đơn vị ẩn (thuật ngữ ẩn mang ý nghĩa không tiếp xúc với môi trường) Chức nơron ẩn can thiệp vào đầu vào đầu mạng cách hữu hiệu Bằng việc thêm vài mức ẩn, mạng có khả rút thống kê bậc cao tín hiệu đầu vào Khả Lớp CHCNTT - K0810 Tiểu luận : Trí tuện nhân tạo nơron ẩn rút thống kê bậc cao đặc biệt có giá trị mức đầu vào có kích thước lớn Các nút nguồn mức đầu vào mạng cung cấp phần tử vectơ đầu vào, chúng tạo nên tín hiệu đầu vào cho nơron (các nút tính toán ) mức thứ hai (mức ẩn thứ nhất) Các tín hiệu đầu mức thứ hai sử dụng đầu vào cho mức thứ ba, phần lại mạng Về bản, nơron mức mạng có đầu vào chúng tín hiệu đầu mức đứng liền trước (điều khác thực tế cài đặt) Tập hợp tín hiệu đầu nơron mức đầu mạng tạo nên đáp ứng toàn cục mạng vectơ đầu vào cung cấp nút nguồn mức đầu vào Đồ thị (hình 1.6) minh họa cấu trúc mạng nơron tiến đa mức cho trường hợp mức ẩn Mạng nơron (hình 1.6) gọi kết nối đầy đủ với ý nghĩa tất nút mức mạng nối với tất nút mức tiếp sau Nếu số kết nối synapse không tồn mạng, nói mạng kết nối không đầy đủ Mức đầu vào gồm nút nguồn Mức ẩn gồm nơron ẩn Mức đầu gồm nơron đầu Hình 1.6: Mạng tiến kết nối đầy đủ với mức ẩn mức đầu Lớp CHCNTT - K0810 10 Tiểu luận : Trí tuện nhân tạo learning process), trình chứa hai giai đoạn khác (Moody Darken, 1989; Lippmann 1989, Chen 1992): - Giai đoạn học tự xếp: Mục đích giai đoạn ước lượng vị trí phù hợp tâm hàm sở xuyên tâm tầng ẩn - Giai đọan học có giám sát: Giai đoạn hoàn thành trình thiết kế mạng việc ước lượng trọng số tuyến tính tầng Mặc dù xử lý theo lô sử dụng để thực thi hai giai đoạn học trên, người ta thích dùng cách tiếp cận thích nghi (adaptive approach) hay gọi cách tiếp cận lặp (iterative approach) Ở giai đoạn học tự xếp cần sử dụng thuật toán phân nhóm, thuật toán phân chia tập điểm liệu cho trước vào nhóm con, nhóm tốt Một thuật toán hay sử dụng thuật toán phân nhóm trung bình k (Duda Hart, 1973), thuật toán đặt tâm hàm sở xuyên tâm vào vùng không gian vào có liệu quan trọng Cho m biểu diễn số lượng hàm sở xuyên tâm; việc chọn giá trị phù hợp cho m cần phải qua thực { nghiệm Gọi t (n)} k =1 tâm hàm sở xuyên tâm lần lặp n n k thuật toán Khi thuật toán trung bình k phát biểu: Khởi tạo: Chọn ngẫu nhiên giá trị tâm khởi tạo t k(0); có điều kiện tâm phải khác Cũng dùng chuẩn tắc Euclidean cho tâm nhỏ Lấy mẫu: Rút véc tơ mẫu x từ không gian vào H với xác suất Véc tơ x đầu vào thuật toán lần lặp thứ n Tìm tương đồng: Gọi k(x) số tâm giống véc tơ x Tìm k(x) lần lặp n nhờ sử dụng tiêu chuẩn khoảng cách Eucidean nhỏ nhất: K(x) = arg min||x(n)-tk(n)||, k = 1, 2, …, m1 Trong tk(n) tâm thứ k hàm sở xuyên tâm lần lặp n Lớp CHCNTT - K0810 31 Tiểu luận : Trí tuện nhân tạo Cập nhật: Điều chỉnh tâm hàm sở xuyên tâm nhờ sử dụng luật cập nhật sau: t (n) + η [ x (n) − t k (n)] if k = k(x) t k (n + 1) = t k (n), if khac Trong η tham số cho biết tốc độ học, nằm khoảng (0,1) Lặp: Tăng n lên quay lại bước 2, tiếp tục thuật toán thay đổi đáng kể xảy với tâm tk Hạn chế thuật toán phân nhóm trung bình k thu lời giải cực tiểu địa phương, điều phụ thuộc vào lựa chọn khởi tạo cho tâm nhóm Do mà tài nguyên tính toán bị lãng phí, số tâm hởi tạo bị kẹt vùng có điểm liệu không gian vào, hội để di chuyển đến vùng mà lẽ chúng nên di chueỷen đến Mạng thu sau huấn luyện mạng lớn tới mức không cần thiểt Để khắc phục nhược điểm hai tác giả Chinunrueng Sesquin đưa thuật toán phân nhóm trung bình k cải tiến (1994), thuật toán cải tiến dựa phân nhóm sử dụng độ đo biến đổi trọng số, độ đo cho phép thuật toán hội tụ tới cấu hình tối ưu hay gần tối ưu, độc lập với việc khởi tạo vị trí tâm Các tâm hàm sở xuyên tâm Gaussian độ rộng chung chúng xác định nhờ thuật toán phân nhóm trung bình k phiên cải tiến nó, giai đoạn cuối trình học lai tạo nhằm ước lượng trọng số tầng Một phương pháp đơn giản cho việc ước lượng sử dụng thuật toán bình phương tối thiẻu (Least Mean Square- LMS) Véc tơ chứa tín hiệu vào sinh tầng ẩn tiếp tục trở nên véc tơ vào cho thuật toán LMS Cũng cần lưu ý đơn vị sử dụng trình tính toán riêng chúng theo cách đồng thời nhằm tăng tốc cho trình học 2.3.3 Chọn tâm có giám sát Lớp CHCNTT - K0810 32 Tiểu luận : Trí tuện nhân tạo Trong cách tiếp cận thứ ba này, tâm hàm sở xuyên tâm toàn tham số tự khác mạng tham gia vào trình học có giám sát; nói cách khác RBFNN sử dụng dạng tổng quát Một phương pháp sử dụng trình học hiệu chỉnh lỗi (error – correction learning), cài đặt dễ dàng sử dụng thủ tục giảm gradient, thủ tục biểu diễn dạng tổng quát hóa thuật toán LMS Bước thủ tục học định nghĩa giá trị tức thời hàm giá sau: N E = ∑ ej j =1 Trong N kích thước tập liệu mẫu sử dụng vào việc học e j tín hiệu lỗi định nghĩa bởi: M ( e j = d j − F ( x j ) = d j − ∑ ω i G x j − t i ci * i =1 ) (2.22) −1 Yêu cầu tìm tham số tự ωi, ti, ∑ i (liên quan tới ma trận chuẩn tắc trọng số Ci) để giảm thiểu hàm giá E Với vấn đề khởi tạo thủ tục giảm gradient, thường bắt đầu tìm kiếm không gian tìm kiếm từ điều kiện khởi tạo có trước, điều kiện hạn chế vùng không gian tham số tìm kiếm vào vùng có ích biết trước, điều đạt nhờ thực thi phương pháp phân lớp mẫu chuẩn (Lowe, 1991a) Khi làm khả hội tụ tới cực tiểu địa phương không gian trọng số giảm 2.5 Thuật toán lai cho mạng RBF Ở trình bày thuật toán lai việc huấn luyện mạng RBF Thuật toán bao gồm thuật toán gom cụm để định vị trung tâm RBF bình phương nhỏ Givens để dự đoán trọng lượng, bắt đầu việc thảo luận toán gom cụm để định vị trung tâm RBF Sau đó, thuật toán gom cụm gọi thuật toán gom cụm K-means động Lớp CHCNTT - K0810 33 Tiểu luận : Trí tuện nhân tạo đề xuất để giải toán Sự thực thuật toán sau so sánh với thuật toán gom cụm k – means thích ứng, k – means không thích ứng c – means mờ Sự thực chung mạng RBF có sử dụng thuật toán đề xuất tốt nhiều so với mạng sử dụng thuật toán gom cụm khác Sự thực mạng hàm sở xuyên tâm đối xứng (RBF) bị ảnh hưởng vị trí trung tâm hàm xuyên tâm đối xứng Trong mạng có quy tắc dựa kiến trúc RBF đươc Poggio Girosi đưa (năm 1990), tất liệu huấn luyện dùng trung tâm Tuy nhiên, điều dẫn đến tương thích mức mạng mà số lượng liệu trở nên lớn Để giải vấn đề này, mạng với số lượng trung tâm hạn chế Poggio Girosi đề xuất (1990) Họ cập nhật quy tắc cho trung tâm RBF xuất phát từ phương pháp giảm gradient khiến cho trung tâm dịch chuyển tới gần phần đa số liệu Kết gợi ý thuật toán gom cụm sử dụng để định vị trung tâm Một ứng dụng rộng rãi thuật toán gom cụm để định vị trung tâm RBF gom cụm k – means (Chen et al năm 1992, Moody Darken năm 1989, Lowe năm 1989) Sự lựa chọn nảy sinh tính đơn giản thuật toán Tuy nhiên, thuật toán gom cụm k – means bị ảnh hưởng trung tâm ban đầu việc tìm kiếm vị trí trung tâm lý tưởng gây mức tối thiểu địa phương khiêm tốn Khi trung tâm xuất phi tuyến tính mạng, thuật toán giám sát để định vị trung tâm phải dựa kỹ thuật lý tưởng phi tuyến tính Hậu là, thuật toán gặp vấn đề tương tự thuật toán gom cụm k – means Rất nhiều nỗ lực thực để hạn chế tối thiểu vấn đề này, thuật toán gọi gom cụm k – means đề xuất biến thể hay cải tiến thuật toán gom cụm k – means tiêu chuẩn Thuật toán Lớp CHCNTT - K0810 34 Tiểu luận : Trí tuện nhân tạo đề xuất thiết kế để đem lại thực tốt toàn thể mạng RBF mang lại thực gom cụm tốt Tuy nhiên, có tương quan mạnh mẽ gom cụm tốt thực mạng RBF 2.5.1 Các toán gom cụm Hầu hết thuật toán gom cụm làm việc giả định trung tâm ban đầu cung cấp Việc tìm kiếm cụm hay trung tâm cuối trung tâm ban đầu Nếu khởi tạo cách thích hợp, thuật toán sản sinh loạt trung tâm cuối khiêm tốn toán trở nên nghiêm trọng liệu gom cụm sử dụng thuật toán gom cụm trực tuyến Nói chung, có toán mà thông thường lên gom cụm, là: - Các trung tâm chết - Sự dư thừa trung tâm - Mức tối thiểu địa phương Các trung tâm chết trung tâm mà thành viên liệu liên hợp Các trung tâm chết thường nằm hai trung tâm hoạt động nằm vùng liệu Bài toán phát sinh trung tâm ban đầu tồi, trung tâm khởi tạo xa so với liệu Do đó, ý tưởng hay để lựa chọn trung tâm ban đầu cách ngẫu nhiên từ liệu tập hợp trung tâm ban đầu tới số giá trị ngẫu nhiên vùng liệu Tuy nhiên, điều không đảm bảo tất trung tâm hoạt động (ví dụ có số lượng thành viên) Một số trung tâm có nhiều thành viên thường xuyên cập nhật suốt trình gom cụm số trung tâm khác có vài thành viên cập nhật Vì vậy, có câu hỏi đặt là, gom cụm không cân ảnh hưởng Lớp CHCNTT - K0810 35 Tiểu luận : Trí tuện nhân tạo tới thực mạng RBF làm để vượt qua vấn đề này? Các trung tâm mạng RBF lựa chọn để làm tối thiểu tổng khoảng cách liệu trung tâm trung tâm mô tả thích đáng liệu Một hàm chi phí bình phương sử dụng rộng rãi đơn giản dùng để đo khoảng cách, định nghĩa: nc N E = ∑ ∑ ( vi − c j ) j =1i=1 (2.23) Trong N nc số lượng liệu số lượng trung tâm theo thứ tự định sẵn; vi mẫu liệu thuộc trung tâm c j Ở đây, ll•ll coi dạng thức Ơcơlit phương pháp đo lường khoảng cách khác sử dụng Trong suốt trình gom cụm, trung tâm điều chỉnh theo loạt quy tắc định cho tổng khoảng cách phương trình (2.23) nhỏ Tuy nhiên, trình tìm kiếm mức tối thiểu toàn cầu, trung tâm trường xuyên trở nên bị chặn lại mức tối thiểu địa phương Mức tối thiểu địa phương khiêm tốn tránh việc sử dụng thuật toán ủ mô phỏng, giảm gradient, thuật toán di truyền… Mặc dù có tương quan mạnh mẽ việc tối thiểu hoá hàm chi phí thực toàn mạng RBF, đảm bảo giải pháp hàm chi phí tối thiểu luôn đưa thực cho toàn mạng tốt (Lowe 1989) Do đó, thuật toán gom cụm tốt bao gồm tối ưu hoá miễn cưỡng mà phân chia toàn việc huấn luyện liệu chủ thể bị tối thiểu hoá tới việc tối đa hoá thực toàn mạng RBF khắp liệu huấn luyện kiểm tra Để đưa thực mô hình tốt, mạng RBF nên có trung tâm thích hợp để mô tả liệu nhận dạng Tuy nhiên, số lượng trung tâm tăng lên, xu hướng trung tâm nằm vị trí nằm sát cạnh tăng lên Không có điểm Lớp CHCNTT - K0810 36 Tiểu luận : Trí tuện nhân tạo trung tâm tăng thêm trung tâm tăng thêm nằm gần với trung tâm tồn trước Tuy nhiên, tượng bình thường thuật toán gom cụm k – means thuật toán giảm nhanh không miễn cưỡng số lượng thông số hay trung tâm trở nên đủ lớn (Cichoki Unbehauen 1993) Xu et al 1993 giới thiệu phương pháp gọi Sự học tập cạnh tranh bị trừng phạt để giải vấn đề Ý tưởng cho bước học tập vậy, trung tâm thắng đối thủ cạnh tranh (người thắng thứ 2) điều chỉnh đối thủ bị điều chỉnh theo khuynh hướng khác so với trung tâm thắng 2.5.2 Mạng RBF với Các kết nối đầu vào tuyến tính Một mạng RBF với đầu m giao điểm ẩn diễn đạt phương trình: nh ( ) yi (t ) = wi + ∑ wijφ v(t ) − c j (t ) ; j =1 (2.24) Ở đây, wi,j cj(t) khối lượng kết nối, khối lượng kết nối nghiêng trung tâm RBF theo thứ tự định sẵn, v(t) vectơ đầu vào tới mạng RBF gồm có đầu vào bị trễ, đầu bị trễ lỗi dự báo trễ, φ(•) hàm phi tuyến tính ll•ll biểu thị đo lường khoảng cách mà thông thường coi dạng thức Ơcơlit Vì mạng nơron phi tuyến tính cao, chí hệ tuyến tính phải gần với việc sử dụng mô hình mạng thần kinh phi tuyến tính Tuy nhiên, làm theo hệ tuyến tính sử dụng mô hình phi tuyến tính không tốt việc sử dụng hình tuyến tính Bàn tranh cãi này, mạng RBF với liên kết đầu vào tuyến tính cộng thêm vào sử dụng Mạng đề nghị cho phép đầu vào mạng kết nối trực tiếp tới nút đầu thông qua kết nối làm nặng thêm để hình thành nên mô hình tuyến tính song song với mô hình mạng RBF tiêu chuẩn phi tuyến tính hình 2.5 Lớp CHCNTT - K0810 37 Tiểu luận : Trí tuện nhân tạo Mạng RBF với đầu m, đầu vào n, nút ẩn n h kết nối đầu vào tuyến tính nl biểu diễn: nl nh j =1 j =1 ( ) yi (t ) = wi + ∑ λij vl (t ) + ∑ wijφ v(t ) − c j (t ) ; i= 1, 2, , m (2.25) Ở đây, λ’s vl’s trọng lượng vectơ đầu vào liên kết tuyến tính phân biệt Vectơ đầu vào cho liên kết tuyến tính bao gồm đầu vào, đầu trễ nhiễu trước Bởi λ’s xuất tuyến tính mạng, nên λ’s có thể dự đoán sử dụng thuật toán giống cho w’s Bởi liên kết tuyến tính thêm vào đưa mô hình tuyến tính, tải trọng tính toán thích đáng bổ sung thêm vào việc huấn luyện mạng RBF tiêu chuẩn Hơn nữa, số lượng liên kết tuyến tính yêu cầu thường nhỏ nhiều so với số lượng giao điểm ẩn mạng RBF Trong nghiên cứu tại, thuật toán bình phương nhỏ Givens với liên kết đầu vào tuyến tính bổ sung sử dụng để dự đoán w’s λ’s Tham khảo Chen et al (1992) hay Mashor (1995) việc áp dụng thuật toán bình phương nhỏ nhât Givens Hình 2.5: Mạng RBF với Các kết nối đầu vào tuyến tính 2.5.3 Thuật toán lai Lớp CHCNTT - K0810 38 Tiểu luận : Trí tuện nhân tạo Một liệu đầu vào - đầu đưa ra, u(t) y(t), (t=1,2, …,N), trọng lượng liên kết, trung tâm bề rộng đạt cách tối thiểu hoá hàm chi phí: N J = ∑ ( y (t ) − yˆ (t ))T ( y (t ) − yˆ (t )) i =1 (2.26) Ở ÿ (t) đầu dự báo sinh cách sử dụng mạng RBF theo phương trình (2.25) Phương trình (2.26) giải cách sử dụng phương pháp tối ưu hoá phi tuyến tính kỹ thuật giảm gradient Tuy nhiên, việc dự đoán trọng lượng cách sử dụng thuật toán làm huỷ hoại ưu điểm tuyến tính trọng lượng Do đó, thuật toán huấn luyện thông thường phân chia thành phần: i) Định vị trung tâm RBF, cj(t) ii) Dự đoán trọng lượng, wij Sự tiếp cận cho phép thuật toán độc lập sử dụng cho nhiệm vụ Các trung tâm thường định vị cách xác định thuật toán không bị giám sát gom cụm k – means, co cụm mờ người phân loại Gauxơ mà trọng lượng dược dự đoán sử dụng loại thuật toán bình phương nhỏ tuyến tính Moody Darken (1989) sử dụng phương pháp gom cụm k – means để định vị trung tâm RBF thuật toán bình phương nhỏ để dự đoán trọng lượng, Chen et al (1992) sử dụng cách gom cụm k – means để định vị trung tâm thuật toán bình phương nhỏ Givens để dự đoán trọng lượng Trong nghiên cứu nay, dạng thức thuật toán gom cụm gọi gom cụm k – means động đưa để định vị trung tâm RBF thuật toán bình phương nhỏ sử dụng để dự đoán trọng lượng 2.5.3.1 Thuật toán gom cụm k – means động Trong phần 2, toán gom cụm thảo luận liên quan đến trung tâm chết, dư thừa trung tâm cực tiểu địa phương Lớp CHCNTT - K0810 39 Tiểu luận : Trí tuện nhân tạo khiêm tốn Trong phần , thuật toán gom cụm đề xuất để tối thiểu hoá hai toán làm giảm gián tiếp hiệu ứng toán thứ Thuật toán dựa kỹ thuật gom cụm không thích nghi Thuật toán gọi gom cụm k – means động suốt trình gom cụm, tương thích trung tâm kiểm tra liên tục có trung tâm không thoả mãn tiêu chuẩn lý thuyết, trung tâm bị rời đến khu vực mà có trung tâm hoạt động Thuật toán thiết kế để có đặc tính sau: - Tất trung tâm có độ tương thích số tương thích, trung tâm chết - Nhiều trung tâm xác định vị trí vùng liệu mật độ cao số trung tâm định tới phần lại liệu, tất liệu nằm khoảng cách chấp nhận tính từ trung tâm - Thuật toán làm giảm độ nhạy tới trung tâm ban đầu, thuật toán có khả việc tránh cực tiểu địa phương khiêm tốn Thuật toán gom cụm k – means động bàn luận đến tiếp sau Coi toán có N liệu phải gom cụm vào n c trung tâm Gọi vi liệu thứ i cj trung tâm thứ j i = 1, 2,… N j = 1, 2,…, N Lúc đầu, trung tâm cj khởi tạo với vài giá trị ban đầu vào liệu định tới trung tâm gần vị trí trung tâm c j tính toán theo: cj = ∑ vi n j i∈c (2.27) j Sau tất liệu định tới trung tâm gần nhất, tương thích trung tâm bị thay đổi việc sử dụng hàm khoảng cách Hàm khoảng cách dựa khoảng cách Ơcơlit toàn phần Lớp CHCNTT - K0810 40 Tiểu luận : Trí tuện nhân tạo trung tâm tất liệu định tới trung tâm, định nghĩa sau: ( f (c j ) = ∑ vi − c j i∈c j ); j = 1, 2, …, nc; i = 1, 2, …, N (2.28) Nói chung giá trị nhỏ f(c j), phù hợp trung tâm c j f(cj) = trung tâm thành viên (ví dụ liệu định tới cj) trung tâm đặt bên vùng liệu Thuật toán gom cụm k – means động thực sau: (1) Cho giá trị ban đầu vào trung tâm α0, đặt αa = αb = α0 (2) Chỉ định tất liệu đến trung tâm gần tính toán vị trí trung tâm sử dụng phương trình (2.27) (3) Kiểm tra tương thích trung tâm sử dụng ph.trình (2.28) (4) Tìm cs cl, trung tâm, có giá trị nhỏ lớn f(•) (5) Nếu f(cs) < αa f(cl) (5.1.) Chỉ định thành viên cl tới cs vi , cl, i ε cl, rời phần lại thành viên tới cl (5.2.) Tính toán lại vị trí cs v cl theo: c = ∑vi s n s i∈c cl = ∑vi i nl ∈c s (2.29) l Chú ý cs từ bỏ thành viên trước bước 5.1 n s nl phương trình (2.29) thành viên thành viên c s cl riêng biệt, sau trình tái định bước (5.1.) (6) Cập nhật αa theo αa = αa - αa/nc lặp lại bước (4) (5) f(cs) ≥ αa f(cl) Lớp CHCNTT - K0810 41 Tiểu luận : Trí tuện nhân tạo (7) Tái định tất liệu tới trung tâm gần tính toán lại vị trí trung tâm việc sử dụng (2.27) (8) Cập nhật αa αb theo αa = α0 αb = α b – αb/nc riêng rẽ, lặp lại bước (3) tới bước (7) f(cs) ≥ αb f(cl) Ở αo giá trị không đổi nhỏ, 0< αo < 1/3 Thời gian tính toán tăng lên giá trị αo trở nên lớn Khi αo lựa chọn để thoả hiệp thực tốt tải trọng tính toán Các trung tâm cho thuật toán khởi tạo với giá trị kết tốt đạt trung tâm khởi tạo vùng liệu đầu vào đầu Nếu trung tâm khởi tạo sau α o nên lựa chọn lớn một chút (điển hình > 0,2) Thuật toán gom cụm k –means động thiết kế đặc biệt cho mạng RBF không đưa thực gom cụm tốt việc giải toán khác phân loại mô hình Ý tưởng gom cụm mạng RBF định vị trung tâm theo cách mà tất liệu nằm khoảng cách chấp nhận từ trung tâm Trong toán gom cụm thông thường, trung tâm phải định vị nơi mà liệu tập trung số liệu nằm xa so với trung tâm Hơn nữa, toán gom cụm mạng RBF, liệu với mô hình khác định tới trung tâm liệu định vị gần 2.5.3.2 Thuật toán bình phương nhỏ Sau trung tâm RBF hàm phi tuyến tính lựa chọn, trọng lượng mạng RBF dự đoán việc sử dụng thuật toán dạng bình phương nhỏ Trong nghiên cứu nay, bình phương nhỏ làm nặng thêm theo số mũ sử dụng dựa phép biến đổi Givens Bài toán dự đoán sử dụng bình phương nhỏ làm nặng thêm mô tả sau Định nghĩa vectơ z(t) thời điểm t : Lớp CHCNTT - K0810 42 Tiểu luận : Trí tuện nhân tạo z (t ) = [ z1 (t ), , zn (t )] (2.30) h Ở đây, z(t) nh đầu giao điểm ẩn số lượng giao điểm ẩn tới mạng RBF riêng rẽ Nếu liên kết đầu vào tuyến tính sử dụng, phương trình (8) nên điều chỉnh để bao gồm số hạng tuyến tính : z (t ) = [ z1 (t ) zn zl1 (t ) zlnl (t )] (2.31) h Ở zl’s đầu nút giao liên kết đầu vào tuyến tính Sơ đồ Bất kỳ vectơ hay ma trận cỡ n h nên tăng tới nh + nl để thích hợp với cấu trúc mạng Một số hạng xiên nằm mạng RBF theo cách liên kết đầu vào tuyến tính Định nghĩa ma trận Z(t) thời điểm t : z (1) z (2) Z (t ) = z (t ) (2.32) Và vectơ đầu y(t) đưa theo: y(t) = [y(1),…, y(t)]T (2.33) Khi phương trình thông thường viết như: Y(t)= Z(t)Θ(t) (2.34) Trong Θ(t) véc tơ: Θ(t) = [w1(t),…, wnh_n1(t)]T e(t )WLS = ∑ β (t − 1)[ y (i ) − z (i − 1)Θ(t )] t i =1 (2.35) (2.36) Trong < β [...]... n1 n 2 1n 21 nn v = x c1 x c2 x cn * So sánh mạng RBF và perceptrons nhiều tầng Mạng (RBF) và perceptron nhiều tầng là ví dụ về phi tuyến tính sắp thành từng lớp những mạng truyền thẳng Cả hai đều gần nh nhau Tuy nhiên hai mạng khác nhau ở vài điểm quan trọng nh là vài nét ở dới đây: 1 Một mạng RBF ( trong nó có hình thức cơ bản nhất ) có một tầng ẩn khi đó một MLP có... hoạt của mỗi đơn vị ẩn của một mạng RBF tính toán theo tiên đề Euclide giữa vectơ vào và tâm của đơn vị đó Mặt khác, hàm kích hoạt của mỗi đơn vị ẩn trong mạng MLP tính toán tích vô hớng của vectơ vào và vectơ trọng số Synaptic của đơn vị đó 5 Những MLP đợc xây dựng toàn bộ xấp xỉ ánh xạ vào ra phi tuyến tính Vậy thì, chúng có khả năng khái quát trong vùng của không gian vào nơi Lp CHCNTT - K0810 21... tính toán những nút của một MLP, chúng xác định một tầng ẩn hoặc tầng ra chia sẻ một nơron mẫu chung Mặt khác, sự tính toán những nút trong tầng ẩn của một mạng RBF là khác nhau và phục vụ cho mục đích từ tầng ra của mạng 3 Tầng ẩn của một mạng RBF là phi tuyến tính, ở đó tầng ra là tuyến tính Theo cách khác, tầng ẩn và ra của một MLP đợc sử dụng nh là phân loại thông thờng tất cả là phi tuyến Tuy nhiên... Số lợng của RBF yêu cầu mở rộng không gian đầu vào đầy đủ có thể phải rất lớn Đặc điểm tuyến tính của tầng ra của mạng RBF nghĩa là một mạng là có mối quan hệ gần gũi với perceptron(bộ nhận thức ) của Rosenblatt hơn perceptron nhiều tầng Tuy nhiên mạng RBF khác với pereptron là nó có khả năng tự thực hiện sự biến đổi phi tuyến tính của không gian đầu vào Đây là minh hoạ tốt nhất của vấn đề XOR, chúng... cho nhng bi toỏn khỏc nhau Mt s loi hm c s xuyờn tõm thng gp: RBF Gaussian: (r) = e-(r/e)2 (2.6) RBF a ton phng (multiquadratic RBF) : ( r ) = (c 2 + r 2 ) Lp CHCNTT - K0810 0 < 0 (2.8) RBF Thin-plate splin: (r ) = r 2 log(r ) (2.9) RBF splin cu: (r ) = r 3 RBF splin tuyn tớnh: ( r ) = r (2.10) * Kh nng xp x vn nng... sẵn có Mặt khác, mạng RBF dùng lũy thừa địa phơng hoá phi tuyến (hàm Gausss) xây dựng toàn bộ xấp xỉ ánh xạ vào ra phi tuyến tính với kết quả là những mạng có khả năng tự học nhanh và giảm bớt tính nhạy cảm tới sự biểu diễn của việc huấn luyện dữ liệu Trong những trờng hợp, tuy nhiên, chúng ta tim cái đó để đại diện một ánh xạ đạt tới độ mong muốn nào đó của sự nhịp nhàng Số lợng của RBF yêu cầu mở rộng... tõm v vộc t u vo ca mng, v kt qu thỡ c a qua mt hm Gaussian Tng ra ca nron ch l mt tp b t hp tuyn tớnh 2.4 Cỏc chin lc hc cho mng RBF Cú nhiu chin lc hc khỏc nhau m chỳng cú th s dng cho mng RBF, ph thuc vo cỏch chỳng ta gỏn cỏc tõm ca cỏc RBF ca mng Núi chung vic hc ca RBFN cú th c chia lm hai giai on: - Cỏc hm c s c thit lp v cỏc tham s ca chỳng c tớnh toỏn, thng bi mt th tc hc khụng giỏm sỏt cú... hi t ti mt cc tiu a phng trong khụng gian cỏc trng s c gim i 2.5 Thut toỏn lai cho mng RBF õy trỡnh by mt thut toỏn lai mi trong vic hun luyn mng RBF Thut toỏn ny bao gm thut toỏn gom cm nh v cỏc trung tõm RBF v bỡnh phng nh nht Givens d oỏn trng lng, bt u bng vic tho lun cỏc bi toỏn v gom cm nh v cỏc trung tõm RBF Sau ú, mt thut toỏn gom cm c gi l thut toỏn gom cm K-means ng Lp CHCNTT - K0810 33... Mễ HèNH MNG RBF V THUT TON LAI CHO MNG BRF 2.1 Hm c s xuyờn tõm Trong khụng gian Euclidean Rn, RBF l mt hm cú dng: n x c j ( x x j ) (2.1) j =1 Trong ú x1, x2, , xN l cỏc im ri rc, v |x-x j| l khong cỏch gia x v xj, c1, c2, , cN l cỏc hng s, v l hm mt bin Trong thc t: : [ 0, ) R c gi l hm tiờu chun (c s) Vớ d: Ta cú (t ) 2 = exp(t 2 ) , t ú ta cú c j exp( x x j ) v c gi l hm RBF Gaussian... v c gi l hm RBF Gaussian 2.2 Mụ hỡnh mng RBF Mng s dng hm c s xuyờn tõm (Radial Basic Function Networrk RBFN) hay cũn gi l mng s dng hm iu hũa, cú th c s dng thay th cho cỏc mng truyn thng a lp (Multilayered Feedforward Neural Lp CHCNTT - K0810 18 Tiu lun : Trớ tun nhõn to Networks - MFNNs) ó c nghiờn cu rt nhiu Mt hm c s xuyờn tõm (Radial Basic Function - RBF) l mt ỏnh x hm phi tuyn a chiu, nú ph ... So sánh mạng RBF perceptrons nhiều tầng Mạng (RBF) perceptron nhiều tầng ví dụ phi tuyến tính thành lớp mạng truyền thẳng Cả hai gần nh Tuy nhiên hai mạng khác vài điểm quan trọng nh vài nét... đây: Một mạng RBF ( có hình thức ) có tầng ẩn MLP có nhiều tầng ẩn Điển hình, tính toán nút MLP, chúng xác định tầng ẩn tầng chia sẻ nơron mẫu chung Mặt khác, tính toán nút tầng ẩn mạng RBF khác... Đối số hàm kích hoạt đơn vị ẩn mạng RBF tính toán theo tiên đề Euclide vectơ vào tâm đơn vị Mặt khác, hàm kích hoạt đơn vị ẩn mạng MLP tính toán tích vô hớng vectơ vào vectơ trọng số Synaptic đơn