Ứng dụng NEUROFUZZY trong điều khiển nhiệt độ thông qua KIT AT89C52
Trang 1BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
LUẬN VĂN TỐT NGHIỆP
ĐỀ TÀI :
ỨNG DỤNG NEUROFUZZY TRONG ĐIỀU KHIỂN NHIỆT ĐỘ THÔNG QUA KIT AT89C52
GVHD : LÊ TUẤN ANHSVTH : LÊ PHƯỚC THÀNHMSSV : 49600822
NIÊN KHÓA 1996 - 2001
Trang 2LỜI CẢM ƠN
Xin chân thành cảm ơn tất cả các thầy cô trong trường ĐH Kỹ Thuật đã dạy dỗcho đến ngày hôm nay, đặc biệt là các thầy cô trong bộ môn Điều Khiển TựĐộng
Xin chân thành cảm ơn văn phòng bộ môn, đặc biệt là cô Ngọc đã tạo điềukiện giúp đỡ trong suốt quá trình thực hiện luận văn tốt nghiệp
Xin chân thành cảm ơn thầy Lê Tuấn Anh, người đã gợi ý và hướng dẫn thựchiện luận văn tốt nghiệp
Và xin cảm ơn tất cả những người đã gián tiếp tạo điều kiện thuận lợi trongquá trình làm luận văn tốt nghiệp
Dù đã cố rất gắng nhưng vẫn không tránh khỏi sai sót, xin được học hỏi nhữnglời chỉ dẫn Xin cảm ơn rất nhiều
Người thực hiệnLê Phước Thành
Trang 3LỜI TỰA
Đề tài này được thực hiện trong khuôn khổ một môn học do trường ĐH KỹThuật qui định với số tín chỉ là 10 Thông qua đó, sinh viên có một học kỳ đểtự học, tự đánh giá khả năng của mình và trình bày thành luận văn dựa trênnhững hiểu biết của mình
Tên của đề tài là ứng dụng NeuroFuzzy để điều khiển nhiệt độ cho thấy đề
tài không mới nhưng phương pháp điều khiển thì rất mới : đó là ứng dụngNeuroFuzzy, một lĩnh vực còn khá mới mẽ trong điều khiển tự động, là sự kếthợp của hai lĩnh vực trí khôn nhân tạo : logic mờ và mạng neuron nhằm tậndụng ưu điểm của cả hai Nhằm để chứng tỏ ưu điểm của phương pháp này, đềtài điều khiển một đối tượng cụ thể là một lò nướng dân dụng
Luận văn trình bày đề tài được chia làm 5 phần lớn :
Phần 1 : Giới thiệu
Phần 2 : Lý thuyết
Phần 3 : Thiết kế
Phần 4 : Kết qua điều khiển
Phần 5 : tài liệu tham khảo
Trong mỗi phần có nhiều chương nhỏ trải rộng từ hệ thống, phần cứng, phầnmềm với tổng số trang là 183
Do lượng nội dung viết thì nhiều mà khuôn khổ luận văn có giới hạn nên chỉtrình bày các giải thuật mà không trình bày chương trình Tuy nhiên, nếu muốntham khảo thì sử dụng đĩa CD-ROM kèm theo có chứa chương trình nguồn lẫnchương trình đã biên dịch (cho phép cài lên máy tính)
Thực ra tác giả còn muốn trình bày nhiều hơn nữa nhưng đành phải rút gọnnên không thoát khỏi tình trạng thiếu trước hụt sau Ngoài ra, do mỗi phầnđược viết trong các khoản thời gian khác nhau nên không tránh khỏi vấn đềkhông nhất quán trong trình bày Lối văn phong cũng không được khoa học cholắm
Mong rằng người đọc sẽ thông cảm mà bỏ qua những thiếu sót đó Xin chânthành cảm ơn
Trang 4MỤC LỤC
Phần 1 Giới thiệu 9
Chương 1 Giới thiệu đề tài 10
1 Nhiệm vụ của đề tài 11
2 Thực hiện 11
Phần 2 Lý thuyết 12
Chương 1 Logic mờ 13
1 Sơ lược về logic mờ 13
1.1 Quá trình phát triển của logic mờ 13
1.2 Cơ sở toán học của logic mờ 13
1.3 Logic mờ là logic của con người 16
1.4 So sánh logic mờ với lý thuyết xác suất thống kê 16
2 Các khái niệm dùng trong logic mờ 17
2.1 Tập hợp mờ và độ phụ thuộc 17
2.2 Hàm phụ thuộc 18
2.3 Biến ngôn ngữ 18
2.4 Luật mờ 19
3 Tính toán mờ 19
3.1 Mờ hóa 19
3.2 Tính luật mờ 19
3.3 Suy luận mờ 20
3.4 Giải mờ 21
Chương 2 Mạng Neuron 23
1 Sơ lược về mạng neuron 23
1.1 Quá trình phát triển 23
1.2 Mạng neuron là gì ? 24
1.3 Cấu trúc của não 24
2 Mô hình hóa mạng neuron 26
2.1 Yêu cầu khi lập mô hình một neuron 26
2.2 Lập mô hình neuron 26
3 Học hỏi trong mạng neuron 28
Trang 54 Giải thuật học perceptron 30
4.1 Mô tả giải thuật 30
4.2 Phân loại với mô hình perceptron 31
4.3 Tóm tắt giải thuật 33
4.4 Hạn chế 34
4.5 Nhận xét 34
5 Giải thuật học delta 35
5.1 Đạo hàm 35
5.2 Mô tả luật học delta 36
5.3 Một số hàm truyền và đạo hàm của nó 37
5.4 Tóm tắt giải thuật 38
6 Giải thuật delta tổng quát 39
6.1 Mô hình perceptron đa tầng 39
6.2 Luật học delta tổng quát 39
6.3 Tóm tắt giải thuật 41
7 Độ hiệu quả của mạng neuron 41
Chương 3 NeuroFuzzy 44
1 Sơ lược về NeuroFuzzy 44
2 Kết hợp neuron và mờ 45
2.1 Biểu diễn luật If-Then theo cấu trúc mạng neuron 45
2.2 Neuron mờ 48
3 Học hỏi trong NeuroFuzzy 50
3.1 Sửa đổi hàm phụ thuộc 51
4 Nhận xét 54
Chương 4 Vi điều khiển 55
1 Vi điều khiển họ MCS-51 55
2 Vi điều khiển AT89C52 56
2.1 Cấu tạo chân 56
2.2 Sơ đồ khối 57
2.3 Mô tả chức năng các chân 57
2.4 Các thanh ghi chức năng 59
2.5 Bộ nhớ dữ liệu 61
2.6 Đặc tính bộ dao động 62
Trang 62.7 Chế độ lười 62
2.8 Chế độ hạ nguồn 62
2.9 Trạng thái của một số chân trong chế độ hạ nguồn và chế độ lười 62
2.10 Các thông số kỹ thuật 63
Chương 5 ADC ICL7109CPL 67
1 Sơ lược các phương pháp biến đổi AD 67
1.1 Biến đổi AD dùng bộ biến đổi DA 67
1.2 Bộ biến đổi Flash AD 70
1.3 Bộ biến đổi AD theo hàm dốc dạng lên xuống 71
1.4 Bộ biến đổi AD dùng chuyển đổi áp sang tần số 71
1.5 Bộ biến đổi AD theo tích phân hai độ dốc 71
2 ICL7109CPL 72
2.1 Cấu tạo chân 73
2.2 Mô tả chức năng các chân 73
2.3 Quá trình biến đổi AD 75
2.4 Lựa chọn giá trị 76
2.5 Giao tiếp trực tiếp với ICL7109CPL 77
Chương 6 MAX232 78
1 Chuẩn RS-232-C 78
1.1 Các đầu nối 80
1.2 Mô tả chân 80
2 MAX232 và họ IC dùng biến đổi TTLRS-232-C 81
2.1 Cấu tạo chân 81
2.2 Mô tả chức năng chân 81
2.3 Sơ đồ khối và mạch tiêu biểu 81
Chương 7 Các IC khác 83
1 OP07 83
2 MOC3020 83
3 RAM 6264 84
4 Chốt 74573 84
5 BTA16 84
Chương 8 Thermocouple 85
Trang 71 Sơ lược về các dụng cụ đo nhiệt độ 85
1.1 Buổi ban đầu của thiết bị đo nhiệt độ 85
1.2 Các loại cảm biến hiện tại 86
2 Thermocouple 87
2.1 Hiệu ứng Seebeck 87
2.2 Cách đo hiệu điện thế 88
2.3 Bù nhiệt môi trường 90
2.4 Các loại thermocouple 90
2.5 Một số nhiệt độ chuẩn 91
Phần 3 Thiết kế 92
Chương 1 Phần cứng 93
1 Cấu trúc tổng quát 93
2 Khối xử lý trung tâm 94
3 Phân vùng địa chỉ 96
4 Khối bộ nhớ và nguồn backup 97
5 Khối hiển thị 98
6 Khối biến đổi AD 102
7 Khối cảm biến và gia công 105
8 Khối bàn phím 108
8.1 Chương trình con GET_KEY 109
8.2 Chương trình con IN_HEX 111
9 Truyền thông nối tiếp 112
10 Khối mạch công suất 114
11 Nguồn cung cấp 115
12 Cách cân chỉnh mạch 115
13 Xử lý 16-bit trên vi điều khiển 8-bit 118
13.1 Chương trình con cộng 16-bit 119
13.2 Chương trình con đổi dấu một số 119
13.3 Chương trình con nhân số 16-bit cho số 8-bit 119
13.4 Chương trình con chia số 16-bit cho số 8-bit 120
Chương 2 Hệ thống 122
1 Thiết kế hệ mờ 122
Trang 81.1 Các nguyên tắc trong thiết kế 122
1.2 Thiết kế hệ mờ cho điều khiển nhiệt độ 125
1.3 Thiết kế hệ luật 126
1.4 Tính luật và giải mờ 127
2 Thiết kế hệ NeuroFuzzy 127
2.1 Tập dữ liệu học 127
2.2 Thay đổi hệ mờ 127
Chương 3 Phần mềm 129
1 Pha hoạt động 129
1.1 Khuôn dạng luật của hệ 130
1.2 Giải thuật điều khiển 130
1.3 Xử lý mờ 131
1.4 Tính độ phụ thuộc 132
1.5 Giải mờ theo CoM 136
2 Pha học 137
3 Chương trình trên kit AT89C52 137
3.1 Nhập dữ liệu 139
3.2 Hoạt động 144
3.3 Phân bố tài nguyên 145
3.4 RAM ngoại 147
4 Chương trình trên máy tính 149
4.1 Qui định kiểu dữ liệu 150
4.2 Giới thiệu chương trình NF Control 151
4.3 Giới thiệu chương trình fuzzyTech 156
4.4 Giao tiếp giữa NF Control và FuzzyTech 160
Phần 4 Kết quả điều khiển 171
Chương 1 Điều khiển thực tế 172
1 Điều khiển 100C 173
2 Điều khiển 125C 174
3 Điều khiển 150C 175
4 Điều khiển 175C 176
5 Điều khiển 200C 177
Trang 96 Điều khiển 225C 178
7 Điều khiển 250C 179
8 Điều khiển tổng hợp lần thứ nhất 180
9 Điều khiển tổng hợp lần thứ hai 181
Phần 5 Tài liệu tham khảo 182
Trang 11GIỚI THIỆU ĐỀ TÀI
Từ xưa đến nay, nhiệt độ luôn hiện hữu quanh ta và đã trở thành một trongnhững yếu tố của sự sống
Tuy nhiên con người ở mỗi thời điểm khác nhau đều có cách nhận thức và xửlý nhiệt độ khác nhau
Thời xa xưa, con người không hề có khái niệm về nhiệt độ mặc dù họ biếtnóng, lạnh
Sau đó, con người có khái niệm về sự tồn tại của nhiệt độ, tìm cách đo nó và
so sánh giữa các loại nhiệt độ khác nhau Tuy nhiên, họ vẫn cam chịu và tìmcách chung sống với nhiệt độ : nếu nóng quá thì tìm chỗ tránh nóng ở dưới gốccây, bên bờ suối chẳng hạn
Đến một lúc nào đó, con người nảy sinh ra ý định điều khiển nhiệt độ, bắt nóphải phục vụ cho mục đích của mình Ví như trong sinh hoạt hằng ngày, người
ta nhận ra rằng nhiệt độ lý tưởng cho mội trường sống là 25C Thế thì bằngmọi cách phải tạo ra được nhiệt độ 25C và máy điều hòa nhiệt độ ra đời
Hay trong nghành công nghiệp, điều khiển nhiệt độ là một vấn đề rất quantrọng Trong ngành luyện kim, cần phải đạt đến một nhiệt độ nào đó để kimloại nóng chảy, và cũng cần đạt một nhiệt độ nào đó để ủ kim loại nhằm đạtđược tốt các đặc tính cơ học như độ bền, độ dẻo, độ chống gỉ sét, … Trongngành thực phẩm, cần duy trì một nhiệt độ nào đó để nướng bánh, để nấu, đểbảo quản, …
Từ đó, điều khiển nhiệt độ trở thành một lĩnh vực của điều khiển tự động Vàtheo đà phát triển của các học thuyết về điều khiển tự động, kết quả của quátrình điều khiển nhiệt độ ngày càng một tốt hơn
Trang 12Trước đây, con người điều khiển nhiệt độ bằng phương pháp PID rất tốt.
Năm 1965, lý thuyết mờ ra đời đem lại nhiều thuận lợi hơn trong điều khiển tựđộng, và điều khiển nhiệt độ cũng hưởng được lợi điểm đó Tuy nhiên việcthiết kế mờ là đơn giản nhưng việc tối ưu lại là khó
Mạng neuron cũng là một ngành thuộc lĩnh vực trí khôn nhân tạo, nhưng người
ta ít dùng nó trong điều khiển do khó giải thích hành vi mà nó tạo ra mặc dùnó có khả năng học
Sự kết hợp của logic mờ và mạng neuron tạo ra một nghành mới gọi làNeuroFuzzy mang ưu điểm của cả hai : dễ thiết kế (thông qua logic mờ) và dễtối ưu (thông qua quá trình học các hành vi mong muốn bằng mạng neron)
Do đó điều khiển nhiệt độ bằng NeuroFuzzy hứa hẹn nhiều hấp dẫn
1 NHIỆM VỤ CỦA ĐỀ TÀI
Điều khiển nhiệt độ một lò nướng dân dụng bằng phương pháp NeuroFuzzy
2 THỰC HIỆN
Thiết kế một kit dựa trên vi điều khiển AT89C52 cho phép :
Điều khiển lò nướng có công suất 1000W bằng phương pháp điều rộngxung (PWM)
Dùng cảm biến là loại Thermocouple
Cho phép tự hoạt động hoặc hoạt động thông qua máy tính
Thiết kế chương trình xử lý mờ cho kit và cho máy tính :
Hai biến vào là sai lệch nhiệt độ ET và biến thiên sai lệch nhiệt độDET, mỗi biến có 7 tập mờ
Biến ra là duty cycle (gọi là OUT trong thiết kế) gồm 9 tập mờ dạngsingleton trong miềm từ 0% đến 100%
Tối ưu bằng quá trình học của mạng neuron
Trang 14LOGIC MỜ
1 SƠ LƯỢC VỀ LOGIC MỜ
1.1 Quá trình phát triển của logic mờ
Logic mờ được công bố lần đầu tiên tại Mỹ vào năm 1965 Cha đẻ của nó làLotfi Zadeh, giáo sư về lý thuyết hệ thống tại trường đại học Berkeley, bangCalifornia Kể từ đó, logic mờ đã có nhiều phát triển qua các chặng đườngsau : phát minh ở Mỹ, áp dụng ở Châu Âu và đưa vào các sản phẩm thươngmại ở Nhật
1.1.1 Ứng dụng công nghiệp đầu tiên ở Châu Aâu
Ứng dụng đầu tiên của logic mờ vào công nghiệp được thực hiện ở Châu Aâu,khoảng sau năm 1970 Tại trường Queen Mary ở Luân Đôn – Anh, EbrahimMamdani dùng logic mờ để điều khiển một máy hơi nước mà trước đây ông ấykhông thể điều khiển được bằng các kỹ thuật cổ điển Và tại Đức, HansZimmermann dùng logic mờ cho các hệ ra quyết định Liên tiếp sau đó, logicmờ được áp dụng vào các lĩnh vực khác như điều khiển lò xi măng, … nhưngvẫn không được chấp nhận rộng rãi trong công nghiệp Có một số ít ứng dụngdùng nó nhưng dấu đi cụm từ logic mờ mà thay bằng các từ ngữ như “logic đagiá trị” hay “logic liên tục”
Kể từ năm 1980, logic mờ đạt được nhiều thành công trong các ứng dụng raquyết định và phân tích dữ liệu ở Châu Aâu Nhiều kỹ thuật logic mờ cao cấpđược nghiên cứu và phát triển trong lĩnh vực này
1.1.2 Nhật Bản vươn lên dẫn đầu
Trang 15Cảm hứng từ những ứng dụng của Châu Aâu, các công ty của Nhật bắt đầudùng logic mờ vào kỹ thuật điều khiển từ năm 1980 Nhưng do các phần cứngchuẩn tính toán theo giải thuật logic mờ rất kém nên hầu hết các ứng dụng đềudùng các phần cứng chuyên về logic mờ Một trong những ứng dụng dùnglogic mờ đầu tiên tại đây là nhà máy xử lý nước của Fuji Electric vào năm
1983, hệ thống xe điện ngầm của Hitachi vào năm 1987
Những thành công đầu tiên đã tạo ra nhiều quan tâm ở Nhật Có nhiều lý dođể giải thích tại sao logic mờ được ưa chuộng Thứ nhất, các kỹ sư Nhật thườngbắt đầu từ những giải pháp đơn giản, sau đó mới đi sâu vào vấn đề Phù hợpvới việc logic mờ cho phép tạo nhanh các bản mẫu rồi tiến đến việc tối ưu.Thứ hai, các hệ dùng logic mờ đơn giản và dễ hiểu Sự “thông minh” của hệkhông nằm trong các hệ phương trình vi phân hay mã nguồn Cũng như việccác kỹ sư Nhật thường làm việc theo tổ, đòi hỏi phải có một giải pháp để mọingười trong tổ đều hiểu được hành vi của hệ thống, cùng chia sẽ ý tưởng để tạo
ra hệ Logic mờ cung cấp cho họ một phương tiện rất minh bạch để thiết kế hệthống Và cũng do nền văn hóa, người Nhật không quan tâm đến logicBoolean hay logic mờ; cũng như trong tiếng Nhật , từ “mờ’ không mang nghĩatiêu cực
Do đó, logic mờ được dùng nhiều trong các ứng dụng thuộc lĩnh vực điều khiểnthông minh hay xử lý dữ liệu Máy quay phim và máy chụp hình dùng logic mờđể chứa đựng sự chuyên môn của người nghệ sĩ nhiếp ảnh Misubishi thôngbáo về chiếc xe đầu tiên trên thế giới dùng logic mờ trong điều khiển, củngnhư nhiều hãng chế tạo xe khác của Nhật dùng logic mờ trong một số thànhphần Trong lĩnh vực tự động hóa, Omron Corp có khoảng 350 bằng phát minhvề logic mờ Ngoài ra, logic mờ cũng được dùng để tối ưu nhiều quá trình hóahọc và sinh học
1.1.3 Châu Âu đuổi theo Nhật
Năm năm trôi qua, các tổ hợp Châu Aâu nhận ra rằng mình đã mất một kỹ thuậtchủ chốt vào tay người Nhật và từ đó họ đã nỗ lực hơn trong việc dùng logicmờ vào các ứng dụng của mình Đến nay, có khoảng 200 sản phẩm bán trên thịtrường và vô số ứng dụng trong điều khiển quá trình – tự động hóa dùng logicmờ
Từ những thành công đạt được, logic mờ đã trở thành một kỹ thuật thiết kế
“chuẩn” và được chấp nhận rộng rãi trong cộng đồng
1.1.4 Logic mờ ở Mỹ
Trong những năm gần đây, logic mờ thu được nhiều quan tâm ở Mỹ, nhất làtrong những công ty cạnh tranh với Châu Aâu và Châu Á Tuy nhiên có nhiều
Trang 16tranh cãi về khả năng chiến thắng của Mỹ trong lĩnh vực này bởi nhiều lý do.Thứ nhất, những ứng dụng được thực hiện tại Nhật là những sản phẩm mà cácnhà sản xuất của Mỹ không cạnh tranh với Nhật Cơ bản là không có một nhàsản xuất điện tử giải trí nào của Mỹ có mặt trên thị trường thế giới; việc dùnglogic mờ trong camcorder, camera, hifi chỉ là nhằm tăng thêm khả năng cạnhtranh giữa các công ty Nhật mà thôi Ơû Châu Aâu, các ứng dụng logic mờ chủyếu tập trung vào tự động hóa công nghiệp do giá lao động cao Trong các lĩnhvực khác, như là ngành chế tạo ôtô, Mỹ phải đối mặt với các đối thủ đến từChâu Aâu và Nhật Và các nhà sản xuất Mỹ trong lĩnh vực này buộc phải dùngkỹ thuật thiết kế logic mờ.
Điều này tạo ra nhiều phân khúc thị trường cho Mỹ, như là dùng logic mờtrong các hệ ra quyết định, bộ nhớ, bộ điều khiển đĩa cứng, cũng như các giảithuật nén dùng cho âm thanh và hình ảnh Và các ứng dụng trong truyền thôngnhư loại bỏ tiếng ồn, tìm đường trong mạng, hay nhận dạng tiếng nói cũng thuđược nhiều kết quả từ logic mờ
1.2 Cơ sở toán học của logic mờ
Logic mờ và xác xuất thông kê đều nó về sự không chắn chắn Tuy nhiênmỗi lĩnh vực định nghĩa một khái niệm khác nhau về đối tượng
1.2.1 Sự không chắc chắn theo thống kê : liên quan đến sự xuất hiện của
một sự kiện chắc chắn Xét phát biểu sau :
Xác suất trúng đích là 0,8
Bản thân của sự kiện này (trúng đích) đã được định nghĩa rõ ràng Sự khôngchắc chắn ở đây là có trúng đích hay không, và được định lượng bởi mức độxác suất (trong trường hợp này là 0,8) Loại phát biểu này có thể được xử lý vàkết hợp với các phát biểu khác bằng phương pháp thống kê, như là xác suất cóđiều kiện chẳng hạn
1.2.2 Sự không chắc chắn trong ngữ nghĩa : liên quan đến ngôn ngữ của con
người, tức là liên quan đến sự không chính xác trong các từ ngữ mà con ngườidùng để ước lượng vấn đề và rút ra kết luận Ví dụ như các từ mô tả nhiệt độnhư : “nóng”, “lạnh”, hay “ấm” – không có một giá trị chính xác để gán chocác từ này – bao nhiêu độ là lạnh : 2C hay -2C ? … và các khái niệm này cũngkhác nhau đối với những người khác nhau : người này lạnh nhưng người khácthì không
Mặc dù các khái niệm không được định nghĩa chính xác nhưng con người vẫncó thể sử dụng chúng cho các ước lượng và quyết định phức tạp Bằng sự trừutượng và óc suy nghĩ, con người có thể giải quyết câu nói mang ngữ cảnh phứctạp mà rất khó có thể mô hình bởi toán học chính xác Xét phát biểu :
Trang 17Có thể chúng ta sẽ thành công trong năm học này
Mới nhìn qua thì phát biểu này rất giống phát biểu trên Tuy nhiên, có một sốkhác biệt quan trọng Thứ nhất, bản thân sự kiện không được định nghĩa rõràng Đối với một số sinh viên thì năm học thành công là không phải học lạimôn nào Đối với một số sinh viên khác thì năm học thành công là số điểmbình quân năm nay tăng hơn năm trước Nhưng ngay cả trong trường hợp nàycũng không có một ngưỡng qui định sự thành công (tăng hơn bao nhiêuđiểm ?)
Một khác biệt nữa là ở xác xuất : trong khi phát biểu trên mô tả xác suất theotoán học thì phát biểu này không có một giá trị định lượng về xác suất
1.2.3 Mô hình sự không chắc chắn theo ngữ vựng : Như đã nói trên, mặcdù dùng những phát biểu không mang tính định lượng nhưng con người vẫn cóthể thành công trong các ước lượng phức tạp Trong nhiều trường hợp, conngười dùng sự không chắc chắn này để tăng thêm độ linh hoạt Như trong hầuhết xã hội, hệ thống luật pháp bao gồm một số luật, mỗi luật mô tả một tìnhhuống Ví dụ một luật qui định tội trộm xe phải bị tù 2 năm, một luật khác lạigiảm nhẹ trách nhiệm Và trong một phiên tòa, chánh án phải quyết định sốngày phạt tù của tên trộm dựa trên mức độ rượu trong người, trước đây có tiềnán hay tiền sự không, … từ đó kết hợp lại đưa ra một quyết định công bằng
1.3 Logic mờ là logic của con người
Trong thực tế, ta không định nghĩa một luật cho một trường hợp mà định nghĩamột số luật cho các trường hợp nhất định Khi đó những luật này là nhữngđiểm rời rạc của một tập các trường hợp liên tục và con người xấp xỉ chúng.Gặp một tình huống cụ thể, con người sẽ kết hợp những luật mô tả các tìnhhuống tương tự Sự xấp xỉ này dựa trên sự linh hoạt của các từ ngữ cấu tạo nênluật, cũng như sự trừu tượng và sự suy nghĩ dựa trên sự linh hoạt trong logiccủa con người
Để thực thi logic của con người trong kỹ thuật cần phải có một mô hình toánhọc của nó Từ đó logic mờ ra đời như một mô hình toán học cho phép mô tảcác quá trình quyết định và ước lượng của con người theo dạng giải thuật Dĩnhiên cũng có giới hạn, đó là logic mờ không thể bắt chước trí tưởng tượng vàkhả năng sáng tạo của con người Tuy nhiên, logic mờ cho phép ta rút ra kếtluận khi gặp những tình huống không có mô tả trong luật nhưng có sự tươngđương Vì vậy, nếu ta mô tả những mong muốn của mình đối với hệ thốngtrong những trường hợp cụ thể vào luật thì logic mờ sẽ tạo ra giải pháp dựatrên tất cả những mong muốn đó
Trang 181.4 So sánh logic mờ với lý thuyết xác suất thống kê
Không thể làm phép so sánh giữa hai lĩnh vực này bởi vì sự không chắc chắntheo thống kê và sự không chắc chắn theo ngữ vựng có bản chất khác nhau.Mỗi lĩnh vực có một đối tượng phục vụ của riêng nó, được con người tạo ranhằm phục vụ cho mục đích của con người
2 CÁC KHÁI NIỆM DÙNG TRONG LOGIC MỜ
2.1 Tập hợp mờ và độ phụ thuộc
Nếu như con người không có một giá trị ngưỡng xác định cho “lạnh” hay
“nóng” thì làm sao có thể ước lượng nó ?
Thực ra thì người ta sẽ làm một phép so sánh giữa giá trị nhiệt độ hiện tại vớihai giá trị nhiệt độ được cho là “rất nóng” và “rất lạnh” Từ kết quả so sánhđó, con người ước lượng được mức độ của “nóng” hay “lạnh”
Làm sao mô hình hóa điều này theo toán học ?
Dựa trên lý thuyết tập hợp, đầu tiên ta mô tả một tập các nhiệt độ được cho là
“rất nóng”, sau đó định nghĩa một hàm phụ thuốc cho phép ta xác định mộtnhiệt độ nào đó có thuộc tập hợp này hay không Khác với toán học cổ điển –
nơi mà hàm phụ thuộc chỉ xác định duy nhất một phần tử có thuộc hay không,
hàm phụ thuộc trong logic mờ cho phép xác định một phần tử phụ thuộc tập
hợp nhiều hay ít, tức là biên giới giữa “rất nóng” và “rất lạnh” không phải là
một đường phân biệt rõ ràng mà là một vùng các giá trị liên tục Trong hìnhtrên, mức độ xám cho phép ta thấy được vùng biên giới này và cũng cho thấyđộ phụ thuộc của một giá trị nhiệt độ nào đó
Độ phụ thuộc của một phần tử trong tập hợp mờ có giá trị trong khoảng [0,1].Theo hình trên, nếu như ta cho rằng 0C là “rất lạnh” và 100C là “rất nóng”thì độ phụ thuộc của giá trị nhiệt độ so với tập “rất nóng” là :
(0C) = 0,00 (15C) = 0,15 (37C) = 0,37
(100C) = 1,00
Trang 192.2 Hàm phụ thuộc
Mức độ của một giá trị vật lý thỏa mãn một khái niệm ngôn ngữ được gọi làđộ phụ thuộc Đối với biến liên tục, mức độ này được biểu diễn bởi một hàmgọi là hàm phụ thuộc Hàm này ánh xạ tập các giá trị vật lý thành tập các giátrị phụ thuộc đối với các giá trị ngôn ngữ Biến vật lý được gọi là biến nền vàtập các giá trị vật lý được gọi là tập nền Thông thường người ta vẽ nhiều hàmphụ thuộc trên cùng một biểu đồ dựa trên tập nền đã qui định
Ví dụ hàm phụ thuộc cho các nhiệt độ nói trên :
Tập hợp mờ là sự tổng quát hóa của tập hợp cổ điển, trong đó = 0 và = 1của hàm phụ thuộc cổ điển chỉ là một trường hợp đặc biệt của hàm phụ thuộctrong tập hợp mờ Việc dùng các tập hợp mờ được định nghĩa bởi các hàm phụthuộc trong biểu thức logic được gọi là logic mờ Ví dụ như biểu thức “nhiệt độrất nóng” đối với giá trị 85C sẽ cho kết quả là true với mức độ phụ thuộc bằng0,85
2.3 Biến ngôn ngữ
Là phần chủ đạo trong các hệ thống dùng logic mờ Ơû đây, các thành phầnngôn ngữ mô tả cùng một ngữ cảnh được kết hợp lại Ví dụ như trong trườnghợp mô tả nhiệt độ nói trên, không chỉ có “rất nóng” mà còn “hơi nóng”,
“trung bình”, “hơi lạnh” và “rất lạnh” đều mô tả nhiệt độ Chúng được gọi làcác tập ngôn ngữ, mang một khoảng giá trị nào đó của biến ngôn ngữ và đượcvẽ trên cùng một đồ thị :
Trang 202.4 Luật mờ
Các luật trong hệ logic mờ mô tả tri thức của hệ Chúng dùng các biến ngônngữ như là từ vụng để mô tả các tầng điều khiển trong hệ Việc giải thích cácluật mờ cũng là việc trình bày cách tính các khái niệm ngôn ngữ
Ví dụ nhiệt độ hiện tại đo được là 80C thì kết quả của phép mờ hóa là :
Rất lạnh có độ phụ thuộc bằng 0,00.
Hơi lạnh có độ phụ thuộc bằng 0,00.
Trung bình có độ phụ thuộc bằng 0,00.
Hơi nóng có độ phụ thuộc bằng 0,20.
Rất nóng có độ phụ thuộc bằng 0,80.
Về mặt ngôn ngữ, nhiệt độ là 80C được xem như là hầu như rất nóng, chỉ một
Cho rằng chúng ta dùng quạt máy để điều hòa nhiệt độ Quạt này có 5 nútbấm đánh số từ 1 đến 5 tương ứng tốc độ quạt tăng dần Thế thì ta có nhữngluật :
If nhiệt độ = rất lạnh Then nút bấm = 1
If nhiệt độ = hơi lạnh Then nút bấm = 2
If nhiệt độ = trung bình Then nút bấm = 3
If nhiệt độ = hơi nóng Then nút bấm = 4
If nhiệt độ = rất nóng Then nút bấm = 5
Trang 21Phần If trong ví dụ này chỉ có một điều kiện, bây giờ giả sử như ta đo được sựthay đổi nhiệt độ và chia làm ba tập mờ như : đang giảm, không thay đổi, đangtăng thì có thể có các luật như :
If nhiệt độ = rất lạnh And thay đổi = đang giảm Then nút bấm = 1
If nhiệt độ = rất lạnh And thay đổi = không thay đổi Then nút bấm = 1
If nhiệt độ = hơi lạnh And thay đổi = không thay đổi Then nút bấm = 2
…
3.3 Suy luận mờ
Việc tính toán các luật mờ được gọi là suy luận mờ, bao gồm hai bước chính
3.3.1 Tính từng luật : xét riêng rẽ từng luật mờ, dựa trên độ phụ thuộc của
các tập mờ đầu vào và liên từ kết hợp chúng để tạo ra độ phụ thuộc chung chocác đầu vào, và cũng là kết quả của riêng luật đó
Xét luật sau :
If nhiệt độ = rất lạnh And thay đổi = đang giảm Then nút bấm = 1
Cho rằng rất lạnh có độ phụ thuộc là 0,6 và đang giảm có độ phụ thuộc là 0,4.
Liên từ đang sử dụng là AND và dùng phép lấy min cho nó thì độ phụ thuộc
chung của đầu vào cho luật này là min(0,6;0,4) = 0,4 Vậy tập mờ ra nút bấm
có độ phụ thuộc là 0,4
Thông thường người ta tính AND bằng phép lấy min và OR bằng phép lấymax, điều này nhằm làm giản đơn các phép tính trong các ứng dụng điều khiểnnhỏ Tổng quát hóa thì ta có các toán tử sau đây để biểu diễn mối quan hệgiữa các điều kiện trong phần IF :
i i
i i
Tùy theo giá trị của hay mà ta có các trường hợp đặc biệt sau :
Min-Max, = 0 : MIN lấy nhỏ nhất (minimum), tương ứng với AND,Min-Max, = 1 : MAX lấy lớn nhất (maximum), tương ứng với OR.Min-Avg, = 1 : AVG lấy trung bình (average)
Gamma, = 0 : PROD lấy tích (product)
Trang 223.3.2 Tổng hợp luật dựa trên kết quả của từng luật đã tính ở trên, người ta
tổng hợp chúng lại để có kết quả cuối cùng của các tập mờ đầu ra Phươngpháp thường dùng trong bước này là Max-Min hay Max-Prod
Ví dụ có hai luật đã tính kết quả :
If nhiệt độ = rất lạnh And thay đổi = không thay đổi Then nút bấm = 1
Luật thứ nhất cho kết quả có độ phụ thuộc bằng 0,4 và luật thứ hai cho kết quảcó độ phụ thuộc bằng 0,6 Sử dụng phương pháp Max-Min (hay Max-Prod), tacó độ phụ thuộc cho tập mờ 1 của nút bấm là max(0,4;0,6) = 0,6
Một khi đã tính xong các luật, người ta tiến hành giải mờ để tạo ra kết quả phùhợp với thế giới thực
3.4 Giải mờ
Kết quả được tạo thành sau khi tính toán các luật vẫn còn ở dạng mờ và thiết
bị chấp hành của bộ điều khiển thì lại không hiểu những giá trị như thế
Do đó, người ta cần chuyển đổi những giá trị mờ đó thành giá trị rõ cho thiết bịchấp hành
Có nhiều phương pháp được dùng trong bước này :
Nguyên lý cực đại : hay còn gọi là
phương pháp độ cao, chỉ dùng cho loại
tập mờ ra có đỉnh nhọn, được biểu diễn
qua biểu thức
(z*) ) (z), z ZTrong trường hợp có nhiều đỉnh nhọn hay giá trị cực đại không phải là mộtđiểm duy nhất thì người ta sử dụng :
Trung bình các cực đại (MoM):
2
2 1
Phương pháp trọng tâm (CoG –
Center of Gravity hay CoA – Center
of Area) : thường dùng trong các ứng
dụng, được biểu diễn qua biểu thức
zz*)
zz*)
z
Trang 23
dz z
zdz z z
) (
Phương pháp trung bình theo trọng số (CoM – Center of Maximum) :
là một biến dạng của phương pháp trọng tâm khi thay dấu tích phân bằngdấu sigma, được dùng nhằm đơn giản hóa sự tính toán, phù hợp với cácđiều khiển nhỏ
Các tập mờ ra có dạng singleton :
) (
Phương pháp trọng tâm diện tích lớn nhất : tính theo phương pháp trọng
tâm nhưng áp dụng trong trường hợp có ít nhất vùng trên tập nền ra, tínhtrên vùng có diện tích lớn nhất
Có rất nhiều phương pháp giải mờ (hiện còn đang tiếp tục nghiên cứu), tuynhiên trong thực tế thường chỉ dùng phương pháp trọng tâm, trung bình theotrọng số hay trung bình các cực đại Phương pháp trọng tâm hay phương pháptrung bình theo trọng số cho kết quả mang tính chất thỏa hiệp các tập mờ ra,thường dùng trong các ứng dụng điều khiển Trong khi phương pháp trung bìnhcác cực đại cho kết quả mang tính dung hòa các tập mờ ra, thường dùng trongcác ứng dụng nhận dạng và phân loại
Trang 24MẠNG NEURON
1 SƠ LƯỢC VỀ MẠNG NEURON
1.1 Quá trình phát triển
Mạng neuron được xem như một mô hình toán học đơn giản của bộ não conngười, có chức năng xử lý song song Trái với máy tính hoạt động dựa trênchương trình do con người viết sẵn, mạng neuron hoạt động dựa trên những gìcon người dạy nó trước đó
Mạng neuron có thể học các kết hợp mới, các chức năng mới hay nhận biếtcác mẫu mới Mặc dù máy tính có thể thực hiện những việc hiện tại với độchính xác và tốc độ cao, nhưng mạng neuron hứa hẹn một thế mới trong lĩnhvực xử lý thông tin
Quá trình nghiên cứu mạng neuron bắt đầu khoảng hơn 50 năm trước, đầu tiên
là McCulloch & Pitts (1943), rồi đến Hebb qua công trình nổi tiếng Tổ chức của hành vi (1949).
Tuy nhiên, buổi ban đầu của trí tuệ nhân tạo không suôn sẻ một chút nào Ởđây có sự chia rẽ giữa những người tin rằng các hệ thông minh có thể thực hiệntốt những gì đang được thực hiện trên máy tính và những người như Minsky và
Papert (1969) tin rằng sự thông minh được xử lý tốt trên máy von Neumann.
Vì nhiều lý do khác nhau, nhánh thứ hai chiếm ưu thế trong thập kỷ 70 Nhưngđến thập kỷ 80 thì ưu thế thuộc về nhánh thứ nhất với sự tái sinh của mạngneuron :
1982 Hopfield đưa ra nền tảng toán học để có thể hiểu các lớp quan trọng
của mạng
Trang 251984 Kohonen phát triển mạng học không giám sát để ánh xạ đặc điểm
thành mảng các neuron
1986 Rumelhart & McClelland giới thiệu giải thuật học theo cách truyền
ngược dùng cho mạng đa tầng, phức tạp
Kể từ năm 1986-86, nhiều chương trình nghiên cứu mạng neuron được ra đời.Danh sách các ứng dụng được xử lý bằng mạng neuron cũng trở nên dài ra, từnhững ví dụ mang tính kiểm tra cho đến những vấn đề thực tiễn lớn
1.2 Mạng neuron là gì ?
Định nghĩa : hệ neuron nhân tạo, hoặc mạng neuron, là hệ vật lý có thể thu
nhận, lưu trữ và sử dụng tri thức của con người.
Sự phát triển của các công trình nghiên cứu về tính toán theo mô hình mạngneuron đã được thúc đẩy bằng sự nhận định là trí óc con người tính toán theocách khác hẳn so với máy tính Từ đó con người đưa ra mạng neuron nhằmhiểu những lời giải của trí óc về các lĩnh vực như nhận dạng hình ảnh, tiếngnói và áp dụng những lĩnh vực đó vào máy tính Sau nhiều nghiên cứu, người
ta đưa ra nhận xét sau :
- Điều quan trọng chính là cách xử lý song song chứ không phải tốc độ tính
toán của bộ não
- Mặc dù chưa hiểu cách mô tả các ý tưởng của bộ não nên chưa thể bắtchước hoàn toàn, nhưng ta có thể thấy rằng bộ não sử dụng những phần tử
tính toán có tốc độ chậm nhưng được liên kết với nhau.
1.3 Cấu trúc của não
Hiện tại, người ta vẫn chưa thể hiểu “tâm trí là gì ?” và “sự suy nghĩ bắt nguồntừ đâu ?” Tuy vậy, ta vẫn có thể hiểu các hoạt động của bộ não ở cấp thấp :Bộ não con người chứa khoảng 1010 phần tử cơ bản gọi là neuron Mỗi neuronđược kết nối với khoảng 104 neuron khác Qua đó, bộ não là một cấu trúc cónăng suất cao mặc dù neuron là phần tử tính toán rất chậm so với các cổnglogic silicon : trong IC sự kiện xảy ra với tỷ lệ 10-10 giây trong khi sự kiện xảy
ra trên neuron theo tỷ lệ 10-3 giây
Sự hoạt động của hệ thần kinh được chia thành 3 giai đoạn :
- Con người nhận được kích thích từ bên ngoài thông qua các giác quan Sựkích thích này được chuyển đổi thành xung điện và được chuyển đến não
- Bộ não liên tục thu nhận thông tin, xử lý, đánh giá và so sánh chúng vớinhững thông tin đang lưu trữ để tạo ra các quyết định thích đáng
- Những mệnh lệnh đưa ra sau khi bộ não xử lý được truyền đến các bộphận chấp hành như tay chân cho hành động hay lưỡi cho tiếng nói … dưới
Trang 26dạng xung điện Bộ phận thi hành biến đổi xung điện đưa đến thành hànhđộng.
Neuron là phần tử cơ bản của não, có khả năng hoạt động tương tự một đơn vịlogic của máy tính, được chia làm 2 loại :
- Neuron vào ra cục bộ, cách nhau khoảng 100 micron (1 micron = 10-3mm)
- Neuron ra kết nối với các vùng khác của não, như kết nối não với bắp thịthay kết nối các giác quan với não
Trong quá trình hoạt động, neuron nhận được nhiều thông tin, và những thôngtin này được cộng lại với nhau theo một hình thức nào đó
Mặc dù các neuron có hình dạng và kích thước khác nhau nhưng về căn bản,có thể chia thành 3 phần :
- Thể soma của neuron
- Bám soma là những sợi nhỏ gọi là dendrite, hoạt động như là cầu nối vớicác neuron, dùng làm kênh vào của neuron
- Một loại dây thần kinh khác cũng nối với soma là axon có bản chất dẫnđiện, được dùng như kênh ra của neuron Mỗi neuron chỉ có một axon.Mỗi neuron có một mức kích hoạt, nằm trong tầm giữa giá trị lớn nhất và giátrị nhỏ nhất, trái với logic Boolean chỉ có tồn tại hai giá trị
Việc gia tăng hay giảm mức kích hoạt của neuron này đối với neuron khácđược thực hiện thông qua các synapse bám trên dendrite Nếu là synapse kíchthích, mức kích hoạt từ neron gửi làm gia tăng mức kích hoạt của neuron nhận.Còn nếu là synapse hạn chế thì mức kích hoạt từ neuron gửi sẽ lảm giảm mứckích hoạt của neuron nhận Mức kích hoạt tại neuron nhận đạt đến một giá trị
Synapse kích thíchSynapse hạn chếDendrite
soma
Trang 27ngường nào đó sẽ kích thích đầu ra, truyền trên axon đến các neuron khác,cuối axon có khoảng 10000 synapse.
Các synapse không chỉ khác nhau ở tác dụng kích thích hay hạn chế mà cònkhác nhau ở mức kích hoạt
1.3.1 Học hỏi trong hệ thống sinh vật
Axon là một thiết bị phi tuyến tạo ra xung điện áp được gọi là thế năng kíchhoạt, tồn tại trong khoảng 10-3 giây Thế năng này được tạo ra khi thế nghĩ bêntrong soma vượt qua một ngưỡng giới hạn cố định nào đó
Cuối axon là các synapse kết nối axon với dendrite của những neuron khác Sựkết nối này mang tính tạm thời và là sự kết nối hóa học Synapse thải ra chấthóa học gọi là neurotransmitter nếu thế của nó lên cao bởi axon tạo ra thếnăng kích hoạt Chất hóa học này phân tán qua khe hở giữa axon và dendrite,làm hoạt hóa những cổng trên dendrite Tùy theo mức độ hoạt hóa mà nhữngcổng này có thể được mở hay không Trong trường những cổng này được mởthì các ion được nạp sẽ di chuyển vào dendrite và làm cho thế năng củadendrite thay đổi thông qua việc cung cấp một điện thế cho dendrite Từdendrite thế năng được truyền vào soma của neuron nhận
Học hỏi trong hệ thống sinh vật được hiểu là sự thay đổi hóa học xảy ra ở điểm nối synapse giữa neuron này với neuron khác Sự thay đổi làm mở cổng trên dendrite của neuron nhận.
2 MÔ HÌNH HÓA NEURON
Tri thức thể hiện dưới dạng các trạng thái ổn định hay các ánh xạ được nhúng vào mạng, có thể gọi lại sau đó để đáp ứng với một tình huống cụ thể Phần tử cơ bản của mạng neuron được gọi là neuron nhân tạo, hay đơn giản là neuron hay node.
2.1 Yêu cầu khi lập mô hình một neuron
Công việc cơ bản của một neuron nhân tạo là cộng các mức kích hoạt ở đầuvào rồi tạo một mức tác động ở đầu ra nếu tổng các mức kích hoạt ở đầu vàolớn hơn một giá trị ngưỡng nào đó Mô hình neuron khi tạo ra phải có nhữngđặc điểm cơ bản đó :
- Tín hiệu ra của neuron là có hay không (on hay off)
- Tín hiệu ra này chỉ phụ thuộc các tín hiệu vào mà thôi
2.2 Lập mô hình neuron
Từ những yêu cầu đó, ta thấy rằng đơn vị xử lý do ta lập ra gồm có :
- Mức kích hoạt (đại diện cho trạng thái phân cực của neuron)
Trang 28- Giá trị ra (đại diện cho mức tác động của neuron).
- Tập các kết nối vào (đại diện cho các synapse và dendrite)
- Giá trị phân cực (đại diện cho mức nghỉ của neuron)
- Tập các kết nối ra (đại diện cho kết nối của axon)
Các giá trị trên được biểu diễn theo toán học bằng các số thực
Có khá nhiều mô hình toán học cho neuron Ở đây trình bày mô hình thôngdụng nhất, dùng một hàm truyền kết nối các đầu vào để tạo đầu ra :
- Phương tiện kết nối là tổng
có trọng số, trong đó trọng
số đại diện cho độ mạnh yếu
của synapse
- Synapse kích thích có
trọng số dương và synapse
hạn chế có trọng số âm
- Giá trị ngưỡng được
thêm vào để biểu diễn mức
độ kích hoạt của neuron
Dòng tín hiệu từ đầu vào xi
được xem như dòng một chiều
được biểu diễn bởi mũi tên Tín hiệu ra được cho theo quan hệ :
w f x w f y
1,
với w = (w1, w2, …, wn)T Rn là vector trọng số Hàm f(wTx) được gọi là hàmkích hoạt hay hàm truyền
Trong biểu thức có đề cập đến giá trị ngưỡng như là một giá trị đánh giá sựkết hợp của các mức kích hoạt ở đầu vào Hoàn toàn có thể chuyển giá trịngưỡng vào tích vô hướng wx bằng cách xem nó như một đầu vào có trọngsố bằng –1
Trang 29đó là lý do tại sao thường người ta cho giá trị ngưỡng bằng 0 trong biểu thức.Hàm kích hoạt có thể là tuyến tính hay bán tuyến tính như :
Tuyến tính f(<w,x>) = wTx
1 nếu <w,x> > 1Tuyến tính từng phần f(<w,x>) = <w,x> nếu w, x 1
-1 nếu <w,x> < -1Giới hạn chặt f(<w,x>) = sign(wTx)
Dạng chữ S đơn cực f(<w,x>) = 1exp(1w T x)
Dạng chữ S lưỡng cực (1) f(<w,x>) = tanh(wTx)
Dạng chữ S lưỡng cực (2) f(<w,x>) = 1
) exp(
3 HỌC HỎI TRONG MẠNG NEURON
Định nghĩa : học hỏi là một quá trình trong đó các thông số tự do được điều
chỉnh liên tục bởi các kích thích bên ngoài.
Như trong định nghĩa đã đề ra, việc học hỏi được dựa trên những kích thích bênngoài nên trước khi cho mạng neuron hoạt động, ta cần phải có một tập dữ liệu
để dạy cho nó Sau quá trình này, mạng neuron đã sẳn sàng hoạt động và
không học nữa để đảm bảo cho mạng neuron không rơi vào trạng thái bất ổnđịnh Xét thí nghiệm Pavlov trên chó :
Khi đem thức ăn đặt trước chó, nó tiết nước bọt Tuy nhiên khi nghe chuôngreo thì nó không tiết nước bọt nhưng có phản ứng như ngóc đầu lên nhìn chẳnghạn Điều này cho thấy chuông và thức ăn không có mối liên kết, nhưng chúngđều có mối liên kết đến bộ não của chó
Sau đó, mỗi lần Pavlov cho chó ăn, ông đều để chuông reng Đến một lúc nàođó, khi nghe reng chuông chó cũng tiết nước bọt mặc dù không có thức ăn
Về mặt sinh học, người ta gọi đây là phản xạ có điều kiện, tức là ban đầu sinh
vật không có phản xạ thì qua quá trình rèn luyện vật trở nên có phản xạ Xétvề cách thức bên trong neuron thì ta thấy rằng các kích thích đều kết nối đếnhành vi Tuy nhiên, mỗi kết nối có một trọng số của nó và tùy theo giá trị củatrọng số này mà kích thích đó có tạo ra hành vi hay không Như ở ví dụ Pavlov,trọng số của kích thích chuông reng đối với hành vi tiết nước bọt ở chó là nhỏ,không thể tạo ra hành vi Quá trình rèn luyện đã làm cho trọng số này tăng lênnên sau đó nó đủ sức để tạo ra hành vi
Trang 30Định luật Hebb : gia tăng trọng số của kích thích nếu muốn đầu ra của neuron
trở nên tác động đối với kích thích Ngược lại, giảm trọng số của kích thích nếu không muốn đầu ra của neuron tác động đối với kích thích đó.
định luật Hebb này là tiền đề cho tất cả các giải thuật học sau này
Đối với mô hình neuron, xét ví dụ : Giả sử có hai đầu vào Boolean x1, x2 [0,1] và một đầu ra Boolean y [0,1] Phương trình mô tả neuron :
1 nếu w1x1 + w2x2
0 trường hợp còn lạiGiả sử ta muốn neuron này hoạt động như một cổng AND Thế thì tập huấnluyện được cho theo dạng các cặp vào/ra như sau :
Vấn đề học ở đây làø tìm trọng số w 1 , w 2 và giá trị ngưỡng thích hợp nhằm tạo
ra kết quả theo yêu cầu.
Rõ ràng w1 = w2 =1/2 và = 0,6 là giá trị cần tìm :
Thức ăn Chuông reng
Tiết nước bọt
Thức ăn Chuông reng
Tiết nước bọt
Thức ăn
y(x1,x2) =
Trang 31Hầu hết các giải thuật học đều dựa trên sai lệch giữa kết quả thực hiện bởimạng neuron với kết quả mong muốn Đó là một quá trình sửa sai theo giải
thuật tổng quát gọi là lan truyền ngược sai lệch Có thể phát biểu như sau : Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dòng chảy trong mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng neuron với giá trị ra mong muốn Nếu hai giá trị này giống nhau thì không thay đổi gì cả Tuy nhiên, nếu có một sai lệch giữa hai giá trị này thì đi ngược mạng từ đầu ra vể đầu vào để thay đỗi một số kết nối
Đây là một quá trình lặp liên tục và có thể không dừng khi không thể tìm cácgiá trị w sao cho đầu ra tạo bởi mạng neuron bằng đúng đầu ra mong muốn Dođó trong thực tế người ta phải thiết lập tiêu chuẩn dừng dựa trên một giá trị saisố nào đó của hai giá trị này, hay dựa trên một số lần lặp xác định
Để tiện cho việc trình bày, ta ký hiệu o là giá trị ra của mạng neuron, y là giátrị ra mong muốn, e là sai lệch giữa hai giá trị này :
e = y – o
4 GIẢI THUẬT HỌC PERCEPTRON
Luật học perceptron được Frank Rosenblatt đưa ra vào cuối năm 1950 là mộttiêu biểu cho nguyên lý sửa sai theo giải thuật lan truyền ngược sai lệch Luậthọc này dựa trên mô hình perceptron chỉ gồm một neuron duy nhất, dùng hàmngưỡng tuyến tính làm hàm truyền nên được dùng cho việc nhận dạng và phânđối tượng thành hai loại mà thôi
4.1 Mô tả giải thuật
Cho trước tập các cặp giá trị vào ra :
Đầu vào Đầu ra
1 ( , 1 , , 1 )
2
1 1
1
n x x x
2 ( , 2 , , 2 )
2
2 1
2
n x x x
K ( 1 , 2 , , K)
n K K
Vấn đề là tìm vector trọng số w như là :
o(x) = sign(<w,x>) = y cho tất cả các mẫu trong tập huấn luyện
Hàm kích hoạt được dùng là hàm ngưỡng tuyến tính, cho dưới dạng :
Trang 32Phương pháp học theo perceptron được thực hiện bằng cách thay đổi w theo :
w = w + (y-o)x, > 0 là hệ số học
Từ phương trình này ta thấy rằng giá trị ra của mạng neuron bằng giá trị
ra mong muốn, o = y, khi w không thay đổi.
Khi đó quá trình học kết thúc.
4.2 Phân loại với mô hình perceptron
Cũng cho tập dữ liệu :
Mẫu số Giá trị đầu vào Đầu ra mong muốn
2
1 1
1
n x x x
2
2 1
2
n x x x
n K K
tức là x thuộc về C1 nếu tồn tại (x,1) và x thuộc về C2 nếu tồn tại (x,0)
Theo định nghĩa của hàm kích hoạt, dễ thấy rằng ta đang đi tìm vector trọng số
w sao cho :
<w,x> > 0 cho x C1và
<w,x> < 0 cho x C2
Nếu tồn tại những vector w như vậy thì ta gọi bài toán này gọi là khả tách tuyến tính
Trang 33Nếu bài toán đang là khả tách tuyến tính thì chúng ta có thể dịch chuyểnđường phân tách về gốc tọa độ :
Cuối cùng bài toán trở thành tìm một đường thẳng sao cho tất cả các phần tửcủa C1 (-C2) đều nằm trên phân nửa dương :
tức là chúng ta đã chuyển đổi
<w,x> > 0 cho x C1, <w,x> < 0 cho x C2thành
<w,x> > 0 cho x C1, <w,-x> > 0 cho –x -C2có thể viết lại theo dạng :
<w,x> > 0 cho x C1 -C2Vector trọng số được điều chỉnh theo luật học perceptron :
w = w + (y-o)x
Trang 34với > 0 là hệ số học và y = 1 là giá trị đầu ra mong muốn, o {0,1} là giá trị
ra của mạng neuron, x là giá trị vào
Hình sau đây minh họa cho giải thuật học perceptron :
4.3 Tóm tắt giải thuật
Bước 1 : chọn một giá trị > 0.
Bước 2 : khởi tạo trọng số w một cách ngẫu nhiên, thiết lập sai lệch e = 0,
bắt đầu với mẫu thứ nhất k = 1
Bước 3 : bắt đầu học Cho x = xk và tính đầu ra
Bước 7 : xong một chu kỳ học Nếu e = 0 kết thúc quá trình học Còn nếu
e > 0 thì thiết lập e = 0, k = 1 và khởi tạo chu kỳ học mới bằng cách trở lại
bước 3.
o(x) =
mặt phân tách cũ mặt phân tách mới
Trang 35Thuyết sau đây chứng tỏ rằng nếu bài toán có nhiều lời giải thì giải thuật họcperceptron sẽ tìm ra một lời giải trong số đó.
Thuyết hội tụ : Nếu bài toán là khả tách tuyến tính thì chương trình sẽ chỉ lặp
lại một số lần xác định.
4.4 Hạn chế
Mô hình perceptron chủ yếu để ta hiểu về cách học hỏi của mạng neuron chứthực ra thì do nó quá đơn giản và sử dụng hàm truyền là hàm ngưỡng tuyếntính nên có mặt hạn chế của nó Năm 1969, Minsky và Papert đưa ra các phântích rất kỹ về mô hình perceptron và qua đó chứng minh sự thất bại của nó vớibài toán XOR :
Nếu [x1,x2] = [0,0] thì o(x) = 0 w1.0 + w2.0 < > 0
Nếu [x1,x2] = [0,1] thì o(x) = 1 w1.0 + w2.1 w2
Nếu [x1,x2] = [1,0] thì o(x) = 1 w1.1 + w2.0 w1
Nếu [x1,x2] = [1,1] thì o(x) = 0 w1.1 + w2.1 < w1 + w2 <
không thể tìm ra w1, w2, thỏa mãn 4 bất đẳng thức trên
Mô hình perceptron không thể tìm ra lời giải trong trường hợp này bởi vì hàm XOR không phải là hàm ngưỡng tuyến tính.
Kể từ lúc đó, mạng neuron bắt đầu một buổi bình minh mới
o(x) =
Trang 365 GIẢI THUẬT HỌC DELTA
Luật học delta dựa trên tính chất của đạo hàm mà nền tảng là phương thứcgiảm nên có thể dùng cho hàm truyền bất kỳ (tuyến tính hay bán tuyến tính)
5.1 Đạo hàm
Định nghĩa : đạo hàm của
hàm số f tại một điểm x thuộc
miền xác định, ký hiệu là
x f x f x
0
x f x x
x f y
suy ra
) (
) (
0
0 0
1
x f
x f x x
) (
1
n
n n
n
x f
x f x x
Quá trình trên được gọi là phương
thức giảm Aùp dụng điều này cho trọng số w, ta thấy ở vòng lặp kế wn+1 phảithỏa tính chất :
f(wn+1) < f(wn)tức là giá trị của f tại wn+1 nhỏ hơn giá trị trước đó tại wn
Trong luật học sửa sai, mỗi phép lặp theo phương thức giảm sẽ tìm hướng giảmtại wn để với một > 0 nhỏ bất kỳ sao cho :
) ( )) (
Hướng giảm
Trang 37đặt wn+1 là vector
) (
f
t e
) ( ) ( lim ) (
t i
), ,, ,(), ,, ,
(lim)
f ( ) ( 1 ( ), , ( ))
5.2 Mô tả luật học delta
Xét một neuron sử dụng đầu ra là hàm tuyến tính, thế thì vector trọng số tìmđược trong giải thuật học sẽ là một đường thẳng (trường hợp không gian haichiều) Điều này có nghĩa là luật học cho hàm truyền tuyến tính chỉ có thể xấp
xỉ một hàm tuyến tính mà thôi
Tuy nhiên, nếu hàm truyền là phi tuyến thì khó có thể có một xấp xỉ tốt Đó làlý do tại sao người ta dùng hàm kích hoạt bán tuyến tính
Đầu ra của neuron :
o(<w,x>) = f(wTx)Cũng như luật học perceptron, luật học delta cần một tập dữ liệu mẫu cho quátrình học
Trang 38Mẫu số Giá trị đầu vào Đầu ra mong muốn
2
1 1
1
n x x x
2
2 1
2
n x x x
n K K
2
1
x w f y o
k k
E E
E E
E
2 1 1
Luật học sẽ thay đổi w theo hướng làm cực tiểu hóa sai lệch bằng cách sửdụng phép lặp :
)
(w
E w
w k
với
) ( )) ( (
)) ( (
2
1 )
dw
d w
5.3 Một số hàm truyền và đạo hàm của nó
Biểu thức trên cho thấy trong luật học delta, ta cần phải tính đạo hàm của hàmtruyền Sau đây là một số hàm truyền hay dùng và đạo hàm của nó :
Hàm dạng chữ S lưỡng cực :
)) ( 1 ( 2
1 )) exp(
1 (
) exp(
2 ) ( 1 ) exp(
1
2 )
t
t t
f t
Trang 39Hàm dạng chữ S đơn cực :
)) ( 1 )(
( )) exp(
1 (
) exp(
) ( )
exp(
1
1 )
t
t t
f t t
5.4 Tóm tắt giải thuật
Cho trước K mẫu dữ liệu :
(x1 ,y1 ), , (x K,y K)với ( 1 , , k)
n k
x và yk R, k = 1,…,K.
Do tính chất không tuyến tính của hàm truyền mà giải thuật khó có thể dừngđúng nghĩa (giá trị tạo ra bởi mạng neuron bằng đúng giá trị mong muốn haysai lệch = 0) Do đó người ta thiết lập tiêu chuẩn dừng theo một giá trị sai lệch
Emax cho phép nào đó : khi sai lệch E nhỏ hơn hoặc bằng E max thì dừng
Trong thực tế người ta còn có một tiêu chuẩn dững theo số lần lặp : khi đạt đến một số lần lặp xác định thì dừng.
Bước 1 : chọn trước giá trị > 0 và Emax > 0
Bước 2 : khởi tạo ngẫu nhiên w, bắt đầu với mẫu thứ nhất k = 1 và gán sai
w k
Bước 5 : tính sai lệch bằng cách cộng thêm sai lệch hiện tại
2
) ( 2
1
o y E
Trang 406 GIẢI THUẬT DELTA TỔNG QUÁT
Qui luật học delta phát triển ở trên cho một neuron Bây giờ ta xét trong trườnghợp tổng quát cho một mạng neuron đa tầng (MLP) và dẫn đến giải thuật deltatổng quát, hay còn gọi là giải thuật lan truyền ngược sai lệch
6.1 Mô hình perceptron đa tầng
Có một bất đồng trong vấn đề xác định số tầng của mạng neuron Ví dụ nhưxét mạng sau :
- Nếu xét theo số tầng xử lý thì mạng neuron trên có 2 tầng
- Nếu xét theo số tầng của node thì mạng neuron trên có 3 tầng
Phần trình bày từ đây về sau sử dụng cách đếm số tầng thứ nhất Như vậy
mạng neuron trên được xem là có hai tầng.
Lớp neuron mà đầu ra của nó không thể truy xuất trực tiếp gọi là lớp nội, hay lớp ẩn mạng neuron trên có một lớp ẩn với l node.
6.2 Luật học delta tổng quát
Luật học delta tổng quát hay luật học lan truyền sai lệch ngược rất phức tạp,việc dẫn xuất ra nó cần rất nhiều phương thức toán học Nhằm đơn giản choviệc trình bày, ở đây chỉ minh họa cho trường hợp mạng neuron hai tầng cómột node ra
m node ra
n node vào
l node ẩn