1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giáo trình nhận dạng mẫu

26 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 3,1 MB

Nội dung

ĐẠI HỌC QUÓC GIA HÀ NỘI TRƯ Ờ NG ĐẠI HỌC CÔNG N G H Ệ _• _ Ị _ !_ HỒNG XN HUẤN GIÁO TRÌNH NHẬN DẠNG MAU NHÀ XUẤT BẢN ĐẠI HỌC Q ố c GIA HÀ NỘI MỤC LỤC Lời nói đ ầu Chương GIỚI THIỆU 11 1.1 Nhận dạng mẫu gì? 11 1.2 Các ví dụ 13 1.2.1 Bài toán phân loại 13 1.2.2 Bài toán hồi quy 15 1.2.3 Bài tốn mơ tả 17 1.3 Các hệ thơng nhận dạng mẫu 18 1.4 Q trình xây dựng hệ nhận dạng mẫu 22 1.5 Học máy cách tiếp cận 25 1.5.1 Học có giám sát 25 1.5.2 Học khơng có giám sát 25 1.5.3 Học tăng cường 26 1.5.4 Học thống kê 26 1.5.5 Mạng nơron nhân tạo 26 1.5.6 Nhận dạng mẫu có cấu trúc 27 Chương PHÂN BIỆT MAU 29 2.1 Miền hàm định 29 2.1.1 Hàm định 30 2.1.2 Tách bỏi siêu phẳng 34 2.2 Các mêtric không gian đặc trưng 39 2.3 Ma trận hiệp phương sai 41 2.4 Các thành phần 45 2.5 Đánh giá đặc trưng 46 2.5.1 Quan sát đồ thị 47 2.5.2 Đánh giá mơ hình phân bơ' 48 2.5.3 Kiểm định suy luận thống kê 48 2.6 Bài toán tỷ lệ chiều 49 Chương PHÂN CỤM DỬ LIỆU 53 3.1 Phân lớp không giám sát 53 3.2 Vấn đề chuẩn hóa liệu 55 3.3 Một số phương pháp 57 3.3.1 Phương pháp phân cấp 57 3.3.2 Phương pháp phân hoạch 60 3.3.3 Phương pháp dựa vào mật độ 66 3.3.4 Phương pháp phân cụm dựa lưới 69 3.3.5 Phân cụm nửa giám sát 71 3.4 Một 8ốchủ để liên quan 72 3.4.1 Trực quan hóa giảm chiều liệu 72 3.4.2 Đánh giố cụm 73 Chương PHÂN LỚP THỐNG KẺ 75 4.1 Phân biệt tuyến tính 75 4.1.1 Phân lớp khoảng cách cực tiểu 75 4.1.2 Phân biệt tuyến tính Euclide 78 4.1.3 Phân biệt tuyến tính Mahalanobis 80 4.1.4, Phần biệt tuyến tính Ficher 81 4.2 Phân lốp Bayes 82 4.2.1 Phân lốp xác suất hậu nghiệm cực đại 83 4.2.2 Phân lóp cực tiểu rủi ro 86 M iề n b c bò (re je c t region) 88 4.2.4 Tỷ lệ chiều ước lượng lỗi 90 4.3 Kỹ thuật phi tham 80' 91 4.3.1 Phương pháp cửa sổ Parzen 93 4.3.2 Phương pháp ưóc lượng k- láng giềng gần 95 4.4 Quy tắc phân loại k- láng giềng gần 96 4.5 Lựa chọn đặc trưng 97 4.6 Đánh giá phân lớp 98 4.6.1 Ưâc lượng lỗi phân lớp 4.6.2 So sánh phân lớp khác liệu đào tạo 98 100 Chương PHÂN LỚP BẢNG CÂY QUYẾT ĐỊNH 103 5.1 Biểu diễn định 103 5.2 Học quy nạp định 105 5.3 Thuật tốn học ID3 107 5.3.1 Mơ tả thuật tốn 108 5.3.2 Chọn thuộc tính phân loại tốt 109 5.3.3 Ví dụ minh họa 112 5.3.4 N hận xét ID3 114 5.4 Những hướng giải vấn đề học cầy định 116 5.4.1 Phòng tránh 8ự phù hợp trội 116 5.4.2 Kết hợp thuộc tính có giá trị liên tục 120 5.4.3 Tiêu chuẩn để chọn thuộc tính 121 5.4.4 Xử lý mẫu huấn luyện vối giá trị thuộc tính bị 122 Chương DỬ LIỆU TUÂN T ự 125 6.1 N hận dạng xâu 125 6.1.1 Đối sánh xâu 126 6.1.2 Khoảng cách soạn thào 130 6.1.3 Đốì sánh xâu vối lỗi 132 6.1.4 Đối sánh với ký hiệu trung tính 132 6.2 Mơ hình Markov ẩn 133 6.2.1 Mơ hình Markov bậc 133 6.2.2 Mơ hình Markov ẩn toán 135 6.2.3 Bài toán đánh giá 137 6.2.4 Bài toán giải mã 140 6.2.5 Bài toán học 141 Chương MẠNG NƠRON NHÂN TẠO 7.1 Giỗi thiệu 145 145 7.1.1 Mạng Nơron sinh học 145 7.1.2 Mạng Nơron nhân tạo 146 7.1.3 Mơ hình kiến trúc mạng nơron 147 7.2 Perceptron 152 7.2.1 Kiến trúc Perceptron 152 7.2.2 Luật học Perceptron 154 7.3 Học Widrow-Hofĩ 7.3.1 Mạng ADALINE 157 157 7.3.2 Lọc thích nghi MạngMLP 164 169 7.4.1 Kiến trúc mạng 169 7.4.2 Thuật tốn BP 171 7.4.3 Bình luận vể thuật toán 178 7.5 Mạng RBF 178 7.5.1 Kiến trúc mạng RBF 179 7.5.2 Đào tạo mạng'RBF 179 7.6 Mạng Hammiog 185 7.6.1 Kiến trúc mạng Hamming 185 7.6.2 Cơ chế hoạt động 185 7.7 Bản đồ đặc trưng tự tổ chức 187 7.7.1 Quan hệ lân cận giũa nơron 187 7.7.2 Kiến trúc hoạt động SOFM 188 Chương KẾT HỢP CÁC BỘ PHÂN LỚP 8.1 Các phương pháp tập thể học máy 193 193 8.2 Phương pháp bỏ phiếu 195 8.3 Hai kỹ thuật thông dụng tạo nhận dạng sở 196 8.3.1 Nhặt theo gói 196 8.3.2 Nhặt định hưống 197 8.4 Kiến trúc bậc thang 200 Tài liệu tham khảo 203 LỜI NĨI ĐẦU Giáo trìn h N h ậ n dạng mẫu vói thời lượng đến tín giảng dạy cho học viên cao học ngành Khoa học m áy tín h trưịng Đại học Công nghệ, cung cấp cho người học kiến thức để xây dựng hệ phân lớp mơ tả m ẫu ứng dụng Ngồi giáo trình dùng làm chủ đề lựa chọn môn học chủ đề đại khoa học m áy tín h cho sinh viên giai đoạn cuối ngành này, nhằm hỗ trợ sinh viên làm khóa luận có nhu cầu nghiên cứu N hận dạng m ẫu có lịch sử phát triển sớm, trưóc năm 1960 đơn kết ứng dụng nghiên cứu lý thu y ết lĩnh vực thống kê Ngày phát triển m ạnh mẽ, bao gồm phạm vi rộng có ứng dụng rộng rãi, đặc biệt th iế t k ế thiết bị nghe nhìn, xử lý tín hiệu tự động khám phá tri thức từ liệu Vì lượng kiến thức r ấ t lón mà thịi lượng ít, để hiểu th ấu đáo th ì địi hỏi ngưịi học phải có tảng tốn học tốt, đặc biệt xác suất thống kê, nên chúng tơi trọng giói thiệu th u ậ t toán hưống dẫn sử dụng mà khơng sâu vào chất tốn học M ột số kiến thức khó cần dùng, chẳng hạn mơ hình Markov ẩn, th u ậ t tốn độj sánh nhanh xâu , chúng tơi giới thiệu n é t để gợi mở cho học viên mn tìm hiểu sâu Chương đầu giáo trìn h dành để giới thiệu khái niệm nhận dạng m ẫu, phác họa tran h chung hệ nhận dạng mẫu vói quy trìn h th iế t kế Chương trìn h bày phương pháp phân biệt m ẫu nhò hàm định vấn để liên quan kh i xử lý liệu Cốc phương pháp phân cụm liệu trìn h bày chương Chương giới thiệu phương pháp nhận dạng m ẫu thống kê Phương pháp phân lốp nhị định trìn h bày chương Chương trìn h bày tốn th u ật tốn thưịng gặp xử lý liệu tu ần tự bao gồm th u ậ t toán đếi sánh xâu tốn mơ hình Markov ẩn Các m ạng nơron nhân tạo thông dụng n h ấ t giới thiệu chương Chương cuối giối thiệu phương pháp kết hdp phân lóp để nâng cao chất lượng hệ nhận dạng, bao gồm phương pháp học tập thể tổ chức kiến trúc bậc thang Giáo trìn h dùng làm tài liệu tham khảo cho nghiên cứu sinh sinh viên ngành khác thuộc nhóm ngành cơng nghệ thông tin Để hiểu sâu hơn, giới thiệu số tài liệu tham khảo m chúng tơi cung cấp [1-5], bao gồm tiếp cận liên quan m ật th iế t học máy [6-8] m ạng nơron [9-11] Do lần đầu xuất nên chốn giáo trình cịn nhiều thiếu sót, chúng tơi rấ t mong nhận cốc ý kiến gốp ý để giáo trìn h hồn thiện T ác giả 10 Chương GIỚI THIỆU Trước sâu vào phương pháp n h ận dạng mẫu, chương giới thiệu khái niệm mẫu n h ận dạng m ẫu máy, phác họa tra n h chung hệ nhận dạng m ẫu với quy trìn h th iết k ế 1.1 N h ậ n d n g m ẫ u gì? Ngày nay, m áy tính chửng tỏ khả trội tín h tốn xử lý thơng tin so vối người Tuy nhiên, người bình thường dễ dàng cảm nhận, quan sát vật, tượng xung quanh nhận gương m ặt quen, hiểu lịi nói đơi thoại, đọc chữ viết tay phân biệt thức ăn từ mùi , ngưịi ta rấ t khó tạo máy tín h có khả người N hu cầu tạo r a máy móc tran g bị hệ thống thơng m inh, cạnh tran h với ngưịi quan sá t cảm nhận vật, tượng môi trường thúc đẩy r a đòi lĩnh vực nghiên cứu "nhận dạng m ẫu má y” hay gọi gọn nh ậ n dạng m ẫu (Pattern Recognition - PR) Mẫu Các đối tượng quan sát, nhận biết gọi chung m ẫu (pattem ) gọi đối tượng Tùy theo cốc ứng dụng, m ẫu có th ể phân làm hai loại: m ẫu trừ u tượng mẫu cụ thể Các ý tưỏng, lập luận khái niệm ví dụ mẫu trừ u tượng, nhận dạng m ẫu thuộc lĩnh vực nhận dạng khái niệm Các m ẫu cụ th ể bao gồm cốc đốì tượng vật lý; chữ ký; chữ viết; ký hiệu; ảnh; đoạn sóng âm thanh; điện não đồ 11 Y học • Chẩn đoán đưa phác đồ điều trị bệnh dựa trê n triệu chứng, kết xét nghiệm ảnh X-quang • P hân tích điện não đồ, tâm đồ ảnh điện quang để phát bệnh trạng thái sức khỏe Quản lý đô thị • P hân tích điều khiển giao thơng • Đ ánh giá dự báo phát triển đô thị K inh tế-xã hội • P hân tích dự báo thay đổi thị trường • P hân tích hoạt động doanh nghiệp, trợ giúp định kinh doanh, thương mại điện tử • Khám phá tri thức sở liệu A n ninh, quăn đội • N hận dạng vân tay • Khám phá, phân tích tín hiệu rada, âm th an h ảnh h àng khơng • Theo dõi hệ thống báo động • Xác định mục tiêu tự động 1.2 C c v í d ụ Để m inh họa rõ cho khái niệm PR, mục giới th iệu ví dụ cho tốn điển hình: phân loại, hồi quy mơ tả 1.2.1 B i to n p h â n lo i P h â n loại hay phân lớp có giám sá t dạng toán thường gặp n h ấ t nhận dạng mẫu Trong toán này, dựa trê n tr i thức quan sát có, người ta phân đốì tượng vào lốp biết Hệ nhận dạng tr i ví dụ cho to án 13 Ta tưỏng tượng hệ thống phân loại trái trê n băng chuyển có mơ hình 1.1 Tín hiệu trá i thu từ cảm biến (Sensor) màu sắc, hình dáng, trọng lượng Từ tín hiệu th u được, ngưịi ta trích, chọn đặc trưng để biểu diển cho trái cho việc tính tốn phân lóp dễ dàng xác Để đơn giản, ta xét hệ phân biệt hai loại trái cây: cam táo, đặc trưng chúng có th ể biểu diễn dạng số định danh Chẳng hạn, đặc trưng m àu là: Dạng số: biểu diễn dạng cường độ mức xám, đại lượng thuộc khoảng [0, a], ứng với mức khơng có màu cịn a mức xám cực • đại T Dạng định danh: đỏ/ xanh cây/ xanh Hlnh 1.1 Mô hlnh hệ thống phãn loại trái cAy trôn b ỉn g chuyển Khi biểu diễn đặc trưng dạng số, ứng với điểm không gian đặc trưng Bài toán nhận dạng trỏ th n h tốn phân lớp cho vectơ (điểm) khơng gian đặc trưng, sau ta dùng ký hiệu chữ in đậm để chi vectơ Xét đặc trưng số trọng lượng (xt) m àu (xị) trái cây, vectơ đặc trưng X vectơ hai chiều: 14 V trọng lượng *2 màu Qua quan sát thực nghiệm, cam chín táo xanh rơi vào miền có tâm hình 1.2-a H ình 1.2-b cho thấy táo đỏ bị nhầm cam cịn cam xanh ta khơng phân biệt Để tăng độ xác, người ta xét thêm đặc trư ng vỏ nhẵn thô, cảm biến xác định đặc trưng tốt cam có vỏ thơ cịn táo có vỏ nhẵn Việc chọn đặc trư ng có ý nghĩa quan trọng đối vối hệ phân loại phụ thuộc vào ch ất lượng cảm biến Hlnh 1.2 a) Q u ỉ cam vá táo kh&ng gian đ ặc tnm g b) Quả táo đỏ giống cam cịn cam xanh khó ph&n biệt 1.2.2 B i to n h i q u y Trong thực tế, ta thường phải xác định giá trị hàm nhiều biến điểm mối thuộc miền dựa trê n số liệu đo (quan sát) hàm miền Bài toán toán hồi quy nhiều biến phát biểu tổng qu át sau Xét hàm f: D ( c R n) -*R tập liệu T={xk,y 1 ,ck, (x,c ) hàm phụ thuộc tham sơ' chọn Thơng thường tham số tìm nhị cực tiểu hàm mục tiêu đó, chẳng hạn sai số trung bình phương: (1.4) H ình 1.3 minh họa hàm hồi quy (đưòng đứt) hàm nội suy dạng đa thức cho hàm biến có giá trị đo ỏ điểm 16 Hlnh 1.3 Đ ổ thị hàm hổi quy (đưòng đứt) nộl su y (đưàng liổn) 1.2.3 B i to n m ô tả Các kỹ th u ậ t mô tả ứng dụng đa dạng phân tích ảnh, đặc biệt phân tích tín hiệu lý-sinh Để làm ví dụ, ta x ét biểu đồ tốc độ nhịp tim thai thời kỳ Các biểu đồ ghi tầ n số tức thòi nhịp đập tim th (sô" lần/phút) biến đổi nhịp tim biểu đồ chuyên viên sản khoa dùng để phân tích, đánh giá th ể trạn g th nhi Hình 1.4a m inh họa biểu đồ tốc độ nhịp tim th (gọi tắ t biểu đồ tim thai) b) Mô t ỉ phẩn đẩu củ a biểu đổ b in Một hệ mô tả xử lý biểu đồ, ph át mô tả thời gian nhịp tim thai có biến đổi nhiều để giúp chuyên gia nhận định th ể trạn g th nhi Hệ mô tả biểu đồ xâu-các-iỊiành tố 17 biến đổi sơ cấp khoảng thòi gian bé để xấp xỉ biểu đồ, đặc biệt ỏ giai đoạn có thay đổi nhiều Chẳng hạn, phần đầu biểu đồ hình 1.4-a mơ tả hình 1.4-b Các thay đổi biểu đồ phân lớp theo thành tô" cho bảng 1.1 dựa hệ số tăn g hay giảm tầ n sô” khoảng biến thiên xét, À ngưỡng chọn trưổc Bảng 1.1 C ác thành tố mô tà nhịp tim thai Tèn thành tố K ỷ hiệu Mô tả Ngang n Đoạn giá trị không đổi Đi lên t Đoạn giá trị tăng vớí hệ số < À Đi xuống ỡ Đoạn giá trị giảm với hệ số >- À Lên mạnh T Đoạn giá trị tăng với hệ số > A Xuống mạnh G Đoạn giá trị giảm với hệ số

Ngày đăng: 18/03/2021, 19:00