Bài giảng Lý thuyết nhận dạng – Chương 2: Giới thiệu về nhận dạng mẫu với các nội dung khái niệm về nhận dạng mẫu; mô hình nhận dạng mẫu; khái niệm về chuẩn hóa dữ liệu; khái niệm và phương pháp phân tích đặc trưng.
CHƯƠNG 2: GIỚI THIỆU VỀ NHẬN DẠNG MẪU Biên soạn: TS Ngô Hữu Phúc Bộ môn: Khoa học máy tính Học viện kỹ thuật quân Email: ngohuuphuc76@gmail.com Tổng quan nhận dạng LÝ THUYẾT NHẬN DẠNG Thông tin chung Thơng tin nhóm mơn học: TT Họ tên giáo viên Học hàm Học vị Đơn vị công tác (Bộ môn) Ngô Hữu Phúc GVC TS BM Khoa học máy tính Trần Nguyên Ngọc GVC TS BM Khoa học máy tính Nguyễn Việt Hùng GV TS BM Khoa học máy tính Thời gian, địa điểm làm việc: Bộ mơn Khoa học máy tính Tầng 2, nhà A1 Địa liên hệ: Bộ môn Khoa học máy tính, khoa Cơng nghệ thơng tin Điện thoại, email: 069-515-329, ngohuuphuc76.mta@gmail.com TTNT - Học viện Kỹ thuật Quân Cấu trúc môn học Chương 0: Giới thiệu môn học Chương 1: Giới thiệu nhận dạng mẫu Chương 2: Nhận dạng mẫu dựa thống kê học Chương 3: Ước lượng hàm mật độ xác suất Chương 4: Sự phân lớp dựa láng giềng gần Chương 5: Phân loại tuyến tính Chương 6: Phân loại phi tuyến Chương 7: Mạng Neuron nhân tạo Thực hành: Giới thiệu số ứng dụng thực tế TTNT - Học viện Kỹ thuật Quân Bài 2: Giới thiệu nhận dạng mẫu Chương 1, mục: 2.1 – 2.7 Tiết: 1-3; Tuần thứ: Mục đích, yêu cầu: Nắm khái niệm nhận dạng mẫu Nắm mơ hình nhận dạng mẫu Nắm khái niệm chuẩn hóa liệu Nắm khái niệm phương pháp phân tích đặc trưng Hình thức tổ chức dạy học: Lý thuyết Thời gian: tiết Địa điểm: Giảng đường Phòng Đào tạo phân cơng Nội dung chính: (Slides) TTNT - Học viện Kỹ thuật Quân 2.1 THẾ NÀO LÀ NHẬN DẠNG MẪU Đây mơn khoa học có mục đích phân lớp đối tượng thành phạm trù khác “Là hành động lấy liệu thô tác động dựa phân loại mẫu” Đối tượng nghiên cứu ảnh, tín hiệu hay kiểu đo Tại phải nghiên cứu? Đem lại “sự sống” cho máy Phạm vi ứng dụng: thị giác máy tính, nhận dạng chữ viết, chuẩn đốn có trợ giúp máy tính, nhận dạng tiếng nói, xác thực người, định có trợ giúp máy tính… Tổng quan nhận dạng 2.2 KHÁI NIỆM VỀ MƠ HÌNH Lớp, mơ hình, Đặc trưng, vector đặc trưng, Trích rút đặc trưng Huấn luyện mẫu, huấn luyện liệu Kiểm tra mẫu, kiểm tra liệu Chi phí thực hiện, rủi ro thực Phân loại Vấn đề biên phân loại Tổng quát hóa Học giám sát không giám sát Tổng quan nhận dạng 2.3 HỆ THỐNG NHẬN DẠNG MẪU 2.3.1 Mô hình hệ thống Sensor thành phần thu nhận đặc trưng, sensor là: Nhiệt kế, Microphone, Camera số Trích rút đặc trưng: Chuyển đổi giá trị đo thành đặc trưng hệ thống Tổng quan nhận dạng 2.3 HỆ THỐNG NHẬN DẠNG MẪU (CONT) Đặc trưng: Thành phần biểu diễn mẫu, Có thể biểu diễn vector, ma trận, cây, đồ thị hay chuỗi Trong trường hợp lý tưởng, đối tượng lớp đặc trưng giống đối tượng thuộc lớp khác khác Bộ phân lớp: Học từ liệu huấn luyện Thơng thường trả lời câu hỏi: mẫu có thuộc vào lớp nào? Đối tượng thuộc kiểu lớp nào? Tổng quan nhận dạng 2.3 HỆ THỐNG NHẬN DẠNG MẪU (CONT) 2.3.2 Thiết kế Trong phần này, thường trả lời số câu hỏi sau: Thu nhận liệu: Đo thơng tin gì? Cần thông tin? Lựa chọn đặc trưng: Đặc trưng tốt cho trình phân tách tổng quát hóa Ước lượng hệ thống: Có thể đo hiệu hệ thống cách nào? Tổng quan nhận dạng 2.4 TIỀN XỬ LÝ VÀ CHUẨN HĨA Trong giai đoạn này, thơng thường lựa chọn tiêu chí sau: Dễ trích rút đặc trưng phân lớp Có thể địi hỏi: đặc trưng tốt, trình học nhanh, dễ tổng quát hóa Có phụ thuộc phân lớp đặc trưng Phụ thuộc vào ứng dụng cụ thể: xử lý ảnh hay xử lý âm thanh, Các phương pháp: cắt bỏ thơng tin bên ngồi, chuẩn hóa, phân tích thành phần Tổng quan nhận dạng 10 2.4 TIỀN XỬ LÝ VÀ CHUẨN HÓA (T) 2.4.1 Thành phần bên ngồi Mẫu khơng chuẩn, Lỗi xuất từ yếu tố người, Nếu có lỗi từ yếu tố chủ quan, loại bỏ, Có thể miêu tả liệu đơn giản, Có thể nhận biết phương pháp thống kê Tổng quan nhận dạng 11 2.4 TIỀN XỬ LÝ VÀ CHUẨN HÓA (T) 2.4.2 Một số dạng chuẩn hóa Minmax-scaling: 𝑥𝑘𝑚𝑖𝑛 = 𝑥𝑘𝑖 𝑣ớ𝑖 𝑘 = 1,2, … , 𝑙 𝑖 𝑥𝑘𝑚𝑎𝑥 = m𝑎𝑥 𝑥𝑘𝑖 𝑣ớ𝑖 𝑘 = 1,2, … , 𝑙 𝑖 𝑥𝑘𝑖 = Tổng quan nhận dạng 𝑥𝑘𝑖 − 𝑥𝑘𝑚𝑖𝑛 𝑥𝑘𝑚𝑎𝑥 − 𝑥𝑘𝑚𝑖𝑛 12 2.4 TIỀN XỬ LÝ VÀ CHUẨN HÓA (T) 2.4.2 Một số dạng chuẩn hóa Trung bình độ lệch chuẩn: xk N N x i 1 ki N k 1,2, , l xk i x k N i 1 xk i xk xˆki k k Tổng quan nhận dạng 13 2.4 TIỀN XỬ LÝ VÀ CHUẨN HÓA (T) 2.4.2 Một số dạng chuẩn hóa Softmax-scaling: y ki xˆki Tổng quan nhận dạng xk i xk r k 1 e y ki 14 2.5 LỰA CHỌN ĐẶC TRƯNG Mục đích lựa chọn đặc trưng: có khả phân biệt tổng quát hóa Khả phân biệt: đặc trưng khác đối tượng lớp khác Tổng quát hóa: đặc trưng tương tự cho đối tượng lớp Số chiều hệ đặc trưng: có lượng lớn đặc trưng địi hỏi nhiều liệu cho việc huấn luyện Cách tiếp cận: lựa chọn đặc trưng riêng biệt lựa chọn tập đặc trưng Việc lựa chọn đặc trưng phụ thuộc vào ứng dụng cụ thể, cho bất biến với phép biến đổi Phương pháp: kiểm tra giả thuyết qua thống kê, đo độ độc lập lớp, đường cong ROC (receiver operating characteristic) Tổng quan nhận dạng 15 2.5 LỰA CHỌN ĐẶC TRƯNG (T) 2.5.1 Đường cong ROC Cấp độ chồng lấp lớp với đặc trưng Việc định phụ thuộc vào ngưỡng θ Nếu đặc trưng x < θ, mẫu nói thuộc lớp w1, ngược lại thuộc lớp w2 Gọi α(β) xác suất xẩy việc phân lớp sai từ w1 vào w2, đường cong ROC vẽ hệ trục α 1-β Nếu α = 1-β, phân bố chồng lấp hoàn toàn Tổng quan nhận dạng 16 2.5 LỰA CHỌN ĐẶC TRƯNG (T) 2.5.2 Lựa chọn tập đặc trưng Việc lựa chọn dựa đo khác biệt lớp Số tập lựa chọn lớn: chọn l đặc trựng từ m đặc trưng m l C Số tập lớn l chưa biết: m l Các phương pháp phân biệt: lựa chọn tốt đánh giá sai số m m i 1 i Tổng quan nhận dạng 17 2.6 PHƯƠNG PHÁP PHÂN LỚP Có nhiều phương pháp phân lớp 2.6.1 Phân loại dựa phương pháp học: Học có giám sát: Học khơng giám sát: Các lớp liệu học biết, Mục đích: tìm ánh xạ từ khơng gian đặc trưng sang không gian lớp cho chi phí nhỏ Dễ tính tổng qt hóa tính “quá khớp” (overfitting) Các lớp liệu chưa biết, Mục đích: gói cụm mẫu thành nhóm cho mẫu nhóm khác mẫu khác nhóm khác nhiều Số cụm biết chưa biết Học tăng cường: Các lớp chưa biết bắt đầu học Việc lan truyền ngược hiệu chỉnh hành động học Tổng quan nhận dạng 18 2.6 PHƯƠNG PHÁP PHÂN LỚP (T) 2.6.2 Phân loại dựa phương pháp Phương pháp thống kê (Bayesian): Phương pháp hình học: Đặc trưng thay đổi ngẫu nhiên với xác suất Nhận dạng dựa cực tiểu ước lượng sai số Ước lượng hàm phân bố xác suất không chắn Không gian đặc trưng chia thành phần cho phần đại diện cho lớp Một số phương pháp thuộc nhóm này: biệt số tuyến tính Fisher, máy hỗ trợ vector… Phương pháp mạng neuron: Sử dụng “hộp đen” để biến đổi từ không gian đặc trưng sang khơng gian lớp Ví dụ: mạng MLP (multi-layer perceptron), ánh xạ tự tổ chức,… Tổng quan nhận dạng 19 2.6 PHƯƠNG PHÁP PHÂN LỚP (T) 2.6.2 Phân loại dựa phương pháp Dựa mơ hình: Các lớp đại diện mẫu tham chiếu Nhận dạng dựa việc tìm mẫu tham chiếu gần Phương pháp sử dụng cú pháp: Các lớp đại diện cú pháp xây dựng từ mẫu nguyên thủy Nhận dạng việc kiểm tra xem đầu vào sinh từ cú pháp có sẵn không Phương pháp dựa kết cấu: Các lớp đại diện đồ thị cấu trúc tương tự Nhận dạng dựa trình khớp đồ thị Tổng quan nhận dạng 20 2.7 ĐÁNH GIÁ HỆ THỐNG 2.7.1 Tính sai số Tính sai số việc phân lớp Gọi M số lớp N mẫu kiểm tra độc lập Giả sử Ni số mẫu Pi xác suất sai lớp wi Khi đó, xác suất có ki lỗi lớp wi là: N i ki N k Pki errors Pi 1 Pi i i ki Nhiệm vụ tìm cách đánh giá (hữu hạn) số sai số Tổng quan nhận dạng 21 2.7 ĐÁNH GIÁ HỆ THỐNG (T) 2.7.1 Tính sai số ki ˆ Ước lượng maximum cho Pi: Pi Ni Ước lượng tổng xác suất sai số cho tất lớp: với P(wi) xác suất lớp wi M ki ˆ P P( wi ) Ni i 1 Tổng quan nhận dạng 22 2.7 ĐÁNH GIÁ HỆ THỐNG (T) 2.7.2 Huấn luyện liệu test Vấn đề: với liệu hữu hạn, cần dùng cho huấn luyện test Nếu sử dụng nhiều liệu cho việc huấn luyện cho tính tổng quát tốt Nếu sử dụng nhiều liệu test cho ước lượng sai số phân lớp tốt Có số phương pháp lựa chọn: Sử dụng thay thế: liệu dùng cho huấn luyện test (mang tính chủ quan) Phương pháp Holdout: chia liệu thành nhóm cho huấn luyện test (mang tính khách quan) Phương pháp Leave-one-out: sử dụng N-1 mẫu cho huấn luyện mẫu lại để test Lặp lại N lần với mẫu kiểm tra khác Tổng quan nhận dạng 23 ... Cấu trúc môn học Chương 0: Giới thiệu môn học Chương 1: Giới thiệu nhận dạng mẫu Chương 2: Nhận dạng mẫu dựa thống kê học Chương 3: Ước lượng hàm mật độ xác suất Chương 4: Sự phân lớp... Chương 5: Phân loại tuyến tính Chương 6: Phân loại phi tuyến Chương 7: Mạng Neuron nhân tạo Thực hành: Giới thiệu số ứng dụng thực tế TTNT - Học viện Kỹ thuật Quân Bài 2: Giới thiệu nhận. .. thuật Quân Bài 2: Giới thiệu nhận dạng mẫu Chương 1, mục: 2.1 – 2.7 Tiết: 1-3; Tuần thứ: Mục đích, yêu cầu: Nắm khái niệm nhận dạng mẫu Nắm mơ hình nhận dạng mẫu Nắm khái niệm chuẩn hóa liệu Nắm