LỜI NÓI ĐẦUGiáo trìn h N h ậ n dạng mẫu vói thời lượng 2 đến 3 tín chỉ được giảng dạy cho học viên cao học ngành Khoa học m áy tín h của trưòng Đ ại học Công nghệ, cung cấp cho người họ
Trang 2ĐẠI HỌC QUÓC GIA HÀ NỘI
Trang 31.3 Các hệ thông nhận dạng mẫu 181.4 Quá trình xây dựng hệ nhận dạng mẫu 221.5 Học máy và các cách tiếp cận 25
Trang 42.2 Các mêtric trong không gian đặc trưng 39
3.3.2 Phương pháp phân hoạch 603.3.3 Phương pháp dựa vào mật độ 663.3.4 Phương pháp phân cụm dựa trên lưới 69
3.4.1 Trực quan hóa và giảm chiều dữ liệu 72
4.1.1 Phân lớp khoảng cách cực tiểu 754.1.2 Phân biệt tuyến tính Euclide 78
Trang 54.1.3 Phân biệt tuyến tính Mahalanobis 804.1.4, Phần biệt tuyến tính Ficher 81
4.2.1 Phân lốp xác suất hậu nghiệm cực đại 834.2.2 Phân lóp cực tiểu rủi ro 86
4 2 3 M iề n b á c bò ( re je c t reg io n ) 88
4.2.4 Tỷ lệ chiều và ước lượng lỗi 90
4.3.1 Phương pháp cửa sổ Parzen 934.3.2 Phương pháp ưóc lượng k- láng giềng gần nhất 954.4 Quy tắc phân loại k- láng giềng gần nhất 96
5.3.2 Chọn thuộc tính phân loại tốt nhất 109
Trang 65.4.2 Kết hợp các thuộc tính có giá trị liên tục 1205.4.3 Tiêu chuẩn để chọn thuộc tính 1215.4.4 Xử lý mẫu huấn luyện vối giá trị thuộc tính bị mất 122
6.1 N h ận d ạn g các xâu 125
6.1.2 Khoảng cách soạn thào 130
6.1.4 Đối sánh với ký hiệu trung tính 132
6.2.1 Mô hình Markov bậc nhất 1336.2.2 Mô hình Markov ẩn và các bài toán cơ bản 135
7.1.3 Mô hình và kiến trúc mạng nơron 147
Trang 8LỜI NÓI ĐẦU
Giáo trìn h N h ậ n dạng mẫu vói thời lượng 2 đến 3 tín chỉ được
giảng dạy cho học viên cao học ngành Khoa học m áy tín h của trưòng Đ ại học Công nghệ, cung cấp cho người học những kiến thức cơ bản để xây dựng các hệ phân lớp và mô tả m ẫu trong các ứng dụng Ngoài ra giáo trìn h này cũng được dùng làm chủ đề lựa chọn của môn học các chủ đề hiện đại của khoa học m áy tín h cho sinh viên giai đoạn cuối của ngành này, nhằm hỗ trợ sin h viên làm khóa luận và có n h u cầu nghiên cứu
N h ận dạng m ẫu có lịch sử phát triển khá sớm, nhưng trưóc những năm 1960 nó đơn thuần là kết quả ứng dụng của các nghiên cứu lý th u y ết trong lĩnh vực thống kê Ngày nay nó phát triển m ạnh mẽ, bao gồm một phạm vi rộng và có ứng dụng rộng rãi, đặc biệt trong th iế t k ế các thiết bị nghe nhìn, xử lý tín hiệu tự động và khám phá tr i thức từ dữ liệu
Vì lượng kiến thứ c r ấ t lón mà thòi lượng ít, hơn nữ a để hiểu
th ấ u đáo th ì đòi hỏi ngưòi học phải có nền tảng toán học tốt, đặc biệt về xác su ất thống kê, nên chúng tôi chú trọng giói thiệu các
th u ậ t toán và hưống dẫn sử dụng mà không đi sâu vào bản chất toán học M ột số kiến thức khó nhưng cần dùng, chẳng h ạn như
mô h ìn h M arkov ẩn, th u ậ t toán độj sánh nhanh các x âu , chúng tôi giới thiệu những n é t chính để gợi mở cho những học viên muôn tìm h iểu sâu hơn
Chương đầu của giáo trìn h dành để giới thiệu khái niệm nhận dạng m ẫu, phác họa bức tra n h chung của một hệ n h ận dạng m ẫu cùng vói quy trìn h th iế t kế Chương 2 trìn h bày phương pháp phân biệt m ẫu nhò hàm quyết định và các vấn để liên quan k h i xử
lý dữ liệu Cốc phương pháp phân cụm dữ liệu được trìn h bày trong chương 3 Chương 4 giới thiệu các phương pháp n h ận dạng
m ẫu thống kê Phương pháp phân lốp nhò cây quyết định được
9
Trang 9trìn h bày trong chương 5 Chương 6 trìn h bày các bài toán và
th u ậ t toán thưòng gặp trong xử lý dữ liệu tu ần tự bao gồm các
th u ậ t toán đếi sánh xâu và các bài toán trong mô hình Markov ẩn Các m ạng nơron n h ân tạo thông dụng n h ấ t được giới thiệu trong chương 7 Chương cuối chúng tôi giối thiệu các phương pháp kết hdp các bộ phân lóp để nâng cao chất lượng hệ nhận dạng, bao gồm phương pháp học tập th ể và tổ chức kiến trúc bậc thang
Giáo trìn h này cũng có th ể dùng làm tà i liệu tham khảo cho nghiên cứu sinh và sinh viên các ngành khác thuộc nhóm ngành công nghệ thông tin Để hiểu sâu hơn, chúng tôi giới thiệu m ột số tài liệu tham khảo m à chúng tôi có th ể cung cấp [1-5], bao gồm cả các tiếp cận liên quan m ật th iế t như học máy [6-8] và m ạng nơron [9-11]
Do lần đầu xuất bản nên chắc chốn giáo trìn h còn nhiều thiếu sót, chúng tôi r ấ t mong nhận được cốc ý kiến gốp ý để giáo trìn h được hoàn thiện hơn
T á c giả
Trang 10C hương 1
GIỚI THIỆU
Trước khi đi sâu vào các phương pháp n h ậ n dạng mẫu, chương n ày giới thiệu khái niệm m ẫu và n h ậ n dạng m ẫu máy, phác họa bức tra n h chung của một hệ n h ận dạng m ẫu cùng với quy trìn h th iế t k ế nó
1.1 N h ậ n d ạ n g m ẫ u là gì?
Ngày nay, m áy tính đã chửng tỏ kh ả năng nổi trội của nó trong tín h toán và xử lý thông tin so vối con người Tuy nhiên, trong khi mỗi người bình thường đều dễ dàng cảm nhận, quan sát được các sự vật, h iện tượng xung quanh như n h ận ra một gương
m ặ t quen, hiểu lòi nói đôi thoại, đọc các chữ viết tay và phân biệt thứ c ă n từ m ùi của nó , thì ngưòi ta vẫn r ấ t khó tạo ra được máy tín h có các kh ả năng này như người
N hu cầu tạo r a các máy móc được tra n g bị các hệ thống thông
m inh, cạnh tra n h được với con ngưòi trong quan s á t và cảm nhận các sự vật, hiện tượng trong môi trường như vậy thúc đẩy r a đòi
lĩnh vực nghiên cứu "nhận dạng m ẫu m á y” hay gọi gọn hơn là
n h ậ n dạng m ẫu (P attern Recognition - PR).
M ẫu.
Các đối tượng được quan sát, n h ận biết sẽ được gọi chung là
m ẫu (pattem ) và đôi khi vẫn được gọi là đối tượng Tùy theo cốc
ứ ng dụng, m ẫu có th ể phân làm hai loại: m ẫu trừ u tượng và mẫu
cụ thể Các ý tưỏng, lập luận và khái niệm là những ví dụ về mẫu trừ u tượng, n h ận dạng các m ẫu như vậy thuộc về lĩnh vực nhận dạng k hái niệm Các m ẫu cụ th ể bao gồm cốc đốì tượng v ật lý; chữ ký; chữ viết; ký hiệu; ảnh; đoạn sóng âm th an h ; điện não đồ hoặc
11
Trang 11điện tâm đồ; chuỗi DNA, hàm số là đối tượng nghiên cứu chính trong giáo trìn h này.
N h ậ n dạng mẫu.
ở mức khái niệm, nhận dạng m ẫu là lĩnh vực khoa học
nghiên cứu các phương pháp mô tả, phân lớp hay gán nhãn cho các m ẫu để tạo ra các hệ thống cạnh tra n h được vói kh ả năng này của con người
Từ th ế kỷ 16 Kepler đã sử dụng dữ liệu quan s á t thiên văn để khám ph á quỹ đạo chuyển động của các h à n h tinh, thúc đẩy sự phát triển của cơ học cổ điển Trước những năm 1960, các ứng dụng PR chủ yếu vẫn chỉ là áp dụng các nghiên cứu trong lĩnh vực thống kê Ngày nay các hệ nhận dạng m ẫu có phạm vi ứng dụng
rấ t rộng, dưới đây là các ví dụ về hoạt động th àn h công trong một
số lĩnh vực điển hình.♦
N ông nghiệp.
• Dựa trê n các dữ liệu về th ổ nhưỡng và đặc tín h cây trồng,
v ật nuôi, ngưòi ta đ án h giá phân loại đ ấ t để hỗ trợ cho các quyết định canh tốc
• P h ân tích các số liệu quá khứ và biến đổi thời tiế t để p hát hiện, dự báo dịch bệnh và sản lượng m ùa vụ
• P hân tích sự p h át triển của các quần thể
Trang 12• P h ân tích và điều khiển giao thông.
• Đ ánh giá và dự báo sự phát triển đô thị
K in h tế-xã hội.
• P h ân tích và dự báo về các thay đổi trên th ị trường
• P h ân tích hoạt động doanh nghiệp, trợ giúp các quyết định kinh doanh, thương mại điện tử
• K hám phá tri thức trên cơ sở dữ liệu
A n ninh, quăn đội.
Để m inh họa rõ hơn cho khái niệm PR, trong mục này giới
th iệu ví dụ cho các bài toán điển hình: p h ân loại, hồi quy và mô tả
1.2.1 B à i to á n p h â n lo ạ i
P h â n loại hay phân lớp có giám s á t là dạng bài toán thường gặp n h ấ t trong n h ận dạng mẫu Trong bài toán này, dựa trê n các
t r i thứ c hoặc quan sá t đã có, người ta p h ân các đốì tượng mới vào
m ột trong các lốp đã biết Hệ nhận dạng t r á i cây là ví dụ cho bài
to án này
13
Trang 13Ta tưỏng tượng một hệ thống p h ân loại trái cây trê n băng chuyển có mô hình như trong h ìn h 1.1 Tín hiệu của tr á i cây thu được từ các bộ cảm biến (Sensor) có th ể là m àu sắc, hình dáng, trọng lượng Từ các tín hiệu th u được, ngưòi ta trích, chọn các đặc trưng để biểu diển cho mỗi trá i cây sao cho việc tính toán phân lóp
dễ dàng và chính xác
Để đơn giản, ta xét hệ p h ân biệt hai loại trá i cây: cam và táo, các đặc trưng của chúng có th ể biểu diễn dưới dạng số hoặc định danh Chẳng hạn, đặc trưng m àu có th ể là:
Dạng số: biểu diễn dưới dạng cường độ mức xám, là đại lượng thuộc khoảng [0, a], 0 ứng với mức không có m àu còn a là mức xám cực đại.• T
Dạng định danh: đỏ/ xanh lá cây/ xanh
Hlnh 1.1 Mô hlnh hệ thống phãn loại trái cAy trôn b ỉn g chuyển
Khi biểu diễn đặc trưng dạng số, mỗi quả sẽ ứng với một điểm trong không gian đặc trưng Bài toán n h ận dạng trỏ th à n h bài toán phân lớp cho mỗi vectơ (điểm) trong không gian đặc trưng, về sau ta dùng ký hiệu bằng chữ in đậm để chi các vectơ X ét đặc trư ng số của trọng lượng (xt) và m àu (xị) của trá i cây, vectơ đặc trư ng X là vectơ h ai chiều:
Trang 14V trọng lượng
Q ua quan sá t thực nghiệm, các quả cam chín và táo xanh rơi vào miền có tâm n h ư trong hình 1.2-a H ình 1.2-b cho th ấy một quả táo đỏ có thể bị nhầm là cam còn quả cam xanh th ì ta không phân biệt được Để tăn g độ chính xác, người ta có th ể xét thêm đặc trư n g vỏ là nhẵn hoặc thô, nếu bộ cảm biến xác định đặc trưng này tố t th ì cam sẽ có vỏ thô còn táo có vỏ nhẵn Việc chọn đặc trư n g có ý nghĩa quan trọng đối vối hệ phân loại và p h ụ thuộc vào
ch ất lượng của các bộ cảm biến
Hlnh 1.2 a) Q u ỉ cam vá táo trong kh&ng gian đ ặ c tnm g
b) Quả táo đỏ giống cam còn cam xanh khó ph&n biệt
1.2.2 B à i to á n h ồ i q u y
Trong thực tế, ta thường phải xác định giá tr ị của hàm nhiều biến tại các điểm mối thuộc miền nào đó dựa trê n những số liệu đo được (quan sát) của hàm trên miền này Bài toán này là bài toán hồi quy nhiều biến và được phát biểu tổng q u át nh ư sau
Xét hàm f: D ( c R n) -*R và tập dữ liệu T={xk,y 1<}N ],
xk e R" Vk đo được dưới dạng:
15
Trang 15( 1 1)
trong đó £t là nhiễu trán g (các đại lượng ngẫu nhiên độc lập cùng
phân bố có kỳ vọng bằng không) T a cần tìm hàm (p: D ( c R ) —''R
có dạng nào đó sao cho:
đủ tố t theo nghĩa nào đó và dùng <p để xấp xỉ hàm f trê n m iền D Tập T sẽ gọi là tập m ẫu quan s á t (hay h u ấn luyện), cp gọi là hàm hồi quy Khi không quan tâm đến nhiễu th ì ta gọi là bài toán xấp
xỉ, nếu đòi hỏi cp thỏa m ãn chặt biểu thức (1.2) tức là:
thì gọi là bài toán nội suy Cấc điểm xk sẽ được gọi là các mốc nội
suy còn hàm cp được gọi là hàm nội suy Trong nhiều trường hợp, giá trị của hàm hồi quy hay xấp xỉ tạ i các điểm chưa biết cũng được gọi là giá trị nội suy nếu không gây nên nhầm lẫn nào
Người ta thường tìm hàm hồi quy dưới dạng ọ = 0 (x ,c ,ck) bằng cách xác định các tham sô" ct> ,ck, trong đó <I>(x,c ) là
hàm phụ thuộc tham sô' nào đó đã chọn Thông thường các tham số này được tìm nhò cực tiểu hàm mục tiêu nào đó, chẳng hạn sai số trung bình phương:
H ình 1.3 minh họa các hàm hồi quy (đưòng đứt) và hàm nội suy dạng đa thức cho hàm một biến có giá trị đo ỏ 8 điểm
(1.4)
Trang 16Hlnh 1.3 Đ ổ thị hàm hổi quy (đưòng đứt) và nộl s u y (đưàng liổn)
H ình 1.4a m inh họa một biểu đồ tốc độ nhịp tim th a i (gọi tắ t là biểu đồ tim thai)
b) Mô t ỉ phẩn đẩu c ủ a biểu đổ b in
Một hệ mô tả sẽ xử lý các biểu đồ, p h á t hiện và mô tả các thời gian nhịp tim th ai có biến đổi nhiều để giúp chuyên gia n h ận định
th ể trạ n g th a i nhi Hệ này mô tả biểu đồ n h ư là xâu-các-iỊiành tố
17
Trang 17biến đổi sơ cấp trong các khoảng thòi gian bé để xấp xỉ biểu đồ, đặc biệt là ỏ các giai đoạn có thay đổi nhiều Chẳng hạn, p h ần đầu của biểu đồ trong hình 1.4-a được mô tả như trong h ìn h 1.4-b Các thay đổi của biểu đồ được phân lớp theo các th àn h tô" cho bởi bảng1.1 dựa trên hệ số tăn g hay giảm của tầ n sô” trong khoảng biến thiên được xét, trong đó À là ngưỡng được chọn trưổc.
Bản g 1.1 C á c thành t ố mô tà nhịp tim thai.
Đi xuống ỡ Đoạn giá trị giảm với hệ số >- À
Lên mạnh T Đoạn giá trị tăng với hệ số > A
Xuống mạnh G Đoạn giá trị giảm với hệ số <- A
Hệ sẽ xử lý các xâu th à n h tố và quan tâm nhiều tói các thòi gian chứa điểm nhọn ứng với có u và D liên tiếp hoặc ngược lại, chẳng hạn, trong hình 1.4 đoạn biểu đồ được mô tả là x âu
‘tgtG Tttg” Việc phân tích và hiển th ị các biểu đồ nh ư vậy giúp cho các chuyên gia r ấ t nhiều Ngoài ra, dựa trê n các kiến thức chuyên gia, hệ thống có th ể tự động đánh giá, phân loại biểu đồ tim th ai.1.3 C ác h ệ th ố n g n h ậ n d ạ n g m ẫ u
Mặc dù có r ấ t nhiều loại bài toán PR, tuy nhiên, để giải quyết một bài toán PR th ì thông thường một hệ thống n h ậ n dạng m ẫu gồm có các th à n h phần cd bản theo sơ đồ trong hình 1.5
Các bộ cảm biến th u n h ận và chuyển đổi hình ảnh hoặc ẵm thanh hoặc các đầu vào vật lý khác th à n h dữ liệu dạng tín hiệu
Bộ phân đoạn tách các đốì tượng cảm biến khỏi hình nền hoặc các đối tượng khác Một bộ trích chọn đặc trư n g đo các thuộc tín h củ a đốì tượng cần cho n h ận dạng Bộ n h ận dạng phân tích những đặc trư ng này để gán một đốì tượng vào một lớp hoặc tín h iệu mô Ità Cuối cùng, bộ hậu xử lý để quyết định xử lý khi xét đến tác đỘỊng
Trang 18âm Các đặc trư ng và hạn chế của các thiết bị này như băng thông,
độ phân giả, độ nhậy cảm có thể ảnh hưỏng tới hoạt động của hệ thống và ta không đi sâu vào chi tiết chủ đề này Một số hệ không
sử dụng các bộ cảm biến mà lấy tín hiệu từ một th iết bị hoặc đầu
ra cùa hệ thống khác
Tiền x ử lý tín hiệu (preprocessing)
Tín hiệu n h ận được từ các bộ cảm biến hoặc các th iế t bị khác thường chứa nhiễu hoặc sai sót Vì vậy ở công đoạn này, các tín hiệu được lọc nhiễu và tăng cường chất lượng
P hân đoạn (segmentation) và nhóm
Trong ví dụ về p h ân loại trái cây chúng ta đã ngầm giả sử rằng các tr á i cây tách biệt nhau và có thể dễ dàng phân biệt trên báng chuyền Trong thực tế, chúng có thể gần hoặc sát n h au và hệ thống của chúng ta phải có khả năng xác định được từng quả riêng biệt Việc xác định, phân lập tín hiệu từng cá th ể gọi là phân đoạn (segmentation) Nếu chúng ta đã nhận dạng được các trá i cây thì việc p h ân lập từng cá th ể là tương đôì dễ dàng nhưng vấn đề là ta phải thực h iện phân lập khi chưa biết chúng có những loại nào Do
đó chúng ta cần phải có cách để biết được khi nào th ì chuyển từ
19