Ví dụ mạng neural là một giải pháp đáng tin đối với các vấn đề phân lớp dữ liệu nói chung, cũng như nhận dạng biển báo nói riêng, tuy nhiên việc phân tích để tìm ra các đặc trưng phù hợp
Trang 1BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
VÕ PHƯỚC SƠN
XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG
BIỂN BÁO GIAO THÔNG
LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT
HẢI PHÒNG, 2016
Trang 2BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
VÕ PHƯỚC SƠN
XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG
BIỂN BÁO GIAO THÔNG
LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT
NGÀNH: KỸ THUẬT MÃ SỐ: 60580202 CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS Nguyễn Hữu Tuân
HẢI PHÒNG, 2016
Trang 3LỜI CAM ĐOAN
Tôi: Võ Phước Sơn, học viên cao học lớp CNTT 2014_1, chuyên ngành Công nghệ Thông tin, khoá học 2014-2016, Trường Đại học Hàng Hải Việt Nam xin cam đoan: Các nội dung trong Luận văn Thạc sĩ này là do tự bản thân tôi làm ra trên cơ sở các tài liệu, số liệu khảo sát thực tế do chính bản thân tôi thu thập Các số liệu tham khảo khác sử dụng trong nghiên cứu này thuộc về bản quyền của các tác giả và được trích dẫn một cách rõ ràng, minh bạch
Người cam đoan
Võ Phước Sơn
Trang 4LỜI CẢM ƠN
Hoàn thành Luận văn Thạc sĩ này, trước hết tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Hữu Tuân, người hướng dẫn khoa học đã tận tình hướng dẫn và giúp
đỡ tôi trong suốt thời gian thực hiện Luận văn
Nhân dịp này tôi xin bày tỏ lòng biết ơn đến các Thầy Cô Viện đào tạo Sau đại học trường Đại học Hàng Hải Việt Nam, đã giúp đỡ tôi trong suốt thời gian học tập và hoàn thành Luận văn Thạc sĩ này
Cuối cùng tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp chính là nguồn động viên, khích lệ vô giá đã đi cùng tôi trong suốt những năm tháng phấn đấu, rèn luyện
để có được sản phẩm khoa học này
Hải Phòng, ngày 15 tháng 3 năm 2016
Học viên
Võ Phước Sơn
Trang 5MỤC LỤC
LỜI CAM ĐOAN 2
LỜI CẢM ƠN 3
MỤC LỤC 4
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU 6
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH 8
MỞ ĐẦU 1
Chương 1 3
TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG 3
1.1 Tổng quan về lý thuyết nhận dạng 3
1.1.1 Quá trình nhận thức của con người là quá trình nhận dạng 3
1.2 Tổng quan về xử lý ảnh số 7
1.2.1 Xử lý ảnh và các vấn đề cơ bản 8
1.3 Tổng kết 12
Chương 2 14
BÀI TOÁN NHẬN DẠNG BIỂN BÁO GIAO THÔNG 14
2.1 Các vấn đề học thuật 14
2.1.1 Xây dựng đặc trưng cho đối tượng biển báo 14
2.1.2 Lựa chọn mô hình phân lớp 23
2.2 Các vấn đề thực tế 25
2.2.1 Tách biệt các đối tượng nhận dạng 26
2.2.2 Góc độ trong không gian ảnh 27
2.2.3 Điều kiện, chất lượng ảnh 28
2.3 Thư viện Accord 29
2.4 Tổng kết 30
Chương 3 32
Trang 6SVM, SURF VÀ ỨNG DỤNG TRONG NHẬN DẠNG 32
BIỂN BÁO GIAO THÔNG 32
3.1 SVM 32
3.2 Các mô hình sửa dụng SVM phổ biến 34
3.3 SIFT và SUFR trong phân lớp dữ liệu 36
3.4 Nhận da ̣ng biển báo giao thông 44
3.5 Ứng dụng thực tế 45
3.5.1 Dữ liê ̣u huấn luyê ̣n 45
3.5.2 Nhận da ̣ng biển báo giao thông 46
3.6 Đánh giá 47
Chương 4 49
ỨNG DỤNG THỰC TẾ 49
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Trang 8DANH MỤC CÁC BẢNG
3.1 Bảng so sánh với mô hình neural network 47
Trang 9DANH MỤC CÁC HÌNH
1.3 Các bước cơ bản trong quá trình xử lý ảnh 8
3.1 Minh họa bài toán 2 phân lớp bẳng phương pháp SVM 35
3.2 Mô tả giai đoạn Scale- space extrema detection 36
Trang 103.4 Tính đạo hàm cấp 2 của hàm Gaussian bằng các hộp lọc 40
3.5 Mô tả hướng và vùng ảnh hưởng đặ trưng 41
3.9 Dữ liệu biển báo người đi bộ qua đường 45
Trang 111
MỞ ĐẦU
Nhận dạng không còn là vấn đề quá mới mẻ trong những năm gần đây Bắt nguồn từ những yêu cầu thực tế cũng như các ý tưởng xung quanh vấn đề nhận dạng mẫu (form), khá nhiều các giải thuật được nghiên cứu và phát triển nhằm giải quyết các vấn đề được đưa ra Ý tưởng chính nhằm giải quyết các bài toán nhận dạng nói chung và nhận dạng mẫu nói riêng không khác nhau quá nhiều, tuy nhiên việc nghiên cứu, phát triển và triển khai ứng dụng đối với một vài yêu cầu mang tính đặc thù không phải là một vấn đề đơn giản Đặc biệt với các bài toán nhận dạng mẫu, việc xây dựng một hệ thống lý luận chung nhằm giải quyết triệt để các vấn đề là vô cùng phức tạp
Nhận dạng biển báo giao thông – một trong những bài toán thuộc không gian các vấn đề nhận dạng mẫu – đã được nghiên cứu và phát triển khá nhiều trong thời gian trở lại đây Không quá khó để liệt kê ra một vài giải thuật được nghiên cứu và phát triển nhằm giải quyết bài toán trên, tuy nhiên kết quả hầu hết đều chỉ dừng lại ở việc giải quyết vấn đề nhận dạng biển báo cơ bản Trong khi đó, yêu cầu thực tế từ việc nhận dạng các loại biển báo giao thông là khá lớn Việc định hình và phát triển một ý tưởng nhằm phát triển bài toán trên là một vấn đề không đơn giản
Có thể điểm qua một vài kết quả nghiên cứu được cho là đáng chú ý tại thời điểm hiện tại đối với nhận dạng biển báo giao thông Ví dụ mạng neural là một giải pháp đáng tin đối với các vấn đề phân lớp dữ liệu nói chung, cũng như nhận dạng biển báo nói riêng, tuy nhiên việc phân tích để tìm ra các đặc trưng phù hợp và hiệu quả đang là một vấn đề gây nhiều khó khăn trong nghiên cứu và thực nghiệm
Nói vậy để thấy rằng, việc xây dựng được một giải thuật phù hợp giải quyết bài toán đặt ra là một vấn đề khó, chưa kể đến việc phát triển và xây dựng mô hình ứng dụng có thể triển khai thực tế còn cần thêm một khoảng thời gian dài nghiên cứu và phát triển
Trang 122
Vấn đề khó đầu tiên được đặt ra đối với các bài toán nhận dạng nói chung nằm
ở cách xây dựng tập đặc trưng phù hợp cho mỗi mẫu đối tượng biển báo Kế đó là các phương pháp phân lớp cụ thể đối với tập đặc trưng thu được Xung quanh vấn đề này,
có nhiều cách tiếp cận được đặt ra Trong đó, bản luận văn tập trung nghiên cứu và phát triển các giải thuật SVM trong phân lớp dữ liệu, cụ thể trong trường hợp này là biển báo giao thông, với nền tảng cơ bản dựa trên việc sử dụng các đặc trưng có cấu trúc và phi cấu trúc, kết hợp với các giải thuật SVM và hàm nhân cụ thể, nhằm nghiên cứu và đưa ra hướng phát triển hợp lí nhất cho vấn đề nêu trên
Mục tiêu của đề tài: Nghiên cứu và ứng dụng giải thuật SVM và đặc trưng cục
bộ SIFT, SURF từ đó ứng dụng trong nhận dạng mẫu nói chung và nhận dạng biển báo giao thông nói riêng
Ý nghĩa thực tiễn của đề tài: Xây dựng một hướng tiếp cận mới cho vấn đề
nhận dạng mẫu nói chung, cũng như giải quyết bài toán nhận dạng biển báo giao thông nói riêng Kết quả của đề tài nhằm góp phần đề xuất một góc nhìn mới về vấn
đề nhận dạng biển báo giao thông, và đáp ứng các yêu cầu xuất phát từ thực tế về vấn
đề nhận dạng biển báo giao thông
Nội dung nghiên cứu của đề tài:
- Nghiên cứu, tìm hiểu giải thuật SVM và hàm nhân Kernel
- Nghiên cứu, phân tích các vấn đề khó trong nhận dạng mẫu nói chung, và
nhận dạng biển báo giao thông nói riêng
- Phát triển giải thuật SVM, từ đó ứng dụng xây dựng mô hình nhận dạng
biển báo giao thông
Luận văn gồm các chương:
- Chương I: Tổng quan về lý thuyết nhận dạng
- Chương II: Bài toán nhận dạng biển báo giao thông
- Chương III: SVM, SURF và Ứng dụng trong nhận dạng biển báo giao
thông
Trang 133
- Chương IV: Xây dựng hệ thống
Chương 1 TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG
1.1 Tổng quan về lý thuyết nhận dạng
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy (supervised learning), trong trường hợp ngược lại gọi là học không có thầy (non supervised learning) Chúng ta sẽ lần lượt giới thiệu các khái niệm này
Chương 1 tập trung xây dựng các khái niê ̣m cơ bản về nhận dạng cũng như xử lý ảnh, nhằm cung cấp các kiến thức cơ bản , làm tiền đề luận cứ cho các lý luận học thuật ở các chương sau này
1.1.1 Quá trình nhận thức của con người là quá trình nhận dạng
Các thực thể xã hội (con người, doanh nghiệp, quốc gia) muốn tồn tại thì phải đáp ứng được tốt nhất các như cầu và đòi hỏi của mình Để làm được điều này, các thực thể xã hội phải tìm mọi cách có hiệu quả nhất tác động lên các đối tượng, từ đó mới có giải pháp sử dụng có hiệu quả đối tượng thuộc phạm vi tác động của mình
Đây là quá trình nhận thức của con người đối với các đối tượng
Quá trình nhận thức của con người về một đối tượng nào đó là quá trình quan sát, tìm hiểu, giả thiết (phân tích) đối tượng đó để tìm ra các quy luật tồn tại và biến đổi của nó (tổng hợp)
- Trước một đối tượng cần nhận biết, ban đầu con người còn chưa biết, họ phải vận dụng tất cả các tri thức vốn có để tạm hiểu đối tượng, tức là để tổng hợp sơ lược các hiểu biết về đối tượng
Trang 144
- Tiếp đó con người phải tiến hành quá trình phân tích, đó là thao tác trí tuệ diễn ra trong đầu của người nghiên cứu (chủ thể tư duy), nhằm tách ra từ đối tượng những đặc điểm, thuộc tính bộ phân, những mối liênhê ̣ và quan hệ giữa chúng để nhận thức đối tượng sâu sắc hơn, đó là quá trình nhận thức mang tính trực quan sinh động nhằm tìm ra các thuộc tính phân biệt của đối tượng Quá trình mà người nghiên cứu đưa ra các giả thiết để nhận thức đối tượng sâu sắc hơn, gọi là quá trình nhận thức theo giả thiết
- Cuối cùng là quá trình tổng hợp chung, chính là quá trình nhận thức sâu sắc nhất Đây là quá trình đối chiếu, so sánh để khái quát hóa nhiều thuộc tính đặc trưng của đối tượng cần nghiên cứu thành các thuộc tính chung mang tính bản chất, tính quy luật của cả một nhóm các đối tượng cùng loại Đây là `quá trình tư duy trừu tượng của con người mà kết quả cuối cùng là sự hiểu biết bản chất của đối tượng cho dưới hình thức dạng mô ̣t cách tư duy thường thấy ở con người Người nghiên cứu mô hình hóa các đối tượng phải nghiên cứu theo dạng (mô hình) trong đầu qua sự cảm nhận của riêng mình, hoặc qua sự học hỏi kinh nghiệm của người khác để xây dựng ra, rồi tìm cách thực hiện thành công dạng trong đầu thành dạng trên thực tế phục vụ cho các lợi ích của mình Điều này đã từng được C.MAC nói đến: con ong xây dựng một cái tổ hết sức cân xứng, khó có một kiến trúc sư nào có thể thực hiện nổi, nhưng con ong đã làm việc này theo bản năng, còn một kiến trúc sư dù là tồi, trước khi xây dựng một
ngôi nhà ở ngoài đời thì họ đã xây dựng ngôi nhà trong đầu
1.1.1.1 Dạng
Dạng là một nhóm các đối tượng có cùng một hoặc một số thuộc tính chung (thuộc tính đặc trưng cơ bản), mà chỉ cần làm quen với một số hữu hạn các đối tượng của nó là có thể nhận biết được các đối tượng khác trong cùng nhóm
Một trong những vấn đề cơ bản nhất của nhận dạng là xây dựng được các thủ tục phân loại (f) một tập các đối tượng Đ mà ta phải nhận dạng Đó là giả thiết có tồn tại một phân hoạch φ thỏa mãn một tiêu chuẩn nào đó Khi phân loại (f), mô tả một
Trang 155
đối tượng thông thường có rất nhiều nét đặc trưng (dấu hiệu) nhưng thực tế người ta chỉ lựa chọn một số hữu hạn các dấu hiệu tiêu biểu Tiếp đó người ta tìm trong các dấu hiệu trên các thành phần quan trọng nhất tương ứng với các thuộc tính cơ bản nhất của đối tượng cho bởi các thông số Các thuộc tính khi có thể đo lường được thì gọi là các thuộc tính định lượng, khi không thể đo lường được thì gọi là các thuộc tính định danh và được nhận các giá trị trong không gian độ đo µ Từ các kết quả cho bởi không gian độ đo µ, ứng dụng quy tắc phân loại f đối tượng sẽ được phân loại hoàn toàn thành các lớp được biểu diễn trong không gian Euclide là Xj với:
- Theo tính chất của đối tƣợng nghiên cứu, dạng được chia thành ba loại: dạng
hệ thống có nhiều người (Một doanh nghiệp, một lớp người, một quốc gia, một khối nước, nhân loại…), dạng không có con người và dạng một người (nhân dạng)
- Theo tính chất vật lí của đối tƣợng nghiên cứu, dạng chia thành: dạng vật
(doanh nghiệp, nhà nước, thiết bị, chữ viết, âm thanh) và dạng người
- Theo công cụ để nhận dạng, dạng chia thành: dạng nhận theo ngôn ngữ “tắt
mở” và dạng nhận theo các ngôn ngữ khác Ngôn ngữ “tắt mở” hoặc ngôn ngữ “0 1” hay ngôn ngữ “âm dương” là ngôn ngữ mà các giác quan con người thường sử dụng
để nhận biết đối tượng Từ sự nhận viết của các giác quan, các tín hiệu nhận biết tắt
mở được thông báo về hệ thần kinh trung ương và con người nhận thức được đối tượng Trong 5 giác quan của con người, giác quan thị giác được sử dụng nhiều nhất Nhiều nhà nghiên cứu đã kết luận: 80% lượng thông tin con người thu nhận được từ thế giới bên ngoài là nhờ thị giác Dạng nhận được bằng ngôn ngữ tắt mở thường
Trang 166
được gọi là dạng hiện, còn dạng không thể nhận được chỉ bằng ngôn ngữ tắt mở đơn thuần, mà phải huy động đến năng lực tư duy của con người để kết hợp các tín hiệu tắt mở riêng lẻ lại, được gọi là dạng mờ Các dạng mờ thường gặp trong quản lí kinh
tế
1.1.1.3 Học dạng và nhận dạng
- Học dạng: là quá trình hình thành thủ tục phân loại f để xử lí các không gian
phân biệt, độ đo và quyết định Nói cách khác, học dạng là quá trình nhận biết dạng qua một số hữu hạn các phần tử của đối tượng (Đ) phải nhận dạng.Học dạng là quá trình phức tạp mà con người có thể nhận thức được qua kinh nghiệm học dạng của những nhà nghiên cứu đi trước có trình độ và hiểu biết hơn những người khác
- Nhận dạng: là quá trình nhận biết một phần tử nào đó của đối tượng phải
nghiên cứu thuộc vào một dạng cho trước, từ đó rút ra các thuộc tính vốn có của nó để đưa ra các quyết định quản lí đối tượng một cách tốt nhất
1.1.1.4 Khoa học nhận dạng
Khoa học nhận dạng là khoa học nghiên cứu các quy luật, nguyên tắc, phương pháp, kỹ thuật học dạng và nhận dạng để sử dụng vào thực tế hoạt động của con người
Đối tượng của khoa học nhận dạng là các quy luật học dạng, để từ đó có được các thủ tục phân loại chuẩn xác các dạng, hình thành nên các phân hoạch chia dạng của các không gian đối tượng phải nghiên cứu
Học có giám sát: Kỹ thuật phân loại nhờ kiến thức biết trước được gọi là học
có thày Về cơ bản , đặc điểm của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào Thí dụ như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa, vùng đất hoang mã hay một cánh rừng đã có các miểu tả về các đối tượng đó Vấn đề chủ yếu là thiết kế một hệ thống ho ̣c thuâ ̣t có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các
Trang 177
phương thức ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định
Học không giám sát:Kỹ thuật học này phải tự định ra các lớp khác nhau và
xác định các tham số đặc trưng cơ bản cho từng lớp Học không có thày đương nhiên
là khó khăn hơn Một mặt , do số lớp không được biết trước , mặt khác những đặc trưng của các đối tượng cũng không biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa phương pháp tốt nhất có thể Bắt đầu từ tập dữ liệu , nhiều thủ tục xử lí khác nhau nhằm phân lớp và nâng cấp dần để đạt được phương pháp phân lớp chính xác nhất
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:
Hình 1.1 Sơ đồ tổng quát một hệ nhận dạng
1.2 Tổng quan về xử lý ảnh số
Xử lí ảnh là một trong những vấn đề được quan tâm hàng đầu trong lĩnh vực nhận dạng hình ảnh Với mục đích không chỉ hỗ trợ trong quá trình nhận dạng, mà còn có vai trò quan trọng trong việc nâng cao chất lượng hình ảnh, từ đó đem lại nhiều thông tin hơn cho quá trình nhận dạng sau này Xử lí ảnh là một trong những lĩnh vực khoa học và công nghệ Nó là ngành khoa học mới mẻ đối với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó Các phương
Định danh Đối tượng
Trang 18Quá trình xử lý ảnh được xem như quá trình thao tác với ảnh đầu vào nhằm đưa
ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể ta ̣o nên một
ảnh có chất lượng tốt hơn
Hình1.2 Quá trình xử lí ảnh
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh như đặc trưng cường
độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian
và nó cũng có thể được coi như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
XỬ LÝ ẢNH Ảnh
Ảnh
“Tốt hơn”
Kết luận
Trang 199
Hình1.3 Các bước cơ bản trong quá trình xử lí ảnh
1.2.1.2 Một số khái niệm cơ bản
Ảnh thu nhận thường bị biến dạng do các thiết bị số và điện tử
Ảnh thu nhận Ảnh mong muốn
Hình1.4 Ảnh thu nhận và ảnh mong muốn
Trang 20i i
i i n
i
y c y b x a x
c y b x a Pi
Pi f
1
2 ' 2 2
2
2 ' 1 1 1 2
' 1
))((
n i
n i i i
i
n i
n i
n i
i i n
i
i i
i i
n i
n i
n i i i n
i i i
i i
x nc
y b x
a
x y y
c y
b y
x a
x x x
c y
x b x
a
c b a
' 1
1 1
' 1
1
2 1 1
' 1
1 1
2 1
1 1 1
000
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh
- Nhiều hệ thống : nhiễu có quy luật và cũng có thể khử bằng các phép
biến đổi
Trang 21- Tăng số mức xám: nội suy ra các mức xám trung gian bằng kỹ thuật nội suy
Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
Phân tích ảnh
Là khâu quan trọng trong quá trình xử lý ảnh để tiến tới hiểu ảnh Trong phân tích ảnh việc trích chọn đặc điểm là một trong những bước quan trọng Các đặc điểm
cơ bản của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử
lý ảnh Có thể chỉ ra một số đặc điểm của ảnh sau đây:
- Đặc điểm không gian: phân bố xác suất, phân bố mức xám, biên độ, điểm uốn
v.v
- Đặc điểm biến đổi: trích chọn bằng việc thực hiện lọc vùng (zonal filtering)
Các bộ vùng được gọi feature mask thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )
- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng Do đó 1rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này cũng có thể được trích chọn nhờ toán tử gradient , toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v
Nhận dạng
Nhận dạng tự động mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, câu hỏi đặt ra: mẫu là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực
Trang 2212
thể (entity), được xác định một cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, hay ảnh của một vật nào đó được chụp Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể:
- Hoặc phân loại có mẫu, chẳng hạn phân tích phân biệt, trong đó mẫu đầu vào
được định danh như một thành phần của một lớp đã xác định
- Hoặc phân loại không có mẫu: trong đó các mẫu được gán vào các lớp khác
nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
- Thu nhận dữ liệu và tiền xử lý dữ liê ̣u
- Biểu diễn dữ liệu
- Nhận dạng
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng bao gồm:
- Đối sánh mẫu dựa trên các đặc trưng đã được trích chọn
- Phân loại mẫu thống kê
- Đối sánh dựa trên cấu trúc
- Phân loại dựa trên neural network
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại mô ̣t cách “tối ưu” do đó cần sử dụng cùng một lúc nhiều phương pháp cũng như cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp được sử dụng khi nhận dạng và đã có những kết quả có triển vọng dựa trên các thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp
1.3 Tổng kết
Nhận dạng là một khái niệm không hề mới trong những năm trở lại đây Đó là quá trình phân hoạch các đối tượng dựa trên một mô hình cụ thể nào đó Hiện nay, khoa học nhận dạng đang đưa ra rất nhiều ứng dụng trong thực tiễn Qua đó cũng cho
Trang 2414
Chương 2 BÀI TOÁN NHẬN DẠNG BIỂN BÁO GIAO THÔNG
Nhận dạng biển báo không phải là một vấn đề quá mới mẻ, tuy nhiên nghiên cứu và xây dựng một mô hình đủ mạnh để phát triển cũng như triển khai ứng dụng nhận dạng trong thực tế không phải là một vấn đề đơn giản Đã có khá nhiều hướng tiếp cận được đưa ra, tuy nhiên hầu hết các ý tưởng đều chỉ có thể tiệm cận được một giải pháp hợp lí đối với không gian các bài toán nhận dạng biển báo chuẩn, trong khi
đó, nhận dạng biển báo trên thực tế vẫn đang là một vấn đề cần nghiên cứu và đưa ra giải pháp cụ thể
Chương 2 của bản đồ án tập trung nghiên cứu các vấn đề của nhận dạng nói chung, cũng như nhận dạng biển báo giao thông nói riêng , tư ̀ đó phân tích và đưa ra các vấn đề có thể gặp phải đối với không gian bài toán nhận dạng biển báo giao thông đang được đề cập tới Từ đó đi ̣nh hướng cho viê ̣c giới thiê ̣u các kỹ thuật phân
lớp cụ thể sau này
2.1 Các vấn đề học thuật
2.1.1 Xây dựng đặc trưng cho đối tượng biển báo
Việc xây dựng một mô hình phù hợp cho các bài toán phân lớp nói chung và nhận dạng nói riêng phụ thuộc vào khá nhiều yếu tố Nhằm tâ ̣p trung vào nội dung chính của bản luận văn (phát hiện và nhận dạng đối tượng ảnh ), quá trình tiền xử lí đối với ảnh đầu vào không được bàn tới quá nhiều ở đây Về cơ bản, một hệ thống phân lớp tốt cần đảm bảo 2 yếu tố: xây dựng được tập hợp các đặc trưng phù hợp, đủ tính khái quát đối với đối tượng, và có một mô hình phân lớp phù hợp với tập hợp các đặc trưng đang có Việc giải quyết tốt 2 yếu tố này đảm bảo tính chính xác trong quá trình làm việc của hệ thống phân lớp dữ liệu tương ứng
Khá nhiều các phương pháp trích rút đặc trưng đã được đưa ra nghiên cứu và phát triển, nhằm đưa ra được một tập đặc trưng có khả năng tổng quát hoá dữ liệu,
Trang 2515
đồng thời cũng đảm bảo được các đặc trưng nổi bật để có thể phân lớp dữ liệu một cách dễ dàng Tất nhiên, việc tiệm cận được một phương pháp có thể làm việc tốt đối với mọi loại dữ liệu và yêu cầu phân lớp là rất khó khăn, khi mà mỗi dữ liệu đều có những đặc trưng riêng biệt Việc bài toán nhận dạng biển báo đã được nghiên cứu và phát triển một thời gian, một phần nào đó giúp cho việc lựa chọn phương pháp trích rút hợp lí đối với đối tượng chữ viết có thêm nhiều góc nhìn khác nhau
Việc lựa chọn tập các đặc trưng, nhằm biểu diễn đối tượng đối với các dữ liệu
có cấu trúc ổn định và không thay đổi quá nhiều như đối với các hình dạng biển báo chuẩn không quá phức tạp Vẫn đề chỉ nằm ở việc lựa chọn các đặc trưng có tính tổng quát hoá cao, cũng như đảm bảo giữ lại được các cấu trúc mang tính riêng biệt, giúp phân lớp dễ dàng các đối tượng đầu vào Vấn đề trở nên phức tạp khi lựa chọn đặc trưng đối với các dữ liệu có cấu trúc không ổn định và nhiều dạng như đối với bài toán nhận dạng biển báo trên thực tế Việc lựa chọn phương pháp trích rút hợp lí đã là một vấn đề khó, chưa kể đến các yếu tố về tính đa dạng của cùng một nhãn dữ liệu, tính mập mờ trong cấu trúc, tính động trong không gian và chiều trên cùng một mẫu
dữ liệu với cùng một dạng hiển thị Rõ ràng rằng, việc xác định được một vectơ đặc trưng hợp lí cho biển báo giao thông là phức tạp hơn rất nhiều các phương pháp nhận dạng ký tự khác đã đề cập trước đó Việc đảm bảo chất lượng và tính chính xác cho
dữ liệu trước khi đưa vào hệ thống phân lớp, cần phải giải quyết các vấn đề cụ thể sau:
Phát hiện đối tượng (Object detection):
Nắm bắt chính xác đối tượng cần trích rút đặc trưng Đây là vấn đề cơ bản của bất cứ bài toán phân lớp dữ liệu nào Tính chính xác trong quá trình xác định đối tượng, ban đầu quyết định đến kết quả của quá trình phần lớp là đúng hay sai Thao tác này bao gồm cả vấn đề lọc bỏ nhiễu có thể ảnh hưởng đến quá trình phân lớp sau
đó Điều đó đồng nghĩa với việc các thao tác nắm bắt và khoanh vùng chính xác từng đối tượng đã được giảm thiểu đi khá nhiều vấn đề khó
Trang 2616
Tiền xử lý:
Xử lí cơ bản nhằm làm nổi bật các yếu tố có thể ảnh hưởng đến đặc trưng cần trích rút của đối tượng Điều này là vô cùng quan trọng, đặc biệt trong các vấn đề liên quan đến ảnh số, hầu hết dữ liệu thu được từ thiết bị không được rõ nét và sạch nhiễu như bản thân nó vốn có Việc mất mát thông tin từ quá trình chuyển đổi định dạng dữ liệu về dạng phù hợp với hệ thống là không tránh khỏi, do vậy quá trình xử lí cơ bản trên cần đảm bảo giữ lại được các yếu tố cần thiết cho quá trình trích rút đặc trưng cũng như phân lớp dữ liệu sau này Quá trình hiệu chỉnh này cũng bao gồm thao tác hiệu chỉnh phương và chiều của kí tự
- Lựa chọn phương pháp trích rút đặc trưng phù hợp với yêu cầu và hệ thống phân lớp hiện có Đây là một trong những yếu tố quyết định đến tính chính xác của hệ thống nhận dạng Không phải ngẫu nhiên khi hàng loạt các phương pháp trích rút đặc trưng được nghiên cứu, thử nghiệm và phát triển trong suốt những năm vừa qua Tesseract của google, Holland style… đã và đang được nghiên cứu và phát triển với một hệ thống lí luận có chọn lọc Điều này cho thấy tầm quan trong của việc lựa chọn các phương pháp trích rút đặc trưng cụ thể cho bài toán phân lớp dữ liệu
- Lựa chọn phương pháp phân lớp dữ liệu phù hợp Đây là yếu tố quyết định đến tính chính xác của quá trình phân lớp Hiệu quả của hệ thống nhận dạng chịu ảnh hưởng rất nhiều từ việc lựa chọn phương pháp phân lớp phù hợp và hiệu quả Có quá nhiều các giải thuật có thể được kể tên, tuy nhiên việc lựa chọn phương pháp nào, cách tiếp cận đối với từng vấn đề cụ thể ra sao, hiệu quả khi kết hợp với các đặc trưng đang có như thế nào lại cần thời gian nghiên cứu và thử nghiệm một cách nghiêm túc
Đối với biển báo giao thông nói riêng, đã có khá nhiều các phương pháp khác nhau được đưa ra nhằm trích rút và xây dựng tập hợp các đặc trưng đủ mạnh để tiến hành phân lớp dữ liệu Đối với vấn đề này, có 2 hướng tiếp cận chủ yếu: trích rút đặc
trưng có cấu trúc và đặc trưng phi cấu trúc
Trang 2717
Ý tưởng chính của 2 phương pháp này khá đơn giản Đối với hình thức trích rút đặc trưng có cấu trúc, các đặc trưng của dữ liệu được trích rút dựa trên cấu trúc dữ liệu hiện có, và ngược lại, các đặc trưng phi cấu trúc được hiểu như việc trích rút đặc trưng dựa trên các yếu tố phi cấu trúc của đối tượng Trong một vài trường hợp, ranh giới giữa đặc trưng có cấu trúc và đặc trưng phi cấu trúc không quá rõ ràng Tuy nhiên, điều đó không quá quan trọng bằng việc xây dựng được tập đặc trưng phù hợp cho đối tượng và các phương pháp phân lớp cụ thể
2.1.1.1 Đặc trưng có cấu trúc
Holland style:Tiêu biểu và khá nổi bật trong hướng tiếp cận trích rút đặc trưng
có cấu trúc phải kể đến 16 đặc trưng của Holland, được đưa ra vào năm 1991 Tập hợp các đặc trưng này mô tả khá tốt cấu trúc biển báo, dựa trên các tính toán trên từng giá trị điểm ảnh, đồng thời có sử dụng đến khái niệm biên ảnh trong quá trình xây
dựng đặc trưng
Holland style [9] là phương pháp có khả năng mô tả tốt các đặc trưng cơ bản của đối tượng chữ viết với tập 16 thuộc tính được trích rút từ việc quét trên hình ảnh chữ cái Kết quả tốt nhất được đưa ra khi sử dụng Holland vào quá trình nhận dạng chữ viết là 82.7% vào năm 1991 Với các hiệu chỉnh phù hợp, xác suất chính xác khi
sử dụng tập đặc trưng này là 95,67% với hơn 20.000 đặc trưng huấn luyện
16 đặc trưng được Holland đưa ra được tính toán trên cơ sở box hình chữ nhật
bé nhất có thể chứa toàn bộ các điểm ảnh của kí tự được trích rút đặc trưng:
- X: số lượng điểm ảnh từ biên phía bên trái của box đến tâm của box
- Y: số lượng điểm ảnh từ biên phía trên của box đến tâm của box
- Width: chiều rộng của box
- Height: chiều cao của box
- Onpix: tổng số điểm ảnh “on” của box
- Xbar: trung bình của X đối với các điểm ảnh “on” khi quét từ biên phía bên
trái của đối tượng đến tâm box
Trang 2818
- Ybar: trung bình của Y đối với các điểm ảnh “on” khi quét từ phía trên của đối
tượng đến tâm box
- X2bar: giá trị trung bình bình phương của khoảng cách các điểm ảnh đã được
đề cập ở Xbar Thuộc tính này sẽ có giá trị cao hơn đối với các kí tự được phân bố rộng hơn theo chiều ngang, như trường hợp chữ W hay M
- Y2bar: giá trị trung bình bình phương của khoảng cách các điểm ảnh đã được
đề cập ở Ybar
- XYbar: giá trị trung bình của XY khi quét toàn bộ điểm ảnh “on” trên box
- X2Ybar: giá trị trung bình của X2Y khi quét toàn bộ điểm ảnh “on” trên box
- XY2bar: giá trị trung bình của XY2 khi quét toàn bộ điểm ảnh “on” trên box
- EdgeX, giá trị trung bình số lượng điểm ảnh “on” của box khi quét trên toàn
bộ Y từ trái qua phải
- EdgeXY, tổng tất cả các vị trí theo chiều dọc của tất cả các cạnh gặp phải khi
đo EdgeX
- EdgeY, giá trị trung bình số lượng điểm ảnh “on” của box khi quét trên toàn
bộ X từ trên xuống dưới
- EdgeYX, tổng tất cả các vị trí theo chiều ngang của tất cả các cạnh gặp phải
khi đo EdgeY
Trang 2919
Hình 2.1 Đặc trưng Holland Style Với những gì đã đưa ra, Holland style có vẻ khá phù hợp cho việc trích rút các đặc trưng có cấu trúc trong mỗi mẫu kí tự nhận dạng Điều này đã được kiểm chứng với việc sử dụng tập dữ liệu hơn 20.000 mẫu đã được công bố trước đó, với tỉ lệ chính xác trên 85% Tuy rằng tỉ lệ trên chưa thực sự cao khi so sánh với các phương pháp trước đó đã có đối với nhận dạng ký tự in, tuy nhiên việc phân tích với 16 đặc trưng đưa ra được đánh giá là tương đối hợp lý đối với các mẫu ký tự viết tay, tất nhiên kèm theo đó là một phương pháp huấn luyện phù hợp và hiệu quả
Thực tế, Holland đã khá thành công trong quá trình trích rút các đặc trưng có cấu trúc đối với các dữ liệu phù hợp Khái niệm dữ liệu phù hợp ở đây, được hiểu như các dữ liệu với cấu trúc không khác nhau quá nhiều Điều này đảm bảo cho tập các đặc trưng được Holland đưa ra là phù hợp và ổn định trong quá trình phân lớp dữ liệu Vấn đề đặt ra, với dữ liệu có cấu trúc không ổn định, tập các đặc trưng được Holland đưa ra liệu có thực sự phù hợp? Qua quá trình thực nghiệm cho thấy, đối với các dữ
Trang 3020
liệu có cấu trúc ổn định như biển báo giao thông, các đặc trưng của Holland cho thấy
sự ổn định sau khi trích rút dữ liệu Điều này một phần nào đó, làm tăng hiệu suất chính xác của quá trình phân lớp sau đó Tất nhiên rằng, hiệu quả của quá trình phân lớp còn phụ thuộc rất nhiều vào mô hình phân lớp được sử dụng, tuy nhiên với cùng một mô hình phân lớp cụ thể, kết quả khi sử dụng các đặc trưng của Holland có sự chênh lệch đáng kể Điều đó cho thấy sự khác biệt khá lớn trong việc lựa chọn và sử dụng đặc trưng đối với dữ liệu có cấu trúc ổn định và dữ liệu có cấu trúc không ổn định
2.1.1.2 Đặc trưng phi cấu trúc
Đặc trưng phi cấu trúc được hiểu như các đặc trưng được trích rút dựa trên các yếu
tố phi cấu trúc của dữ liệu Đặc trưng phi cấu trúc được coi là khá hiệu quả khi làm việc đối với các dữ liệu có cấu trúc không ổn định Tiêu biểu cho việc sử dụng các đặc trưng có cấu trúc trong quá trình phân lớp dữ liệu là các ứng dụng nhận dạng mặt người Trong đó, đặc trưng Haar like thường xuyên được sử dụng như một phương pháp hiệu quả để biểu diễn đối tượng
Haar like do Viola và Jonescông bố như một phương pháp khá hiệu quả trong việc xác định đặc trưng ảnh số nói chung cũng như đặc trưng ký tự viết tay nói riêng trong nhận dạng đối tượng
Ý tưởng chính của Haar like được đưa ra bằng việc phân chia các vùng ảnh trong box (nhỏ nhất chứa toàn bộ đối tượng) một cách hợp lí và cục bộ, từ đó dựa trên số lượng các điểm ảnh “on”, xây dựng sự tương quan giá trị giữa các vùng, nhằm làm nổi bật đặc trưng và sự khác nhau nổi bật giữa các đối tượng cần phân lớp.Ban đầu, đặc trưng Haar-like được đưa ra bởi Paul Viola và Jones, nhằm mục đích nghiên cứu để phục vụ cho bài toán phát hiện mặt người, chỉ gồm 4 đặc trưng cơ bản để xác định Mỗi đặc trưng Haar–like là sự kết hợp của các hình chữ nhật
“trắng” hay “đen” như trong hình sau:
Trang 3121
Hình 2.2 Đặc trưng Haar-like cơ bản
Và sau này để đáp ứng với các bài toán phát hiện đối tượng phức tạp, 4 đặc trưng cơ bản trên được mở rộng, và chia ra thành 3 tập đặc trưng như sau:
Đặc trưng cạnh (edge features):
Hình 2.3 Đặc trưng cạnh Đặc trưng đường (line features):
Hình 2.4 Đặc trưng đường Đặc trưng xung quanh tâm (center-surround features):
Trang 3222
Hình 2.5 Các đặc trưng Haarlike mở rộng Mỗi một đặc trưng bao gồm vùng sáng và vùng tối Giá trị của đặc trưng chính
là sự khác biệt giữa hai vùng sáng, tối Vậy giá trị đó có thể tính được bằng cách:
f(x) = tổng các mức xám của vùng tối – tổng các mức xám của vùng sáng
Trong quá trình huấn luyện số lượng xử lý trên các Haar-like là rất lớn, việc tính tổng các điểm ảnh cho bởi từng đặc trưng làm cho thời gian xử lý tăng đáng kể
Để khắc phục điều này, Viola và Jones đã đưa ra khái niệm Integral Image để tính nhanh các đặc trưng cơ bản Integeral Image hay còn gọi là Summed Area Table – SAT, Lienhart đã kế thừa và đưa thêm ra Rotated Summed Area Table-RSAT để tính nhanh cho các đặc trưng nghiêng 1 góc 45 o
2.1.1.3 SIFT và SURF
Scale-Invariant Feature Transform (SIFT) là một trong những giải thuật trong lĩnh vực Computer Vision, được sử dụng nhiều trong nhận dạng và mô tả đặc trưng (local features) trong ảnh Giải thuật này được giới thiệu lần đầu bởi David Lowe vào năm 1999 SIFT (cùng với giải thuật SURF) được đưa vào ứng dụng tương đối rộng rãi trong các vấn đề về nhận dạng đối tượng ảnh (object recognition), mô hình hóa 3D (3D modeling)
Một trong những đặc điểm đáng chú ý của SIFT có thể được nhắc tới, đó là SIFT đưa ra các kết quả tương đối ổn định với những scale khác nhau của ảnh, đồng thời cũng có thể cho rằng, giải thuật này có đặc tính rotaion-invariant tương đối cao
và đạt hiệu quả tốt trong các ứng dụng nhận dạng thực tế
Về cơ bản, SIFT được mô tả rõ nét bằng 4 giai đoạn cụ thể:
- Scale-space extrema detection
- Keypoint localization
- Orientation assignment
- Keypoint descriptor