BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN TẤN HẠNH NGHIÊN CỨU CÁC THUẬT TOÁN XỬ LÝ ẢNH ỨNG DỤNG TRONG NHẬN DẠNG BIỂN KIỂM SOÁT PHƯƠNG TIỆN GIAO THÔNG Ngành: Kỹ thuật viễn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
NGUYỄN TẤN HẠNH
NGHIÊN CỨU CÁC THUẬT TOÁN XỬ LÝ ẢNH ỨNG DỤNG TRONG NHẬN DẠNG BIỂN KIỂM SOÁT
PHƯƠNG TIỆN GIAO THÔNG
Ngành: Kỹ thuật viễn thông
Mã số: 8520208
Người hướng dẫn: TS NGUYỄN TƯỜNG THÀNH
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu, tìm hiểu của riêng tôi Các số liệu, kết quả hiển thị và nêu trong luận văn là trung thực, chính xác và được thực hiện trong quá trình làm luận văn Chưa từng được ai công bố trong bất kỳ công trình nào khác
Nếu sai phạm tôi xin hoàn toàn chịu trách nhiệm Trân trọng cảm ơn!
Bình Định, ngày … tháng… năm 2024
Người cam đoan
Trang 3LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các Thầy, Cô đã tham gia giảng dạy lớp “Thạc Sĩ
Kỹ thuật Viễn thông K25A” tổ chức tại Trường Đại học Quy Nhơn Các Thầy, Cô
đã tận tình giảng dạy, hướng dẫn, cung cấp những kiến thức rất hữu ích cho chúng tôi trong suốt quá trình học tập, cũng như vận dụng vào công việc và cuộc sống
Xin gửi đến thầy TS Nguyễn Tường Thành lời biết ơn chân thành và sâu sắc,
đã nhiệt tình hướng dẫn tôi thực hiện đề án này
Xin cảm ơn Trường Đại học Quy Nhơn đã tạo điều kiện tốt nhất có thể để chúng tôi tham gia học tập trong suốt thời gian qua
Chân thành cảm ơn các anh chị em cùng lớp và đồng nghiệp đã trao đổi và hỗ trợ trong quá trình học tập và quá trình thực hiện đề án
Bình Định, ngày … tháng … năm 2024
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii
DANH MỤC BẢNG BIỂU viii
DANH MỤC HÌNH ẢNH ix
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Tổng quan tình hình nghiên cứu đề tài 2
3 Mục tiêu nghiên cứu 3
4 Đối tượng và phạm vi nghiên cứu 3
5 Phương pháp nghiên cứu 3
6 Ý nghĩa khoa học và thực tiễn của đề tài 3
7 Cấu trúc của luận văn 3
CHƯƠNG 1 - CÁC VẤN ĐỀ CƠ BẢN VỀ NHẬN DẠNG, XỬ LÝ ẢNH 5
1.1 Giới thiệu chương 5
1.2 Tổng quan về xử lý ảnh 5
1.2.1 Khái niệm về xử lý ảnh 5
1.2.2 Các vấn đề cơ bản trong xử lý ảnh 6
1.3 Các cách thu nhận và biểu diễn ảnh 9
1.3.1 Thu nhận và các thiết bị thu nhận ảnh 9
1.3.2 Biểu diễn ảnh 9
1.3.3 Mô hình Raster 9
1.3.4 Mô hình Vector 10
1.4 Hệ tọa độ màu 11
1.4.1 Khái niệm 11
1.4.2 Biểu diễn hệ tọa độ 12
1.5 Lấy mẫu và lượng tử hóa 13
1.5.1 Giới thiệu 13
1.5.2 Lấy mẫu 13
1.5.3 Lượng tử hóa 14
Trang 51.6 Một số phương pháp biểu diễn ảnh 15
1.6.1 Biểu diễn mã loạt dài 15
1.6.2 Biểu diễn mã tứ phân 16
1.7 Các định dạng ảnh cơ bản 16
1.7.1 Khái niệm chung 16
1.7.2 Định dạng ảnh IMG 16
1.7.3 Định dạng ảnh PCX 17
1.7.4 Định dạng ảnh TIFF 18
1.8 Phương pháp phát hiện ảnh 20
1.8.1 Giới thiệu biên và phát hiện biên 20
1.8.2 Phương pháp phát hiện biên trực tiếp 22
1.9 Phân vùng (đoạn) ảnh 25
1.9.1 Giới thiệu 25
1.9.2 Thuật toán gán nhãn thành phần liên thông 25
1.9.3 Phân vùng theo ảnh đồng nhất 26
1.9.4 Phân vùng ảnh theo kết cấu bề mặt 29
1.10 Nhận dạng ảnh 29
1.10.1 Giới thiệu 30
1.10.2 Khái niệm nhận dạng 30
1.10.3 Mô hình và bản chất của quá trình nhận dạng 30
1.10.4 Nhận dạng theo cấu trúc 31
1.10.5 Nhận dạng dựa theo mạng Nơ ron 31
1.11 Kết luận chương 34
CHƯƠNG 2 - TỔNG QUAN VỀ NHẬN DẠNG BIỂN KIỂM SOÁT PHƯƠNG TIỆN GIAO THÔNG 35
2.1 Giới thiệu chương 35
2.2 Khái quát hệ thống nhận dạng biển kiểm soát giao thông 35
2.2.1 Khái niệm biển kiểm soát phương tiện giao thông 35
2.2.2 Các bước nhận dạng biển kiểm soát giao thông bằng hình ảnh 36
2.3 Tìm hiểu phương pháp tách biển kiểm soát phương tiện giao thông 37
2.3.1 Tìm vùng màu trắng 38
2.3.2 Xác định vùng chứa biển kiểm soát 38
2.3.3 Cắt thô vùng chứa biển kiểm soát 39
Trang 62.3.4 Tìm góc nghiêng và xoay 39
2.3.5 Cắt biển kiểm soát phương tiện chính xác 41
2.4 Phân đoạn ký tự biển kiểm soát phương tiện giao thông 41
2.5 Nhận dạng ký tự biển kiểm soát phương tiện giao thông 42
2.5.1 Tổng quát nhận dạng ký tự 42
2.5.2 Các phương pháp nhận dạng ký tự 42
2.6 Kết luận chương 44
CHƯƠNG 3 – NGHIÊN CỨU THUẬT TOÁN NHẬN DẠNG BIỂN KIỂM SOÁT PHƯƠNG TIỆN GIAO THÔNG TỪ HÌNH ẢNH 45
3.1 Giới thiệu chương 45
3.2 Đề xuất mô hình hệ thống và thuật toán tổng quát trong nhận dạng biển kiểm soát phương tiện giao thông 45
3.2.1 Khối thu nhận hình ảnh 46
3.2.2 Khối tiền xử lý ảnh 47
3.2.3 Khối tìm vị trí khả dụng và tách chính xác biển kiểm soát 55
3.2.4 Thuật toán phân đoạn và nhận dạng các ký tự và số trên biển kiểm soát 58
3.2.5 Thuật toán xử lý ảnh chi tiết cho ứng dụng trong nhận dạng biển kiểm soát phương tiện giao thông 62
3.3 Kết luận chương 63
CHƯƠNG 4 - KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 64
4.1 Giới thiệu chương 64
4.2 Giới thiệu Matlab 64
4.2.1 Giao diện lập trình Matlab 64
4.2.2 Giới thiệu một số hàm Matlab chính sử dụng trong luận văn 65
4.3 Nghiên cứu triển khai thuật toán nhận dạng biển kiểm soát trên Matlab 65
4.3.1 Triển khai tiền xử lý ảnh 65
4.3.2 Triển khai Matlab tìm vị trí khả dụng của biển kiểm soát trong ảnh 67
4.3.3 Triển khai tách chính xác vị trí của biển kiểm soát 71
4.4 Triển khai Matlab để phân đoạn ký tự trong ảnh 73
4.5 Triển khai Matlab nhận dạng ký tự và chuyển thành văn bản 74
4.5.1 Chuẩn bị cơ sở dữ liệu 74
Trang 74.5.2 Nhận dạng ký tự và chuyển thành văn bản 75
4.6 Triển khai giao diện cho chương trình Matlab (GUI) 77
4.7 Nhận xét kết quả, đánh giá tính tin cậy của thuật toán 78
4.8 Kết luận chương 80
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 81
TÀI LIỆU THAM KHẢO 82
PHỤ LỤC 84 QUYẾT ĐỊNH GIAO TÊN ĐỀ TÀI ĐỀ ÁN THẠC SĨ (BẢN SAO)
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết
tắt
AI Artifical Intelligence Trí tuệ nhân tạo
GUI Graphical User Interface Giao diện người dùng đồ
HTML Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn
bản
CSS Cascading Style Sheet Tập tin định dạng thiết kế
theo tầng
CNN Convolutional Neural Network Mạng nơ ron tích chập
FCNN Full Convolutional Neural Network Mạng nơ ron tích chập kết nối
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2 1 Danh sách các loại biển kiểm soát phương tiện giao thông tại Việt Nam 36 Bảng 4.1 Bảng kết quả thử nghiệm 79
Trang 10DANH MỤC HÌNH ẢNH
Hình 1.1 Quá trình xử lý ảnh .5
Hình 1 2 Các bước cơ bản trong một hệ thống xử lý ảnh .6
Hình 1 3 Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh 1 thông qua DIB 10
Hình 1.4 Sự chuyển đổi giữa các mô hình biểu diễn ảnh 11
Hình 1.5 Không gian màu RGB .12
Hình 1.6 Các dạng mẫu điểm ảnh .14
Hình 1.7 Tín hiệu được lượng tử hóa 15
Hình 1.8 Tín hiệu đường biên ảnh .21
Hình 1.9 Các bước xử lý và phân tích ảnh 21
Hình 1.10 Phát hiện biên trực tiếp .23
Hình 1.11 Tính đạo hàm theo Gradient .24
Hình 1.12 Phương pháp sửa nhãn .26
Hình 1.13 Phân vùng theo phương pháp cây tứ phân .27
Hình 1.14 Khái niệm 4 liên thông và 8 liên thông .28
Hình 1.15 Cấu tạo Nơron sinh học .33
Hình 1.16 Cấu tạo của mạng Nơron nhân tạo .34
Hình 2.1 Biển kiểm soát xe ô tô tại tỉnh Bình Định loại 2 hàng 35
Hình 2.2 Sơ đồ tổng quát của khối tách biển kiểm soát 37
Hình 2.3 Phương pháp biến đổi Radon 40
Hình 2.4 Hình chiều đơn giản theo góc θ .40
Hình 2.5 Phương pháp biến đổi Radon dưới dạng hình học .41
Hình 2.6 Tổng các Bit theo 1 hàng của biển kiểm soát 42
Hình 2.7 Các ký tự và số mẫu 43
Hình 2.8 Hình minh họa hoạt động của mạng trong nhận dạng 44
Hình 3.1 Mô hình hệ thống nhận dạng biển kiểm soát phương tiện giao thông 45
Hình 3.2 Lưu đồ thuật toán nhận dạng biển kiểm soát phương tiện bằng hình ảnh 46 Hình 3.3 Hình ảnh thu được ở đầu vào từ Camera 47
Hình 3.4 Ảnh được biến đổi ảnh xám từ ảnh gốc 48
Hình 3.5 Tập điểm ảnh khi nhân chập với ma trận 3x3 49
Trang 11Hình 3.6 Giá trị của điểm ảnh sau khi nhân chập với ma trận 3x3 50
Hình 3.7 Giá trị của điểm ảnh sau khi lọc trung vị được sắp xếp 50
Hình 3.8 Kết quả hình ảnh sau khi qua bộ lọc Median với ma trận 3x3 51
Hình 3.9 Kết quả hình ảnh sau khi qua bộ lọc Median với ma trận 5x5 51
Hình 3.10 Kết quả hình ảnh sau khi qua bộ lọc Median với ma trận 7x7 52
Hình 3.11 Kết quả hình ảnh sau khi qua bộ lọc Median với ma trận 9x9 52
Hình 3.12 Kết quả hình ảnh sau khi áp dụng Histogram 53
Hình 3.13 Làm nổi biên ảnh sử dụng kĩ thuật Sobel 54
Hình 3.14 Ảnh sau khi được nhị phân hóa 55
Hình 3.15 Ví dụ kỹ thuật Dilation 56
Hình 3.16 Lưu đồ thuật toán chi tiết cho trích xuất chính xác của biển kiểm soát 57
Hình 3.17 Ví dụ kết quả sau tìm và cắt chính xác biển kiểm soát phương tiện 58
Hình 3 18 Hình ảnh mẫu cho từng loại ký tự 59
Hình 3 19 Phân đoạn ký tự trên biển kiểm soát 60
Hình 3.20 Lưu đồ thuật toán nhận dạng ký tự có trong biển kiểm soát 61
Hình 3 21 Lưu đồ thuật toán chi tiết cho xử lý ảnh nhận dạng biển kiểm soát phương tiện giao thông 63
Hình 4.1 Biểu tưởng Matlab trên Desktop máy tính 64
Hình 4.2 Cửa sổ làm việc với Matlab 65
Hình 4 3 Ảnh gốc sau khi được chuyển sang ảnh GRAY 66
Hình 4.4 Kết quả sau bộ lọc Median (a) và sau khi Histogram (b) 67
Hình 4.5 Kết quả thực hiện việc phát hiện biên ảnh bằng kỹ thuật Sobel 68
Hình 4.6 Kết quả thực hiện với Dilation theo phương ngang (a) và dọc (b) 69
Hình 4.7 Kết quả thực hiện lấp đầy lỗ bằng hàm imfill 70
Hình 4.8 Kết quả thực hiện xóa các đối tượng nhỏ và đối tượng kết nối với biên của hình (a) và kết quả thực hiện làm mòn (b) 70
Hình 4.9 Kết quả tách vị trí chính xác cho biển kiểm soát 71
Hình 4.10 Biển kiểm soát sau khi tách và được làm bù ảnh nhị phân 73
Hình 4.11 Phân đoạn ký tự và vẽ đường bao cho từng ký tự 74
Hình 4.12 Chuẩn bị cơ sở dữ liệu để nhận dạng các ký tự 74
Hình 4 13 Kết quả nhận dạng ký tự và chuyển ký tự thành văn bản 77 Hình 4.14 Giao diện GUI thực hiện nhận dạng biển kiểm soát phương tiện giao thông
Trang 1278
Trang 13MỞ ĐẦU
1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Biển kiểm soát phương tiện giao thông được sử dụng để nhận dạng các phương tiện trên khắp các quốc gia cũng như tại Việt Nam Các phương tiện giao thông được nhận dạng thủ công hoặc tự động Nhận dạng phương tiện giao thông tự động là một
kỹ thuật xử lý hình ảnh nhận dạng các phương tiện giao thông bằng biển kiểm soát
Hệ thống nhận dạng phương tiện giao thông tự động được sử dụng cho mục đích kiểm soát giao thông hiệu quả và cho các ứng dụng an ninh như kiểm soát ra vào các khu vực hạn chế và theo dõi các phương tiện bị truy nã, hoặc khi đỗ xe, nhận dạng biển kiểm soát phương tiện được dùng để tính thời gian đỗ xe Khi xe vào cổng vào, biển kiểm soát sẽ tự động được nhận dạng và lưu vào cơ sở dữ liệu
Nhận dạng biển kiểm soát là phương pháp dễ dàng nhất để nhận dạng, phân biệt giữa các phương tiện giao thông với nhau Do đó nhiệm vụ nhận dạng biển kiểm soát phương tiện giao thông là cần thiết, tuy nhiên nhiệm vụ này có nhiều thách thức vì bản chất nó chịu các ảnh hưởng từ môi trường bên ngoài như ánh sáng, góc giám sát, bản thân biển kiểm soát bị mờ, lỗi… Đồng thời mô hình triển khai hệ thống nhận dạng biển kiểm soát và các thuật toán xử lý ảnh sử dụng chưa phù hợp
Nhiều thử nghiệm nhận dạng biển kiểm soát phương tiện giao thông đã được tiến hành từ nhiều năm nay, tuy nhiên đây vẫn là một nhiệm vụ đầy thách thức và hứa hẹn Hệ thống nhận dạng biển kiểm soát phương tiện giao thông là kiểm tra một hình ảnh đầu vào để xác định vùng hay vị trí trong ảnh có chứa biển kiểm soát của phương tiện Vì vị trí biển kiểm soát có thể tồn tại ở bất kỳ đâu trong ảnh với nhiều kích cỡ khác nhau nên việc kiểm tra từng pixel của ảnh để xác định vị trí của nó là việc làm không khả thi Nên cần đưa ra một thuật toán xử lý ảnh hay một mô hình hệ thống phù hợp hơn cho việc nhận dạng biển kiểm soát phương tiện giao thông
Chính những lý do trên, đề tài “NGHIÊN CỨU CÁC THUẬT TOÁN XỬ LÝ ẢNH ỨNG DỤNG TRONG NHẬN DẠNG BIỂN KIỂM SOÁT PHƯƠNG TIỆN GIAO THÔNG” được chọn để nghiên cứu, tìm hiểu và học hỏi các nội dung về ứng
dụng này Trong phạm vi của luận văn này tôi xin tập trung nghiên cứu, tìm hiểu và học hỏi đồng thời đề xuất mô hình hệ thống cũng như thuật toán xử lý ảnh phù hợp, nhằm nhận dạng được chính xác biển kiểm soát phương tiện giao thông, cụ thể là Ôtô
Trang 142 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ĐỀ TÀI
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính được đưa ra: Nâng cao chất lượng ảnh thu được và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chất lượng cảnh báo được truyền qua cáp từ Luân Đôn đến New York (Mỹ) của những năm 1920 Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và bộ phân giải của ảnh thu được Việc nâng cao chất lượng ảnh được phát triển vào khoảng năm 1955 Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh một số thuận lợi
Năm 1964, máy tính đã có khả năng xử lý ảnh và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: Làm nổi đường biên, lưu ảnh Từ năm 1964 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng Các phương pháp trí tuệ nhân tạo như mạng Nơron nhân tạo, các thuật toán xử lý ảnh hiện đại và cải tiến đã được áp dụng, các công cụ nén ảnh ngày càng được phổ biến rộng rãi và thu nhiều kết quả quan trọng và khả quan
Để dễ nhìn nhận, xét các bước cần thiết trong xử lý ảnh Đầu tiên, ảnh tự nhiên
từ thế giới bên ngoài được thu nhập qua các thiết bị thu (như Camera, máy chụp ảnh) Trước đây ảnh thu từ camera là các ảnh tương tự (loại Camera ống kiểu CCIR) Gần đây,với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo Mặc khác ảnh cũng có thể tiếp nhận từ vệ tinh có thể quét từ ảnh chụp bằng máy quét ảnh Trên thế giới nói chung hay Việt Nam nói riêng, bài toán nhận diện biển kiểm soát phương tiện giao thông vẫn là một bài toán hết sức được quan tâm Kết quả nghiên cứu bài toán là các giải pháp cho các công nghệ tự động, giải pháp quản lý bãi
xe, quản lý an ninh, theo dõi tội phạm, và các ứng dụng khác
Nhìn chung các giải pháp hiện nay đang rất phát triển song vẫn còn nhiều hạn chế Những giải pháp nổi tiếng trên thế giới như ALPR, Vino đều đáp ứng được hầu hết các nhu cầu cơ bản của các bài toán Nhược điểm còn tồn tại trong các giải pháp này là chưa hỗ trợ hết tất cả các loại biển kiểm soát trên thế giới
Tại Việt Nam thị trường giải pháp nhận diện biển kiểm soát cũng rất phong phú,
đi đầu trong lĩnh vực này có thể kể đến như Silver Sea, DNC Tech Tất cả các giải pháp này đều có điểm chung là xử lý chuyên về biển kiểm soát Việt Nam nên có tốc
độ xử lý rất nhanh và độ chính xác rất cao đối với biển kiểm soát Việt Nam
Trang 153 MỤC TIÊU NGHIÊN CỨU
Mục tiêu của nhận dạng biển kiểm soát phương tiện giao thông là thực hiện các bước xử lý để từ một ảnh đầu vào giúp người quản lý giám sát được các phương tiện giao thông, kiểm tra an ninh, thu phí không vé và một số ứng dụng khác
4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Hệ thống nhận dạng biển kiểm soát phương tiện giao thông là một ứng dụng dựa trên kỹ thuật xử lý ảnh số Đây là một trong những ứng dụng xử lý ảnh nhận được nhiều sự quan tâm nghiên cứu về cả hai mặt lý thuyết và thực hiện chương trình Phạm vi của đề tài bao gồm các quá trình thực hiện xử lý như sau: Phân vùng biển kiểm soát phương tiện giao thông, tách các ký tự, nhận biết các ký tự, phần mềm quản
lý cơ sở dữ liệu biển kiểm soát phương tiện giao thông
Dựa vào các vấn đề về xử lý ảnh, nhận dạng biển kiểm soát phương tiện giao thông, lưu đồ thuật toán nhận dạng biển kiểm soát, mô phỏng bằng phần mềm Matlab Nhận dạng được hai loại biển kiểm soát phương tiện giao thông hiện đang tồn tại song song là 4 số và 5 số và loại biển kiểm soát nền màu vàng, màu trắng
5 PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu, tìm hiểu và học hỏi các mô hình và thuật toán xử lý ảnh phù hợp trong nhận dạng biển kiểm soát phương tiện giao thông
Nghiên cứu, tìm hiểu để sử dụng Matlab nhằm thực thi được các thuật toán đã
được nghiên cứu, tìm hiểu và lựa chọn trong quá trình xử lý ảnh
6 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Đề tài hướng đến nghiên cứu xây dựng một hệ thống nhận diện biển kiểm soát phương tiện giao thông, thông qua các thuật toán được nghiên cứu, học hỏi, có thể xem xét, bổ sung và áp dụng hiệu quả trong thực tiễn tùy theo yêu cầu khác nhau
7 CẤU TRÚC CỦA LUẬN VĂN
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, luận văn gồm 4 chương
Chương 1: Các vấn đề cơ bản về nhận dạng, xử lý ảnh
Trình bày bày các vấn đề liên quan đến xử lý ảnh, tổng quan các kỹ thuật, các thuật toán trong xử lý, biểu diễn ảnh, phát hiện ảnh và các phương pháp phân vùng, nhận dạng ảnh…Từ đó giúp người thực hiện đề tài có cái nhìn cụ thể hơn trong nhận
Trang 16dạng xử lý ảnh biển kiểm soát phương tiện giao thông
Chương 2: Tổng quan về nhận dạng biển kiểm soát phương tiện giao thông
Trình bày các khái niệm cũng như tìm hiểu cơ sở các lý thuyết, giải thuật liên quan đến xử lý và nhận dạng biển kiểm soát phương tiện giao thông, bao gồm tìm hiểu về biển kiểm soát các phương tiện giao thông, Các bước nhận dạng biển kiểm soát giao thông bằng hình ảnh, phân đoạn ký tự trên biển kiểm soát phương tiện giao thông và các phương pháp nhận dạng ký tự có trong biển kiểm soát phương tiện giao thông
Chương 3: Nghiên cứu thuật toán nhận dạng biển kiểm soát phương tiện giao thông từ hình ảnh
Sau khi nghiên cứu và tìm hiểu các phương pháp cũng như các vấn đề trong xử
lý ảnh để nhận dạng biển kiểm soát phương tiện giao thông Chương này của luận văn hướng đến việc nghiên cứu, học hỏi, tìm hiểu và đưa ra được thuật toán phù hợp nhất đáp ứng tốt trong lĩnh vực nhận dạng biển kiểm soát phương tiện giao thông Bao gồm đề xuất mô hình hệ thống và thuật toán nhận dạng biển kiểm soát phương tiện giao thông từ hình ảnh một cách tổng quát đến chi tiết
Chương 4: Kết quả thực nghiệm và đánh giá hệ thống
Nhằm kiểm chứng kết quả nghiên cứu, tìm hiểu và học hỏi các thuật toán nhận dạng biển kiểm soát phương tiện giao thông sẽ được thực thi trên phần mềm Matlab,
từ đó đưa ra các nhận xét đánh giá tính hiệu quả cũng như xem xét, bổ sung các vấn
đề liên quan còn tồn tại Với những định hướng đã được đề cập, khả năng áp dụng vào thực tiễn, tùy theo yêu cầu và mục đích sử dụng khác nhau có thể xây dựng và hoàn thiện các tồn tại và hạn chế và khả năng đáp ứng cho nhu cầu thực tiễn đặt ra
Trang 17CHƯƠNG 1 - CÁC VẤN ĐỀ CƠ BẢN VỀ NHẬN DẠNG,
XỬ LÝ ẢNH
1.1 Giới thiệu chương
Chương này thực hiện nhiệm vụ đưa ra các khái niệm cơ bản, tổng quan trong
xử lý ảnh, để từ đó có cái nhìn tổng quát hơn về các kỹ thuật nhận dạng cũng như xử
lý ảnh số, bao gồm: các bước trong xử lý ảnh, các kỹ thuật và thuật toán xử lý ảnh…
1.2 Tổng quan về xử lý ảnh
1.2.1 Khái niệm về xử lý ảnh
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò
quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử
lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc
sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết
quả như mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh
“tốt hơn” hoặc một kết luận 1, đó là quá trình xử lý ảnh
Hình 1.1 Quá trình xử lý ảnh 1
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc
trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng
trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh
trong xử lý ảnh có thể xem như ảnh n chiều Sơ đồ tổng quát của một hệ thống xử lý
ảnh:
Trang 18Hình 1 2 Các bước cơ bản trong một hệ thống xử lý ảnh 1
1.2.2 Các vấn đề cơ bản trong xử lý ảnh
1.2.2.1 Một số khái niệm cơ bản
Ảnh và điểm ảnh: Ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh
1.2.2.2 Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh:
✓ Nhiều hệ thống: Là nhiễu có quy luật có thể khử bằng các phép biến đổi
✓ Nhiễu ngẫu nhiên: Vết bẩn không rõ nguyên nhân → khắc phục bằng các phép lọc được áp dụng
✓ Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
Trang 19v.v Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện lọc vùng (Zonal Filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng là ảnh được thu nhận
Các đặc điểm này có thể được trích chọn nhờ toán tử Gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (Zero Crossing) v.v Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống
1.2.2.5 Nhận dạng
Nhận dạng tự động (Automatic Recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (Pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa:
“Ngược lại với hỗn loạn (Chaos), mẫu là một thực thể (Entity), được xác định một cách ang áng (Vaguely Defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu
có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể được thực hiện như sau:
Hoặc phân loại có mẫu (Supervised Classification), chẳng hạn phân tích phân biệt (Discriminant Analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định
Hoặc phân loại không có mẫu (Unsupervised Classification hay Clustering) trong
đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào
đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây được thực hiện trong quá trình xử lý ảnh:
✓ Thu nhận dữ liệu và tiền xử lý
✓ Biểu diễn dữ liệu
✓ Nhận dạng, ra quyết định
Trang 20Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
✓ Đối sánh mẫu dựa trên các đặc trưng được trích chọn
✓ Phân loại thống kê
✓ Đối sánh cấu trúc
✓ Phân loại dựa trên mạng Nơron nhân tạo
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ
để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (Hybrid System) bao gồm nhiều mô hình kết hợp Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu thu nhận được
1.2.2.6 Nén ảnh
Nhằm giảm thiểu không gian lưu trữ Thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ
sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:
✓ Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
✓ Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX
✓ Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn *.JPG chính
là tiếp cận theo kỹ thuật nén này
✓ Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện
sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal
Trang 211.3 Các cách thu nhận và biểu diễn ảnh
1.3.1 Thu nhận và các thiết bị thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm Camera, Scanner các thiết bị thu nhận này có thể cho ảnh đen trắng
Các thiết bị thu nhận ảnh có 2 loại chính ứng với 2 loại ảnh thông dụng thường gặp là Raster, Vector
Các thiết bị thu nhận ảnh thông thường Raster là Camera các thiết bị thu nhận ảnh thông thường Vector là Sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi
từ ảnh Raster sang Vector
Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình
✓ Cảm biến: Biến đổi năng lượng quang học thành năng lượng điện
✓ Tổng hợp năng lượng điện thành ảnh
1.3.2 Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm 2 mục đích:
✓ Tiết kiệm bộ nhớ
✓ Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn
và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo 2 mô hình cơ bản 2
1.3.3 Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bít Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm
Trang 22trung gian Hình 1.3 thể hiện quy trình chung để hiển thị ảnh Raster thông qua DIB
Hình 1 3 Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh 1 thông qua DIB
Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ thuật nén ảnh các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào đó Theo cách tiếp cận này người ta đã nghiên cứu và đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX…
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong
đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén đồng thời có khả năng phục hồi với độ sai số nhận được
1.3.4 Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàng cho hiển thị
và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm… Theo những yêu cầu này kỹ thuật biểu diễn Vector tỏ ra ưu việt hơn
Trong mô hình Vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá được sử dụng
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất
Trang 23lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster
Do vậy, những nghiên cứu về biểu diễn Vectơ đều tập trung từ chuyển đổi từ ảnh Raster
Hình 1.4 Sự chuyển đổi giữa các mô hình biểu diễn ảnh 1.4 Hệ tọa độ màu
1.4.1 Khái niệm
Tổ chức quốc tế về chuẩn hóa màu CIE (Commission Intermationale d’ Eclairage) Đưa ra một số chuẩn để biểu diễn màu Các hệ này có chuẩn riêng Hệ chuẩn màu CIE – RGB dùng 3 màu cơ bản R,G,B và ký hiệu 𝑅𝐺𝐵𝐶𝐼𝐸 để phân biệt với các chuẩn khác Như đã nêu trên, một màu tà tổng hợp của các màu cơ bản theo một tỷ lệ nào đó 3
Như vậy, mỗi Pixel ảnh ký hiệu 𝑃𝑋 được viết:
𝑃𝑥 = [ red, green, blue]𝑇 ( T: ký hiệu chuyển vị ) (1.1) Người ta dùng hệ tọa độ ba màu R –G –B tương ứng với hệ tọa độ x-y-z như hình vẻ sau được mô tả chi tiết:
Trang 24Hình 1.5 Không gian màu RGB 3
Trong các biểu diễn này ta có công thức:
RED+BLUE+GREEN=1 Công thức này gọi là công thức Maxwell Trong hình trên,tam giác tạo bởi ba đường đức đoạn gọi là tam giác Maxwell Màu trắng trong hệ tọa độ này được xác định và tính bởi công thức sau:
𝑊ℎ𝑖𝑡𝑒𝐶𝐼𝐸 = ( 𝑅𝑒𝑑𝐶𝐼𝐸 + 𝐵𝑙𝑢𝑒𝐶𝐼𝐸 + 𝐺𝑟𝑒𝑒𝑛𝐶𝐼𝐸) = 1 (1.2)
1.4.2 Biểu diễn hệ tọa độ
Hệ tọa độ màu do CIE đề xuất có tác dụng như một hệ quy chiếu và không biểu diễn các màu Trên thực tế, phụ thuộc vào các ứng dụng khác nhau người ta đưa ra các hệ biểu diễn màu khác nhau:
✓ Hệ NTSC: dùng 3 màu R,G,B áp dụng cho, màn hình màu
✓ Hệ CMY : thường dùng in ảnh màu
✓ Hệ YIQ : cho truyền hình màu
Qúa trình chuyển đổi các không gian biểu diễn màu được thực hiện theo nguyên tắc sau: Nếu gọi X là không gian biểu diễn các màu ban đầu, X’ không gian biểu diễn
Trang 25màu mới A là ma trận biến đổi phép biến đổi
✓ Bước 1: Đo giá trị trên các không gian gọi là lấy mẫu
✓ Bước 2: Ánh xạ cường độ đo được thành một số hữu hạn các mức rời rạc được gọi là lượng tử hóa
1.5.2 Lấy mẫu (Sample)
Lấy mẫu là một quá tình, qua đó ảnh được tạo nên trên một vùng có tính liên tục được chuyển thành các giá trị rời rạc theo tọa độ nguyên Quá trình này được thực hiện gồm 2 lựa chọn sau đây:
✓ Khoảng lấy mẫu
✓ Cách thể hiện dạng mẫu
Lựa chọn một để được đảm bảo nhờ lý thuyết lấy mẫu của shannon Lựa chọn hai liên quan đến độ đo được dùng trong miền rời rạc
a) Khoảng lấy mẫu (Sampling Interval)
Ảnh lấy mẫu có thể được mô tả như việc lựa chọn một tập các vị trí lấy mẫu trong không gian hai chiều liên tục Đầu tiên mô tả qua quá trình lấy mẫu một chiều với việc sử dụng hàm Delta:
𝛿(x −𝑥0) = { 0
∞ (1.4)
∫−∞∞ 𝛿 𝑑𝑥 = ∮𝑥𝑥0+𝛿
0 − (x−𝑥0) 𝑑𝑥 = 1 (1.5) Tiếp theo chúng ta định hàm răng lược với các khoảng ∆𝑥 như sau:
Comb (x) = ∑∞𝑟=−∞𝛿(𝑥 − 𝑟∆𝑥) (1.6) Với r là số nguyên, ∆𝑥: khoảng lấy mẫu
Trang 26Như vậy hàm răng lược là chuỗi các xung răng lược từ (−∞ đế𝑛 + ∞)
b) Định lý lấy mẫu Shannon
Giả sử g(x) là một hàm giới hạn giải và biến đổi Fourier của nó là G(𝜔𝑥) = 0 đối với các giá trị 𝜔𝑥 > 𝑊𝑥 Khi đó g(x) có thể khôi phục lại từ các mẫu được tạo tại các khoảng ∆𝑥 điều đặn Tức là
2𝜔𝑥 (1.7) Định lý lấy mẫu của Shannon có thể được mở rộng cho không gian hai chiều Hàm răng lược hai chiều khi đó được xác định 3:
Comd(x,y)= ∑∞𝑛=−𝑥∑∞𝑛=−𝑥𝛿(𝑥 − 𝑛∆𝑥)(𝑦 − 𝑚∆𝑦) (1.8)
c) Các dạng lấy mẫu
Dạng lấy mẫu (Tessel Ation) điểm ảnh là các bài trí và thể hiện các điểm mẫu trong không gian hai chiều Có rất nhiều dạng điểm ảnh, một số dạng đểm ảnh được cho là dạng chữ nhật, tam giác, lục giác Mỗi mẫu,ngoài việc thể hiện hình dáng còn cho biết đặc điểm liên thông của chúng Ví dụ mẫu chữ nhật có liên thông 4 hoặc 8: mẫu lục giác có liên thông 6, mẫu tam giác có liên thông 3 hoặc 6
Trong trường hợp này ta chỉ xét các mẫu điểm ảnh hình chữ nhật, đặc biệt là hình vuông Nhiều trường hợp ứng dụng có dùng đến các mẫu tam giác hoặc lục giác
1.5.3 Lượng tử hóa
Trang 27Hình 1.7 Tín hiệu được lượng tử hóa
Lượng tử hóa (Quantization) có thể được định nghĩa một cách khái quát rằng:
đó là một quá trình xấp xỉ một tập đại lượng có giá trị tương đối lớn hoặc thay đổi liên tục (hoặc thay đổi một cách rời rạc trong một khoảng rất nhiều giá trị) (ví dụ, các số thực) bằng một lượng có giá trị nhỏ hơn (hoặc thay đổi một cách rời rạc trong một khoảng tương đối ít giá trị) (ví dụ, các số nguyên)
Ứng dụng thường gặp nhất của lượng tử hóa là lượng tử hóa tín hiệu Đây là một trong nhiều bước biến tín hiệu tương tự thành tín hiệu số, hay nói cách khác là
quá trình lấy mẫu (Sampling) các tín hiệu tương tự và chuyển thành các giá trị tương
ứng với tín hiệu số Mục đích của quá trình này là biểu diễn lại một cách chính xác nhất các tín hiệu tương tự bằng tín hiệu số
1.6 Một số phương pháp biểu diễn ảnh
Sau bước thực hiện số hóa, ảnh sẽ lưu trữ hay chuyển sang giai đoạn phân tích Trước khi đề cập đến vấn đề lưu trữ ảnh, cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính Dưới đây giới thiệu một số phương pháp biểu diễn thường dùng trong quá trình xử lý ảnh:
✓ Biểu diễn mã loạt dài ( Run – Lenght Code )
✓ Biểu diễn mã xích ( Chain Code )
✓ Biểu diễn mã tứ phân ( Quad Tree Code )
1.6.1 Biểu diễn mã loạt dài
Phương pháp biểu diễn này là một kỹ thuật hay thường dùng để biểu diễn cho
Trang 28vùng ảnh hay ảnh nhị phân Một vùng ảnh R có thể biễu diễn đơn giản nhờ một ma trận nhị phân:
𝑈(𝑚, 𝑛) = {01 (1.9) Với các cách biễu diễn như đã mô tả ở trên, một số vùng ảnh hay ảnh nhị phân được xem như chuỗi 0 hay 1 đan xen Các chuỗi này được gọi là mạch (run) Theo phương pháp này, mỗi mạch vẽ được biễu diễn bởi địa chỉ bắt đầu của mạch và chiều dài mạch theo dạng (hàng, cột) và chiều dài được thể hiện
1.6.2 Biểu diễn mã tứ phân
Theo phương pháp biểu diễn mã tứ phân, một vùng ảnh coi như được bao kín một hình chữ nhật Vùng này được chia ra làm 4 vùng con Nếu một vùng con gồm toàn điểm đen (1) hay toàn điểm trắng (0) thì sẽ không cần chia tiếp Trong trường hợp ngược lại, vùng con gồm cả điểm đen và trắng gọi là vùng không đồng nhất, ta tiếp tục thực hiện chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó Quá trình chia được dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc trắng Quá trình đó tạo thành một cây chia theo bốn phần khác nhau gọi là cây
tứ phân Như vậy cây biễu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white),
g (grey) kèm theo mã hóa 4 vùng con
Cách biễu diễn theo phương pháp này có ưu điểm vượt trội hơn so với các phương pháp trên, nhất là so với mã hoạt dài Tuy nhiên, để tính toán số đo các hình như chu vi, mô men là tương đối khó khăn và phức tạp cần phải giải quyết
1.7 Các định dạng ảnh cơ bản
1.7.1 Khái niệm chung
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng Sau đây là một
số định dạng ảnh hay dùng trong quá trình xử lý ảnh hiện nay
Trang 29lưu trong byte đếm Nhiều dãy giống nhau được lưu trong một byte
✓ byte tiếp: Mô tả kích cỡ Pixel
✓ 2 byte tiếp: Số Pixel trên một dòng ảnh
✓ 2 byte cuối: Số dòng ảnh trong ảnh
✓ Ảnh IMG được nén theo từng dòng, mỗi dòng bao gồm các gói (Pack) Các dòng giống nhau cũng được nén thành một gói Có 4 loại gói sau:
✓ Loại 1: Gói các dòng giống nhau
✓ Quy cách gói tin này như sau: 0x00 0x00 0xFF Count Ba byte đầu tiên cho biết số các dãy giống nhau, byte cuối cho biết số các dòng giống nhau
✓ Loại 2: Gói các dãy giống nhau
✓ Quy cách gói tin này như sau: 0x00 Count Byte thứ hai cho biết số các dãy giống nhau được nén trong gói Độ dài của dãy ghi ở đầu tệp
✓ Loại 3: Dãy các Pixel không giống nhau, không lặp lại và không nén được Quy cách gói tin này như sau: 0x80 Count Byte thứ hai cho biết độ dài dãy các pixel không giống nhau không nén được
✓ Loại 4: Dãy các Pixel giống nhau
Tuỳ theo các bít cao của byte đầu tiên được bật hay tắt Nếu bít cao được bật (giá trị 1) ở đây là gói nén các byte chỉ gồm bít 0, số các byte được nén được tính bởi 7 bít thấp còn lại Nếu bit cao tắt (giá trị 0) thì đây là gói nén các byte gồm toán bít 1 Số các byte được nén được tính bởi 7 bít còn lại
✓ Các gói tin của File IMG rất đa dạng do ảnh IMG là ảnh đen trắng, do vậy chỉ cần 1 bít cho 1 Pixel thay vì 4 hoặc 8 như đã nói ở trên Toàn bộ ảnh chỉ có những điểm sáng và tối tương ứng với giá trị 1 hoặc 0 Tỷ lệ nén của kiểu định dạng này là khá cao
1.7.3 Định dạng ảnh PCX
Định dạng ảnh PCX là một trong những định dạng ảnh cổ điển Nó sử dụng phương pháp mới hơn loạt dài RLE (Run – Length – Encoded) để nén dữ liệu ảnh Quá trình nộn và giải nộn được thực hiện trên từng dũng ảnh Thực tế, phương pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG Tệp PCX gồm 3 phần: đầu tệp (Header), dữ liệu ảnh (Image Data) và bảng màu mở rộng
Header của tệp PCX có kích thước cố định gồm 128 byte và được phân bố như sau:
✓ 1 byte: Chỉ ra kiểu định dạng.Nếu là PCX/PCC thì nó luôn có giá trị là 0Ah
Trang 30✓ 1 byte: Chỉ ra Version sử dụng để nén ảnh, có thể có các giá trị sau:
• 0: Version 2.5
• 2: Version 2.8 với bảng màu
• 3: Version 2.8 hay 3.0 không có bảng màu
• 5: Version 3.0 cố bảng màu
✓ 1 byte: Chỉ ra phương pháp mã hoá Nếu là 0 thì mã hoá theo phương pháp BYTE PACKED, ngược lại là phương pháp RLE
✓ 1 byte: Số bít cho một điểm ảnh Plane
✓ 1 word: Tọa độ góc trái của ảnh Với kiểu PCX nó có giá trị là (0,0), còn PCC thì khác (0,0)
✓ 1 word: Tọa độ góc phải dưới
✓ 1 word: Kích thước bề rộng và bề cao của ảnh
✓ 1 byte: Không dùng đến và luôn đặt là 0
✓ 1 byte: Số bớt Plane mà ảnh sử dụng Với ảnh 16 màu, giá trị này là 4, với ảnh 256 mầu (1pixel/8bits) thì số bít plane lại là 1
✓ 1 byte: Số bytes cho một dòng quét ảnh
✓ 1 word: Kiểu bảng màu
✓ 58 byte: Không dùng
Định dạng ảnh PCX thường được dùng để lưu trữ ảnh và thao tác đơn giản, cho phép nén và giải nén nhanh Tuy nhiên, vì cấu trúc của nó cố định, nên trong một số trường hợp làm tăng kích thước lưu trữ Cũng vì nhược điểm này mà một số ứng dụng
sử dụng một kiểu định dạng khác mềm dẻo hơn: định dạng TIFF (Targed Image File Format) sẽ mô tả dưới đây
1.7.4 Định dạng ảnh TIFF
Kiểu định dạng TIFF được thiết kế để làm nhẹ bớt các vấn đề liên quan đến việc
mở rộng tệp ảnh cố định Về cấu trúc, nó cũng gồm 3 phần chính:
Trang 31✓ Phần Header(IFH): Có trong tất cả cỏc tệp TIFF và gồm 8 byte:
• 1 Word: Chỉ ra kiểu tạo tệp trên máy tính PC hay máy Macintosh Hai loại này khác nhau rất lớn ở thứ tự các byte lưu trữ trong các số dài 2 hay 4 byte Nếu trường này
có giá trị là 4D4Dh thì đó là ảnh cho máy Macintosh, nếu
✓ Phần thứ 2(IFD): Không ở ngay sau cấu trúc IFH mà vị trí được xác định bởi trường Offset trong đầu tệp Có thể có một hay nhiều IFD cùng tồn tại trong một File
Một IFD bao gồm:
• 2 byte: Chứa các DE ( Directory Entry)
• 12 byte là các DE xếp liên tiếp, mỗi DE chiếm 12 byte
• 4 byte: Chứa Offset trỏ tới IFD tiếp theo Nếu đây là IFD cuối cùng thì trường này có giá trị 0
✓ Phần thứ 3: Các DE: Các DE có dộ dài cố định gồm 12 byte và chia làm 4 phần:
• 2 byte: Chỉ ra dấu hiệu mà tệp ảnh đó được xây dựng
• 2 byte: Kiểu dữ liệu của tham số ảnh Có 5 kiểu tham số
cơ bản:
1: BYTE (1 byte) 2: ASCII (1 byte) 3: SHORT (2 byte)
4: LONG (4 byte) 5: RATIONAL (8 byte)
• 4 byte: Trường độ dài chưa số lượng chỉ mục của kiểu dữ liệu đó chỉ ra Nó không phải là tổng số byte cần thiết để
Trang 32lưu trữ Để có số liệu này ta cần nhân số chỉ mục với kiểu
dữ liệu đã dùng
• 4 byte: Đó là Offset tới điểm bắt đầu dữ liệu liên quan tới dấu hiệu, tức là liên quan với DE không phải lưu trữ vật
lý cùng với nó nằm ở một vị trí nào đó trong file
Dữ liệu chứa trong tệp thường được tổ chức thành các nhóm dòng (cột) quét của dữ liệu ảnh Cách tổ chức này làm giảm bộ nhớ cần thiết cho việc đọc tệp Việc giải nén được thực hiện theo 4 kiểu khác nhau được lưu trữ trong byte dấu hiệu nén
về cấp xám Ví dụ: Đối với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có ít nhất một điểm trắng bên cạnh Tập hợp các điểm biên tạo nên biên hay đường bao của đối tượng Xuất phát từ cơ sở này người ta thường sử dụng hai phương pháp phát hiện biên cơ bản:
✓ Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây
là dựa vào sự biến đổi cấp xám theo hướng Cách tiếp cận theo đạo hàm bậc nhất của ảnh dựa trên kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh dựa trên biến đổi gia ta có kỹ thuật Laplace
✓ Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh thành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật dò biên và phân vùng ảnh là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phân lớp đối tượng mà khi đã phân lớp xong nghĩa là đã phân vùng được ảnh
và ngược lại, khi đã phân vùng ảnh đã được phân lớp thành các đối tượng,
do đó có thể phát hiện được biên
Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự biến thiên độ sáng không đột ngột, phương pháp tỏ ra kém hiệu quả, phương pháp phát hiện biên gián tiếp tuy khó cài đặt, song lại áp dụng khá tốt trong trường hợp này
Trang 33Hình 1 8 Tín hiệu đường biên ảnh 3
Các khái niệm và định nghĩa tóm tắt trên là cơ sở giúp ta hiểu và dùng để hiểu cách xây dựng, thiết kế các kỹ thuật phát hiện biên ảnh
Chú ý: phát hiện biên là một phần trong phân tích ảnh, sau đó lọc ảnh Các bước phân tích ảnh có thể mô tả theo sơ đồ dưới đây Việc dò tìm biên ảnh là một trong các đặc trưng cần thiết trong kỹ thuật xử lý ảnh
1.8.1.2 Phân loại các kỹ thuật phát hiện biên
Hình 1.9 Các bước xử lý và phân tích ảnh
Trang 34Từ các định nghĩa toán học của biên người ta sử dụng hai phương pháp phát hiện biên được trình bày như sau:
a) Phương pháp phát hiện biên trực tiếp: Phương pháp này chủ yếu dựa vào sự biến thiên độ sáng của điểm ảnh để làm nổi biên bằng kỹ thuật đạo hàm
✓ Nếu lấy đạo hàm bậc nhất của ảnh: Ta có phương pháp Gradient
✓ Nếu lấy đạo hàm bậc hai của ảnh: Ta có phương pháp Laplace
Hai phương pháp này gọi chung là phương pháp dò tìm biên cục bộ
Ngoài ra người ta còn sử dụng phương pháp “đi theo đường biên” dựa vào công cụ toán học là nguyên lý quy hoạch động và được gọi là phương pháp dò biên tổng thể Phương pháp dò biên tực tiếp có hiệu quả và ít bị tác động của nhiễu
b) Phương pháp phát hiện biên gián tiếp:
Nếu sử dụng bằng phương pháp nào đấy, chúng ta thu được các vùng ảnh khác nhau thì đường phân cách giữa các vùng đó chính là biên Nói cách khác, việc xác định đường biên của ảnh được thực hiện từ ảnh đã được phân vùng Phương pháp
dò biên gián tiếp khó được cài đặt nhưng áp dụng tốt khi sự biến thiên độ sáng nhỏ
1.8.1.3 Quá trình phát hiện biên
Quá trình phát hiện biên của ảnh được chia làm 4 bước:
Bước 1: Do ảnh ghi được thường có nhiễu, cần phải lọc nhiễu
Bước 2: Làm nổi biên sử dụng các toán tử phát hiện biên
Bước 3: Định vị biên
Bước 4: Liên kết và trích chọn biên
1.8.2 Phương pháp phát hiện biên trực tiếp
Tương tự như các phép toán làm trơn ảnh, khả năng lấy đạo hoàm theo tọa độ các điểm là hết sức quan trọng Bài toán cơ bản ở đây là nếu chiếu theo đúng định nghĩa toán học về đạo hàm thì chúng ta không thể thực hiện được việc lấy đạo hàm các điểm ảnh, do một ảnh số hóa không phải là một hàm liên tục a[x,y] theo các biến tọa độ mà chỉ là một hàm rời rạc a[m,n] với các biến tọa độ nguyên Vì lý do đó, những thuật toán ma chúng ta trình bày ở đây chỉ có thể được xem là các xấp xỉ cho đạo hàm thật sự theo tọa độ của ảnh liên tục ban đầu
Trang 35Hình 1.10 Phát hiện biên trực tiếp 3
Gradient trong tọa độ góc (r,𝜃), 𝑣ớ𝑖 𝑟 𝑙à 𝑣𝑒𝑐𝑡𝑜, 𝜃 𝑔ó𝑐
𝑑𝑟 = 𝑓′𝑥cos 𝜃 + 𝑓′𝑦sin 𝜃 (2.3)
Trang 36Theo định nghĩa về Gradient nếu chúng ta áp dụng nó vào xử lý ảnh, việc tính toán sẽ rất phức tạp Để đơn giản mà không mất đi tính chất của phương pháp Gradient, người ta sử dụng kỹ thuật Gradient dùng cặp mặt nạ H1, H2 trực giao Nếu định nghĩa g1, g2 là Gradient theo hai hướng x,y tương ứng thì biên độ g(m,n) tại điểm (m,n) được tính như (2.4):
𝑔(𝑚, 𝑛) = √𝑔12(𝑚, 𝑛) + 𝑔22(𝑚, 𝑛) =𝐴0 (2.4)
1.8.2.2 Kỹ thuật Laplace
Để có thể thực hiện khắc phục hạn chế và nhược điểm của phương pháp Gradient, trong đó sử dụng dạo hàm riêng bậc nhất người ta sử dụng đạo hàm riêng bậc hai hay toán tử Laplace Phương pháp dò biên theo toán tử Laplace hiệu quả hơn phương pháp toán tử Laplace trong trường hợp mức xám biến đổi chậm, miền chuyển đổi mức xám có độ trải rộng
Toán tử Laplace được định nghĩa như công thức (2.5):
∇2=𝜕2𝑓
𝜕𝑥2
𝜕2𝑓
𝜕𝑦2 (2.5)
Kỹ thuật theo toán tử Laplace tạo đường biên ảnh Nhược điểm của kỹ thuật này
là rất nhạy với nhiễu, do vậy đường biên thu được thường ổn định
Trang 37✓ Tiếp cận theo mô hình mặt
✓ Tiếp cận tối ưu hóa
Cách tiếp cận theo mô hình dựa vào việc thực hiện xấp xỉ đa thức trên ảnh gốc hay ảnh đã thực hiện phép lọc Laplace
Cách tiếp cận tối ưu nhằm xác định một hàm, làm giảm phương sai hoặc giảm một điểm cực trị
1.9 Phân vùng (đoạn) ảnh
1.9.1 Giới thiệu
Để phân tích các đối tượng trong ảnh, chúng ta cần phải phân biệt được các đối tượng cần quan tâm với phần còn lại của ảnh Những đối tượng này có thể tìm ra được nhờ các kỹ thuật phân đoạn ảnh, theo nghĩa tách phần tiền cảnh ra khỏi hậu cảnh trong ảnh Chúng ta cần phải hiểu được là: - Không có kỹ thuật phân đoạn nào
là vạn năng, theo nghĩa có thể áp dụng cho mọi loại ảnh - Không có kỹ thuật phân đoạn nào là hoàn hảo Có thể hiểu phân vùng là tiến trình chia ảnh thành nhiều vùng, mỗi vùng chứa một đối tượng hay nhóm đối tượng cùng kiểu Chẳng hạn, một đối tượng có thể là một kí tự trên một trang văn bản hoặc một đoạn thẳng trong một bản
vẽ kỹ thuật hoặc một nhóm các đối tượng có thể biểu diễn một từ hay hay đoạn thẳng tiếp xúc nhau Ta có một số phương pháp phân vùng ảnh như sau:
1.9.2 Thuật toán gán nhãn thành phần liên thông
Kỹ thuật này gán cho mỗi thành phần liên thông của ảnh nhị phân một nhãn riêng biệt Nhãn thường là các số tự nhiên bắt đầu từ một đến tổng số các thành phần liên thông có trong ảnh Giải thuật quét ảnh từ trái sang phải và từ trên xuống dưới Trong dòng thứ nhất của các Pixel đen, một nhãn duy nhất được gán cho mỗi đường chạy liên tục của Pixel đen Với mỗi Pixel đen của các dòng tiếp theo, các Pixel lân cận trên dòng trước và Pixel bên trái được xem xét Nếu bất kỳ Pixel lân cận nào được gán nhãn, nhãn tương tự được gán cho Pixel đen hiện thời; ngược lại nhãn tiếp theo chưa được sử dụng được chọn Thủ tục này được tiếp tục cho tới dòng cuối của ảnh
Lúc kết thúc tiến trình này, một thành phần liên thông có thể chứa các Pixel
có các nhãn khác nhau vì khi chúng ta xem xét lân cận của Pixel đen, chẳng hạn Pixel
“?” trong hình vẽ Pixel đối với lân cận trái và những lân cận trong dòng trước có thể
Trang 38được gán nhãn một cách riêng biệt Một tình huống như vậy phải được xác định và ghi lại Sau tiến trình quét ảnh, việc gán nhãn được hoàn tất bằng cách thống nhất các mâu thuẫn các nhãn và gán lại các nhãn chưa sử dụng
Để minh hoạ ta có hình biểu diễn sau :
1.9.3 Phân vùng theo ảnh đồng nhất
Kỹ thuật thực hiện phân vùng ảnh thành có miền đồng nhất dựa vào các tính chất quan trọng nào đó của miền ảnh Việc lựa chọn các tính chất của miền sẽ xác định tiêu chuẩn vùng để áp dụng Tính đồng nhất của một miền ảnh là điểm chủ yếu, quan trọng xác định tính hiệu quả của việc phân vùng Các tiêu chẩn hay được dùng
là sự thuần nhất về mức xám, màu sắc đối với ảnh màu, kết cấu sợ và chuyển động Các phương pháp phân vùng ảnh theo miền đồng nhất thường áp dụng là:
✓ Phương pháp tách cây tứ phân
✓ Phương pháp cục bộ
✓ Phương pháp tổng hợp
1.9.3.1 Phân vùng bằng tách cây tứ phân
Về tính nguyên tắc, phương pháp này kiểm tra tính hợp thức của tiêu chuẩn một
Trang 39cách tổng thể trên miền lớn của ảnh Nếu tiêu chuẩn được thỏa, việc phân đoạn coi như kết thúc Trong trường hợp ngược lại, ta chia miền đang xét thành 4 miền nhỏ hơn Với mỗi miền nhỏ, ta áp dụng một cách đệ quy phương pháp trên cho đến khi tất cả các miền đều thỏa Thuật toán này tạo nên một cây mà mỗi nút cha có 4 nút con
ở mọi mức trừ mức ngoài cùng Vì thế cây này có tên là cây tứ phân Cây này cho ta hình ảnh rõ nét về cấu trúc phân cấp của các vùng tương ứng với tiêu chuẩn
Một vùng thỏa chuẩn sẽ tạo nên một nút lá, nếu không nó sẽ tạo nên một nút trong và có 4 nút con tương ứng với việc chia làm 4 vùng Ta cứ tiếp tục như vậy cho đến khi phân xong Các nút của cây biểu diễn số vùng đã phân Tiêu chuẩn phân vùng
ở đây là màu sắc Nếu mọi điểm của vùng đều là màu trắng thì sẽ tạo nên nút lá trắng
và tương tự như vậy với nút lá đen Nút màu ghi vùng không thuần nhất và phải tiếp tục chia Với ngưỡng θ cho trước, vùng thuần nhất phải thỏa điều kiện
✓ Độ lệch chuẩn σ < θ
✓ Hoặc |Max – Min| < θ với Max, Min lần lượt là giá trị lớn nhất và nhỏ nhất của mức xám trong vùng cần chia
✓ Giá trị điểm ảnh trong vùng bằng cách lấy trung bình giá trị của vùng đó
1.9.3.2 Phương pháp cục bộ
Một ý tưởng của việc thực hiện phương pháp này là xét ảnh từ các miền nhỏ nhất rồi nối chúng lại nếu thỏa mãn tiêu chuẩn để được miền đồng nhất hơn Tiếp tục thực hiện với các miền thu được cho đến khi không thể nói thêm vào được nữa Số miền còn lại cho ta kết quả phân đoạn của quá trình thực hiện
Trang 40Phương pháp này được thực hiện hoàn toàn ngược với phương pháp tách Còn điều quan trọng ở đây là nguyên lý nối 2 vùng với nhau Việc nối 2 vùng thực hiện theo nguyên tắc sau:
✓ Hai vùng đáp ứng tiêu chuẩn
✓ Hai vùng phải kề cận nhau
Khái niệm về kề cận: Trong quá trình xử lý ảnh ,người ta dùng khái niệm liên thông để xác định tính chất kề cận Có hai khái niệm về liên thông là 4 liên thông và
8 liên thông Với 4 liên thông điểm ảnh I(x,y) sẽ có 4 kề cận theo 2 hướng x và y trong khi đó 8 liên thông điểm I(X,Y) sẽ có 4 liên thông 2 hướng x,y và 4 liên thông khác hướng chéo 45 độ
Dựa theo nguyên lý của phương pháp nối, ta có 2 thuật toán:
Thuật toán tô màu (Blob Coloring): sử dụng khái niệm 4 liên thông, dùng một của sổ chuyển trên ảnh để so sánh với tiêu chuẩn nối
Thuật toán đệ quy cực bộ: sử dụng phương pháp tìm kiếm trong một cây để làm tăng kích thước vùng
1.9.3.3 Phương pháp tổng hợp
Hai phương pháp nối và tách đều có bộc lộ nhược điểm Phương pháp tách sẽ tạo nên một cấu trúc phân cấp và thiết lập mối qua hệ giữa các vùng Tuy nhiên, nó lại thực hiện việc chia quá chi tiết, phương pháp tổng hợp cho phép thực hiện làm giảm
số miền liên thông xuống mức tối thiểu, nhưng cấu trúc hàng ngang dàn trải, không cho ta thấy rõ mối liên hệ giữa các miền với nhau
Hình 1.14 Khái niệm 4 liên thông và 8 liên thông 3
thông