Nhận dạng biển số xe dùng mạng neuron là một trong lĩnh vực nhận dạng ảnh với mục đích tự động hóa trong quá trình thu nhận thông tin dạng chữ. Cách thu nhận thông tin này mang nhiều ý nghĩa thực tiễn, có thể ứng dụng chương trình nhận dạng biển số xe này trong trạm thu phí, trong bãi giữ xe đô thị chưng cư,...
Trang 1MỤC LỤC
CHƯƠNG1: MỞ ĐẦU
1.1 Đặt vấn đề 2
1.2 Khả năng ứng dụng trên thế giới và trong nước 3
1.3 Lợi ích của hệ thống nhận dạng biển số xe 3
1.4 Mục tiêu của đề tài, Phương pháp thực hiện .4
1.5 Cấu trúc luận văn 5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ ẢNH SỐ 2.1 Biểu diễn hệ thống ảnh 8
2.2 Hệ thống ảnh tuyến tính 9
2.3 Hệ thống ảnh phi tuyến .10
2.4 Khái niệm ảnh số .12
2.4.1 Khái niệm về phần tử ảnh .12
2.4.2 Aûnh xám .13
2.4.3 Ảnh trắng đen hay ảnh nhị phân 13
2.4.4 Ảnh màu và mô hình màu RGB 13
2.5 Cơ sở lý thuyết về quá trình thu nhận ảnh 14
2.5.1 Các thiết bị thu nhận ảnh 14
2.5.2 Lấy mẫu và lượng tử hóa ảnh 16
2.5.3 Mã hóa ảnh 17
2.5.4 Các định dạng ảnh 17
CHƯƠNG 3: CÁC GIAI ĐOẠN ĐOẠN XỬ LÝ ẢNH 3.1 Thu nhận ảnh 25
3.2 Tiền xử lý ảnh .25
3.2.1 Chuyển đổi ảnh xám thành ảnh màu 27
Trang 23.2.2 Cân bằng histogram 27
3.2.3 Tăng cường độ tương phản 29
3.2.4 Kỹ thuật làm trơn nhiễu – lọc nhiễu 31
3.3 Trích ảnh chứa vùng biển số xe 33
3.3.1 Biên của ảnh 34
3.3.2 Làm nổi biên 34
3.3.3 Kỹ thuật tách biên 34
3.3.4 Các phép toán Morphology 39
3.3.5 Biến đổi Radon 40
3.3.5.1 Khái niệm 40
3.3.5.2 Ứùng dụng trong xử lý ảnh số 41
3.3.5.3 Các bước cụ thể thực hiện phát hiện các đường thẳng trên ảnh bằng biến đổi Radon 43
3.4 Phân đoạn ảnh 46
Phân đoạn dựa trên ngưỡng 47
CHƯƠNG 4: NHẬN DẠNG VÀ MẠNG NEURAL TRONG NHẬN DẠNG 4.1 Nhận dạng 51
4.1.1 Một số khái niệm 51
4.1.1.1 Mẫu và mô tả mẫu 51
4.1.1.2 Không gian mẫu và không gian diễn dịch 52
4.1.1.3 Lớp mẫu và phân lớp mẫu 52
4.1.1.4 Khoảng cách mẫu và hàm phân biệt 52
4.1.1.5 Nhận dạng giám sát và không giám sát 53
4.1.2 Phương pháp số nhận dạng 54
4.1.3 Phương pháp nhận dạng theo cấu trúc 56
Trang 34.1.3.1 Phương pháp sử dụng mẫu tượng trưng 56
4.1.3.2 Phương pháp phân tích cú pháp 57
4.2 Mạng Neural 4.2.1 Bộ não con người và Nơron sinh học 57
4.2.2 Khả năng làm việc của bộ não người và máy tính 59
4.2.3 Mơ hình Nơron nhân tạo 60
4.2.4 Mạng Nơron nhân tạo (artificial nơron networks) .64
4.2.5 Ghép nối mạng Nơron 66
4.2.6 Huấn luyện mạng Nơron 67
4.3 Các loại mạng Nơron nhân tạo 68
4.3.1 Mạng Perceptron một lớp 68
4.3.2 Mạng Perceptron đa lớp 73
4.3.3 Mạng kết hợp tuyến tính 82
4.3.4 Mạng Kohonen 85
Chương 5: THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG VÀ KẾT QUẢ THỰC HIỆN 5.1 Ý tưởng thiết kế 90
5.2 Các lưu đồ giải thuật 91
5.2.1 Giải thuật trích biển số xe 92
5.2.2 Giải thuật tách ký (phân đoạn) 97
5.2.3 Giải thuật nhận dạng dùng mạng neural 102
5.3 Kết quả minh họa 103
5.3.1 Biển số dài 103
5.3.1.1 Kết quả minh họa trích biển số xe 103
Trang 45.3.1.2 Kết quả phân tách thành từng ký tự 106
5.3.2 Biển số vuông 107
5.3.2.1 Kết quả minh họa trích biển số xe 107
5.3.2.2 Kết quả phân tách thành từng ký tự 110
5.4 Mô hình .111
CHƯƠNG 6: KẾT LUẬN 6.1 Kết luận 113
6.2 Hạn chế của đề tài 113
6.3 Hướng phát triển 114
Tài liệu tham khảo
Trang 5LIỆT KÊ CÁC HÌNH
Trang
Hình 2.1 Biểu diển hệ thống ảnh 8
Hình 2.2 hệ thống ảnh phi tuyến 10
Hình 2.3 Ma trận ảnh số 12
Hình 2.4 Mô hình màu RGB 14
Hình 2.5 Lấy mẫu và lượng tử hĩa 16
Hình 3.1 Sơ đồ các bước tiền xử lý 26
Hình 3.2 Minh họa công thức chuyển đổi ảnh xám 27
Hình 3.3 Lược đồ histogram của các loại ảnh khác nhau 28
Hình 3.4 Sơ đồ khối cho giải thuật cân bằng Histogram 29
Hình 3.5 Biểu diễn các hàm dãn rộng độ tương phản 30
Hình 3.6 Hướng biên 36
Hình 3.7 Ý nghĩa của Đạo hàm trong dò biên 36
Hình 3.8 Minh họa phép toán Erode 40
Hình 3.9 Minh họa phép toán dilate 40
Hình 3.10 Mô tả biển đổi Radon 41
Hình 3.11 Hình chiếu theo một góc cho trước trong biển đổi Radon 42
Hình 3.12 Phép biến đổi Radon dưới dạng hình học 42
Hình 3.13 Chuyển đổi ảnh mức xám sang nhị phân 43
Hình 3.14 Hình thể hiện miền Radon 43
Hình 3.15 Hình thể hiện sự phát hiện các đường thẳng trong biến đổi Radon 44
Hình 3.16 Trường hợp các đường thẳng lệch về phía dưới 45
Hình 3.17 Trường hợp đường thẳng lệch về phía trên 45
Hình 3.18 Minh họa phương pháp phân đoạn trên ngưỡng 47
Trang 6Hình 3.19 Minh họa việc phân ngưỡng với nhiều mức ngưỡng 48
Hình 4.1 Nguyên lý phân mẫu được giám sát 55
Hình 4.2 Phân lớp bằng các nguyên mẫu tượng trưng 57
Hình 4.3 Minh họa neural với một ngõ vào 60
Hình 4.4 Nơron với một ngõ vào là một vecto 61
Hình 4.5 Đồ thị hàm bước 62
Hình 4.6 Đồ thị hàm tuyến tính 62
Hình 4.7 Đồ thị hàm dấu 63
Hình 4.8 Đồ thị hàm dốc 63
Hình 4.9 Đồ thị hàm sigmoid đơn cực 63
Hình 4.10 Đồ thị hàm sigmoid lưỡng cực 64
Hình 4.11 Mô hình Nơron của McCulloch và Pitts 65
Hình 4.12 Minh họa một lớp Nơron 66
Hình 4.13 Minh họa mạng Nơron nhiều lớp 67
Hình 4.14 Minh họa việc học có giám sát 68
Hình 4.15 Mô hình mạng Perceptron một lớp 69
Hình 4.16 Biên quyết định trong không gian mẫu 70
Hình 4.17 Không gian mẫu khả tách tuyến tính 72
Hình 4.18 Không gian mẫu không khả tách tuyến tính 72
Hình 4.19 Phân tích không gian mẫu với mạng Perceptron hai Nơron lớp ra 73
Hình 4.20 Mạng Perceptron đa lớp (MLP) 74
Hình 4.21 Phân lớp mẫu với mạng MLP ba lớp 82
Hình 4.22 Kiến trúc mạng tuyến tính 83
Hình 4.23 Quan hệ lân cận trong lớp Kohonen 85
Hình 4.24 Kiến trúc mạng Kohonen 86
Hình 4.25 Mã hóa vectơ đầu vào với mạng SOFM 88
Trang 7Chương 1
MỞ ĐẦU
Trang 8Chương 1: Mở Đầu
Trong chương này tác giả đặt vấn đề về sự cần thiết đối với hệ thống nhận dạng biển số xe Ngày nay, chương trình nhận dạng này đã được ứng dụng trên thế giới và trong nước như thế nào? Lợi ích của hệ thống nhận dạng Mục tiêu của đề tài và phương pháp thực hiện và giới thiệu tổng quát về tổ chức của Luận văn
1.1 Đặt vấn đề:
- Mong muốn của các nhà kỹ thuật hiện nay là làm thế nào để tạo ra những máy móc có khả năng nhận thức của con người như khả năng nghe hiểu hay nhìn nhận các vật thể xung quanh Và mục tiêu này là một yêu cầu quan trọng trong lĩnh vực chế tạo người máy (Robot) Ngày nay sự bùng nổ của công nghiệp máy tính cùng với sự phát triển cơ sở lý thuyết trong lĩnh vực thông tin đã là nhân tố quan trọng để giúp chúng ta đi tới mục tiêu “người máy hóa”
- Chúng ta biết rằng con người nhận thức thế giới xung quanh bằng các giác quan và năng lực tư duy, còn quá trình xử lý thông tin là quá trình tư duy dựa trên cơ chế hoạt động của bộ não, đây là quá trình rất phức tạp Có lẻ còn lâu máy móc mới đạt đến khả năng tư duy của con người Nhưng trong sự nổ lực của các nhà khoa học, kỹ thuật đã phân tích mảng thông tin ra từng phần nhất định và thực hiện xử lý riêng trong khuôn khổ phân định đó Chính sự xử lý riêng biệt này đã tạo ra thành công nhất định trong việc chế tạo ra các hệ thống kỹ thuật có năng lực tư duy của con người Mạng neural chính là một trong những nổ lực nghiên cứu của các nhà khoa học
- Nhận dạng biển số xe dùng mạng neural là một trong vấn đề nằm trong lĩnh vực nhận dạng ảnh với mục đích tự động hóa trong quá trình thu nhận thông tin dạng chữ Cách thu nhận thông tin này mang nhiều ý nghĩa thực tiễn,
Trang 9có thể ứng dụng chương trình nhận dạng biển số xe này trong trạm thu phí, trong bãi giữ xe ở siêu thị, chung cư, phát hiện biển số xe vi phạm … Đặc biệt trong tình hình giao thông Việt Nam hiện nay, lưu lượng xe ngày càng tăng, hệ thống đường bộ không ngừng được nâng cấp và phát triển thì yêu cầu đặt ra là việc thu phí ở các trạm phải được hiện đại hóa sao cho mang lại hiệu quả kinh tế Vì vậy, nhận dạng biển số xe là giải pháp cần thiết trong tình hình hiện tại và sẽ không ngừng hoàn thiện trong tương lai
1.2 Khả năng ứng dụng trên thế giới và trong nước
Nhận dạng biển số xe đã được áp dụng rộng rãi ở các nước phát triển và đang được triển khai ngày càng nhiều ở các nước khác Nhận dạng biển số xe không chỉ ứng dụng ở trạm thu phí mà còn áp dụng trong nhiều mục đích khác như bãi giữ xe tự động, việc tăng an ninh, kiểm soát việc lưu thông các phương tiện, ngoài ra còn kết hợp với radar phát hiện biển số xe của chủ xe chạy vượt quá tốc độ…
Kinh nghiệm thực tế các nước cho thấy ứng dụng này mang lại hiệu quả kinh tế và an ninh đáng kể
Nhận dạng biển số xe ở Việt Nam tương đối mới Mặc dù trong những năm gần đây, nước ta có những đề xuất đưa công nghệ này vào thực tế cuộc sống, song vẫn chưa triển khai Vì vậy, ứng dụng nhận diện biển số xe là cần thiết
1.3 Lợi ích của hệ thống nhận dạng:
- Hệ thống nhận dạng biển số xe được ứng dụng trong trạm thu phí, trong bãi giữ xe tự động, trong hệ thống tự động ghi biển số xe, việc tăng an ninh … Tất cả hệ thống này đều mang lại những lợi ích như:
Giảm nhân công lao động
Trang 10 Tiết kiệm thời gian
Giảm tình trạng kẹt xe
Thu ngân sách nhà nước
Chống tiêu cực
Tạo mỹ quan, nét văn minh hiện đại
1.4 Mục tiêu của đề tài và phương pháp thực hiện
Luận văn này nghiên cứu lý thuyết về xử lý ảnh, về mạng neural, và đưa
ra các giải pháp thực hiện các thuật toán trích vùng chứa biển số xe, tách ký tự và nhận dạng ký tự Trong đề tài này không chỉ dừng lại ở phần nghiên cứu lý thuyết mà còn mô phỏng thông qua mô hình Vì vậy, đề tài này thực hiện với các điều kiện sau:
Dùng camera (webcam) để thu nhận ảnh Aûnh thu được là ảnh màu
Khoảng cách giữa biển số và camera gần như không đổi
Góc nghiêng của biển số nhỏ 0-30 độ, do sự cân chỉnh không chuẩn
Biển số xe ôtô, xe máy hiện không còn thu phí Biển số thông thường, hình chữ nhật, hình vuông, nền trắng chữ số đen
Biển số không quá bẩn, mắt người còn nhận ra dễ dàng
Mục tiêu đặt ra:
Giải thuật gọn gàng, có tư duy logic nhằm đạt độ chính xác tuyệt đối trong điều kiện bình thường nhiễu không quá phức tạp
Từng bước hướng tới đáp ứng thời gian thực
Phương pháp thực hiện:
Tìm hiểu về ảnh số và các phương pháp xử lí ảnh
Tìm hiểu về neural tự nhiên và mạng neural nhân tạo
Xây dựng mô hình đơn giản giao tiếp qua cổng COM để mô phỏng quá trình nhận dạng tự động
Trang 11 Phân tích ảnh và nhận dạng biển số xe bằng ngôn ngữ lập trình Matlab
Lưu các dữ liệu nhận dạng vào cơ sở dữ liệu
1.5 Cấu trúc luận văn
Với mục tiêu và phương pháp thực hiên của đề tài :
“Nhận dạng biển số xe dùng mạng neural”
Luận văn chia làm 7 chương với nội dung cụ thể sau:
Chương 1: Mở đầu: đặt vấn đề lý do chọn đề tài, khả năng ứng dụng của đề tài trên thế giới, lợi ích của hệ thống, mục tiêu đề tài, phương pháp thực hiện
Chương 2: Cơ sở lý thuyết về xử lý ảnh: giới thiệu về hệ thống ảnh, các khái niệm về ảnh số, cơ sở lý thuyết về quá trình thu nhận ảnh…
Chương 3: Các giai đoạn xử lý ảnh: nêu các cơng đoạn, phương pháp cần thiết để thực hiện các bước tiền xử lý ảnh như tăng độ tương phản, lọc nhiễu, làm nổi biên, phân đoạn ảnh, các phương pháp và các phép tốn để trích vùng biển số xe, phân tách ký tự trong biển số xe…
Chương 4: Nhận dạng và mạng neural trong nhận dạng: giới thiệu
về phương pháp nhận dạng Giới thiệu về mạng neural, trình bày về cấu trúc và luật học của một số mạng neural và ứng dụng của mạng đĩ trong nhận dạng ảnh
Chương 5: Thiết kế chương trình nhận dạng và kết quả thực hiện: Thiết kế chương trình nhận dạng, đưa ra các lưu đồ giải thuật, tạo giao diện chương trình, kết quả thực hiện, mơ hình
Chương 6: Kết luận: kết luận ý nghĩa của đề tài và nêu ra hướng mở rộng của Luận văn
Trang 12CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
VỀ ẢNH SỐ
Trang 13Tổng quan về xử lý ảnh
- Khi quan sát một bức ảnh, ngoài việc cảm nhận về kích thước và màu sắc của bức ảnh thì người quan sát còn có thể tìm thấy các thông tin cần thiết qua các bức ảnh đó Ảnh của một đối tượng đóng vai trò quan trọng trong lĩnh vực trao đổi thông tin nhất định Để nhận ra những thông tin chứa trong ảnh người ta có một quá trình xử lý ảnh
- Trong những năm gần đây, kỹ thuật xử lý ảnh ngày càng sử dụng phổ biến trong các hệ thống tự động hóa Các hệ thống này ngày càng thông minh hơn, không chỉ dừng lại ở việc xử lý ảnh để nâng cao chất lượng ảnh, lưu trữ ảnh hay phân tích kết cấu của ảnh mà còn tự động nhận dạng các đối tượng trong ảnh để có thể rút ra những thông tin chứa trong ảnh Chẳng hạn, trong lĩnh vực thám không, các hình ảnh được chụp từ trên không trung (bằng máy bay, vệ tinh ) nhờ hệ thống xử lý ảnh động để có thể xác định một thông tin về một vùng nào đó dưới mặt đất hay một hiện tượng tự nhiên đang diễn ra nhằm dự báo các hiện tượng tương tự xảy ra trong tương lai Hay trong lĩnh vực y học cũng sử dụng kỹ thuật xử lý ảnh chụp cắt lớp cơ thể người, ảnh chụp siêu âm, ảnh chụp tế bào, nhiễm sắc thể để nhận dạng và chuẩn đoán bệnh Hay trong lĩnh vực xử lý đo lường cũng cần phải xử lý ảnh chụp các quá trình để nhận dạng, đo lường như đo các mực nước ở các đập nước đo liều lượng, đo tốc độ dòng chảy, năng lượng của các hạt nhân nguyên tử
- Có nhiều phương pháp xử lý ảnh khác nhau, nhưng ngày nay lĩnh vực xử lý ảnh số ngày càng phát triển và được sử dụng nhiều do sự tiện lợi của nó Với ảnh số thông tin của ảnh có thể được truyền đi nhanh chóng, chính xác, việc xử lý lại đơn giản hơn nhờ vào sự giúp đỡ của các máy tính số
- Các ảnh sau khi thu nhận (chụp ảnh) sẽ được chuyển về ảnh số, sau đó sẽ trải qua quá trình tiền xử lý ảnh nhằm nâng cao chất lượng ảnh: làm đẹp
Trang 14ảnh, rõ nét giảm nhiễu, sau đó được đưa qua quá trình phân đoạn, trích đặc
trưng, rút ra số liệu cần thiết để từ đó hệ thống có thể nhận dạng
Trong đề tài này, quá trình xử lý ảnh nhằm trích vùng chứa biển số xe,
phân đoạn thành những ký tự riêng biệt, trích đặc trưng của ký tự, rồi đưa những
đặc trưng này vào mạng nơron so sánh với tập dữ liệu đã được huấn luyện trước
để có thể nhận dạng được từng ký tự của biển số xe
2.1 Biểu diễn hệ thống ảnh: Một hệ thống ảnh có thể biểu diễn như sau:
Với H : hệ thống ảnh tuyến tính
f(i,j) : vật thể
g(x,y): Aûnh
Vật thể (đối tượng ) nằm trong mặt phẳng (i, j) được mô tả bằng một hàm
2 biến (hình ảnh 2 chiều ), f(i, j) là độ chói của vật tại (i,j) Qua hệ thống tạo
ảnh ta có ảnh của vật (i, j) là g(x, y) nằm trong mặt phẳng ảnh, g(x, y) gọi là
hàm chói của ảnh Đối tượng được chiếu sáng bằng một hàm nào đó, được
truyền qua hệ thống tạo ảnh Kết quả là ảnh của vật được tạo
Trên mặt phẳng (x, y) hệ thống tạo ra điểm ảnh (x, y) bằng năng lượng
phát ra từ vật thể Hệ thống ảnh nhận các thành phần năng lượng bức xạ từ điểm
H
j
j
i
i
f(i,j )
y
y
x
x g(x, y)
Hình 2.1: Biểu diễn hệ thống ảnh
Trang 15(i, j) và từ các điểm ảnh lân cận Nếu lân cận được giới hạn thì gọi là quá trình tạo điểm ảnh Hệ thống tạo ảnh có thể là tuyến tính hoặc phi tuyến
2.2 Hệ thống ảnh tuyến tính
Ta giả thiết hệ thống ảnh h(x,y,i,j) là tuyến tính ( chỉ phụ thuộc sự dịch giữa các điểm ảnh được chọn và điểm ảnh lân cận Ta có thể biểu diễn như sau:
Với f(x,y) : Hàm biểu diễn vật thể
g(x,y) : Hàm biểu diễn ảnh
h(x,y,i,j): Hàm phân tán điểm PSF(point spread function)
Hoặc
g(x,y)=h(x,y)*f(x,y) (2.3)Đó là quá trình tạo ảnh bằng hệ thống tạo ảnh tuyến tính
Trong hệ thống tạo ảnh tuyến tính, hàm h(x,y,i,j) phụ thuộc vào các giá trị đầu vào f(i,j) Lượng ánh sáng bức xạ từ vật thể (không gian 3 chiều) phụ thuộc vào độ sâu và cấu trúc của vật thể điều đó ảnh hưởng đến việc tạo ảnh
Hàm phân tán điểm (chỉ xét 2 chiều)
h=h[x,y,i,j,f(i,j)] (2.4)
Trang 16Hàm biểu diễn ảnh
- Nếu h[x, y, i, j, f(i, j)] là hàm có tính Gauss, thì có thể đạo hàm theo
f(i,j) và phân tích h[x, y, i, j, f(i, j)] thành chuổi Taylor
- Nếu giới hạn đến 2 thành phần điều kiện của chuỗi Taylor thì ta thấy
rằng h[x, y, i, j, f(i, j)] là hàm tuyến tính
2.3 Hệ thống ảnh phi tuyến
Trong thực tế ta gặp nhiều hệ thống tạo ảnh phi tuyến (camera truyền
hình, ảnh quang tuyến, chụp ảnh,… ) Để biểu diễn ảnh số có nhiều phương pháp
như biểu diễn ma trận, biểu diễn vectơ, biểu diễn thống kê, biểu diễn thành 3
thành phần (phần biên, phần tần thấp, phần cấu trúc)
Với f(i, j, z): vật thể
H : Hệ thống tạo ảnh
G(x,y) : Aûnh
Trong xử lý đòøi hỏi phải xây dựng một hệ thống xử lý thích hợp Mô
hình của hệ thống xử lý có thể minh họa như sau:
H
Hình 2.2 Hệ thống ảnh phi tuyến
Trang 17 Bộ xử lý tương tự (analog processsor), bộ này thực hiện các chức năng sau:
Chọn camera thích hợp nếu hệ thống có nhiều camera
Chọn màn hình hiển tín hiệu
Thu nhận tín hiệu video thu nhận bởi bộ số hóa, thực hiện lấy mẫu và mã hóa
Tiền xử lý khi thu nhận ảnh
Bộ xử lý ảnh số : xử lý lọc, trích chọn đường bao, nhị phân hóa ảnh
Máy chủ: đóng vai trò điều khiển các thành phần miêu tả trên
Bộ nhớ ngoài: để có thể chuyển giao cho quá trình khác, nó cần lưu trữ
- Ảnh số có thể biểu diễn bởi ma trận I(nxm) như sau:
Màn hình đồ họa
Bộ xử lý tương tự
Màn hình
Bộ nhớ
ngoài
Máy in
Trang 18I =
Hình 2.3 Ma trận ảnh số
- Ảnh 2 chiều được biểu diễn bởi ma trận 2 chiều Mỗi số I(n, m) biểu diễn một giá trị mức xám (hay màu) của một điểm ảnh tương ứng Nếu số bít dùng để lưu giá trị mức xám (hay màu) của một điểm ảnh là 8 bit, thì số mức xám (hay màu) cho phép là 28 (hay 256) giá trị mức xám hay màu có thể Giá trị mức xám này thường gán giá trị nguyên dãy 0 đến 255, với 0 là biểu diễn cho mức cường độ tối ( màu đen) và 255 biểu diễn cho mức cường độ sáng nhất (màu trắng) Mỗi phần tử trong ma trận được gọi là phần tử ảnh (a picture element)
2.4 Khái niệm về ảnh số:
2.4.1 Phần tử ảnh:
- Ảnh trong thực tế liên tục về không gian và độ sáng, để ảnh có thể xử lý bằng máy tính ta cần thiết phải số hóa ảnh Quá trình này, người ta biến đổi tín hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc về
không gian) và lượng tử thành phần giá trị mà về mặt nguyên tắc bằng mắt
thường không phân biệt được hai điểm liền kề nhau Quá trình này người ta sử dụng khái niệm phần tử ảnh mà ta thường gọi là pixel, nó là phần tử nhỏ nhất của ảnh Như vậy, một ảnh là một tập hợp các pixel
- Một ảnh số là một mảng các điểm ảnh được số hóa và đưa vào bộ nhớ của máy tính Một số nhị phân chứa trong mỗi điểm ảnh thể hiện cường độ hay bước sóng ánh sáng trong ảnh
Trang 19- Độ phân giải của một ảnh là khu vực của mỗi điểm ảnh, thông thường nó là số điểm ảnh trên mỗi hàng của ảnh, nó là một hàm của khoảng cách từ camera đến khung nhìn, chiều dài hội tụ của thấu kính và số điểm ảnh mỗi hàng của ảnh Như màn hình máy tính có nhiều loại với độ phân giải khác nhau: màn hình CGA có độ phân giải 320x200, màn hình VGA là 640x350…
2.4.2 Ảnh xám :
- Với ảnh này, mỗi pixel được xác định bằng cặp tọa độ (x, y) Vậy toàn bộ ảnh là mảng 2 chiều mà giá trị của mỗi phần tử mảng chính là giá trị mức xám từ 0 đến 255
2.4.3 Ảnh trắng đen hay ảnh nhị phân :
- Aûnh trắng đen cũng tương tự như ảnh xám, chỉ khác ở chỗ ảnh trắng đen
chỉ có hai mức xám là 0 (trắng) và 1 (đen)
- Màu của một pixel được xây dựng trên nhiều mô hình: RGB, HSV
2.4.4 Ảnh màu và mô hình màu RGB :
Màu của một pixel được xây dựng trên nhiều mô hình: RGB, HSV
Ánh sáng trắng được hình thành từ bảy màu khác nhau: đỏ, cam, vàng, lục, lam, chàm, tím Các màu này tạo nên một dãy màu liên tục mà ta không thấy được ranh giới giữa chúng Nhưng xét về cấu tạo của mắt và việc nhìn thì tất cả các màu đều được liên kết bởi các màu cơ bản sau:
Red :(R) = 700nm
Green : (G) = 546.1 nm
Blue : (B) = 435.8 nm Trong mô hình RGB, mỗi màu xuất hiện trong các thành phần phổ sơ cấp
R, G và B Mô hình dựa trên cơ sở hệ thống tọa độ Cartesian(tọa độ decac)
Trang 20Hình 2.4 Mô hình màu RGB
Các màu R,G,B nằm ở đỉnh của khối lập phương Màu lam-lục, đỏ-lam, vàng nằm ở ba đỉnh bên kia của khối lập phương Màu đen nằm ở gốc tọa độ Màu trắng nằm ở đỉnh xa gốc tọa độ nhất Thang mức xám kéo dài từ đen đến trắng(dường nối gốc tọa độ và đỉnh màu trắng)
- Mỗi màu cơ bản được mã hóa bởi 8bit, vậy với ba màu phối hợp nhau tạo thành 255x255x255=16.581.375 màu thứ cấp mà mắt người có thể cảm nhận được Thường ta giả thiết là tất cả các giá trị màu được chuẩn hóa (khối hình lập phương là hình khối đơn vị) Tất cả các giá trị màu R, G, B nằm trong đoạn [0 1]
- Mô hình màu R,G,B bao gồm ba mặt phẳng độc lập (một mặt phẳng dùng cho một màu độc lập) Nếu đưa mô hình RGB vào monitor RGB thì ba màu này phối hợp nhau tạo thành ảnh màu hoàn chỉnh Vì vậy, để sử dụng mô hình RGB cho xử lý ảnh có ý nghĩa thì các ảnh phải được biểu diễn theo một mặt phẳng màu
2.5 Cơ sở lý thuyết về quá trình thu nhận ảnh
2.5.1 Các thiết bị thu nhận ảnh
Trang 21- Một hệ thống xử lý ảnh có thể trang bị kèm theo các hệ thống thông tin địa lý GIS (Geographical Information System) hay hệ MORPHO hoặc có thể là hệ thống máy tính cá nhân Các thiết bị thu ảnh thông thường gồm máy quay (camera) cộng với bộ chuyển đổi tương tự - số AD hoặc máy quét (scanner) chuyên dụng
- Các thiết bị thu nhận ảnh này có thể cho ảnh trắng đen B/W (Black & White) với mật độ từ 400 đến 1600 dpi (dot per inch) hoặc ảnh màu 600 dpi Với ảnh B/W mức màu z là 0 hoặc 1 Với ảnh đa cấp xám, mức xám biến thiên từ 0 đến 255 Với ảnh màu mỗi điểm ảnh lưu trữ trong ba bytes và do đó ta có 28x3 =
224 màu (cỡ 16,7 triệu màu)
- Khi dùng scanner, một dòng photodiot sẽ quét ngang ảnh (quét theo hàng) và cho ảnh với độ phân giải ngang khá tốt Đầu ra của scanner là ảnh ma trận số mà ta quen gọi là bản đồ ảnh (ảnh Bitmap) Bộ số hóa (digitalizer) sẽ tạo ảnh vectơ có hướng
- Trong xử lý ảnh bằng máy tính, ta không thể không nói đến thiết bị monitor (màn hình) để hiện ảnh Monitor có nhiều loại khác nhau:
CGA: 640 x 320 x 16 màu
EGA: 640 x 350 x 16 màu
VGA: 640 x 480 x 16 màu
SVGA: 1024 x 768 x 256 màu
- Với ảnh màu có nhiều cách tổ hợp màu khác nhau Theo lý thuyết màu
do Thomas đưa ra từ năm 1802, mọi màu đều có thể tổ hợp từ ba màu cơ bản: Red (đỏ), Green (lục), Blue (lơ)
- Thiết bị ra ảnh có thể là máy in đen trắng, máy in màu hay máy vẽ (ploter) Máy vẽ cũng có nhiều loại: loại dùng bút, loại phun mực
Nhìn chung, các hệ thống thu nhận ảnh thực hiện hai quá trình:
Trang 22- Cảm biến: biến đổi năng lượng quang học (ánh sáng) thành năng lượng điện
- Tổng hợp năng lượng điện thành ảnh
2.5.2 Lấy mẫu và lượng tử hóa ảnh
Hình 2.5 Lấy mẫu và lượng tử hĩa
- Yêu cầu cơ bản nhất trong xử lý ảnh bằng máy tính là đưa ảnh về dạng biểu diễn số thích hợp, nghĩa là ảnh phải được biểu diễn bằng một ma trận hữu hạn tương ứng với việc lấy mẫu ảnh trên một lưới rời rạc và mỗi pixel được lượng hĩa bởi một số hữu hạn bit Ảnh số được chuyển hĩa cĩ thể được xử lý hay chuyển qua bước biến đổi tương tự - số để tái hiện trên thiết bị hiện ảnh
- Phương pháp chung để lấy mẫu là quét ảnh theo hàng và mã hĩa từng hàng Về nguyên tắc, một đối tượng phim hay giấy trong suốt sẽ được chiếu sáng liên tục để tạo nên một ảnh điện tử trên tấm cảm quang Tùy theo các loại camera
mà tấm cảm quang này là chất quang dẫn hay quang truyền Hệ thống camera ống
sử dụng phương pháp scan-out-digitalizer; cịn hệ thống camera CCD (Charge Couped Device) cho ảnh ma trận Camera CCD thực sự là thiết bị mẫu hĩa tín hiệu hai chiều và gọi là phương pháp sefl scanning matrix
- Lượng tử hĩa ảnh là bước tiếp theo của việc lấy mẫu, nhằm thực hiện một ánh
xạ từ một biến liên tục u sang một biến rời rạc u* với các giá trị thuộc tập hữu hạn {r1,
r2, …, rL} Ánh xạ này thường là một hàm bậc thang tuân theo nguyên tắc sau:
Cho {tk, k = 1, 2, …, L+1} là một tập các bước dịch chuyển hay mức độ quyết định; t1 là giá trị nhỏ nhất và tL+1 là giá trị lớn nhất của u
tử hĩa
D A Ảnh vào
f1(x,y)
Hiển thị
Trang 23Cách đơn giản nhất là dùng lượng hĩa đều Theo phương pháp này, giả sử đầu ra của một bộ cảm biến ảnh nhận giá trị từ 0 đến 10 Nếu mẫu là lượng hĩa đều trên 256 mức thì bước dịch chuyển tk và mức xây dựng lại rk được tính bởi:
256
)1.(
- Chú ý: ánh xạ luợng hĩa này khơng thuận nghịch nghĩa là với một đầu ra
đã cho đầu vào là khơng duy nhất Vì vậy, người ta đã nghiên cứu bổ sung nhiều
kỹ thuật khác nhau để cực tiểu hĩa biến dạng, tăng hiệu quả Một kỹ thuật phổ dụng là trung bình bình phương cực tiểu (do Lloyd Max đề xuất)
2.5.3 Mã hĩa ảnh
- Sau bước số hĩa ảnh sẽ được lưu trữ hay chuyển sang giai đoạn phân tích Trước khi lưu trữ ảnh ta cần quan tâm xem ảnh được biểu diễn ra sao trong bộ nhớ máy tính Như ta đã biết cĩ rất nhiều mơ hình tốn học để biểu diễn một ảnh Nếu ta lưu trữ trực tiếp ảnh thơ theo kiểu bản đồ ảnh thì dung lượng sẽ lớn, tốn kém và nhiều khi khơng hiệu quả theo quan điểm ứng dụng Thơng thường người ta khơng biểu diễn tồn bộ ảnh thơ mà tập trung đặc tả các đặc trưng của ảnh như: Biên ảnh (Boundary) hay các vùng ảnh (Region Có ba phương pháp sau đây là thường được dùng nhất:
Biểu diễn theo mã độ dài chạy (Run Length Code)
Biểu diễn theo mã xích (Chaine Code)
Biểu diễn theo mã tứ phân (Quad Tree Code)
2.5.4 Các định dạng ảnh
- Ảnh thu được sau quá trình số hĩa cĩ nhiều loại khác nhau phụ thuộc vào
kỹ thuật số hĩa ảnh Ở các phần trên ta đã biết ảnh được chia làm hai loại: ảnh đen trắng và ảnh màu Ảnh thu nhận được cĩ thể lưu trữ trên tệp để tiện cho các bước
Trang 24xử lý tiếp theo Phần bên dưới sẽ trình bày một số kiểu định dạng ảnh thông dụng hay dùng trong kỹ thuật xử lý ảnh hiện nay
Bốn byte tiếp mô tả kích cỡ pixel
Hai byte tiếp mô tả số pixel trên một dòng ảnh
Hai byte cuối là số dòng ảnh trong ảnh
Ảnh IMG được nén theo từng dòng, mỗi dòng bao gồm các gói (pack) Các dòng giống nhau cũng được nén thành một gói Có bốn loại gói sau:
Loại 1: Gói các dòng giống nhau Quy cách gói tin này như sau: 0x00 0x00 0xFF Count Ba byte đầu cho biết số các dãy giống nhau, byte cuối cho biết số các dòng giống nhau
Loại 2: Gói các dãy giống nhau Quy cách gói tin này như sau: 0x00 Count Byte thứ hai cho biết số các dãy giống nhau được nén trong gói Độ dài của dãy ghi
ở đầu tệp
Loại 3: Dãy các pixel không giống nhau, không lặp lại và không nén được Quy cách như sau: 0x80 Count Byte thứ hai cho biết độ dài dãy các pixel không giống nhau không nén được
Loại 4: Dãy các pixel giống nhau Tùy theo các bit cao của byte đầu được bật hay tắt Nếu bit cao được bật (giá trị 1) thì đây là gói nén các byte chỉ gồm bit 0,
số các byte được nén được tính bởi bảy bit thấp còn lại Nếu bit cao tắt (giá trị 0) thì
Trang 25đây là gói nén các byte gồm toàn bit 1, số các byte được nén được tính bởi bảy bit thấp còn lại
Các gói tin của file IMG phong phú như vậy là do ảnh IMG là ảnh đen trắng
Do vậy, chỉ cần một bit cho một pixel thay vì bốn hay tám như đã nói ở trên Toàn
bộ ảnh chỉ có điểm sáng và tối tương ứng giá trị 1 hoặc giá trị 0 Tỉ lệ nén của kiểu định dạng này là khá cao
b Định dạng ảnh PCX
- Định dạng ảnh PCX là một trong những kiểu định dạng cổ điển nhất Nó sử dụng phương pháp mã loạt dài RLE (Run Length Encoded) để nén dữ liệu ảnh Quá trình nén và giải nén được thực hiện trên từng dòng ảnh Thực tế phương pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG Tệp PCX gồm ba phần: đầu tệp (header), dữ liệu ảnh (image data), bảng màu mở rộng
Header của tệp PCX có kích thước cố định gồm 128 byte và được phân bố như sau:
+ Một byte: chỉ kiểu định dạng, nếu là kiểu PCX/PCC nó luôn có giá trị là 0Ah + Một byte: chỉ ra version sử dụng để nén ảnh, có thể có các giá trị sau: 0: version 2.5; 2: version 2.8 với bảng màu; 3: version 2.8 hay 3.0 không có bảng màu; 5: version 3.0 có bảng màu
+ Một byte: chỉ ra phương pháp mã hóa Nếu là 0 thì mã hóa theo phương pháp BYTE PACKED, nếu là 1 thì mã hóa theo phương pháp RLE
Một byte: số bit cho một điểm ảnh plane
Một word: tọa độ góc trái trên của ảnh Với kiểu PCX nó có giá trị là (0, 0), còn PCC thì khác (0, 0)
Một word: tọa độ góc phải dưới
Một word: kích thước bề rộng và bề cao ảnh
Một word: số điểm ảnh
Một word: độ phân giải màn hình
Trang 26 Một word
48 byte: chia thành 16 nhóm, mỗi nhóm ba byte Mỗi nhóm này chứa thông tin về một thanh ghi màu Như vậy ta có 16 thanh ghi màu
Một byte: không dùng đến và luôn đạt là 0
Một byte: số bit plane mà ảnh sử dụng Với ảnh 16 màu, giá trị này là bốn, với ảnh 256 màu (1pixel/8bit) thì số bit plane lại là một
Một byte: số byte cho một dòng quét ảnh
Một word: kiểu bảng màu
58 byte: không dùng
- Tóm lại, định dạng ảnh PCX thường được dùng để lưu trữ ảnh vì thao tác đơn giản, cho phép nén và giải nén nhanh Tuy nhiên vì cấu trúc của nó cố định nên trong một số trường hợp nó làm tăng kích thước lưu trữ Và vì vậy mà một số ứng dụng lại sử dụng một kiểu định dạng khác mềm dẻo hơn đó là TIFF
c Định dạng ảnh TIFF (Targed Image File Format)
Kiểu định dạng TIFF được thiết kế để làm nhẹ bớt các vấn đề liên quan đến việc mở rộng tệp ảnh cố định Về cấu trúc nó cũng có ba phần chính:
Phần Header (IFH): có trong tất cả các tệp TIFF và gồm tám byte:
+ Một word: chỉ ra kiểu tạo tệp trên máy tính PC hay Macinfosh Hai loại này khác nhau rất lớn ở thứ tự các byte lưu trữ trong các số dài hai hay bốn byte Nếu trường này có giá trị là 4D4Dh thì đó là ảnh cho máy Macintosh; nếu là 4949h
Trang 27Phần thứ hai (IFD): Nó không ở ngay sau cấu trúc IFH mà vị trí nó được xác định bởi trường Offset trong đầu tệp Có thể có một hay nhiều IFD cùng tồn tại trong file (nếu file có nhiều hơn một ảnh)
Một IFD gồm:
+ Hai byte: chứa các DE (Directory Entry)
+ 12 byte là các DE xếp liên tiếp, mỗi DE chiếm mười hai byte
+ Bốn byte: chứa Offset trỏ tới IFD tiếp theo Nếu đây là IFD cuối cùng thì trường này có giá trị là 0
Phần dữ liệu thứ ba (các DE): các DE có độ dài cố định gồm 12 byte chia làm bốn phần:
Hai byte: chỉ ra dấu hiệu mà tệp ảnh đã được xây dựng
Hai byte: kiểu dữ liệu của tham số ảnh Có năm kiểu tham số cơ bản:
1: BYTE (1 byte) 2: ASCII (1 byte) 3: SHORT (2 byte) 4: LONG (4 byte) 5: RATIONAL (8 byte)
Bốn byte: trường độ dài (bộ đếm) chứa số lương chỉ mục của kiểu dữ liệu
đã chỉ ra Nó không phải là tổng số byte cần thiết để lưu trữ Để có dữ liệu này ta cần nhân tham số chỉ mục với kiểu dữ liệu đã dùng
Bốn byte: đó là Offset tới điểm bắt đầu dữ liệu thực liên quan tới dấu hiệu, tức là dữ liệu liên quan với DE không phải lưu trữ vật lý cùng với nó nằm ở một vị trí nào đó trong file
Dữ liệu chứa trong tệp thường được tổ chức thành các nhóm dòng (cột) quét của dữ liệu ảnh Cách tổ chức này làm giảm bộ nhớ cần thiết cho việc đọc tệp Việc giải nén được thực hiện theo bốn kiểu khác nhau được lưu trữ trong ba dấu hiệu nén Như đã nói ở trên, file ảnh TIFF là dùng để giải quyết vấn đề khó mở rộng của
Trang 28file PCX Tuy nhiên, với cùng một ảnh thì việc dùng file PCX chiếm ít không gian nhớ hơn
d Định dạng ảnh GIF (Graphics Interchanger Format)
Cách lưu trữ kiểu PCX có lợi về không gian lưu trữ với ảnh đen trắng kích thước tệp có thể nhỏ hơn bản gốc từ năm đến bảy lần Với 16 màu kích thước ảnh nhỏ hơn ảnh gốc hai đến ba lần, có trường hợp có thể xấp xỉ ảnh gốc Tuy nhiên, với ảnh 256 màu thì nó bộc lộ rõ khả năng nén rất kém Điều này có thể lý giải như sau: khi số màu tăng lên các loạt dài xuất hiện ít hơn và vì thế lưu trữ theo kiểu PCX không còn lợi nữa Hơn nữa, nếu ta muốn lưu trữ nhiều đối tượng trên một tệp ảnh như kiểu định dạng TIFF đòi hỏi có một định dạng khác thích hợp
Định dạng ảnh GIF do hãng ComputServer Incorporated (Mỹ) đề xuất lần đầu tiên vào năm 1990 Với định dạng GIF, những vướng mắc mà các định dạng khác gặp phải khi số màu trong ảnh tăng lên không còn nữa Khi số màu càng tăng thì ưu thế của định dạng GIF càng nổi trội Những ưu thế này có được là do GIF tiếp cận các thuật toán nén LZW (Lempel Ziv Weleh) Bản chất của kỹ thuật nén LZW là dựa vào sự lặp lại của một nhóm điểm chứ không phải loạt dài giống nhau
Do vậy, dữ liệu càng lớn thì sự lặp lại càng nhiều Dạng ảnh GIF cho chất lượng cao, độ phân giải đồ họa cũng đạt cao, cho phép hiển thị trên hầu hết các phần cứng
đồ họa Định dạng tổng quát của ảnh GIF như sau:
Chữ ký của ảnh: có giá trị GIF87a Nó gồm sáu ký tự, ba ký tự đầu chỉ ra kiểu định dạng, ba ký tự sau chỉ ra version của ảnh
Bộ hình hiển thị: chứa mô tả các thông số cho toàn bộ ảnh GIF
Bản đồ màu tổng thể: mô tả bộ màu tối ưu đòi hỏi khi bit M = 1 Khi bộ màu tổng thể được thể hiện, nó sẽ xác lập ngay bộ mô tả hình hiển thị Số lượng thực thể bản đồ màu lấy theo bộ mô tả hình hiển thị ở trên và bằng 2m, với m là lượng bit trên một pixel khi mỗi thực thể chứa đựng ba byte (biểu diễn cường độ màu cơ bản Red-Green-Blue)
Bộ mô tả ảnh: định nghĩa vị trí thực tế và phần mở rộng của ảnh trong phạm vi không gian ảnh đã có trong phần mô tả hình hiển thị Nếu ảnh biểu diễn
Trang 29theo ánh xạ bản đồ màu cục bộ thì cờ định nghĩa phải được thiết lập Mỗi bộ mô tả ảnh được chỉ ra bởi ký tự kết nối ảnh Ký tự này chỉ được dùng khi định dạng GIF
có từ hai ảnh trở lên Ký tự này có giá trị 0x2c (ký tự dấu phẩy)
Bản đồ màu cục bộ: chỉ được chọn khi bit M của byte thứ 10 là 1 Khi bản
đồ màu được chọn, bản đồ màu sẽ chiếu theo bộ mô tả ảnh mà lấy vào cho đúng Tại phần cuối ảnh, bản đồ màu sẽ lấy lại phần xác lập sau bộ mô tả hình hiển thị Lưu ý đây là trường “pixel” của byte thứ 10 chỉ được dùng khi bản đồ màu được chỉ định Các tham số này không chỉ cho biết kích thước ảnh theo pixel mà còn chỉ ra
số thực thể bản đồ màu của nó
Dữ liệu ảnh: chuỗi các giá trị có thứ tự của các pixel màu tạo nên ảnh Các pixel được xếp liên tục trên một dòng ảnh từ trái qua phải Các dòng ảnh được xếp
từ trên xuống dưới
Phần kết thúc ảnh: cung cấp tính đồng bộ cho đầu cuối của ảnh GIF, cuối của ảnh sẽ xác định bởi ký tự “;" (0x3b)
Định dạng GIF có rất nhiều ưu điểm và đã được công nhận là chuẩn để lưu trữ ảnh màu thực tế (chuẩn ISO 10918-1) Nó được mọi trình duyệt Web (Web Browser) hỗ trợ với nhiều ứng dụng hiện đại Cùng với nó có chuẩn JPEG (Joint Photograph Expert Group) GIF dùng cho ảnh chụp (Photograph)
Trang 30
CHƯƠNG 3
CÁC GIAI ĐOẠN
XỬ LÝ ẢNH
Trang 313.1 Thu nhận ảnh
Camera thu nhận ảnh liên tục nhưng ta thực hiện quá trình chụp bắt ảnh tại từng thời điểm Mỗi ảnh nhận được tại từng thời điểm sẽ được hiển thị lên một màn hình cửa sổ có tên là CAMERA, các ảnh này sẽ dừng và hiển thị trong
một khoảng thời gian là 15 ms, một khoảng thời gian khá ngắn Điều này giúp
cho ta có một loạt ảnh từ CAMERA Do đó ta có thể bắt ảnh tại từng thời điểm nào đó mà ta muốn
Ta dùng lệnh videoinput để khởi tạo Camera dùng trong Matlab
3.2 Tiền xử lý ảnh
Nâng cao chất lượng ảnh là một bước quan trọng tạo tiền đề cho xử lý ảnh Mục đích chính là nhằm làm nổi bật một số đặc tính của ảnh như thay đổi độ tương phản, lọc nhiễu, nổi biên, làm trơn biên ảnh, khuếch đại ảnh Tăng cường ảnh và khôi phục ảnh là hai quá trình khác nhau về mục đích Tăng cường ảnh bao gồm một loạt các phương pháp nhằm hoàn thiện trạng thái quan sát của một ảnh
Ta có thể phân loại các kỹ thuật nâng cao chất lượng ảnh làm ba loại: các kỹ thuật tác động lên điểm ảnh (Point Operations), các kỹ thuật dùng bộ lọc
Trang 32trong miền không gian (Spatial Operations) và các kỹ thuật dùng bộ lọc trong miền biến đổi (Transform Operations)
Các kỹ thuật tác động lên điểm ảnh chủ yếu là dùng các ánh xạ nhằm biến đổi giá trị của một điểm ảnh chỉ dựa vào giá trị của chính nó mà không quan tâm tới các giá trị của các điểm ảnh khác Có hai cách tiếp cận trong kỹ thuật này là: các phương pháp điều chỉnh mức xám của điểm ảnh (Gray Scale Modification) và các kỹ thuật biến đổi lược đồ xám (Histogram)
Nhiệm vụ của tăng cường ảnh không phải là làm tăng cường thông tin vốn có trong ảnh mà làm nổi bật các đặc trưng đã chọn làm sao để có thể phát hiện tốt hơn, tạo thành quá trình tiền xử lí cho phân tích ảnh
Quá trình tiền xử lý gồm các bước sau:
Hình 3.1 Sơ đồ các bước tiền xử lý
Chuyển đổi ảnh thành mức xám
Trang 333.2.1 Chuyển đổi ảnh màu thành ảnh xám
- Ảnh nhận được từ Camera là ảnh màu 24 bit, để giảm bớt khối lượng tính toán ta sẽ đưa ảnh màu về ảnh xám 8 bit (nghĩa là mỗi pixel sẽ biểu diễn bằng 1 byte)
- Tuy nhiên quá trình chuyển sang mức xám sẽ làm mất đi một số thông tin nhưng vẫn có thể chấp nhận được
Hình 3.2 Minh họa công thức chuyển đổi ảnh xám
3.2.2 Cân bằng Histogram (lược đồ xám)
- Lược đồ mức xám là một hàm cung cấp tần suất xuất hiện của mỗi mức xám (gray-level) trong ảnh Biễu diễn toán học của histogram của một ảnh số có L=256 mức xám là một hàm rời rạc:
( )
k k
n là số pixel có mức xám đó và n là tổng số pixel của ảnh
Miền giá trị của p f ( k) [0,1]
- Một cách biễu diễn toán học khác của histogram của một ảnh là số lần xuất hiện của mỗi mức xám:
Trang 34( k) k
p f n (3.2)
- Khi lược đồ xám được biễu diễn trong một hệ tọa độ vuông góc x, y (trục hoành x biễu diễn số mức xám từ 0 đến L -1, trục tung y biễu diễn số điểm ảnh có cùng mức xám hay tỷ lệ số điểm ảnh có cùng mức xám trên tổng số điểm ảnh), thì hình dạng của histogram của ảnh sẽ mang đến cho chúng ta thông tin về tính động của ảnh (ảnh rất sáng hay ảnh rất đậm) dùng làm cơ sở cho việc tăng cường độ tương phản
Ảnh có độ tương phản thấp Ảnh có độ tương phản cao
Hình 3.3: Lược đồ histogram của các loại ảnh khác nhau
Trong cân bằng Histogram, điều mong muốn nhất là ảnh kết quả sẽ có một histogram phân bố đều Để cân bằng Histogram, ta sẽ biến đổi xác suất p(fk) của từng giá trị xám cho chúng phân bố đều, cụ thểà là
(3.3)
Trang 35Hình 3.4 Sơ đồ khối cho giải thuật cân bằng Histogram
Bước lượng tử hóa rất cần thiết cho việc sửa chữa giá trị xám của ảnh Bước này được thực hiện như sau:
(3.5)
Với hmin là giá trị xám nhỏ nhất trong histogram
g là giá trị xám của ảnh kết quả
hk là giá trị histogram ứng với giá trị xám thứ k
L số giá trị xám cực đại
3.2.3 Tăng cường độ tương phản:
Phương pháp này dùng cho ảnh có độ tương phản thấp do sự chiếu sáng kém, hay do đặt sai độ mở thấu kính trong quá trình thu ảnh Ý tưởng của kỹ thuật này là làm tăng các giá trị xám trong một tầm vực ảnh đang được xử lý
Lượng tử hóa đều
Trang 36Các vị trí (f1, g1) và (f2, g2) quyết định hình dáng hàm biến đổi này Nếu f1
= g1 và f2 = g2 thì hàm biến đổi này trở thành một hàm tuyến tính mà hàm này không làm thay đổi giá trị xám của ảnh
Nếu f1 = g2, g1 = 0 và g2 = L-1 thì hàm này trở thành một hàm Thresolding được mô tả theo hình vẽ mà hàm này tạo ra một ảnh nhị phân Các giá trị tức thời (f1, g1) và (f2, g2) tạo ra các mức độ giãn rộng của mức xám khác nhau, vì vậy ảnh hưởng đến độ tương phản của nó
Hình 3.5 Biểu diễn các hàm dãn rộng độ tương phản
Trang 37Tóm lại việc chọn f1<f2 và g1<g2 là có chủ ý để hàm này tăng đơn điệu
Vì vậy, hàm này không làm thay đổi trật tự mức xám và không phát sinh thêm các mức xám mới dư thừa nào
Hàm được minh họa bằng biểu thức sau:
(3.6)
Khi α = =0 ta gọi là phương pháp cắt xén (clipping) được mô tả qua hình vẽ trên Cắt xén thích hợp cho các trường hợp giảm nhiễu khi tín hiệu name giữa [f1, f2]
3.2.4 Kỹ thuật làm trơn nhiễu - lọc nhiễu
Nhiễu trong ảnh số được xem như sự dịch chuyển nhanh của tín hiệu thu nhận (tín hiệu ảnh u(m, n)) trên một khoảng cách ngắn Xem xét một cách tương đương trong không gian tần số, nhiễu ứng với các thành phần tần số cao trong ảnh Do vậy, người ta nghĩ đến việc biến đổi có tính đến ảnh hưởng của các phần tử lân cận bằng cách lấy “tổ hợp” các điểm lân cận này (trong không gian thực) hay lọc các thành phần tần số cao (trong không gian tần số) Đây chính là kỹ thuật lọc (filtering)
Cơ sở lý thuyết của kỹ thuật lọc số là dựa trên tính dư thừa thông tin không gian: các pixel lân cận có thể có cùng hoặc gần cùng một số đặc tính Hơn nữa, nhiễu có thể coi như sự đột biến của một điểm ảnh so với các điểm lân cận
L c tuy n tính :
Trong kỹ thuật lọc tuyến tính, ảnh thu được sẽ là tổng trọng số hay là trung bình trọng số các điểm lân cận với nhân cuộn hay mặt nạ
Trang 38Người ta sử dụng nhiều kiểu mặt nạ khác nhau Mỗi kiểu mặt nạ sẽ tương ứng với một bộ lọc nhất định Ví dụ: Lọc trung bình không gian (Spatial
Averaging), lọc thông thấp, lọc đồng hình, lọc Gauss (Gaussian Filter)
L c phi tuy n:
Khác với lọc tuyến tính, kỹ thuật lọc phi tuyến coi một điểm ảnh kết quả không phải là tổ hợp tuyến tính của các điểm lân cận Các bộ lọc phi tuyến cũng hay được dùng trong tăng cường ảnh vì chúng có khả năng loại được nhiễu xung Người ta hay dùng bộ lọc trung vị (Median Filtering), giả trung vị (Pseudo Mediant Filtering) và lọc ngoài (Outline Filtering)
Lọc trung vị (Median Filtering) :
Một trong những khó khăn chính trong các phương pháp làm trơn nhiễu là nó làm mờ các đường biên và các chi tiết sắc nét của ảnh (vì chúng tương ứng với thành phần tần số cao của ảnh, khi cho ảnh qua bộ lọc thông thấp thì không chỉ có nhiễu bị loại trừ mà thành phần tần số cao của ảnh cũng bị suy hao) Lọc trung vị có ưu điểm là lọc nhiễu nhưng không làm mờ ảnh
Bộ lọc này sẽ thay thế giá trị của một pixel bằng giá tị trung bình của các pixel liên thông cục bộ Do đó quá trình lọc này sẽ bao gồm 2 giai đoạn:
Sắp xếp giá trị mức xám của các pixel liên thông theo thứ tự tăng dần
Tìm giá trị trung bình của dãy và thay thế giá trị pixel hiện tại
Loại bộ lọc này đơn giản nhưng rất hiệu quả trong việc loại bỏ nhiễu hạt tiêu (peper noise) và nhiễu hạt muối (salt noise) Vì vậy, nó được ứng dụng trong đề tài này
Trang 39
Lọc giả trung vị (Pseudo-Median Filter ) :
Để giảm khối lượng tính toán so với bộ lọc trung vị, chuỗi lấy ra không cần sắp xếp từ lớn tới nhỏ Bộ lọc này sử dụng mặt nạ chữ thập cho kết quả tốt
hơn mặt nạ vuông
Thuật toán :
- Lấy các phần tử trong cửa sổ ra mảng một chiều
- Tìm min của lần lượt từng chuỗi con rồi lấy max của các min này và gọi là m1
- Tìm max của lần lượt từng chuỗi con rồi lấy min của các max này và gọi là m2
- Gán giá trị của điểm ảnh trung tâm bằng trung bình cộng của m1 và m2
3.3 Trích vùng chứa biển số xe:
- Có nhiều phương pháp và phép toán trong xử lý ảnh để trích biển số xe
- Mỗi phương pháp đều có ưu, khuyết điểm, ta cần phải kết hợp các phương pháp để trích được vùng biển số xe cho kết quả tốt nhất
Những đặc trưng của biển số xe:
Hình chữ nhật, hình vuông
Dễ phân biệt màu sắc, có nền màu trắng
Có chiều dài, rộng và tỉ lệ giữa dài rộng không đổi
Phương của biển số xe được xếp thẳng hàng với trục tọa độ
Các đường biên của biển số xe thẳng hàng, không bị méo
Trang 403.3.1 Biên của ảnh:
- Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kỹ thuật ảnh chủ yếu dựa vào biên Một điểm ảnh có thể coi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tập hợp các điểm tạo thành biên hay đường bao của ảnh
- Thí dụ: trong một ảnh nhị phân, một điểm có thể gọi là biên nếu đó là điểm đen và có ít nhất một điểm trắng lân cận
- Sự biến thiên giữa các điểm ảnh thường là nhỏ, trong khi đó biến thiên độ sáng của điểm biên lại khá lớn
3.3.2 Làm n i biên:
- Một lớp bộ lọc khác có thể làm rõ nét hoặc tăng cường các đường biên bên trong ảnh Đó là bộ lọc thông cao (High Pass Filtering ) có những đặc tính ngược với bộ lọc thông thấp, nó không làm thay đổi thành phần tần số cao của tín hiệu nhưng nó làm suy giảm thành phần tần số thấp và hạn chế vùng nền có mức xám hằng
- Hơn thế nữa, bộ lọc thông cao có các tính chất làm cho dữ liệu của các điểm ảnh trong vùng của đường biên vật thể được hiệu chỉnh và yếu tố đường biên được gia tăng Sự nhận biết đường biên là yêu cầu cần thiết cho những phương pháp phân tích ảnh tiếp theo
3.3.3 K thu t tách biên
Tách biên là một trong những bước quan trọng của quá trình xử lý ảnh Theo định nghĩa, biên là phần chia tách nằm giữa 2 phần ảnh có sự khác biệt về mức xám (gray-scale) Biên cũng được định nghĩa là các điểm ảnh mà tại đó có sự thay đổi đột ngột về độ sáng (brightness)