GIỚI THIỆU
THỊ GIÁC MÁY
Hệ thống thị giác máy có mục tiêu tạo ra mô hình thế giới thực từ hình ảnh, phục hồi thông tin hữu ích về cảnh quan từ các hình chiếu hai chiều Do hình ảnh là hình chiếu hai chiều từ không gian ba chiều, việc khôi phục thông tin yêu cầu thực hiện nhiều phép ánh xạ khác nhau Ba ứng dụng khác nhau của hệ thống thị giác máy được minh họa qua các hình ảnh, trong đó hình đầu tiên liên quan đến chẩn đoán bệnh qua hình ảnh X quang, giúp kỹ thuật viên thu thập thông tin về bệnh và thực hiện đo đạc định lượng Hệ thống này được phát triển cho nhiều loại hình ảnh trong lĩnh vực chăm sóc sức khỏe, đồng thời cũng có thể áp dụng trong kiểm tra sản phẩm trong công nghiệp, nông nghiệp và các lĩnh vực khác, quản lý chất lượng sản phẩm từ cấu trúc siêu nhỏ đến toàn bộ sản phẩm.
Hình 1.2 minh họa cặp hình ảnh thu được từ robot di động, mỗi cặp ảnh là hình ảnh lập thể (stereo) tại một thời điểm nhất định Những hình ảnh này giúp khôi phục cấu trúc ba chiều của môi trường, hỗ trợ dẫn đường cho robot Thông tin từ hình ảnh lập thể và chuyển động được kết hợp để tạo ra bản đồ bền vững với độ phân giải phù hợp cho từng tác vụ Kỹ thuật này rất hữu ích trong việc dẫn đường tự động cho các phương tiện như ô tô, máy bay, xe tăng và robot Nhiều phương pháp khác nhau sẽ được áp dụng để khôi phục độ sâu của điểm ảnh, với kết quả được kết hợp nhằm tạo ra giá trị độ sâu đáng tin cậy.
Hình 1.3 là ảnh vệ tinh thể hiện sự khác biệt về tuổi của các tảng băng, được chụp luân phiên để phục vụ cho nhiều mục đích quan trọng Những hình ảnh này không chỉ hỗ trợ dự đoán thời tiết mà còn giúp phân tích sự thay đổi của trái đất, ứng dụng trong nông nghiệp và lâm nghiệp Hệ thống thị giác máy tính ngày càng trở nên thiết yếu trong việc phân tích lượng dữ liệu lớn từ vệ tinh, góp phần nâng cao hiệu quả trong các nghiên cứu và ứng dụng thực tiễn.
Hình 1.1: Ảnh y sinh được xử lý bởi hệ thống thị giác máy tính để hỗ trợ chẩn đoán
Hình 1.2 hiển thị hai cặp hình ảnh ánh xạ từ robot tự động Những hình ảnh này sẽ được sử dụng để phục hồi cảnh quan môi trường bởi robot.
Hình 1.3: Một hình ảnh của vùng Bắc Cực Hình ảnh này được phân tích để tìm ra tuổi và kích thước của tảng băng và các vật thể khác
MỐI LIÊN HỆ VỚI CÁC LĨNH VỰC KHÁC
Thị giác máy có mối liên hệ chặt chẽ với nhiều lĩnh vực khác nhau, nơi kỹ thuật này được phát triển và ứng dụng để khôi phục thông tin từ hình ảnh Trong chương này, chúng ta sẽ khám phá một số lĩnh vực liên quan đến thị giác máy.
Xử lý ảnh là một lĩnh vực đang phát triển mạnh mẽ, bao gồm các kỹ thuật như cải tiến, nén và phục hồi hình ảnh Trong khi con người khai thác và khôi phục thông tin, thuật toán thị giác máy tự động hóa quá trình này, giảm thiểu sự tương tác cần thiết Các thuật toán xử lý hình ảnh hiện nay rất hữu ích trong việc thu thập thông tin và loại bỏ nhiễu Đồ họa máy tính, với khả năng tạo ra hình ảnh từ các yếu tố hình học, đóng vai trò quan trọng trong thị giác và thực tế ảo Thị giác máy tính và đồ họa máy tính hiện nay có mối liên hệ chặt chẽ, với việc sử dụng các kỹ thuật của nhau để cải thiện khả năng phân tích và tổng hợp hình ảnh Sự phát triển trong trực quan hóa hình ảnh và thực tế ảo đã làm cho hai lĩnh vực này ngày càng gần gũi hơn.
Lĩnh vực nhận dạng đối tượng được chia thành dữ liệu số và dữ liệu biểu tượng, với nhiều kỹ thuật thống kê và phân tích cấu trúc được phát triển để phân loại hình ảnh Kỹ thuật nhận dạng ảnh đóng vai trò quan trọng trong thị giác máy, giúp nhận diện vật thể trong nhiều ứng dụng công nghiệp Việc nhận dạng vật thể trong thị giác máy là yêu cầu thiết yếu cho nhiều kỹ thuật khác nhau, và bài viết sẽ đề cập đến một số khía cạnh trong nhận dạng ảnh thống kê liên quan đến nhận dạng vật thể.
Trí tuệ nhân tạo (AI) là thiết kế hệ thống thông minh có khả năng học hỏi từ trí thông minh con người, được ứng dụng trong phân tích cảnh quan bằng cách tính toán biểu tượng sau khi xử lý hình ảnh để trích xuất đặc trưng AI bao gồm ba giai đoạn chính: nhận biết, nhận thức và hành động Nhận thức chuyển đổi tín hiệu từ thế giới thực thành biểu tượng, trong khi quá trình nhận thức xử lý các biểu tượng, và hành động biến các biểu tượng thành tín hiệu để thay đổi thế giới thực một cách hiệu quả Nhiều kỹ thuật AI đóng vai trò quan trọng trong các lĩnh vực thị giác máy tính, thường được coi là một phần của trí tuệ nhân tạo.
Thiết kế và phân tích mạng nơron đã thu hút sự chú ý trong nhiều thập kỷ, đặc biệt trong lĩnh vực thị giác máy Ứng dụng của mạng nơron ngày càng trở nên phổ biến trong việc giải quyết các vấn đề liên quan đến nhận diện hình ảnh và xử lý dữ liệu hình ảnh.
Tâm lý học và kỹ thuật nhận dạng đã nghiên cứu hành vi con người trong thời gian dài, với nhiều kỹ thuật trong thị giác máy tính liên quan đến kiến thức về thị giác của con người Nghiên cứu này tập trung vào việc phát triển mô hình tính toán thị giác của con người, thay vì chỉ thiết kế hệ thống thị giác máy Các kỹ thuật được trình bày trong cuốn sách này thể hiện sự tương thích quan trọng với tâm lý học con người.
Thị giác máy tạo ra sự đo đạc hoặc các đặc tính từ các tính chất hình học Cần lưu ý đến phương trình như sau:
Thị giác = Hình học + Đo đạc + Sự hiểu biết (1.1)
Thị giác máy tính là lĩnh vực nghiên cứu các kỹ thuật nhằm ước tính đặc tính hình ảnh và đo đạc hình học của vật thể trong không gian Nó bao gồm việc phân tích thông tin hình học để hiểu rõ hơn về các đối tượng và môi trường xung quanh.
VAI TRÒ CỦA TRI THỨC
Quyết định hiệu quả yêu cầu hiểu biết sâu sắc về lĩnh vực ứng dụng hoặc mục tiêu cụ thể Mỗi giai đoạn trong quy trình ra quyết định cần được thực hiện một cách hệ thống Hệ thống thị giác máy không chỉ tối ưu hóa hoạt động tự động mà còn cần tri thức chuyên môn để đảm bảo sự hoàn thiện trong từng bước của quá trình.
Hệ thống thị giác máy cần sử dụng tri thức đa dạng, bao gồm đặc tính mô hình, thông tin hình ảnh, mô hình đối tượng và mối liên hệ giữa các đối tượng Thiếu tri thức, hệ thống sẽ bị giới hạn trong môi trường hẹp và ứng dụng hạn chế Để tăng cường tính linh hoạt và bền vững, tri thức cần được trình bày rõ ràng Cuốn sách này nhằm chỉ ra các loại tri thức được áp dụng trong hệ thống thị giác máy qua các giai đoạn khác nhau, giúp người đọc hiểu rõ các yếu tố liên quan để phát triển hệ thống bền vững và đáp ứng cao Tri thức được sử dụng dưới nhiều hình thức, cả ẩn và tường minh, và chất lượng tri thức ảnh hưởng trực tiếp đến hiệu quả của hệ thống Các vấn đề phức tạp chỉ được giải quyết khi xác định đúng nguồn tri thức và cơ chế sử dụng thích hợp.
TÍNH CHẤT HÌNH HỌC CỦA HÌNH ẢNH
Có hai phần trong quá trình tạo ra hình ảnh:
1 Tính chất hình học của quá trình tạo thành hình ảnh xác định được vị trí của hình chiếu từ một điểm của cảnh quang xung quanh lên mặt phẳng ảnh
2 Tính chất vật lý của ánh sáng xác định độ sáng của một điểm trên mặt phẳng ảnh như một hàm của độ rọi và các đặc tính bề mặt
Chương này sẽ khám phá tính chất hình học trong quá trình tạo hình ảnh Mặc dù không cần thiết phải hiểu rõ đặc tính vật lý của ánh sáng để nắm bắt các thuật toán thị giác cơ bản, nhưng kiến thức này lại rất hữu ích trong việc phát triển hệ thống thị giác hiệu quả.
Mô hình chiếu điểm trong cảnh quan lên bề mặt ảnh được trình bày trong Hình 1.4, trong đó tâm của hình chiếu trùng với tâm hệ tọa độ ba chiều Hệ tọa độ này bao gồm các vectơ đơn vị x, y, z, với mỗi điểm trong cảnh quan được xác định bởi tọa độ (x, y, z) Trục x đại diện cho vị trí ngang của điểm trên mặt phẳng ảnh, trục y thể hiện vị trí thẳng đứng, và trục z là khoảng cách từ camera đến điểm trong không gian Đường thẳng nối từ điểm của vật thể đến trọng tâm hình chiếu trên mặt phẳng được gọi là đường cảnh quan, như thể hiện trong Hình 1.4.
Hình 1.4: Điểm trên mặt phẳng ảnh tương ứng với điểm riêng biệt của cảnh quan theo đường thẳng đi qua dọc theo điểm ảnh và tâm của hình chiếu
Mặt phẳng ảnh song song với hai trục x và y của hệ tọa độ ở khoảng cách f từ tâm, như minh họa trong Hình 1.4 Mặt phẳng ảnh từ camera nằm ở khoảng cách f sau tâm hình chiếu, và mặt phẳng chiếu bị đảo ngược Để tránh sự đảo ngược này, ta có thể giả định mặt phẳng ảnh nằm trước tâm chiếu, như trong Hình 1.5 Mặt phẳng ảnh được mở rộng bởi hai vectơ x’ và y’ để tạo thành hai trục tọa độ cho việc định vị các điểm trên mặt phẳng Vị trí của mặt phẳng ảnh được xác định trên tọa độ x’ và y’, với điểm (0,0) là điểm gốc Vị trí của một điểm trên mặt phẳng ảnh được xác định bởi sự giao nhau giữa đường trên mặt phẳng và sơ đồ hình chiếu sẽ được mô tả trong các chương tiếp theo.
Hình 1.5: Sự chiếu sáng được thể hiện qua đường ảnh được sử dụng để tính toán tọa độ hình chiếu (x’, y’) từ tọa độ vật thể (x, y, z)
Vị trí (x’, y’) trên mặt phẳng ảnh của một điểm có tọa độ (x, y, z) được xác định thông qua việc tính toán giao điểm của đường thẳng đi qua điểm (x, y, z) với mặt phẳng ảnh, như minh họa trong Hình 1.5.
Khoảng cách từ điểm (x, y, z) đến trục z là r, trong khi khoảng cách từ điểm chiếu (x’, y’) đến điểm gốc của mặt phẳng ảnh là r’ Tầm nhìn thẳng của điểm (x, y, z) trên trục z cùng với khoảng cách r tạo thành một tam giác, và tương tự, tầm nhìn thẳng của điểm (x’, y’) cùng với khoảng cách r’ cũng tạo thành một tam giác khác Hai tam giác này đồng dạng, do đó tỷ số tương ứng giữa các cạnh của chúng sẽ là một hằng số.
Tam giác được hình thành từ hệ tọa độ x và y cùng với khoảng cách vuông góc r, tương tự như tam giác tạo ra từ hệ tọa độ ảnh tương ứng x’, y’ và khoảng cách vuông góc r’ Hai tam giác này là đồng dạng với nhau.
Kết hợp phương trình 1.2 và 1.3 ta có phương trình cho hình chiếu vuông góc là: và (1.4)
Vị trí của điểm (x, y, z) trên mặt phẳng được thể hiện bởi phương trình:
Trong bài viết này, chúng ta giả định rằng tâm của hình chiếu trùng với tâm của mặt phẳng ba chiều và hệ trục tọa độ của camera thẳng hàng với hệ trục tọa độ dùng để xác định vị trí điểm trong cảnh quan Camera sẽ đo độ dịch chuyển và góc xoay trong hệ tọa độ ba chiều để xác định tọa độ các điểm của cảnh quan Tọa độ (xa, ya, za) trong hệ tọa độ tuyệt đối cần được chuyển đổi về hệ tọa độ (xc, yc, zc) của camera trước khi chiếu các điểm lên mặt phẳng ảnh, với hệ tọa độ tuyệt đối còn được gọi là tọa độ toàn cầu.
Mỗi vật thể riêng biệt sở hữu hệ tọa độ mô hình riêng Cảnh quan được hình thành từ các mô hình vật thể được đặt ở các vị trí xoay và tịnh tiến khác nhau Tọa độ của cảnh quan trong hệ tọa độ tuyệt đối sẽ được chuyển đổi thành tọa độ camera trước khi được chiếu lên mặt phẳng ảnh.
LẤY MẪU VÀ LƯỢNG TỬ HÓA
Các hàm số trong miền liên tục không thể được thể hiện chính xác trong máy tính số Giao diện giữa hệ thống thị giác và cảnh quan trên mặt phẳng ảnh yêu cầu phải lấy mẫu hình ảnh ở một số lượng hữu hạn các điểm Mỗi mẫu hình ảnh được đại diện với kích thước hữu hạn trên máy tính, quá trình này được gọi là lấy mẫu và lượng tử hóa Mỗi ảnh mẫu sẽ được gọi là một điểm ảnh.
Chúng ta giả định rằng hình ảnh được lấy mẫu trên một lưới hình vuông, với khoảng cách giữa các điểm ảnh theo chiều đứng và nằm ngang là đồng nhất Mỗi điểm ảnh được biểu diễn bằng một số nguyên, thường là số nguyên 8-bit trong khoảng từ 0 đến 255, trong đó 0 đại diện cho màu đen, 255 cho màu trắng, và các giá trị trung gian thể hiện các sắc thái màu xám.
Nhiều máy ảnh thu nhận hình ảnh trong miền liên tục, sau đó lấy mẫu và lượng tử hóa để chuyển đổi thành hình ảnh kỹ thuật số Tốc độ lấy mẫu quyết định số lượng điểm ảnh trong hình ảnh kỹ thuật số, trong khi mức lượng tử hóa xác định cường độ thể hiện giá trị của mỗi điểm mẫu Sự khác biệt trong tỉ lệ lấy mẫu và mức lượng tử hóa sẽ tạo ra các hình ảnh khác nhau Trong hầu hết các ứng dụng thị giác máy, tỉ lệ lấy mẫu và lượng tử hóa được xác định trước bởi giới hạn của máy ảnh và hệ thống phần cứng Việc biết trước tỉ lệ lấy mẫu và lượng tử hóa là rất quan trọng trong nhiều ứng dụng.
Hình 1.6 minh họa các hình ảnh với độ phân giải khác nhau Ở bên trái là hình ảnh gốc có độ phân giải 256x256 với 128 mức màu xám Phía trên bên phải là hình ảnh có độ phân giải 64x64, bên dưới bên trái là 32x32, và ở góc phải là hình ảnh với độ phân giải 16x16.
Hình 1.7 minh họa các mức phân giải xám khác nhau, với ảnh ở phía trên bên trái có mức xám 32, phía trên bên phải là mức xám 16, phía dưới bên trái là mức xám 8 và phía dưới bên phải là mức xám 4.
ĐỊNH NGHĨA VỀ ẢNH
Tìm hiểu mối liên hệ giữa tính chất hình học của ảnh và cách thể hiện hình ảnh trên máy tính là rất quan trọng Cần có cầu nối giữa các chú thích toán học và thuật toán trong chương trình Điểm ảnh là cường độ ảnh được định lượng bằng giá trị số nguyên, tạo thành ma trận hai chiều của các điểm ảnh Các dòng và cột được ký hiệu là [i, j], với điểm ảnh [0, 0] ở góc trên bên trái Giá trị i đại diện cho hàng phía dưới và j cho cột bên phải Ký hiệu này tương ứng với cú pháp ma trận trong chương trình máy tính, trong đó tọa độ x và y xác định vị trí trên mặt phẳng ảnh Trục y hướng lên và trục x hướng sang phải, với chỉ số [i, j] có hướng ngược lại so với tọa độ (x, y).
Tọa độ x và y là các hệ số thực được biểu diễn dưới dạng số thực dấu phẩy động trong máy tính Để tính toán tọa độ ảnh (x, y) từ hệ tọa độ điểm ảnh [i, j] của ma trận nxm điểm ảnh, ta sử dụng công thức cụ thể.
Với giả thiết rằng gốc tọa độ ảnh tương ứng với tâm của chuỗi ảnh
Trong hệ thống hình ảnh, mỗi điểm ảnh đại diện cho một vùng hữu hạn trên mặt phẳng ảnh, và thuật toán về thị giác máy sẽ giả định rằng điểm ảnh là hình vuông đơn vị Vị trí của mặt phẳng ảnh được xác định qua hệ số điểm ảnh, với tọa độ (xij, yij) tương ứng với vị trí của tâm điểm ảnh Khi tập trung vào vị trí này, điểm ảnh được trích xuất từ một điểm trên mặt phẳng ảnh, và ma trận các điểm ảnh trong chương trình phản ánh vị trí của mặt phẳng ảnh với mẫu được tạo ra.
Trong biểu đồ hình ảnh, hình ảnh được thể hiện dưới dạng chuỗi ô vuông trong vùng chữ nhật, với mỗi ô được làm mờ để phản ánh cường độ của điểm ảnh Kỹ thuật này không liên quan đến hình dạng của điểm ảnh mà chỉ tập trung vào cường độ ánh sáng Hình ảnh có thể được mô hình hóa như lưới ô vuông, với các giá trị điểm ảnh biểu diễn trên máy tính Máy ảnh và máy ảnh kỹ thuật số được thiết kế để đảm bảo tính chính xác của mô hình này Một số yếu tố như khoảng cách giữa các cột và hàng, nhiễu từ thấu kính, và sai số trong thiết kế camera có thể được khắc phục thông qua chuẩn hóa mà không làm thay đổi thuật toán xử lý hình ảnh.
Một điểm ảnh bao gồm giá trị xám để định lượng cường độ ảnh và vị trí được xác định bởi các cột và hàng trong chuỗi ảnh Chuỗi ảnh được tạo ra bằng cách lấy mẫu cường độ ảnh tại các điểm trên lưới hình chữ nhật, với các điểm này nằm giữa vị trí lưới nơi điểm ảnh được lấy mẫu trên mặt phẳng ảnh tương ứng với trục x và y.
CÁC MỨC ĐỘ TÍNH TOÁN
Một hình ảnh thường chứa nhiều vật thể, và ứng dụng thị giác máy tính liên quan đến việc tính toán các đặc tính của từng vật thể riêng biệt Để thực hiện điều này, cần xác định các vật thể như những thực thể độc lập, từ đó áp dụng các thuật toán phân đoạn và liên kết để tạo ra các subimage riêng biệt Chương 2 và 3 sẽ trình bày chi tiết về các định nghĩa và thuật toán này Mỗi thuật toán có các đặc tính đầu vào và đầu ra, với mục tiêu chính là đặc tính hóa chức năng để tối ưu hóa quá trình xử lý Đầu vào của hệ thống thị giác là hình ảnh, trong khi đầu ra là các biểu tượng thể hiện vị trí và nhận dạng vật thể Do khối lượng dữ liệu lớn cần xử lý, yêu cầu tính toán trong hệ thống thị giác trở nên cấp thiết Những kiến trúc thiết kế đặc biệt trong lĩnh vực này đã được áp dụng trong những năm gần đây, và để dự đoán yêu cầu tính toán, cần phân loại và nghiên cứu đặc tính hoạt động của các thuật toán.
Một số hàm tạo ra tín hiệu đầu ra dựa trên từng điểm ảnh, trong đó thuật toán ngưỡng tín hiệu là một ví dụ điển hình Thuật toán này sản xuất giá trị đầu ra phụ thuộc vào các giá trị đầu vào với ngưỡng đã được thiết lập trước Cụ thể, f B [i,j]=O point {f A [i,j]} thể hiện mối quan hệ giữa hình ảnh đầu vào f A và hình ảnh đầu ra f B Hàm này có thể được tính toán một cách hiệu quả thông qua việc sử dụng bảng tra cứu.
Hình 1.9 minh họa quá trình xử lý ảnh, với góc trên cho thấy hàm điểm được áp dụng cho từng điểm ảnh, tạo ra một ảnh đầu ra Góc dưới bên trái hiển thị ảnh gốc, trong khi góc dưới bên phải thể hiện ngưỡng ảnh, nơi các điểm ảnh có mức xám lớn hơn 128 được chuyển thành màu trắng, còn lại được chuyển thành màu đen.
Hàm cục bộ tạo ra hình ảnh đầu ra với cường độ tại một điểm phụ thuộc vào các điểm lân cận tương ứng của hình ảnh đầu vào Cụ thể, công thức fB[i,j]=Olocal{fA[ik,jl];[ik,jl] N[i,j]} mô tả mối quan hệ này, trong đó N[i,j] là tập hợp các điểm lân cận.
Việc làm mịn và phát hiện biên là các hàm cục bộ quan trọng trong xử lý ảnh, như được minh họa trong Hình 1.10 Những hàm này cần lấy giá trị từ ảnh đầu vào lân cận, vì vậy bộ xử lý mảng hoặc các máy có đa dữ liệu đơn cấu trúc là lựa chọn phù hợp để xử lý Thông thường, các hàm này có thể thực hiện đơn giản trên máy tính song song và đáp ứng yêu cầu hệ thời gian thực.
Hình 1.10 minh họa quá trình áp dụng hàm cục bộ lên các điểm ảnh lân cận để tạo ra hình ảnh đầu ra Phía dưới bên trái là hình ảnh gốc, trong khi phía dưới bên phải cho thấy hình ảnh đã được làm mịn, với các giá trị điểm ảnh được tính toán từ trung bình mức xám của khung ảnh 5x5 trên hình ảnh gốc.
Khi đầu ra của một hàm phụ thuộc vào toàn bộ ảnh thì hàm này được gọi là hàm toàn cục:
Hàm này được minh họa trong Hình 1.11, với đầu ra có thể là hình ảnh hoặc biểu tượng Các phép toán như lược đồ cường độ điểm ảnh và phép biến đổi Fourier là các phép toán toàn cục, khiến cho quá trình tính toán trong hệ thống thị giác máy tính trở nên chậm chạp Hầu hết các hàm ở mức cao hơn đều mang tính toàn cục, điều này đặt ra thách thức cho các nhà thiết kế kiến trúc phần cứng và giải thuật.
Hình 1.11 minh họa một ví dụ về hàm toàn cục, bao gồm hình ảnh bên trái và biểu đồ bên phải Biểu đồ này được tạo ra từ một tập hợp các điểm ảnh tương ứng với mỗi giá trị xám trong hình ảnh.
Hầu hết các ứng dụng thị giác máy tính yêu cầu tính toán các đặc tính ở mức độ vật thể, bao gồm kích thước, cường độ trung bình, hình dạng và nhiều đặc tính khác để nhận diện chính xác Để phân tích lỗi, cần xác định thêm nhiều đặc tính của vật thể Các hàm giới hạn các điểm ảnh phụ thuộc vào từng vật thể cụ thể, giúp xác định các đặc tính cần thiết Vậy vật thể là gì và làm thế nào để nhận diện nó một cách hiệu quả?
Một vật thể được xác định trong một ngữ cảnh cụ thể, và nhiều tính toán trong thị giác máy tính nhằm xác định vị trí của vật thể trong hình ảnh Để tính toán các đặc trưng của vật thể, ta cần sử dụng tất cả các điểm của nó, đồng thời sử dụng những đặc tính này để xác định các điểm đó Bài toán figure-ground sẽ được giải quyết để phân tách các điểm ảnh nổi bật khỏi nền, giúp nhóm các điểm vào trong vật thể.
Để hiểu thuộc tính của một bức ảnh, hệ thống thị giác máy tính cần thực hiện các tính toán đặc biệt ở cấp độ vật thể.
1.1 Xem xét các ứng dụng sau đây và nêu ra các kiến thức được sử dụng để hiểu biết các hình ảnh sau: a Đọc văn bản tiếng Anh b Hình ảnh trong nhà c Hình ảnh đường xá d Hình ảnh sân bay e Các cảnh quan ở vùng xa f Hình ảnh thông qua kính hiển vi của sinh vật g Hình ảnh X quang h Các hình ảnh khác
1.2 Liệt kê các mức tính toán của hình ảnh Cho hai ví dụ về mỗi mức tính toán
1.3 Xác định khoảng cách của các vật thể khác nhau trong cảnh quan là một bước quan trọng trong thị giác máy tính Ở đây, ta ví dụ một mô hình hình chiếu đơn giản Trong thị giác lập thể (stereo vision), hai camera được sử dụng để xác định khoảng cách từ một điểm sử dụng phép đạc tam giác Giả thiết rằng ta có 2 camera và được đặt để trục quang học song song với nhau Có một điểm P trong cảnh quan với hai hình chiếu P 1 và P 2 tương ứng Giả thiết rằng bạn biết vị trí của các camera và điểm P này xuất hiện ở cả hai hình ảnh, cách nào để xác định khoảng cách đến điểm này khi sử dụng hình chiếu phối cảnh tương ứng Nếu được tự do lựa chọn vị trí của các camera, thì liệu bạn có đặt chúng gần nhau hay đặt ra xa nhau?
1.4 Cho một hình ảnh, giả thiết rằng lấy mẫu với tỉ lệ lấy mẫu tương ứng với một mảng điểm ảnh NxN Ở mỗi điểm ảnh, bạn sử dụng cùng một số các bit để thể hiện giá trị cường độ Chuẩn bị một bảng chỉ ra bộ nhớ của một ảnh ở độ phân giải khác nhau Bắt đầu với 16x16 và đến 4096x4096 Vẽ yêu cầu bộ nhớ theo N
1.5 Trong bài tập ở trên, ta giả thi yết rằng các điểm ảnh đại diện cho một số lượng các bit khác nhau Khi ta chỉ sử dụng 1 bit để thể hiện ảnh nhị phân và 24 bit để thể hiện ảnh màu Trong hầu hết các ứng dụng, thì giá trị cường độ của một kênh màu đơn chỉ sử dụng 8 bit, hoặc 16 hoặc lớn hơn Vẽ độ lớn bộ nhớ yêu cầu với các số lượng khác nhau của bit, giả thiết rằng có một chuỗi cố định 512x512 điểm ảnh
XỬ LÝ HÌNH ẢNH NHỊ PHÂN
NGƯỠNG ẢNH
Xác định hình ảnh nhỏ đại diện cho vật thể là một trong những thách thức lớn trong hệ thống thị giác Trong khi con người có khả năng thực hiện điều này một cách tự nhiên, máy tính lại gặp khó khăn Phân đoạn hình ảnh, hay còn gọi là việc chia nhỏ hình ảnh thành các phần, là một phương pháp quan trọng trong nhận diện vật thể Mỗi phần, được gọi là vùng, đại diện cho một vật thể hoặc một phần của vật thể Theo định nghĩa, một vùng là tập con của hình ảnh, và phân đoạn là nhóm các điểm ảnh trong các vùng khác nhau.
Pi = toàn bộ hình ảnh ({Pi} là phân đoạn toàn diện)
Pi (({Pi} là phân đoạn độc lập)
Mỗi vùng Pi thỏa mãn một điều kiện cho trước, nghĩa là các điểm trên phân đoạn sẽ có vài đặc tính chung
Các điểm ảnh phụ thuộc vào các vùng lân cận, khi được nhập lại sẽ không thỏa mãn điều kiện cho trước
Phân đoạn ảnh là một bước quan trọng trong việc hiểu hình ảnh, yêu cầu phải thỏa mãn điều kiện có cùng cường độ Điều kiện này có thể được đơn giản hóa, nhưng sẽ trở nên phức tạp hơn khi áp dụng vào thực tế.
Hình ảnh nhị phân được tạo ra bằng cách sử dụng phân đoạn thích hợp cho ảnh xám, trong đó giá trị cường độ của vật thể nằm trong một khoảng nhất định và giá trị cường độ của điểm ảnh nền nằm ngoài khoảng đó Khi áp dụng hàm ngưỡng, các điểm trong khoảng sẽ được gán giá trị 1, trong khi các điểm ngoài khoảng sẽ có giá trị 0 Do đó, phân đoạn ảnh và ngưỡng ảnh trong hệ nhị phân là đồng bộ Nhiều camera hiện nay được thiết kế để thực hiện ngưỡng ngay trong phần cứng, với ngưỡng đầu ra là hình ảnh nhị phân Trong hầu hết các ứng dụng, camera cung cấp hình ảnh tỷ lệ xám và hình ảnh nhị phân được tạo ra từ ngưỡng.
Ngưỡng là phương pháp chuyển đổi ảnh xám thành ảnh nhị phân, giúp tách biệt vật thể mong muốn khỏi hình nền Phương pháp này rất hiệu quả trong việc phân biệt đối tượng và hình nền, nhưng yêu cầu giữa hai đối tượng phải có độ tương phản đủ lớn Để đạt được điều này, cần xác định giá trị cường độ của cả hai vùng Trong một ngưỡng cố định, các đặc tính cường độ sẽ xác định giá trị của ngưỡng.
Giả định rằng hình ảnh nhị phân B[i,j] có ngưỡng tương đương với ảnh xám F T [i,j], được xác định bằng cách áp dụng ngưỡng T cho các pixel của ảnh gốc xám F[I,j].
B[i,j]=FT[i,j] (2.1) Ở đây, vật thể tối hơn nằm ở trên nền sáng:
Nếu giá trị cường độ vật thể nằm trong khoảng [T1,T2] thì ta sẽ có:
Một ngưỡng rộng với cường độ của một vật thể từ nhiều khoảng cách khác nhau được mô tả bởi tập hợp Z, chứa các giá trị cường độ của các thành phần vật thể Hình 2.2 minh họa kết quả tạo ra hình ảnh bằng cách sử dụng các ngưỡng khác nhau.
Việc lựa chọn ngưỡng thích ứng có thể khác nhau tùy thuộc vào từng miền, nghĩa là một ngưỡng nhất định có thể hoạt động hiệu quả trong một miền nhưng lại không phát huy tác dụng trong miền khác.
Hình 2.2 minh họa sự khác biệt giữa hình ảnh mức xám và kết quả hình ảnh nhị phân khi áp dụng các ngưỡng khác nhau Phía trên cùng là hình ảnh gốc ở định dạng mức xám, trong khi hình ảnh bên trái ở giữa thể hiện ngưỡng gốc với TH, và hình ảnh bên phải là kết quả từ các ngưỡng T1 và T2H.
Phía đáy trái T!, đáy phải T5 và T 2 %5
Ngưỡng được xác định dựa trên kinh nghiệm của từng miền áp dụng Trong một số trường hợp, hệ thống được sử dụng để phân tích mối quan hệ giữa các yếu tố trong cảnh quan và xác định giá trị phù hợp cho ngưỡng.
Ngưỡng tự động cho hình ảnh là bước đầu tiên trong phân tích hình ảnh trong hệ thống thị giác máy tính Nhiều kỹ thuật đã được phát triển để phân bố cường độ của ảnh, từ đó lựa chọn giá trị ngưỡng tự động phù hợp dựa trên kiến thức về vật thể Hình 1.11 tóm tắt quá trình này với hình ảnh và đồ thị minh họa Các phương pháp tự động về ngưỡng ảnh sẽ được giới thiệu chi tiết trong Mục chương 3.2.
ĐẶC TÍNH HÌNH HỌC
Giả định rằng các vật thể trong hình ảnh đã được xác định theo ngưỡng đã chọn, bước tiếp theo là nhận dạng và xác định vị trí của chúng Trong nhiều ứng dụng công nghiệp, vị trí của camera và môi trường thường được biết trước, cho phép chúng ta sử dụng hình học đơn giản để xác định vị trí ba chiều của vật thể từ các hình ảnh hai chiều Hơn nữa, trong hầu hết các trường hợp, số lượng vật thể khác nhau không lớn Nếu các vật thể có sự khác biệt về kích thước và hình dạng, các đặc tính này sẽ được xác định từ hình ảnh để hỗ trợ quá trình nhận dạng Nhiều ứng dụng công nghiệp tận dụng các đặc tính về miền như kích thước, vị trí và hướng để xác định và nhận dạng các vật thể.
Khi một hình ảnh chứa nhiều vật thể, chúng ta có thể xác định các đặc tính riêng biệt của từng vật thể thông qua việc liên kết các thành phần hoặc vùng Chương này sẽ giới thiệu khái niệm về liên kết và các thuật toán tìm kiếm thành phần liên kết trong hình ảnh Tuy nhiên, trong phần này, chúng ta sẽ chỉ xem xét trường hợp hình ảnh có một vật thể duy nhất.
Nhìn chung, vùng diện tích A của một hình ảnh nhị phân được cho bởi:
Vị trí của một vật thể trong hình ảnh là yếu tố quan trọng trong nhiều ứng dụng, với nhiều phương pháp xác định như hình vuông hoặc hình tròn Trong môi trường công nghiệp, vật thể thường xuất hiện trên bề mặt cố định, chẳng hạn như cái bàn, và vị trí camera được xác định tương ứng với bề mặt đó Trong những tình huống này, vị trí của vật thể trên hình ảnh giúp xác định vị trí không gian của chúng Vị trí này được định nghĩa thông qua tâm diện tích của hình ảnh vật thể Mặc dù có thể sử dụng hình chữ nhật để xác định vị trí, tâm diện tích thường là một điểm duy nhất và ít bị ảnh hưởng bởi nhiễu hình ảnh.
Tâm của diện tích trong hình ảnh nhị phân trùng với khối lượng khi coi cường độ tại một điểm là khối lượng của điểm đó Để xác định vị trí của vật thể, chúng ta áp dụng các phương pháp tính toán phù hợp.
(2.7) Ở đây, x và y là tọa độ của tâm của vùng đo được tương ứng với điểm ảnh phía trên bên trái Do đó, vị trí của vật thể:
Moment bậc nhất là một khái niệm quan trọng trong việc xác định vị trí, không nhất thiết phải là số nguyên và thường nằm giữa các giá trị nguyên trong chuỗi ảnh Điều này cho thấy khả năng tính toán vị trí chính xác hơn so với độ phân giải của các tọa độ điểm ảnh.
Việc xác định hướng của một vật thể phức tạp hơn so với việc tính toán vị trí Đối với một số hình dạng như hình tròn, hướng không phải là duy nhất, do đó cần kéo dài vật thể để xác định hướng một cách chính xác Trong trường hợp này, trục của moment bậc hai tối thiểu 2D thường tương ứng với trục tuyến tính và được sử dụng như là trục đã kéo dài để xác định hướng của vật thể.
Trục của moment thứ hai cho một vật thể ảnh là đường thẳng có tổng các khoảng cách bậc hai nhỏ nhất giữa các điểm của vật thể và đường thẳng đó Đối với hình ảnh nhị phân B[i,j], việc tính toán khớp bậc hai tối thiểu cho các điểm trên vật thể là cần thiết Mục tiêu là tối thiểu hóa tổng các khoảng cách vuông góc bậc hai của các điểm vật thể so với đường thẳng.
Khoảng cách vuông góc từ một điểm vật thể [i,j] đến đường thẳng được ký hiệu là rij Để tránh những vấn đề tính toán khi đường thẳng gần như vuông góc, chúng ta sử dụng hệ tọa độ cực để biểu diễn đường thẳng, với công thức ρ = xcosθ + ysinθ.
Hình 2.3 minh họa hướng của tiếp tuyến trên đường thẳng với trục x, đồng thời thể hiện khoảng cách từ điểm gốc đến đường thẳng Khoảng cách r của một điểm (x, y) được xác định bằng cách thay thế tọa độ của điểm vào phương trình của đường thẳng.
Gán đường thẳng lên các tiêu chuẩn tối thiểu của bài toán nhằm khớp một đường thẳng với các điểm của vật thể Để thực hiện điều này, cần xác định các tham số và tối thiểu hóa các giá trị liên quan.
(2.13) Gán độ lệch tương ứng từ đến 0 để giải quyết bài toán biến :
(2.14) chỉ ra rằng đường hồi quy qua tâm của vật thể tại điểm ( Sau khi trừ giá trị này cho phương trình và thay thế: x’=x- y’=y- (2.15)
Bài toán tối thiểu hóa trên trở thành:
Hình 2.3: Hệ tọa độ cực của một đường thẳng
Các tham số: a= (2.17) b=2 (2.18) c= (2.19) là các hàm moment bậc hai Biểu thức của có thể viết lại như sau:
(2.20) Đạo hàm và đặt kết quả là 0 và giải quyết bài toán biến θ, ta có: tan (2.21)
Hướng của trục được cho bởi: sin (2.22) cos (2.23)
Trục của hướng được xác định bằng cách tối thiểu hóa giá trị Cần lưu ý rằng nếu b=0 và a=c, thì vật thể sẽ không có một hướng trục duy nhất Giá trị độ giãn E được tính bằng tỷ lệ giữa giá trị lớn nhất và giá trị nhỏ nhất.
Khi biểu thức chứa sin 2θ và cos 2θ được trừ với phương trình (2.20), dấu của biểu thức sẽ được xác định khi đạt giá trị lớn nhất hoặc nhỏ nhất Cần lưu ý rằng độ kéo dài bằng 1 đối với một đường tròn, đây chính là ngưỡng dưới của E.
CÁC HÌNH CHIẾU
Hình chiếu của hình ảnh nhị phân trên đường thẳng có thể chứa một phần của đường thẳng trong ô và các điểm ảnh giá trị 1 nằm trên các đường vuông góc với mỗi ô Hình chiếu là hình ảnh được nén lại, giữ lại thông tin cần thiết Tuy nhiên, một hình chiếu có thể tương ứng với nhiều hình ảnh khác nhau Để xác định hình chiếu thẳng đứng và nằm ngang, cần đếm số lượng điểm ảnh giá trị 1 trên mỗi ô theo hướng ngang và dọc.
Hình chiếu H(i) dọc theo hàng và hình chiếu V(j) dọc theo cột trong hình ảnh nhị phân được cho bởi:
Hình 2.4: Hình ảnh nhị phân của một con thằn lằn với hình chiếu theo phương nằm ngang và thẳng đứng
Hình 2.5: Hình chiếu theo phương ngang và thẳng đứng của một hình ảnh
Hình 2.6: Hình ảnh nhị phân của thằn lằn và hình chiếu cạnh chéo
Một hình chiếu tổng quát lên bất cứ đường thẳng nào được định nghĩa Một ví dụ về hình chiếu cạnh chéo được đưa ra ở Hình 2.6
Moment bậc nhất của một hình ảnh tương đương với moment bậc nhất của hình chiếu Để xác định vị trí của một vật thể, chỉ cần tính toán moment bậc nhất từ hình chiếu ngang và hình chiếu thẳng đứng.
Hướng của một vật thể liên quan đến kiến thức về moment bậc hai, có thể được tính từ các hình chiếu của hình ảnh Các hình chiếu này bao gồm hình chiếu ngang, thẳng đứng và hình chiếu chéo, cho phép xác định chính xác hướng của vật thể.
Trong một vài ứng dụng, hình chiếu có thể được sử dụng như là các đặc tính để nhận dạng các vật thể
Để cập nhật hình chiếu chéo, cần tính toán chỉ số đồ thị theo hàng và cột, ký hiệu lần lượt là I và j Giả sử kích thước hình ảnh là n hàng và m cột, thì i và j nằm trong khoảng từ 0 đến n-1 và 0 đến m-1 Chỉ số d của đường chéo có thể được tính bằng biến đổi affine, kết hợp tuyến tính với hằng số, được biểu diễn bởi công thức: d = ai + bj + c (2.30).
Hình chiếu chéo cần n+m-1 buckets, với biến đổi affine được biểu thị sao cho điểm ảnh ở góc trên bên phải nằm ở vị trí đầu tiên và điểm ảnh ở góc dưới bên trái ở vị trí cuối Giải phương trình cho ta các kết quả: a.0+b(m-1)+c=0 (2.31) và a(n-1)+b.0+c=n+m-2 (2.32), từ đó suy ra a=-b (2.33).
MÃ HÓA THEO CHIỀU DÀI
Một ứng dụng khác của hình ảnh nhị phân là mã hóa theo chiều dài, trong đó số lượng các phân đoạn dài từ điểm ảnh 1 trên hình ảnh được sử dụng để mã hóa hình ảnh tương ứng Phương pháp giải mã này được áp dụng trong biến đổi hình ảnh, đồng thời cho phép tính toán trực tiếp một số đặc tính như miền vật thể từ đoạn mã hóa theo chiều dài.
Có hai phương pháp phổ biến trong mã hóa theo chiều dài: phương pháp đầu tiên sử dụng vị trí bắt đầu và độ dài của mỗi hàng, trong khi phương pháp thứ hai chỉ sử dụng độ dài mã hóa bắt đầu từ 1 Chúng ta sẽ áp dụng phương pháp thứ hai và đại diện độ dài đoạn cho từng cột của hình ảnh, với r i,k là ký hiệu độ dài ở hàng thứ k và cột thứ i Mã hóa đoạn dài của một hình ảnh được minh họa trong Hình 2.7.
Hình ảnh nhị phân: Điểm bắt đầu và phân đoạn dài 1
Phân đoạn dài 1 và 0 là: 3,3,2,3,4,1,2,1,3
Hình 2.7: Giải mã dọc theo chiều dài của một hình ảnh nhị phân đơn giản
Diện tích của các vật thể có được bằng cách tính tổng các phân đoạn dài 1 là:
A= (2.35) Ở đây mi là số lượng các phân đoạn dài ở hàng thứ i
Hình chiếu ngang có thể được tính toán dễ dàng từ đoạn giải mã theo chiều dài mà không cần tạo hình ảnh Trong khi đó, hình chiếu thẳng đứng và hình chiếu chéo cũng có thể tính toán đoạn mã theo chiều dài mà không cần hình ảnh, thông qua các đoạn mã tinh vi hơn Diện tích và moment bậc 1 và 2 có thể được xác định từ hình chiếu như đã trình bày ở phần 2.3 Tuy nhiên, để tính toán các đặc tính khác của ảnh, cần thiết phải tạo ra ảnh riêng phần hoặc toàn phần.
THUẬT TOÁN NHỊ PHÂN
Phân đoạn điểm ảnh vật thể từ các điểm ảnh nền là một bài toán phức tạp Thay vì giải quyết trực tiếp, chúng ta sẽ tập trung vào việc xác định vật thể và các điểm liên quan trong ảnh được gán nhãn Vấn đề chính là nhóm các điểm trong ảnh lại với nhau và gán nhãn cho các điểm ảnh trong vật thể Chúng ta giả định rằng tất cả các điểm này là xấp xỉ nhau, do đó cần có một định nghĩa chính xác hơn về xấp xỉ không gian để phát triển thuật toán phân chia nhóm các điểm lân cận Các định nghĩa này sẽ hỗ trợ cho mục đích phân đoạn hiệu quả hơn.
Hình 2.8: Hình chiếu theo phương ngang được tính toán từ mã hóa theo chiều dài
Mã hóa theo chiều dài Hình chiếu ngang
Trong hình ảnh kỹ thuật số, mỗi điểm ảnh nằm gần nhau trong không gian Trong một lưới hình vuông, mỗi điểm ảnh chia sẻ vùng biên với bốn điểm ảnh lân cận và một góc với bốn điểm ảnh khác Hai điểm ảnh được coi là lân cận nếu chúng có chung đường biên Cụ thể, điểm ảnh tại vị trí [i,j] có bốn điểm ảnh lân cận là [i+1,j], [i-1,j], [i,j+1] và [i,j-1] Ngoài ra, trong tổng số tám điểm ảnh lân cận, sẽ bao gồm cả các điểm ảnh ở các vị trí chéo.
4 lân cận cộng với [i+1,j+1],[i+1,j-1], [i-1,j+1] và [i-1,j-1] Một điểm ảnh gồm 4 liên kết ở 4 lân cận và 8 liên kết ở 8 vùng lân cận (xem Hình 2.9)
8 điểm lân cận [i+1,j+1], [i+1,j-1], [i-1,j+1], [i-1,j-1] cộng với 4 điểm lân cận
Hình 2.9: Chuỗi từ 4 đến 8 điểm lân cận của hình ảnh chữ nhật Điểm ảnh [i,j] được đặt ở vị trí tâm của mỗi hình vẽ
Hình 2.10: Ví dụ về 4 đường và 8 đường thẳng Đường thẳng:
Một đường thẳng giữa các điểm ảnh từ [io,jo] đến [in,jn] bao gồm một chuỗi các điểm ảnh được ký hiệu là [io,j0], [i1,j1], …, [in,jn] Trong chuỗi này, điểm ảnh tại vị trí [ik,jk] là điểm lân cận của điểm ảnh tại [ik+1,jk+1], với k nằm trong khoảng xác định.
Nếu một điểm lân cận sử dụng 4 liên kết, đường thẳng sẽ được chia thành 4 đoạn, trong khi với 8 liên kết, đường thẳng sẽ chia thành 8 đoạn Hình 2.10 minh họa rõ ràng điều này.
Một tập hợp của các điểm ảnh 1 của một hình ảnh gọi là tiền cảnh và được ký hiệu là S
Một điểm ảnh p S được gọi là có liên kết với q S nếu có một đường thẳng từ p đến q bao gồm toàn bộ các điểm ảnh của S
Ghi chú rằng liên kết này là một mối liên hệ tương đương Đối với ba điểm ảnh p, q và r trong tập S ta có các đặc tính sau:
1 Điểm ảnh p liên kết với p (liên kết động)
2 Nếu p liên kết với q thì q sẽ liên kết với p (liên kết tương hỗ)
3 Nếu p liên kết với q và q liên kết với r thì p liên kết với r (liên kết bắt cầu)
Các thành phần liên kết:
Một tập các điểm ảnh mà mỗi điểm ảnh được liên kết đến tất cả các điểm ảnh khác được gọi là liên kết thành phần
Hình nền là một tập hợp các điểm liên kết với nhau từ phần bù của S, trong đó tất cả các điểm đều nằm trong biên của một ảnh.
Tất cả các thành phần khác của gọi là các lỗ
Hãy xem một hình đơn giản dưới đây:
Trong hình này, có tổng cộng 4 vật thể và 1 ô trống khi xem xét 4 liên kết cho cả mặt trước và mặt sau Nếu áp dụng liên kết 8, sẽ có 1 vật thể mà không có ô trống Tuy nhiên, cả hai trường hợp đều dẫn đến một tình huống không xác định, cho thấy sự phức tạp trong việc xác định số lượng vật thể và lỗ trong hình.
Trong bài viết này, chúng ta xem xét cách xác định liên kết giữa các điểm ảnh, trong đó 1 biểu thị cho sự kết nối và 0 cho sự không kết nối Để tránh những vấn đề không mong muốn, cần sử dụng các liên kết khác nhau cho cả vật thể và nền Nếu 8 liên kết được áp dụng cho S, thì 4 trong số đó phải được sử dụng cho tập hợp Đường biên S được định nghĩa là tập hợp các điểm ảnh S có 4 điểm lân cận thuộc về nó, và thường được ký hiệu là S’.
(a) Ảnh gốc (b) Điểm ảnh biên Điểm ảnh bên trong Điểm ảnh viền
Hình 2.11 minh họa một hình nhị phân với các đường biên, đường bao trong và đường viền Điểm bên trong là tập hợp các điểm ảnh thuộc S nhưng không nằm ở biên, và vùng bên trong của S được xác định là (S-S’) Các điểm bao quanh cũng đóng vai trò quan trọng trong việc xác định cấu trúc hình học của hình nhị phân này.
Vùng T bao quanh S hoặc S nằm bên trong T nếu mọi điểm của S đều có 4 đường nối đến vùng biên của hình cắt qua T Hình 2.11 minh họa một ví dụ về hình ảnh nhị phân với đường biên, vùng bên trong và vùng bao quanh.
Một chức năng quan trọng trong thị giác máy tính là xác định mối liên kết giữa các thành phần của hình ảnh, tạo thành một vùng đại diện cho vật thể Hầu hết các vật thể đều có bề mặt, và các điểm liên quan đến bề mặt này thường là các điểm gần kề Ký hiệu “điểm gần kề không gian” được thực hiện thông qua việc liên kết các thành phần trong hình ảnh số Tuy nhiên, thuật toán liên kết các thành phần thường gặp khó khăn trong hệ thị giác nhị phân do tính chất tuần tự, vì các hàm liên kết là hàm toàn cục Trong trường hợp chỉ có một vật thể, việc tìm kiếm các thành phần liên kết không cần thiết, nhưng khi có nhiều vật thể, việc xác định các thành phần liên kết trở nên cần thiết để nhận diện đặc tính và vị trí của chúng.
Thuật toán gán nhãn thành phần xác định tất cả các thành phần liên kết trong một hình ảnh và gán nhãn duy nhất cho các điểm thuộc cùng một thành phần Hình 2.12 minh họa hình ảnh và các thành phần liên kết được gán nhãn tương ứng Trong nhiều ứng dụng, việc tính toán các thuộc tính như kích cỡ, vị trí, hướng và đường biên chữ nhật của các thành phần đã được gán nhãn là rất quan trọng Có hai phương pháp chính để thực hiện gán nhãn thành phần, bao gồm thuật toán đệ quy và thuật toán tuần tự.
Hình 2.12 (a) Hình ảnh các vùng, (b) các vùng kết nối trong ảnh
Thuật toán đệ quy, được trình bày trong thuật toán 2.1, không hiệu quả trong quy trình xử lý tuần tự Chính vì sự không hiệu quả này, thuật toán 2.1 ít được áp dụng phổ biến trong máy tính, nhưng lại được sử dụng trong môi trường máy tính song song.
Thuật toán 2.1: Thuật toán liên kết các thành phần đệ quy
1 Quét hình ảnh để tìm ra điểm ảnh 1 không gán nhãn và gán cho nhãn mới L
2 Hồi quy nhãn L cho tất cả các điểm lân cận 1
3 Dừng quy trình lặp nếu có nhiều hơn 1 điểm ảnh không gán nhãn
Thuật toán tuần tự yêu cầu hai ảnh để hoạt động hiệu quả Khi áp dụng thuật toán này cho hai cột của một ảnh cùng lúc, nó trở nên hữu ích trong trường hợp các ảnh được lưu trong một tệp và không gian bộ nhớ hạn chế Trong thuật toán 2.2, các điểm lân cận của một điểm ảnh được xem xét để gán nhãn cho điểm ảnh đó.
1 Trong trường hợp hai nhãn khác nhau của một điểm ảnh thì bảng tương đương được sử dụng để dò tìm tất cả các nhãn có giá trị tương đương Bản này thường được sử dụng trong phần thứ hai để gán nhãn duy nhất vào tất cả các điểm ảnh của một thành phần
Trong thuật toán quét ảnh từ trái sang phải và từ trên xuống dưới, có ba trường hợp chính liên quan đến việc xử lý các điểm ảnh Thuật toán xem xét bốn điểm lân cận: một ở trên và một bên trái của điểm ảnh hiện tại Nếu không có điểm ảnh nào là 1, điểm ảnh sẽ được gán nhãn mới Nếu chỉ một trong hai điểm ảnh là 1, điểm ảnh yêu cầu nhãn mới Khi cả hai điểm ảnh đều là 1 và đã được gán nhãn L, điểm ảnh mới sẽ nhận nhãn L’ Ngược lại, nếu các điểm lân cận có nhãn khác nhau, chúng sẽ được trộn lại và điểm ảnh sẽ nhận một nhãn trong số đó, thường là nhãn nhỏ hơn, đồng thời ghi lại cả hai nhãn như nhãn tương đương trong bảng tương đương.
HOẠT ĐỘNG HÌNH THÁI
Hoạt động hình thái toán học là một lĩnh vực nghiên cứu quan trọng trong việc phân tích hình dạng ảnh, đặc biệt trong ứng dụng thị giác máy tính Phương pháp này hỗ trợ thiết kế các thuật toán hiệu quả, dựa trên hình dạng, hình tượng và ý tưởng Một yếu tố cơ bản trong tiếp cận hình thái học là hình ảnh nhị phân, cung cấp nền tảng cho việc xử lý và phân tích thông tin hình ảnh.
Sự giao cắt của hai hình ảnh nhị phân A và B được viết là A là hình ảnh nhị phân với 1 là tất cả điểm ảnh p ở cả 2 tập A và B Do đó:
Việc kết hợp A và B được viết lại là: A là một hình ảnh nhị phân với 1 ở tất cả các điểm ảnh p với 1 ở A hoặc 1 ở B hoặc 1 ở cả hai, với ký hiệu là:
Cho là một hình ảnh nhị phân toàn phần (tất cả đều là 1) và A là một hình ảnh nhị phân Phần bù của A được xác định bằng cách thay thế các giá trị 1 thành 0 và ngược lại, tạo nên một mối liên hệ giữa các giá trị trong A.
Vec tơ tổng của hai điểm ảnh p và q với chỉ số [i,j] và [k,l] là điểm ảnh p+q với chỉ số [i+k,j+l] Vec tơ khác biệt p-q là điểm ảnh với chỉ số [i-k,j-l]
Hình 2.24 minh họa quá trình mở rộng và co lại của chữ "h" Phần trên cùng là hình ảnh nhiễu gốc, phần giữa thể hiện hình ảnh mở rộng qua việc co lại, và phần dưới là quá trình co cụm sau đó mở rộng Cần lưu ý rằng việc mở rộng rồi co cụm hiệu quả trong việc làm đầy các lỗ nhưng không loại bỏ nhiễu, trong khi việc co cụm rồi mở rộng giúp loại trừ nhiễu nhưng không làm đầy các lỗ.
Nếu A là hình ảnh nhị phân thì p là điểm ảnh, và ma trận biến đổi
A bởi p là một hình ảnh được ghi bởi:
Việc tịnh tiến hình ảnh nhị phân A bởi điểm ảnh p sẽ dịch chuyển ảnh gốc từ A đến p Nếu Ab1, Ab2,…, Abn là các tịnh tiến của ảnh nhị phân A bởi từng điểm ảnh trong tập B={b1, b2,…, bn}, thì việc kết hợp các tịnh tiến này được gọi là giãn nở tập A bởi B.
Việc giãn nở liên quan đến tính chất liên kết và giao hoán, cho phép chuyển đổi các hình dạng phức tạp thành những hình dạng đơn giản hơn thông qua sự kết hợp của các tuần tự giãn nở.
Sự co ảnh là quá trình ngược lại với giãn nở, trong đó hình ảnh nhị phân A bị co lại bởi hình ảnh B Tại một điểm ảnh p, sự co ảnh xảy ra khi mỗi điểm ảnh 1 trong A tương ứng với sự dịch chuyển của B đến p Hình thức của sự co ảnh được thể hiện rõ ràng trong quá trình này.
Hình ảnh nhị phân B thường là một đa giác đều, được xác định bởi các điểm dò từ hình A và cấu trúc của phần tử Việc co ảnh đóng vai trò quan trọng trong nhiều ứng dụng khác nhau.
Sự co ảnh của một hình ảnh bởi cấu trúc phần tử ở tất cả các vị trí nơi mà phần tử cấu trúc chứa trong hình ảnh
Hình 2.25 hiển thị ảnh mẫu A ở bên trái và ảnh cấu trúc B ở bên phải Cần lưu ý rằng điểm tâm của vật thể cấu trúc B tối hơn so với các điểm ảnh khác trong cùng ảnh.
Trong hình 2.26, phép tịnh tiến của phần tử cấu trúc B đến điểm ảnh 1 tại A diễn ra khi toàn bộ cấu trúc không nằm trong A Quá trình giãn nở sẽ cho thấy mỗi điểm ảnh trong cấu trúc phân tử đều xuất hiện trong hình ảnh cuối Ngược lại, trong quá trình co ảnh, các điểm ảnh từ hình ảnh gốc sẽ bị loại bỏ.
Hình 2.27: Việc làm giãn tập A bởi B Đường biên của hình A được tô đậm
Hình 2.28: Sự co ảnh của A bởi B Đường biên của hình gốc A được tô đường thẳng đậm
Hình 2.25 đến Hình 2.28 minh họa quá trình giãn nở và co lại của ảnh với một vật thể nhị phân đơn giản và hình dạng chữ T của phần tử cấu trúc Hình 2.26 cung cấp ví dụ về sự dịch chuyển cấu trúc phần tử của điểm ảnh 1 trong hình gốc khi cấu trúc không tương thích với vật thể gốc Trong quá trình giãn nở, mỗi điểm ảnh trong phần tử cấu trúc sẽ bao gồm cả những điểm ảnh không chứa vật thể gốc, được thể hiện bằng điểm ảnh làm mờ Trong khi đó, trong quá trình co ảnh, các điểm ảnh của phần tử cấu trúc sẽ bị loại bỏ nếu toàn bộ cấu trúc không nằm trong vật thể Nếu toàn bộ cấu trúc phân tử không tương thích với vật thể gốc, sẽ không có sự thay đổi nào đối với vật thể bị giãn nở hoặc co ảnh, tức là không có điểm ảnh nào được thêm vào hoặc loại bỏ.
Việc làm giãn nở và co ảnh trong tự nhiên thể hiện cấu trúc hình học, không chỉ đơn thuần là một hàm logic Hình học được hình thành trong hình ảnh nhị phân được gọi là sự tương phản Sự tương phản của hình ảnh nhị phân B là hình ảnh nhị phân B’ đối xứng với B.
Hình học này là bao gồm việc giãn nở và co ảnh được thể hiện bởi:
Ta có hàm logic sau:
= (2.54) Được gọi là định luật Morgan Tính đối ngẫu của việc giãn nở và co ảnh được mô tả từ Hình 2.29 đến 2.31
Việc giãn nở và co ảnh, thường được gọi là lọc hình ảnh, giúp loại bỏ nhiễu tự nhiên bằng cách áp dụng các hàm giãn nở và co ảnh dựa trên cấu trúc vật thể Bộ lọc này tác động đến hình dạng của vật thể trong ảnh Các hàm toán học cơ bản có thể kết hợp thành các tuần tự phức tạp, ví dụ, giãn nở theo sau bởi co ảnh với cùng cấu trúc vật thể có khả năng loại bỏ các điểm ảnh trong những vùng rất nhỏ, tạo ra khoảng trống trong ảnh.
Quá trình này được gọi là vật thể mở (opening), trong đó nếu sử dụng hình ảnh dạng đĩa, tất cả các vùng lồi hoặc các điểm ảnh nhỏ hơn kích thước đĩa sẽ bị loại bỏ, tạo thành một bộ lọc Các điểm ảnh còn lại sẽ thể hiện vị trí cấu trúc phân tử trong hình ảnh cận cảnh Sự khác biệt giữa kết quả này và hình ảnh gốc sẽ được thể hiện ở các vùng rất nhỏ, có thể phản ánh các tính chất của vật thể tùy thuộc vào ứng dụng.
Trong tuần tự đối ngược, sự giãn nở do co ảnh tạo ra sẽ làm đầy các lỗ và giảm kích thước của các mặt lõm so với đầu dò, hiện tượng này được gọi là vật thể đóng Hàm này được minh họa trong Hình 2.32 và 2.33 với phần tử cấu trúc kích thước T Bên cạnh đó, các phần bị loại bỏ cũng quan trọng không kém so với phần được giữ lại Bộ lọc này có khả năng chặn các đặc tính không gian hoặc phân biệt các vật thể dựa trên kích thước của chúng Cấu trúc phân tử không chỉ mang tính nén mà còn có thể là một phần của các điểm ảnh, từ đó tạo ra chuỗi điểm ảnh phân phối có thể được phát hiện.
Hình 2.32: Vùng mở Bên trái là vùng co ảnh ban đầu, bên phải: vùng co giãn tối ưu Lớp biên của hình ảnh A được thể hiện ở đường đậm
Hình 2.33: Vùng đóng Bên trái là vùng co giãn ban đầu, bên phải là vùng co ảnh thành công Lớp biên của một hình A được thể hiện ở đường đậm
NHẬN DẠNG CÁC TÍNH CHẤT QUANG HỌC
Chức năng hình thái vật thể giúp nhận dạng đặc tính quang học thông qua mối liên hệ giữa các nhiễu có cùng kích thước và hình dạng Quá trình bắt đầu bằng việc phân tách tính chất từ hình ảnh có liên quan, sau đó thực hiện việc lấp đầy các lỗ và khoảng trống Tiếp theo, các đặc tính ảnh được nén để loại bỏ vùng không mong muốn và giảm kích thước, tạo ra mô hình đặc tính ảnh Để nhận dạng các ảnh khác nhau, đặc tính mô hình được sử dụng để thể hiện sự co ảnh Các hình ảnh được làm sạch trước khi co ảnh, và sau đó tính toán các thành phần liên kết, áp dụng bộ lọc để loại bỏ các vùng quá nhỏ và điều chỉnh vị trí của từng vùng Mô hình hình ảnh sau khi được xử lý sẽ đáp ứng các đặc tính của vật thể, bao gồm các mẫu có kích thước và cỡ chữ khác nhau Tuy nhiên, nhận dạng cỡ chữ vẫn là một thách thức lớn Nhận dạng tính chất quang học có thể thực hiện trong thời gian thực với sự hỗ trợ của máy tính chuyên dụng.
2.1 Các moment bậc 0, một và bậc hai của vùng nhị phân cung cấp các thông tin quan trọng về kích thước, vị trí và hướng của ảnh Xác định các moment bậc cao hơn của một vùng Bạn có nghĩ rằng các moment này sẽ cung cấp các đặc tính hữu dụng cho vùng và nếu vậy thông tin nào cung cấp cho các moment bậc cao hơn?
2.2 Trong nhiều ứng dụng, bước đầu tiên là xác định vị trí hình ảnh mà các vật thể tương thích Sau khi các vật thể này được định vị, thì hầu hết quy trình chỉ tập trung vào các vùng này Cách nào bạn sử dụng các hình chiếu vào các vùng tính toán này?
2.3 Thuật toán gán nhãn thành phần là tính toán theo thắt nút cổ chai được sử dụng trong nhiều ứng dụng Nó có thể được xem như là cầu nối giữa các mức thấp và mức cao trong thị giác máy tính Cách nào để phát triển thuật toán nhanh chóng để tính các thành phần liên kết? Cách nào để phát triển thuật toán song song?
2.1 Sử dụng phương trình ngưỡng và xem một hình ảnh có nhiều mức ngưỡng Tìm ngưỡng phù hợp để thể hiện tốt nhất một vật thể trong hình ảnh Lựa chọn vật thể khác và tìm ngưỡng tốt nhất Lặp lại các bước này cho mỗi vật thể Các ngưỡng này có giống nhau không? Tại sao? Lặp lại với một vài hình ảnh khác nhau
2.2 Phát triển thuật toán để tính toán vùng và moment bậc nhất và hai của một vùng từ phân tử phân đoạn dài
2.3 Phát triển thuật toán trục trung gian Áp dụng vào một vài hình ảnh nhị phân của các vật thể ảnh khác thường để nghiên cứu điểm mạnh và yếu của kỹ thuật thể hiện hình dạng ảnh
2.4 Trong nhiều ứng dụng robot, một trục trung gian có thể được sử dụng cho đường dẫn Xem xét sơ đồ của một tòa nhà Tìm trục trung gian ở hành lang và tìm ra hành lang nào được dẫn đường bởi robot với một kích thước riêng biệt
2.5 Xây dựng thuật toán để thực hiện việc mở rộng và làm co lại Sử dụng thuật toán để loại bỏ các loại nhiễu khác nhau trong hình ảnh nhị phân
2.6 Điều chỉnh thuật toán co giãn để tính độ thông minh mà nó không hoàn toàn loại trừ trong một vùng Đặc tính này có thể sử dụng để tính toán số lượng các thành phần liên kết trong một vùng Hãy thực hiện thuật toán này
2.7 Thiết kế hệ thống thị giác máy tính để xác định vật thể từ hình ảnh nhị phân Xem xét vật thể như là đồng tiền, bút bi, vở và các thiết bị khác Phát triển một thuật toán nhận dạng dựa trên đặc tính đã học ở chương này Thực hiện tất cả các thuật toán và kiểm tra hệ thống.