Đặc điểm hình dạng sản phẩm

Một phần của tài liệu Ứng dụng camera 3D trong việc phân loại sản phẩm theo hình dạng và kích thước (Trang 29 - 51)

Đặc điểm Hình vng Hình chữ nhật Hình tam giác

Đỉnh 4 4 3 Cạnh 2 cạnh kề bằng nhau 2 cạnh kề khơng bằng nhau Có 3 cạnh

2.2.3 Các bƣớc thực hiện phân loại sản phẩm theo hình dạng

Hình 2.7: Sơ đồ các bƣớc thực hiện phân loại sản phẩm Thu nhận ảnh Thu nhận ảnh

Thu thập ảnh là bƣớc mà ảnh có thể nhận qua camera hoặc có thể lấy từ bộ nhớ của hệ thống.

Tiền xử lý ảnh

Là bƣớc chỉnh sửa chất lƣợng ảnh, nhƣ việc lọc nhiễu hay tăng cƣờng độ sáng, để nâng cao chất lƣợng ảnh và chuyển sang ảnh xám để dễ dạng nhận dạng ảnh.

Chuyển đổi ảnh xám: Giả sử, hình ảnh của đƣợc lƣu trữ dƣới dạng RGB (Red-Green- Blue). Điều này có nghĩa là có ba ma trận xám tƣơng ứng cho màu Red, Green, Blue. Công việc là tìm cách tổng hợp ba ma trận này về thành một ma trận duy nhất. Một trong số các cơng thức phổ biến để thực hiện việc đó là:

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 15 Y = 0.2126R + 0.7152G + 0.0722B (2.5) Trong đó:  Y: ma trận xám cần tìm  R: ma trận xám đỏ của ảnh  G: ma trận xám lục của ảnh  B: ma trận xám lam của ảnh

Lọc trung bình: Giả sử có một ảnh đầu vào với I(x,y) là giá trị điểm ảnh tại một điểm (x,y) và một ngƣỡng θ.

Bƣớc 1: Tính tổng các thành phần trong ma trận lọc (Kernel).

Bƣớc 2: Chia lấy trung bình của tổng các thành phần trong ma trận đƣợc tính ở trên với số lƣợng các phần tử của cửa sổ lọc ra một giá trị Itb(x, y).

Bƣớc 3: Hiệu chỉnh:

- Nếu I(x,y) - Itb(x,y) > θ thì I(x,y) = Itb(x,y). -Nếu I(x,y) - Itb(x,y) <= θ thì I(x,y)=I(x,y).

Chú ý: θ là một giá trị cho trƣớc và có thể có hoặc khơng tùy thuộc vào mục đích.

Tách biên

Tách biên là quá trình loại bỏ dữ liệu không cần thiết để giảm thiểu tài nguyên sử dụng và dễ dàng tính tốn.

Tách biên đƣợc chia thành các bƣớc:  Giảm nhiễu

 Xác định đƣờng biên

 Loại bỏ dữ liệu không phải đƣờng biên

Giảm nhiễu:

Vì phát hiện cạnh, đƣờng biên dễ bị nhiễu trong ảnh, bƣớc đầu tiên là loại bỏ nhiễu trong ảnh bằng bộ lọc Gaussian.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 16 Ảnh đƣợc làm mịn bằng bộ lọc tuyến tính nhằm mục đích loại bỏ những chi tiết nhỏ ra khỏi ảnh trƣớc khi tiến hành tách các thành phần lớn hơn ra khỏi, ảnh sau đó đƣợc lọc bằng hạt nhân Sobel tìm gradient và hƣớng cạnh cho mỗi pixel. Hƣớng dốc ln vng góc với các cạnh. Nó đƣợc làm trịn thành một trong bốn góc đại diện cho hƣớng dọc, ngang và hai đƣờng chéo.

Sau khi nhận đƣợc độ lớn và hƣớng gradient, việc qt tồn bộ hình ảnh đƣợc thực hiện để xóa bất kỳ pixel khơng mong muốn nào có thể khơng tạo thành cạnh. Đối với điều này, tại mỗi điểm ảnh, pixel đƣợc kiểm tra nếu nó là một cực đại cục bộ trong vùng lân cận theo hƣớng gradient. Kiểm tra hình ảnh dƣới đây:

Hình 2.8: Xác định biên

Điểm A nằm trên cạnh theo hƣớng thẳng đứng. Hƣớng dốc là bình thƣờng cho cạnh. Điểm B và C theo hƣớng dốc. Vì vậy, điểm A đƣợc so sánh với điểm B và C để xem nó có là một cực đại hay khơng, nếu có thì nó thuộc đƣờng biên.

Loại bỏ dữ liệu không phải đƣờng biên:

Giai đoạn này quyết định đó là tất cả các cạnh, biên có thực sự là cạnh hay khơng. Đối với điều này, chúng ta cần hai giá trị ngƣỡng, minVal và maxVal. Bất kỳ cạnh nào có gradient cƣờng độ lớn hơn maxVal đều chắc chắn là các cạnh và các cạnh dƣới minVal chắc chắn là khơng có cạnh, do đó bị loại bỏ. Những biên nằm giữa hai ngƣỡng này đƣợc phân loại các cạnh liên tục hay không liên tục, nếu chúng đƣợc kết nối với các pixel "chắc chắn", chúng đƣợc coi là một phần của các cạnh. Nếu không, chúng cũng bị loại bỏ.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 17

Hình 2.9: Nhận dạng đƣờng biên

Cạnh A nằm trên giá trị maxVal, do đó đƣợc coi là đƣờng biên. Mặc dù cạnh C là dƣới maxVal, nó đƣợc kết nối với cạnh A, do đó cũng đƣợc coi đƣờng biên hợp lệ và chúng ta có đƣợc đƣờng cong đầy đủ đó. Nhƣng cạnh B, mặc dù nó ở trên minVal và nằm trong cùng một vùng với cạnh của C, nó khơng đƣợc kết nối với bất kỳ đƣờng biên nào trên giá trị maxval nên khơng phải cạnh do đó nó bị loại bỏ.

Lấp đầy biên

Là quá trình lấp đầy các đƣờng biên kín, khơng bị gián đoạn hay đứt khúc, để tạo ra đƣợc ảnh nhị phân có giá trị 0 và 1. Mức 1 là giá trị của hình dạng lấp đầy biên, và bên ngoài biên đƣợc coi là giá trị 0. Nhƣ hình bên trên, đầu tiên phải sơn lại các vùng ở ngoài biên từ ảnh ban đầu ảnh a tức là đổi giá trị 0 bên ngoài thành giá trị 1 thành ảnh b. Sau đó đảo giá trị ảnh ngƣợc lại của ảnh b ta đƣợc ảnh c.

Cuối cùng ta dùng phép tốn OR để giữa ảnh a và ảnh c thì ta có kết quả.

Nhận dạng và phân loại sản phẩm

Ta nhận dạng sản phẩm dựa vào các đặc điểm riêng biệt của từng hình, thì sau đó ta đã có đƣợc các đặc điểm về đỉnh, đặc điểm về cạnh. Đó là nhận dạng sản phẩm.

Sau khi có đƣợc các đặc điểm riêng biệt của từng hình nhƣ trên. Ta có phân loại từng hình dạng sản phẩm một nhờ vào việc so sánh các đặc điểm riêng biệt của chúng. Ta lần lƣợt đi so sánh từng hình một, từ hình vng, đến hình chữ nhật, đến hình tam giác. Nếu các

BỘ MƠN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 18 đặc điểm trùng khớp với đặc điểm đƣợc đề ra trƣớc ở hình dạng nào thì ta kết luận ngay đó là sản phẩm có hình dạng đó. Ngƣợc lại nếu khơng có đặc điểm nào khớp ta kết luận đó là một sản phẩm nào đó khác mà khơng phải sản phẩm đã định sẵn.

2.3 ÁP DỤNG KỸ THUẬT HIỆU CHỈNH STEREO CAMERA ĐỂ TÍNH KÍCH THƢỚC SẢN PHẨM

Khi sử dụng một camera thì rất khó xác định đƣợc khoảng cách từ camera đến vật. Do vậy muốn xác định đƣợc khoảng cách thì cần ít nhất từ hai camera trở lên. Với hai hay nhiều máy ảnh, chúng ta hồn tồn có thể xác định đƣợc độ sâu nếu chúng ta xác định đƣợc các điểm tƣơng đồng của hai ảnh mục tiêu và tham chiếu.

Một xu hƣớng phát triển mới là sử dụng camera thị giác để quan sát nhƣ mắt ngƣời. Mặc dù việc chiết xuất dữ liệu từ ảnh thị giác là khó khăn hơn là dùng cảm biến nhƣng bù lại thì cách thức này cung cấp cho con ngƣời những dữ liệu trực quan sinh động và đầy đủ.

Khi xử lý tín hiệu ảnh stereo thị giác thƣờng có hai khâu:

* Khâu đầu tiên là khâu tiền xử lý có nhiệm vụ lấy ra các dữ liệu có chứa thơng tin hữu ích cho việc phát triển các ứng dụng thị giác stereo thời gian thực.

* Khâu thứ hai các ứng dụng thị giác nhƣ ứng dụng tái tạo môi trƣờng 3D, phát hiện đối tƣợng…

Trong khâu tiền xử lý, có một đặc điểm chính là khối lƣợng dữ liệu thu thập bằng camera rất lớn (lớn hơn nhiều lần so với dữ liệu thu thập bằng cảm biến) cần đƣợc xử lý. Mọi cách giải quyết mới đều phải đƣợc phát triển trên một nền tảng sẵn có. Ở phần tiếp, các kỹ thuật cơ bản của xử lý ảnh 3D sẽ đƣợc đƣa ra để làm cơ sở phát triển cho các thuật toán về sau.

2.3.1 GIỚI THIỆU KỸ THUẬT HIỆU CHỈNH STEREO CAMERA

Hiệu chỉnh stereo camera là phƣơng pháp tính tốn và thực nghiệm nhằm tìm ra các tham số của camera để tái tạo không gian 3D của một cảnh, một vật thể nào đó trong thực tế bằng những ảnh mà camera đó ghi lại đƣợc.

BỘ MƠN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 19

2.3.2 STEREO CAMERA

Stereo vision là kỹ thuật sử dụng hai camera để đo khoảng cách giữa hai đối tƣợng. Thông thƣờng sử dụng hai camera cùng loại và thông số đƣợc đặt trên đƣờng thẳng hoặc ngang.

Hình 2.10: Cấu hình chuẩn của hệ thống 2 camera

Sử dụng camera stereo này, chúng ta có thể thu đƣợc hình ảnh của đối tƣợng tại hai vị trí khác nhau: ảnh bên trái và ảnh bên phải của đối tƣợng (sự chênh lệch). Các ảnh của các camera đƣợc phân tích để tìm các điểm chung. Sử dụng quy tắc tam giác đồng dạng và độ lệch của các điểm chung để xác định khoảng cách (độ sâu) so với camera.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 20 Hình mơ tả hệ thống tọa độ của một stereo camera, có thể đƣợc tính nhƣ trong hai phƣơng trình sau: f z xl xr b z b     ( ) (2.6) d f b xr xl f b z *  *   (2.7) Trong đó:  d = xl-xr là sự chênh lệch.

 xl là tọa độ x của camera bên trái.  xr là tọa độ x của camera bên phải.  b là chiều dài cơ sở của hai camera.  f là tiêu cự của máy ảnh.

 z là khoảng cách từ đƣờng cơ sở đến đối tƣợng. Tính tốn bản đồ chênh lệch:

Là một trong những vấn đề quan trọng trong thị giác máy tính 3D. Một số lƣợng lớn các thuật toán đã đƣợc đề xuất để giải quyết vấn đề này. Một trong những phƣơng pháp tƣơng đối mới là “Tính tốn bản đồ độ sâu” từ hình ảnh stereo. Đối với các cặp hình ảnh stereo đã đƣợc chỉnh sửa epipolar, mỗi điểm trong hình ảnh bên trái nằm trên đƣờng nằm ngang (đƣờng epipolar) có thể có điểm ảnh tƣơng ứng trong hình ảnh bên phải. Cách tiếp cận này đƣợc sử dụng để làm giảm khơng gian tìm kiếm chiều sâu bản đồ thuật tốn tính tốn. Chiều sâu của một điểm ảnh là khoảng cách điểm không gian tƣơng ứng tới trung tâm máy ảnh. Để ƣớc tính bản đồ độ sâu và phát hiện các đối tƣợng 3D, các điểm ảnh tƣơng ứng trong những ảnh trái và ảnh phải cần đƣợc phát hiện.

Thuật toán là phần rất quan trong trong hệ thị giác máy tính 3D. Tuy nhiên, hiện nay có rất nhiều thuật tốn đã đƣợc phát triển và hàng năm thì cũng có nhiều thuật toán mới đƣợc đề xuất. Việc phân loại tất cả các thuật toán là một điều rất khó vì hầu hết các nhà nghiên cứu chỉ đƣa ra kết quả định tính hoặc là kết quả cuối cùng về hiệu quả của các thuật toán của họ. Các thuật toán truyền thống của thị giác máy tính 3D là SAD (sum of absolute diffirence), SSD (sum of squared diffirence) và NCC (normalized cross correlation). Các

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 21 hàm giá trị phù hợp đƣợc kết hợp trên các vùng cung cấp. Các vùng cung cấp thƣờng nhận đƣợc nhƣ các cửa sổ đƣợc kết hợp có thể là hình vng hoặc hình chữ nhật, kích thƣớc cố định hoặc thích nghi. Việc xác định giá trị của kết hợp các hàm giá trị phù hợp, dẫn đến nền tảng của hầu hết các thuật toán thị giác nổi. Các thuật tốn truyền thống có thể đƣợc biểu diễn tốn học nhƣ sau:

1) Phƣơng pháp tổng bình phƣơng khác biệt (SSD – Sum of Squared Differences):      W y x Il x y Ir x y d d y x SSD , 2 )) , ( ) , ( ( ) , , ( (2.8)

Phƣơng pháp này tính tổng của các bình phƣơng của các hiệu nên xuất hiện thêm phép nhân trƣớc khi tính tổng. Do đó độ phức tạp tăng lên đáng kể.

2) Phƣơng pháp tổng sự khác biệt tuyệt đối (SAD - Sum of Absolute Differences):      W y x Il x y Ir x y d d y x SAD , ( , ) ( , ) ) , , ( (2.9)

Theo cơng thức trên, việc tính giá trị chênh lệch của điểm (x,y) đƣợc thực hiện bằng phép tính hiệu trong cửa sổ W. Do đó thuật tốn đơn giản. Cửa sổ W và phạm vi chênh lệch d càng lớn thì số phép tính tăng. Thơng thƣờng có thể thực tính SAD với cửa sổ 3x3, hoặc 5x5 hoặc 7x7 hoặc 11x11. Phạm vi chênh lệch d thƣờng chọn dƣới 120 với các giá trị tham khảo nhƣ 16, 50, 128.

3) Phƣơng pháp dựa trên sự tƣơng quan chéo chuẩn (NCC)

         W y x l xy W r W y x l r d y x I y x I d y x I y x I d y x NCC , , 2 2 , ) , ( ). , ( ) , ( ).. , ( ) , , ( (2.10)

Trong đó Il , Ir là những giá trị cƣờng độ trong hình ảnh trái và phải, (x, y) là tọa độ của điểm ảnh, d là giá trị sai lệch đƣợc xem xét và W là cửa sổ phức hợp.

Việc lựa chọn các giá trị sai lệch thích hợp cho mỗi điểm ảnh đƣợc thực hiện sau đó. Phƣơng pháp này có độ phức tạp cao nhất vì xuất hiện các phép toán tiêu tốn nhiều tài nguyên của máy tính nhƣ phép bình phƣơng, khai căn. Do đó việc ứng dụng của thuật tốn

BỘ MƠN ĐIỆN TỬ CƠNG NGHIỆP – Y SINH 22 này trong các hệ thống thời gian thực là không khả thi tức là, cho mỗi điểm ảnh (x, y) và cho giá trị khơng đổi có sự khác nhau d, chi phí tối thiểu đƣợc lựa chọn.

D(x,y) = argminSAD(x,y,d) (2.11)

Phƣơng trình trên đƣợc dùng cho phƣơng pháp SAD. Tuy nhiên, trong nhiều trƣờng hợp lựa chọn khác biệt là một quá trình lặp đi lặp lại, vì độ chênh lệch của mỗi điểm ảnh là tùy thuộc vào sự chênh lệch của các điểm ảnh lân cận. Các thuật toán phân vùng lai là một sự kết hợp với phƣơng pháp SAD đƣợc áp dụng phù hợp với hình ảnh stereo để tinh chỉnh các bản đồ độ sâu cuối cùng.

Các thuật toán phù hợp với âm thanh stereo dựa trên phƣơng pháp mà không SAD phân đoạn và cách tiếp cận lai các thuật tốn phù hợp với hình ảnh stereo dựa trên SAD lai có vẻ là thuật tốn hiệu quả hơn để sản xuất bản đồ chênh lệch sạch hơn với các khu vực đồng nhất. Mặt khác, các thuật tốn phù hợp với hình ảnh stereo dựa trên phƣơng pháp SAD sản xuất một bản đồ chiều sâu rõ ràng về hiện trƣờng. Hơn nữa, nó tạo ra một chất lƣợng cao hơn và ít lỗi gây ra bởi tắc phân đoạn hình ảnh.

Thuật tốn bao gồm các bƣớc nhƣ hình 2.12 :

Hình 2.12: Thuật toán SAD phân vùng

 Bƣớc 1: là q trình hiệu chuẩn ảnh. Mục đích của q trình này là xác định đƣợc các thơng số bên trong và bên ngồi của camera :

- Các thông số bên trong nhƣ là tiêu cự, điểm trung tâm, hiệu chỉnh vng góc alpha

và độ méo,..

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 23  Bƣớc 2: là quá trình hiệu chỉnh ảnh. Quá trình hiệu chỉnh ảnh là quá trình mà hai ảnh của cảnh cố định chuyển đổi đơn ứng, có nghĩa rằng các đƣờng tâm cực đồng tâm trùng nhau và song song với trục tâm quang.

 Bƣớc 3: là quá trình tìm điểm ảnh tƣơng đồng giữa ảnh mục tiêu và ảnh tham chiếu tức là tìm bản đồ chênh lệch.

 Bƣớc 4: là sử dụng quy tắc tam giác đồng dạng và độ lệch của các điểm chung để xác định khoảng cách so với camera., có nghĩa là tìm đƣợc bản đồ độ sâu.

Hình 2.13: Qui tắc tam giác đồng dạng

2.3.3 PHƢƠNG PHÁP HIỆU CHỈNH CHUẨN

Phƣơng pháp hiệu chỉnh chuẩn là cơng việc ƣớc tính các thơng số của thấu kính, cảm biến hình ảnh của máy ảnh. Có thể sử dụng các thơng số này để cân chỉnh lại hiện tƣợng biến dạng, đo kích thƣớc một vật ngồi thế giới thực, tìm ra vị trí của camera khi chụp một bức hình.

Những cơng việc đó cũng đƣợc sử dụng trong các ứng dụng nhƣ thị giác máy tính để phát hiện và đo đối tƣợng, trong robotics, hệ thống điều hƣớng, xây dựng ảnh 3D.

Các thông số camera bao gồm các thông số nội, thông số ngoại, các hệ số biến dạng. Để ƣớc tính các thơng số camera, bạn cần có những điểm 3D thực và điểm ảnh 2D tƣơng

Một phần của tài liệu Ứng dụng camera 3D trong việc phân loại sản phẩm theo hình dạng và kích thước (Trang 29 - 51)

Tải bản đầy đủ (PDF)

(83 trang)