1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn

82 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Tác giả Tạ Thị Tùng Ly
Người hướng dẫn TS. Lê Thành Sách
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 82
Dung lượng 1,34 MB

Cấu trúc

  • CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI (0)
    • 1.1. Hình thành vấn đề (10)
    • 1.2. Phạm vi nghiên cứu (11)
      • 1.2.1. Đối tượng nghiên cứu (0)
      • 1.2.2. Mục tiêu của đề tài (11)
      • 1.2.3. Phương pháp nghiên cứu (12)
    • 1.3. Tóm lược những kết quả đạt được (0)
    • 1.4. Kết cấu của đề tài (13)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT (0)
    • 2.1. Mô hình hệ thống video 3D (15)
    • 2.2. Hệ tọa độ và thông số camera (16)
    • 2.3. Bản đồ chiều sâu của ảnh (19)
    • 2.4. Tổng hợp ảnh cho video 3D (21)
    • 2.5. Phương pháp đánh giá kết quả (26)
  • CHƯƠNG 3 CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN (0)
    • 3.1. Tổng hợp ảnh theo vùng ảnh tin cậy (28)
      • 3.1.1. Mã hóa và Tổng hợp ảnh cho Multiview Video (28)
      • 3.1.2. Cải tiến tổng hợp ảnh dựa trên tách lớp đối tượng (31)
      • 3.1.3. Dự đoán trên ảnh tổng hợp cho Multiview Video (34)
    • 3.2. Tổng hợp ảnh theo hiệu chỉnh ảnh (35)
      • 3.2.1. Tổng hợp ảnh không có thông số hiệu chỉnh (35)
    • 3.4. Tổng kết các nghiên cứu liên quan (44)
  • CHƯƠNG 4 HIỆN THỰC CHƯƠNG TRÌNH (0)
    • 4.1. Tập tin cấu hình (45)
    • 4.2. Tập tin tham số camera (0)
    • 4.3. Dữ liệu ảnh đầu vào (54)
    • 4.4. Sơ đồ khối chức năng của chương trình (55)
      • 4.4.1. Hàm ForwardWarp (57)
      • 4.4.2. Hàm Merge (58)
      • 4.4.3. Hàm Fillholes (59)
  • CHƯƠNG 5 KẾT QUẢ VÀ ĐÁNH GIÁ (0)
    • 5.1. Cài đặt và thực thi chương trình (65)
    • 5.2. Tập dữ liệu kiểm tra chương trình (66)
      • 5.2.1. Thiết lập camera cho các tập dữ liệu (66)
      • 5.2.2. Đặc tả tập dữ liệu (0)
    • 5.3. Kết quả thực thi chương trình (68)
    • 5.4. Đánh giá kết quả thu được (76)
  • CHƯƠNG 6 KẾT LUẬN VÀ KIẾN NGHỊ (0)
  • TÀI LIỆU THAM KHẢO (80)

Nội dung

DANH MỤC CÁC TỪ VIẾT TẮT 3DTV - Three Dimensions Television: truyền hình kĩ thuật số ba chiều 3DV - Three Dimensions Video : video ba chiều DIBR - Depth Image-Based Rendering: mô hình ản

TỔNG QUAN VỀ ĐỀ TÀI

Hình thành vấn đề

Những tiến bộ trong công nghệ chế tạo máy ảnh và thiết bị hiển thị giúp cho việc thu hình một cảnh với nhiều góc nhìn (Free Viewpoint) được hỗ trợ tốt hơn về mặt công nghệ và phần cứng Điều này khiến cho nhu cầu về các ứng dụng video 3D như truyền hình 3D (3DTV) và video đa hướng nhìn đã và đang chiếm được thị phần rộng lớn trong ngành công nghiệp điện tử Ứng dụng video 3D (3DV) dựa vào việc mở rộng video 2D với khả năng tạo dựng 3D (3D rendering) để có hai góc nhìn trái-phải tạo hiệu ứng 3D, do đó cần có thêm một góc quay nữa được giải mã và hiển thị một cách đồng thời Đối với ứng dụng đa góc nhìn, người dùng có thể tương tác và chọn một góc nhìn tùy thích trong không gian 3D để cầu sử dụng những ứng dụng video hấp dẫn và sinh động trở nên thực tế hơn quan sát hình ảnh của thế giới thực Các ứng dụng này không những phục vụ cho nhu cầu giải trí đa phương tiện mà còn được áp dụng trong các lĩnh vực giáo dục, y tế… nhằm đem đến hiệu quả hình ảnh tốt nhất, gần gũi với thế giới thực nhất

Vấn đề đặt ra là dữ liệu ảnh tương ứng với nhiều góc nhìn (Multiview) tăng lên đáng kể so với việc chỉ trình chiếu đơn góc nhìn Do đó, việc khai thác mối tương quan vốn có trong xử lý ảnh từ nhiều góc quay để làm giảm dữ liệu ảnh truyền đi trong các ứng dụng video đa hướng nhìn hoặc truyền hình 3D (3DTV) ngày càng được nhiều tổ chức nghiên cứu cũng như công nghiệp quan tâm đến Các dịnh dạng 3D video mới ra đời cho phép giảm tỉ lệ dữ liệu thô (raw data) truyền đi một cách đáng kể Khi sử dụng các định dạng video nhiều góc quay cộng thêm chiều sâu (MVD –Multiview Video plus

Depth) chỉ cần M tập con của N góc nhìn được truyền đi, đối với mỗi chuỗi trong video thuộc M, truyền thêm thông tin dữ liệu về chiều sâu tương ứng

Từ nhu cầu ngày càng cao về sử dụng những ứng dụng video sinh động cộng thêm những tiến bộ trong nghiên cứu lĩnh vực 3DV nói trên, hướng nghiên cứu về đề tài Tổng hợp ảnh (View synthesis) dùng trong 3DV đang trở nên sôi động và có ý nghĩa thực tiễn Với mục đích xây dựng một hình ảnh tổng hợp được lấy từ một máy quay ảo được đặt ở một điểm khác với các máy quay thực cho trước, tổng hợp ảnh dựa trên chiều sâu là một kĩ thuật quan trọng được giới thiệu nhằm nâng cao chất lượng của ảnh tổng hợp trung gian trong hệ thống 3DV Đó chính là lí do đề tài nghiên cứu: “Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa góc nhìn” được đề xuất.

Phạm vi nghiên cứu

1.2.1 Đối tƣợng nghiên cứu Ảnh trung gian (Intermediate View) được tổng hợp từ các cặp máy ảnh liền kề bằng cách chiếu 3D (3D projection) Các phương pháp tổng hợp ảnh hầu hết đếu dựa trên dữ liệu về chiều sâu (depth-based) của các ảnh cho trước, thực hiện các phép nội suy, ngoại suy để tổng hợp được ảnh trung gian Có thể chia làm ba nhóm phương pháp chính: theo độ tin cậy các vùng trong ảnh, theo hiệu chỉnh ảnh và theo chiều sâu thích nghi Trong đề tài này sẽ đi theo hướng dựa theo độ tin cậy để hiện thực, vì đây là một phương pháp cho ra kết quả tốt hiện nay xét về định tính lẫn định lượng [3]

Tuy nhiên, tổng hợp ảnh với cách tiếp cận dựa trên hình ảnh sâu là rất nhạy cảm với các sai sót (artifact) trong các thông số máy ảnh hoặc các bản đồ độ sâu (depth map) hay còn được gọi là hình ảnh sâu Có ba loại artifact chính là vết mờ, đường viền và lỗ (blurring, contour, hole) Có thể áp dụng một số giải thuật hiệu quả trong quá trình tổng hợp nhằm cải tiến các lỗi và nâng cao chất lượng của ảnh được tổng hợp sau cùng, do đó đề tài cũng sẽ kết hợp đưa vào các phương pháp hiệu chỉnh ảnh sau tổng hợp với mục đích trên

1.2.2 Mục tiêu của đề tài Đề tài được thực hiện với hai mục tiêu chính Thứ nhất là tổng kết các kỹ thuật tổng hợp ảnh khác nhau trong cộng đồng nghiên cứu về các ứng dụng 3DV, đặc biệt nhấn mạnh vào kỹ thuật tổng hợp ảnh dựa vào chiều sâu được đề xuất bởi MPEG Hiểu và nắm rõ các bước khác nhau trong quá trình tổng hợp ảnh, bao gồm phương pháp ánh xạ 3D (3D warping), pha trộn ảnh (merging) và lấp lỗ trống (hole filling)

Mục tiêu thứ hai là hiện thực mô hình đánh giá của chương trình tổng hợp ảnh dựa trên dữ liệu chiều sâu Chương trình được xây dựng trên phần mềm tham khảo VSRS phiên bản 3.5 [11], kết hợp hiện thực các thuật toán khác nhau cho phương pháp lấp chỗ trống (hole filling) để nâng cao chất lượng ảnh sau tổng hợp Kết quả mong muốn đạt được là một mô hình hoàn chỉnh với các khối chức năng, bộ dữ liệu đầu vào, phương pháp đánh giá kết quả cho ứng dụng tổng hợp ảnh Với mô hình này, những nhóm hiện thực hoặc nghiên cứu tiếp theo có thể sử dụng nó để bổ sung, đánh giá các phương pháp cải tiến cho ứng dụng tổng hợp ảnh một cách thuận lợi và hiệu quả

Quá trình thực hiện đề tài nghiên cứu về các kỹ thuật tổng hợp ảnh cho 3DV bao gồm các bước chính sau:

 Tìm hiểu cơ sở lý thuyết liên quan đến các kỹ thuật tổng hợp ảnh bao gồm các kiến thức về hệ tọa độ hình học, thông số camera, bản đồ chiều sâu của ảnh và phương pháp đánh giá chất lượng ảnh sau tổng hợp

 Tổng kết và đánh giá các kết quả nghiên cứu liên quan đến tổng hợp ảnh cho các ứng dụng 3DV hoặc đa góc nhìn

 Sử dụng phần mềm thao khảo VSRS phiên bản 3.5 để tổng hợp ảnh theo phương pháp dựa trên chiều sâu Hiện thực thêm các thuật toán lấp chỗ trống để nâng cao chất lượng của ảnh sau tổng hợp

 Áp dụng các phương pháp định tính, định lượng để đánh giá tổng quát các kết quả đạt được từ nhiều nguồn dữ liệu ảnh vào (dataset) khác nhau

1.3 Tóm lƣợc những kết quả đạt đƣợc

Với những yêu cầu và mục tiêu của đề tài, sau thời gian nghiên cứu và hiện thực, chúng tôi đã đạt được kết quả về cả lý thuyết và hiện thực như sau dưới đây

Luận văn đã nghiên cứu đánh giá các phương pháp tổng hợp ảnh dựa trên dữ liệu chiều sâu như phương pháp theo vùng ảnh tin cậy, theo hiệu chỉnh ảnh và theo chiều sâu thích nghi Bên cạnh đó đưa ra mô hình hệ thống tổng hợp ảnh dựa trên dữ liệu chiều sâu bao gồm các bước:

 Lấp lỗ trống (hole filling)

Hiện thực chương trình tổng hợp ảnh dựa trên dữ liệu chiều sâu Với đầu vào là các dữ liệu màu và dữ liệu chiều sâu của các góc nhìn tham khảo, cùng với các tham số đặc tả cho góc nhìn ảo, chương trình lần lượt thực hiện các bước nội suy để tổng hợp ảnh trung gian ảo bao gồm ánh xạ 3D, pha trộn ảnh và lấp chỗ trống Đặc biệt, trong bước lấp chỗ trống, hiện thực theo các phương pháp:

 Tương thích theo mức độ chiều sâu (depth-level-apdtive) [8]

 Sử dụng màu điểm ảnh lân cận với độ sâu lớn nhất [11]

 Đề xuất cải tiến [11] bằng kĩ thuật lấy giá trị màu trung bình

Cuối cùng là đưa ra bộ dữ liệu ảnh và phương pháp đánh giá định lượng PSNR, cũng như định tính để đánh giá toàn bộ kết quả chương trình tổng hợp ảnh

Mô hình đánh giá này có thể được kế thừa để bổ sung các phương pháp cải tiến cho ứng dụng tổng hợp ảnh khác về sau

1.4 Kết cấu của đề tài

Luận văn được tổ chức theo cấu trúc sau đây:

Chương 1 giới thiệu tổng quan về đề tài bao gồm hoàn cảnh ra đời của đề tài, phạm vi nghiên cứu xét đến đối tượng nghiên cứu, không gian, thời gian thực hiện đề tài, và mục tiêu, ý nghĩa của đề tài

Chương 2 trình bày một số kiến thức nền tảng bao gồm mô hình hệ thống video 3D, mô hình chức năng tổng hợp ảnh, bản đồ chiều sâu của ảnh, kĩ thuật ánh xạ 3D (3D warping) và kĩ thuật lấp chỗ trống (hole filling) trong tổng hợp ảnh theo chiều sâu Chương này cũng bàn về mô hình đánh giá kết quả nghiên cứu

Chương 3 bàn về các nghiên cứu liên quan Các công trình nghiên cứu được chọn giới thiệu liên quan đến nhiệm vụ chính của đề tài là tổng hợp ảnh trung gian dựa trên chiều sâu và các kĩ thuật lấp chỗ trống

Chương 4 trình bày chi tiết hiện thực cho chương trình tổng hợp ảnh trung gian dựa trên chiều sâu và hiện thực các chức năng lấp chỗ trống được đề xuất nhằm cải thiện và nâng cao chất lượng hình ảnh sau tổng hợp

Chương 5 đưa ra các kết quả đạt được của chương trình tổng hợp ảnh, đồng thời đánh giá, so sánh với các công trình liên quan trước đó

Chương 6 tổng kết và trình bày một số kết luận sau khi thực hiện đề tài nghiên cứu

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực đề tài luận văn.

Kết cấu của đề tài

Luận văn được tổ chức theo cấu trúc sau đây:

Chương 1 giới thiệu tổng quan về đề tài bao gồm hoàn cảnh ra đời của đề tài, phạm vi nghiên cứu xét đến đối tượng nghiên cứu, không gian, thời gian thực hiện đề tài, và mục tiêu, ý nghĩa của đề tài

Chương 2 trình bày một số kiến thức nền tảng bao gồm mô hình hệ thống video 3D, mô hình chức năng tổng hợp ảnh, bản đồ chiều sâu của ảnh, kĩ thuật ánh xạ 3D (3D warping) và kĩ thuật lấp chỗ trống (hole filling) trong tổng hợp ảnh theo chiều sâu Chương này cũng bàn về mô hình đánh giá kết quả nghiên cứu

Chương 3 bàn về các nghiên cứu liên quan Các công trình nghiên cứu được chọn giới thiệu liên quan đến nhiệm vụ chính của đề tài là tổng hợp ảnh trung gian dựa trên chiều sâu và các kĩ thuật lấp chỗ trống

Chương 4 trình bày chi tiết hiện thực cho chương trình tổng hợp ảnh trung gian dựa trên chiều sâu và hiện thực các chức năng lấp chỗ trống được đề xuất nhằm cải thiện và nâng cao chất lượng hình ảnh sau tổng hợp

Chương 5 đưa ra các kết quả đạt được của chương trình tổng hợp ảnh, đồng thời đánh giá, so sánh với các công trình liên quan trước đó

Chương 6 tổng kết và trình bày một số kết luận sau khi thực hiện đề tài nghiên cứu

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực đề tài luận văn.

CƠ SỞ LÝ THUYẾT

Mô hình hệ thống video 3D

Hệ thống 3DV có khả năng hỗ trợ nhiều người xem với nhiều góc nhìn thay đổi được bằng cách hiển thị nhiều ảnh với các góc nhìn khác nhau cùng một lúc [4] Ví dụ màn hình LCD độ phân giải cao với thấu kính nghiêng và xem đồng thời chín góc nhìn là sản phẩm thương mại có sẵn của tập đoàn Philips Nguyên tắc của ứng dụng này là một người sử dụng ở vị trí 1 nhìn thấy ảnh ở góc nhìn 1 và 2 với mắt phải và trái tương ứng, một người sử dụng ở vị trí 3 thấy ảnh ở góc nhìn 6 và 7, theo như Hình 2.1 Giả sử một người dùng di chuyển từ vị trí 1 đến vị trí 2 Bây giờ ảnh ở góc nhìn 2 và 3 có thể nhìn thấy bằng mắt phải và trái tương ứng Nếu V1 và V2 là một cặp video trái- phải (stereo video) ứng với mắt thường ở khoảng cách thích hợp (6.5 cm), V2 và V3 cũng tương tự như vậy, một người dùng di chuyển ở phía trước Hệ thống hiển thị 3D sẽ cảm nhận được hình ảnh 3D của các đối tượng tùy thuộc vào chiều sâu của chúng Cảm nhận 3D về cặp ảnh trái-phải này sẽ không được liền mạch và số lượng các vị trí khác nhau được giới hạn N-1 vị trí Chức năng mở rộng này của 3DV làm tăng tốc độ dữ liệu rất lớn, tức là N lần tốc độ truyền bitrate so với video 2D, nếu tất cả các góc nhìn đều được truyền độc lập Trong khi đó, mã hóa đa góc nhìn(Multiview Video Coding- MVC) thường làm giảm tốc độ bit tổng thể 20% đối với hầu hết các ứng dụng Một cách tiếp cận hiệu quả cho stereo video là sử dụng định dạng dữ liệu video cộng với độ sâu (V+D) MPEG gần đây phát hành một chuẩn tương ứng được gọi là MPEG-C Phần 3 [14] , đề cập đến khả năng tái tạo một stereo video từ một video dựa trên chiều sâu (Depth Image-Based Rendering-DIBR), trường hợp này dữ liệu độ sâu có thể được nén rất hiệu quả, bitrate của dữ V + D là nhỏ hơn nhiều so với bitrate của stereo video tương ứng Trong ví dụ Hình 2.1[6], một tập con góc nhìn M = 3 được chuyển đến phía nhận Đối với những góc nhìn có bản đồ độ sâu chính xác được tạo ra tại phía gửi và chuyển tải cùng với các tín hiệu video, mỗi giá trị độ sâu được gán cho một mẫu video gốc Bản đồ độ sâu thường được xem như hình ảnh màu xám như minh họa trong Hình 2.1 Tất cả các góc nhìn khác được hiển thị tạo ra bởi DIBR ở phía nhận

Pos: góc nhìn,R: mắt phải, L: mắt trái, V: view / hình ảnh, D: chiều sâu

Các thiết kế cho hệ thống 3DV dựa trên định dạng MVD tồn tại một số vấn đề khó khăn và một phần chưa được giải quyết vẫn còn trong nghiên cứu bao gồm cách thu hình với nhiều góc nhìn, tính toán độ sâu (depth estimation), tham số của hệ thống, hiệu quả nén dữ liệu sâu, truyền tải và rendering.

Hệ tọa độ và thông số camera

Để miêu tả bài toán tổng hợp ảnh, một mô hình hình học camera được sử dụng trong đó định nghĩa ba loại hệ tọa độ và các thông số camera Hình học camera tạo nên

Hình 2.1:Khái niệm hệ thống 3DV những gì cơ bản nhất của những kỹ thuật đã được hiện thực trong MPEG 3DV Trong phần này chúng ta sẽ miêu tả một cách ngắn ngọn mô hình này như là kiến thức nền tảng

Ba hệ tọa độ mà chúng ta nhắc đến ở trên đó là hệ tọa độ thế giới (world space), hệ tọa độ camera và hệ tọa độ ảnh được miêu tả ở bên trái Hình 2.2 [6] Trong hệ thống đa góc nhìn, một hệ tọa độ 3D duy nhất được xác định và nó không phụ thuộc vào bất kì camera riêng biệt nào Mặc khác, mỗi camera có hệ tọa độ camera và hệ tọa độ ảnh riêng của nó Hệ tọa độ camera là hệ ba chiều với mặt phẳng x c - y c của nó là mặt phẳng camera (hay còn được gọi là mặt phẳng principal) Trung tâm quang học (optical center) của camera thì nằm trong mặt phẳng camera Còn hệ tọa độ ảnh là hệ hai chiều trong mặt phẳng ảnh nơi ảnh được chụp Mặt phẳng ảnh và mặt phẳng camera song song với nhau Principal point là giao điểm của trục quang học z c với mặt phẳng ảnh

Hình 2.2: Mối quan hệ hình học giữa hệ tọa độ camera và hệ tọa độ ảnh Để miêu tả mối quan hệ trong các hệ tọa độ, hai tập hợp các thông số camera được định nghĩa, đó là ma trận nội A và ma trận ngoại E = [R | t] Ma trận trong A biểu diễn sự chuyển đổi từ hệ tọa độ camera tới hệ tọa độ ảnh của nó và được định nghĩa như sau:

 f x , f y là độ dài tiêu cự tương ứng trên trục x và trục y, và ( o x , o y ) là principle point offset Principle point offset có thể là (0,0) nếu gốc của hệ tọa độ ảnh trùng với principle point Tuy nhiên gốc của mặt phẳng ảnh thông thường được đặt ở góc trên bên trái của ảnh do đó principle point offset sẽ khác 0

Quan sát ở phần bên phải của hình và một số mối quan hệ hình học cơ bản ta có: độ dài tiêu cự f x , vị trí pixel từ principle point u, và vị trí điểm 3D trong hệ tọa độ camera ( x C , z C ) thỏa mãn :

C C f x u x  z Nếu principle point offset khác 0, vị trí pixel u có thể được tính: x C x C u f x o z 

Do đó dưới đây chúng ta sẽ có mối quan hệ giữa tọa độ ảnh và tọa độ camera sử dụng ma trận nội A:

Ma trận ngoại, E = [R | t] được định nghĩa cho sự chuyển đổi từ hệ tọa độ world sang hệ tọa độ camera mà được hợp thành từ ma trận xuay R 3x3 và ma trận dịch chuyển t 3x1

Phương trình (2.2.1) và (2.2.2) miêu tả cách thức mà một điểm 3D ở trong hệ tọa độ thế giới được ánh xạ vào trong hệ tọa độ camera.

Bản đồ chiều sâu của ảnh

Trong đồ họa máy tính 3D, một bản đồ chiều sâu (depth map) là hình ảnh có chứa thông tin liên quan đến khoảng cách của các bề mặt của các đối tượng cảnh từ một góc nhìn Thuật ngữ này có liên quan và có thể được tương tự như bộ đệm chiều sâu, Z- buffer "Z" trong các thuật ngữ liên quan đến quy định về một trục trung tâm của một máy ảnh theo hướng của trục Z của máy ảnh, và không để trục Z tuyệt đối của một cảnh

Hình 2.3: Ví dụ về bản đồ chiều sâu của ảnh

Hai bản đồ độ sâu khác nhau có thể được nhìn thấy ở Hình 2.3 [16] , cùng với mô hình ban đầu Bản đồ độ sâu đầu tiên cho thấy độ sáng tương ứng với tỷ lệ với khoảng cách từ máy ảnh Bề mặt gần tối hơn, bề mặt xa sáng hơn Bản đồ độ sâu thứ hai cho thấy độ sáng liên quan đến khoảng cách từ một mặt phẳng tiêu danh nghĩa Bề mặt gần với mặt phẳng tiêu cự tối, hơn nữa bề mặt từ mặt phẳng tiêu cự nhẹ hơn, (cả hai gần hơn và cũng xa hơn từ góc nhìn ảnh) Giá trị pixel của ảnh depth với độ lớn nằm trong khoảng 0 đến 255, z near và z far là dải chiều sâu của khung cảnh vật lý Trong một ảnh depth như thế này , giá trị pixel là 0 cho biết điểm 3D xa nhất với chiều sâu là z far và giá trị pixel là 255 cho ta biết điểm 3D gần nhất với chiều sâu là z near Error! Reference source not found [15]là một ví dụ về giá trị chiều sâu

Hình 2.4 : Ví dụ về giá trị chiều sâu của ảnh

Ngược với giá trị về độ sâu (depth) của ảnh là giá trị chênh lệch (disparity) giữa hai ảnh Chênh lệch và độ sâu từ máy ảnh có tương quan âm Khi khoảng cách từ máy ảnh tăng, chênh lệch giảm Điều này cho phép nhận thức tính toán độ sâu trong hình ảnh stereo Sử dụng hình học và đại số, các điểm xuất hiện trong hình ảnh stereo 2D có thể được ánh xạ như các tọa độ trong không gian 3D Hình 2.5 [17] là bản đồ chiều sâu tương quan giữa hai ảnh được tính toán thông qua disparity

Hình 2.5: Chiều sâu tương quan giữa hai ảnh thông qua bản đồ disparity

Sự khác biệt của giữa hai hình ảnh stereo thường được tính như là sự thay đổi bên trái của một ảnh khi so sánh Ví dụ, một điểm duy nhất xuất hiện ở tọa độ (x, t) của hình ảnh bên trái có thể có mặt tại tọa độ (x, t – 3) trong hình ảnh bên phải Trong trường hợp này, sự chênh lệch ở vị trí đó trong hình bên phải sẽ là 3 điểm ảnh Hình ảnh stereo có thể không phải lúc nào cũng được chính xác phù hợp với phép tính chênh lệch Ví dụ, các thiết lập của máy ảnh có thể hơi xoay ra khỏi điểm gốc Thông qua một quá trình được gọi là chỉnh hình ảnh (rectification), cả hai hình ảnh được quay để cho phép sự chênh lệch chỉ theo hướng ngang, tức là không có sự khác biệt trong hình ảnh trục y.

Tổng hợp ảnh cho video 3D

Trong phần này chúng ta sẽ thảo luận một số kỹ thuật tổng hợp ảnh

Như đã được đề cập ở phần trước, đối với ứng dụng 3DV, thay vì truyền đi một số lượng lớn những ảnh ở mọi góc nhìn thì chúng ta có một phương pháp hợp lý hơn là sử dụng các video ở một số góc nhìn với bản đồ chiều sâu tương ứng của chúng và sử dụng DIBR để tổng hợp ra ảnh trung gian Như đã giới thiệu ở trên, một bản đồ chiều sâu là một ảnh xám mà cho biết cấp độ chiều sâu (depth level) của mỗi điểm ảnh Có nhiều định dạng được đưa ra nhưng ở đây xin giới thiệu một định dạng được sử dụng phổ biến nhất

Trong đó Y là giá trị pixel của ảnh depth với độ lớn nằm trong khoảng 0 đến 255, z near và z far là dải chiều sâu của khung cảnh vật lý và z là giá trị chiều sâu vật lý đối với giá trị pixel Y

Mục tiêu của một hệ thống tổng hợp ảnh là tổng hợp một view ảo từ các view lân cận của nó bằng cách sử dụng các thông số máy ảnh (camera parameter), hình ảnh màu (color image), và hình ảnh sâu [7] Sơ đồ điển hình cho một hệ thống tổng hợp ảnh dựa trên chiều sâu được được thể hiện trong Hình 2.6 dưới đây.

Hình 2.6: Sơ đồ tổng hợp ảnh trung gian dựa trên chiều sâu

Bước đầu tiên của tổng hợp ảnh là ánh xạ những pixel từ ảnh ở góc nhìn tham khảo sang góc nhìn ảo, trong đó bản đồ chiều sâu đã được cung cấp cho cho ảnh ở góc nhìn tham khảo được gọi là kỹ thuật ánh xạ 3D dựa trên chiều sâu Hình 2.7 [6] là một ví dụ về ánh xạ 3D để tạo ra hình ảnh trung gian ở góc nhìn ảo Ảnh màu Ảnh chiều sâu

Uốn cong 3D dựa trên chiều sâu

Trộn ảnh trái và phải

Lấp chỗ trống sau khi ghép ảnh Ảnh màu Ảnh chiều sâu

Uốn cong 3D dựa trên chiều sâu Ảnh tổng hợp ở góc nhìn ảo

Góc nhìn trái Góc nhìn phải

Hình 2.7: Khái niệm chung về 3D warping

Cho một pixel nằm ở tọa độ ( u r , ) v r trong hệ tọa độ ảnh của góc nhìn tham khảo, ta có thể có được vị trí tương ứng của nó ( u v , ) v v trong góc nhìn ảo sử dụng quá trình ánh xạ Từ phương trình (2.1) và (2.2) trước hết chúng ta có được tọa độ thế giới của điểm 3D mà tương ứng với pixel ( u r , ) v r trong góc nhìn tham khảo

  (2.4) r cho biết nó thuộc về góc nhìn tham khảo, và z C r , là giá trị depth được tính toán từ bản đồ chiều sâu sử dụng (2.3)

Sau đó cũng từ phương trình (2.1) và (2.2) chúng ta có thể ánh xạ điểm 3D này tới hệ tọa độ ảnh của góc nhìn ảo

(2.5) v cho biết nó thuộc về góc nhìn ảo Ở trên là quy trình ánh xạ nói chung, và nó có thể được đơn giản hóa trong những tình huống nào đó Lấy ví dụ trong MPEG 3DV, những yêu cầu cần phải được thỏa mãn một cách nghiêm ngặt đó là:

 Camera tốt hơn nên sắp xếp song song với nhau và càng xa vật thể về mặt vật lý càng tốt, những chuỗi video đa góc nhìn thường là kết quả của việc đặt các camera có khoảng cách với nhau là 5cm

 Nếu cần thiết phải hiệu chỉnh ảnh để cung cấp các góc nhìn sắp xếp tuyến tính và song song, thì cần cung cấp cả dữ liệu đã hiệu chỉnh và dữ liệu gốc Việc hiệu chỉnh nên được thực hiện tốt nhất có thể bằng cách sử dụng các thuật toán chất lượng cao

 Các thông số hiệu chuẩn máy ảnh như thông số trong, thông số ngoài, hay mặt phẳng cảm biến cũng được yêu cầu phải chính xác

Dựa vào những yêu cầu trên chúng ta sẽ giải quyết vấn đề tổng hợp ảnh trong trường hợp đặc biệt này, đó chúng ta có thể xem xét phương pháp dịch chuyển 1D bởi vì sự chênh lệch (disparity) chỉ xảy ra dọc theo trục u, không theo trục v nữa Để đơn giản hóa hơn nữa kết quả, chúng ta cho rằng camera ảo có cùng độ dài tiêu cự và ma trận xoay nhưng không làm mất đi tính tổng quát của nó Do đó chúng ta sẽ có phương trình dưới đây dựa trên công thức tổng quát (2.4) và (2.5)

Trong đó: f là độ dài tiêu cự, t x v , và t x r , là thành phần x (chiều ngang) của vector dịch chuyển t từ góc nhìn ảo và góc nhìn tham khảo tương ứng, o x v , và o x r , là thành phần x của principle point offset từ góc nhìn ảo và góc nhìn tham khảo tương ứng Đặt l  t x v ,  t x r , là không gian cơ bản (baseline spacing) và du  o x v ,  o x r , là sự khác nhau trong principle offset Vị trí pixel tương ứng trong góc nhìn ảo có thể được biểu diễn bởi 1 sự chênh lệch d:

    z  (2.7) Như vậy đối với trường hợp đặc biệt (sắp xếp camera song song) một khi z được tính nhờ vào phương trình (2.3) chúng ta có thể ánh xạ mọi pixel từ góc nhìn tham khảo tới góc nhìn ảo dựa vào phương trình (2.7)

Chú ý rằng ở phương trình (2.7) kết quả có thể là số thực nghĩa là một pixel có thể được ánh xạ vào một vị trí pixel không phải là số nguyên Để hiện thực nhanh, chúng ta sẽ thực hiện việc làm tròn tới một vị trí pixel nguyên Và để làm giảm những ảnh hưởng của lỗi làm tròn, có thể chúng ta sẽ muốn ánh xạ tới một vị trí pixel con Trong phần hiện thực của mode 1D (trường hợp đặc biệt) ở phần mềm tham khảo cho tổng hợp ảnh VSRS [11] được sử dụng trong MPEG 3DV, người ta có thể lựa chọn việc làm trũn một nửa pixel hay ẳ pixel Việc ảnh xạ pixel đơn tới một nửa hay ẳ pixel cú thể ảnh hưởng chất lượng tổng hợp ảnh Vì vậy tăng kích thước chiều rộng ảnh (upsample) lên 2 hoặc 4 lần ở góc nhìn tham khảo trước khi thực hiện ánh xạ có thể được sử dụng để nâng cao chất lượng ánh xạ

Sau bước ánh xạ 3D, thông thường kết quả của hai hình ảnh ánh xạ trung gian ở khu vực biên thường xuất hiện các lỗi như các lỗ trống, đường viền đen, các lỗi này thường bị gây ra bởi sự thiếu chính xác của các thông số máy ảnh và ranh giới không chính xác kết hợp giữa hình ảnh kết cấu và hình ảnh sâu Để loại bỏ các lỗi này chúng ta có thể sử dụng giãn hình ảnh, những lỗ trống có thể được lấp đầy bởi ánh xạ 3D khác, ta cũng có thể có được ảnh tổng hợp tự nhiên hơn bằng cách loại bỏ loại lỗi này Bước tiếp theo là trộn (merging) các hình ảnh để tạo ra ảnh sau khi ánh xạ 3D Bước cuối cùng sử dụng các giải thuật lấp đầy lỗ trống (hole-filling) cho hình ảnh cuối được hoàn thiện Các vấn đề của lấp đầy lỗ hổng trong phạm vi dữ liệu có thể cơ bản được chia thành hai vấn đề: xác định các lỗ, và việc tìm kiếm tham số thích hợp cho phép xây dựng lại các phần bị mất bằng cách sử dụng dữ liệu có sẵn Trong nhiều tình huống thực tế, lỗ trống xảy ra trong phạm vi hình ảnh có thể có cấu trúc liên kết đơn giản Đây là trường hợp mà ảnh được ghi hình phòng quay, nơi mà hầu hết các bề mặt có xu hướng là các khu vực phẳng mịn (ví dụ, trong một ngôi nhà hoặc văn phòng) Đối với những trường hợp này, thuật toán đơn giản để xác định lỗ và cho tham số vùng lân cận, dựa vào lớp các đối tượng để xác định lỗ trống thuộc về đối tượng nào, sau đó tiến hành nội suy giá trị màu dựa trên các dữ liệu có sẵn.

Phương pháp đánh giá kết quả

Để đánh giá chất lượng của ảnh sau tổng hợp có hai phương pháp: phương pháp định tính và phương pháp định lượng

Với phương pháp định tính, chất lượng của ảnh được đánh giá bằng mắt nhìn, cảm nhận của con người về màu sắc của ảnh tổng hợp so với ảnh gốc hoặc góc nhìn thực tế Để khẳng định kết quả bằng định tính, một phương pháp phổ biến và hiệu quả là sử dụng các bảng tham khảo ý kiến (survey) của nhiều người về chất lượng ảnh sau tổng hợp, tuy nhiên phương pháp này có độ chính xác tương đối tùy vào đối tượng được khảo sát Đối với phương pháp định lượng, một chỉ số rất phổ biến trong xử lý ảnh để đánh giá chất lượng là Tỉ số tín hiệu cực đại trên nhiễu (peak signal-to-noise ratio), thường được viết tắt là PSNR Là một thuật ngữ dùng để tính tỉ lệ giữa giá trị năng lượng tối đa của một tín hiệu và năng lượng nhiễu ảnh hướng đến độ chính xác của thông tin Bởi vì có rất nhiều tín hiệu có phạm vi biến đổi rộng, nên PSNR thường được biểu diễn bởi đơn vị logarithm decibel

PSNR được sử dụng để đo chất lượng tín hiệu khôi phục của các thuật toán nén có mất mát dữ liệu (lossy compression) dùng trong nén ảnh Tín hiệu trong trường hợp này là dữ liệu gốc, và nhiễu là các lỗi xuất hiện khi nén Khi so sánh các thuật toán nén thường dựa vào sự cảm nhận gần chính xác của con người đối với dữ liệu được khôi phục, chính vì thế trong một số trường hợp dữ liệu được khôi phục của thuật toán này dường như có chất lượng tốt hơn những cái khác, mặc dù nó có giá trị PSNR thấp hơn (thông thường PSNR càng cao thì chất lượng dữ liệu được khôi phục càng tốt) Vì vậy khi so sánh kết quả của 2 thuật toán cần phải dựa trên bộ nén và giải nén giống nhau và nội dung của dữ liệu cũng phải giống nhau

Cách đơn giản nhất là định nghĩa thông qua mean squared error (MSE) được dùng cho ảnh hai chiều có kích thước m×n trong đó I và K là ảnh gốc và ảnh được khôi phục tương ứng:

(2.8) PSNR được định nghĩa bởi:

(2.9) Ở đây, MAXI là giá trị tối đa của pixel trên ảnh Khi các pixel được biểu diễn bởi 8 bit, thì giá trị của nó là 255 Trường hợp tổng quát, khi tín hiệu được biểu diễn bởi B bit trên một đơn vị lấy mẫu, MAXI là 2 B 1 Với ảnh màu với ba giá trị RGB trên một pixel, các tính toán cho PSNR tương tự ngoại trừ việc tính MSE là tổng của ba giá trị (tính trên ba kênh màu) chia cho kích thước của ảnh và chia cho 3

Giá trị thông thường của PSNR trong ảnh và nén có mất mát dữ liệu (lossy video) nằm từ 30 đến 50 dB, giá trị càng cao thì càng tốt Giá trị có thể chấp nhận được khi truyền tín hiệu không dây có tổn thất khoảng từ 20 dB đến 25 dB.

CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN

Tổng hợp ảnh theo vùng ảnh tin cậy

3.1.1 Mã hóa và Tổng hợp ảnh cho Multiview Video

Nghiên cứu này kết hợp mã hóa video đa góc nhìn cộng thêm dữ liệu chiều sâu với tổng hợp ảnh dựa trên độ tin cậy [1] Trong tổng hợp ảnh, việc tạo ra các góc nhìn trung gian tại các vị trí tùy ý, là tổng hợp giữa các cặp liền kề các góc nhìn ban đầu bằng cách chiếu 3D trong trường hợp chung nhất Các mẫu từ góc nhìn ban đầu được chiếu lên góc nhìn trung gian theo vị trí trung gian tham số k Tham số này cũng kiểm soát pha trộn, trọng lượng giữa các mẫu của cả hai điểm ban đầu Ngoài ra phương pháp này, dựa trên độ tin cậy cao, đầu tiên phát hiện khu vực không đáng tin cậy cùng gián đoạn chiều sâu (depth discontinuous) Các khu vực này được biết là tạo ra các sai sót (artifact) trong quá trình chiếu, do đó cần được xử lý một cách riêng biệt Các khu vực đáng tin cậy được chiếu đầu tiên Sau đó, ranh giới không đáng tin cậy các khu vực được chia thành dữ liệu nền trước (foreground) và nền sau (background) Ở đây, các khu vực nền trước được chiếu đầu tiên và sáp nhập với vùng dữ liệu đáng tin cậy Sau đó, các dữ liệu nền sau cũng được chiếu và sáp nhập Sự khác biệt quan trọng giữa nền trước và nền sau là quá trình sáp nhập: dữ liệu nền trước được sáp nhập với các dữ liệu đáng tin cậy với cách tiếp cận phần trước nhất (front most-sample-approach) để bảo đảm các thông tin quan trọng được chiếu trước Ngược lại, thông tin nền sau chỉ được sử dụng để điền vào các khu vực khuất Cuối cùng, các thuật toán nâng cao khác nhau được áp dụng, bao gồm loại bỏ outlier, lấp chỗ trống và làm mịn cạnh tự nhiên Việc tổng hợp ảnh dựa trên vùng tin cậy được thực hiện thông qua Hình 3.1 với các bước cơ bản như sau:

 Phân tách lớp (layer extraction) : phân biệt giữa các vùng sâu đáng tin cậy và không đáng tin cậy trong các góc nhìn ban đầu Các khu vực dọc theo biên, cạnh của đối tượng được coi là không đáng tin cậy, kể từ khi biên, cạnh thường có nền trước/nền sau có thể tạo ra các sai sót sau khi chiếu vào góc nhìn mới Hơn nữa, lỗi từ ước lượng độ sâu chủ yếu là đường biên bị biến dạng của đối tượng, do đó, vùng ảnh có độ sâu gián đoạn đáng kể được phát hiện để tạo ra các lớp chính và đường biên Giải thuật phát hiện cạnh Canny được ứng dụng nhằm hoạt động trên những ảnh dữ liệu sâu và đánh dấu một khu vực rộng không đáng tin cậy dọc theo các cạnh được phát hiện

 Chiếu lớp (layer projection): đây là khâu thứ hai trong chuỗi xử lý tổng hợp ảnh, xây dựng một góc nhìn chung của tổng hợp dựa trên góc nhìn trung gian Đầu vào là hai hình ảnh gốc bên trái và bên phải, bản đồ độ sâu liên quan, hiệu chỉnh máy ảnh liên quan đến thông tin, tham số nội suy λ  [0 ã ã ã 1] và thụng tin liờn quan đến gúc nhỡn Cỏc vựng khỏc nhau cú góc nhìn từ cả hai hình ảnh đầu vào được chiếu lên góc nhìn ảo một cách riêng biệt và kết quả được hợp nhất sau khi đặt hàng chiều sâu và tiêu chuẩn độ tin cậy Vùng tin cậy sẽ được chiếu lên trước tiên dựa vào phương pháp nội suy tuyến tính trên dữ liệu màu và tham số nội suy λ Tiếp theo, nền trước được chiếu lên tương tự như phương pháp của lớp chung Sau đó, lớp chung và lớp nền trước được sát nhập Các mẫu trước nhất (front most) từ lớp được thực hiện, mà phần lớn là ranh giới mẫu nền trước Trong bước cuối cùng của quá trình chiếu là chiếu nền sau Thông tin này chỉ được sử dụng để điền vào lỗ hổng còn lại trong giao diện trung gian

 Nâng cấp (enhancement) : cuối cùng là quá trình điều chỉnh và hoàn thiện Các vết nứt nhỏ có thể xảy ra trong khu vực toàn bộ hình ảnh bởi tính chất forward mapping của hình ảnh dựa trên ánh xạ 3D Mỗi điểm từ một hình ảnh ban đầu được chiếu riêng vào góc nhìn trung gian, vị trí này là lượng tử gần nhất lân cận vị trí của các số nguyên mẫu, gây ra các artifact trên góc nhìn tổng hợp Các loại lỗ trống lớn thường xuất hiện ở các vùng mà không nhìn thấy đồng thời bởi hai góc nhìn gốc Để khắc phục hiện tượng này, có thể áp dụng các bộ lọc “low-pass filter” để có được hình ảnh tự nhiên

Tách lớp Góc nhìn trái

Tạo đường biên lớp Góc nhìn trái

Trình chiếu lớp Góc nhìn trái

Tách lớp Góc nhìn phải

Tạo đường biên lớp Góc nhìn phải

Trình chiếu lớp Góc nhìn phải

Nâng cấp góc nhìn trung gian Trình chiếu:

Hình 3.1: Sơ đồ xử lý của tổng hợp ảnh dựa trên độ tin cây

Với nghiên cứu này, góc nhìn trung gian đã được tổng hợp từ các dữ liệu không nén cũng như nén Chất lượng được cải thiện từ chiếu dựa trên độ tin cậy cũng có tác dụng với các dữ liệu nén Kết quả trong Hình 3.2 [1] cho thấy các hình ảnh dọc theo ranh giới đối tượng cũng như giảm thiểu các artifact với quá trình xử lý dựa trên độ tin cậy Các khu vực dọc theo chiều sâu không liên tục được xử lý riêng Phát hiện cạnh để phân tích gián đoạn dữ liệu chiều sâu đủ mạnh để phát hiện các cạnh trơn tru trong các dữ liệu được mã hóa chiều sâu Sau đó, lọc các nhà khai thác tích hợp một phần loại bỏ các điểm phân tán (scattered point), có thể nhìn thấy trong Hình 3.2 Vì vậy, cách tiếp cận dựa trên độ tin cậy cao có thể cải thiện chất lượng các góc nhìn tổng hợp trong các hệ thống 3DV và cho cả dữ liệu nén

Hình 3.2: Kết quả tổng hợp ảnh có và không sử dụng độ tin cậy

Có thể thấy rằng các khu vực với độ sâu tương ứng và khu vực cạnh dễ gây ra artifacts có thể nhìn thấy trong quá trình tổng hợp Để nghiên cứu sự phụ thuộc lẫn nhau giữa mã hóa và tổng hợp ảnh, kết quả được hiển thị cho các giai đoạn đơn cũng như cho các chuỗi 3DV hoàn chỉnh Đánh giá tổng hợp ảnh cho thấy rằng phương pháp tiếp cận dựa trên áp dụng độ tin cậy cũng ngăn chặn các artifact trong dữ liệu nén và do đó thích hợp cho một hệ thống 3DV

3.1.2 Cải tiến tổng hợp ảnh dựa trên tách lớp đối tƣợng

Nghiên cứu này đề xuất phương pháp cải tiến tổng hợp ảnh dựa trên tách lớp đối tượng của ảnh chiều sâu đối với ngữ cảnh ràng buộc về tốc độ (rate-constrain) Điểm ảnh từ mỗi lớp LDI (Layer Depth Image) được tổ chức lại để tăng cường dữ liệu sâu được liên tục [5] Để khắc phục các artifact kết quả của các ảnh sâu gián đoạn, đặc biệt là sau khi nén bản đồ độ sâu, một ảnh mới đại diện LDI dựa trên đối tượng được đề xuất để tổ chức các điểm ảnh LDI thành hai lớp riêng biệt lớp nền trước và lớp nền sau, để tăng cường tính liên tục cho dữ liệu chiều sâu Nếu các điểm ảnh chiều sâu từ một đối tượng 3D thực sự thuộc về cùng một lớp, sau đó nén hiệu quả hơn nhờ sự tương quan không gian cao hơn cải thiện hiệu quả dự báo không gian (spacial prediction) của bản đồ texture và chiều sâu Hơn nữa, các lớp liên tục có thể được mô hình hiệu quả về cả tốc độ và giảm artifact bằng cách sử dụng các kỹ thuật dựng hình dựa trên lưới Số lượng các lớp bên trong một LDI không phải là giống nhau cho từng vị trí pixel Một số vị trí có thể chứa chỉ có một lớp, trong khi một số vị trí khác có thể chứa nhiều lớp (hoặc điểm ảnh chiều sâu) Nếu một số pixel chiều sâu được đặt tại cùng một vị trí gần nhất thuộc về lớp nền trước, có thể nhìn thấy từ góc nhìn tham khảo, trong khi đó xa nhất là giả định thuộc về lớp nền sau Nghiên cứu này trình bày phương pháp tách lớp nền trước và nền sau dựa trên một thuật toán phát triển theo miền, cho phép các điểm ảnh LDI được chia thành hai lớp dựa trên đối tượng Đầu tiên, tất cả các vị trí pixel có chứa một số lớp được lựa chọn LDI đầu vào Xác định một khu vực R, thể hiện trong Hình 3.3 [5], nơi mà các điểm ảnh nền trước và nền có thể dễ dàng xác định

Hình 3.3: Ví dụ trạng thái khởi tạo của thuật toán Region Growing

Các khu vực đã phân loại (a) , (b) phát triển điểm ảnh theo điểm ảnh, cho đến khi toàn bộ hình ảnh được phân loại, như thể hiện trong Hình 3.4 [5]

Hình 3.4: Kết quả áp dụng Region Growing cho các lớp đã phân loại

Sau khi phân loại foreground/background được thực hiện, các lớp background là hầu hết không đầy đủ (xem Hình 3.4(b)).Một số khu vực của lớp nền sau có thể không thể nhìn thấy từ bất kỳ điểm đầu vào Để tái tạo lại kết cấu nền mất tích tương ứng, người ta phải sử dụng các thuật toán inpainting trên cả hai kết cấu và hình ảnh bản đồ độ sâu

Cuối cùng là thực hiện mô hình hóa (rendering), các phương pháp biến đổi mỗi lớp liên tục vào lưới Lưới nền trước được phủ trên nền sau để tránh kéo dài khoảng ranh giới các đối tượng Với phương pháp này, đã cho thấy tính khả thi của việc dựng hình thời gian thực để hiển thị ảnh như trong Hình 3.5

Hình 3.5: So sánh rendering giữa LDI thông thường và dựa trên đôi tượng

Những LDI dựa trên đối tượng có một số tính năng tốt Giảm số lượng chiều sâu không liên tục trong mỗi lớp cải thiện hiệu suất nén và giảm thiểu các artifact nén cho một bitrate nhất định Giai đoạn rendering chỉ có thể được thực hiện với hai mắt lưới, nhưng một số kết cấu kéo dài (stretching) có thể xuất hiện Những artifact này có thể tránh được bằng cách thực hiện chiếu theo trình tự, loại bỏ các vết nứt và lấp đầy các lỗ trống với kết cấu nền (background texture)

3.1.3 Dự đoán trên ảnh tổng hợp cho Multiview Video

Nghiên cứu này đề xuất phương pháp tối ưu hóa tỉ lệ biến dạng của ảnh sau khi mã hóa bằng việc kết hợp tổng hợp ảnh cho dự đoán trong mã hóa video MultiView [9] Các thông tin bao gồm cả dữ liệu chiều sâu, được mã hóa và sử dụng bộ giải mã để tạo ra góc nhìn tổng hợp cho dự đoán trong mã hóa Phương pháp được đề xuất sử dụng quyết định hình tối ưu, bao gồm tổng hợp, dự đoán ảnh, và tham khảo phân điểm ảnh phù hợp để cải thiện độ chính xác dự báo dự đoán tổng hợp ảnh.Các biến thể ảnh mới và phương thức trực tiếp cũng được trình bày để suy ra chiều sâu và hiệu chỉnh thông tin vector từ những khối lân cận trong một hình ảnh tham khảo tổng hợp để giảm các bit cần thiết cho chế độ xem dự đoán tổng hợp Quá trình tổng hợp ảnh gồm cả chiều sâu ảnh và các thông số máy ảnh, để tạo ra dữ liệu tham khảo dựa trên khối (block- based) được sử dụng trong khâu dự đoán của mã hóa Một ưu điểm khác của tổng hợp ảnh là có thể có một phạm vi tìm kiếm tùy ý lớn vì nó sử dụng các thông số máy ảnh để xác định vị trí phù hợp với tiềm năng Cuối cùng, bên cạnh thông tin mã hóa chi phí có thể được lưu như chiều sâu là một vô hướng trong khi sự chênh lệch (compensation) là một vector Để có được một hình ảnh tổng hợp cho tham khảo, một trong các nhu cầu để tìm các dự đoán cường độ điểm ảnh I’[c,t,x,y] cho máy ảnh c (máy ảnh dự đoán) thời gian t cho mỗi điểm ảnh (x,y) của các khối hiện tại tiên đoán được Áp dụng mô hình máy ảnh pinhole chiếu vị trí pixel (x,y) vào tọa độ thế giới [u, v, w] qua công thức (3.1) trong đó D là chiều sâu quy định đối với tâm quang học của máy ảnh c và A, R và T được các thông số máy ảnh

Tiếp theo, các tọa độ trên không gian thế giới được ánh xạ vào mục tiêu tọa độ [x’,y’,z’] của các khung hình trong máy ảnh c’ (máy ảnh tham chiếu) mong muốn dự đoán từ công thức (3.2)

Tìm D chiều sâu tốt nhất để nối các điểm (x,y) thành các điểm (x’, y’) tương ứng với quá trình kết hợp phân điểm Mặt khác, quá trình sử dụng D tốt nhất để tổng hợp I’[ c, t, x, y ] được dán nhãn là tổng hợp ánh xạ 3D Để nâng cao hơn nữa hiệu suất của dự đoán tổng hợp ảnh, một sự điều chỉnh tổng hợp vector (Cx,Cy), độ sâu duy nhất (và tùy chọn một vector chỉnh sửa) sẽ được sử dụng cho tất cả các điểm ảnh trong một macroblock trong khuôn khổ đề xuất của nghiên cứu này để có sự cân bằng hợp lý giữa chất lượng và tốc độ mã hóa của thông tin này như cũng như tự nhiên phù hợp với marcoblock dựa trên các tiêu chuẩn video truyền thống mã hóa như H.264/AVC.

Tổng hợp ảnh theo hiệu chỉnh ảnh

3.2.1 Tổng hợp ảnh không có thông số hiệu chỉnh

Bài nghiên cứu này giới thiệu một phương pháp tự động để xác định view ảo dựa trên sự sao chép của hình học epipolar nối hai góc nhìn tham khảo Bên cạnh đó đưa ra một phương pháp để tạo ra các góc nhìn tổng hợp bắt đầu từ một hình ảnh chưa hiệu chỉnh duy nhất [3]

Trong thuật toán tổng hợp ảnh, một thuộc tính rất quan trọng là cấu trúc dẫn (affin) tương đối độc lập với sự lựa chọn của góc nhìn thứ hai Do đó, "góc nhìn thứ hai" có thể được tổng hợp bằng cách chỉ định một mặt phẳng homography và epipole Điều này dẫn đến các thuật toán tổng hợp sau đây:

1 Cho một tập các cặp liên hợp (mi’;mi’) , i = 0 n

2 Thu hồi epipole e’ và homograhpy H

3 Chọn một điểm mo và biến đổi H nhằm thỏa mãn: m o ’ ~ H  m o + e’

4 Tính toán cấu trúc tương đối affin ki : k i = (H  m i x m i ’) T (m i ’x e’) || (m i ’x e’) || 2

5 Có được một epipole mới en và một mặt phẳng homography H 

6 Chuyển điểm trong góc nhìn tổng hợp với m i ’ n ~ H  m i ’ + e n k i

Hai vấn đề cần được giải quyết ở đây: i) làm thế nào để tính toán tương quan và ii) làm thế nào để xác định một epipole e” mới và homography H  đã được cố định vị trí và hướng của máy ảnh ảo Bài nghiên cứu trình bày hai kỹ thuật: đầu tiên là cải tiến trong cách tính epipole e” homography H  , theo cách cấu trúc tương đối affin bị thu hồi từ một hình ảnh, thứ hai trong cách cấu trúc tương đối affin bị thu hồi từ một hình ảnh

Ma trận homography H z giữa các hình ảnh quan sát là ước tính cho bốn điểm tương quan Bằng cách áp dụng H z trên hình ảnh quan sát, một góc nhìn z được tổng hợp Epipole e’ được tính toán từ mặt phẳng homography và thị sai (parallax) của hai đối tượng Sau đó, tính toán biến đổi H z như bước 3 và cuối cùng, tính toán cấu trúc tương đối affin k i cho tất cả các đối tương như bước 4 Hình 3.6 [3] là kết quả của việc tổng hợp theo phương pháp này

Hình 3.6: Kết quả tổng hợp sử dụng Parallax, Trái - hình ảnh thực, phải- hình ảnh tổng hợp

Phương pháp xác định vị trí máy ảnh ảo không có thông số bằng cách sao chép các hình học epipolar liên kết các quan điểm mô hình, được coi như là một phương pháp dịch chuyển cơ sở Góc nhìn ảo không nhất thiết phải nằm giữa hai camera thật, ảnh được tổng hợp từ các góc nhìn tham khảo không có thông số hiệu chỉnh camera là một phần kết quả của bài nghiên cứu

3.2.2 Nội suy và ngoại suy ảnh cho MVC

Một số phương pháp tổng hợp ảnh được dựa trên ước lượng độ sâu Trong bài nghiên cứu này đề xuất phương pháp tổng hợp ảnh mà không có liên quan đến thông tin chiều sâu cho trước Đặc biệt, nghiên cứu tập trung vào các chương trình tổng hợp ảnh không cần các thông số máy ảnh, không phải lúc nào cũng có sẵn [2] Trong trường hợp này, ước tính chênh lệch (disparity estimation) thường được sử dụng để tính toán các bản đồ khác nhau giữa hai view lân cận, và các góc nhìn ảo sau đó tổng hợp bằng cách sử dụng các thông tin disparity

Hầu hết các phương pháp tổng hợp ảnh được thiết kế cho stereo view và cho máy ảnh phù hợp, tức là, hai máy ảnh song song và chỉ khác nhau bởi một sự thay đổi nhỏ theo chiều ngang Đối với các thiết lập máy ảnh tổng quát hơn, hương pháp nội suy RVI (Rectification-based Interpolation) được đề xuất trong Điều này liên quan đến việc tính toán ma trận cơ bản giữa hai view và kết hợp epipolar Thuật toán không yêu cầu các thông số máy ảnh, và có yêu cầu ít thiết lập máy ảnh, miễn là khoảng cách giữa các máy ảnh không phải là quá xa.Vì vậy, nó phù hợp cho các hệ thống video MultiView với các máy ảnh không canh lề và các thông số máy ảnh không rõ Hình 3.7cho thấy các bước chính trong các thuật toán RVI đề xuất

Hiệu chỉnh ảnh phải Ước lượng độ sâu Nội suy ảnh Khôi phục hiệu chỉnh ảnh Ảnh góc nhìn ảo

Hình 3.7: Sơ đồ khối của giải thuật RVI

1) Hiệu chỉnh ảnh đầu vào( Projective View Rectification): Để khắc phục các góc nhìn đầu vào không song song, đầu tiên ước tính ma trận cơ bản, đặc trưng hình học epipolar giữa hai góc nhìn Ma trận có thể thu được mà không cần sử dụng bất kỳ thông số máy ảnh Giả sử một điểm X trong không gian 3-D là chiếu của điểm x l trong một view Đầu tiên, tọa độ nguồn gốc được translate sang trung tâm hình ảnh thông qua một biến đổi:

T = | 0 1 –Cy |  0 0 1  trong đó c = (c x , c y ) là trung tâm ảnh.Giả sử epipole xem là e = (ex, ey, 1) T sau khi dịch Bước tiếp theo là để xoay hình ảnh epipole di chuyển trục x, tức là, phối hợp đồng nhất của nó có định dạng (v, 0, 1 ) T Phép quay R như sau là cần thiết

R = | -e y e x 0 |  0 0 1 với  = 1 nếu e x  0  = -1 nếu ngược lại

Cho một vị trí epipole mới (v, 0, 0) T , việc chuyển đổi sau đây được áp dụng cho bản đồ epipole đến vô cùng:

Kết quả ma trận hiệu chỉnh cho một góc nhìn: H = GRT

2) Ước lượng độ sâu(Disparity estimation): hai góc nhìn song song được tạo ra sau khi hiệu chỉnh, disparity estimation có thể được thực hiện trong 1-D Tuy nhiên, xử lý độc lâp của các dòng quét khác nhau dẫn đến các đường sọc ngang trong bản đồ disparity Một số đồ thị các thuật toán cắt giảm đã được đề xuất để đạt được ước lượng sự khác biệt chính xác hơn, nhưng không có thể xử lý lỗi khuất tốt, bởi vì giả định rằng mỗi pixel ở góc nhìn trái có thể được ánh xạ vào nhiều pixel ở góc nhìn phải, nhưng trong thực tế một số điểm ảnh trong giao diện bên trái có bị khuất và không tương ứng với bất kỳ điểm ảnh trong giao diện bên phải Một thuật ngữ được giới thiệu để ưu tiên cho các giải pháp với những thay đổi nhỏ giữa các vùng lân cận, trong khi vẫn giữ những ưu điểm của đồ thị cắt là chi phí năng lượng cho điểm ảnh (x, y) được định nghĩa là

E(x, y) = E data (x, y) + E occ (x, y) + E smooth (x, y) với E data là khác biệt cường độ giữa các điểm ảnh tương ứng, E occ áp đặt một penalty cho các pixel khuất, và E smooth đảm bảo rằng các điểm ảnh lân cận có sự chênh lệch tương tự

3) Nội suy góc nhìn theo pixel phụ(Sub-Pixel View Interpolation): nội suy pixel có thể được thực hiện sau khi disparity estimation Mặc dù hai góc nhìn lân cận có sẵn, không có đảm bảo rằng mỗi pixel trong một góc nhìn có điểm ảnh tương ứng của nó trong giao diện khác, do bị khuất Do đó, cần xem xét nhiều trường hợp khác nhau

Hình 3.8: Nội suy ảnh cho các trường hợp điểm ảnh khác nhau Ở mỗi pixel, thực hiện nội suy cho dữ liệu màu và dữ liệu vị trí, như trong Hình 3.8 , trường hợp (a) vị trí điểm ảnh tương ứng trong góc nhìn trung gian có thể dễ dàng thu được bằng cách nội suy dựa trên disparity và các giá trị màu pixel của điểm ảnh trung gian là nội suy từ góc nhìn trái và phải Đối với các điểm ảnh có điểm ảnh tương ứng nằm ngoài khu vực hình ảnh hợp lệ của góc nhìn kia (b), chúng ta mở rộng sự chênh lệch của điểm ảnh biên, và màu sắc điểm ảnh được sao chép phù hợp Do lỗi khuất, một số điểm ảnh chỉ thấy trong một góc nhìn Do đó không tính được disparity như trong trường hợp (c) và (d) Khu vực khuất của góc nhìn bên trái bị che bởi các đối tượng ở bên cạnh phải của họ, và các điểm ảnh khuất trong góc nhìn bên phải (view i + 1) bị che bởi các đối tượng ở bên cạnh trái Vì vậy, góc nhìn nội suy có thể sử dụng sự chênh lệch của các điểm ảnh nền láng giềng Nếu khoảng cách giữa góc nhìn trái / phải và các góc nhìn mục tiêu bằng các yếu tố α 0,5, và các tọa độ nội suy sẽ được một trong hai số nguyên hoặc half- integer Trong trường hợp này, sự phức tạp trong công thức tính toán nội suy có thể được đơn giản hóa

4) Khôi phục ảnh đã hiệu chỉnh (Projective Un-Rectification): thuật toán hiệu chỉnh trên có thể tạo ra hình ảnh nội suy không phải là khung hình chữ nhật gốc Vì vậy, bước cuối cùng của phương pháp RVI là chiếu góc nhìn trung gian để các tọa độ ban đầu tại cùng một vị trí Để làm như vậy, trước tiên chúng ta xác định vị trí các vị trí của bốn góc từ nội suy hình ảnh w i (t j ) Mục tiêu là tìm ma trận 3x3 ma trận un-rectification B giảm thiểu các lỗi ánh xạ từ những điểm này để bốn góc của hình ảnh w i (t j ), với xi là tọa độ đồng nhất của bốn góc trong w i (t j ) Các phương pháp biến đổi tuyến tính trực tiếp có thể được áp dụng để đơn giản việc chiếu ngược ảnh về không gian ban đầu

3.3 Tổng hợp ảnh theo chiều sâu thích nghi

Trong tổng hợp ảnh, do tính chất cục bộ theo không gian của ảnh, việc xem xét nhiều điểm ảnh ứng cử viên (candidate pixel) để tạo ra các giá trị màu cho một điểm ảnh trong góc nhìn ảo là rất cần thiết Tuy nhiên, khi các điểm ảnh ứng cử viên thuộc các đối tượng khác nhau có thể khiến điểm ảnh tổng hợp bị mờ Để giải quyết vấn đề này, bài báo đã đề xuất một thuật toán tổng hợp ảnh theo chiều sâu thích ứng, màu của điểm ảnh được pha trộn dựa trên các mức độ sâu khác nhau [8] Thuật toán đầu tiên phân loại các điểm ảnh chiều sâu trong các cụm (cluster) dựa trên giá trị độ sâu của chúng Sau đó, cụm chiều sâu được sử dụng trong việc giải quyết hiển thị và pha trộn (blending) trong quá trình tổng hợp Cuối cùng, các lỗ hổng còn lại được lấp đầy cũng dựa vào chiều sâu thích nghi

Tổng kết các nghiên cứu liên quan

Các nghiên cứu đã chỉ ra rằng việc hiện thực tổng hợp ảnh kết hợp với mã hóa cho 3D Video sẽ đem lại kết quả khả quan trong tương lai để những ứng dụng đa hướng nhìn có chất lượng tốt và sống động hơn Đây không những là bước tiến công nghệ đối với lĩnh vực nghiên cứu về xử lý ảnh, đồ họa máy tính mà còn được trông chờ trong nhiều lĩnh vực khác như công nghiệp, giải trí, giáo dục…

Qua việc tìm hiểu về các nghiên cứu liên quan, hầu hết các nghiên cứu về tổng hợp ảnh ứng dụng trong Multiview Video đều được thực hiện trong những năm gần đây, các bài nghiên cứu đã được đánh giá thông qua các hội nghị tầm cỡ như ICIP, ICME của IEEE hay EURASIP Journal Và đặc biệt các nghiên cứu về tổng hợp ảnh dựa trên chiều sâu là xu hướng nghiên cứu mới, đang và sẽ được nhiều người quan tâm

Với những nền tảng về cơ sở lý thuyết và nhưng nghiên cứu liên quan trên, điều kiện để tiếp tục nghiên cứu và cải tiến Tổng hợp ảnh dựa trên chiều sâu là khả quan và có thể thực hiện với quy mô của luận văn Thạc sĩ này.

HIỆN THỰC CHƯƠNG TRÌNH

Tập tin cấu hình

Các tập tin cấu hình trình bày một bộ các thông số cấu hình Mỗi tham số cấu hình được quy định cụ thể trong một dòng của tập tin cấu hình Trình tự của các thông số cấu hình bên trong một file cấu hình có thể được tự ý lựa chọn Mỗi tham số cấu hình có một giá trị mặc định, và khi các tham số cấu hình không phải là hiện diện trong các tập tin cấu hình, giá trị mặc định được thay thế Vì vậy, nói chung là không cần thiết để xác định tất cả các thông số cấu hình trong file cấu hình Cuối cùng, cần lưu ý rằng giá trị tham số cấu hình được chỉ định trong file configration có thể được thay thế bằng các giá trị quy định thông qua các tùy chọn dòng lệnh

Tất cả các thông số cấu hình có sẵn tập tin để tổng hợp ảnh cùng với một mô tả ngắn gọn được tóm tắt trong Ví dụ 2 Thông tin thêm về tham số cấu hình được đưa ra dưới đây

Ví dụ 2: Tập tin cấu hình

CameraParameterFile \ \ camera_parameter_files \ \ cam_param_dog.txt

LeftViewImageName C: \YUV \Dog \ dog038.yuv

RightViewImageName C: \ \ YUV \ \ Dog \ \ dog041.yuv

Precision 4 # 1 Integer-Pel, 2 Half-Pel, 4 Khu phố-PEL

Filter 1 0 (Bi), tuyến tính, 1 (Bi)-Cubic, 2 MPEG-4 AVC

BoundaryNoiseRemoval 1 # Loại bỏ ranh giới ồn: Cập nhật By GIST

BoundaryGrowth 40 # tham số để mở rộng khu vực ranh giới với

Chỉ định các loại độ sâu Giá trị đầu vào 0 có nghĩa là tổng hợp ảnh bằng cách sử dụng độ sâu từ một máy ảnh Giá trị đầu vào 1 có nghĩa là chế độ tổng hợp ảnh bằng cách sử dụng độ sâu từ nguồn gốc của không gian 3D

Chỉ định chiều rộng của hình ảnh đầu vào SourceWidth sẽ là một một số nguyên dương

Chỉđịnh chiều cao của hình ảnh đầu vào SourceHeight sẽ là một một số nguyên dương.

Chỉ định frame bắt đầu StartFrame sẽ là một số không âm

Chỉ định số lượng frame của chuỗi đầu vào TotalNumverOfFrames phải là một số nguyên dương

Xác định giá trị độ sâu gần nhất bên trái của hình ảnh từ máy ảnh hoặc nguồn gốc của không gian 3D

Xác định giá trị sâu xa nhất bên trái của hình ảnh từ máy ảnh hoặc nguồn gốc của không gian 3D

Xác định giá trị độ sâu gần nhất của hình ảnh ngay từ máy ảnh hoặc nguồn gốc của không gian 3D

Xác định giá trị sâu xa nhất của hình ảnh ngay từ máy ảnh hoặc nguồn gốc của không gian 3D

String, mặc định: cam_param_ con chó txt

Chỉ định tên tập tin (txt.) Của tập tin bao gồm các thông số bên trong và bên ngoài của tất cả các máy ảnh cho góc nhìn thao khảo và ảo

String, mặc định: param_dog38

Chỉ định tên của máy ảnh tham khảo ở phía bên tay trái của một máy ảnh ảo

Sting, mặc định: param_dog39

Chỉ định tên của camera ảo tạo ra góc nhìn ảo

Sting, mặc định: param_dog41

Chỉ định tên của máy ảnh tham khảo ở phía bên tay phải của một máy ảnh ảo

Sring, mặc định: dog038 YUV

Chỉ định tên của chuỗi video gốc tin (.YUV) tương ứng với máy ảnh bên trái để tổng hợp ảnh

String, mặc định: dog041 YUV để tổng hợp ảnh

Sring, mặc định: depth_ dog038 YUV

Chỉ định tên bản đồ độ sâu của chuỗi video gốc tin (.YUV) tương ứng với máy ảnh bên trái để tổng hợp ảnh

String, mặc định: depth_ dog041 YUV

Chỉ định tên bản đồ độ sâu của chuỗi video gốc tin (.YUV) tương ứng với máy ảnh bên trái để tổng hợp ảnh

String, mặc định: dog_virtual039 YUV

Chỉ định tên bản đồ độ sâu của chuỗi video gốc tin (.YUV) tương ứng góc nhìn ảo, đây là chuỗi ảnh kết quả sau tổng hợp

Unsigned int (0 hoặc 1), mặc định: 0

Xác định phương thức tổng hợp ảnh 0 có nghĩa là phương pháp có không hạn chế và 1 phương pháp này là chỉ hoạt động trên camera song song 1D Chế độ 1D được thay thế bằng các phương pháp trong ViSBD

Unsigned int (0 hoặc 1), mặc định: 0

Chỉ định không gian màu tổng hợp 0 có nghĩa là YUV và 1 là RGB

Unsigned int (1 hoặc 2 hoặc 4), mặc định: 2

Chỉ định mức độ chính xác để tìm điểm tương ứng 1 có nghĩa là độ chính xác pixel, 2 có nghĩa là chính xác một nửa-pixel, và 4 chính xác 4-pixel

Chỉ định các bộ lọc upsampling để tạo ra các tín hiệu hình ảnh trên các vị trí phân điểm ảnh 0 có nghĩa là bộ lọc tuyến tính, 1 là bộ lọc khối, và 2 bộ lọc phương tiện được sử dụng trong MPEG-4 AVC

Unsigned int (0 or1), mặc định: 1

Chỉ định sử dụng loại bỏ nhiễu ở đường biên Giá trị 1 đại diện cho sử dụng loại bỏ nhiễu ở đường biên và giá trị 0 đại diện cho không sử dụng

Unsigned int (0 or1), mặc định: 0

Quy định cụ thể pha trộn hình ảnh bên trái và bên phải hoặc cơ sở bằng cách sử dụng một trong hai hình ảnh nhìn sang trái hoặc phải góc nhìn ảo: 0 có nghĩa là pha trộn hình ảnh trái và phải, 1 có nghĩa là chủ yếu sử dụng xem hình ảnh hoặc trái hoặc phải Trong chế độ 1, nếu view ảo là gần view trái, nhìn bên trái hình ảnh được sử dụng chủ yếu và lỗ trống được lấp đầy với hình ảnh bên phải, và ngược lại

Chỉ định nếu splatting được kích hoạt Giá trị 0 có nghĩa là splatting bị vô hiệu hóa Giá trị 1 có nghĩa là splatting được kích hoạt cho toàn bộ hình ảnh Giá trị

2 có nghĩa là splatting được kích hoạt chỉ cho khu vực ranh giới

Không hợp lệ khi SplattingOption không phải là bằng 2 Khi SplattingOption là bằng 2, khi một điểm ảnh ranh giới được phát hiện, tất cả các pixel thuộc ± BoundaryGrowth của các điểm ảnh phát hiện đường biên được đánh dấu là đường biên và sau đó splatting sẽ được kích hoạt trong 3D warping tương ứng

Xác định phương pháp pha trộn (sáp nhập) Khi một điểm ảnh được ánh xạ từ ảnh thao khảo trái và phải, một phương pháp pha trộn cần được áp dụng để quyết định giá trị điểm ảnh cuối cùng Với MergingOption bằng 0, quá trình pha trộn phụ thuộc hoàn toàn vào z-buffer, mà có nghĩa là các điểm ảnh gần hơn với máy ảnh luôn luôn được lựa chọn Giá trị 1 có nghĩa là trung bình luôn luôn tả trong tài liệu MPEG M15883

Int unsigned phạm vi, [0, 255], mặc định: 75

Một thông số hợp lệ chỉ khi MergingOption được thiết lập Nó được sử dụng trong thuật toán trộn khám phá Một giá trị lớn hơn ngưỡng có nghĩa là điểm ảnh nhiều hơn trung bình Nói chung với một bản đồ độ sâu chất lượng càng kém thì giá trị này càng lớn

Unsigned int, phạm vi [0, 49], mặc định: 30

Một thông số hợp lệ chỉ khi MergingOption được thiết Nó được sử dụng trong thuật toán trộn khám phá Một giá trị lớn hơn có nghĩa là ít điểm ảnh hơn trung bình

Chỉ định sử dụng phương pháp cải thiện tạm thời T, ts được vô hiệu hóa trong chế độ 1D

Chỉ định sử dụng phương pháp tăng cường mode 1D, bao gồm cả hạn chế về pixel mapping và trật tự warping cụ thể cho các điểm ảnh trên các góc nhìn khác nhau

Dữ liệu ảnh đầu vào

Trong tập tin cấu hình có xác định vị trí của các tâp dữ liệu ảnh đầu vào (dataset) Để chạy chương trình VSRS [11] cần cung cấp các tập ảnh gồm:

 Chuỗi dữ liệu màu của ảnh tham khảo trái

 Chuỗi dữ liệu màu của ảnh tham khảo phải

 Chuỗi dữ liệu chiều sâu của ảnh tham khảo trái

 Chuỗi dữ liệu chiều sâu của ảnh tham khảo phải

Các chuỗi dữ liệu này có định dạng YUV và gắn liền với các tham số đầu vào được mô tả trong file cấu hình:

SourceWidth 1280 : chiều rộng của ảnh

SourceHeight 960 : chiều dài của ảnh

LeftNearestDepthValue 3907.7: Giá trị sâu gần nhất của ảnh trái

LeftFarthestDepthValue 8221.6: Giá trị sâu gần xa của ảnh trái

RightNearestDepthValue 3907.7: Giá trị sâu gần nhất của ảnh phải

RightFarthestDepthValue 8221.6: Giá trị sâu xa nhất của ảnh phải

Sơ đồ khối chức năng của chương trình

Khởi tạo các giá trị tham số camera Khởi tạo các giá trị tham số tổng hợp ảnh

Mở các file input dữ liệu màu và chiều sâu của góc nhìn tham khảo trái và phải Đọc frame thứ n để xử lý n++

Khởi tạo frame ảo Thực hiện nội suy để tổng hợp frame ảo

Xuất kết quả tổng hợp frame ảo n < tổng số frame cần tổng hợp Đóng file output

Hình 4.1: Sơ đồ khối chức năng chương trình tổng hợp ảnh

Chức năng nội suy trung gian để tổng hợp ảnh: Đây là hàm chức năng chính của chương trình sử dụng sysnthesisMode để quyết định chương trình sẽ thưc hiện theo cách sắp xếp camera như thế nào

 Sắp xếp vòng quanh thế giới vật thể (general mode)

 Sắp xếp song song nhau (trường hợp đặc biệt – 1D mode)

Nguyên tắc của 2 mode là hoàn toàn giống nhau và trình tự theo giải thuật đã nêu ở phần Tổng hợp ảnh, tuy nhiên để đơn giản trong quá trình biểu diễn luận văn này chỉ đi theo hướng đặc biệt (các camera được sắp xếp song song với nhau)

Tăng kích thước bề rộng của frame

Sinh ảnh ảo dựa trên Forward Warping

Trộn output để được frame duy nhất

Lấp lỗ trống cho frame sau khi trộn

Giảm kích thước bề rộng của anh DownsampleView(…) return

Hình 4.2: Sơ đồ khối chức năng nội suy trung gian

Dựa trên cơ sở lý thuyết, chức năng nội suy trung gian để tổng hợp ảnh thực hiện theo các bước chính:

 UpsampleView cho frame ở góc nhìn tham khảo Nghĩa là tăng kích thước bề rộng của frame lên 2 lần hoặc 4 lần ( phụ thuộc vào việc sử dụng phương thức làm tròn theo vị trí half-pixel hay quarter-pixel )

 ForwardWarp thực hiện việc sinh ảnh ảo theo camera trái và camera phải Kết thúc quá trình này ta thu được 2 frame ảnh

 Merge thực hiện pha trộn (phối hợp) output ở bước forwardwarp để được frame duy nhất

 Fillholes thực hiện lấp lỗ trống cho frame mà là output của bước Merge

 Downsampleview thực hiện quá trình ngược lại với Upsampleview để giảm bề rộng của frame về đúng kích thước ban đầu, chuẩn bị cho quá trình xuất kết quả

Chi tiết về các hàm chính của nội suy ForwardWarp,Merge, Fillhole được mô tả sau đây

Hàm này thực hiện việc sinh ảnh ảo theo camera trái và camera phải, có hai bước chính

 FindDepthMaxMin(RefDepth[LEFTVIEW], LEFTVIEW); muốn tính được độ sâu thực (real depth) của 1 pixel chúng ta cần biết 2 giá trị

Z near và Z far , đó là nhiệm vụ của hàm này

Hàm này thực hiện warp từng frame ảnh trái và phải để tạo ra ảnh trung gian 1) Duyệt qua từng pixel trong frame, pixel có tọa độ x,y thì sẽ có index là x+y*width bởi vì chỉ số của pixel được lưu trong mảng 1 chiều depthLevel cho biết giá trị chiều sâu của pixel (từ 0 đến 255) depthLevel đóng vai trò Y trong công thức (2.3)

2) z được tính theo công thức (2.3)

3) dk được tính theo công thức

    z  dk đóng vai trò d trong công thức trên Miêu tả việc sử dụng phương thức làm tròn theo vị trí half-pixel hay quarter-pixel

4) Ánh xạ vị trí của pixel ở góc nhìn tham khảo sang góc nhìn ở vị trí ảo khi đã có đầy đủ thông tin cần thiết

Ví dụ về kết quả của bước forward warping trong Hình 4.3 [10]: a) ảnh sinh ra từ camera trái – b) ảnh sinh ra từ camera phải

Hàm này thực hiện trộn hai frame trung gian trái và phải thành frame ảo duy nhất Các pixel rơi vào các trường hợp sau đây

Hình 4.3:Ví dụ kết quả sau khi Forward Warping phải, giá trị pixel trong ảnh tổng hợp được hình thành bởi trung bình tương ứng giá trị điểm ảnh trong hình ảnh tham khảo dựa trên độ sâu của các pixel tương ứng, trong đó w l và w r là trọng số nội suy tính bằng khoảng cách từ camera trái l l và camera phải l r tương ứng

2) Khi chỉ có một điểm ảnh ở cùng vị trí trong ảnh trung gian là Non-hole, thì giá trị điểm ảnh đó trong ảnh tổng hợp sẽ được copy từ ảnh trung gian tương ứng

3) Khi vị trí cùng một điểm ảnh trong cả hai hình ảnh trung gian đều là Hole, các điểm ảnh này sẽ được đánh dấu để chuyển sang xử lý ở bước lấp lỗ trống trong chức năng FillHoles

Trong phần hiện thực lấp lỗ trống sẽ áp dụng một số phương pháp khác nhau nhằm cải thiện chất lượng ảnh sau tổng hợp Đặc biệt dựa vào kết quả và hạn chế của các phương pháp lấp chỗ trống có sẵn, chúng tôi đã đề xuất một phương pháp mới để cải thiện chất lượng của ảnh hơn, đó là phương pháp Proposed_FillHoles

Là hàm lấp chỗ trống có sẵn trong phần mềm VSRS [11]

1) Lặp theo từng line của hole

Tìm được pixel đầu tiên A Tìm được vị trí của pixel C Tìm được vị trí của pixel D

So sánh độ sâu thực của pixel C và D (real depth) Nếu pixel C có độ sâu lớn hơn pixel D thì màu và độ sâu của các pixel từ A đến B là màu và độ sâu của pixel C và ngược lại

Trong trường hợp C hoặc D nằm ngoài giới hạn của ảnh thì màu và độ sâu của các pixel từ A đến B là màu và độ sâu của pixel nằm trong giới hạn của ảnh ( theo ví dụ trên thì C nằm trong giới hạn của ảnh)

Một số trường hợp hạn chế của FillHoles1

Trường hợp 1: pixel lỗ trống nằm ở biên của hai vùng màu khác nhau, dựa trên độ sâu, thuật toán đã lấp lỗ trống sai màu

Hình 4.5: Hạn chế của FillHoles1 (1) Hình 4.4: Ví dụ kết quả lấp lỗ trống của FillHoles1 toán đã lấp lỗ trống sai màu

Giải thuật FillHoles2 dựa trên giải thuật được đề xuất trong bài báo [8] , thuật toán thích nghi theo độ sâu được áp dụng vào bước lấp lỗ trống cho ảnh sau khi trộn, khi một một điểm ảnh được đánh dấu là lỗ trống , các điểm ảnh lân cận đã được ánh xạ trước đó được lựa chọn để điền vào các lỗ trống theo mức độ sâu

Giải thuật được hiện thực như sau:

1) Duyệt từng pixel là hole_pixel trong danh sách

2) Mở cửa sổ kích thước 3x3 tại hole pixel đang xét

3) Nếu cửa sổ không chứa pixel nào đã được warp ở process forward ward thì tăng kích thước cửa sổ lên 1 và lặp lại bước này Ta thu được tập hợp D gồm n pixel đã được warp

Hình 4.6: Hạn chế của FillHoles1 (2) chứa các pixel thuộc về tầng độ sâu khác nhau

5) Tìm tập hợp mà có số lượng pixel nhiều nhất và các pixel trong tập hợp này được coi là các ứng cử viên

6) Pixel cần fill sẽ có giá trị độ sâu bằng giá trị trung bình độ sâu của các ứng cử viên Màu sẽ được tính theo median của các ứng cử viên

Cửa sổ 3x3 có tâm tại A chứa 8 phần tử ( ngoại trừ A)

Tập hợp D chứa các pixel đã được warp ở bước forward warp ( pixel 1,2,3,7,8)

Tập hợp D được chia thành 2 tập hợp con là D1 và D2 do các pixel này thuộc về 2 tầng độ sâu khác nhau D1 = {1}, D2={2,3,7,8}

Số lượng pixel thuộc tập D2 nhiều hơn D1 do đó các ứng cử viên cho việc fill hole A là các pixel thuộc D2 Độ sâu của pixel A = means độ sâu của các pixel thuộc D2

Màu của pixel A = median màu của các pixel thuộc D2

Thuật toán Proposed_FillHoles được đề xuất dựa trên những hạn chế của thuật toán FillHoles1 Tuy thuật toán FillHoles1 đơn giản dễ hiểu nhưng đối với những vùng lỗ trống lớn kết quả thu được là những sọc ngang không chân thực Do đó chúng tôi đề

Hình 4.7: Ví dụ kết quả lấp lỗ trống của FillHoles2 về mặt định tính và hy vọng cũng sẽ tốt về định lượng

Sơ lược về giải thuật

Thuật toán lấp chỗ trống này được chia thành 2 giai đoạn:

KẾT QUẢ VÀ ĐÁNH GIÁ

Cài đặt và thực thi chương trình

Chương trình được viết bằng ngôn ngữ C++ trên môi trường Microsoft Visual Studio

2008 Để thực thi chương trình bằng cách chạy file “ViewSynVC8.exe” , cần cài đặt

 Phần mềm Microsoft Visual Studio 2008 version 9.0.21022.8

 Thư viện OpenCV ver1.0.0 hoặc mới hơn

 Công cụ xem ảnh “YUV Player Deluxe”

Bảng 1 trình bày cấu trúc thư mục của chương trình tổng hợp ảnh

VSRS các tập tin mã nguồn và các dự án cho các VSRS

Tất cả các tập tin được yêu cầu cho xây dựng và sử dụng phần mềm VSRS được chứa trong thư mục này

VSRS / windows không gian làm việc

Không gian làm việc được cung cấp cho Microsoft Visual Studio 2008 và Microsoft Visual Studio NET

VSRS / ViewSyn các tập tin mã nguồn và các project VSRS

Tất cả các tập tin được yêu cầu cho xây dựng các ứng dụng VSRS được chứa trong thư mục này

ViewSynLibStatic các tập tin mã nguồn và các dự án cho các thư viện VSRS

Tất cả các tập tin yêu cầu cho xây dựng các thư viện VSRS chứa trong thư mục này

CommonLibStatic các tập tin mã nguồn và các project cho VSRS và DERS thư viện chung

Tất cả các tập tin được yêu cầu để xây dựng các thư viện phổ biến của VSRS và DERS được chứa trong thư mục này camera_parameter_files File tham số camera

VSRS / configuration_files tập tin cấu hình

VSRS / bin vị trí của những chương trình sau khi xây dựng phần mềm VSRS / lib vị trí của thư viện sau khi xây dựng phần mềm

Bảng 1: Cấu trúc thư mục của chương trình tổng hợp ảnh

Tập dữ liệu kiểm tra chương trình

Để đánh giá kết quả thực thi chương trình tổng hợp ảnh, các tập dữ liệu đầu vào được cung cấp bởi MPEG-FTV và các nhóm nghiên cứu khác như ETRI, GIST

5.2.1 Thiết lập camera cho các tập dữ liệu Để có được tập dữ liệu video ảnh màu và chiều sâu, cần phải thiết lập một hệ thống camera thu hình Ví dụ minh họa cho việc thiết lập này là thiết lập camera cho tập dữ liệu đầu vào của MPEG [10] Có 80 máy ảnh được cố định trên khung thép với khoảng cách 50 mm Các máy ảnh được hội tụ tại trung tâm của bức tường ở mức 8,2 m từ mảng máy ảnh Chiều dài của đường cơ sở là 50mm x 80 = 4m như Hướng của máy ảnh được điều chỉnh cho chính xác Hiệu suất máy ảnh đặc tả như sau:

 Độ phân giải: 1280 x 960 pixels (hoặc 1024x768 pixels )

 Đồng bộ hóa: tương tự

Hình 5.1: Thiết lập camera thu hình Đặc tả tập dữ liệu

Bảng 2 mô tả các tập dữ liệu dùng để kiểm tra chương trình

STT Tên Định dạng Nguồn gốc

Bảng 2: Các tập dữ liệu kiểm tra chương trình

 Tập Champagne_tower: bộ dữ liệu bao gồm 80 tập tin ảnh màu định dạng YUV (1280x960) có 500 frame ảnh và 3 tập tin ảnh độ sâu có 300 frame ảnh cung cấp bởi MPEG-FTV [10], khoảng cách các camera là 50 mm Khoảng cách của đối tượng gần camera nhất là 2.3m, xa camera nhất là 7.1m, khoảng cách này để lượng tử hóa độ sâu của ảnh theo 255 mức

 Tập Balloon: bộ dữ liệu bao gồm 7 tập tin ảnh màu định dạng

YUV(1024x768) chứa 500 frame ảnh được và 3 tập tin ảnh độ sâu chứa 300 frame ảnh cung cấp bởi MPEG-FTV [10], khoảng cách các camera là 50 mm Khoảng cách của đối tượng gần camera nhất là 0.5m, xa camera nhất là 11.2m,

 Tập Kendo: bộ dữ liệu bao gồm 7 tập tin ảnh màu định dạng YUV(1024x768) chứa 500 frame ảnh được và 3 tập tin ảnh độ sâu chứa 300 frame ảnh cung cấp bởi MPEG-FTV [10], khoảng cách các camera là 50 mm Khoảng cách của đối tượng gần camera nhất là 0.5m, xa camera nhất là 11.2m

 Tập Newspaper: bộ dữ liệu gồm 9 tập tin ảnh màu định dạng YUV(1024x768) chứa 500 frame ảnh được và 3 tập tin ảnh độ sâu chứa 300 frame ảnh cung cấp bởi GIST [12] khoảng cách các camera là 50 mm Khoảng cách của đối tượng gần camera nhất là 3.4m, xa camera nhất là 7.5m

 Tập Lovebird: bộ dữ liệu gồm 12 tập tin ảnh màu định dạng YUV(1024x768) chứa 500 frame ảnh được và 3 tập tin ảnh độ sâu chứa 300 frame ảnh cung cấp bởi ETRI [13] khoảng cách các camera là 50 mm Khoảng cách của đối tượng gần camera nhất là 1.4m, xa camera nhất là 156m, tập dữ liệu này được thu ngoài trời nên khoảng cách camera rất lớn.

Kết quả thực thi chương trình

Với tập dữ liệu kiểm tra chương trình trên, sau khi thực thi chương trình tổng hợp ảnh kết quả đầu ra là chuỗi YUV Để tính toán kết quả định lượng PSNR, sử dụng phần mềm chuyển đổi YUV thành định dạng bitmap (RBG) cho cả góc nhìn gốc và góc nhìn tổng hợp được Kết quả PSNR được tính dựa trên tỉ số tín hiệu cực đại trên nhiễu của góc nhìn ảo được tổng hợp so với góc nhìn gốc

Dưới đây là các bảng thống kê và đồ thị kết quả định lượng đánh giá các phương pháp lấp lỗ trống khác nhau của chương trình tổng hợp ảnh Mỗi dữ liệu được chọn một góc nhìn ảo để đo kết quả trên các phương pháp FillHoles1, FillHoles2 và Proposed-FillHoles

Bảng 3: Kết quả PSNR của tập dữ liệu Balloon

Hình 5.2: Kết quả so sánh PSRN của tập Balloon

Bảng 4: Kết quả PSNR của tập dữ liệu Kendo

Hình 5.3: Kết quả so sánh PSNR của tập Kendo

Bảng 5: Kết quả PSNR của tập dữ liệu Champagne

Hình 5.4: Kết quả so sánh PSNR của tập Champagne

Bảng 6: Kết quả PSNR của tập dữ liệu LoveBird

Hình 5.5: Kết quả so sánh PSNR của tập LoveBird

Bảng 7: Kết quả PSNR của tập dữ liệu LoveBird

Hình 5.6: Kết quả so sánh PSNR của tập Newspaper

Bên cạnh kết quả định lượng là kết quả định tính của chương trình tổng hợp ảnh trung gian Dưới đây là một số kết quả từ các tập dataset , thứ tự trình bày mỗi hình ảnh gồm: ảnh gốc , ảnh trước khi lấp lỗ trống, ảnh áp dụng phương pháp FillHoles1, FillHoles2, và Proposed FillHoles, những vùng được vòng tròn đỏ là những vùng xuất hiện hole và đã được lấp bởi ba phương pháp trên

Hình 5.7: Kết quả định tính của tập dữ liệu Balloon

Hình 5.8: Kết quả định tính của tập dữ liệu Champagne

Hình 5.9: Kết quả định tính của tập dữ liệu Kendo

Hình 5.10: Kết quả định tính của tập dữ liệu Newspaper

Hình 5.11: Kết quả định tính của tập dữ liệu LoveBird

Đánh giá kết quả thu được

Dựa trên kết các kết quả định tính và định lượng trên, có thể so sánh và đánh giá chất lượng tổng hợp ảnh của từng bộ dữ liệu dựa trên các phương pháp lấp chỗ trống khác nhau Đối với tập Champagne, do có nhiều lỗ trống sau khi ánh xạ 3D và trộn ảnh nên kết quả PSNR thu được thấp Đối với từng phương pháp lấp chỗ trống, phương pháp đề xuất nhỉnh hơn về định lượng (chỉ số PSNR cao hơn) và định tính cũng tốt hơn, giảm hiện tượng sọc ngang so với phương pháp FillHoles1, tuy nhiên, đối với kết quả định tính như trong ví dụ, FillHole2 cho kết quả gần với ảnh gốc nhất, lý do vì phương pháp này thực hiện lấp lỗ trống theo cửa sổ (window) duyệt từ trên xuống dưới, trái qua phải theo độ sâu thích ứng nên có thể giảm được hiện tượng sọc ngang như kết quả ở Hình 5.12

Hình 5.12: Ví dụ đánh giá định tính của tập Champagne Đối với tập Kendo và Balloon, do tính chất của các tập dữ liệu này có ít lỗ trống sau khi ánh xạ 3D và trộn ảnh nên kết quả PSNR thu được cao Cũng tương tự như trên, phương pháp đề xuất tốt hơn về định lượng (chỉ số PSNR cao hơn) và định tính thì rất khó xác định bằng mắt thường do tính chất màu của ảnh không có sự khác biệt lớn và các lỗ trống xuất hiện ở vùng nền (background) Đối với tập LoveBird, đây là tập dữ liệu được thu hình ngoài trời, khoảng cách camera đến điểm gần nhất và xa nhất lớn, nên kết quả PSNR thấp, tuy nhiên lỗ trống sau khi ánh xạ 3D và trộn ảnh không nhiều Cũng tương tự như trên, phương pháp đề xuất Proposed FillHoles tốt hơn về định lượng (chỉ số PSNR cao hơn) và định tính cũng tốt hơn Kết quả được phóng to như Hình 5.13 hiện tượng sọc ngang giảm hẳn với phương pháp Proposed FillHoles

Hình 5.13: Ví dụ đánh giá định tính của tập LoveBird

Có thể đánh giá về kết quả của chương trình tổng hợp ảnh là các góc nhìn ảo thu được so với dữ liệu tham khảo gốc cho hiệu ứng tốt về mặt hình ảnh và có thể áp dụng trong các ứng dụng đa góc nhìn Tuy nhiên, chất lượng ảnh sau tổng hợp vẫn còn tồn tại những hạn chế do chất lượng của dữ liệu độ sâu cũng như các phương pháp lấp chỗ trống chưa tổng quát cho mọi trường hợp

KẾT LUẬN VÀ KIẾN NGHỊ

Dựa trên những yêu cầu của đề tài, luận văn đã xây dựng được một hệ thống hoàn chỉnh thực hiện tổng hợp ảnh dựa trên chiều sâu Ngoài đáp ứng đầy đủ các yêu cầu của đề tài là tổng kết các kỹ thuật tổng hợp ảnh khác nhau trong cộng đồng nghiên cứu về các ứng dụng 3DV và hiện thực mô hình đánh giá của chương trình tổng hợp ảnh dựa trên dữ liệu chiều sâu, chương trình còn kết hợp hiện thực các thuật toán khác nhau cho phương pháp lấp chỗ trống để cải tiến và nâng cao chất lượng ảnh sau tổng hợp Với mô hình này, việc đánh giá và cải tiến các phương pháp khác nhau cho ứng dụng tổng hợp ảnh sẽ đơn giản hơn, nhờ đó mà các nghiên cứu tiếp theo có thể sử dụng một cách hiệu quả

Chúng tôi đã cố gắng hoàn thành tất cả các yêu cầu đề tài với kết quả tốt nhất có thể, trong thời gian hạn hẹp của Luận văn Tuy nhiên, kết quả đạt được vẫn còn một số hạn chế về mặt thời gian tính toán cho các bước nội suy để tổng hợp ảnh, điều này ảnh hưởng đến các ứng dụng cần đáp ứng thời gian thực Về mặt chất lượng của ảnh ảo sau tổng hợp, vẫn còn những khoảng lấp chỗ trống chưa trùng khớp với màu và hình dáng của ảnh gốc, do chất lượng của ảnh độ sâu hoặc các thuật toán lấp chỗ trống chưa tổng quát cho tất cả các trường hợp

Với những hạn chế này, trong tương lai, chúng tôi sẽ cố gắng tiếp tục nghiên cứu và đề xuất những đề tài liên quan đến việc nâng cao chất lượng của ảnh độ sâu đầu vào, hoặc cải tiến các kĩ thuật lấp chỗ trống một cách tổng quát để hoàn thiện hơn chương trình tổng hợp ảnh

[1] Karsten Muller, A.Smolic, “Coding and Intermediate View Synthesis of Multiview Video Plus Depth”, Image Processing (ICIP), 16th IEEE International Conference., 2009

[2] Xiaoyu Xiu, Pang.D, “Rectification-Based View Interpolation and Extrapolation for Multiview Video Coding”, Circuits and Systems for Video Technology, IEEE Transactions , Jun 2011

[3] Fusiello A , Caldrer S., Ceglie S , “View synthesis from uncalibrated images using parallax”,Image Analysis and Processing (ICIAP’03) , the 12th

[4] Smolic A., Muller K., Dix K., Merkle P., “Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems”, Image

Processing, 2008 ICIP 15th IEEE International Conference, 2008

[5] Vincent Jantet, Christine Guillemot, Luce Morin, “Object-based Layered Depth Images for improved virtual view synthesis in rate constrained contextt , IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, September, 2011

[6] Dong Tian, Po-Lin Lai, Patrick Lopez, “View Synthesis Techniques for 3D Video”, Applications of Digital Image Processing XXXII, vol 7443, 74430T

[7] Kwan-Jung Oh, “Hole-Filling Method Using Depth Based In-Painting For View Synthesis in Free Viewpoint Television (FTV) and 3D Video”, Picture Coding

[8] Chen , Weixing Wan “ Depth-Level-Adaptive View Synthesis for 3D Video”,

Multimedia and Expo (ICME), 2010 IEEE International Conference, Suntec

[9] Sehoon Yea, Anthony Vetro , “View synthesis prediction for multiview video coding” , Signal Processing: Image Communication, Volume 24, Issues 1-2, Pages 89-100, Jan 2009

[10] M Tanimoto, T Fujii , N.Fukushima, “1D Parallel Test Sequences for MPEG-FTV”, Archamps, France, 2008

80 Synthesis Reference Software 3.5 (VSRS3.5)", MPEG document M16090, May

[12] Y S Ho, E K Lee, and C Lee, “Multiview video test sequence and camera parameters”, ISO/IEC JTC1/SC29/WG11, Archamps, France, Tech Rep M15419, Apr 2008

[13] G M Um, G Bang, N Hur, J Kim, and Y S Ho, “3D video test material of outdoor scene”, ISO/IEC JTC1/SC29/WG11, Archamps, France, Tech Rep M15371, Apr 2008

[14] ISO/IEC 23003-3, “Mpeg-c part 3:Representation of auxiliary video and supplemental information,” Oct 2007

[15] H Hirschmüller, “Evaluation of cost functions for stereo matching”, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2007), Minneapolis, MN, June 2007

[16] http://en.wikipedia.org/wiki/Depth_map ( Sep 19th, 2012)

[17] http://home.comcast.net/~holographics/disparity.html ( Sep 19th, 2012)

Ngày đăng: 25/09/2024, 01:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Karsten Muller, A.Smolic, “Coding and Intermediate View Synthesis of Multiview Video Plus Depth”, Image Processing (ICIP), 16th IEEE International Conference., 2009 Sách, tạp chí
Tiêu đề: Coding and Intermediate View Synthesis of Multiview Video Plus Depth”, "Image Processing (ICIP), 16th IEEE International Conference
[2] Xiaoyu Xiu, Pang.D, “Rectification-Based View Interpolation and Extrapolation for Multiview Video Coding”, Circuits and Systems for Video Technology, IEEE Transactions , Jun 2011 Sách, tạp chí
Tiêu đề: Rectification-Based View Interpolation and Extrapolation for Multiview Video Coding”, "Circuits and Systems for Video Technology, IEEE Transactions
[3] Fusiello A. , Caldrer S., Ceglie S. , “View synthesis from uncalibrated images using parallax”,Image Analysis and Processing (ICIAP’03) , the 12th International Conference IEEE, 2003 Sách, tạp chí
Tiêu đề: View synthesis from uncalibrated images using parallax”,"Image Analysis and Processing (ICIAP’03) , the 12th International Conference IEEE
[4] Smolic A., Muller K., Dix K., Merkle P., “Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems”, Image Processing, 2008. ICIP. 15th IEEE International Conference, 2008 Sách, tạp chí
Tiêu đề: Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems”", Image Processing, 2008. ICIP. 15th IEEE International Conference
[5] Vincent Jantet, Christine Guillemot, Luce Morin, “Object-based Layered Depth Images for improved virtual view synthesis in rate constrained contextt, IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, September, 2011 Sách, tạp chí
Tiêu đề: Object-based Layered Depth Images for improved virtual view synthesis in rate constrained contextt", IEEE International Conference on Image Processing (ICIP)
[6] Dong Tian, Po-Lin Lai, Patrick Lopez, “View Synthesis Techniques for 3D Video”, Applications of Digital Image Processing XXXII, vol 7443, 74430T 2009 Sách, tạp chí
Tiêu đề: View Synthesis Techniques for 3D Video
[7] Kwan-Jung Oh, “Hole-Filling Method Using Depth Based In-Painting For View Synthesis in Free Viewpoint Television (FTV) and 3D Video”, Picture Coding Symposium, 2009 Sách, tạp chí
Tiêu đề: Hole-Filling Method Using Depth Based In-Painting For View Synthesis in Free Viewpoint Television (FTV) and 3D Video”", Picture Coding Symposium
[8] Chen , Weixing Wan “ Depth-Level-Adaptive View Synthesis for 3D Video”, Multimedia and Expo (ICME), 2010 IEEE International Conference, Suntec City, July 2010 Sách, tạp chí
Tiêu đề: Depth-Level-Adaptive View Synthesis for 3D Video”, "Multimedia and Expo (ICME), 2010 IEEE International Conference
[9] Sehoon Yea, Anthony Vetro , “View synthesis prediction for multiview video coding” , Signal Processing: Image Communication, Volume 24, Issues 1-2, Pages 89-100, Jan 2009 Sách, tạp chí
Tiêu đề: View synthesis prediction for multiview video coding
[10] M. Tanimoto, T. Fujii , N.Fukushima, “1D Parallel Test Sequences for MPEG-FTV”, Archamps, France, 2008 Sách, tạp chí
Tiêu đề: 1D Parallel Test Sequences for MPEG-FTV”, "Archamps, France
w