Cấu trúc của luận văn Ngoài phần Mở đầu, kết luận và tài liệu tham khảo luận văn gồm 3 chương: Chương 1: Khái quát về xử lý video và bài toán phát hiện chuyển cảnh 1.1 Khái quát về video
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
TRẦN NGỌC HIẾU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN
CHUYỂN CẢNH TRONG VIDEO
LUẬN VĂN KHOA HỌC MÁY TÍNH
HÀ NỘI, 2015
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
TRẦN NGỌC HIẾU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN
CHUYỂN CẢNH TRONG VIDEO
Chuyên ngành: Khoa hoc máy tính
Mã số: 60 48 01 01
LUẬN VĂN KHOA HỌC MÁY TÍNH
Người hướng dẫn: PGS.TS Đỗ Năng Toàn
HÀ NỘI, 2015
Trang 3LỜI CẢM ƠN
Trong thời gian thực hiện luận văn thạc sỹ em đã nhận được rất nhiều
sự khích lệ, động viên, giúp đỡ từ phía thầy cô, cha mẹ và bạn bè xung quanh
Em xin gửi lời cảm ơn chân thành tới các thầy cô trong trường Đại học
Sư phạm Hà Nội 2, các thầy ở Viện Công nghệ thông tin đã truyền đạt vốn kiến thức quý báu cho chúng em
Em xin bày tỏ lòng biết ơn chân thành nhất tới thầy giáo, PGS.TS Đỗ Năng Toàn, người đã trực tiếp hướng dẫn em hoàn thành luận văn thạc sỹ này
Em đã cố gắng học tập và hoàn thành luận văn thạc sỹ nhưng có thể luận văn thạc sỹ vẫn còn có những thiếu sót Em rất mong nhận được sự góp
ý, chỉ bảo của các thầy cô và các bạn để luận văn thạc sỹ hoàn thiện hơn
Hà Nội, ngày … tháng… năm 2015
Tác giả luận văn
Trần Ngọc Hiếu
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này
là trung thực và không trùng lặp với các đề tài khác Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
Hà nội, ngày … tháng… năm 2015
Tác giả luận văn
Trần Ngọc Hiếu
Trang 5MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
DANH MỤC HÌNH VẼ
MỞ ĐẦU 1
CHƯƠNG 1: KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ BÀI TOÁN PHÁT HIỆN CHUYỂN CẢNH 3
1.1 Khái quát về video 3
1.1.1 Lịch sử 3
1.1.1.1 Lịch sử điện ảnh 3
1.1.1.2 Lịch sử phát sóng truyền hình 3
1.1.1.3 Lịch sử ghi hình video 4
1.2 Các thao tác cơ bản trong Video 5
1.2.1 Đặc điểm của Video 5
1.2.2 Quá trình thu nhận ảnh 6
1.2.3 Chuyển hệ màu 11
1.2.3.1 Không gian màu 11
1.2.3.2 Cơ sở sinh học 12
1.2.4 Lấy mẫu các thành phần màu 15
1.2.4.1 Khoảng lấy mẫu (Sampling Interval) 17
1.2.4.2 Định lý lấy mẫu của Shannon 18
1.2.4.3 Các tiêu chuẩn lấy mẫu 19
1.3 Bài toán trích rút Video trong việc tái tạo Video 22
CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN CHUYỂN CẢNH TRONG VIDEO 23
Trang 62.1 Phát hiện chuyển cảnh dựa vào kỹ thuật trừ ảnh 23
2.1.1 Trừ ảnh dựa vào điểm ảnh 24
2.1.2 Trừ ảnh phân khối 25
2.1.3 Trừ ảnh dựa vào biểu đồ 28
2.2 Phát hiện chuyển cảnh dựa vào kỹ thuật trừ nền 34
2.2.1 Mô hình hóa nền 34
2.2.2 Trừ nền dựa vào màu 35
2.2.3 Trừ nền dựa vào biên 36
2.2.4 Kết hợp các kết quả trừ màu và trừ biên 37
2.3 Phát hiện chuyển cảnh dựa vào độ đo kết cấu LBP (Local Binary Patterm) 38
2.3.1 Toán tử mẫu nhị phân cục bộ 38
2.3.2 Phương pháp phát hiện đối tượng chuyển cảnh 39
2.4 Phát hiện chuyển cảnh dựa vào sự biến thiên cục bộ của vector kết cấu SP 42
2.4.1 Biểu diên video với vector kết cấu SP 42
2.4.2 Phát hiện chuyển cảnh dựa trên biến thiên cục bộ 43
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 46
3.1 Đặt vấn đề 46
3.2 Phân tích và lựa chọn công cụ 46
3.3 Một số giao diện của chương trình 46
KẾT LUẬN VÀ KIẾN NGHỊ 49
TÀI LIỆU THAM KHẢO 50
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1 Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB (quy trình chung để hiển thị ảnh Raster thông qua DIB)
Hình 1.2 Sự chuyển đổi giữa các mô hình biểu diễn ảnh
Hình 1.3 Các bước cơ bản trong xử lý ảnh
Hình 1.4 Hệ toạ độ RGB
Hinh 1.5 Cấu trúc lấy mẫu theo chuẩn 4:4:4
Hình 1.6 Cấu trúc lấy mẫu theo chuẩn 4:2:2
Hình 1.7 Cấu trúc lấy mẫu theo chuẩn 4:2:0
Hình 1.8 Cấu trúc lấy mẫu theo chuẩn 4:1:1
Hình 2.1 Quá trình phân đoạn Video
Hình 2.2 Các cửa sổ cơ sở trong thuật toán so sánh thực
Hình 2.3 Chênh lệch biểu đồ, * cắt cảnh, - chồng mờ
Hình 2.4 So sánh biểu đồ màu giữa 2 ảnh
Hình 2.5 So sánh cặp a, chênh lệch biểu đồ liên tiếp
Hình 2.6 Phát hiện chuyển cảnh dần dần bằng kỹ thuật so sánh cặp
Hình 2.7 Ảnh trung bình cho kênh màu đỏ, biên ngang, và biên thẳng đứng tại frame
Hình 2.8 Phép trừ màu cho khung 65 và 70
Hình 2.9 Phép trừ biên cho frame 65 và 70
Hình 2.10 Kết hợp trừ màu và trừ biên cho frame 65 và 70
Hình 2.11 Kết quả kết hợp sau khi sử dụng bộ lọc trung bình ngưỡng trễ cho frame 60 và 70
Hình 2.12 Ví dụ cho tính toán mã LBP gốc
Hình 2.13 Lận cận cân đối vòng tròn được đặt với những giá trị khác nhau của P và R
Hình 2.14 Giải thuật sử dụng cấu trúc lưới chồng cục bộ
Hình 2.15 Đồ thị của biến thiên cục bộ mm qua thời gian
Trang 8lạ đối với mỗi người chúng ta Trong mọi lĩnh vực các ứng dụng công nghệ thông tin đã trợ giúp con người rất nhiều Hiện nay, thông tin hình ảnh đóng vai trò rất quan trọng trong trao đổi thông tin, bởi phần lớn các thông tin mà con người thu nhận được đều thông qua thị giác
Trong những năm gần đây lượng dữ liệu video số đã tăng lên đáng kể cùng với việc sử dụng rộng rãi các ứng dụng đa phương tiện trong giáo dục, giải trí, kinh doanh, y tế Thực tế này đặt ra các bài toán như: Giảm dung lượng video và tăng tốc độ xử lý, tổ chức lưu trữ và tìm kiếm video hiệu quả, hiểu nội dung video, nhận dạng đối tượng trong video Nhiều nhóm nghiên cứu trong và ngoài nước đã đưa ra các phương pháp giải quyết nhằm tổ chức tốt cơ sở dữ liệu video, hiểu nội dung video và đặc biệt bài toán giảm dung lượng video cũng đang rất được quan tâm bởi tính ứng dụng đa dạng và cần thiết của nó trong khoa học, xã hội và thực tiễn đời sống con người Do vậy
em lựa chọn đề tài: “Nghiên cứu một số kỹ thuật phát hiện chuyển cảnh trong
video” ứng dụng trích rút và tái tạo video làm đề tài luận văn tốt nghiệp thạc
Trang 92
3 Nhiệm vụ nghiên cứu
- Tìm hiểu tổng quan về xử lý video và bài toán phát hiện chuyển cảnh
- Các kỹ thuật phát hiển chuyển cảnh trong video
- Ứng dụng cho trích rút và tài tạo video
4 Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu về tổng quan về xử lý ảnh, các kỹ thuật phát hiện chuyển cảnh trong video và chọn ra kỹ thuật trích rút và tái tạo video ứng dụng giảm dung lượng video
5 Phương pháp nghiên cứu
Thu thập tài liệu, phân tích, suy luận, tổng hợp, đánh giá Từ đó đề xuất
nghiên cứu và tìm hiểu: “Nghiên cứu một số kỹ thuật phát hiện chuyển cảnh
trong video”
6 Cấu trúc của luận văn
Ngoài phần Mở đầu, kết luận và tài liệu tham khảo luận văn gồm 3 chương: Chương 1: Khái quát về xử lý video và bài toán phát hiện chuyển cảnh 1.1 Khái quát về video
1.2 Các thao tác cơ bản trong video
1.3 Bài toán phát hiện chuyển cảnh trong video
Chương 2: Một số kỹ thuật phát hiện chuyển cảnh trong video
2.1 Phát hiện chuyển cảnh dựa vào kỹ thuật trừ ảnh
2.2 Phát hiện chuyển cảnh dựa vào kỹ thuật trừ nền
2.3 Phát hiện chuyển cảnh dựa vào độ đo kết cấu LBP (Local Binary Patterm) 2.4 Phát hiện chuyển cảnh dựa vào sự biến thiên cục bộ của vecter kết cấu SP Chương 3: Chương trình thử nghiệm
3.1 Đặt vấn đề
3.2 Phân tích và lựa chọn công cụ
3.3 Một số giao diện của chương trình
Trang 103 CHƯƠNG 1: KHÁI QUÁT VỀ XỬ LÝ VIDEO
VÀ BÀI TOÁN PHÁT HIỆN CHUYỂN CẢNH
1.1 Khái quát về video
1.1.1 Lịch sử
1.1.1.1 Lịch sử điện ảnh
Điện ảnh mới chỉ có hơn 100 năm tuổi Sự ra đời của điện ảnh là ngày 28 Tháng 12 năm 1895 khi Auguste và Louis Lumiμere cho phát bộ phim của họ cho một đối tượng trả tiền ở Paris Sự phát triển của máy ảnh và máy chiếu của họ thông qua một đường dài của sự phát triển cho sự phát minh ra bánh
xe Faraday vào năm 1831 mà minh họa các lý thuyết về sự tồn tại của tầm nhìn Nhiếp ảnh đã được khám phá vào thập niên 1840 và những bức ảnh đã được thực hiện vào năm 1839 bởi William Henry Fox trên giấy halogen bạc
1872 chứng kiến lần đầu tiên sử dụng một loạt các hình ảnh cho phong trào thu âm (Eadweard Muybridge) Khi George Eastman sản xuất phim cuộn giấy vào năm 1885, Etienne- Jules Marey, lấy cảm hứng từ Muybridge, xây dựng một máy ảnh có thể chụp 100 hình mỗi giây Chỉ 4 năm sau đó vào năm 1889, Thomas Alva Edison phát triển một máy ảnh sử dụng phim nhựa Ông đã cho thấy bộ phim của mình vào một vòng lặp liên tục trong một loại máy peep -show được gọi là kinetoscope Nó là phát minh này đã gây ấn tượng anh em Lumiμere đủ để cố gắng một chiếu công cộng của điện ảnh trong năm 1895 Các rạp chiếu phim xây dựng đầu tiên xuất hiện vào năm 1906 (Omnia - Pathé) ở Paris Tại Mỹ năm 1908 đã có gần 10.000 nickelodeons thu hút 20 triệu người mỗi tuần
1.1.1.2 Lịch sử phát sóng truyền hình
Phát sóng truyền hình được thực hiện lần đầu vào ngày 02 tháng 11 năm
1936 bởi BBC từ Alexandra Palace Đó là với việc phát sóng của lễ đăng
Trang 114 quang của Vua George VI vào ngày 12 tháng 5 năm đó, truyền hình cho thấy tiềm năng để phổ biến thông tin nhanh chóng Trong năm 1953, đăng quang của Nữ hoàng đã được xem trong nhà và 3.000.000 trường hợp chứng minh
TV là một thiết bị phương tiện truyền thông đại chúng chính hãng
Truyền hình màu được phát sóng lần đầu tiên vào năm 1954 tại Hoa Kỳ bằng cách sử dụng tiêu chuẩn NTSC Châu âu lựa chọn để đánh giá các chương trình truyền màu sắc khác nhau cho đến năm 1967 khi PAL (Phase Alternate Line) tiêu chuẩn phát sóng đã được thông qua để phát sóng truyền hình màu ở Anh và Đức Định dạng tín hiệu màu sắc đã được lựa chọn để mọi người với ti vi màu đen và trắng vẫn có thể nhận được tín hiệu
1.1.1.3 Lịch sử ghi hình video
Thiết bị quay video có sau nhiều so với TV Các thiết bị đã được phát minh vào đầu những năm 1950 và RCA đã phát triển một máy tính với tốc độ băng 6 m / giây Họ đã sử dụng ghi âm theo chiều dọc của tín hiệu trên băng,
vì vậy tốc độ nhanh đã được yêu cầu để ghi lại các tín hiệu truyền hình băng thông lớn Máy ghi hình thực tế đầu tiên được phát triển vào năm 1953 bởi tập đoàn Ampex Nó được sử dụng sự sắp xếp quét xoắn ốc mà ngày nay chúng ta vẫn sử dụng và cho phép tốc độ ghi lại hiệu quả cao hơn mà không
có một tốc độ băng đáng sợ
Các thiết bị video gia đình đầu tiên được phát triển bởi Philips vào năm
1972 đã được nhanh chóng thay thế bởi các máy VHS của Panasonic và các máy Betamax của Sony trong năm 1978 Sự xuất hiện của các định dạng đánh dấu sự khởi đầu của kỷ nguyên video gia đình Khả năng ghi và chỉnh sửa chương trình được thực hiện bởi người sử dụng nhà tăng sự phổ biến của truyền hình Sony đã thua cuộc chiến tiếp thị bây giờ nổi tiếng vào năm 1980 khi VHS đã trở thành tiêu chuẩn chính cho người sử dụng video gia đình chủ yếu là do thời gian còn chơi của nó Đây là mặc dù chất lượng cao của các định dạng Betamax
Trang 125 1.2 Các thao tác cơ bản trong Video
1.2.1 Đặc điểm của Video
Ảnh Video: Là một chuỗi các ảnh tĩnh, chuỗi các frame ảnh (gọi là khung hình), xuất hiện liên tiếp tạo cảm thụ theo thời gian, quan hệ thời gian giữa các frame biểu diễn ảnh động
S = f (x,y,t) trong đó:
- x, y tọa độ điểm ảnh ( Thông tin về không gian)
- t: thông tin về thời gian
ảnh tĩnh là 1 trường hợp riêng của video, khi đó nó là một chuỗi các ảnh không thay đổi theo thời gian:
f (x,y,t1) = f (x,y,t2)
Chất lượng Video: Tốc độ xuất hiện các khung hình và độ phân giải ảnh
là các nhân tố quan trọng của chất lượng video
Một số thông số quan trọng của tín hiệu Video:
- Độ phân giải theo chiều dọc (Vertical resolution): Thông số có liên quan đến số dòng quét trên 1 frame
- Tỉ lệ co (aspect ratio): Tỉ lệ giữa chiều rộng và chiều cao của frame Tín hiệu Video có các đặc điểm sau:
- Tín hiệu video là tín hiệu mang tính chất xung: ngoài các xung đồng bộ
và xung xóa, trong tín hiệu video thường có sự thay đổi biên đột ngột, tạo ra
biên nước va biên sau của các “xung hình”
- Tín hiệu Video là tín hiệu đơn cực, có thành phần 1 chiều;
- Tín hiệu video được coi là tín hiệu tuần hoàn
Tín hiệu video tương tự cũng như tín hiệu ảnh tính phải được số hóa trước khi đưa vào hệ thống xử lý số Cũng như trong các hệ thống xử lý tín hiệu một chiều, quá trình số hóa tín hiệu hình ảnh cũng được chia làm 3 giai đoạn:
Trang 136 (1) Rời rạc tín hiệu trong miền không gian hai chiều, đây là quá trình lấy mẫu (2) Số lượng vô hạn các mức xám trong tín hiệu hình ảnh tương tự được thay bằng số lượng hữu hạn các mức lượng tử đây là quá trình lượng tử hóa tín hiệu
(3) Mỗi mức lượng tử được biểu diễn bằng một số nhị phân - Mã Hóa tín hiệu
Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình
• Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
• Tổng hợp năng lượng điện thành ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm 2 mục đích:
• Tiết kiệm bộ nhớ
Trang 147
• Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải
Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo 2 mô hình cơ bản:
a) Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bít Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm trung gian Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ thuật nén ảnh các
kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào
đó Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX…
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận được
Trang 158
Hình 1.1 Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB (quy
trình chung để hiển thị ảnh Raster thông qua DIB)
b) Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm… Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster
Hình 1.2 Sự chuyển đổi giữa các mô hình biểu diễn ảnh
Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh Đầu tiên, ảnh
tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh) Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại Camera ống kiểu CCIR) Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo (Máy ảnh số hiện nay là một thí dụ
Trang 169 gần gũi) Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh
Hình 1.3 Các bước cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
- Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera màu hoặc đen trắng Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh
25 dòng), cũng có loại camera đã số hoá (như loại CCD - Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh
Camera thường dùng là loại quét dòng ; ảnh tạo ra có dạng hai chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh)
- Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào
bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn
- Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về
Trang 1710 địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt
để nhận dạng Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
- Biểu diễn ảnh (Image Representation)
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn
các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection)
gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm
vi ảnh nhận được Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác
- Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh Quá trình này thường thu được bằng cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại Có nhiều cách phân loai ảnh khác nhau về ảnh Theo lý thuyết về nhận dạng, các
mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản:
- Nhận dạng theo tham số
- Nhận dạng theo cấu trúc
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người…
Trang 1811
- Cơ sở tri thức (Knowledge Base)
Ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận và xử lý ảnh theo cách của con người Trong các bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con người Vì vậy,
ở đây các cơ sở tri thức được phát huy
1.2.3 Chuyển hệ màu
1.2.3.1 Không gian màu
Hình 1.4 Hệ toạ độ RGB
RGB (Red-Green-Blue): 8 bits cho mỗi giá trị màu
Mô hình màu RGB sử dụng mô hình bổ sung trong đó ánh sáng đỏ, xanh
lá cây và xanh lam được tổ hợp với nhau theo nhiều phương thức khác nhau
để tạo thành các màu khác Từ viết tắt RGB trong tiếng Anh có nghĩa là đỏ (red), xanh lá cây (green) và xanh lam (blue), là ba màu gốc trong các mô hình ánh sáng bổ sung Mô hình màu RGB tự bản thân nó không định nghĩa thế nào là "đỏ", "xanh lá cây" và "xanh lam" một cách chính xác, vì thế với cùng các giá trị như nhau của RGB có thể mô tả các màu tương đối khác nhau
Trang 1912 trên các thiết bị khác nhau có cùng một mô hình màu Trong khi chúng cùng chia sẻ một mô hình màu chung, không gian màu thực sự của chúng là dao động một cách đáng kể
Sử dụng mô hình màu RGB như một tiêu chuẩn biểu thị màu trên Internet
có nguồn gốc từ các tiêu chuẩn cho ti vi màu năm 1953 của RCA và việc sử dụng tiêu chuẩn RGB bởi Edwin Land trong các camera Land / Polaroid
1.2.3.2 Cơ sở sinh học
Các màu gốc có liên quan đến các khái niệm sinh học hơn là vật lý, nó dựa trên cơ sở phản ứng sinh lý học của mắt người đối với ánh sáng Mắt người có các tế bào cảm quang có hình nón nên còn được gọi là tế bào hình nón, các tế bào này thông thường có phản ứng cực đại với ánh sáng vàng - xanh lá cây (tế bào hình nón L), xanh lá cây (tế bào hình nón M) và xanh lam (tế bào hình nón S) tương ứng với các bước sóng khoảng 564 nm, 534 nm và
420 nm Ví dụ, màu vàng thấy được khi các tế bào cảm nhận màu xanh ánh vàng được kích thích nhiều hơn một chút so với tế bào cảm nhận màu xanh lá cây và màu đỏ cảm nhận được khi các tế bào cảm nhận màu vàng - xanh lá cây được kích thích nhiều hơn so với tế bào cảm nhận màu xanh lá cây Mặc
dù biên độ cực đại của các phản xạ của các tế bào cảm quang không diễn ra ở các bước sóng của màu "đỏ", "xanh lá cây" và "xanh lam", ba màu này được
mô tả như là các màu gốc vì chúng có thể sử dụng một cách tương đối độc lập
để kích thích ba loại tế bào cảm quang Để sinh ra khoảng màu tối ưu cho các loài động vật khác, các màu gốc khác có thể được sử dụng Với các loài vật có bốn loại tế bào cảm quang, chẳng hạn như nhiều loại chim, người ta có lẽ phải nói là cần tới bốn màu gốc; cho các loài vật chỉ có hai loại tế bào cảm quang, như phần lớn các loại động vật có vú, thì chỉ cần hai màu gốc
Biểu diễn dạng số 24 bit: Khi biểu diễn dưới dạng số, các giá trị RGB trong mô hình 24 bpp thông thường được ghi bằng cặp ba số nguyên giữa 0
Trang 20và 255, mỗi số đại diện cho c
Định nghĩa trên sử dụng thỏa thuận đ
RGB Thông thường, RGB cho
khoảng này Thay vì th
giá trị tương đối chẳng hạn nh
màu trắng v.v Ví dụ, các thang đọ v
định nghĩa RGB kỹ thuật số
Kiểu 16 bit: Kiểu 16 bpp, trong đó hoặc l
kiểu 555 hay thêm một bit c
nhận màu này tốt hơn so v
chung được gọi là thật m
Kiểu 32 bit: Kiểu 32 bpp
bpp, do ở đây thực sự cũng chỉ có 8 bit cho mỗi m
đơn giản là không sử dụng (ngoại trừ khả năng sử dụng nh
Lý do của việc mở rộng của kiểu 32 bpp l
phần cứng ngày nay có th
byte có thể chia được ngang nhau theo cấp số của 2, so với các dữ liệu không được sắp xếp như vậy
13
ỗi số đại diện cho cường độ của màu đỏ, xanh lá cây, xanh lam
ế Số lượng màu tối đa sẽ là:
đen (255, 255, 255) là màu trắng
(255, 0, 0) là màu đỏ
(0, 255, 0) là màu xanh lá cây
(0, 0, 255) là màu xanh lam
(255, 255, 0) là màu vàng
(0, 255, 255) là màu xanh ngọc
(255, 0, 255) là màu hồng cánh sen
ử dụng thỏa thuận được biết đến như là toàn b
ờng, RGB cho video kỹ thuật số không ph
ày Thay vì thế video RGB sử dụng thỏa thuận với thang độ v
ối chẳng hạn như (16, 16, 16) là màu đen, (235, 235, 235) là ắng v.v Ví dụ, các thang đọ và giá trị tương đối này được sử dụng cho ịnh nghĩa RGB kỹ thuật số trong CCIR 601
ểu 16 bpp, trong đó hoặc là có 5 bit cho m
ột bit còn lại cho màu xanh lá cây (vì m
ơn so với các màu khác), gọi là kiểu 565 Kiểu 24 bpp nói
ật màu, trong khi kiểu 16 bpp được gọi là cao màu
ểu 32 bpp phần lớn là sự đồng nhất chính xác với kiểu 24
ở đây thực sự cũng chỉ có 8 bit cho mỗi màu thành ph
ử dụng (ngoại trừ khả năng sử dụng như là
ủa việc mở rộng của kiểu 32 bpp là vận tốc cao hơn mà ph
ày nay có thể truy cập các dữ liệu được sắp xếp trong các địa chỉ
ợc ngang nhau theo cấp số của 2, so với các dữ liệu không
ỏ, xanh lá cây, xanh lam
toàn bộ khoảng
không phải là toàn bộ
ế video RGB sử dụng thỏa thuận với thang độ và các
Trang 2114
Kiểu 48 bit: "Kiểu 16-bit" cũng có thể để chỉ tới 16 bit cho mỗi màu thành phần, tạo ra trong kiểu 48 bpp Kiểu này làm cho nó có khả năng biểu thị 65.535 sắc thái mỗi màu thành phần thay vì chỉ có 255 Nó đầu tiên được
sử dụng trong chỉnh sửa hình ảnh chuyên nghiệp, như Photoshop của Adobe
để duy trì sự chính xác cao hơn khi có hơn một thuật toán lọc hình ảnh được
sử dụng đối với hình ảnh đó Với chỉ có 8 bit cho mỗi màu, các sai số làm tròn có xu hướng tích lũy sau mỗi thuật toán lọc hình ảnh được sử dụng và làm biến dạng kết quả cuối cùng
Trang 2215 Chuyển đổi hệ màu:
Chuyển đổi từ RGB sang YUV:
1.2.4 Lấy mẫu các thành phần màu
Lấy mẫu là một quá trình, qua đó ảnh được tạo nên trên một vùng có tính liên tục được chuyển thành các giá trị rời rạc theo tọa độ nguyên Quá trình này gồm 2 lựa chọn:
- Một là: khoảng lấy mẫu được đảm bảo nhờ lý thuyết lấy mẫu Shannon
- Hai là: cách thể hiện dạng mẫu liên quan đến độ đo (Metric) được dùng trong miền rời rạc
Tọa độ màu tĩnh: Là tọa độ của các điểm màu tĩnh trong đó đồ thị tĩnh
màu của hệ tọa độ x, y tiêu chuẩn
Trang 2316
Độ phân giải ( Resolution): Là độ sắc nét của hình ảnh thể hiện qua số
dòng và số cột của màn ảnh hay số phần tử hình ảnh trên một đơn vị diện tích
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc *
200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn
Độ chói (Luminance): Là lượng ánh sáng do một phần tử ánh sáng hay
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256
là mức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1byte biểu diễn: 28=256 mức ( tức là từ 0 đến 255)
Trang 2417
Điểm lấy mẫu: Là điểm được lấy trên hình ảnh trong quá trình rời rạc
hóa hình ảnh để tạo nên tín hiệu số của hình ảnh
Độ tương phản: Độ tương phản là sự khác nhau về màu sắc giữa hình
ảnh và nền
1.2.4.1 Khoảng lấy mẫu (Sampling Interval)
Ảnh lấy mẫu có thể được mô tả như việc lựa chọn một tập các vị trí lấy mẫu trong không gian hai chiều liên tục Đầu tiên mô tả qua quá trình lấy mẫu một chiều với việc sử dụng hàm delta:
Định nghĩa hàm răng lược với các khoảng Δx:
với r là số nguyên, Δx : khoảng lấy mẫu
Như vậy, hàm răng lược là chuỗi các xung răng lược từ (-∞ đến +∞) Giả
sử hàm một chiều g(x) được mô tả (gần đúng) bằng g(r Δx ) tức là:
g ( x ) ≈ g ( r Δ x )
Khi đó tín hiệu lấy mẫu được mô hình hoá:
(tích chập trong miền không gian x.)
Hoặc tương đương:
Trang 2518
Trong thực tế, r không thể tính được trong khoảng vô hạn (từ − ∞ đến +∞) mà là một số lượng NΔx mẫu lớn cụ thể Như vậy, để đơn giản có thể nói hàm liên tục g(x) có thể biểu diễn trên một miền với độ dài NΔx mẫu thành
chuỗi như sau:
g(x) ≈ {g(0), g(Δx), g(2Δx), , g((N −1)Δx) } Chú ý 1: Khoảng lấy mẫu (Sampling Interval) Δx là một tham số cần
phải được chọn đủ nhỏ, thích hợp, nếu không tín hiệu thật không thể khôi phục lại được từ tín hiệu lấy mẫu
Chú ý 2: Từ lý thuyết về xử lý tín hiệu số tích chập trong miền không
gian x tương đương với tích chập trong miền tần số ω tức là biến đổi Fourier của gs(x) là:
trong đó ωx là giá trị tần số ứng với giái trị x trong miền không gian
Điều kiện khôi phục ảnh lấy mẫu về ảnh thật được phát biểu từ định lý lẫy mẫu của Shannon
1.2.4.2 Định lý lấy mẫu của Shannon
Giả sử g(x) là một hàm giới hạn giải (Band Limited Function) và biến đổi
Fourier của nó là đối với các giá trị Khi đó g(x) có thể được khôi phục lại từ các mẫu được tạo tại các khoảng Δx đều đặn Tức là Δx
≤ 1 / 2ωx
Định lý lẫy mẫu của Shannon có thể mở rộng cho không gian hai chiều Hàm răng lược hai chiều khi đó được xác định:
Trang 2619
và Δx,Δy được chọn thoả mãn các điều kiện tương ứng theo định lý lấy mẫu
của Shannon khi đó sẽ là:
Tương tự như không gian một chiều, một tín hiệu ảnh hai chiều g(x,y) có thể xấp xỉ trong khoảng [N, M] có thể được ước lượng như sau:
So với tín hiệu một chiều, quá trình số hóa tín hiệu hình ảnh trong không gian 2 chiều có thể được thực hiện với nhiều cấu trúc lấy mẫu khác nhau và các bước lượng tử khác nhau nhằm giảm dung lượng tín hiệu số nhận được Tuy nhiên, trên thực tế cấu trúc lấy mẫu trong đa số trường hợp có dạng trực giao với giá trị bước lượng tử không thay đổi, vì khi đó quá trình số hóa sẽ đơn giản nhất Khi sử dụng cấu trúc lấy mẫu trực giao, ảnh số nhận được dưới dạng ma trận các điểm ảnh phân bố theo dòng và cột
1.2.4.3 Các tiêu chuẩn lấy mẫu
Quá trình lấy mẫu tín hiệu video phải thỏa mãn định nghĩa lấy mẫu Shannon Trên thực tế, tần số lấy mẫu thường được lựa chọn cao hơn để tăng khoảng cách giữa dải phổ chính và phổ phụ của tín hiệu video rời rạc, khi đó thành phần phổ chính có thể được tách ra (trong quá trình khôi phục ảnh gốc) bằng các mạch lọc thông thấp đơn giản Ngoài ra, tín hiệu video tổng hợp (bao gồm thành phần màu) được lấy mẫu với tần số là bội số của tần số sóng mang phụ fs (sóng mang màu) Với hệ PAL, tần số lấy mẫu sẽ là 3 fs(13,3 MHz) hoặc 4 fs (17,7 MHz).Trong hệ thống số hóa tín hiệu video theo thành phần, ba tín hiệu R, G, B hoặc thành phần chói Y và hai tín hiệu hiệu màu R-
Y, B-Y sẽ được lấy mẫu với tần số đáp ứng định lý Nyquist và là bội số của tần số dòng theo cả 2 tiêu chuẩn 525 và 625 dòng/ ảnh Tiêu chuẩn CCIR-601 cho phép sử dụng tần số lấy mẫu là 13,5 MHz Số bít để mã hóa tín hiệu video
Trang 27Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video Cấu trúc lấy mẫu trực giao:
Hinh 1.5 Cấu trúc lấy mẫu theo chuẩn 4:4:4
Tiêu chuẩn lấy mẫu 4:4:4 cho chất lượng hhình ảnh tốt nhất,thuận tiện cho việc xử lý tín hiệu video số Tuy nhiên, với phương pháp lấy mẫu này, tốc
độ dòng dữ liệu video số sẽ tương đối cao, ví dụ khi số hóa tín hiệu video có
độ phân giải 720x576 (hệ PAL), 8 bít lượng tử /điểm ảnh, 25 ảnh/s luồng dữ liệu số nhận được sẽ có tốc độ : 3x720x576x8x25=249Mbits/s
Tiêu chuẩn 4:2:2: Gồm 8 khối: 4 khối Y, 4 khối Cb và 4 khối Cr
Trang 2821 Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video Tín hiệu màu trên mỗi dòng được lấy mẫu với tần
số bằng nửa tần số lấy mẫu tín hiệu chói
Hình 1.6 Cấu trúc lấy mẫu theo chuẩn 4:2:2
Tiêu chuẩn 4:2:0: Gồm 6 khối: 4 khối Y, một khối Cb, một khối Cr
Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video Cách một điểm lấy mẫu một tín hiệu màu Tại dòng chẵn chỉ lấy mẫu tín hiệu màu CR, tại dòng chẵn lấy mẫu tín hiệu CB Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, Thì tần số lấy mẫu tín hiệu màu sẽ là fD/2
Hình 1.7 Cấu trúc lấy mẫu theo chuẩn 4:2:0
Tiêu chuẩn 4:1:1: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video Tín hiệu màu trên mỗi dòng được