Bài giảng xử lý âm thanh và hình ảnh-p6 potx

37 486 1
Bài giảng xử lý âm thanh và hình ảnh-p6 potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 84 3.3. Kỹ thuật nén ảnh 3.3.1. Tổng quan về nén ảnh Mỗi ngày, một lượng thông tin khổng lồ được lưu trữ lại, truy cập và truyền dẫn dưới dạng số. Các công ty cung cấp cho các đơn vị liên quan, các nhà đầu tư, và khách hàng, tiềm năng dữ liệu về tài chính, các báo cáo thường niên, kiểm kê đánh giá và thông tin về sản phẩm thông qua mạng Internet. Với yêu cầu tiếp nhận và tìm kiếm, hai trong số hầu hết các cách giao dịch cơ bản trực tuyến, thông thường được thực hiện tại nhà với sự thoải mái tiện nghi. Bước đầu của chính phủ điện tử (còn gọi là chính phủ số) của Hoa Kỳ là thiết lập ra toàn bộ danh sách (hoặc nội dung) của thư viện Quốc hội, đó là thư viện lớn nhất thế giới, có thể truy cập điện tử và các chương trình truyền hình cáp theo yêu cầu sẽ trở thành hiện thực trong tương lai gần. Do hầu hết các thông tin trực tuyến được diễn đạt dưới dạng đồ họa hoặc hình ảnh tự nhiên, các yêu cầu về lưu trữ và truyền thông là rất lớn. Nên các phương pháp nén dữ liệu trước khi lưu trữ và truyền dẫn là mối quan tâm mang tính chất thương mại và thực tiễn rất quan trọng. Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu cầu để tái hiện lại một ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toán học, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quan về mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyền hình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạo lại hình ảnh gốc hoặc gần đúng của nó. Mối quan tâm về việc nén ảnh đã có từ hơn mấy chục năm nay. Trọng tâm ban đầu của các nỗ lực nghiên cứu trong lĩnh vực này theo các phương pháp tương tự để giảm băng thông truyền tín hiệu video, đó là một quy trình được gọi là nén băng thông. Việc đạt đến máy tính số và sự phát triển sau đó của các mạch tích hợp tân tiến đưa đến yêu cầu phải thay đổi các phương thức nén từ tương tự sang số. Với một vài khóa quốc tế của chuẩn nén ảnh mới được thông qua gần đây, phạm vi này đã trải qua sự phát triển rất ý nghĩa thông qua các ứng dụng thực tế của lý thuyết bắt đầu từ những năm 1940, khi C.E.Shannon và những nhà khoa học khác đưa ra công thức đầu tiên theo xác suất của thông tin và các quá trình tái tạo, truyền dẫn và nén. Hiện nay, nén ảnh được thừa nhận như là: “công nghệ hỗ trợ”. Thêm vào phạm vi vừa được đề cập, nén ảnh là một công nghệ tự nhiên để trình bày cho giải pháp tăng về không gian của cảm biến ảnh ngày nay và tiến triển đến các chuẩn quảng bá vô tuyến. Hơn nữa, nén ảnh còn nắm vai trò lớn hơn trong nhiều ứng dụng khác nhau, bao gồm cả thoại hội nghị video, khả năng phán đoán từ xa (việc sử dụng hình ảnh từ vệ tinh các ứng dụng trong dự báo thời tiết hoặc về các tài nguyên khác của trái đất), các ảnh tài liệu, các ảnh y học, truyền dẫn kiểu sao chép (FAX), các phương tiện điều khiển từ xa trong quân đội, không gian và các ứng dụng quản lý còn đang bị bỏ ngỏ khác. Nói tóm lại, số lượng các ứng dụng luôn phát triển không ngừng phụ thuộc vào hệ số thao tác, bộ nhớ và sự truyền dẫn nhị phân, mức xám và các ảnh màu. Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 85 Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đa phương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nén ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên mà có trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng bit it hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoả mãn chất lượng yêu cầu, đảm bảo đủ thông tin cần thiết. 3.3.1.1. Nguyên tắc cơ bản Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giám lượng số liệu dư thừa số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước. Cần phải phân biệt giữa số liệu và thông tin. Thực tế số liệu và thông tin không đồng nghĩa với nhau. Số liệu (và do đó tín hiệu) chỉ là phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho trước có thể biểu diễn bằng các lượng số liệu khác nhau. Ví dụ, trong một trường hợp cụ thể một câu chuyện dài được tóm lược thành câu chuyện ngắn hơn. Ở đây, thông tin cần quan tâm là câu chuyện, các câu từ là dữ liệu được sử dụng để tóm lược thông tin. Nếu sử dụng 2 cách riêng biệt với các từ ngữ khác nhau để cùng kể câu chuyện trên, ta sẽ tạo được 2 phiên bản của câu chuyện và sẽ có một cái kém nhất sẽ chứa dữ liệu không cần thiết. Đó là, nó bao gồm dữ liệu (các từ) chúng cung cấp không liên quan đến thông tin hay đơn giản là trình bày lại cái đã biết. Và do đó, nó bao gồm dữ liệu dư thừa. Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén ( ) được xác định như sau: Nếu và là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối của tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau: (3.30) trong đó: (3.31) Trong trường hợp thì và có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi thì tiến tới vô cùng và tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ. Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làm giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đề Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 86 nghị tính số bit cho một điểm trong ảnh nén ( ) . Nó được xác định là tổng số bit ở ảnh nén chia cho tổng số điểm: = Số bit nén/Số điểm (3.32) Trong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạng và phân biệt. • Dư thừa mã (Coding Redundancy) Nếu các mức của tín hiệu video được mã hóa bằng càc symbol nhiều hơn cần thiết (tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thường sử dụng các mã VLC như mã Huffman, mã RLC v.v Lượng thông tin về hình ảnh có xác suất thấp hơn. • Dư thừa trong pixel (Interpixel Redundancy) Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của các lân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của một pixel riêng vào một ảnh là dư thừa. Nhiều tên (bao gồm: dư thừa không gian, dư thừa hình học, dư thừa trong ảnh) được đặt ra để phân biệt sự phụ thuộc này của các pixels. Ta dùng độ dư thừa trong pixel để chỉ tất cả các tên trên. Để giảm độ dư thừa trong pixel của một ảnh, dãy pixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một dạng có hiệu quả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến đổi cosin rời rạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách này sẽ giảm được độ dư thừa số liệu trong pixel ở miền tần số cao. • Dư thừa tâm sinh lý Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới trong một phạm vi nhất định. Hiện tượng này xuất phát từ sự thật là mắt không đáp ứng với cùng độ nhậy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơn thông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn. Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. Khác với độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thông tin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ một khoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử không đảo ngược (mất thông tin) cho kết quả nén số liệu có tổn hao. 3.3.1.2. Mô hình nén Trong lĩnh vực truyền thông video, kỹ thuật xử lý tín hiệu chủ yếu tập trung vào mục đích nén. Người ta thường sử dụng 3 phương pháp nén đối với hình ảnh dựa vào các loại độ dư: dư thừa không gian, dư thừa phổ và dư thừa tâm sinh lý nhìn. Nén về cơ bản là một quá trình trong đó số lượng số liệu (data) biểu diễn lượng thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều phần ảnh giống nhau. Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua mà không làm mất thông tin hình ảnh. Đó là các phần xóa dòng, xóa mành, vùng ảnh tỉnh hoặc chuyển động rất chậm,vùng ảnh nền giống nhau, mà ở đó các phần tử liên tiếp hoặc khác nhau rất ít. Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 87 Ngoài ra, để tăng hệ số nén ảnh động, chuyển động trong ảnh truyền hình phải được dự báo, khi đó, ta chỉ cần truyền các thông tin về hướng và mức độ (vector) chuyển động của các vùng ảnh khác nhau. Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần truyền các thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu video và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh có nhiều chi tiết và các phần tử chuyển động). Quá trình giải nén ảnh là quá trình xấp xỉ để khôi phục ảnh gốc (thường thực hiện ở phía thu). Một hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi, bộ lượng tử hoá, bộ mã hoá (hình 3.38). Hình 3.38: Sơ đồ khối hệ thống nén ảnh tiêu biểu - Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tín hiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn là dùng tín hiệu nguyên thủy. - Bộ lượng tử hoá: tạo ra một lượng ký hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượng tử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiện lượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch. - Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi ký hiệu. Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên và được phân loại như sau: - Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độ bit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuận nghịch. - Hệ thống nén có mất thông tin (loss data reduction): đạt được độ trung thực tốt nhất đối với tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vì có hệ số nén cao. Trong sơ đồ hình 3.38, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không bị tổn thất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta có thể phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoá nguồn (mã hoá có tổn thất). Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 88 3.3.2. Hiệu quả của quá trình nén và chất lượng ảnh Hiệu quả nén được xác định bằng tỉ lệ nén, nghĩa là tỉ số giữa số lượng dữ liệu của ảnh gốc trên số liệu của ảnh nén. Độ phức tạp của thuật toán nén, được xác định bằng số bước tính toán trong cả hai quá trình mã hóa và giải mã. Thông thường thì thuật toán nén càng phức tạp bao nhiêu thì hiệu quả nén càng cao nhưng ngược lại giá thành và thời gian để thực hiện lại tăng. Đối với thuật toán nén có tổn thất thì độ sai lệch được xác định bằng số thông tin bị mất đi khi ta tái tạo lại hình ảnh từ dữ liệu nén. Với nén không tổn thất thì chúng ta có thể có những thuật toán mã hóa càng gần với Entropy của thông tin nguồn bởi vì lượng Entropy của nguồn chính là tốc độ nhỏ nhất mà bất cứ một thuật toán nén không tổn thất nào cũng có thể đạt được. Ngược lại, trong nén có tổn thất thì mối quan hệ giữa tỉ lệ nén và độ sai lệch thông tin được Shannon nghiên cứu và biểu diễn dưới dạng hàm (hàm về độ sai lệch thông tin). Lý thuyết của ông cũng chỉ ra rằng với thuật toán nén có tổn thất thì chúng ta sẽ có hiệu quả nén cao nhất nhưng ngược lại ta lại bị mất thông tin trong quá trình tái tạo lại nó từ dữ liệu nén. Trong khi đó nén không tổn thất, mặc dù đạt được hiệu quả thấp, nhưng ta lại không bị mất thông tin trong quá trình tái tạo lại nó. Vì vậy ta phải tìm ra một giải pháp nhằm trung hòa giữa hai thuật toán nén này để tìm ra một thuật toán nén tối ưu sao cho hiệu quả cao mà lại không bị mất mát thông tin. Phương pháp đánh giá chất lượng ảnh nén thông dụng nhất là dựa trên mức sai lệch bình phương trung bình so với ảnh gốc - rms (Root Mean Square) được tính bởi biểu thức: (3.39) trong đó: rms: sai lệch bình phương trung bình i X : giá trị điểm ảnh gốc ' i X : giá trị điểm ảnh sau khi nén n: tổng số điểm ảnh trong một ảnh Thông thường, khi giá trị rms thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một số trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị rms. Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 89 3.3.3. Phân loại các phương pháp nén ảnh Có nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào nguyên lý nén. Cách này phân các phương pháp nén thành loại chính: • Nén không mất thông tin: bao gồm các phương pháp nén mà sau khi giải nén ta thu được chính xác dữ liệu gốc. • Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta không thu được dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các phương pháp “tâm lý thị giác”. Các phương pháp này lợi dụng tính chất của mắt người, chấp nhận một số sai số trong ảnh khi khôi phục lại. Tất nhiên, các phương pháp này chỉ có hiệu quả khi mà độ sai lệch là chấp nhận được bằng mắt thường hay với dung sai nào đó. Cách phân loại thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta cũng phân thành hai phương pháp: • Phương pháp không gian (Spatial Data Compression): thực hiện nén bằng cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc. • Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến đổi của ảnh gốc mà không tác động trực tiếp. Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây: Hình 3.39: Sơ đồ quá trình nén và giải nén dữ liệu Sau đây ta tập trung giới thiệu về các phương pháp nén theo cách phân loại thứ nhất. 3.3.3.1. Nén không mất thông tin Nén không mất thông tin cho phép phục hồi đúng tín hiệu ban đầu sau khi giải nén. Đây là một quá trình mã hoá có tính thuận nghịch. Hệ số nén không mất thông tin nhỏ hơn . Các kỹ thuật nén không mất thông tin có thể là: Quá trình nén Quá trình giải nén Dữ liệu gốc Dữ liệu nén Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 90 Mã hoá với độ dài từ mã thay đổi VLC: Đây là phương pháp mã hoá Huffman và mã hoá Entropy dựa trên khả năng xuất hiện của các biên độ trùng hợp trong một bức ảnh, thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho các giá trị còn lại. Khi giải nén sử dụng các băng tìm kiếm. Mã hóa LZW: Phương pháp nén LZW được phát minh bởi Lempel - Zip và Welch. Nó hoạt động dựa trên một ý tưởng rất đơn giản là người mã hóa và người giải mã cùng xây dựng bảng mã. Thuật toán Huffman có ưu điểm là hệ số nén tương đối cao, phương pháp thực hiện tương đối đơn giản, đòi hỏi ít bộ nhớ, có thể xây dựng dựa trên các mảng bé hơn . Nhược điểm của nó là phải chứa cả bảng mã vào tập tin nén thì phía nhận mới có thể giải mã được do đó hiệu suất nén chỉ cao khi ta thực hiện các tập tin lớn. Thuật toán LZW thì có ưu điểm là hệ số nén tương đối cao, trong tập tin nén không cần chứa bảng mã, nhược điểm của thuật toán này là tốn nhiều bộ nhớ, khó thực hiện dựa trên các mảng đơn giản (<64KB). 3.3.3.2. Nén có tổn thất Sau khi nén một số thông tin bị mất chất lượng hình ảnh giảm do quá trình làm tròn và loại bỏ giá trị trong phạm vi khung hình hay giữa các khung hình. Nếu nén nằm trong giới hạn sự cảm nhận của mắt người thì chất lượng suy hao không nghiêm trọng. Với việc nén có tổn hao này, nén tín hiệu mới thật sự có ý nghĩa đối với truyền hình. Nén mất thông tin đạt tới hệ số nén . Tốc độ dòng số liệu đạt được trong hệ thống nén phụ thuộc vào yêu cầu chất lượng ảnh cần có. Các kỹ thuật nén có tổn thất bao gồm: Mã hóa dự đoán tổn hao, các giá trị mang thông tin đã được gửi hay đang sẵn có sẽ được sử dụng để dự đoán các giá trị khác, và chỉ mã hóa sự sai lệch giữa chúng. Phương pháp này đơn giản và rất phù hợp với việc khai thác các đặc tính cục bộ của bức ảnh. Kỹ thuật DPCM chính là một ví dụ điển hình của phương pháp này. Mã hóa dựa trên phép biến đổi thì lại thực hiện như sau: trước tiên thực hiện phép biến đổi thường dùng là DCT – Biến đổi Cosin rời rạc, DWT – biến đổi Wavelet rời rạc, tiếp đó thực hiện mã hóa đối với các hệ số biến đổi. Phương pháp này có hệ số cao hơn rất nhiều so với phương pháp dự đoán bởi vì chính các phép biến đổi (sử dụng các thuộc tính nén năng lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một ít các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi lượng tử hóa và như vậy lượng dữ liệu phải truyền nhỏ đi rất nhiều. Còn trong phương pháp mã hóa dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn còn có ý nghĩa (còn sử dụng ở các bước tiếp theo) sau khi lượng tử hóa, chính điều này làm cho phương pháp mã hóa dự đoán có nhiều dữ liệu được truyền đi hơn so với phương pháp biến đổi. Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 91 3.3.4. Các phương pháp mã hoá dùng trong kỹ thuật nén không tổn thất Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sự giảm bớt dữ liệu. Một ứng dụng ví dụ như nơi lưu trữ những tài liệu y học hay doanh nghiệp, nơi mà việc nén có tổn thất thường là không được phép vì những lý do bắt buộc. Một ví dụ khác là việc xử lý các hình ảnh vệ tinh, bất kỳ một sự mất mát nào đều không thích hợp cho cả việc sử dụng lẫn chi phí của việc tập hợp dữ liệu. Tuy thế, việc chụp X quang số, thì mất mát thông tin có thể được thoả hiệp sự chính xác trong chuẩn đoán. Trong một vài trường hợp khác, nhu cầu việc nén không tổn thất được thúc đẩy bởi việc xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén. Trong phần này, chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn thất hiện thời đang được sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn nữa, chúng cũng thích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free thường bao gồm 2 thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế ảnh cũ trong đó sự dư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn ảnh đó để loại trừ tối đa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã hoá ký tự của kiểu mã hoá nguồn. 3.3.4.1. Mã hoá với độ dài từ mã thay đổi Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơ chuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gán tương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độ dài của các mã nên biến đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC. Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tức là log 2 p. Do đó, entropy của các kí hiệu là số bít trung bình tối thiểu cần để biểu diễn các kí hiệu: 2 1 ( ) log n i i i H x p p = = − ∑ (3.40) Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman và mã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC) chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng như giải mã các vec tơ chuyển động. 1. Mã hóa Shannon-Fano Thuật toán Shannon-Fano phát triển độc lập bởi Shannon ở Bell Labs và Robert Fano tại MIT. Để minh họa thuật toán, chúng ta giả sử các ký hiệu được mã hoá là các ký tự trong từ HELLO. Tần xuất xuất hiện của các ký tự là: Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 92 Các ký hiệu H E L O Tần xuất xuất hiện 1 1 2 1 Các bước của thuật toán mã hóa Shannon-Fano có thể được trình bày theo cách từ trên xuống: 1. Phân loại các ký hiệu theo tần xuất xuất hiện của chúng 2. Phân chia theo đệ quy các ký hiệu thành hai phần, với mỗi khoảng cùng số lượng của số lần xuất hiện, cho đến khi tất cả các phần có chứa chỉ có một ký hiệu. Một cách tự nhiên của việc thực hiện các thủ tục trên là xây dựng một cây nhị phân. Theo quy ước, chúng ta gán bit 0 cho nhánh trái của nó và bit 1 cho các nhánh phải. Hình 3.40: Cây mã hóa cho từ HELLO bởi thuật toán Shannon-Fano Ban đầu, các ký hiệu được sắp xếp là LHEO. Hình 3.40 cho thấy, việc chia đầu tiên tạo ra làm 2 phần: (a) L với tần suất xuất hiện là 2, ký hiệu là L: (2) ; và (b) H, E và O với tổng số lần xuất hiện là 3, ký hiệu là H, E, O: (3). Lần phân chia thứ hai sinh ra H: (1) và E, O: (2) và lần phân chia cuối cùng là E: (l) và O: (1). Bảng 3.3 tóm tắt kết quả, hiển thị mỗi ký hiệu, tần xuất xuất hiện của chúng, nội dung thông tin ( 1 2 lo g i p ), từ mã kết quả, và số bit cần thiết để mã hóa cho mỗi ký hiệu trong từ HELLO. Tổng số bit sử dụng được hiển thị ở phía dưới và entropy trong trường hợp này được tính: H= Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 93 = 0.4 x 1.32 + 0.2 x 2.32 + 0.2 x 2.32 + 0.2 x 2.32 = 1.92 Symbol Count 1 2 log i i p p Code Số bít được dùng L 2 1.32 0 2 H 1 2.32 10 2 E 1 2.32 110 3 O 1 2.32 111 3 Tổng số bít 10 Bảng 3.3: Kết quả thực hiện bởi thuật toán Shannon-Fano cho từ HELLO. Điều này cho thấy số bit trung bình tối thiểu của để mã mỗi ký hiệu trong từ HELLO là 1,92. Trong ví dụ này, các thuật toán Shannon-Fano sử dụng một giá trị trung bình là 10 / 5 = 2 bit để mã mỗi ký tự, khá gần với giới hạn thấp là1,92. Rõ ràng, kết quả là thỏa đáng. Lưu ý rằng kết quả của thuật toán Shannon-Fano không nhất thiết là duy nhất. Ví dụ, nếu cách chia đầu tiên trong ví dụ trên thành hai phần L, H: (3) và E, 0: (2). Điều này sẽ cho kết quả mã hóa ở hình 3.41. Bảng 3.4 cho thấy các từ mã thu được khác với trước (Bảng 3.3). Các thuật toán Shannon-Fano đạt yêu cầu mã hóa cho nén dữ liệu, nhưng việc nén này sẽ được thực hiện tốt hơn bởi phương pháp mã hóa Huffman. Hình 3.41: Một dạng cây mã hóa khác cho từ HELLO theo thuật toán Shannon-Fano Symbol Count 1 2 log i i p p Code Số lượng bit dùng L 2 1.32 00 4 H 1 2.32 01 2 E 1 2.32 10 2 0 1 2.32 11 2 Tổng số bít: 10 Bảng 3.4: Một kết quả khác được thực hiện bởi thuật toán Shannon-Fano với từ HELLO [...]... tròn, và gi m qua quá trình lư ng t hóa DCT) Quá trình mã hóa VLC cho h s DC và các h s AC ư c m t trong sơ kh i hình 3.53 111 X lý âm thanh và hình nh Chương 3:K thu t x lý nh B ng 3.9: Ví d b ng Huffman cho h s AC 112 X lý âm thanh và hình nh Hình 3.53: Sơ 3.4.6 B nh Chương 3:K thu t x lý nh kh i h th ng mã VLC cho h s DC (a) và AC (b) m Các t mã RLC t o ra dòng s li u v i t c bi n i, ph thu c vào... t khung hình hi n t i d oán Mô hình này cho kh năng nén s li u cao hơn Hi u ng nhi u trong khung hình hi n t i gi m b ng m c nhi u trung bình c a khung hình trư c và khung hình sau, có kh năng d oán ngoài ph m vi c a vùng tìm ki m nh các khung hình ti p theo 117 X lý âm thanh và hình nh Chương 3:K thu t x lý nh S khác nhau cơ b n gi a hai m ch, m ch t o nh d oán trư c và m ch t o nh d oán hai chi u... nh, màu s c, tín hi u video và cơ s c a k thu t x lý nh và video Ti p n, t ng quan v k thu t nén nh ư c trình bày cùng v i các phương pháp mã hóa dùng trong k thu t nén không t n th t và có t n th t Cu i cùng, các nguyên lý nén trong nh và liên nh nh m gi m b t thông tin dư th a trong mi n không gian và th i gian ư c gi i thi u 118 X lý âm thanh và hình nh Chương 3:K thu t x lý nh Hư ng d n ôn t p chương... c chèn vào gi a b mã hoá bi u tư ng và i m mà l i d oán ư c t o ra Nó ánh x l i d oán t i kho ng gi i h n u ra, bi u th là n, i u thi t l p s liên i gi a nén và k t h p méo v i mã hoá d oán t n hao 100 X lý âm thanh và hình nh Hình 3.45: Mô hình mã hóa d Chương 3:K thu t x lý nh oán có t n th t (a): b mã hoá, (b): b gi i mã Nh m cung c p s liên k t c a bư c lư ng t , b mã hoá không t n th t (hình 3.44... c a x lý nh 3 Các giai o n chính trong x lý nh 4 Các thành ph n c a h th ng x lý nh s 5 Các ki u d li u nh 6 M u s c trong nh và video 7 Các lo i tín hi u video 8 Video tương t và các chu n 9 Video s và các chu n 10 H th ng th giác 11 Quá trình thu nh n tín hi u hình nh 12 L y m u và lư ng t hóa tín hi u nh và video 13 X lý nh trong mi n không gian và t n s 14 B n ch t c a các k thu t nén nh và video... giá tr d oán và th c t c a i m nh ó Hình 3.44 ch ra các thành ph n cơ b n c a m t h th ng mã hoá d oán không t n hao H th ng này bao g m m t b mã hoá và m t b gi i mã, m i kh i ch a m t b d oán ng nh t V i m i i m nh l n lư t c a nh u vào, bi u th b ng , ư c ưa vào trư c tiên trong b mã hoá, b d oán t o ra m t giá tr d oán trư c c a i m nh trên cơ s s các u vào cũ 98 X lý âm thanh và hình nh th b i... hình thích nghi: xác su t ư c gán có th thay hóa, d a trên các t n s kí hi u th y ư c 95 i khi m i kí hi u ư c mã X lý âm thanh và hình nh Chương 3:K thu t x lý nh Nguyên lý Ý tư ng cơ b n c a mã hóa s h c là s d ng kho ng chia gi a 0 và 1 bi u di n các kho ng mã hóa Rõ ràng hàm m t xác xu t tích lũy c a t t c các kí hi u s b ng 1 Khi b n tin càng dài thì các kho ng bi u di n b n tin ó càng ng n, và. .. p nxn nh nh nh ã gi i nén (b): B gi i mã Hình 3.47: H th ng mã hóa bi n i Hình 3.47 ch ra h th ng mã hoá chuy n i c trưng B gi i mã thi hành bư c o chu i (v i s lo i b thu t toán lư ng t ) c a b gi i mã, b này th c hi n b n ho t ng cân x ng ơn gi n: Phân tích nh nh , bi n i, lư ng t hoá và mã hóa M t nh 103 X lý âm thanh và hình nh Chương 3:K thu t x lý nh u vào kích c N×N u tiên ư c chia nh ra thành... Có nghĩa là , và trong bi u th c (3.42) t i (3.44) có th ư c thay th b i các ký hi u rõ ràng hơn và v i bi u th kho ng ư c s d ng như m t chú d n trong to th i gian Trong các trư ng h p khác, không gian và/ ho c khung s ( trong chu i th i gian c a nh) c a m t nh Trong mã hoá d oán tuy n tính 1-D, ví d , bi u th c (3.44) có th vi t thành: 99 X lý âm thanh và hình nh Chương 3:K thu t x lý nh (3.45) V... là: phân tích a phân gi i MRA (Multi Resolution Analysis): phân tích tín hi u các t n s khác nhau và cho các phân gi i khác nhau 104 X lý âm thanh và hình nh Chương 3:K thu t x lý nh MRA khi phân tích tín hi u cho phép: phân gi i th i gian t t và phân gi i t n s kém các t n s cao; phân gi i t n s t t và phân gi i th i gian kém các t n s th p Như v y k thu t này r t thích h p v i nh ng tín hi u: có . hóa Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 102 chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 3.46 mô tả sơ đồ khối của bộ mã hóa và giải. Entropy (mã hoá không tổn thất) và mã hoá nguồn (mã hoá có tổn thất). Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 88 3.3.2. Hiệu quả của quá trình nén và chất lượng ảnh Hiệu. số các đầu vào cũ. Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 99 Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thị bởi , và được sử

Ngày đăng: 11/08/2014, 00:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan