1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn môn học lý thuyết thông tin

22 8 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mã Hóa Fano
Tác giả Đào Thành Công
Người hướng dẫn TS. Nguyễn Đức Toàn
Trường học Trường Đại Học Hòa Bình
Chuyên ngành Lý Thuyết Thông Tin
Thể loại bài tập lớn
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 22
Dung lượng 1,85 MB

Nội dung

Mô hình của các quá trình truyền tin Khái niệm thông tin thường đi kèm với một hệ thống truyền tin.. - Thông tin có thể thuộc nhiều loại như + Một dãy kí tự như trong điện tín telegraph

Trang 1

BỘ GIÁO DỤC ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÒA BÌNH



BÀI TẬP LỚN

Môn học: Lý thuyết thông tin

Đề tài: Mã hóa Fano

Giáo viên hướng dẫn: TS Nguyễn Đức Toàn Học viên: Đào Thành Công

Lớp: K7-CNTT

HÀ NỘI – 2022

Trang 2

Sau cùng em xin chân thành cảm ơn Ban giám đốc Bệnh viện Đại học Y HàNội, đồng nghiệp, người thân, bạn bè và các bạn học viên lớp cao học K6-CNTT vàK7-CNTT luôn bên cạnh động viên hỗ trợ, chia sẻ những thuận lợi cũng như khókhăn trong quá trình học tập, đó luôn là động lực giúp em không ngừng phấn đấuhoàn thành tốt nhiệm vụ học tập của mình.

Xin chân thành cám ơn !

Hà Nội, tháng 11 năm 2022 Học viên ĐÀO THÀNH CÔNG

Trang 3

MỤC LỤC

Contents

LỜI CẢM ƠN 2

CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 4

1.1 Các khái niệm cơ bản 4

1.1.1 Thông tin 4

1.1.2 Mô hình của các quá trình truyền tin 4

1.1.3 Các loại hệ thống truyền tin 6

1.1.4 Rời rạc hóa 7

1.1.5 Nguồn rời rạc 9

1.2 Hệ thống mã hóa (cryptosystem) 9

1.3 Hệ thống mã hóa quy ước (mã hóa đối xứng) 9

1.4 Hệ thống mã hóa khóa công cộng (mã hóa bất đối xứng) 10

1.5 Kết hợp mã hóa quy ước và mã hóa khóa công cộng 10

CHƯƠNG 2: MÃ HÓA TỐI ƯU VÀ MỘT SỐ PHƯƠNG PHÁP MÃ HÓA 12

2.1 Mã hóa tối ưu 12

2.2 Một số phương pháp mã hóa 12

2.2.1 Phương pháp mã hóa Shannon 12

2.2.2 Phương pháo mã hóa Fano 13

2.2.3 Phướng pháp mã hóa tối ưu Huffman 15

CHƯƠNG 3: DEMO THUẬT TOÁN 20

3.1 Code thuật toán 20

3.2 Demo 23

3

Trang 4

CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU

1 Các khái niệm cơ bản

Định nghĩa đầu chưa nói lên được bản chất của thông tin Định nghĩa thứ hai nói rõ hơn về bản chất của thông tin và được dùng để định lượng thông tin trong kỹ thuật.Thông tin là một hiện tượng vật lý, nó thường tồn tại và được truyền đi dưới một dạng vật chất nào đó Những dạng vật chất dùng để mang thông tin được gọi là tín hiệu Lý thuyết tín hiệu nghiên cứu các dạng tín hiệu và cách truyền thông tin đi xa với chi phí thấp, một ngành mà có quan hệ gần gũi với lý thuyết thông tin Thông tin là một quá trình ngẫu nhiên Tín hiệu mang tin tức cũng là tín hiệu ngẫu nhiên

và mô hình toán học của nó là các quá trình ngẫu nhiên thực hay phức Và lý thuyếtthông tin là lý thuyết ngẫu nhiên của tin tức, có nghĩa là nó xét đến tính bất ngờ củatin tức đối với nơi nhận tin

3 Mô hình của các quá trình truyền tin

Khái niệm thông tin thường đi kèm với một hệ thống truyền tin

Hình 1 1 Mô hình của các quá trình truyền tin

Sự truyền tin (transmission): Là sự dịch chuyển thông tin từ điểm này đến điểm khác trong một môi trường xác định

Trang 5

- Là một tập hợp các tin mà hệ thống truyền tin dùng để lập các bảng tin hay thông báo (message) để truyền tin.

- Bảng tin chính là dãy tin được bên phát truyền đi

- Thông tin có thể thuộc nhiều loại như

+ Một dãy kí tự như trong điện tín (telegraph) của các hệ thống gởi điện tín (teletype system);

+ một hàm theo chỉ một biến thời gian (t) như trong radio và điện thoại;f

+ một hàm của thời gian và các biến khác như trong tivi trắng đen – ở đây thông tin có thể được nghĩ như là một hàm , , ) của toạ độ hai f(x y t

chiều và thời gian biểu diễn cường độ ánh sáng tại điểm ( , ) trên x y

Kênh tin (channel):

- Là nơi hình thành và truyền (hoặc lưu trữ) tín hiệu mang tin đồng thời ở đấy xảy ra các tạp nhiễu (noise) phá hủy tin tức

- Trong lý thuyết thông tin kênh là một khái niệm trừu tượng đại biểu cho hỗn hợp tín hiệu và tạp nhiễu

- Môi trường truyền tin thường rất đa dạng:

+ Môi trường không khí, tin được truyền dưới dạng âm thanh và tiếng nói, ngoài ra cũng có thể bằng lửa hay bằng ánh sáng;

+ Môi trường tầng điện ly trong khí quyển nơi mà thường xuyên xảy ra

sự truyền tin giữa các vệ tinh nhân tạo với các trạm rada ở dưới mặt đất;

+ Đường truyền điện thoại nơi xảy ra sự truyền tín hiệu mang tin là dòngđiện hay đường truyền cáp quang qua biển trong đó tín hiệu mang tin

Trang 6

+ Chẳng hạn nếu truyền dưới dạng sóng điện từ mà có đi qua các vùng của trái đất có từ trường mạnh thì tín hiệu mang tin thường bị ảnh hưởng ít nhiều bởi từ trường này Nên có thể coi từ trường này là một loại nhiễu.

+ Nếu truyền dưới dạng âm thanh trong không khí thì tiếng ồn xung quanh có thể coi là một loại nhiễu

- Nhiễu có nhiều loại chẳng hạn nhiễu cộng, nhiễu nhân

- Nhiễu cộng là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu “cộng” thêm vào

- Nhiễu nhân là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu “nhân” lên.Nơi nhận tin (sink):

- Là nơi tiếp nhận thông tin từ kênh truyền và cố gắng khôi phục lại thành thông tin ban đầu như bên phát đã phát đi

- Tin đến được nơi nhận thường không giống như tin ban đầu vì có sự tác độngcủa nhiễu Vì vậy nơi nhận phải thực hiện việc phát hiện sai sửa sai

- Nơi nhận còn có thể phải thực hiện việc giải nén hay giải mã thông tin đã được mã hoá bảo mật nếu như bên phát đã thực hiện việc nén hay bảo mật thông tin trước khi truyền

4 Các loại hệ thống truyền tin

- Các nguồn tin thường thấy trong tự nhiên được gọi là các nguồn tin nguyên thuỷ Đây là các nguồn tin chưa qua bất kỳ một phép biến đổi nhân tạo nào

- Các tín hiệu âm thanh, hình ảnh được phát ra từ các nguồn tin nguyên thuỷ này thường là các hàm liên tục theo thời gian và theo mức, nghĩa là có thể biểu diễn một thông tin nào đó dưới dạng một hàm s(t) tồn tại trong một quãng thời gian T và lấy các trị bất kỳ trong một phạm vi (smin, smax) nào đó

Trang 7

Hình 1 2 Các loại hệ thống truyền tin

- Các nguồn như vậy được gọi là các nguồn liên tục (continuous source), các tin được gọi là tin liên tục (continuous information) và kênh tin được gọi là kênh liên tục (continuous channel)

- Tuy nhiên vẫn có những nguồn nguyên thuỷ là rời rạc

+ Bảng chữ cái của một ngôn ngữ

+ Các tin trong hệ thống điện tín, các lệnh điều khiển trong một hệ thốngđiều khiển,

- Trong trường hợp này các nguồn được gọi là nguồn rời rạc (discrete source), các tin được gọi là tin rời rạc (discrete information) và kênh tin được gọi là kênh rời rạc (discrete channel)

- Sự phân biệt về bản chất của tính rời rạc và tính liên tục là số lượng tin của nguồn trong trường hợp rời rạc là hữu hạn còn trong trường hợp liên tục là không đếm được

- Rời rạc hoá thường bao gồm hai loại: Rời rạc hoá theo trục thời gian, còn được gọi là lấy mẫu (sampling) và rời rạc hoá theo biên độ, còn được gọi là lượng tử hoá (quantize)

Lấy mẫu (Sampling):

8

Trang 8

- Lấy mẫu một hàm là trích ra từ hàm ban đầu các mẫu được lấy tại những thờiđiểm xác định.

- Vấn đề là làm thế nào để sự thay thế hàm ban đầu bằng các mẫu này là một

sự thay thế tương đương, điều này đã được giải quyết bằng định lý lấy mẫu nổi tiếng của Shannon

Định lý lấy mẫu của Shannon

- Một hàm s(t) có phổ hữu hạn, không có thành phần tần số lớn hơn có thể được thay thế bằng các mẫu của nó được lấy tại những thời điểm cách nhau một khoảng hay nói cách khác tần số lấy mẫu

Hình 1 3 Định lý lấy mẫu của Shannon

Lượng tử hoá (Quantize):

- Biên độ của các tín hiệu thường là một miền liên tục (s min , s max) Lượng tử hoá

là phân chia miền này thành một số mức nhất định, chẳng hạn là smin =s 0 , s , 1

…,sn=s max và qui các giá trị biên độ không trùng với các mức này về mức

gần với nó nhất

- Việc lượng tử hoá sẽ biến đổi hàm ) ban đầu thành một hàm s(t s’(t) có dạng hình bậc thang Sự khác nhau giữa ) và s(t s’(t) được gọi là sai số lượng tử Sai số lượng tử càng nhỏ thì s’(t) biểu diễn càng chính xác s( ) t

Hình 1 4 Lượng tử hóa

Trang 9

- Một nguồn rời rạc là một bảng chữ cái A gồm kí hiệu, m A={a1, , , }, a2 a m

với những xác suất xuất hiện p(a i), = 1, , i m

- Định nghĩa không diễn tả mối quan hệ giữa tin trước và sau trong một bản tin, nên đây được gọi là một nguồn rời rạc không nhớ (discrete memoryless source)

Bảng tin của một nguồn tin rời rạc không nhớ

- Là một dãy (có thể vô hạn) các kí hiệu liên tiếp từ bảng chữ cái của nguồn tin, = ( x a–2a–1a0a1a2 )

- Trong thực tế bảng tin có bắt đầu và kết thúc cho nên bảng tin là một dãy hữu hạn các kí hiệu, * = (x a1a2 … )a n

6.1Hệ thống mã hóa (cryptosystem)

Hệ thống mã hóa (cryptosystem) là một bộ năm (P, C, K, E, D) thỏa mãn các điều kiện sau:

1 Tập nguồn P là tập hữu hạn tất cả các mẩu tin nguồn cần mã hóa có thể có

2 Tập đích C là tập hữu hạn tất cả các mẩu tin có thể có sau khi mã hóa

3 Tập khóa K là tập hữu hạn các khóa có thể được sử dụng

4 E và D lần lượt là tập luật mã hóa và giải mã Với mỗi khóa , tồn tại luật mã hóa và luật giải mã tương ứng Luật mã hóa và luật giải mã là hai ánh xạ thỏa mãn

Tính chất 4 là tính chất chính và quan trọng của một hệ thống mã hóa Tính chấtnày bảo đảm một mẩu tin được mã hóa bằng luật mã hóa có thể được giải mãchính xác bằng luật

7 Hệ thống mã hóa quy ước (mã hóa đối xứng)

Trong hệ thống mã hóa quy ước, quá trình mã hóa và giải mã một thông điệp sử dụng cùng một mã khóa gọi là khóa bí mật (secret key) hay khóa đối xứng (symmetric key) Do đó, vấn đề bảo mật thông tin đã mã hóa hoàn toàn phụ thuộc vào việc giữ bí mật nội dung của mã khóa đã được sử dụng

Với tốc độ và khả năng xử lý ngày càng được nâng cao của các bộ vi xử lý hiện nay, phương pháp mã hóa chuẩn (Data Encryption Standard – DES) đã trở nên

10

Trang 10

không an toàn trong bảo mật thông tin Do đó, Viện Tiêu chuẩn và Công nghệ Quốcgia Hoa Kỳ (National Institute of Standards and Technology – NIST) đã quyết định chọn một chuẩn mã hóa mới với độ an toàn cao nhằm phục vụ nhu cầu bảo mật thông tin liên lạc của chính phủ Hoa Kỳ cũng như trong các ứng dụng dân sự Thuật toán Rijndael do Vincent Rijmen và Joan Daeman đã được chính thức chọn trở thành chuẩn mã hóa nâng cao (Advanced Encryption Standard – AES) từ 02 tháng 10 năm 2000.

8 Hệ thống mã hóa khóa công cộng (mã hóa bất đối xứng)

Nếu như vấn đề khó khăn đặt ra đối với các phương pháp mã hóa quy ước chính là bài toán trao đổi mã khóa thì ngược lại, các phương pháp mã hóa khóa công cộng giúp cho việc trao đổi mã khóa trở nên dễ dàng hơn Nội dung của khóa công cộng (public key) không cần phải giữ bí mật như đối với khóa bí mật trong các phương pháp mã hóa quy ước Sử dụng khóa công cộng, chúng ta có thể thiết lập một quy trình an toàn để truy đổi khóa bí mật được sử dụng trong hệ thống mã hóa quy ước

Trong những năm gần đây, các phương pháp mã hóa khóa công cộng, đặc biệt là phương pháp RSA, được sử dụng ngày càng nhiều trong các ứng dụng mã hóa trên thế giới và có thể xem như đây là phương pháp chuẩn được sử dụng phổ biến nhất trên Internet, ứng dụng trong việc bảo mật thông tin liên lạc cũng như trong lĩnh vực thương mại điện tử

9 Kết hợp mã hóa quy ước và mã hóa khóa công cộng

Các phương pháp mã hóa quy ước có ưu điểm xử lý rất nhanh và khả năng bảo mật cao so với các phương pháp mã hóa khóa công cộng nhưng lại gặp phải vấn đề khó khăn trong việc trao đổi mã khóa Ngược lại, các phương pháp mã hóa khóa công cộng tuy xử lý thông tin chậm hơn nhưng lại cho phép người sử dụng trao đổi mã khóa dễ dàng hơn Do đó, trong các ứng dụng thực tế, chúng ta cần phối hợp được

ưu điểm của mỗi phương pháp mã hóa để xây dựng hệ thống mã hóa và bảo mật thông tin hiệu quả và an toàn

Trang 11

CHƯƠNG 2: MÃ HÓA TỐI ƯU VÀ MỘT SỐ PHƯƠNG PHÁP MÃ HÓA 2.1 Mã hóa tối ưu

- Là phép mã hóa mà kết quả là một bộ mã có chiều dài trung bình là nhỏnhất trong tất cả các phép mã hóa có thể có cho nguồn

- Bộ mã của phép mã hóa tối ưu cho nguồn được gọi là bộ mã tối ưu

- Ba phép mã hóa: Shannon, Fano, Huffman

- Trong mỗi phép mã hóa chúng ta sẽ mã hóa với cơ số mã m = 2 trước (mãhóa nhị phân), sau đó sẽ mở rộng cho trường hợp m > 2

Ta xét phép mã hóa sau đối với các tin của nguồn rời rạc A:

2.2.1 Phương pháp mã hóa Shannon

- Bước 1: Sắp xếp các xác suất theo thứ tự giảm dần Không mất tổng quátgiả sử p1 ≥ ≥ p K

Trang 12

* Ví dụ: Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6} với các xác suất lần

=> Nhận xét: Phương pháp Shannon cho kết quả là một mã prefix và

phương pháp Shannon có thể mở rộng cho trường hợp m > 2

2.2.2 Phương pháo mã hóa Fano

- Bước 1 Sắp xếp các xác suất theo thứ tự giảm dần Không mất tổng quátgiả sử p ≥ … ≥ p 1 k

- Bước 2 Phân các xác suất thành 2 nhóm có tổng xác suất gần bằng nhaunhất

- Bước 3 Gán cho hai nhóm lần lượt các kí hiệu 0 và 1 (hoặc ngược lại)

- Bước 4 Lặp lại bước 2 cho các nhóm con cho đến khi không thể tiếp tụcđược nữa

- Bước 5 Từ mã ứng với mỗi tin là chuỗi bao gồm các kí hiệu theo thứ tựlần lượt được gán cho các nhóm có chứa xác suất tương ứng của tin

Trang 13

Tin Xác suất Phân nhóm lần Từ mã

- Chú ý: Trong nhiều trường hợp có nhiều hơn một cách chia thành các

nhóm có tổng xác suất gần bằng nhau, ứng với mỗi cách chia có thể sẽ cho ra các

bộ mã có chiều dài trung bình khác nhau

* Ví dụ: Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6, a7, a8} với các xác

suất lần lượt là 0,23; 0,2; 0,14; 0,12; 0,1; 0,09; 0,06; 0,06

14

Trang 14

L1 = 2,88 L = 2,892

=> Nhận xét: Phương pháp Fano thường cho kết quả tốt hơn phương pháp Shannon.

2.2.3 Phướng pháp mã hóa tối ưu Huffman

- Trước hết xét cơ số mã m = 2 Trường hợp m > 2, chúng ta sẽ có một sựchú ý về sự khác biệt so với trường hợp m = 2

- Bổ đề

+ Cho nguồn S = {a , , a } có các xác suất lần lượt là p , , p Gọi l , , l1 1 1 k 1 k

là chiều dài các từ mã tương ứng với bộ mã tối ưu cho S Nếu p > p thì l ≤ lj.i j i

- Chứng minh

+ Với p > p , giả sử l > l Xét bộ mã mới bằng cách hoán đổi hai từ mã cói j i j

chiều dài li và lj cho nhau Xét hiệu chiều dài trung bình của bộ mã mới so với bộ

mã cũ l = p l + p l – p l – pjlj = (p – pi)(l – l ) < 0 Điều này mâu thuẫn với định i j j i i i j i jnghĩa của bộ mã tối ưu

+ Bổ đề này thật sự phát biểu một điều rằng, để mã hoá tối ưu cho mộtnguồn tin thì tin có xác suấ càng lớn phải được mã hoá thành từ mã có chiều dàicàng nhỏ

Trang 15

* Định lý số 1 của Huffman

+ Trong bộ mã tối ưu (m = 2) cho một nguồn tin, thì hai từ mã tương ứngvới hai tin có xác suất nhỏ nhất phải có chiều dài bằng nhau (lK–1 = lK) và có thểlàm cho chúng chỉ khác nhau duy nhất ở bit cuối (bit tận cùng bên phải)

- Chứng minh

+ Nếu l < l thì loại bỏ bit cuối cùng của từ mã w chúng ta được một bộk-1 k k

mã mới vẫn có tính prefix nhưng có chiều dài trung bình nhỏ hơn bộ mã cũ.+ Giả sử w và w không thõa điều kiện là khác nhau chỉ ở bit cuối.k-1 k

+ Nếu có một từ mã wi khác có chiều dài bằng lK đồng thời khác từ mã wKchỉ ở bit cuối thì chúng ta có thể hoán đổi wK–1 và wi cho nhau, vì vậy định lýcũng được chứng minh

+ Nếu không tồn tại một từ mã wi như vậy thì chúng ta có thể tạo ra một bộ

mã mới bằng cách bỏ đi bit cuối của từ mã wK Bộ mã mới này không vi phạmđiều kiện prefix và có chiều dài trung bình nhỏ hơn bộ mã cũ Vì vậy định lý đượcchứng minh

Trang 16

= l' + (p + p )k-1 k

+ Sự khác biệt giữa l và l' là một hằng số

+ Nên nếu mã tối ưu cho nguồn S là tốt hơn mã theo qui tắc đã phát biểu thì

mã được dẫn xuất từ mã tối ưu này bằng cách bỏ đi hai từ mã w và w và thayk k-1

vào từ mã mà bỏ đi bit cuối của w thì sẽ được một mã tối ưu tốt hơn cho nguồnk

S’, điều này mâu thuẫn

+ Vậy mã nhận được cho S theo qui tắc trên là tối ưu

=> Định lý Định lý 7.3 và 7.4 cho phép qui bài toán tìm mã tối ưu chonguồn có K tin về bài toán tìm mã tối ưu cho nguồn có K–1 tin Và quá trình này

có thể được lặp lại cho đến khi chỉ còn hai tin Lúc đó thì mã tối ưu là dễ thấy

* Giải thuật mã hóa Huffman

- Bước 1 Sắp xếp các xác suất theo thứ tự giảm dần chẳng hạn p1 ≥ ≥ pK

- Bước 2 Gán 0 tới bit cuối của w và 1 đến bit cuối của w hoặc ngược lại.k-1 k

Tuy nhiên chúng ta sẽ qui ước thực hiện theo chiều thứ nhất

- Bước 3 Kết hợp p và pk k-1 để tạo thành một tập xác suất mới p1, ,pk-2, pk-1 + pk

- Bước 4 Lặp lại các bước trên cho tập mới này

* Ví dụ: Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6} với các xác suất lần

lượt là 0,3; 0,25; 0,2; 0,12; 0,08; 0,05

Ngày đăng: 02/12/2024, 16:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w