Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,5 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ MỸ LỆ NGHIÊN CỨU KỸ THUẬT MÃ HÓA TIẾNG NÓI VÀ PHƯƠNG PHÁP THÁM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ MỸ LỆ NGHIÊN CỨU KỸ THUẬT MÃ HÓA TIẾNG NÓI VÀ PHƯƠNG PHÁP THÁM Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƯỚNG DẪN KHOA HỌC: TIẾN SỸ HỒ VĂN CANH THÁI NGUYÊN, NĂM 2015 i LỜI CAM ĐOAN Tôi xin cam đoan, nội dung liên quan tới đề tài trình bày luận văn thân tự nghiên cứu, tổng hợp hướng dẫn khoa học TS Hồ Văn Canh Các nhận xét, kết luận trích dẫn đầy đủ theo gốc Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan Thái Nguyên, ngày tháng 10 năm 2015 Học viên viên thực Lê Mỹ Lệ ii LỜI CẢM ƠN Trên thực tế thành công mà không gắn liền với nỗ lực thân hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập Đại học Thái Nguyên -Trường Đại học CNTT & TT đến em nhận nhiều quan tâm, giúp đỡ quý thầy cô, gia đình, bạn bè Với lòng biết ơn sâu sắc nhất, em xin gửi tới quý Thầy/cô thuộc Viện Công nghệ Thông tin-Viện Hàn lâm Khoa học Công nghệ Việt Nam Thầy/cô thuộc ĐH Thái Nguyên - Trường Đại học Công nghệ Thông tin Truyền thông với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Em xin chân thành cảm ơn Ts Hồ Văn Canh hướng dẫn em trình làm luận văn Quá trình thực hoàn thành luận văn kiến thức em hạn chế nhiều bỡ ngỡ Do vậy, không tránh khỏi thiếu sót điều chắn, em mong nhận ý kiến đóng góp quý báu quý Thầy Cô bạn học lớp để kiến thức em lĩnh vực hoàn thiện Sau cùng, em xin kính chúc quý Thầy Cô đặc biệt Ts Hồ Văn Canh thật dồi sức khoẻ, niềm tin để tiếp tục thực sứ mệnh cao đẹp truyền đạt kiến thức cho hệ mai sau Trân trọng! Thái Nguyên, ngày tháng 10 năm 2015 Học viên viên thực Lê Mỹ Lệ iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT vi DANH MỤC BẢNG BIỂU, ĐỒ THỊ vii MỞ ĐẦU Chương 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở đầu 1.2 Tổng quan máy phát âm 1.2.1 Bộ máy phát âm 1.2.2 Cơ chế phát âm 1.3 Biểu diễn tín hiệu tiếng nói 1.3.1 Xác định tần số lấy mẫu 1.3.2 Nén tín hiệu tiếng nói 1.4 Đặc tính tiếng nói 1.4.1 Âm hữu 1.4.2 Âm vô 1.4.3 Âm vị 10 1.4.4 Nguyên âm 10 1.4.5 Phụ âm 10 1.4.6 Các đặc tính khác 10 1.5 Mô hình tạo tiếng nói 12 1.6 Kỹ thuật xử lý tiếng nói 15 1.6.1 Tổng hợp tiếng nói 15 1.6.2 Nhận dạng tiếng nói 16 1.6.3 Phương pháp ghép nối 19 1.7 Mã hoá tham số tín hiệu 21 1.8 Kết luận chương 22 Chương 2: TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA VÀ THÁM MÃ iv TIẾNG NÓI 23 2.1 Mã hoá vùng thời gian 23 2.1.1 Công nghệ PCM 23 2.2 Mã hoá vùng tần số (Frequence Domain Coding of speech) 27 2.3 Mã hoá dải nhỏ(Sbc) 28 2.4 Mã hoá biến đổi thích nghi (ATC) 30 2.5 Mã hoá tham số nguồn (resourd parameters method) 31 2.5.1 Bộ mã hoá nguồn theo kênh 32 2.5.2 Phương pháp dự đoán tuyến tính LPC 33 2.6 Mã hoá theo hệ mật mã khoá đối xứng AES 34 2.6.1 Giới thiệu khái quát 35 2.7 Các phương pháp mã hoá khác 43 2.7.1 Phương pháp mã hoá DPCM ( Điều xung mã vi sai) 44 2.7.2 Phương pháp DM ( điều chế delta) 45 2.7.3 Phương pháp mã hoá ADPCM 46 2.8 Phép biến đổi Fourier 46 2.8.1 Sự hội tụ phép biến đổi Fourier 46 2.8.2 Phép biến đổi Fourier rời rạc (Discriete Fourier Transform - DFT) 47 2.8.3 Phép biến đổi fourier nhanh (FFT) 47 2.8.4 Quan hệ biến đổi Z biến đổi Fourier 48 2.8.5 Phép biến đổi Fourier ngược 49 2.8.6 Các tính chất phép biến đổi Fourier 49 2.9 Tổng quát phương pháp thám 50 2.9.1 Tấn công mã có từ giả định 50 2.9.2 Tấn công mã đoạn tiếng nói gốc cho trước (không có từ giả định) hệ thống phép hoán vị cố định 51 2.9.3 Tấn công vào mã thay đổi hệ thống phép hoán vị 54 2.10 Kết luận chương 57 Chương 3: ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI 59 3.1 Các khái niệm quy ước 59 3.2 Sơ đồ luồng thực 60 v 3.2.1 Chi tiết bước thực trình mã hóa 61 3.2.2 Cấu trúc lớp chương trình 61 3.3 Phương pháp thám 61 3.3.1 Bước 1: Phân loại mã 63 3.3.2 Bước : Xác định mã pháp 64 3.4 Đề mô chương trình 67 KẾT LUẬN 68 DANH MỤC TÀI LIỆU THAM KHẢO 69 vi DANH MỤC TỪ VIẾT TẮT ADC Analog Digital Converter ADM Adaptive Delta Modulation ADPCM Adaptive Differential Pulse Code Modulation AES Advanced Encryption Standard ARK AddRoundKey CSR Continuous Speech Recognition DCT Discrete cosine transform DFT Discrete furier transform DHT Discrete wash – Had transform DPCM Differential PCM FFT Fast FT FIR Finite Impulse Response FT Fourier Transform IDFT Inverse Discrete FT IDTFT Inverse DTFT IFT Inverse FT IMC InvMixColumns ISB InvSubBytes ISR InvShiftRows MC MixColumns PST Prolate spheroidal transform SB SubBytes SR ShiftRows vii DANH MỤC BẢNG BIỂU, HÌNH VẼ Danh mục bảng biểu: Bảng 1.1 Giá trị tần số người 11 Bảng 2.1 Chia dải tần tiếng nói phương pháp Sbc 29 Bảng 2.2 Bảng S-BOX AES 40 Bảng 2.3 Việc công vào mã (có từ giả định) 51 Bảng 2.4 Tỷ lệ % thành phần qua phép biến đổi DCT DFT 53 Bảng 2.5 Lược đồ phân bố vị trí thành phần tiếng nói mã hóa cách sử dụng lược đồ DCT 53 Bảng 2.6 Đo khoảng cánh thể hiện(c/minh) chất lượng tiếng nói 54 Danh mục hình: Hình 1 Bộ máy phát âm người Hình 1.2 Biểu diễn tín hiệu tiếng nói Hình 1.3 Thông lượng cho phương pháp biểu diễn tiếng nói Hình 1.4 Mô hình hoá nguồn âm âm hữu 12 Hình 1.5 Chuỗi đoạn ống âm học lý tưởng 13 Hình 1.6 Các biểu diễn lý học toán học 14 Hình 1.7 Mô hình số hệ thống phát âm 14 Hình 1.8 Một vài ứng dụng xử lý tiếng nói 15 Hình 1.9 Cấu trúc tổng hợp Formant nối tiếp 18 Hình 1.10 Cấu trúc tổng hợp Formant song song 18 Hình 1.11 Sự phân tầng mã hoá tiếng nói 20 Hình 2.1 Cấu hình phương pháp thông tin PCM 24 Hình 2.2 Quá trình lấy mẫu 25 Hình 2.3 Tạp âm lượng tử theo biên độ tín hiệu đầu vào 26 Hình 2.4 Đặc tính nén giãn 27 Hình 2.5 Sơ đồ mã hóa giải mã dải nhỏ 30 Hình 2.6 Mô tả State thuật toán mã hóa AES biểu diễn dạng ma trận 4x4 36 Hình 2.7 Lưu đồ mã hóa thuật toán mã hóa AES 37 viii Hình 2.8 Lưu đồ thực SB ISB 38 Hình 2.9 Biến đổi SubBytes () mảng trạng thái 39 Hình 2.10 Lưu đồ thực SR 41 Hình 2.11 Quá trình xử lý MixColumns 41 Hình 2.12 Mô tả bước Key scheduling 43 Hình 2.13 Sơ đồ mã hóa giải mã DPCM 44 Hình 2.14 Sơ đồ mã hóa giải mã AD 45 Hình 3.1 Lưu đồ cấu trúc lặp thuật toán mã hóa AES 59 Hình 3.2 Sơ đồ mã hoá tiếng nói AES - áp dụng FFT 60 Hình 3.3 Quy trình giải mã AES 62 55 có mặt nói mã hóa Để giải vấn đề này, việc làm đơn giản thay thành phẩn biến đổi giả (dummy) Block đượccác định trước thành phần chọn cho mẫu (frame) tiếng nói cho trước bất kỳ, lượng dần đến giới hạn thiết lập Những thủ tục trì lượng tiếng nói mã hóa mà chúng giống với tiếng nhiễu trắng Ví dụ: hệ thống mã hóa tiếng nói dựa sở lược đồ DFT mô tả [2], gợi ý cho thành phần giả (không thật) xác định cho thành phần biến đỏi có ý nghĩa không bị loại bỏ trình Nhược điểm chủ yếu kỹ thuật đòi hỏi thành phần coi thành phần giả bỏ qua mạo hiểm (rủi ro) đáng dò khử nhà phân tích mật mã Để khắc phục tình trạng cần đưa lược đồ có vị trí thành phần giả cố định lại, cần chọn vị trí cách cẩn thận để đảm bảo chắn trình đưa vào có ảnh hưởng chất lượng tiếng nói khôi phục Có 10 thành phần với biên độ đo xếp (theo thứ tự) để trì giới hạn lượng mong muốn liên tục Điều thực trước phép hoán vị hệ số DCT Theo nguyên lý mã hóa này, thành phần phân bố toàn giải Phổ Những thành phần không bị phát nhờ chất ngẫu nhiên chúng Chú ý hệ mã DCT chưa cải tiến, có thành phần giả dễ dàng dò chugns thành phần giải phổ với biên độ khác thường Do đẻ vượt trở ngại này, hệ xử lý trường hợp đặc biệt Khi lượng tiếng nói (đầu vào) rơi vào (thấp) ngưỡng lượng xác định trước (được gọi câm (silient)) Trong trường hợ toàn phổ thay phổ giả (dummy) mà thành phần chúng chọn từ tra cứu thành phần chọn cách sử dụng thiết bị tạo địa giả ngẫu nhiên Đối với thành phần thứ 1024 bảng, 10 bit từ dãy ghi phản hồ phi tuyến thường sử dụng để tạo địa giả ngẫu nhiên Độ lớn thành phần bảng phù hợp với phan bố biên độ thành phần từ hệ thống không câm (nonsilent) Một thành phần phổ dùng để phép thay thực trình mã hóa đưa thành phần vị trí chưa biết nhà phân tích mật mã 56 Quá trình giải mã sau: người nhận chuyên trở phổ đưa xen vào cách thăm dò thành phần dùng làm tín hiệu thay máy phát Nếu hệ thống silent (câm), lúc toàn phổ thay hệ silent Nói cách khác, 10 thành phần giả zero hóa Nếu tốc độ thử 8kHz sử dụng chọn N=265 mẫu hệ phân tích 197 thành phần phổ nằm khoảng có bang tần từ 300 đến 500 Hz Do có 6% (10 thành phần giả thành phần làm nhiệm vụ báo hiệu thành phần) thành phần phổ sẻ dụng biến Hiệu kỹ thuật dựa độ rõ dư thừa tiếng nói mã háo chất lượng tiếng nói khôi phục đánh giá cách sử dụng độ đo khoảng cách đối tượng Độ đo trình bày bảng 2.7 mà xác nhận rút gọn trung bình độ rõ dư thừa (coi kết thành phần đưa vào) Bảng cho ta biết suy giảm nhiều chát lượng tiếng nói khôi phục nhờ rút gọn thành phần biến đổi dùng để thể tiếng nói Sự suy giảm phát kiểm tra nghe Việc kiểm tra chứng minh rút gọn đột biến rong độ rõ dư thừa tiếng nói mã hóa Người ta lấy 30 người tham gia vào thí nghiệm bàn mục 2.8.1 hỏi ý kiến đẻ nhận râ số từ đến sau mã hóa theo lược đồ cải tiếng DCT Về trung bình, có 9,4% số nhận kết tương ứng điều gợi ý chứng minh độ rõ dư thừa thấp lược đồ mã hóa DCT cách đưa vào thành phần giả Việc công miền tần số cách dựa véc tơ [8], mô tả mục thực nhờ thực tế thành phần biến đổi giả có lượng cao Chính thành phần làm nhiều việc công đề xuất Khi việc công dùng để phân tích mã dùng lược đồ cải tiến DCT không thành công việc xác định vị trí gốc thành phần biến đổi Phân bố vị trí thành phần hạn chế việc công Việc sử dụng thuật toán mã hóa tiếng nói dựa phép biến đổi trực giao rời rạc xây dựng Đồng thời người ta đưa so sánh phép biến đổi trình sử dụng thuật toán mã hóa tiếng nói Việc so sánh dựa độ đo khoảng cách đối tượng thử trực tiếp nhóm người cụ 57 thể gồm nam lẫn nữ Kết tửh nghiệm cho thấy rằng: phép biến đổi DCT (Discrete Cosine Transform) tốt tiêu chuẩn chọn trước Kết lược đồ DCT tạo mã hóa tiếng nói với độ rõ dư thừa thấp (so với lược đồ nêu) tiếng nói có chất lượng cao sau giải mã Ngoài lược đồ DCT thực thuật toán nhanh, cho phép rút ngắn đáng kể số phép cộng phép nhân cần thiết tình tính toán Thủ tục cải tiến DCT không cho ta tiếng nói dã mã hóa (bản mã) với độ rõ dư thừa thấp mà gây khó khăn thêm cho việc công vào mã 2.10 Kết luận chương Trong chương đề tài nghiên cứu phương pháp mã hoá dạng sóng Phương thức đơn giản lượng tử riêng mẫu (có thể mẫu nguyên rời rạc hay mẫu sai số, mẫu chia khoảng) Dựa vào phép biết đổi FFT Trong PCM ADPCM 32kbps phương thức ưa chuộng đạt chất lượng tiếng nói mã hoá theo yêu cầu, nhiên chúng lại có điểm yếu băng tần truyền dẫn chiếm nhiều, để áp dụng cho mạng viễn thông với hệ thống đa dịch vụ tích hợp nhiều kênh dịch vụ, điều kiện cạnh tranh ngặt nghèo hãng giới buộc phải có phương thức mã hoá mang lại hiệu cao kinh tế, đảm bảo chất lượng theo từ “cạnh tranh kinh tế tư bản”, tảng để xây dựng lý thuyết viễn thông Phương thức nghiên cứu tham số nguồn tín hiệu tiếng nói cho ta tốc độ lập mã thấp đảm bảo chất lượng đặt Nhìn chung phương pháp mã hoá phương pháp “đưa ra”, chúng cần có nhiều cải tiến nữa, chưa ITU khuyến nghị thiết bị phần cứng cho mạng viễn thông chưa có Trong điều kiện Việt Nam tiêu chuẩn cho đánh giá chất lượng mã hoá thoại chưa có tiêu chuẩn nghành, ta chấp nhận sản phẩm đưa hãng chiếm thị phần lớn sảm phẩm cung cấp cho mạng viễn thông Việt nam, thể mặt thiết bị đầu cuối di động, VoiceIP, dịch vụ viễn thông qua vệ tinh Chính phân tích mà đưa cách chung thực việc đánh giá chất lượng mã hoá Quy trình đánh giá hệ thống mô tả theo giải thuật trang sau, Nhìn chung khó đưa tiêu chuẩn đánh giá 58 cách xãc chất lượng tín hiệu tiếng nói mã hoá theo phương thức hay hệ thống số cụ thể, tức muốn nói khả biểu diễn đại lượng giống đại lượng kg,m, pa đặc tính sinh học thính giác khác người, tức câu nói ta nhận đánh giá khác người khác nhau, giới tính độ tuổi khác khác nhau, đối tượng khoảng không gian thời gian khác khác Chính vậy, phạm vi đề tài em mạnh dạn đề xuất sử dụng hệ mật mã đối xứng để mã hoá nhằm tăng cường bảo mật thông tin truyền gói liệu qua lại (giữa người gửi người nhận) mạng viễn thông 59 Chương ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI 3.1 Các khái niệm quy ước Từ kết nghiên cứu phần chương 2, đề tài đề xuất triển khai Như trình bày, vòng lặp, thuật toán AES thực phép biến đổi nhằm biến đổi khối liệu rõ 128 bits thành khối liệu mã 128 bits ngược lại vòng lặp trình giải mã thực phép biến đổi ngược với trình lặp mã hóa nhằm biến khối liệu mã 128 bits thành khối liệu rõ 128 bits, thể hỉnh 3.1 Hình 3.1 Lưu đồ cấu trúc lặp thuật toán mã hóa AES 60 3.2 Sơ đồ luồng thực Tệp âm gốc Đọc tệp âm Tín hiệu âm (Miền Quá thời gian – liên tục) Áp dụng FFT rời trình rạc tín hiệu mã hóa Tín hiệu âm (Miền tần số – rời rạc) Mã hóa giải mã AES Tệp âm mã hóa Hình 3.2 Sơ đồ mã hoá tiếng nói AES - áp dụng FFT Như vậy, liệu đầu vào tệp âm sau biển đổi FFT chuyển vị từ dạng liên tục sang dạng số, chương trình sử dụng thuật toán AES (dùng độ dài khoá 128) để mã hoá Đầu dự liệu âm mã hoá dạng tín hiệu số 61 3.2.1 Chi tiết bước thực trình mã hóa Bước 1: Đọc tệp âm gốc (hiện hỗ trợ tập tin wav), âm đọc vào thành dạng tín hiệu số liên tục Bước 2: Áp dụng thuật toán FFT để rời rạc hóa tín hiệu số liên tục thành tín hiệu rời rạc Bước 3: Sử dụng thuật toán mã hóa AES để mã hóa tín hiệu lưu lại kết Quá trình giải mã thực ngược lại 3.2.2 Cấu trúc lớp chương trình 3.2.2.1 Lớp Encryption Lớp thực mã hóa giải mã sử dụng thuật toán AES 3.2.2.2 Lớp FFT Thực phép biến đổi FFT 3.3 Phương pháp thám Với thuật toán AES, trình giải mã phép biến đổi ngược với phép biến đổi trình mã hóa gọi InvSubBytes(ISB), InvMixColumns(IMC), InvShiftRows(ISR), với khóa khác biệt cho vòng Riêng AddRoundKey phép biến đổi thực phép toán XOR 62 theo bit nên biến đổi ngược phép biến đổi sử dụng trình mã hóa phép biến đổi AddRoundKey giống cho hai trình mã hóa giải mã Hình 3.3 Quy trình giải mã AES Nhưng với thuật toán AES việc thám mã thường khó thực hiện, thuật toán có kích thước khoá dài; theo nghiên cứu trước tính bảo mật hệ mã hóa đối xứng phụ thuộc chủ yếu vào hai yếu tố: Độ phức tạp thuật toán độ dài khóa Có nghĩa phương pháp để phá vỡ hệ thống mật mã cố gắng thử khóa có thể, gọi phương pháp vét cạn Nếu khóa có độ dài bit có 28= 256 khóa Như muốn tìm khóa nhiều 256 lần thử khóa Chẳng hạn, thuật toán DES sử dụng khóa có độ dài 56 bit nên có 256 khóa, số lớn việc tìm kiếm khóa khó khăn Giả sử có máy tính thử triệu khóa giây, cần 2000 năm để thử hết khóa Các thành tựu gần thời gian cần thiết để giải trang mã DES mà khoá là: Sau vài tháng Internet năm 1997; vài ngày thiết bị phần cứng tăng cường năm 1998; sau 22 kết hợp biện pháp năm 1999 Như đoán rõ sau khoảng thời định, có nguồn lực máy tính mạnh 63 Như vậy, thấy thám mã chủ yếu dựa vào công vét cạn để thám Với AES khác, "Thiết kế” độ dài khoá thuật toán AES (128, 192 256 bít) đủ an toàn để bảo vệ thông tin phối hợp tốt với công nghệ cứng việc bảo đảm an toàn thông tin nâng lên nhiều lần; vậy, với độ dài khoá 2128 việc công gặp nhiều khó khăn với thám mã hệ mã hoá khối chủ yếu sử dụng phương pháp chủ yếu sử dụng phương pháp: - Phương pháp công vét cạn; - Phương pháp thám mã vi sai; - Phương pháp thám mã tuyến tính Về thực qua bước sau: 3.3.1 Bước 1: Phân loại mã Giả sử, State’ sau nhận mã, ta phân tích mật mã phân loại State’ xem mã có loại mã pháp, có loại khoá mã Mặc dù chưa biết mã pháp (phương pháp mã hoá) điện đó, chúng phân loại (phân lớp) Đây bước quan trọng định thành công hay thất bại mã thám nên nhiều thời gian Nếu việc phân loại xác thuận lợi cho bước tiến hành Ngược lại, phân loại thiếu xác gây khó khăn cho bước sau đó, chí thất bại Người ta có nhiều phương pháp thực thi giai đoạn này, số áp dụng kỹ thuật phân lớp đối tượng Ý tưởng toán phân lớp sau: Giả sử ta nhận m mã M1, M2, , Mm với m $ Mỗi mã ta gọi đối tượng Tập hợp m mã (các đối tượng) ta ký hiệu G Vậy G = {M1, M2, , Mm} Ứng với đối tượng ta cần tìm đặc trưng tham số Giả sử đối tượng Mi có pi đặc trưng Ở đây, đơn giản, ta giả thiết p1 = p2 = = pm= p Vấn đề đặt phân tập hợp G thành k lớp không giao mà ta ký hiệu G1, G2, , Gk, k > cho: (i) Gi khác i = 1,k (ii) Gi Gj i khác j (iii) G1c G2c c YGk = G cho sai sót phân lớp bé Để thực việc phân lớp đối tượng ta cần đưa độ đo “khoảng cách” đối tượng Các đối tượng “gần gũi” gán cho lớp 64 3.3.2 Bước : Xác định mã pháp Sau hoàn thành việc phân lớp (phân loại mã pháp) bước 1, tiến hành xác định phương pháp mã dịch ứng với lớp cụ thể (cần ý rằng, thường tiến hành xác định mã pháp mã có nhiều đặc điểm theo quan điểm nhà thám mã) Đây khâu quan trọng công tác thám mã truyền thống Tuy nhiên số hệ mật đối xứng đại mã DES, 3DES, AES, IDEA, PGP bước coi bỏ qua từ đầu mã, người ta mã thuộc loại mã pháp Ở trình bày cách thức xác định mã pháp luật mã truyền thống (bước bỏ qua hệ mật mà thuật toán mã hoá - phương pháp mã - công khai hoàn toàn) Bước bao gồm công việc sau đây: 3.3.2.1 Tính tần số Mục đích việc tính tần số để phát tính quy luật không ngẫu nhiên tồn mã Có nhiều loại tần số khác cần tính, mà mã pháp tồn tính không ngẫu nhiên (có quy luật) đặc thù riêng cho Theo kinh nghiệm phân tích mà người ta tiến hành tính tần số loại phù hợp thông qua bộc lộ rõ tính quy luật (không ngẫu nhiên) mã Việc tính tần số thường gồm: - Tần số đơn: Tần số đơn tần số kí tự mã Sau có kết tính tần số đơn, ta tiến hành xếp lại thứ tự ký tự theo tần số từ cao đến thấp Cũng lập bảng tần xuất cách chia tần số ký tự cho độ dài mã cần tính để xem tần số tương đối chúng - Tần số đôi móc xích (concatenate frequency of pairs) Tần số đôi móc xích tần số đôi cặp kề đè lên ký tự Mục đích việc tính tần số đôi móc xích để xem quan hệ phụ thuộc ký tự sau với ký tự kề trước nào, (ta thường gọi quan hệ xích Makov cấp 1) Từ ước lượng xác suất xuất ký tự biết trước ký tự đứng trước - Tần số đôi thường: Tần số đôi thường tần số đôi rời nhau, ví dụ: cho đoạn văn : Việt Nam tần số đôi thường gồm: 65 Vi: xuất lần e e: xuất lần t j: xuất lần n a: xuất lần Ký tự cuối bỏ qua (chỉ gồm có đôi) Trong đó, tần số đôi móc xích thể là: Vi, ie, ee, et, tj, jn, na, am gồm đôi Lưu ý: - Số tất đôi móc xích văn độ dài n n – - Còn số tất “bộ đôi thường” là: [n)2], ký hiệu [x] số nguyên lớn bé x - Tần số 3, 4, Tuỳ theo trường hợp cụ thể phải tính tần số 3, 4, 3.3.2.2 Tính trùng mã Tính trùng mã tức tính tần số trùng lặp dãy ký tự liền mã Thường tính trùng lặp ký tự (bộ 3), ký tự (bộ 4), ký tự (bộ 5) xuất mã vị trí chúng mã Khi tính trùng mã (các bộ) ta phải quan tâm tham số sau đây: Tần số trùng mã (trùng lặp) Độ dài trùng lặp Vị trí trùng lặp Khoảng cách trùng lặp Trùng mã mã mã khác Những tham số có ích việc xác định mã pháp 3.3.2.3 Tần số định kỳ: Ngoài việc tính tần số đơn, đôi móc xích, đôi thường v.v trùng mã (sự trùng lặp) mã mã, nhiều trường hợp người ta phải tính tần số định kỳ Giả sử ta có mã M độ dài n Thường n lớn lớn tốt Bây ta lập bảng k cột (k $ thường k $ 3) n/k hàng Sau đó, ta viết mã trái qua phải viết từ xuống hết dừng Bây ta tiến hành tính tần số đơn theo cột từ cột đến cột k Như ta thường phải tính toán tần số “định kỳ” khác k = 3, 4, , 10 Tần số gọi tần số định kỳ Trong nhiều trường hợp tần số đơn, đôi, 66 mã tương đối san (tức không vi phạm tiêu chuẩn 3s c2) tần số định kỳ lại có quy luật rõ 3.3.2.4 Tần số đôi dọc đôi dọc đồng tự Nếu ta viết mã mã mã Ví dụ mã M1=m11,m12 m1n1 M2=m21m22 m2n2 Ta có: M1=m11m12m13 m1n1 M2=m21m22m23 m2n1 m2n2 Ta cắt phần thừa m2n1+1, m2n2 (giả sử n1 < n2), ta ký hiệu độ dài hai mã lại n Ta tiến hành tính tần số cặp (m1k m2k), với k = 1, 2, n Ta có tần số đôi bảng gọi bảng tần số đôi dọc Các phần tử đường chéo ma trận tần số đôi tạo từ M1, M2 tần số đôi dọc đồng tự 3.3.2.5 Phân tích kết tính tần số trùng mã Bước dựa vào kết tính loại tần số, trùng mã để kết luận mã (các mã) thuộc loại mã pháp Để đánh giá độ chênh lệch tần số tính độc lập ký tự mã, người ta thường dùng tiêu chuẩn thống kê toán học, chẳng hạn tiêu chuẩn 3s, tiêu chuẩn c2 tiêu chuẩn MLR (Most Likelihood Ratio- tỷ số hợp lý cực đại) Nói chung việc xác định mã pháp công việc phức tạp, phụ thuộc phần vào trình độ kinh nghiệm mã thám viên Có nhiều trường hợp thoáng nhìn mã người ta dự đoán phương pháp mã có nhiều trường hợp phải nghiên cứu công phu mà độ rủi ro 3.3.2.5 Xác định ngôn ngữ dùng: Đây bước giúp cho việc thám mã đột phá thành công 67 3.4 Đề mô chương trình 68 KẾT LUẬN Trong đề tài luận văn mình, em tập trung giải vấn đề mã hoá tiếng nói là: Tìm hiểu tiếng nói xử lý tiếng nói Tìm hiểu cách tiếp cận mã hoá tiếng nói Tập trung phân tích phương pháp thám mã tiêng nói: Tấn công vào mã tiếng nói cho trước từ giả định Tấn công mã đoạn tiếng nói gốc cho trước Tấn công mã công hoán vị bị thay đổi Phép biến đổi FFT Trong phần luận văn đề tài, em mạnh dạn đề xuất sử dụng hệ mật mã đối xứng AES để mã hoá tiếng nói Hạn chế luận văn em việc sử dụng thuật toán mã hoá nâng cao AES, tăng tính bảo mật trình mã hoá làm chế đề tài việc tiến hành thám mã Cuối cùng, lần cho phép em cảm ơn Thầy Tiến sỹ Hồ Văn Canh tận tình bảo em kiến thức tạo điều kiện thuận lợi để em hoàn thành đề tài tốt nghiệp 69 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Viết Thế, Hồ Văn Canh: Nhập môn Phân tích thông tin có bảo mật NXB Thông tin Truyền thông, năm 2010 [2] Chuyên khảo tiếng nói - Vụ nghiên cứu khoa học - Ban yếu phủ, năm 2003 [3] Đặng Ngọc Đức, Nguyễn Tiến Dũng, Lương Chi Mai (2011), Mô hình phiên âm tiếng Việt mức âm vị Tiếng Anh: [4] Filer, T Fridrich, J Goljan, M : “Using Senser Pattern Noise for Camara Model Identification” In: Proc ICIP 2008, San Diego, pp 1286 - 1299 (2008) [5] Kratzen, C Oermanm, Am Dittmanm, J Larg, A : “Digital Audio Forensics” In: 9th Wordshop on Multimedia & Security, pp 63 - 74 ACM New York (2007) [6] Rabiner : “Digital Processing (2008).” [7] Robert Bucholz, Christian Kraetxer, and Jana Dittman: “Microphone Classification Using Fourier Coeffciant” PO Box 4120, 39016 Magdeburg, Germany, 2009 [8] Simon singh: “The Code Book (2008)” Internet: [9] https://www.univie.ac.at/nuhag-php/janssen/data/p019.pdf [10] https://en.wikipedia.org/wiki/Fast_Fourier_transform [11] http://hdl.handle.net/123456789/654