Ngày nay,cùng với sự phát triển của khoa học kĩ thuật thì việc liên lạc trao đổi thông tin của con người trở nên dễ dàng hơn bao giờ hết. Đặc biệt, việc liên lạc qua điện thoại đã trở nên phổ biến, chúng ta có thể nói chuyện với bất kì ai ở bất cứ nơi đâu.Nhưng trong một số trường hợp, chất lương cuộc hội thoại không như ta mong muốn. Ví dụ như ta đứng ở nhà ga, bến tàu, trên đường phố hoặc những nơi đông người thì việc nói chuyện qua điện thoại gặp khá nhiều khó khăn do ảnh hưởng của những tiếng ồn xung quanh.Vì vậy mục đích của đồ án này là: xử lý để loại bỏ tối đa tiếng ồn (nhiễu) xung quanh, giữ chất lượng tín hiệu tiếng nói mà ta muốn truyền đạt. Bộ lọc Kalman ( tên được đặt theo nhà nghiên cứu Rudolf (Rudy) E. Kálmán ) được chọn làm công cụ để giải quyết vấn đề trên. Để thực hiện mục đích nâng cao chất lượng tín hiệu tiếng nói sử dụng bộ lọc Kalman thì đồ án được cấu trúc theo các phần sau:Phần đầu, chúng ta sẽ tìm hiểu về tín hiệu tiếng nói cách hình thành tiếng nói và các mô hình phân tích tiếng nói, đặc biệt phần này sẽ đề cập đến việc nâng cao chất lượng tiếng nói cũng như các thuật toán được sử dụng hiện nayBộ lọc Kalman, phần này sẽ cho chúng ta thấy rõ hơn về bộ lọc Kalman, thuật toán, các phương trình của bộ lọc đồng thời cũng nêu ra ưu điểm và nhược điểm khi sử dụng bộ lọc KalmanPhần cuối sẽ thực hiện giảm nhiễu trong các cuộc hội thoại bằng thuật toán của bộ lọc Kalman. Đồng thời phân tích đánh giá kết quả thông qua phương pháp MOS
Trang 1CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN Kính gửi : Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử - Viễn
thông Trường Đại học Bách Khoa Đà Nẵng
Em tên là : Nguyễn Đỗ Duy Hải
Hiện đang học lớp 08DT3_ Khoa Điện tử - Viễn thông _Ttrường Đại Học Bách Khoa Đà Nẵng
Em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất
cứ đồ án hoặc công trình đã có từ trước Nếu vi phạm em xin chịu mọi hình thức kỷ luật của Khoa
Sinh viên thực hiện
Nguyễn Đỗ Duy Hải
Trang 2DANH MỤC CÁC TỪ VIẾT TẮT
Trang 3MỤC LỤC
Trang 4LỜI MỞ ĐẦU
Ngày nay,cùng với sự phát triển của khoa học kĩ thuật thì việc liên lạc trao đổithông tin của con người trở nên dễ dàng hơn bao giờ hết Đặc biệt, việc liên lạc quađiện thoại đã trở nên phổ biến, chúng ta có thể nói chuyện với bất kì ai ở bất cứ nơi đâu.Nhưng trong một số trường hợp, chất lương cuộc hội thoại không như ta mong muốn Ví dụ như ta đứng ở nhà ga, bến tàu, trên đường phố hoặc những nơi đông người thì việc nói chuyện qua điện thoại gặp khá nhiều khó khăn do ảnh hưởng củanhững tiếng ồn xung quanh
Vì vậy mục đích của đồ án này là: xử lý để loại bỏ tối đa tiếng ồn (nhiễu) xung quanh, giữ chất lượng tín hiệu tiếng nói mà ta muốn truyền đạt Bộ lọc
Kalman ( tên được đặt theo nhà nghiên cứu Rudolf (Rudy) E Kálmán ) được chọn làm công cụ để giải quyết vấn đề trên Để thực hiện mục đích nâng cao chất lượng tín hiệu tiếng nói sử dụng bộ lọc Kalman thì đồ án được cấu trúc theo các phần sau:
- Phần đầu, chúng ta sẽ tìm hiểu về tín hiệu tiếng nói cách hình thành tiếngnói và các mô hình phân tích tiếng nói, đặc biệt phần này sẽ đề cập đến việc nâng cao chất lượng tiếng nói cũng như các thuật toán được sử dụnghiện nay
- Bộ lọc Kalman, phần này sẽ cho chúng ta thấy rõ hơn về bộ lọc Kalman, thuật toán, các phương trình của bộ lọc đồng thời cũng nêu ra ưu điểm vànhược điểm khi sử dụng bộ lọc Kalman
- Phần cuối sẽ thực hiện giảm nhiễu trong các cuộc hội thoại bằng thuật toán của bộ lọc Kalman Đồng thời phân tích đánh giá kết quả thông qua phương pháp MOS
Trang 5CHƯƠNG 1: TÍN HIỆU TIẾNG NÓI 1.1 Giới thiệu chương
Nội dung của chương trình bày sơ lượt về tín hiệu tiếng nói, cách hình thành,
mô hình phổ biến để biểu diễn, phân tích và xử lý tín hiệu tiếng nói.Bên cạnh đó, chương này còn khái quát mục đích của nâng cao chất lượng tiếng nói và các phương pháp sử dụng để nâng cao chất lượng tín hiệu tiếng nói hiện nay
1.2 Tín hiệu tiếng nói
1.2.1Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo biến thời gian t Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theobiến độc lập Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu nhưtrong hai ví dụ vừa nêu trên.Lấy ví dụ tín hiệu tiếng nói - đó là sự biến thiên của
áp suất không khí theothời gian Chẳng hạn khi ta phát âm từ "away", dạng sóng của nó được biểu diễn như hình sau
Trang 6Hình 1.1 Dạng sóng khi phát âm từ “away”
1.1.2Tín hiệu tiếng nói
Mục đích của tiếng nói là truyền thông tin.Để xét quá trình thông tin tiếng nói,đầu tiên nên coi thông báo như một dạng trừu tượng nào đó trong óc người nói.Qua quá trình phức tạp tạo âm, thông tin trong thông báo này được chuyển trực tiếp thànhtín hiệu âm học Thông tin thông báo có thể được biểu diễn dưới một số dạng khác nhau trong quá trình tạo tiếng nói Chẳng hạn, thông tin thông báo lúc ban đầu đƣợcchuyển thành tập hợp các tín hiệu thần kinh điều khiển cơ chế phát âm (đó là
chuyển động của lưỡi, môi, dây thanh âm, v v ) Bộ máy phát âm chuyển động tương ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc
Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được "số hóa", và do đó
xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số vàxử lý ngôn ngữ tự nhiên
Trang 71.1.3Biểu diễn tín hiệu tiếng nói
1.1.3.1 Biểu diễn bằng dạng sóng theo thời gian
Phần tín hiệu ứng với âm vô thanh là không tuần hoàn, ngẫu nhiên và có biên
độ hay năng lượng nhỏ hơn của nguyên âm.Ranh giới giữa các từ là các khoảng lặng(Silent) Ta cần phân biệt rõ các khoảng lặng với âm vô thanh
Hình 1.2 Dạng sóng của tín hiệu âm thanh trong miền thời gian
Âm thanh được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz Độ phân giải hay còn gọi là số bít trên mỗi mẫu là 8 hoặc 16 bít và sô kênh là 1 (Mono) hoặc 2 (Stereo)
Như vậy, dữ liệu lưa trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này được thể hiện rõ nét trong các hình vẽ sau:
Trang 8Hình 1.3: Tín hiệu tiếng nói thu từ hai micro khác nhau
1.1.3.2Biểu diễn bằng phổ tín hiệu tiếng nói
Dải tần số của tín hiệu âm thanh nằm trong khoảng tần số từ 0Hz đến 20KHz, tuy nhiên phần lớn công suất nằm trong dải tần số từ 0,3KHz đến 3,4KHz
Hình 1.4: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian
1.1.3.3Biểu diễn bằng ảnh phổ
Để biểu diễn ảnh phổ(spectrogram) của tín hiệu ta tiến hành chia tín hiệu thành các khung(frame) ứng với độ dài cửa sổ thông thường khoảng 10ms.Tín hiệu trên các khung đuợc lấy mẫu với tần số lấy mẫu Fs, nếu tần số lấy mẫu là 16000Hz thì ta
sẽ có được 16 mẫucho 1ms và có được 160 mẫu cho một khung Các khung này
Trang 9được chọn theo hai hàm cửa sổ thông dụng là hamming hoặc hanning có độ chồng lấn hai biên khoảng 40%(4ms)
Hình 1.5 Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu
đã được cải thiệnẢnh phổ được tạo bằng cách vẽ phổ của các khung tín hiệu trên trục thẳng đứng, trong spectrogram thì thời gian và tần số tương ứng với các trục ngang và dọc, còn biên độ phổ được biểu diễn bằng độ đậm nhạc của màu sắc, ảnh phổ là kết quả ghép nối của các khung phổ
1.2Nâng cao chất lượng tiếng nói (Speech enhancement)
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu bằng cách sử dụng các công cụ xử lý tín hiệu
Có rất nhiều yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích Chính vì vậy
Trang 10mà các thuật toán trong nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng.Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng
lái.Vìvậy mà việc nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc quân sự
Speech enhancementlà một phần của xử lý tiếng nói mà mục đích là cải thiện tính dễ nghe của tín hiệu tiếng nói.Cách tiếp cận phổ biến nhất trong Speech
enhancement là loại bỏ nhiễu, bằng cách dự đoán các đặt điểm của nhiễu, sau đó loại bỏ thành phần nhiễu chỉ giữ lại tín hiệu sạch Nhưng vấn đề cơ bản của phươngpháp này là nếu trong tín hiệu có những thành phần có đặt điểm tương tự nhiễu nhưng lại là thành phần hữu ích thì khi ta loại bỏ nhiễu, vô hình chung ta cũng loại
bỏ những thành phần đó và làm méo dạng tín hiệu Do đó, các phương pháp Speechenhancement phải cân bằng giữa việc loại bỏ nhiễu và mức độ biến dạng của tín hiệu tiếng nói
Thông thường các thuật toán xử lý tiếng nói có thể chia làm ba loại chính: Thuật toán trừ phổ (spectral subtraction), phép phân tích không gian con (sub-spaceanalysis) và các thuật toán lọc (filtering algorithms):
• Spectral subtraction (SS): hay còn gọi là trừ phổ là một
thuật toán giảm nhiễu đơn giản nhất Nó dựa trên nguyên
lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu cónhiễu bằng cách thu nhiễu khi không có sự hiện diện của tín hiệu Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởngthì nó là tín hiệu sạch SS lúc ban đầu được đề xuất bởi
Trang 11Weiss trong miền tương quan, và sau đó được đề xuất bởi Boll trong miền chuyển đổi Fourier
• Sub-space analysis :Thuật toán này dựa trên lý thuyết số
học tuyến tính và hoạt động dựa trên nguyên tắc tín hiệu sạch phải được đưa vào một không gian con của không gian nhiễu Euclidean Sau đó, người ta đưa ra một phương pháp để phân rã không gian vector của tín hiệu nhiễu thànhhai không gian con khác nhau gồm một không gian con được chiếm dụng bởi tin hiệu sạch và một không gian con được chiếm dụng bởi nhiễu Thuật toán này ban đầu được xây dựng bởi Dendrinos và sau này được phát triển bởi Ephraim và Van Trees
• Filtering algorithms : Các thuật toán lọc là các phương
pháp sử dụng trong miền thời gian mà mục đích là cố gắngloại bỏ thành phần nhiễu (Wiener filtering) hay ước lượng nhiễu và thành phần tiếng nói gần như là bộ lọc (Kalman filtering)
Có một thuật toán quan trọng để nâng cao chất lượng tiếng nói thuộc nhóm các phương pháp tham số mà tín hiệu tiếng nói được mô hình hóa như một quá trình tự hồi qui (autoregressive) được gắn trong nhiễu Gaussian
Thuật toán nâng cao chất lượng tiếng nói loại này gồm hai bước :
• Ước tính các hệ số AR (Autoregressive) và phương sai nhiễu(sửdụng phương pháp dự đoán tuyến tính)
• Áp dụng bộ lọc Kalman bằng cách sử dụng các thông số đã ướctính để dự đoán tín hiệu sạch từ tín mẫu tín hiệu bị nhiễu
1.3Mô hình tiếng nói
Các mô hình nghiên cứu tiếng nói cho chúng ta thấy cách thức con người tạo
ra tiếng nói Ngày nay, có rất nhiều thiết bị tương tác với chúng ta qua ngôn ngữ của con người, và âm thanh chúng phát ra càng giống với con người càng tốt Do
Trang 12đó, nhiều công trình nghiên cứu ra đời với mục đích tìm ra mô hình tốt nhất mô tả
cơ chế phát ra tiếng nói (hình 1.6)
Hình 1.6: Mô hình phát ra tiếng nóiĐầu tiên, với mô hình này chúng ta có thể quyết định được âm thanh phát ra
là vô thanh hay hữu thanh Đối với âm hữu thanh, chúng ta có mô hình phát xung thanh hầu tương tự như phát trong thanh quản.Đối với âm vô thanh, tín hiệu được phát ra giống như tiếng ồn, tương như tín hiệu mà ta có thể thấy trong các phụ âm.Sau đó, tín hiệu phát ra đi qua đường âm thanh (vocal tract) Ở phần này, chúng ta lọc tín hiệu với bộ lọc mà cố gắng để mô phỏng theo hiệu ứng hình học của âm thanh trong khoang mũi, khoang họng Cuối cùng là mô hình phát xạ khôngkhí ra khỏi miệng tạo thành tiếng nói
1.3.1Cơ chế sản xuất tiếng nói
Các thành phần chính trong hệ thống tạo tiếng nói (hình 1.7) là phổi, khí quản, dây thanh quản, khoang họng, khoang miệng và khoang mũi
Khi chúng ta hít thở, không khí đi vào phổi sau đó được đẩy ra khí quản làm dây thanh quản rung động.Không khí gần như điều chế thành các xung tuần hoàn với một tần số nào đó khi chúng đi qua cổ họng, khoang miệng hoặc mũi Tùy thuộc vào vị trí của lưỡi, hàm, răng, môi mà chúng ta tạo thành các âm thanh khác nhau
Trang 13Hình 1.7: Các bộ phận tao tiếng nói
Hình 1.8: Mô hình đơn giản của việc tạo tiếng nói
Trang 14Con người sử dụng ngôn ngữ gần như vô thức mà không cần chú ý đến việc làm thế nào để nảo xử lý những thông tin Có một số lượng lớn các cơ quan tham gia vào quá trình này.Lời nói xuất phát từ suy nghĩ, ý định giao tiếp trong não.Não kích các cơ hoạt động và phát ra tiếng nói.Người nghenhận âm thanh thông qua thính giác, chuyển âm thanh thành tín hiệu thần kinh mà não có thể hiểu được Người nói liên tục giám sát và điều khiển các cơ quan tạo tiếng nói bằng cách nhận lại chính âm thanh của họ như một tín hiệu phản hồi.
Hình 1.9: Mô hình phát, thu tiếng nói
1.3.2Phương pháp dự đoán tuyến tính (Linear prediction-LP)
Phương pháp này mang lại ưu thế vượt trội cho việc ước lượng các thông số
cơ bản của tiếng nói như độ cao, phổ… và mã hóa bit thấp để truyền dẫn và lưu trữ.Điều quan trọng của phương pháp này là khả năng ước lượng các thông số một cách chính xác và mối liên hệ trong việc tính toán tín hiệu tiếng nói
Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tín hiệu tiếng nói có thể xấp xỉ với một mẫu trước đó.Bằng việc tối thiểu hóa tổng bình phương sai số giữu mẫu thực và mẫu dự đoán, các hệ số dự đoán sẽ quyết định việctối thiểu hóa này.yn là tín hiệu đầu ra của một hệ thống xem như chưa biết tín hiệu đầu vào xn với quan hệ :
Trang 15G là tham số của hệ thống giả định Từ phương trình (1.1) ta có thể thấy yn là tổ hợp tuyến tính của những mẫu trước đó tại đầu ra và những mẫu hiện tại và quá khứ của tín hiệu đầu vào xn Và có thể nhận thấy yn có thể được dự đoán từ tổ hợp tuyến tính của quá khứ và hiện tại của đầu ra và đầu vào.
Thực hiện biến đổi Z phương trình (1.1) Nếu H(z) là hàm truyền đạt của hệ thống thì:
Có hai mô hình đặc biệt:
• Mô hình toàn không : ak =0; 1≤
Với ak là hệ số dự đoán, p là bậc của hệ thống và dấu trừ để tiện cho việc tính toán Sai số dự đoán được định nghĩa là e(n):
Trang 16Trong đó yn là tín hiệu gốc, a0=1 Vấn đề đặt ra là làm sao cho sai số dự đoán nhỏ lànhỏ nhất, gần tiến đến không (giá trị này thể hiện chất lượng bộ dự đoán) Nếu chúng ta biểu thị tổng bình phương lỗi bằng E thì:
Để E nhỏ nhất thì :
Để ước lượng được tối ưu thì ta tìm các giá trị ai sao cho E đạt cực tiểu Có nhiều
đề xuất cho giải thuật tìm các hệ số ai như phương pháp tự tương quan, phương pháp đồng phương sai… tuy nhiên phương pháp tự tương quan với giải thuật Durbin hay được dùng hơn cả và nó phù hợp viết chương trình cho vi xử lý
Với
là hàm tự tương quan của yn Do đó ta có thể nhận xét R(-i) =R(i)
Các hệ số R(i-k) tạo thành ma trận tự tương quan hay ma trận đối xứng có dạng:
Chương này đã trình bày mục đích của nâng cao chất lượng tiếng nói là loại bỏ đến mức thấp nhất các thành phần nhiễu trong tín hiệu tiếng nói đã bị nhiễu bằng các phương pháp như: thuật toán trừ phổ (spectral subtraction), phép phân tích không gian con (sub-space
Trang 17analysis) hay các thuật toán lọc (filtering algorithms) Ngoài ra chương này cũng cho ta thấy được mô hình phân tích tiếng nói và cơ chế tạo tiếng nói, đồng thời cũng giới thiệu sơ lượt về phương pháp dự đoán tuyến tính.
Trang 18CHƯƠNG 2: BỘ LỌC KALMAN 2.1 Giới thiệu chương
Năm 1960 R.E Kalman xuất bản một bài báo nổi tiếng mô tả về một giảipháp đệ quy để giải quyết vấn đề bộ lọc tuyến tính dữ liệu rời rạc Kể từ đó, do cónhững ưu điểm lớn trong tính toán, bộ lọc Kalman là một chủ đề nhận được ngàycàng nhiều nghiên cứu và ứng dụng, đặc biệt trong các hệ thống định vị, dẫnđường
Bộ lọc Kalman là một tập hợp các phương trình toán học nhằm cung cấp mộtphương pháp tính toán hồi quy hiệu quả để ước lượng trạng thái của một quá trình,
theo cách tối thiểu hóa giá trị trung bình của bình phương độ lỗi (phương sai: mean squared error) Bộ lọc rất hiệu quả trên các khía cạnh sau: Nó cho phép ước lượng
trạng thái quá khứ, hiện tại thậm chí cả tương lai, và bộ lọc có thể hoạt động ngay
cả khi độ chính xác thực sự của mô hình hệ thống là chưa biết
Chương này sẽ trình bày sơ lượt về lý thuyết ước lượng, mô hình toán học của
bộ lọc Kalman cũng như những ưu điểm và nhược điểm của bộ lọc này
2.2 Lý thuyết về ước lượng
Trang 192.2.2 Đánh giá chất lượng
Một ước lượng là một giá trị x được tính toán trên một mẫu được lấy một cách
ngẫu nhiên, do đó giá trị của x là một biến ngẫu nhiên với kì vọng E(x) và phương sai V(x) Nghĩa là giá trị x có thể dao động tùy theo mẫu thử, nó có ít cơ hội để có thể bằng đúng chính xác giá trị X mà nó đang ước lượng Mục đích ở đây là ta muốn có thể kiểm soát sựsai lệch giữa giá trị x và giá trị X
Một biến ngẫu nhiên luôn dao động xung quanh giá trị kì vọng của nó Ta muốn là kì
vọng của x phải bằng X Khi đó ta nói ước lượng là không chệch(unbiased)
Ta cũng muốn là khi mẫu thử càng rộng, thì sai lệch giữa x và X càng nhỏ Khi đó
ta nói ước lượng là hội tụ(converge) Định nghĩa theo ngôn ngữ toán học là như
sau: (xn) hội tụ nếu với mọi số thực dương (xác suất để sai lệch với giá trị thực cần ước lượng lớn hơn tiến về 0 khi kích cỡ của mẫu thử càng lớn)
Biến ngẫu nhiên dao động quanh giá trị kì vọng của nó Nếu phương sai V(x) càng bé, thì sự dao động càng yếu Vì vậy ta muốn phương sai của ước lượng là
nhỏ nhất có thể.Khi đó ta nói ước lượng là hiệu quả (eficient).
Cuối cùng, trong quá trình điều tra, có thể xuất hiện một giá trị "bất thường" (ví dụ có trẻ 10 tuổi nhưng cao 1,80 m) Ta muốn giá trị bất thường này không ảnh
hưởng quá nhiều đến giá trị ước lượng Khi đó ta nói ước lượng là vững
(robust).Có thể thấy trung bình tích lũy trong ví dụ về chiều cao trung bình trẻ 10
tuổi không phải là một ước lượng vững
2.2.3 Kỳ vọng (Expectation)
Định nghĩa: Giả sử � là đại lượng ngẫu nhiên rời rạc có thể nhận các giá trị
x1,x2… ,xn với các xác suất tương ứng P1, P2, …., Pn
Khi đó kỳ vọng của X, ký hiệu là (�) hay � được xác định bởi công thức
Nếu � là đại lượng ngẫu nhiên liên tục có hàm mật độ xác suất là (�) thì kỳ vọng
Trang 20Ý nghĩa: Kỳ vọng của một đại lượng ngẫu nhiên chính là giá trị trung bình
(theo xác suất) của đại lượng ngẫu nhiên đó Nó là điểm trung tâm của phân phối
mà các giá trị cụ thể của X sẽ tập trung quanh đó
2.2.4 Phương sai (Variance)
Định nghĩa :Phương sai (trung bình bình phương độ lệch) của đại lượng ngẫu
nhiên X, ký hiệu ���(�) hay �(�) được xác định bởi công thức:
Nếu � là đại lượng ngẫu nhiên rời rạc có thể nhận các giá trị x1,x2… ,xn với các xácsuất tương ứng P1, P2, …., Pn thì:
Nếu X là đại lượng ngẫu nhiên liên tục có hàm mật độ xác suất là (�) thì:
2.5)Trong thực tế ta thường tính phương sai bằng công thức:
Trang 21Tính chất:
•
•
• Nếu X,Y là hai biến ngẫu nhiên độc lập thì:
Ý nghĩa: là độ lệch khỏi giá trị trung bình Do đó phương sai (�) gọi là trung
bình bình phương độ lệch Nên phương sai phản ánh mức độ phân tán của các giá trị của đại lượng ngẫu nhiên quanh giá trị trung bình hay kỳ vọng Đại lượng ngẫunhiên có phương sai càng lớn thì giá trị càng phân tán và ngược lại
2.2.5 Độ lệch chuẩn
Định nghĩa: Độ lệch chuẩn của đại lượng ngẫu nhiên X, ký hiệu (�) được xác định bởi công thức:
2.2.6 Hiệp phương sai (Covariance)
Cho hai biến ngẫu nhiên X và Y lần lượt có kỳ vọng là µx và µy, ta có định nghĩa hiệp phương sai X và Y, ký hiệu Cov(X,Y):
Một công thức tương đương của hiệp phương sai:
Ý nghĩa : hiệp phương sai là sự biến thiên cùng nhau của 2 biến ngẫu nhiên,
nếu 2 biến có xu hướng thay đổi cùng nhau (nghĩa là khi một biến có giá trị cao hơn kỳ vọng thì biến kia cũng có xu hướng cao hơn kỳ vọng), thì hiệp phương sai của hai biến này có giá trị dương Mặt khác, nếu một biến nằm trên giá trị kỳ vọng còn biến kia có xu hướng nằm dưới giá trị kỳ vọng, thì hiệp phương sai của hai biến có giá trị âm
Nếu 2 biến ngẫu nhiên là độc lậpthì , tuy nhiên điều ngược lại không đúng Các biến ngẫu nhiên mà có hiêp phương sai bằng 0 được gọi là không tương quan (uncorrelated), chúng có thể độc lập nhau hoặc không
Như vậy nếu X,Y độc lập ta có
Trang 222.2.7Ma trận hiệp phương sai
Như chúng ta vừa trình bày, hiệp phương sai là đại lượng tính toán sự tương quan giữa 2 biến ngẫu nhiên
Vậy giả sử chúng ta có một vector biến ngẫu nhiên có 3 phần tử X1 , X2 , X3 Nếu ta muốn tính toán sự tương quan giữa tất cả các cặp biến ngẫu nhiên thì ta phải tính tất cả 3 hiệp phương sai
Một cách tổng quát, ma trận hiệp phương sai đã ra đời để cho phép ta tính tất
cả các ��� giữa 2 biến ngẫu nhiên trong một vector biến ngẫu nhiên
Cho một vector biến ngẫu nhiên X chứa n biến ngẫu nhiên, ma trận hiệp phương sai của X, ký hiệu là ∑, được định nghĩa là:
Với
Quan sát trên đường chéo của ma trận hiệp phương sai (i=j) ta thấy tại đó là các phương sai, vì
2.2.8Phân phối chuẩn (phân phối Gaussian)
Trong thực tế, người ta thường sử dụng phân phối xác suất có tên là phân phốichuẩn (normal distribution) hay phân phối Gaussian
Một biến ngẫu nhiên X được gọi là có phân phối Gaussian khi nó có hàm mật độ làhàm Gaussian, ký hiệu là �~(�, �) gọi là X có phân phối chuẩn với tham số �, � Khi đó hàm mật độ của X là:
Trang 23Với phân phối xác suất như trên, người ta tính được �, lần lượt là kỳ vọng và độ lệch chuẩn của X Dưới đây là đồ thị của một số phân phối chuẩn
Hình 2.1: Đồ thị một số phân phối chuẩn
Quan sát đồ thị ta thấy phân phối chuẩn có dạng chuông Giá trị kỳ vọng của X là � = là trục đối xứng Độ lệch chuẩn �(hay phương sai ) càng lớn thì đồ thị càng bẹt, nghĩa là các giá trị càng phân tán ra xa kỳ vọng
Trong thực tế, các loại nhiễu trong các hệ thống đo lường có thể được mô phỏng một cách chính xác bằng nhiễu trắng cộng Hay nói cách khác tạp âm trắng Gaussian là loại nhiễu phổ biến nhất trong hệ thống đo lường Loại nhiễu này có mật độ phổ công suất đồng đều trên miền tần số và biên độ tuân theo phân bố Gaussian Theo phương thức tác động thì nhiễu Gaussian là nhiễu cộng Vậy các hệthống đo lường phổ biến chịu tác động của nhiễu Gaussian trắng cộng (AWGN)
Trang 24Hình 2.2: Nhiễu Gaussian
2.2.9 Ước lượng của trung bình và phương sai
Ta chọn ngẫu nhiên n cá thể trong một dân số gồm N cá thể Ta quan tâm đếnđặc trưng định lượng Y của dân số với trung bình và phương sai V(Y) Trong mẫu đó, đặc trưng Y có trung bình và phương sai đo được lần lượt là Lưu ý là các giá trị thay đổi tùy theo mẫu thử, do đó chúng là các biến ngẫu nhiên với trung bình và phương sai riêng khác nhau
Ước lượng trung bình của Y: Thông thường trung bình của Y, tức là được ước lượng bởi: , còn được gọi là trung bình tích lũy (hay trung bình cộng) Người tachứng minh được đây là ước lượng không chệch (unbiased), nghĩa là
Ước lượng phương sai của Y: là một ước lượng của V(Y), nhưng là ước lượng không đúng, người ta cũng chứng minh được kì vọng của luôn nhỏ hơn V(Y), tức ước
lượnglượng là thiếu Các ước lượng đúng của V(Y) là:
-Trường hợp lấy mẫu có hoàn lại:
- Trường hợp lấy mẫu không hoàn lại
: