MỤC LỤC
Mặc dù những kiến thức về đo lượng thông tin đã được sử dụng một thời gian, song người đã gom góp tất cả mọi thứ lại thành một lĩnh vực được gọi là lý thuyết thông tin (information theory) là Claude Elwood Shannon, một kĩ sư điện ở phòng thí nghiệm Bell. Nếu chúng ta cần phải phân biệt giữa hai phương trình đó, thì chúng ta sẽ gọi đại lượng được tính toán theo phưong trình (2.11) là entropy bậc nhất (first-order entropy) của nguồn, trong khi đại lượng theo phương trình (2.9) được gọi là entropy của nguồn.
Do những từ mã này tương ứng với những kí tự xác suất thấp nhất trong bảng kí tự, nên sẽ không có một từ mã nào khác có thể dài hơn những từ mã này; vì vậy, sẽ không có nguy cơ là từ mã ngắn hơn sẽ trở thành tiền tố của từ mã khác nào đó. Mã Huffman này đối với bất kì kí tự nào có thể thu được bằng cách di chuyển trên cây từ nút gốc đến lá tương ứng với kí tự, cộng bit 0 tới từ mã mỗi lần chúng ta đi qua một cành cao hơn, và bit 1 mỗi lần đi qua cành thấp hơn. Tuy nhiên, có những trường hợp ở đó bảng chữ là nhỏ và xác suất xảy ra của những kí tự khác nhau rất lệch, giá trị của pmax có thể khá lớn và mã Huffman có thể trở nên khá không hiệu quả khi so sánh với entropy.
Trong mã hoá số học, phải tạo ra một bộ nhận dạng duy nhất hay một nhãn (tag)cho chuỗi được mã hoá. Nhãn này tương ứng với một phân số nhị phân, cái mà sẽ trở thành mã nhị phân của chuỗi. Thực tế việc tạo nhãn và mã nhị phân là hai quá trình giống nhau. Tuy nhiên, chúng ta có thể hiểu dễ dàng hơn phương pháp mã số học nếu về mặt lý thuyết chia phương pháp này thành hai giai đoạn. Trong giai đoạn đầu tạo ra một bộ nhận dạng duy nhất hay nhãn cho chuỗi kí tự đã cho. Sau đó cho nhãn này một mã nhị phân duy nhất. Mã số học duy nhất có thể được tạo ra cho một chuỗi dài m mà không cần phải tạo ra mọi từ mã cho những chuỗi cùng chiều dài. Điều này không giống với mã Huffman. Để phân biệt một chuỗi kí tự này với một chuỗi kí tự khác chúng ta cần phải gán nhãn cho nó bằng một bộ nhận dạng duy nhất. Một tập hợp nhãn có thể dùng biểu diễn những chuỗi kí tự là những số trong khoảng đơn vị [0, 1). Do trong khoảng đơn vị [0, 1) có vô số số, nên có thể gán một nhãn duy nhất cho mỗi kí tự riêng biệt. Lưu đồ truyền thực hiện như sau : bất cứ khi nào muốn gửi một mẫu mà có tồn tại trong từ điển, chúng ta sẽ gửi một bit cờ (flag), giả sử bit 0, theo sau bởi một chỉ số 8 bit tương ứng với mục từ trong từ điển. Nếu chúng ta có thể bằng cách nào đó nhóm những ngữ cảnh giống nhau với nhau, thì rất có thể là những kí tự theo sau những ngữ cảnh này sẽ giống nhau, cho phép sử dụng chiến lược nén đơn giản và hiệu quả.
Trong ví dụ này, “ b” sẽ là ngữ cảnh bậc nhất đối với “a”, “ob” là ngữ cảnh bậc hai đối vói “a”, vân vân….Sử dụng nhiều chữ cái hơn để xác định ngữ cảnh mà “a” xảy ra, hay những ngữ cảnh bậc cao, nhìn chung sẽ làm tăng xác suất xảy ra của a trong ví dụ này, và vì vậy làm giảm số bit yêu cầu để mã hoá sự xảy ra đó.
Nếu chuỗi kí tự được mã hoá không bao gồm sự xảy ra độc lập của các kí tự, thì những kiến thức về những kí tự đã xảy ra ở lân cận của kí tự đang mã hoá sẽ cung cấp cho chúng ta một hiểu biết tốt hơn nhiều về giá trị của kí tự đang mã hoá. Nếu chúng ta biết được ngữ cảnh trong đó một kí tự xảy ra chúng ta có thể đoán với khả năng thành công lớn hơn nhiều so với giá trị của kí tự. Nếu ngữ cảnh được biết ở cả hai bộ mã hoá và giải mã, thì chúng ta có thể sử dụng sự phân bố lệch này để thực hiện mã hoá, vì vậy sẽ tăng mức nén.
Nếu chúng ta sử dụng thông tin về chữ cái trước nó là “b”, thì sẽ làm giảm xác suất của vài kí tự giống như là q và z và tăng xác suất xảy ra của “a”. Vì vậy chúng ta muốn làm những gì để mã hoá mỗi kí tự sử dụng xác suất xảy ra của nó đối với ngữ cảnh bậc cao.
Kĩ thuật đơn giản này được so sánh với những phương pháp nén khác như những phép biến đổi dự đoán (predictive transformations), lượng tử hóa véc-tơ (vector quantization), biến đổi cosin rời rạc (discrete consine transform) và những phương pháp nén đếm lặp (repetition count compression methods). Tuy nhiên, đối với tín hiệu EEG, nhiều khi cần phải tiến hành ghi tín hiệu điện não trong thời gian dài (long-term signal), và nhiều lúc xuất hiện những tín hiệu bộc phát biểu hiện bệnh lý bất thường có biên độ lớn hơn rất nhiều so với các tín hiệu cơ bản hay các tín hiệu xảy ra hiếm khi. Sự ép buộc chiều dài từ mã cực đại sẽ được gán vào giá trị được lựa chọn cho m (cụ thể, chủ yếu của A1), vì cây Huffman cuối cùng có m+1 lá, nên số lượng bit của từ mã được tính bằng tổng chiều cao của cây CHT mà dẫn đến lá tương ứng với từ mã đó, nếu cần thiết cộng thêm b bit do mã hóa chuỗi bit nguồn khi lá biểu diễn A2.
Do dữ liệu được lượng tử bằng 8 b, sẽ có 256 kí tự tạo ra một ma trận tần suất 256ì256; bằng chứng thực nghiệm đó chứng tỏ rằng : trờn tập kiểm tra, sự khỏc nhau giữa ma trận đơn vị (identity function)và những kí tự kế tiếp có thể nhất của các kí tự 0….255, được tính toán theo như (3.16) thuộc khoảng từ -3 tới +3, biểu thị rằng ước lượng Markov (Markovian estimate) nhìn chung rất gần với ma trận đơn vị (identity function). Bằng cách mã hoá Huffman sự khác nhau giữa tín hiệu nguồn và tín hiệu được khôi phục từ M thành phần kia, thì những kĩ thuật này lại trở thành mã hoá không mất thông tin, bởi vì có thể khôi phục lại chính xác từ M thành phần và sự sai khác đó. Phép biến đổi cosin rời rạc (the discrete cosine transform (DCT)), với tính chất nén năng lượng mạnh có nghĩa là: hầu hết mọi thông tin tín hiệu đều hướng đến tập trung tại một vài thành phần tần số thấp của DCT, là giải pháp kề tối ưu với sự thuận lợi hơn về tính toán, thực tế, có tồn tại thuật toán nhanh.
Diễn đạt theo một cách khác thì một bộ lượng tử hoá vectơ k chiều và kích thước N là một phép ánh xạ Q từ một vectơ k chiều, trong không gian Ơclit Rk, vào một tập hữu hạn C bao gồm N lối ra hay những điểm mô phỏng, được gọi là những mã vectơ hay những từ mã.
Nhận thấy nén tín hiệu EEG sử dụng mã Huffman khá hiệu quả: hệ số nén tương đối ≈ 4, phần trăm tiết kiệm khá cao 73.84%, mức độ phức tạp tính toán thấp, và quan trọng nhất là nó cho phép khôi phục lại hoàn toàn chính xác tín hiệu ban đầu. Nên đối với yêu cầu đảm bảo thông tin chính xác mang trên tín hiệu EEG ghi được từ bệnh nhân để không gây ra sai sót trong việc chẩn đoán và kết luận lâm sàng đối với bệnh nhân, bác sĩ hoàn toàn có thể tin tưởng vào phương pháp nén này. Đối với những thiết bị lưu trữ và tính toán ngày nay, phương pháp này tỏ ra rất hiệu quả.
Mặc dù sai số giữa tín hiệu khôi phục và tín hiệu ban đầu cũng khá nhỏ, song vẫn có thể xảy ra xác suất gây lỗi chẩn đoán. Trong Matlab dữ liệu nó xử lý nhỏ nhất là 8 bit, điều này khiến cho việc mô phỏng trong trường hợp này không bộc lộ hết hiệu quả mà tiềm năng của nó có thể thực hiện được. Từ đó rút ra nhận xét là : tuỳ thuộc vào thiết bị phần cứng về tốc độ xử lý và khả năng lưu trữ mà chúng ta lựa chọn phương pháp nào cho phù hợp.
Song tín hiệu EEG đặc biệt cần thiết yêu cầu khả năng khôi phục lại hoàn toàn dữ liệu đựơc ghi ban đầu, nên nếu sử dụng phương pháp nén mất thông tin chúng ta bằng cách nào đó phải biến nó về loại không mất dữ liệu (ví dụ như nén lỗi và gửi cả lỗi như phương pháp biến đổi DCT ở trên). Khi đó về hiệu quả nén chúng ta cần phải xem xét kĩ, tuỳ vào từng trường hợp mà lựa chọn phương pháp nào hơn.