Bài đọc thêm . Độ đo lượng thông tin Nếu hiểu có thông tin đồng nghĩa với thêm hiểu biết thì cũng có nghĩa là có thông tin là giảm bớt được sự thiếu hiểu biết (còn gọi là độ "mù mờ" hay độ bất định). Vì thế khái niệm thông tin có mối liên hệ mang tính bản chất với khái niệm về độ bất định. Mỗi đối tượng chưa hoàn toàn rõ đều có một độ bất định nào đó. Xét một ví dụ để làm rõ hơn điều này. Một khoa Công nghệ Thông tin có 128 cán bộ trong đó Bộ môn Công nghệ tri thức có 8 người. Thông tin nói rằng "có ai đó đang nghiên cứu một đề tài khoa học" là rất mù mờ vì nó không cho ta biết ai đang nghiên cứu. Khả năng một người cụ thể nào đó thực hiện đề tài chia đều cho mỗi người và bằng 1/128. Nếu biết thêm thông tin đề tài đang nghiên cứu là "data mining" (một lĩnh vực nghiên cứu về công nghệ tri thức) thì độ b ất định đã giảm đi. Mặc dù vẫn chưa biết ai nhưng đã biết thêm rằng cán bộ đó thuộc Bộ môn Công nghệ tri thức và khả năng xác định bây giờ là 1/8. Vậy thông tin về đề tài nghiên cứu trên đã làm giảm độ bất định khi ta xác định người nghiên cứu. Độ bất định có liên quan chặt chẽ với khái niệm xác suất - độ đo khả năng có thể xảy ra c ủa một sự kiện. Xác suất của một sự kiện có giá trị nằm giữa 0 và 1. Nếu một sự kiện không bao giờ xảy ra, xác suất của nó có giá trị bằng 0. Nếu một sự kiện chắc chắn xảy ra, xác suất của nó bằng 1. Trong ví dụ trên, lúc đầu xác xuất để`người nghiên cứu là một người cụ thể nào đó là 1/128. Sau khi có thông tin xác xuất xác định là 1/8. Rõ ràng không gian sự kiện càng phân tán (nhiều khả năng với xác suất càng nhỏ) thì độ bất định càng lớn. Độ bất định có thể đo được. Năm 1948, Shannon đã đưa ra độ đo cho độ bất định như sau: Giả sử sự kiện A chỉ có thể thuộc về 1 trong n trạng thái riêng biệt A1, A2, An với xác xuất tương ứng là p 1 , p 2 , p n . (p 1 + p 2 + p n = 1). Khi đó độ bất định của sự kiện A được tính bằng ∑ = −= n 1 i i )(p log p bi H với b là một cơ số nào đó. Khi đó H được gọi là entropi của sự kiện A. Ta thử tính entropi của một con xúc sắc 6 mặt. Khả năng xuất hiện của mỗi mặt đều như nhau và bằng 1/6. Nếu chọn cơ số là 2 thì entropi của hệ thống sẽ là : ∑ = ≈−= 6 1 i 2 585.2 (1/6) lg 1/6H (tất cả các p i đều là 1/6) Trong trường hợp xem xét ai là nguời nghiên cứu đề tài "Data Mining" ở trên, lúc đầu ta có 128 (2 7 ) khả năng với xác xuất mỗi khả năng là 1/128. Ta tính entropi 7 ] 2 lg 128 1 [1 128 1 i 7- 2 =−= ∑ = H Sau khi có thông tin, không gian sự kiện chỉ còn 8 trạng thái với xác xuất mỗi trạng thái là 1/8. Tính tương tự như trên, lần này ta nhận được entropi H2 = 3. Vậy thông tin đã làm giảm độ bất định từ 7 xuống 3. Hiệu số giữa độ bất định hai lần chính là lượng tin nhận được. Vậy thông tin cũng có thể đo được. Trong ví dụ trên, lượng tin của thông tin "Giáo viên đó đang nghiên cứu đề tài về mạng nơ -ron" sẽ là 7 -3 = 4 . Trong phần trên ta đã thấy trong trường hợp đầu tập hợp đối tượng là 128 người, ta cần 7 bít để đủ mã hoá. Vậy có thể xem entropy của một hệ thống là số bít cần thiết để mã hoá được mọi trạng thái có thể của hệ thống trong mã hoá nhị phân. Thực tế với công thức của Shannon, số bít ở đây đã được hiểu theo nghĩa “mở rộng”, không nhất thiết phải là một số nguyên. Khi biết rõ cán bộ thuộc bộ môn Công nghệ tri thức, chỉ cần 3 bít là có thể mã hoá được. Vậy lượng tin nhận được chính là số bít đã được làm rõ và loại trừ ra khỏi biểu diễn. Đơn vị thông tin nói trong mục 1.2. trên thực chất chính là đơn vị đo lượng thông tin theo nghĩa cũa Shannon xét với cơ số 2. Đó chính là lượng thông tin đủ để nhận biết một trong hai trạng thái của một sự kiện có xác suất xuất hiện như nhau. Ta hãy tính lượng tin này. Entropi của không gian hai trạng thái với xác suất như nhau là - 2 x (1/2 x lg2(1/2)) = 1 Khi cho biết một trạng thái thì sự kiện hoàn toàn xác định và entropi bằng 0. Điều đó có nghĩa là lượng tin nhận được khi biết một trong hai trạng thái chính là 1 - 0 = 1 (bit). Bản chất của đơn vị tin trong mã hoá nhị phân chính là lượng tin theo quan nhịêm mà Shannon đã đưa ra. Cũng cần nói thêm là chính Shannon, trong luận văn cử nhân của mình vào năm 1930 đã đưa ra vấn đề dùng các mạch điện đóng, mở để thể hiện các số 1 và 0 và dùng các mạch điện để thực hiện các bíên đổi dữ liệu được mã hoá dưới dạng nhị phân. Các máy tính ngày nay cũng được thiết kế dựa trên ý tưởng này. . Bài đọc thêm . Độ đo lượng thông tin Nếu hiểu có thông tin đồng nghĩa với thêm hiểu biết thì cũng có nghĩa là có thông tin là giảm bớt được sự thiếu hiểu biết (còn gọi là độ "mù. đã làm giảm độ bất định từ 7 xuống 3. Hiệu số giữa độ bất định hai lần chính là lượng tin nhận được. Vậy thông tin cũng có thể đo được. Trong ví dụ trên, lượng tin của thông tin "Giáo. hoá được. Vậy lượng tin nhận được chính là số bít đã được làm rõ và loại trừ ra khỏi biểu diễn. Đơn vị thông tin nói trong mục 1.2. trên thực chất chính là đơn vị đo lượng thông tin theo nghĩa