bµi gi¶ng th«ng tin häc bµi gi¶ng th«ng tin häc ch¬ng 1 ch¬ng 1 th«ng tin, c¸c qu¸ tr×nh th«ng tin, c¸c qu¸ tr×nh th«ng tin & th«ng tin häc th«ng tin & th«ng tin häc PGS.TS. §oµn Phan T©n PGS.TS. §oµn Phan T©n Th¸ng 2 - 2004 Th¸ng 2 - 2004 1. Khái niệm thông tin 1. Khái niệm thông tin 1.1. Khái niệm thông tin và các yếu tố cơ bản trong xử lý 1.1. Khái niệm thông tin và các yếu tố cơ bản trong xử lý thông tin thông tin - Các định nghĩa khác nhau về thông tin - Các định nghĩa khác nhau về thông tin Theo nghĩa thông thường Theo nghĩa thông thường Theo quan điểm triết học Theo quan điểm triết học Theo lý thuyết thông tin Theo lý thuyết thông tin - Các đặc trưng của một thông tin tốt Các đặc trưng của một thông tin tốt Thích hợp (Pertinence) Thích hợp (Pertinence) Kịp thời (Timeliness) Kịp thời (Timeliness) Chính xác (Accuracy) Chính xác (Accuracy) - Các yếu tố cơ bản xử lý thông tin Các yếu tố cơ bản xử lý thông tin Để hiểu được các tín hiệu nhận được từ giác quan, con người phải Để hiểu được các tín hiệu nhận được từ giác quan, con người phải phát triển và học các hệ thông ngôn ngữ phức hợp. Đó là các Bộ phát triển và học các hệ thông ngôn ngữ phức hợp. Đó là các Bộ chữ cái các tín hiệu và các quy tắc sử dụng chúng chữ cái các tín hiệu và các quy tắc sử dụng chúng Ghi các tín hiệu truyền đi trên các vật mang tin bằng kỹ thuật tư Ghi các tín hiệu truyền đi trên các vật mang tin bằng kỹ thuật tư ơng đồng hoặc kỹ thuật số ơng đồng hoặc kỹ thuật số Với kỹ thuật số: MTĐT xử lý các tín hiệu, biến dữ liệu thành Với kỹ thuật số: MTĐT xử lý các tín hiệu, biến dữ liệu thành thông tin thông tin 1.2. Dữ liệu - Thông tin và tri thức 1.2. Dữ liệu - Thông tin và tri thức Nhu cầu thông tin là một nhu cầu cơ bản của con ngư Nhu cầu thông tin là một nhu cầu cơ bản của con ngư ời ời Các mức độ chất lượng của thông tin Các mức độ chất lượng của thông tin - Dữ liệu (Data): Các số liệu, dữ kiện ban đầu thu thập Dữ liệu (Data): Các số liệu, dữ kiện ban đầu thu thập được qua điều tra, khảo sát. Dữ liệu tồn tại dưới 4 được qua điều tra, khảo sát. Dữ liệu tồn tại dưới 4 hình thức: con số, chữ viết, âm thanh, hình ảnh. Dữ hình thức: con số, chữ viết, âm thanh, hình ảnh. Dữ liệu có thể có cấu trúc hoặc không có cấu trúc. liệu có thể có cấu trúc hoặc không có cấu trúc. - Thông tin (Information): Là những dữ liệu đã được Thông tin (Information): Là những dữ liệu đã được sắp xếp thành những mẫu hình có ý nghĩa (thông qua sắp xếp thành những mẫu hình có ý nghĩa (thông qua xử lý) xử lý) - Tri thức(Knowledge): Thông tin hữu ích được trí tuệ Tri thức(Knowledge): Thông tin hữu ích được trí tuệ con người xác nhận qua quá trình tư duy và được đưa con người xác nhận qua quá trình tư duy và được đưa vào sử dụng một cách có hiệu quả trong thực tiễn. vào sử dụng một cách có hiệu quả trong thực tiễn. Tri thức là sức mạnh. Tri thức là sức mạnh. Dữ liệu - Thông tin và tri thức Dữ liệu - Thông tin và tri thức Theo cách thể hiện, có hai loại tri thức: Theo cách thể hiện, có hai loại tri thức: - Tri thức nội tại (Tacit knowledge): Tri thức tiềm ẩn Tri thức nội tại (Tacit knowledge): Tri thức tiềm ẩn trong trí óc con người trong trí óc con người - Tri thức tường minh (explicit knowledge): Tri thức thể Tri thức tường minh (explicit knowledge): Tri thức thể hiện qua ngôn ngữ, tài liệu văn bản, kết xuất của hiện qua ngôn ngữ, tài liệu văn bản, kết xuất của máy tính, . máy tính, . Cách thức chúng ta xử lý dữ liệu quyết định Cách thức chúng ta xử lý dữ liệu quyết định giá trị của chúng giá trị của chúng Với sự ra đời của máy tính điện tử, tầm quan Với sự ra đời của máy tính điện tử, tầm quan trọng của dữ liệu trở nên rõ ràng hơn, các trọng của dữ liệu trở nên rõ ràng hơn, các thông tin trở nên có giá trị ngày càng cao hơn. thông tin trở nên có giá trị ngày càng cao hơn. 1.3. Nguồn thông tin điện tử (Thông tin số) 1.3. Nguồn thông tin điện tử (Thông tin số) Thông tin điện tử là tất cả các thông tin được xử lý, lưu Thông tin điện tử là tất cả các thông tin được xử lý, lưu trữ và truy cập trên máy tính. trữ và truy cập trên máy tính. Thông tin điện tử bao gồm: Thông tin điện tử bao gồm: Các CSDL chuyên ngành, đa ngành Các CSDL chuyên ngành, đa ngành Các cơ sở tri thức Các cơ sở tri thức Các bản tin điện tử Các bản tin điện tử Báo, tạp chí điện tử ấn hành trên mạng Internet Báo, tạp chí điện tử ấn hành trên mạng Internet Các website trên Internet Các website trên Internet Các CD-ROM Các CD-ROM Các đặc trưng của thông tin điện tử Các đặc trưng của thông tin điện tử Có mật độ thông tin cao Có mật độ thông tin cao Thông tin luôn cập nhật Thông tin luôn cập nhật Thông tin có thể lưu trữ dưới nhiều dạng khác nhau Thông tin có thể lưu trữ dưới nhiều dạng khác nhau Thông tin có thể truy cập theo nhiều dấu hiệu khác nhau Thông tin có thể truy cập theo nhiều dấu hiệu khác nhau Thông tin có thể truy cập từ xa Thông tin có thể truy cập từ xa Cùng một thời điểm có thể nhiều người truy cập Cùng một thời điểm có thể nhiều người truy cập Tạo khả năng đẻ người sử dụng tiếp xúc tác giả qua kênh Tạo khả năng đẻ người sử dụng tiếp xúc tác giả qua kênh thông tin phản hồi. thông tin phản hồi. 2. Giao lưu thông tin và các quá 2. Giao lưu thông tin và các quá trình thông tin trình thông tin 2.1. Giao lưu là thuộc tính cơ bản của thông tin 2.1. Giao lưu là thuộc tính cơ bản của thông tin - Thông tin tiềm tàng khắp nơi trong xã hội.Thông tin chỉ có ý Thông tin tiềm tàng khắp nơi trong xã hội.Thông tin chỉ có ý nghĩa khi nó được truyền đi, phổ biến và xử dụng. Bản chất nghĩa khi nó được truyền đi, phổ biến và xử dụng. Bản chất của thông tin nằm trong sự giao lưu của nó. của thông tin nằm trong sự giao lưu của nó. - Thông tin hình thành trong quá trình giao tiếp. Lịch sử phát Thông tin hình thành trong quá trình giao tiếp. Lịch sử phát triển của thông tin gắn liền với lịch sử phát triển của kỹ thuật triển của thông tin gắn liền với lịch sử phát triển của kỹ thuật truyền tin: truyền tin: - Tiếng nói Thông tin nói Tiếng nói Thông tin nói - Chữ viết, nghề in Thông tin viết (văn bản) Chữ viết, nghề in Thông tin viết (văn bản) - CNTT Thông tin điện tử, thông tin đa phương tiện. CNTT Thông tin điện tử, thông tin đa phương tiện. 2.2. Các quá trình thông tin 2.2. Các quá trình thông tin - Lược đồ chung của quá trình thông tin Lược đồ chung của quá trình thông tin - Thông tin khoa học và thông tin đại chúng Thông tin khoa học và thông tin đại chúng - Dây chuyền thông tin tư liệu Dây chuyền thông tin tư liệu 3. Thông tin học và lý thuyết thông tin 3. Thông tin học và lý thuyết thông tin Thông tin học ra đời vào đầu thế kỷ XX là sự kế thừa các Thông tin học ra đời vào đầu thế kỷ XX là sự kế thừa các ngành thư viện, tư mục, lưu trữ, truyền tin liên lạc và đáp ứng ngành thư viện, tư mục, lưu trữ, truyền tin liên lạc và đáp ứng các yêu cầu thực tiễn giải quyết vấn đề bùng nổ thông tin. các yêu cầu thực tiễn giải quyết vấn đề bùng nổ thông tin. 3.1. Thông tin học. N 3.1. Thông tin học. N ghiên cứu: ghiên cứu: - Bản chất, cấu trúc và quy luật phát triển của thông tin. Bản chất, cấu trúc và quy luật phát triển của thông tin. - Lý thuyết và phương pháp tổ chức, xử lý, khai thác và sử Lý thuyết và phương pháp tổ chức, xử lý, khai thác và sử dụng có hiệu quả các nguồn lực thông tin. dụng có hiệu quả các nguồn lực thông tin. 3.2. Lý thuyết thông tin. N 3.2. Lý thuyết thông tin. N ghiên cứu: ghiên cứu: - Các vấn đề về đo lường, biểu diễn, mã hoá thông tin. Các vấn đề về đo lường, biểu diễn, mã hoá thông tin. - Khả năng truyền, nhận và xử lý thông tin của các hệ Khả năng truyền, nhận và xử lý thông tin của các hệ thống truyền thông. thống truyền thông. ý ý tưởng cơ bản của lý thuyết thông tin là thông tin có thể xử tưởng cơ bản của lý thuyết thông tin là thông tin có thể xử lý như một đại lượng vật lý, nó có thể xác định và đo được lý như một đại lượng vật lý, nó có thể xác định và đo được bằng đại lượng toán học. bằng đại lượng toán học. các thành phần của hệ thống truyền thông các thành phần của hệ thống truyền thông Nguồn tin: sản sinh ra thông tin hay thông báo sẽ được Nguồn tin: sản sinh ra thông tin hay thông báo sẽ được truyền đi (phát thanh viên) truyền đi (phát thanh viên) Vật truyền: chuyển thông báo thành tín hiệu điện hay Vật truyền: chuyển thông báo thành tín hiệu điện hay điện tử (micro, điện thoại, máy phát thanh, phát hình) điện tử (micro, điện thoại, máy phát thanh, phát hình) Kênh truyền tin: dây dẫn, khí quyển. Kênh truyền tin: dây dẫn, khí quyển. Máy thu: chuyển tín hiệu về thông báo ban đầu (tai Máy thu: chuyển tín hiệu về thông báo ban đầu (tai nghe, máy thu thanh, thu hình) nghe, máy thu thanh, thu hình) Nơi nhận: người nghe điện thoại, nghe đài, xem truyền Nơi nhận: người nghe điện thoại, nghe đài, xem truyền hình. hình. Hai vấn đề cần giải quyết trong hệ thống truyền thông là Hai vấn đề cần giải quyết trong hệ thống truyền thông là giảm nhiễu và tăng khả năng của kênh truyền. Đó là giảm nhiễu và tăng khả năng của kênh truyền. Đó là những vấn đề mà lý thuyết thông tin phải nghiên cứu những vấn đề mà lý thuyết thông tin phải nghiên cứu và giải quyết và giải quyết . . đơn vị đo thông tin đơn vị đo thông tin Xuất phát từ quan điểm truyền tin, Xuất phát từ quan điểm truyền tin, thông tin thông tin là ý định là ý định lựa chọn một thông báo riêng biệt từ một tập hợp các lựa chọn một thông báo riêng biệt từ một tập hợp các thông baó có thể. Sự lựa chọn này xẩy ra với một xác thông baó có thể. Sự lựa chọn này xẩy ra với một xác suất nào đó. suất nào đó. Sự lựa chọn đơn giản nhất là lựa chọn giữa 2 khả năng Sự lựa chọn đơn giản nhất là lựa chọn giữa 2 khả năng như nhau (p=1/2). Lượng thông tin được tạo ra từ cách như nhau (p=1/2). Lượng thông tin được tạo ra từ cách lựa chọn như thế được coi là một đơn vị đo thông tin, lựa chọn như thế được coi là một đơn vị đo thông tin, gọi là gọi là bit bit . . Ví dụ Ví dụ : Gieo một đông tiền, P(S)=P(N)=1/2, lượng thông tin : Gieo một đông tiền, P(S)=P(N)=1/2, lượng thông tin được tạo ra từ cách chọn như thế là 1 bit. Nếu ký hiệu S là được tạo ra từ cách chọn như thế là 1 bit. Nếu ký hiệu S là số 1, N là số 0, thì chỉ có một cách chọn để biểu diễn thông số 1, N là số 0, thì chỉ có một cách chọn để biểu diễn thông báo là 1 hoặc 0. báo là 1 hoặc 0. Như vậy: Bít là lượng thông tin vừa đủ để nhận biết Như vậy: Bít là lượng thông tin vừa đủ để nhận biết một trong hai khả năng có xác suất bằng nhau có thể một trong hai khả năng có xác suất bằng nhau có thể xảy ra (như giữa số 1 và 0 được sử dụng trong NTĐT) xảy ra (như giữa số 1 và 0 được sử dụng trong NTĐT) công thức tính số lượng thông tin công thức tính số lượng thông tin Nếu tập hợp các thông báo bao gồm N thông báo có khả Nếu tập hợp các thông báo bao gồm N thông báo có khả năng như nhau (p=1/N), thì số lượng thông tin, ký hiệu năng như nhau (p=1/N), thì số lượng thông tin, ký hiệu là I, được tính bằng công thức: là I, được tính bằng công thức: I = log I = log 2 2 N N Rõ ràng: Với N=2 thi I=1, phù hợp với định nghĩa đơn vị Rõ ràng: Với N=2 thi I=1, phù hợp với định nghĩa đơn vị thông tin. thông tin. Ví dụ: Gieo 3 lần liên tiếp một đồng tiền, có N=8 và I=3. Ví dụ: Gieo 3 lần liên tiếp một đồng tiền, có N=8 và I=3. Nghĩa là cần 3 bit để biểu diễn mỗi thông báo như: Nghĩa là cần 3 bit để biểu diễn mỗi thông báo như: 000,001,010,100,011,101,110,111 000,001,010,100,011,101,110,111 Vi N=1/p nên công thức trên tương đương với công thức: Vi N=1/p nên công thức trên tương đương với công thức: I = log I = log 2 2 1/p 1/p [...]... điện báo in chữ entropy và thông tin Nếu các thông báo có xác suất p1, p2, p3, không bằng nhau, thì lượng thông tin kêt hợp với chúng cũng khác nhau Kỳ vọng toán học của các giá trị này,là thông tin trung bình của tập hợp các thông báo, gọi là entropy, ký hiệu là H H= - p1log2p1 - p2log2p2 - p3log2p3 - H là đại đặc trưng cho độ bất định của hệ thống Lượng thông tin thu được về việc xẩy ra... là: lượng thông tin càng cao khi độ bất ngờ của sự kiện càng lớn, tức là entropy càng lớn Rõ ràng sẽ không có thông tin về một sự kiện khi biết chắc chắn nó xẩy ra (H=0) ví dụ: qua nhiều năm quan sát thời tiết của một vùng, thu được kết quả sau Phép thử 1 : Thời tiết trong ngày 15 tháng 6 Các kết cục của Có mưa Không mưa o,4 0,6 phép thử Xắc suất Phép thử 2 : Thời tiết trong ngày 15 tháng 11 Các kết... ngày 15 tháng 11 Các kết cục của phép thử Có mưa Không mưa Có tuyết entropy của hai phép thử này là: H (1) = - 0,4log20,4 0,6log20,6 = 0,97 H(2) = - 0,66log20,66 0,2log20,2 0 ,15 log20 ,15 = 1, 28 Vậy: H(2) > H (1) , nghĩa là: Tại khu vực đang xét, thời tiết ngày 15 /11 khó dự báo hơn thời tiết ngày 15 /6 ...ví dụ Giả sử thông báo truyền đi bao gồm các tổ hợp ngẫu nhiên của 26 chữ cái, một khoảng trống và 5 dấu chấm câu, tổng cộng là N=32 ký hiệu, và giả sử xác suất của mỗi lý hiệu là như nhau, thì lượng thông tin của nó là : I = log232=5 Điều đó có nghĩa là ít nhất phải cần 5 bit để mã hoá mỗi ký hiệu nói trên: 00000, 000 01, 00 010 , 0 010 0, 010 00, 10 000, Đây chính là trường hợp của . diễn mỗi thông báo như: Nghĩa là cần 3 bit để biểu diễn mỗi thông báo như: 000,0 01, 010 ,10 0, 011 ,10 1 ,11 0 ,11 1 000,0 01, 010 ,10 0, 011 ,10 1 ,11 0 ,11 1 Vi N =1/ p nên. chuyền thông tin tư liệu Dây chuyền thông tin tư liệu 3. Thông tin học và lý thuyết thông tin 3. Thông tin học và lý thuyết thông tin Thông tin học ra đời