Nội dung cùa giáo trình gồm bốn phần: - Ngôn ngữ của toán học và phương pháp biểu diễn thông tin, bao gồm: Lý thuyết tập hợp, quan hệ, ánh xạ, phương pháp đêm và hệ đêm nhị phân.. - Logi
Trang 1f U r
- T R Ư Ờ N G Đ Ạ I H Ọ C V Ã N H O Á H À N Ộ I
Đ O À N PHAN TÂN
TOAN
Trang 2TRƯỜNG ĐẠI HỌC VẢN HÓA HÀ NỘI
PGS.TS ĐOÀN p h a n T â n
THƯ VIỆN - THÔNG TIN
(Giáo trình dành cho sinh viển Đai hoc và Cao đẳng ngành
thư viên - thông tin và quin trị thông tín )
NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 3MỤC LỤC
LỜI NÓI Đ Ầ U 7
Chương 1 11
NGON NGỮ CỦA TOÁN HỌC VÀ PHƯƠNG PHÁP BIẾU DIỄN THÔNG TIN ềỂ 11
1.1 Lý thuyết tập hợp 11
1.1.1 Khái niệm tập hợp và phương pháp biêu diễn tập hợp ,ẽ * ệ ệ„ * 11
1.1.2 Biếu diễn các mẫu tìm bằng ngôn ngữ của lý thuyết tập hợp 15
1.1.3 Quan hệ bao hàm, tập con 16
1.1.4 Phương pháp xác định quan hệ ngữ nghĩa giữa các từ chuẩn 20
1.1.5 Các phép toán trên tập hợp 23
1.1.6 ứng dụng cùa phép toán tập họp trong tìm tin và đánh giá hiệu quả tìm tin 29
1.1.7 Phân hoạch của một tập h ọp 32
1.2 Quan hệ 34
1.2.1 Tích Đề - các của các tập hợp 34
1.2.2 Quan hệ hai ngôi và nguyên tắc lưu trữ thông tin 38
1.2.3Ỗ Quan hệ n - ngôi và cơ sờ dữ liệu quan h ệ 43
1.2.4 Các tính châ't cùa quan hệ hai ngôi trên một tập hữu hạn 46
1.2.5 Quan hệ tương đương -Quần hệ dùng đê phân lớp các tập hợp 50
1.2.6 Quan hệ thứ tự - Quan hệ dùng để sắp thứ tự các tập họp 56
1.2.7 Cấu trúc toán học của các hệ thống phân loại 59
Trang 41.3ề Ánh sáng ,, 63
1.3.1 Khái niệm về ánh xạ 63
1.3.2 Một số ví dụ về ánh xạ 68
1.3.3 Sự tương ứng một - một và các phương tiện lưu trữ thông tin 70
1.3.4 Ánh xạ đặc trưng và phương pháp biểu diễn tập hợp bằng mã nhị phân 76
1.3.5 Khoảng cách Hamming và độ gần 78
1.4 Phương pháp đếm 80
1.4.1 Các quy tắc đếm 80
1.4.2 Hoán vị và chinh hợp 85
1.4.3 Chinh hợp lặp và cách tính khả năng mã hoá của một Ạ/ 1 Ạ 1 Ạk> A' ẵ Ạ/ o o SÔ hệ mã chuấn quốc tê 88
1.4.4 Đếm các tập con của một tập hợp: các tổ hợp 92
1.4.5 Công thức Pascal và định lý nhị thức 95
1.5 Hệ đếm nhị phân 101
1.5.1 Sô' nhị phân và sô' thập phân 101
1.5.2 Phép cộng và phép trừ các sô' nhị phân 106
BÀI TẬP CHƯƠNG 1 109
1.1 Tập hợp 109
1.2 Quan hệ 113
1.3 Ánh xạ 118
1.4 Phương pháp đếm 121
1.5 Hệ đếm nhị phân 124
Chương 2 125
LOGIC VÀ CÁC HỆ THỐNG TÌM TIN T ự ĐỘNG HÓA 125
2.1 Logic mệnh đ ề 125
2.1.1 Phán đoán và mệnh đ ể 125
2.1.2 Các phép toán mệnh đ ề 127
2.1.3 Biểu thức logic và tương đương logic 134
2.1.4 Các luật logic 139
2.1.5 Các quy tắc suy diễn trong logic mệnh đ ề 143
22 Quan hệ giữa logic và tập hợp 152
2.3 ứng dụng của logic mệnh đề trong các hệ thống tìm tin tự động hóa 156
2.3.1 Hệ thông tìm tin tự động hoá 156
Trang 52.3.2 Phương thức tìm tin cơ bản 158
2.3.3 Mô phỏng quá trình tìm tin trên máy tính 161
BÀI TẬP CHƯƠNG 2 165
2.1 Logic mệnh đề 165
2.2 ứng dụng cùa logic mệnh đê' trong các hệ thống tìm tin tự động hóa 168
Chương 3 170
ĐẠI SỐ BOOLE VÀ CÁC MẠCH TỔ H Ợ P 170
3.1 Đại SỐ Boole 170
3.1.1 Biến nhị phân và các phép toán Booĩe 170
3.1.2 Tính chât của các phép toán Boole 174
3.1.3 Biểu thức Boole và hàm Boole 175
3.2 Các mạch tổng h ợ p 178
3.2.1 Các cổng logic 178
3.2.2 Các mạch tô hợp 179
3.2.3 Mạch logic cùa phép cộng hai sô'nhị phân 183
BÀI TẬP CHƯƠNG 3 * ệ.ệể„ 185
3.1 Đại sốboole 185
3.2 Các mạch tô hợp 186
Chương 4 188
THỐNG KÊ TOÁN H ỌC 188
4.1 Phương pháp trình bày và đánh giá các kết quà thực nghiệm 188
4.1.1 Khái niệm mờ đầu 188
4.1.2 Phương pháp trình bày số liệu 191
4.1.3 Phương pháp thu gọn sô'liệu 202
Phương sai và độ lệch chuẩn 209
4.2 Một sô'khái niệm cơ bản của lý thuyết xác suâ't 213
4.2.1 Khái niệm xác suất và đơn vị thông tin 213
4.2.2 Biến ngẫu nhiên và quy luật phân phối xác suâ't của một biến ngẫu nhiên rời rạc Entropy và thông tin 223
4.2.3 Quy luật phân phối nhị thức 230
4.2.4 Phân phối xác suất cùa biến ngẫu nhiên liên tục Quv luật phân phôi chuẩn 233
4.2.5 Định lý giới hạn trung tâm 242
4.3 Phương pháp điều tra chọn mẫu 245
5
Trang 64.3.1 Khái niệm mờ đầu 245
4.3.2 ước lượng ti lệ cấu thành 248
4.3.3 Ước lượng giá trị trung bình 255
BÀI TẬP CHƯƠNG 4 261
4.1 Phương pháp trình bày và đánh giá các kết quà thực nghiệm 261
4.2 Một sô' khái niệm cơ bàn cùa lý thuyết xác suâ't 266
4.3 Phương pháp điểu tra chọn mẫu 268
HƯỚNG DẪN VÀ TRẢ LỜI MỘT SỐ BÀI TẬP 270
Chương 1 270
1.1 Tập hợp 270
1.2 Quan hệ 275
1.3 Ánh xạ 279
1.4 Phương pháp đếm 282
1.5 Hệ đếm nhị phân 290
Chương 2 291
2.1 Logic mệnh đ ề 291
2.3 ứng dụng cùa logic mệnh đê trong các hệ thống tìm tự động hóạ 294
Chương 3 296
3.1 Đại sôboole 296
3.2 Các mạch tổ hợp 298
Chương 4 300
4.1 Phương pháp trình bày và đánh giá các kết quà thực nghiệm (thống kê mô tà) 300
4.2 Một sô' khái niệm co bàn của lý thuyết xác suât 306
4.3 Phương pháp điểu tra chọn mẫu 313
PHỤ LỤC * ềẾ 317
TÀI LIỆU THAM KHẢO 318
Trang 7LỜI NÓI ĐẦU
Khoa học ngày càng phát triển thì sự phân chia khoa học ra các ngành nhò ngày càng sâu sắc Mặt khác, do sự phát triển của khoa học mà nhiều ngành có thể áp dụng phương pháp và thành tựu của nhau để giải quyê't các vân để của mình Trong xu hướng
đó, đặc biệt nổi lên vai trò của Toán học Các phương pháp cùa toán học không chỉ dùng trong các ngành vật lý và cơ học mà đã trờ thành phương pháp chung của rất nhiểu ngành khoa học khác,
kê cả các ngành khoa học xã hội và nhân văn Việc ứng dụng các phương pháp toán học trong hoạt động thư viện - thông tin không
có gì là mới mé, đặc biệt ờ các nước có nền khoa học phát triển.Ngày nay, cùng vói những biêí đổi sâu sắc trong kỹ thuật xử
lý thông tin, sụ xâm nhập cùa tin học vào tâ't cả các lĩnh vực hoạt động của con người, hoạt động thư viện ngày càng gắn với hoạt động thông tin và đang trong quá trình tin học hoá thì việc trang
bị các kiên thức toán học caờ câ'p hiện đại cho sinh viên ngành Thư viện - Thông tin ngày càng trờ thành một nhu cầu câp bách
Xuất phát từ yêu cẩu thực tiễn đó, từ năm 1976, bộ môn Toán của trường Dại học Văn hoá Hà Nội đã được giao nhiệm vụ xây dựng chương trình và triển khai giảng dạy môn Toán cao câ'p ứng dụng cho sinh viên ngành Thư viện - Thông tin
Năm 2004, Hội đổng chương trình ngành Thư viện - Thông tin truòng Dại học Văn hoá Hà Nội đã biên soạn bộ chưong trình
7
Trang 8mới, trong đó vẫn khẳng định "Toán học trong hoạt động Thư viện - Thông tin" là một môn học cơ sở của ngành Tuy nhiên, nội dung chương trình cần được biên soạn lại sao cho phù hợp hom với yêu cầu mới và sự phát triển của thực tiễn.
Giáo trình "Toán học trong hoạt động thư viện - thông tin" được biên soạn lẩn này là theo yêu cẩu của chương trình mới, có
kế thừa giáo trình "M ột số phương pháp toán học trong công tác thư viện - thông tin" của tác giả, xuâ't bản năm 1992, nhưng với nội dung cập nhật, tinh hơn và thiết thực hơn
Mục tiêu của giáo trình là trang bị cho sinh viên những kiến thức cơ bản của toán học ròi rạc và thống kê toán học, tập trung vào những nội dung và phương pháp thường dùng trong việc mô
tả thông tin, xử lý thông tin, xử lý dữ liệu, xử lý s ố liệu được áp
dụng trong thực tiễn của hoạt động thư viện - thông tin, hoặc làm sáng tỏ những vân đê' lý luận và phương pháp luận của thư viện học và thông tin học, đặc biệt trong điều kiện tin học hoá
Nội dung cùa giáo trình gồm bốn phần:
- Ngôn ngữ của toán học và phương pháp biểu diễn thông tin, bao gồm: Lý thuyết tập hợp, quan hệ, ánh xạ, phương pháp đêm và hệ đêm nhị phân
- Logic và các hệ thống tìm tin tự động hóa, bao gồm: Logic mệnh để, quan hệ giữa tập hợp và logic, ứng dụng của logic trong các hệ thống tìm tin tự động hoá
- Đại sô Boole và các mạch tô họp bao gồm: Đại s ố Boole, tính
chât cùa đại sô Boole, các mạch tô hợp, mạch logic của phép cộng hai số nhị phân
- Thông kê toán học, bao gồm: Phương pháp trình bày và đánh giá các kết quả thực nghiệm (Thống kê mô tả), một số khái niệm cơ bản của lý thuyêí xác suất, phương pháp điều tra chọn mẫu (Ước lượng thống kê)
Trang 9Thông qua chương trình, sinh viên sẽ biết vận dụng ngôn ngữ của lý thuyết tập hợp để mô tả thông tin trong các mẫu tìm và thực hiện tìm tin trên các mẫu tìm đó bằng các phép toán tập hợp, dùng quan hệ tập con đê’ xác định quan hệ ngữ nghĩa giữa các từ chuẩn Lý thuyết về quan hệ giúp sinh viên hiểu rõ hon nguyên tắc lưu trữ thông tin, câu trúc của ngôn ngữ tu liệu và mô hình cơ
sờ dữ liệu quan hệ Sự tương ứng một - một trong ánh xạ là nguyên tắc chung của các phương tiện lưu trữ thông tin Ánh xạ đặc trung cho phép mã hoá các tập hợp bằng mã nhị phân Phương pháp đếm cung câ'p các công thức tính khả năng mã hoá của các hệ mã dùng trong hoạt động thư viện - thông tin Kiến thức về logic giúp sinh viên hiểu được bản châ't của quá trình tìm tin trong các hệ thống tìm tin tự động hoá, từ đó biết sử dụng các toán tủ' logic viết đúng những biểu thức tìm mô tả những yêu cẩu tìm tin phức hợp Hệ đếm nhị phân và đại sô' Boole là cơ sở toán học và logic cùa máy tính điện từ, giúp sinh viên hiểu được vì sao máy tính có thế thực hiện được các phép toán số học và các phép toán tập hợp trên các mẫu tìm khi tìm tin Các phương pháp thống
kê mô tà và phương pháp điều tra chọn mẫu cung câ'p cho sinh viên nhũng phương pháp khoa học để điều tra đánh giá hiệu quà công tác phục vụ ngưòi đọc, hiệu quả của các sàn phấm và dịch vụ thông tin Một số khái niệm về xác suâ't được đua vào giáo trình vói dung lượng vừa đù làm cơ sờ lý thuyết cho các ước lưọng thống kê, cũng giúp sinh viên hiếu rõ hon khái niệm vê đon vị đo thông tin (bit) và các công thức tính số lượng thông tin do E Shanon đua ra trong lý thuyết thông tin Ngoài ra những kiến thức
về toán ròi rạc cũng giúp sinh viên có điều kiện tốt hon đê tiếp thu môn tin học
Giáo trình được trình bày một cách cơ bản, hệ thông vói tinh thần tinh giàn tối đa về lý thuyết đế phù họp với sinh viên ngành khoa học xã hội, đổng thòi có nhiều ví dụ minh họa được lấy tù thực tiễn của hoạt động thư viện - thông tin Cuối mỗi chưong đều
có một số bài tập chọn lọc, kèm theo hướng dẫn và lòi giai, giúp
9
Trang 10sinh viên cùng cô' thêm lý thuyết Một sô' mô hình đưa ra trong giáo trình cũng là kết quà nghiên cứu cùa tác giả, qua nhiều năm giang dạy và nghiên cứu khả năng ứng dụng của toán học và tin
học trong hoạt động thu viện - thông tin ờ trường Đại học Văn hoá
Hà Nội
Chúng tôi hy vọng giáo trình này sẽ giúp ích cho nhũng nguòi làm công tác giàng dạy và sinh viên ngành thư viện - thông tin, đổng thời cũng có thế là tài liệu tham khảo cho cán bộ hoạt động trong một số ngành khoa học xã hội khác
Vì khà năng và thời gian có hạn, cuốn sách khó tránh khòi các thiếu sót Chúng tôi mong được sự đóng góp ý kiến cùa đổng nghiệp và bạn đọc gần xa
Tác giả
Trang 11Chương 1NGÔN NGỮ CỦA TOÁN HỌC VÀ PHƯƠNG PHÁP BIÊU DIỄN THÔNG TIN
1.1 LÝ THUYẾT TẬP HỢPVào cuối thế ký XIX, Georg Cantor (1845-191S) lân đấu tiên đã nhận ra giá trị tiếm ẩn cua việc phát hiện ra nhũns; tính chất chung cua tập họp, khi tách nó khoi các tính chất của phấn tu tạo thành chúniỊ Nvịìiv nav lý thuyết tập họp trừu tuọng đu ọc xem là co so cua tu duy toán học Mọi đỏi tuọng cua toán học, kè cà các số, đeu
có thê xem xét trong khuôn khỏ cua các tập họp, và nt;ón ngữ cua
lý thuyết tập họp đuợc su dụng đê xây dụng eo so logic cho nhiêu ngành toán học khác nhau
Trong phàn này ta sẽ đề cập đòn nhũng khái niệm co ban cua
lý thuyết tập họp, các phép toán trôn tập họp đong thòi giói thiệu nhũng úng dụng cua chúng trong mô ta thông tin và tìm tin
1.1.1 Khái niệm tập hợ}t và phiíơitg pháp biếu diễn tập ỉiỢịì
Tập họp là một khái niệm co ban cua toán học Theo gọi V cua Georg Cantor, ta hãy hình dung tập họp nhu là một bộ suu tập các
đối tuọng quan sát đuọc Các đối tượng này gọi là pìiãn tư cua tập
họp
Ví dụ:
- Tập họp các sô tụ nhiên tù 1 đôn 100
11
Trang 12- Tập hợp các cuốn sách của một thư viện.
Người ta thường biểu diễn tập hợp bằng một đường cong
khép kín, gọi là sơ đồ Venn.
Trang 13a, b, c e E
d Ể E
Phươỉtg pháp biểu diễn tập hợp
Có hai phương pháp biểu diễn tập hợp, đó là phương pháp liệt kê và phương pháp xác định các thuộc tính đặc trưng
1.1.1.1 Phương pháp liệt kê
Nếu tập hợp E gồm ba phần tử a, b, c ta viết:
E = {a, b, c}
Trong cách viết trên thứ tự các phẩn từ không quan trọng và
sự lặp lại một phần tử nào đó không làm thay đổi tập hợp, tức là:
Ịa, b, c} = {a, c, b) = {a, a, b, c)
Ví dụ l
ẽ-Giả sừ Lan, Thu, Hà là ba sinh viên của lớp thư viện, gọi E là tập họp gồm ba sinh viên đó, ta viết:
E = {Lan, Thu, Hà}
Các tập họp sau đây cùng biểu diễn một tập hợp:
{Lan, Thu, Hà} = ỊHà, Lan, Thu}= {Hà, Lan, Thu, Hà, Thu}
vì mỗi tập hợp đó đều chỉ gổm ba phần tử, là ba sinh viên Lan, Thu, Hà
Trang 14Ví dụ 3:
Tập họp các số tự nhiên, ký hiệu là N:
N = {1, 2, 3 n , I
N là tập hợp vô hạn
1.1.12 Phương pháp chỉ rõ thuộc tính dặc trim4»
Nếu tập hợp E gồm các phần tù X có tính châ't p ta viết:
E = ịx I X có tính chất PỊHay gọn hơn:
trong mặt p được xác định bởi:
(C) = ỊMeP I OM = rỊ3) Tập họp D các nghiệm thực cùa phương trinh f(x) = 0 xác định bởi:
D = {xeR|f(x) = 0Ị
Tập hợp có m ột phần tử vả tập rỗng
Tập hợp chi gõm một phần từ a ký hiệu là {a}
Kỷ hiệu (a) là chi tập hợp gổm một phẩn tử a, trong khi đó ký hiệu a là chì chính phần tử a, vì thế:
Trang 15{a} * a
Tập hợp không có phần từ nào gọi là tập rỗng hay tập trong,
ký hiệu là 0 Tập rỗng tổn tại cũng nhu sỏ 0 tổn tại
Ví dụ:
(x e R |x2 + 1 = O Ị=0
1.1.2 Biếu diễn các mẫu tìm bằng ngôn ngữ c ù a lý thuyêt tập ÌIỢỊÌ
Giả sử trong một hệ thống lưu trử và tìm kiếm thông tin, các tài liệu nói về thư viện bao gồm các tài liệu có mã sô 13, 17, 20, 25,
34 Ta ký hiệu:
d(Thư viện) = Tập họp các tài liệu nói vê thư viện
Theo cách biểu diễn của lý thuyết tập hợp ta có thê mô tà tập hợp đó như sau:
là các tài liệu có mã số 13, 17, 22, 35, thì ta có thê mô tả các tập hợp
• Các phiếu lỗ soi
15
Trang 16• Các phiếu đơn thuật ngữ.
• Các biểu ghi trong tệp đảo của các cơ sở dữ liệu thư mục
Đó là các phương tiện lưu trữ thông tin, đổng thời cũng là các
công cụ giúp ta tìm tin, nên chúng còn được gọi là các mẫu tìm.
Thực hiện các phép toán tập hợp trên các mẫu tìm, ta có thể tìm được những tài liệu đáp ứng yêu cẩu tìm tin đặt ra
1.1.3 Quan hệ bao hàm, tập con
Một quan hệ cơ bản giữa các tập hợp là quan hệ bao hàm hay quan hệ tập con
ít nhât một phần tử của A mà không là của B
Quan hệ A <x B có ba cách biểu diễn khác nhau bằng sơ đổ Venn:
Trang 17Giả sử A và B là hai tập họp, ta nói rằng A là tập con thực sự
của B, ký hiệu là A c B, nếu và chi nêu mọi phẩn thuộc A đểu thuộc B nhưng có ít nhâ't một phần tử thuộc B mà không thuộc A
Quan hệ giữa các tập hợp sô'
Các ký hiệu z, Q và R là đê chỉ tập hợp các số nguyên, các số hữu tỉ và các SỐ thực tương ứng
z là tập con cùa Q, vì mỗi số nguyên đều là sô' hữu tỉ (số nguyên n có thể viết dưới dạng n/1) Q là tập con của R,,vì mỗi số hữu tỉ đều là SỐ thực (mỗi số hữu tỉ m/n đều có một điểm biêu diễn trên trục sô)
17
Trang 18z là tập con thực sự của Q, vì có số hữu tỉ (ví dụ 1/2) không là
sô nguyên Q là tập con thực sự của của R vì có sô thực (ví dụ V2 ) không là số hữu tỉ
Do đó ta có quan hệ sau:
Tập hợp bằng nhau
Hai tập A và B được gọi là bằng nhau nếu chúng chứa cùng các phần từ Định nghĩa này được phát biểu dưới dạng ngôn ngữ của tập con như sau:
Hai tập hợp A và B gọi là bằng nhau, ký hiệu là A = B, nếu
và chỉ nếu mỗi phần tử thuộc A đều thuộc B, và mỗi phần tử thuộc B đều thuộc A
Từ định nghĩa ta suy ra: _
Phương pháp chíbig minh hai tập bằng nhau
Muốn chứng minh hai tập A và B bằng nhau, ta phải chứng
Trang 19A = {2, 4, 6, 8, }
là tập con cúa N, biêu thị thuộc tính chẵn của các phần tử cùa N
Ta quy ước tập rỗng là tập con cùa mọi tập hợp, tức là:
0 c E với mọi ENhư vậy, mọi tập E đều có ít nhâ't hai tập con là tập rỗng 0
Trang 20P(E) = { 0 , {a}, {b}, {a.b}}
Ở mục 1.5 ta sẽ chứng minh được kết quả sau: Nếu tập E có n phẩn tử thì tập P(E) có 2" phần từ
1.1.4 Phươìig pháp xác định quan hệ ngữ nghĩa giũa các từ chuẩn
Trong các từ điển từ chuẩn các đơn vị từ ngữ không có quan
hệ cấp bậc một cách hệ thống như ở các hệ thống phân loại Tuy nhiên chúng vẫn có quan hệ câp bậc giữa các thuật ngữ trong từng cụm từ liên quan đến một chủ để hoặc một lĩnh vực của tri thức
CÂY NGÔ CÂY KHOAI CÂY SẮN
Đê làm rõ bản chất quan hệ ngữ nghĩa trên đây và cho nó một biểu diễn toán học chặt chẽ, trước hết ta xây dựng khái niệm trường ngữ nghĩa
Giả sử có một tò chuẩn nào đó diễn tả khái niệm của một lĩnh vực chuyên môn hay một chủ đề, ví dụ như các từ TIN HỌC/ CÂY LƯƠNG THựC Khi đó các từ chuẩn đó có thể coi là tên gọi của một tập hợp bao gồm các đơn vị từ vựng có quan hệ ngữ nghĩa với nhau, nó cho phép làm rõ nghĩa của các đơn vị tù vựng này Ta gọi một tập hợp như vậy là một trường ngữ nghĩa
Trong ví dụ nêu ra ờ trên ta có trường ngữ nghĩa TIN HỌC, trường ngữ nghĩa CÂY LƯƠNG THựC
Ta dùng ký hiệu dom(A) đế chi trường ngữ nghĩa Aệ Với ký hiệu đó ta có:
20
Trang 21dom(TIN HỌC) là trường ngữ nghĩa TIN HỌC,
dom(CÂY LƯƠNG THựC) là trường ngữ nghĩa CÂY LƯƠNG THựC
Như vậy một từ điển từ chuẩn có thể coi là một tập hợp bao gồm nhiều trường ngữ nghĩa Các trường này không loại trừ nhau
và có thê’bao hàm trong nhau
Ví dụ:
đom(TIN HỌC TƯ LIỆU) c dom(TIN HỌC)
Quan hệ cơ bản trong trường ngữ nghĩa là quan hệ thuộc Đó
là quan hệ không đối xứng giữa từ chuẩn với trường ngữ nghĩa
mà nó có liên quan
Ví dụ:
CÂY NGÔ e dom(CÂY LƯƠNG THựC)
Một từ chuẩn có thể liên quan đến nhiều lĩnh vực tri thức, do
đó nó có thê thuộc nhiều trường ngữ nghĩa
Ví dụ:
MÁY TÍNH ĐIỆN TỪ e dom(TIN HỌC)MÁY TÍNH ĐIỆN TỬ 6 dom(Tự ĐỘNG HOÁ)Quan hệ này giúp ta không sử dụng thừa các từ chuẩn khi đánh chỉ số tài liệu hay khi đặt câu hòi
Chẳng hạn, nêu trong một bản đánh chỉ sô' tài liệu đã có từ TIN HỌC thì không cần sử dụng từ MÁY TÍNH ĐIỆN TỬ
Trong trường ngữ nghĩa tồn tại quan hệ câ'p bậc giữa các từ chuẩn, đó là quan hệ không đối xứng giữa hai từ chuẩn trong một trường ngữ nghĩa mà từ chuẩn này có mức độ ý nghĩa rộng hơn từ chuẩn kia
Ví dụ:
CÂY LƯƠNG THựC có mức ý nghĩa rộng hon HOA MẨU
Trang 22HOA MẦU có mức ý nghĩa rộng hơn CÂY NGÔ
Nếu thuật ngữ A có mức ý nghĩa rộng hon thuật ngữ B, thì thuật ngữ B có mức ý nghĩa hẹp hơn thuật ngữ A
Trong các từ điển từ chuẩn tiếng Anh, người ta dùng ký hiệu
BT (Broader Term) đê chỉ thuật ngữ có mức ý nghĩa rộng hơn, và
ký hiệu RT (Narrower Term) đê chỉ thuật ngữ có mức ý nghĩa hẹp hơn
Để xác định thuật ngữ B có mức ý nghĩa hẹp hơn thuật ngữ A hay không, tức là B có là RT của A hay không, ta cần trả lời một trong hai câu hỏi sau:
Với khái niệm trường ngữ nghĩa ta thấy ngay rằng:
B là RT của A khi và chỉ khi B e dom(A) hoặc dom(B) c dom(A)
Ví dụ:
Vì CÂY LÚA e dom(CÂY LƯƠNG THựC) nên CÂY LÚA là
RT của CÂY LƯƠNG THựC
Nhờ xác định quan hệ câp bậc giữa các từ chuẩn mà ta có thê
sử dụng đúng các từ chuẩn khi đánh chỉ sô' mô tả nội dung tài liệu„ tránh được hiện tượng mất thông tin cũng như hiện tượng dư thừa thông tin (nhiễu)
Trang 23Ví dụ:
Do CÂY LÚA là RT của CÂY LƯƠNG THựC nên nêu dùng
từ CÂY LÚA đê’ đánh chỉ sô' một tài liệu nói về CÂY LƯƠNG THựC thì dẫn đến hiện tượng mất thông tin Còn nếu dùng từ CÂY LƯONG TH ựC đê đánh chỉ số một tài liệu chỉ nói về CÂY LÚA thì thông tin bị nhiễu, do có nhiều thông tin không thích hợp
1.1.5 Các phép toán trên tập hợp
Trong một hệ toán học, các suy luận đều thực hiện trong một bối cảnh nào đó, tức là trên một tập hợp các đôl tượng mang tính toàn thê nào đó Ta gọi tập đó là tập vũ trụ Ví dụ, tập số thực R là
tập vũ trụ của các phép toán đại số
Cho tập vũ trụ E và giả sừ A, B là các tập con của E, tức là các
?hẩn tử của tập P(E). Định nghĩa
Phẩn bù của tập họp A, ký hiệu là Ac, là tập hợp gồm phần
từ cua E nhưng không thuộc A
Ac = Ịx e E I X ỉ A|
23
Trang 24Ví dụ:
Giả sử tập vũ trụ là tập R các sô' thực, và hai tập con:
A = { x e R | - K x < 0 ) B = { X e R 10 < x< 1 }Tim A n B , A u B và Ac
Lời giải:
a) A n B = (x e R I -1 < X < 0 và 0 < X < 1} = { 0 }
b ) A u B = | x e R | - l < x < 0 hoặc 0 < X< 1 Ị
= { x e R | - l < x < l }c) Ac = { X e R I X không là số mà *1 < X < 0 }
Trang 26Khi chứng minh ta thường phải dựa vào định nghĩa của các phép toán trền tập hợp Khi đó ta thường sử dụng các cách diễn tả tương đương sau:
Cách dim tả tươiíg đương trong xác định tập hơp
Giả sử A và B là các tập con của tập vũ trụ E và X , y là các phần tử của E.
Trang 27Trường hợy 2 (x e (B n C): Vì x e ( B n C ) nên X e B và X 6 c ,
theo định nghĩa của phép giao Vi X e B nên X e ( A u B ) và vì X € c nên X e (A u C) Vì thế X e(A u B) n (A u C) theo định nghĩa phép giao
Trong cả hai trường hợp ta đều suy r a x e ( A u B ) n ( A u C)
Vì thế theo định nghĩa tập con ta có:
A u ( B n C ) c ( A u B ) n ( A u C ) (1)
Bước 2.
Chứng minh: ( A u B ) n ( A u Q c A u ( B n C ) (2)
27
Trang 28Giả sử X e(A u B) n (A u C) Theo định nghĩa phép giao, ta
có X e(A u B ) v à x e ( A u C) Ta xét hai trường hợp x e A v à x Ể Ả
Trường hợp 1 (x 6 A): Vì X 6 A ta suy ra ngay X e A u (B n C)
theo định nghĩa phép hợp
Trưòiĩg hợp 2 (x Ể A): Vì X e(A u B) mà X Ể A, nên suy r a x e B
Tương tự vì X e(A u C) mà X Ể A, nên suy ra X eC Ta có X e B
và X eC nên suy ra X e (B n C) Từ đó lại suy ra X 6 A u (B n C) theo định nghĩa phép hợp
Trong cả hai trường hợp ta đều suy ra xe A u (B n C) Vì thê theo định nghĩa tập con ta có:
Giả sử X Ễ Ac n Bc Theo định nghĩa phép giao, ta có X G Ac và
X 6 Bc, có nghĩa là X Ể A và X Ế B Điều đó có nghĩa là:
x ể á u B
Vì t hếx e(A u B)c, theo định nghĩa của phép lây phần bù
Từ đó suy ra A‘ n Bc C (A u B)c (2), theo định nghĩa cùa tậpcon
Trang 29= (A - C) u (B - C) (biểu diễn giao qua hiệu)
1.1.6 ứng dụng ctìa phép toán tập hợp trong tìm tin và đánh giá hiệu quả tìm tin
Tìm tin
Như đã trình bày ở trên, trong hoạt động thông tin tư liệu, các mẫu tìm có thế biểu diễn bằng các tập họp Thực hiện các phép toán tập hợp trên các mẫu tìm, ta có thể tìm được những tài liệu đáp ứng yêu cẩu đặt ra
Trang 30- Các tài liệu nói về các thư viện hoặc các trung tầm thông tìn là:d(Thư viện) u d(Trung tâm thông tin) = {13,17,20, 25,34,11,22}
- Các tài liệu chỉ nói về thư viện không nói về trung tâm thông tin là:
d(Thư viện) - d(Trung tâm thông tin) = {20, 34,13}
- Các tài liệu nói vê' tự động hoá các thư viện hoặc các trung tâm thông tin là:
d(Tự động hoá) n (d(Thư viện) u d(Trung tâm thông tin)) = {13,17,22}
- Các tài liệu nói về tự động hoá các thư viện và các trung tâm thông tin là:
d(Tự động hoá) n (d(Thư viện) n d(Trung tâm thông tín)) = {17)
- Các tài liệu chi nói về các thư viện xử lý bằng phương pháp thủ công là:
d(Thư viện) - (d(Trung tâm thông tin) u d(Tự động hoá)) = (20, 34}
Đánh giá hiệu quả tìm tin
Trong các hệ thống tìm tin tư liệu, hiệu quả của tìm tin được thể hiện ở mức độ chính xác và tính đẩy đủ của tài liệu tìm được theo yêu cẩu của người dùng tin
Trang 31B - A = Tập hợp các tài liệu tìm ra nhưng không phù hợp (nhiễu).
A - B = Tập hợp các tài liệu phù hợp nhưng bị bỏ sót (im lặng).
Giả sử a, b, c là các phần tử (tài liệu) của các tập A n B, B - A,
A - B tương ứng.
E
Hình 1.1.5.
Hiệu quả tìm tin được xác định bằng các chi số sau:
Hệ s ố đây đủ: Hệ sô' đầy đủ là ti số giữa tài liệu phù hợp tìm ra
và tài liệu phù hợp có trong kho:
Trang 32I.1Ể7 Phân hoạch của một tập hợp
Khái niệm phân hoạch của một tập họp là khái niệm được dùng đẻ’ phân lóp một tập hợp, được định nghĩa như sau: _ Định nghĩa
Một phân hoạch của một tập hợp E là sự phân chia tập hợp
đó thành một họ các tập con không rỗng sao cho mỗi phẩn tử của
E đều thuộc một và chi một tập con nào đó của họ. _ Như vậy một họ các tập con {Ai, A2, , A„Ị của tập hợp E lập thành một phân hoạch hay một sự phân lớp của E nêu:
1) Các Ai đều không rỗng, tức là:
Ai * 0 , Vi
2) Các Aj đôi một ròi nhau, tức là:
A; n Aj = 0 , với mọi i * j 3) Các Ai phủ E, tức là:
A| u A2 u u An = E
Hình 1.1.6 Phân hoạch của một tập hợp
Trang 33mà thôi.
Ví dụ 3:
Giả sử E là tập hợp các học sinh của một lớp, A là tập hợp các học sinh biết tiếng Anh, B là tập hợp các học sinh biết tiêhg Nga
Ta xét các tập con I, II, III, IV của E xác định như sau:
I = A n B = {học sinh biết tiếng Anh và tiếng Nga}
II = A n Bc = {học sinh chi biết tiêng AnhỊ
III = A° n B = {học sinh chỉ biết tiếng Nga Ị
IV = (A u B)c = {học sinh không biết một ngoại ngữ nào)
Hình 1.1.7
RÕ ràng, bốn tập con I, II, III, IV lập thành một phân hoạch cùa E, vì mỗi học sinh của lớp chỉ thuộc một và chi một trong bốn tập con nói trên
33
Trang 341.2ẻ QUAN HỆ
Trong thế giới quanh ta có bie't bao mối quan hệ: quan hệ giữa những người cùng huyết thông, quan hệ giữa thày và trò, quan hệ giữa chủ và thợ, quan hệ giữa bạn đọc và sách của thư v iện , Tương tự, các đôi tượng của toán học và tin học có thể có quan hệ theo nhiều cách khác nhau Tập hợp A có quan hệ với tập hợp B nếu A là tập con của B, hay A là phẩn bù của B Số X có quan
hệ với số y nếu X < y, hay X chia hết cho y, hay nếu X 2 + y2 = 1, Trong mục này chúng ta sẽ đề cập đến lý thuyết toán học của các quan hệ trên các tập hợp, tập trung vào các cách biểu diễn quan hệ và các tính châ't của chúng, cùng với hai quan hệ cơ bản là quan hệ tương đương, quan hệ thứ tự và các ứng dụng của chúng, đặc biệt là các ứng dụng của quan hệ trong mô tả nguyên tắc lưu trữ thông tin và câu trúc toán học của các hệ thống phân loại
Trước hết ta trình bày khái niệm tích Đề - các của các tập hợp
1.2.1 Tích Đ ề - các của các tập hợp
Giả sử E và F là hai tập hợp không rỗng Với mỗi phần tủ aeE
và b eF ta lập một cặp có thứ tự (a,b) và coi đó là một phần tử của một tập hợp mới
Hai phẩn tử (a,b) và (c,d) được gọi là bằng nhau khi và chi khi a = c và b = d Nếu a ^ b thì (a,b) và (b,a) được coi là khác nhau Điểu đó chứng tỏ thứ tự các cặp có một ý nghĩa xác định. _Định nghĩa
Ta gọi tích Đề - các của hai tập hợp E và F, ký hiệu là E X F, là tập gồm các phần từ là các cặp có thứ tự (a,b), trong đó a e E và beF
Ký hiệu:
_ E X F = {(a,b) 1 a e E và beFỊ Tích Để - các của hai tập hợp không giao hoán, tức là:
E x F ^ F x E nếu E * F
Trang 35Trong trường hợp E = F ta có tích E X E, ký hiệu ỉà E2.
F
Hình 1.2.1
Chú ý rằng: I EI = 4, IF I = 3 và |h|x|f| = 4x3 = 12 = i E X F I Tông quát ta có công thức:
Trang 36- Dâu hiệu về chủng loại: TOÁN, LÝ, HOÁ, SINH, VĂN, sử ,ĐỊA.
- Dâu hiệu về thứ tự: LỚP 10, LỚP 11, LỚP 12
Khi đó ta có các quyển sách TOÁN LỚP 10, TOÁN LỚP 11,
LÝ LỚP 12, VĂN LỚP 11,
Để biểu diễn tập hợp các quyển sách đó, ta gọi:
A = {TOÁN, LÝ, HOÁ, SINH, VĂN, s ử , ĐỊA}
Nếu cho:
A = {x e R 11 < X < 5 }
B = {x e R 11 < X < 3 } thì Ax B là tập các điểm trong hình chữ nhật
R3
2
1
A K 13
Hình 1.2.2
Trang 37Ta có thể m ở rộng định nghĩa trên cho tích Đề - các của nhiều tập hợp.
Định nghĩa
Ta gọi tích Đề - các của n tập hợp E|, E2/ En, ký hiệu là
El X Eị x „ X En, là tập hợp gồm tâ't cả các bộ - n có dạng (ai, ã 2 ,
,an), trong đó a, e E|, a2 e E2, a n € En
D là tập họp các ngày trong tuần:
D = {II, III, IV, V, VI, VII)
37
Trang 38Khi đó một bộ - 4, như (a, p, 3, IV} cho ta biết thông tin là giáo viên a, có giờ giảng ở lớp p, vào tiết học thứ 3, ngày thứ IV.
Do đó tập tích A X B X c X D biểu diễn tâ't cà các cách bố t r í
giờ giảng của các giáo viên có thê lập được
1.2.2 Quan hệ hai ngôi và nguyên tắc lưu trữ thông tin
Quatt hệ hai ngôi
Trong mục trước ta thây một tập con A của tập E có khả năng biểu thị một thuộc tính nào đó của các phẩn tử của E Sau đây ta sẽ thấy rằng t ậ D con của tích Đề - các E X F có khả năng biểu thị một quan hệ nào đó giữa các phẩn tử của E với các phần từ của F
Giả sử X = (a, b, c} là tập hợp các sinh viên, Y = {1, 2, 3, 4} là tập hợp các cuốn sách Nêu sinh viên X đã đọc cuốn sách y, ta nói X
c ó quan hệ R với y và ký hiệu là X R y Khi đó, giả sử ta có:
a R 2, vì sinh viên a đã đọc auyển sách 2;
a R 4, vì sinh viên a đã đọc quyển sách 4;
b R 1, vì sinh viên b đã đọc quyển sách 1;
b R 3, vì sinh viên b đã đọc quyển sách 3;
c R 3, vì sinh viên c đã đọc quyển sách 3;
Ta gọi tập các cặp có quan hệ R với nhau là tập R, ta có:
R=Ị ( a, 2), (a, 4), (b, 1), (b, 3), (c, 3)1Xét tập tích Đề các X X Y, ta có:
X X Y = Ị(a, 1), (a, 2), (a, 3), (a 4), {(b, 1), (b, 2), (b, 3), (b, 4), (c, 1),
Trang 39Định nghĩa
Cho hai tập họp X và Y khác rỗng Ta gọi tập con R của tích
Đề - các X X Y là quan hệ hai ngôi từ X đến Y
Nêu cặp (a, b) 6 R ta nói "a có quan hệ R vói b", ký hiệu là
a R b
Nếu cặp (a, b) Ể R ta nói "a có không quan hệ R với b"
Khi X = Y ta cỏ quan hệ hai ngôi trên tập X. Quan hệ R xác định như trên là quan hệ hai ngôi, vì đó là quan hệ giữa hai tập X và Y Tổng quát hơn ta có quan hệ n - ngôi trên n tập hợp, sẽ trình bày ở mục sau
Nếu X = Y ta có quan hệ hai ngôi trên tập X, đó là tập con của tập X X X
Ngoài cách trình bày bằng cách liệt kê các phần tử của tập con
R như ở trên, ta còn có thể trình bày quan hệ hai ngôi bằng sơ đô'
mũi tên, bằng sơ dồĐc'các, hoặc bằng ma trận nhị phân.
Ví dụ 1:
Trờ lại ví dụ trên, quan hệ "sinh viên đọc sách" giữa tập các sinh viên X = Ịa, b, c} và tập các quyển sách Y = {1, 2, 3, 4} được xác định bời:
R = {(a, 2), (a, 4), (b, 1), (b, 3), (c, 3)}
Khi đó R có các cách biểu diễn sau:
39
Trang 40Sơ đô mũi tên
Các phẩn tử của
các tập hợp X và Y
được biểu diễn bằng
một dâu châm (») Khi