Từ thông tin của người sử dụngbiểu thị qua câu truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếphạng tập các tài liệu trong câu trả lời luôn ưu tiên cho những thông tin phù
Trang 1TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
KHOA CÔNG NGHỆ THÔNG TIN ĐINH THỊ QUYÊN
PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM
ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA
TRÊN NỘI DUNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Khoa học máy tính
ĐINH THỊ QUYÊN
Trang 2TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
KHOA CÔNG NGHỆ THÔNG TIN
HÀ NỘI, 2015
PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÊM
ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA
TRÊN NỘI DUNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Khoa học máy tính
Ngưòi hướng dẫn khoa học
TS TRỊNH ĐÌNH VINH
Trang 3LỜI CẢM ƠN
Để hoàn thành khóa luận này, em xin bày tỏ lòng cảm ơn sâu sắc đến TS.Trịnh Đình Vinh, thầy là người đã giúp đỡ, chỉ bảo em rất tận tình trong suốt thờigian viết bài
Em xin chân thành cảm ơn quý thầy cô trong khoa Công nghệ thông tin Trường Đại học Sư phạm Hà Nội 2 đã rất nhiệt tình và tâm huyết truyền đạt kiếnthức cho chúng em trong suốt 4 năm học tập Các thầy cô không chỉ dạy chúng
-em kiến thức chuyên ngành mà còn truyền đạt những kinh nghiệm sống quý báu,
đó là hành trang, là nền tảng để chúng em có thể tự tin hơn trong cuộc sống saunày
Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đã luôn chia sẻ,động viên trong thời gian học tập và hoàn thành luận văn tốt nghiệp
Dù đã rất cố gắng hoàn thiện để nghiên cứu, sưu tầm tư liệu nhưng khóa luậncũng không tránh khỏi những hạn chế và thiếu sót Em rất mong nhận được sựgóp ý của quý thầy cô và các bạn để khóa luận của em được hoàn thiện hơn
Em xin chân thảnh cảm ơn!
Hà Nội, ngày tháng 05 năm 2015 Sinh viên thưc hiền
Đinh Thị Quyên
Trang 4LỜI CAM ĐOAN
Tên em ía: ĐINH THỊ QUYÊN
Sinh viên lớp : K37 - CNTT, khoa Công nghê Thông tin , trương Đai học Sư Phạm Hà Nội 2
Em xin cam đoan:
1 Đê tai: “Phươngpháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm
văn bản tiếng anh dựa trên nội dung” là nghiên cứu của riêng em , dưới sư
hướng dân của thây giáo TS Trịnh Đình Vinh
2 Khóa luận hoan toan không sao chép của tác gia nao khác.Neu sai em xin hoan toan chiu trách nhịêm
Hà Nội, ngày tháng 05 năm 2015
Ngưòi cam đoan
Đỉnh Thị Quyên
MỤC LỤC
Trang 5LỜI CAM ĐOAN
MỞ ĐÀU 1
CHƯƠNG 1: Cơ SỞ LÝ THUYẾT 5
1.1 Các bộ máy tìm kiếm 5
1.2 Chiến lược tìm kiếm 6
1.2.1 Các từ dừng và từ gốc 7
1.2.2 Lập chỉ mục tự động (Auto indexing) 8
1.2.3 Phân nhóm văn bản 9
1.2.4 Truy vấn Boolean 10
1.2.5 Cấu trúc tệp 11
1.2.6 Chỉ số hóa và bổ sung 13
1.2.7 Kỹ thuật nén chỉ số (index compression) 13
1.3 Hệ thống khai thác thông tin 14
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 19
■ 2.1 Tìm kiếm văn bản theo mô hình tập thô dung sai 19
2.1.1 Khái niệm tập thô và không gian dung sai 20
2.1.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin 22
2.2 Tìm kiếm văn bản theo mô hình xác suất 26
2.3 Tìm kiếm văn bản theo mô hình không gian vectơ 26
2.3.1 Bảng tần suất 26
2.3.2 Phương pháp TF-IDF (Term Frequency-Inverse Document Frequency) 28
Trang 6LỜI CAM ĐOAN
2.3.3 Phân tích ngữ nghĩa tiềm ẩn LSA (Latent Semantic Analysis) 30
CHƯƠNG 3: TÌM KIỂM VĂN BẢN TIẾNG ANH BẰNG PHƯƠNG PHÁP PHÂN lí CH NGỮ NGHĨA TIỀM ẨN 47
3.1 Phát biểu bài toán 47
3.2 Giải quyết bài toán 48
3.2.1 Giai đoạn tiền xử lý văn bản 48
3.2.2.Giai đoạn phân tích giá tri riêng SVD (Singular Value Decompsition) và giảm chiều dữ liệu 52
3.2.3.Ánh xạ tài liệu truy vấn vào không gian vectơ 54
3.2.4.Tính khoảng cách cosin và hiển thị kết quả tìm kiếm 57
3.3 Kết quả thực nghiệm 58
3.3.1.Thực nghiệm 58
3.3.2.Đánh giá kết quả tìm kiếm 59
KẾT LUÂN VÀ HƯỚNG PHÁT TRIỂN 61
TÀI LIỆU THAM KHẢO 62
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ký hiệu viết tắt
Trang 7LỜI CAM ĐOAN
DANH MỤC CÁC BẢNG •
Bảng 2.1 Bảng tần suất của một số văn bản
Bảng 2.2 Ma trận tài liệu - thuật ngữ
Bảng 2.3 Ma trận kết quả tài liệu - thuật ngữ TF-IDF
Bảng 2.4 Kết quả khoảng cách từ truy vấn Q với các tài liệu
Bảng 2.5 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu
DANH MỤC CÁC HÌNH
•
Hình 1.1 Ví dụ phân phối của các giá trị có thứ tự ưu tiên
Hình 2.1 Sử dụng các khái niệm cho truy vấn
Trang 8LỜI CAM ĐOAN
Hình 2.2 Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu
Hình 2.3 Sơ đồ SVD của 1 ma trận hình chữ nhật thuật ngữ - tài liệu
Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ - tài liệuHình 3.1 File chứa các từ dừng (stopword)
Hình 3.2 Các thông số Ư, S"1, VT
Hình 3.3 Ánh xạ truy vấn q vào cùng một không gian vecto cơ sở dữ liệu Hình 3.4 Giao diện tìm kiếm văn bản Hình 3.5 Kết quả tìm kiếm văn bản
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng củaviệc lưu trữ và tìm kiếm thông tin Vói sự phát triển của máy tính, việc máytính có khả năng lưu trữ thông tin vói số lượng lớn là rất dễ dàng Nhưng vấn
đề là làm thế nào để tìm kiếm một thông tín từ nguồn dữ liệu lớn như vậy?Lĩnh vực truy tìm thông tin (Information Retrieval - IR) ra đời vào những năm
1950 vì nhu càu thiết yếu này Hơn 40 năm sau, lĩnh vực đó trưởng thành đáng
kể, nhiều hệ thống IR được sử dụng phổ biến với sự đa dạng trạng thái người
sử dụng Sự phát triển của lĩnh vực này trong những năm 1970 đến những năm
1980 dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truytìm tài liệu khác nhau được phát triển nhưng chỉ có hiệu quả trong những tậphợp văn bản nhỏ Sự thay đổi lớn vào năm 1992, với sự khởi đầu bằng cuộcthảo luận về truy tìm văn bản, sau đó một loạt thảo luận kiểm định đứng đầubởi nhiều hãng khác nhau của Mỹ dưói sự bảo hộ của Viện Tiêu chuẩn vàCông nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu về hệthống IR vói những tập họp văn bản lớn Những thuật toán IR đã phát triểnttong những năm từ năm 1996 đến năm 1998, là những kĩ thuật đàu tiên đượcdùng cho việc tìm kiếm trên mạng toàn càu
Văn bản là một tong số các dạng của dữ liệu đa phương tiện, nó đượcquan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ, điểnhình như bảng nội dung của một cuốn sách Ngày nay, sự lớn mạnh của thôngtin với phàn lớn là dạng văn bản, hơn nữa nó xuất phát từ nhu càu thực tế sửdụng của con người Tài liệu văn bản chiếm đa số trong mọi cơ quan tổ chức,
số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thếviệc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thểthực hiện được Cùng với sự ra đời và phát triển của máy tính, các công cụ xử
lý cũng ngày càng hoàn thiện dựa trên những kĩ thuật hiện đại phục vụ cho nhucầu đó
Trang 10Từ đó, một ý tưởng thú vị được xem xét, liệu việc truy tìm dựa vào nộidung, ý nghĩa có hiệu quả hơn là việc truy tìm trực tiếp trên các thuật ngữ? Môhình LSA ra đời là một giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên
cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở nội dung
Trước khi truy tìm các tài liệu được coi như danh sách các từ và chúng phảiđược đánh chỉ mục Có một thực tế là không phải tất cả các từ đều có ý nghĩa, vìvậy việc loại đi danh sách các từ không có nghĩa vô cùng quan ttọng và các từkhông có ý nghĩa sẽ không được đánh chỉ mục Từ thông tin của người sử dụngbiểu thị qua câu truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếphạng tập các tài liệu trong câu trả lời luôn ưu tiên cho những thông tin phù họp vớitruy vấn của người sử dụng đưa ra Hơn thế nữa, một kĩ thuật được đánh giá là tốtphải dựa trên việc xếp hạng các tài liệu này, tức là những tài liệu phù hợp và đượccoi là “gần” vói câu tiny vấn nhất sẽ được xếp lên trên các tài liệu ít phù hợp trong
danh sách tài liệu trả lời Chính vì vậy, em lựa chọn đề tài: “Phương pháp phân
tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung” làm đề
tài khóa luận tốt nghiệp
2 Mục đích nghiên cứu
Khóa luận tìm hiểu về một số phương pháp tìm kiếm văn bản, phương phápLSA Từ đó, xây dựng chương trình tìm kiếm văn bản tiếng anh bằng phương phápLSA để người dùng có thể tìm kiếm thông tin, tài liệu một cách hiệu quả
3 Nhiệm vụ nghiên cứu
Nhiệm vụ của khóa luận là đi sâu vào nghiên cứu phương pháp tìm kiếmvăn bản LSA (Latent Semantic Analysis): Từ việc hiểu được phương pháp LSAnhư thế nào, đến biết được các bước thực hiện cơ bản LSA Từ đó xây dựng đượcchương trình tìm kiếm văn bản với tốc độ nhanh và độ chính xác cao
Trang 114 Đổi tượng và phạm vi nghiên cứu
Phương pháp LSA, kỹ thuật phân tách giá trị riêng SVD
5 Giả thuyết khoa học
Phương pháp tìm kiếm văn bản LSA được tìm hiểu và nghiên cứu sẽ giúphiểu rõ hơn về mô hình tìm kiếm thông tin
Nếu chương trình tìm kiếm văn bản được đưa vào thực tế sẽ giúp cho người
sử dụng có thể tìm kiếm được những thông tin, tài liệu cần thiết một cách chínhxác và hiệu quả từ nguồn tài liệu văn bản rộng lớn
6 Phương pháp nghiền cứu
a Phương pháp nghiên cứu lý luận
Nghiên cứu qua việc đọc sách, báo và các tài liệu liên quan nhằm xây dựng
cơ sở lý thuyết của đề tài và các biện pháp cần thiết để giải quyết các vấn đề của đềtài
b Phương pháp chuyên gia
Tham khảo các ý kiến của các chuyên gia, tìm hiểu những quan điểm, kinhnghiệm của họ để có thể thiết kế chương trình phù hợp vói yêu càu thực tiễn
c Phương pháp thực nghiệm
Căn cứ vào quan sát thực tiễn, yêu cầu của cơ sở, căn cứ vào lý luận đượcnghiên cứu và kết quả đã đạt được để có được sự tương tác giữa người dùng vàchương trình, từ đó có nhiều thiết kế hiệu quả
7 Cấu trúc khóa luận
Ngoài phần lời cảm ơn, mở đầu, kết luận và phương hướng phát triển đề tài,tài liệu tham khảo thì khóa luận bao gồm:
Chương 1 Cơ sở lý thuyết
Giới thiệu về các bộ máy tìm kiếm cũng như các chiến lược tìm kiếm vàkhái quát về hệ thống khai thác thông tin
Chưoug 2 Một số phương pháp tìm kiếm văn bản Giói thiệu về các
phương pháp tìm kiếm văn bản, phương pháp LSA với đặc điểm nổi bật được lựa chọn làm phương pháp để xây dựng chương trình tìm kiếm văn bản
Trang 12Với các bộ máy tìm kiếm có thể:
- lìm những thông tin chính xác: Như thông tin liên lạc của một cá nhân, tổchức, hoặc chi tiết liên quan đến một sản phẩm nào đó
- Tìm những tài liệu chuyên biệt, đặc thù: Như các công ước quốc tế, cácvăn bản nhà nước
- Tìm những website mới xuất hiện trên mạng: Với vòng quay tương đốinhanh, các robot có thể tiếp cận các trang web mới hoặc quay lại cập nhật các ừangweb đã lưu chỉ mục trong vòng vài tuần lễ
- Ket quả các công thức tìm kiếm đa dạng: Với các từ khóa, thuật ngữ, thuậttoán khác nhau theo khả năng đáp ứng và công nghệ phát triển của từng bộ máy
Tuy nhiên, có một điểm cần lưu ý khi sử dụng các bộ máy tìm kiếm đó làcác trang được đưa ra trong kết quả tìm kiếm không phải là trang hiện hữu trênmạng mà là ừang được lưu trong chỉ mục của bộ máy tìm kiếm
Một số bộ máy tìm kiếm thông dụng:
- Ask Jeeves: Cơ chế tìm kiếm theo ngôn ngữ tự nhiên, có thể cho phép lưutrữ đến 1000 kết quả tìm kiếm, sắp xếp và ghi chú trong hồ sơ cá nhân Có nhiềukiểu giao diện khác nhau cho người dùng lựa chọn và các phiên bản tiếng Nhật,Tây Ban Nha, Đức, Pháp, Hà Lan, Ý
Trang 13- Brainboost: Tìm kiếm theo ngôn ngữ tự nhiên, kết quả được trích từ cáctrang web có chứa thông tín trả lời cho câu hỏi được đặt ra.
- Exalead: Hai giao diện Exalead tiếng Pháp và Exalead tiếng Anh Có nhiềuchức năng tìm kiếm nâng cao giúp giói hạn phạm vi tìm kiếm Kết quả được gióithiệu kèm với hình ảnh thu nhỏ của trang web và những gợi ý giúp tìm kiếm kĩ hơnbằng các thuật ngữ, khái niệm lân cận và chủ đề liên quan
- Factbites: Cung cấp thông tin bách khoa, với những trích đoạn hoàn chỉnh
và có nghĩa về vấn đề đang tìm kiếm, thu thập được tò các trang web khác nhau,gợi ý các chủ đề lân cận, có liên quan cũng như danh sách các chủ đề được tìmkiếm nhiều nhất Giao diện duy nhất bằng tiếng Anh
- Google: Bộ máy tìm kiếm được sử dụng nhiều nhất hiện nay, sưu tập được
một lượng thông tin vô cùng lớn trên mạng, bằng hàu như tất cả các thứ ngôn ngữ
có tồn tại trên internet Có nhiều tính năng tìm kiếm nâng cao khác nhau, giúp dễdàng giới hạn phạm vi tìm kiếm Có giao diện bằng nhiều thứ tiếng, kể cả tiếngViệt
- Google Scholar: Phiên bản thử nghiệm giúp tìm kiếm các thông tin thuầntúy khoa học và học thuật (sách, tạp chí, luận văn, luận án, bài giảng ) thu thập từcác trường đại học, viện nghiên cứu, phòng thí nghiệm, nhà xuất bản khoa học, cácchuyên gia, các tổ chức
- Scirus: Tìm kiếm các tài liệu có tính học thuật trong ngành khoa học, hiệuquả tốt hơn Google Scholar về nhiều mặt vói nhiều tính năng tìm kiếm nâng cao vàgiới hạn phạm vi tìm kiếm
- Yahoo: Bộ máy tìm kiếm tương tự như google, cũng khá phổ biến và hiệuquả, có nhiều chức năng tìm kiếm nâng cao và hạn chế phạm vi tìm kiếm
1.2 Chiến lược tìm kiếm
Tất cả các chiến lược tìm kiếm được dựa vào so sánh giữa truy vấn với cáctài liệu được lưu trữ Đôi khi, việc so sánh này chỉ là gián tiếp khi truy vấn được sosánh vói các cụm (hoặc chính xác hơn vói những đặc điểm đại diện cho các cụm)
Trang 14Tạo sự phân biệt giữa các kiểu chiến lược tìm kiếm khác nhau đôi khi cóthể được hiểu qua việc xét ngôn ngữ truy vấn, đó là ngôn ngữ biểu diễn thôngtin Tính tự nhiên của ngôn ngữ thường được yêu càu tính tự nhiên ưong chiếnlược tìm kiếm
1.2.1 Các từ dừng và từ gốc
Đa số ngôn ngữ tự nhiên có những từ chức năng, những liên từ giói từxuất hiện vói số lượng lớn trong các tài liệu và điển hình là ít được sử dụngtrong việc xác định các tài liệu thỏa mãn thông tín tìm kiếm Các từ như vậy (vídụ: a, an, the, on ) được gọi là các từ dừng (stopword)
Các kỹ thuật tìm kiếm thông thường không chỉ số hóa các từ dừng, nhưng
có ý tưởng thay thế chúng với một đối tượng thay thế để ghi nhớ sự xuất hiệncủa các từ dừng Điều này cho phép tìm kiếm những cụm từ chứa các từ dừng,
ví dụ như “books on the table” Việc giảm bớt không gian chỉ số và cải thiệnthực hiện là những lý do quan trọng để loại trừ các từ dừng Tuy nhiên, như vậymột số câu truy vấn như “to be or not to be” có thể không còn được hỏi Mộtđiều nữa là từ nhiều nghĩa (một từ có nhiều nghĩa phụ thuộc vào văn cảnh hoặccách nói): “can” là một động từ thì không có ích cho các truy vấn từ khóa,nhưng “can” là một danh từ có thể là trung tâm đối với một câu truy vấn, vì yậy
nó không nằm trong danh sách từ dừng
Stemmỉng (từ gốc) hay là conflating là phương thức hỗ trợ sự phù hợp
của một thuật ngữ truy vấn với biến đổi hình thái trong kho dữ liệu Trong tiếngAnh, cũng như một số ngôn ngữ khác, các phần của văn nói, thời và số lượngđược chuyển từ những biến tố của từ Có thể muốn một truy vấn chứa từ
“comparable” phù hợp vói một tài liệu chứa từ “compare” Các phương phápstemming nhìn chung sử dụng sự kết họp việc phân tích hình thái (chẳng hạn,giải thuật của Porter hay to cứu từ điển như WordNet) Stemming có thể làmtăng số lượng các tài liệu trả lời, nhưng có thể bao gồm cả các tài liệu khôngthích họp Chẳng hạn, giải thuật Porter không chấp nhận “university” và
“universal” cùng là “univers” Conflating, xác định các thuật ngữ liên quan quaviệc sử dụng từ điển, trong đó liệt kê các thuật ngữ đồng nghĩa và đôi khi cả liệt
kê cả quan hệ giữa chúng Ví dụ, các từ “study”, “leaming”, “school word”,
Trang 15“reading” có ý nghĩa tương tự nhau Thay YÌ sử dụng bốn thuật ngữ chỉ mục, cóthể chỉ sử dụng một thuật ngữ “study” tổng quát để đại diện bốn thuật ngữ này.
1.2.2 Lập chỉ mục tự động (Auto indexing)
Trong tiến trình chỉ mục, tài liệu được coi như một danh sách các từ, ừong
đó các từ dừng đã được loại bỏ khỏi danh sách Các thuộc ngữ hay các từ còn lạiđược xử lý tiếp để nâng cao hiệu quả chỉ mục và truy tìm Các thao tác chung nhấtthực hiện trên các thuộc ngữ này là tìm từ gốc (stemming), tìm từ đồng nghĩa vàxác định trọng số
Vói stemming, tệp chỉ mục sẽ đầy đủ hơn và việc truy tìm thông tin sẽ hiệuquả hơn Recall thông tin sẽ được nâng cao bởi YÌ gốc từ (root) tổng quan hơn vànhiều tài liệu liên quan sẽ được tìm ra để đáp ứng câu truy vấn Nhưng precision cóthể giảm vì thuật ngữ gốc từ ít tính cụ thể
Các thuật ngữ chỉ mục khác nhau có tần số xuất hiện và tầm quan trọng khácnhau trong tài liệu Chú ý rằng, tần số xuất hiện các thuật ngữ sau khi thực hiệnstemming và thực hiện thesaurus sẽ là tổng tàn số mọi sự biến đổi (variantions) Ví
dụ, tần số khái niệm “renew” sẽ là tổng tần số xuất hiện của các thuật ngữ
“renewed”, “renewal”, “renewing” Việc đề xuất các trọng số “thuật ngữ quantrọng” cho thuật ngữ tài liệu và thuật ngữ câu truy vấn có thể giúp phân biệt mức
độ quan ttọng của các thuật ngữ ttong kết quả tìm kiếm Khi bổ sung trọng số chocác thuật ngữ trong tệp mục lục, các tài liệu khác nhau với tính tương đồng khácnhau có thể xếp hạng theo dãy thứ tự độ tương đồng giảm dần, vào thời điểm truyvấn
Tổng kết chỉ mục tự động
Mục tiêu của chỉ mục tự động là tìm ra các thuật ngữ tốt nhất để đại diện chotài liệu, sao cho các tài liệu được truy tìm chính xác trong tiến trình truy vấn Tiếntrình chỉ mục tự động bao gồm các bước sau:
-Nhận biết các từ trong tiêu đề, tóm tắt của tài liệu
-Loại bỏ các từ dừng bằng cách tham khảo từ điển đặc biệt hoặc danh sáchdừng
Trang 16- Đếm tàn số stem trong mỗi tài liệu.
- Tính toán trọng số các thuật ngữ hay từ gốc
- Tạo tệp mục lục trên cơ sở các thuật ngữ và trọng số nói trên
1.2.3 Phân nhóm văn bản
Với nhiệm vụ bài toán khai phá dữ liệu văn bản là tìm kiếm những thông tincòn tiềm ẩn trong cơ sở dữ liệu Với những cơ sở dữ liệu lớn vấn đề đặt ra là các hệthống tìm kiếm sao cho hiệu quả, một trong những kỹ thuật chủ yếu là phân nhómvăn bản nhằm giải quyết vấn đề trên
Trong bài toán phân nhóm, một nhóm là một tập hợp các phàn tử giống nhauhơn so với các phàn tử thuộc nhóm khác Mục tiêu của bài toán phân nhóm là tìm
ra một tập họp các nhóm sao cho độ tương đồng giữa các phần bên trong mỗi nhómcao và độ tương đồng giữa các phần tử khác nhau phải thấp
• Phương pháp phân nhóm phân cấp
Đối với phương pháp phân nhóm phân cấp, quá trình xây dựng phân cấpthường có chi phí lớn nhất Đã có nhiều thuật toán được phát triển nhằm xây dụngcây phân cấp văn bản một cách hiệu quả Các thuật toán này thường có chungphương pháp lặp quá trình phân tích hai cặp nhóm đã được xây dựng từ trước vàhợp nhất cặp có độ tương đồng lớn nhất thành một nhóm văn bản Các thuật toánchỉ khác nhau về việc tính toán độ tương đồng khi một tong số các cặp là sản phẩmcủa quá trình họp nhất trước đó Phương pháp phân nhóm đơn liên kết định nghĩa
độ tương đồng là độ tương đồng lớn nhất giữa hai đơn vị từ hai nhóm Các phươngpháp phân nhóm khác hoàn toàn sử dụng độ tương đồng nhỏ nhất, phương phápphân nhóm liên kết nhóm trung bình sử dụng độ tương đồng trung bình Các thuậttoán này thường có chung đặc tính tích tụ ở chỗ chứng đều lặp quá trình ghép hainhóm văn bản thành một nhóm
Trang 17Các thuật toán tích tụ theo định nghĩa của thuật toán tham lam, nghĩa là cặpnhóm văn bản được chọn để kết hợp là cặp gần giống nhau nhất theo một tiêu chínào đó Thuật toán này có tính toàn cục ở chỗ tất cả các cặp nhóm đều được xử lý
một trong những nhược điểm của thuật toán dạng này
• Phương pháp phân nhóm không phân cấp
Các thuật toán phân nhóm dạng không phân cấp hoạt động theo cách thứctrái ngược so với các thuật toán phân nhóm phân cấp Các thuật toán này luôn tăngđơn điệu số phần tử của từng nhóm và các nhóm mới có thể là kết quả của quátrình tách hay hợp các nhóm cũ Các phương pháp phân nhóm không phân cấp cóthể yêu cầu các văn bản không thể được trùng nhau ở các nhóm khác nhau (nhưphương pháp chia) hoặc có thể tiling nhau
1.2.4 Truy vấn Boolean
Loại đơn giản nhất của truy vấn yêu càu gồm mối quan hệ giữa các thuật ngữ
và các tài liệu, các truy vấn giống nhau như:
-Những tài liệu chứa tò “Java”
-Những tài liệu chứa tò “Java” nhưng không chứa từ “coffee”
- Các tài liệu chứa cụm “Java” và “Island” xuất hiện trong cùng một câu Haitruy vấn đầu được gọi là những truy vấn “gần” (proximity queries)
bởi chúng bao gồm khoảng cách từ vựng giữa các dấu hiệu Các câu hỏi này có thểđược trả lời sử dụng chỉ số ngược Phàn sau sẽ mô tả việc các chỉ số được xây dựng từ một tập hợp các tài liệu ngược như thế nào
Các câu truy vấn được biểu diễn bỏi tập từ khóa kết nối vói tập phép toánBool Ba loại toán tử hay được sử dụng là OR, AND, NOT Quy tắc truy tìm kiếmnhư sau:
-Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa Ví dụ, cho trước câu truy
trong tài liệu) đủ để đáp ứng truy tìm bản ghi này
Trang 181 0
diện trong tài liệu để đem lại kết quả
1.2.5 Cấu trúc tệp
Một trong các vấn đề cơ bản trong thiết kế hệ thống IR là quyết định sử dụngloại cấu trúc tệp nào để lưu trữ CSDL tài liệu, cấu trúc tệp sử dụng trong các hệthống IR bao gồm các tệp phẳng, tệp mục lục (inverted), tệp chữ ký và các tệp khácnhư cây và đồ thị
Với quan điểm tệp phẳng, một hay nhiều tài liệu lưu trữ trong tệp, thôngthường trong mã ASCII hay EBCDIC, không chỉ mục tài liệu Tìm kiếm tệp phẳngthông qua tìm kiếm mẫu Trong UNIX, khi lưu trữ tập hợp các tài liệu người ta lưutrữ mỗi tài liệu trong một tệp, trong danh mục Các tệp này có thể tìm kiếm nhờ cáccông cụ tìm kiếm theo mẫu như “grep”, “awk” Tiệm cận này không hiệu quả vìmỗi lần truy vấn thì toàn bộ tập hợp tài liệu phải được duyệt để tìm ra mẫu vănbản
Các tệp chữ ký: Chứa các chữ ký (mẫu bit) đại diện cho tài liệu Có nhiềucách để sinh chữ ký tài liệu Câu truy vấn được đại diện bởi chữ ký mà nó sẽ được
so sánh với chữ ký tài liệu trong khi truy tìm
Cách sử dụng chung nhất là tệp mục lục (inverted) Đó là loại tệp chi mục
Các tệp mục lục (inverted fîtes)
Trong tệp mục lục, chỉ mục được xây dựng cho mỗi thuật ngữ để lưu trữ chỉ
số định danh (ID) bản ghi cho toàn bộ bản ghi chứa thuật ngữ này Một đầu vào tệpmục lục thông thường chứa từ khóa (thuật ngữ) và một số ID tài liệu Mỗi từ khóa
và các ID tài liệu (mà nó chứa từ khóa) được tổ chức thành một hàng Ví dụ tệpmục lục như sau:
Term2: Recordi, Record2
Trang 19Term3: Record2, Record3, Record4
TemXị: Recordi, Record2, Record3, Record4 Trong đó, Temii (i = 1, 2, 3, 4) là số ID của thuật ngữ chỉ mục i, Recordi (i = 1,
2, 3, 4) là số ID của bản ghi (record) i hay tài liệu i
ý nghĩa tương tự Việc tìm kiếm sẽ được thực hiện nhanh chóng trong các tệpmục lục Chỉ các hàng chứa thuật ngữ tìm kiếm mới được truy tìm Không cầntìm mọi bản ghi trong CSDL
Quy tắc tìm kiếm mô hình Bool trên cơ sở các tệp mục lục như sau:
hàng j mọi mục trong danh sách trộn là đầu ra kết quả
mục xuất hiện trong hàng i nhưng không trong hàng j Truy vấn (TemXị AND
TeriĩLị) sẽ cho đầu ra là rỗng
Mở rộng thao tác tệp mục lục
Cho đến thời điểm hiện tại đã bỏ qua hai yếu tố quan trọng khi chỉ mục
và truy tìm tài liệu, đó là vị trí của các thuật ngữ và ý nghĩa các thuật ngữ (tần
số thuật ngữ) trong tài liệu Trong các truy vấn AND, mọi bản ghi chứa cả haithuật ngữ được tìm thấy, không quan tâm đến vị trí của chúng trong tài liệu Đểnâng cao hiệu quả truy vấn, hai yếu tố này cần được xem xét
Các quan hệ đặc tả giữa hai hay nhiều thuật ngữ được tăng cường bằngcách bổ sung các tham số “tính gàn kề” vào đặc tả truy vấn Khi tham số gần kềđược bổ sung thì chủ điểm được xác định cụ thể hơn, tính phù hợp của mục truyvấn sẽ được cao hơn
Hai tham số thuộc nhóm này có thể là đặc tả “within sentence” và
“adjacency”:
Trang 201 2
hiện trong câu của bản ghi vừa tìm ra
- (Tenrii adjacency Temij) có nghĩa các thuật ngữ i và j xuất hiện liền kềtrong các tài liệu vừa tìm ra
1.2.6 Chỉ sổ hóa và bổ sung
Các tài liệu được duyệt và phân loại để được mệnh đề (d, t), gồm tài liệu
d với thuật ngữ t Thao tác cơ bản của việc chỉ mục “ngược” (inverting) baogồm việc đổi chỗ thứ tự sắp xếp theo (t, d) như biểu diễn sau
Dễ dàng tạo tập (t, d) trong cấu trúc dữ liệu Với một tập họp động có cáctài liệu được thêm vào, sửa đổi hay xóa đi, một sự thay đổi tài liệu ở mức đơngiản càn cập nhật hàng trăm tới nghìn các bản ghi
1.2.7 Kỹ thuật nén chỉ số (index compression)
Trường hợp các modul thiếu từ dừng và dấu chấm câu, một chỉ số ngượcvới thông tin vị trí có thể được sử dụng để xây dựng lại các tài liệu trong mộttập hợp Bởi vậy, kích thước của chỉ mục thực tế so sánh được với kích thướccủa kho dữ liệu Mặc dù việc lưu trữ đem lại một số lợi ích nhưng chỉ sốchương trình điều khiển lớn sẽ dẫn tới một số lượng lớn I/O ngẫu nhiên Bởivậy, cài đặt IR lớn, hiệu năng cao thì việc nén chỉ số càng nhiều càng tốt là thực
sự quan trọng và nó có thế được lưu trữ trong bộ nhớ
Một phần chính của không gian chỉ mục bị chiếm bởi các ID tài liệu Một
ID tài liệu cần một tập hợp lớn hơn, số lượng các bit lớn hơn để biểu diễn TrênInternet, phàn lớn cần ít nhất 32 bit để biểu diễn các ID tài liệu trong một hệthống truy xuất ttên 2 tỉ trang
Cách dễ hơn trong việc lưu trữ các ID tài liệu là sắp xếp chúng tăng dần
và lưu trữ đầy đủ ID đầu tiên, rồi sau đó chỉ lưu sự khác nhau với ID trước màchúng ta gọi là gap Điều này được gọi là mã hóa delta
Chẳng hạn, nếu tò bottle xuất hiện trong các tài liệu được đánh số 5, 30
và 47, bản ghi cho bottle là vectơ (5, 25, 17)
Với ví dụ này có thể không giống như việc lưu trữ tài liệu với số lượng lớn,nhưng đã cho thấy các thuật ngữ thường xuyên thì các ID gap trung bình sẽ nhỏ
Trang 21hơn và những thuật ngữ hiếm xuất hiện dù sao cũng không chiếm quá nhiều khônggian, vì vậy cả hai trường hçfp đó đều có lọi.
Vấn đề tiếp theo là mã hóa những gap này vói số lượng lớn các bit hay biếnđổi, vì vậy một gap nhỏ yêu càu số các bit ít hơn nhiều so với một ID tài liệu Mãhóa nhị phân chuẩn gán cùng chiều dài cho tất cả các ký hiệu hay những giá tñ sẽđược mã hóa, là tối ưu (nếu số các bit trong mã hóa giá trị X là L(x), yêu càu của
mã này là S.Ï Pr(-ĩ) LỌt) số các bit yêu càu để truyền một
kí hiệu) Một mã tối ưu giảm đến mức tối thiểu giá trị này khi tất cả các giá trị cóthể tương đương trừ các gap Cách khác với mã đơn nguyên (một gap X được biểudiễn bởi x-1 những dấu hiệu theo sau), ưu tiên những gap ngắn khá mạnh (nó là tối
gap lớn)
Thông thường, một chỉ mục bị nén tói giới hạn thì việc nâng cấp rất hỗn độnkhi thêm, xóa hoặc sửa đổi các tài liệu Ví dụ, nếu có tài liệu mới thì phải thêm vàochỉ mục ngược, các bản ghi của một vài thuật ngữ sẽ tăng kích thước Điều đó chỉ
có thể được giải quyết với nhiều I/o ngẫu nhiên tạo ra những việc cập nhật thay đổilớn
1.3 Hệ thống khai thác thông tin
Các hệ thống khai thác thông tin có thể được công thức hóa một cách tổngquát như một hàm <p = (r, D, Q, ơ) với T - {ti, t2, tM} là tập các term
(các từ khóa); D = {di,ả 2 , -, disr} là tập các tài liệu trong đó mỗi di — T; Q =
{Ql, Q2, , Qp} là tập các truy vấn trong đó mỗi Qk^ T; vàít: QX D -> R là
hàm xếp hạng ước lượng độ chính xác giữa một truy vấn và một tài liệu Cho một
truy vấn q£ Q với tài liệu dji, dj2É D nếu ff(q, dji) >ơ(q, dj2) thì dji được
cho rằng chính xác hơn dj2 với truy vấn q
Thông thường, một tài liệu dj có thể được biểu hiện với các cặp term và trọnglượng dj = (tji, Wji ; tj2, wj2; ; tj„, Wj„) với tjk É T với Wji e [0,1] đánh giá
Trang 221 4
được biểu diễn bởi các cặp term và trọng lượng q = (qi, wqi; t2, wq2; ; tt, wqt) với
qkfr và wqk Ể [0,1], Nhiệm vụ khai thác thông tin mang lại tập A =
{dji, dj2, , djml — D với truy vấn q với một hàm xếp hạng ữ(Q, đjk).
Có ba mô hình tìm kiếm thông tin được sử dụng rộng rãi và khá phổ biến đó
là mô hình lý thuyết tập thô, mô hình không gian vectơ và mô hình xác suất
1.4 Độ tương tự
1.4.1 Định nghĩa
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi Cácđịnh nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thểhoặc một dạng thể hiện của tri thức
Khái niệm về độ tương tự được định nghĩa thông qua các trực giác về độtương tự:
-Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng củachúng Sự tương đồng càng nhiều, độ tương tự càng lớn
-Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệtgiữa chúng Càng nhiều sự khác biệt độ tương tự càng thấp
-Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giốnghệt nhau
1.4.2 Đô tưone tư giữa các giá tri có thứ tư ưu tiên
Rất nhiều các đặc trưng có các giá trị ưu tiên Ví dụ, thuộc tính “chất lượng”
có thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”,
“awful” Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa haigiá trị có thứ tự Bây giờ sẽ chỉ ra cách định nghĩa có thể được áp dụng
Trang 23Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự
mô tả cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trịexcellent và average” Do đó, sự tương đồng giữa hai giá tậ ưu tiên được giói hạnbên trong giữa chúng
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra ở hình 1.1 Sau đây
là 4 ví dụ tính độ tương tự:
2 *log(excellent V good) 2*log(0.05+0.10)
2*logP(good Vaverage) 2*log(0.10+0.50)
2*logP(excellent vgood vaverage)
Simíexcellent,average) = -—, -
-logP (.excellent) + -logP (average)
2*log(0.05+0.10+0.50)
= 0.23
log 0.05+log0.50 2*log(good Vaverage vbad}
¿s»Iog(^good Vaverage VbacSim(good,bad) =
Trang 241 7
Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độtương tự giữa “good” và “average” độ tương tự giữa “excellent” và “average”cao hơn độ tương tự giữa “good” và “bad”
1.4.3 Độ tương tự chuỗi
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát
từ cùng một gốc như là một từ có sẵn Ví dụ, cho trước từ “eloquently”, mụcđích là để tìm ra các từ liên quan khác như “ineloquently”, “eloquent” và
“eloquence” Để làm điều đó, có thể định nghĩa độ đo tương tự giữa hai chuỗi
và xếp hạng các từ ttong danh sách từ theo thứ tự giảm dần của độ tương tựvói từ có sẵn Những tò xuất phát từ cùng một từ gốc nên xuất hiện sớm trongbảng xếp hạng
Tiến hành thử nghiệm với 3 độ đo sau:
ở đó tri(x) là tập các bộ ba trong X Ví dụ tri(eloquent) = {elo, lop, oqu,que, ent}
bộ ba xảy ra trong một từ là độc lập vói các bộ ba khác trong từ đó
2*Ztetri(x)nTn(yil°gP(t)
^tetriix) l°gP(t) + Xtetri(y)l°EP(t)
Trang 251.4.4 Độ tương tự ngữ nghĩa
Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc cácthuật ngữ trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sựgiống nhau về nội dung ý nghĩa của chúng
Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trongrất nhiều lĩnh vực như trong y học (so sánh gen), trong phân lớp văn bản (cácvăn bản tương tự nhau thì cùng thuộc một lớp)
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khácnhau Sau đây, sẽ tìm hiểu các phương pháp tính độ đo tương tự từ - từ và độ
đo tương tự giữa văn bản - văn bản
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
2.1 Tìm kiếm văn bản theo mô hình tập thô dung sai
Hầu hết, các hệ thống thông tin làm việc chính xác bởi các toán tửlogic Mặc dù, cách này đơn giản nhưng không phải lúc nào nó cũng manglại đúng theo ý ngưòi sử dụng Hiện nay, có nhiều nỗ lực trong việc cải tiếnchất lượng khai thác thông tin vói việc sử dụng kỹ thuật tìm kiếm thông tíncho suy diễn phát triển tò tính mập mờ (vagueness) và tính không chắcchắn (uncertainty) của một khái niệm
Lý thuyết tập thô, một công cụ toán học để giải quyết vấn đề ừênđược giới thiệu bởi Pawlak vào những năm 80 Lý thuyết tập thô này đãthảnh công trong một vài ứng dụng Trong lý thuyết này, mỗi thành phầncủa tập vũ trụ được mô tả bởi một cặp hai tập họp khác được gọi là các xấp
xỉ trên và các xấp xỉ dưới Tập các xấp xỉ trên và xấp xỉ dưới được xác địnhbỏi quan hệ tương đương trong tập vũ trụ Việc sử dụng mô hình tập thônhư trên sau này được gọi là mô hình tập thô tương đương (EquivalanceRough Set Model ERSM) đã được sự quan tâm đặc biệt của nhiều nhànghiên cứu Điểm quan trọng của việc áp dụng tập thô tương đương(ERSM) cho việc khai thác thông tin đó đưa ra cách mới để tính mối quan
Trang 261 9
hệ ngữ nghĩa dựa trên việc tổ chức từ vựng vào các lớp tương đương Tuynhiên chúng ta sẽ thấy rằng, việc sử dụng các quan hệ tương đương ừongERSM không phù hợp cho việc khai thác thông tin bởi các quan hệ tươngđương yêu cầu phải có các tính chất: Phản xạ, đối xứng, bắc càu Trong một
số trường hợp các tính chất này tỏ ra quá nghiêm ngặt trong việc xử lý ngônngữ tự nhiên và khai thác thông tin bởi tính chất đối xứng không phải lúcnào cũng thỏa mãn
Vì lý do đó nên có một mô hình khác gọi là mô hình tập thô dung sai(Tolerance Rough Set Model) cho việc khai thác thông tín qua các lớp dungsai thay thế cho các lớp tương đương đã được giới thiệu ở trên
2.1.1 Khái niệm tập thô và không gian dung sai
Triết lý của tập thô dựa trên giả sử rằng mọi đối tượng ừong vũ trụđều gắn vói một thông tin nào đó (dữ liệu, tri thức) Ví dụ, nếu các đốitượng là các bệnh nhân bị một bệnh nhất định, các triệu chứng bệnh nhântạo thành thông tin bệnh nhân Các đối tượng được đặc trưng bỏi cùngthông tin thì không thể phân biệt (indiscermible) được vói nhau Quan hệtương đương là cơ sở toán học của lý thuyết tập thô
Điểm đàu tiên của lý thuyết tập thô là mỗi tập X trong tập vũ trụ u cóthể được xem xét một cách xấp xỉ bởi các xấp xỉ dưới và các xấp xỉ ttêntrong một không gian xấp xỉ R = (U,R) với R — uxu là một quan hệ tươngđương
Hai đối tượng x,y t u được xem là không phân biệt trong R nếu xRy Các
U(R,X) được định nghĩa bỏi công thức sau:
Trong đó: [x]r biểu diễn lớp các đối tượng tương đương không phân biệt với X trong quan hệ R.
Trang 27Tất cả các công việc ban đầu của khai thác thông tin sử dụng tập thô
đều dựa ừên ERSM dựa ừên sự giả định tập T của các term có thể được
phân chia vào các lớp tương đương xác định bởi quan hệ tương đương.Một quan hệ tương đương R đòi hỏi 3 tính chất sau:
1- Tính phản xạ: xRx
2- Tính đối xứng: xRy -* yRx
Tính bắc cầu không phải lúc nào cũng được thỏa mãn
Các lớp chồng nhau có thể sinh ra bởi quan hệ dung sai trong quan hệ này chỉ yêu cầu tính phản xạ và tính đối xứng Vói sự xuất hiện của quan hệ dung sai
Không gian dung sai là không gian trong đó bao gồm các lớp chồng nhaucủa các đối tượng trong tập vũ trụ Một không gian dung sai được địnhnghĩa bởi công thức chung R(U,I,V,P), trong đó: u là một tập các đối tượng,I: Ư
I(U) [0,1] là hàm cấu trúc
Xem xét một đối tượng X được cho bởi thông tin f(x) Hàm không chính
xác I: u -*• 211 xác định I(x) như một lớp dung sai của tất cả các đối
tượng được xem xét có cùng thông tin với X Hàm không chính xác được định là những hàm thỏa mãn điều kiện: X £ I(x) và y € I(x) nếu X £
I(y) với
x,y t u Điều này tương đương với hàm tương ứng với một quan hệ Ç — ux
thỏa mãn hai thuộc tính phản xạ và đối xứng
Trang 282 1
vũ trụ, trong trường hçrp đặc biệt nó liên quan câu hỏi lớp dung sai I(x) củađối tượng xẼUcó thuộc tập X hay không?
Trong hàm V còn yêu càu tính đơn điệu đối với tham số thứ
hai: V(X,Y) < V(X,Z) với Y e Z; X, Y, z ç u
Cuối cùng, với hàm cấu trúc p được đề xuất bởi việc phân tích vớihình thái toán học Trong việc xây dựng các xấp xỉ ừên và dưới chỉ một số
các tập dung sai được coi là yếu tố có cấu trúc Định nghĩa hàm P: I(Ư) ->
[0,1] các
và không có cấu trúc (P(I(x)) = 0)
Xấp xỉ dưới L(R,X) và xấp xỉ trên U(R,X) trong R với X t u được xácđịnh như sau:
U(R,X) = {xEU\P(I(x)) = 1 «fevaco, X) > 0} (2.4)
2.1.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin
thác thông tin Đầu tiên, để định nghĩa không gian dung sai chúng ta chọn tập
vũ trụ Ư là tập r của tất cả các terms
Vấn đề cốt yếu trong công thức của TRSM trong khai thác thông tin làcác lớp dung sai của các term Có nhiều cách để xác định khái niệm các termtương tự Các đặc điểm của các term được chọn bởi tính chất sau:
1- Nó mang lại sự giải thích có ý nghĩa trong văn cảnh của khai thác thôngtin về sự phụ thuộc và quan hệ ngữ nghĩa của các term
2- Nó là quan hệ đơn giản dễ máy tính hóa
Cũng cần lưu ý rằng đặc điểm các term không có tính đối xứng vàkhông thể được sử dụng tự động để xác định các lớp tương đương Với c (tị,
Trang 29tj) là tần số xuất hiện đồng thời của hai term ti, tj trong D (tập các văn bản).
Định nghĩa hàm không chính xác I phụ thuộc vào ngưỡng 9 như sau:
/e(ti) = {tjlc(ti,tj)>ỡ} u {ti} (2.6)
Hàm mập mờ V được xác định như sau:
Hàm này đơn điệu với mối quan hệ trong tham số thứ 2 Dựa trên hàmnày chúng ta xây dựng một hàm thành viên quan trọng JU như sau:
M ( í ì , X ) = v Ợ e í t ị ) , X = \ I ff ( t i ) n X I / I / 0 ( t ị ) ( 2 8 )
Giả sử rằng tập r là đóng trong quá trình khai thác thông tin Một truyvấn Q bao gồm các từ khóa từ T Với giả thuyết này có thể cho rằng tất cả cáclớp dung sai của các term là các lớp con có cấu trúc (P(ffl (tị)) = 1 với tị t T).Với những định nghĩa trên đã đạt được không gian dung sai R = (r,I,v,P)trong đó xấp xỉ trên và xấp xỉ dưới trong R của các tập họp con X T có thể xác
1- Tương đương thô: Với các tập X, Y — T nếu L(R,X) = L(R,Y) thì X, Yđược gọi là tương đương thô dưới Tương tự nếu U(R,X) = U(R,Y) thì X, Yđược gọi là tương đương thô ừên Với truy vấn q ta có các trường hợp: q là
Trang 302 3
tương đương thô với văn bản dj, q là tương đương thô dưới với văn bản dj, q làtương đương thô ừên với văn bản dj
2- dj bao gồm thô q: Với các tập X, Y — T nếu L(R,X) ^ L(R,Y) thì Xđược gọi là thành phần thô dưới trong Y Tương tự nếu Ư(R,X) — U(R,Y) thì
X được gọi là thành phần thô trên trong Y Khi X và Y thỏa mãn hai tính chấttrên thì ta nói X là thành phần thô trong Y Với các truy vấn q có trường hợp: q
là thành phần thô trong với văn bản dj, q là thành phần thô dưới trong với vănbản dj, q là thành phần thô ừên ừong với văn bản dj
3- q bao hàm thô dj (ngược với 2): Với q là một truy vấn có các trương hợpsau: Văn bản dj là thành phần thô trong q, văn bản dj là thành phần thô dướitrong q, văn bản dj là thành phàn thô trên trong q
4- Chồng thô: Điều này có thể xảy ra khi xấp xỉ trên và dưới dung sai của q
và dj chồng nhau
L(R,q) n L(R,dj) * 0 U(R,q) n U(R,dj) * 0
Thuật toán TRSM
All := ^> All := ■ • A52 •= 0 /
For j = lto IDI do begin If Q = djthen An := All ư
{dj};
Else
If L(R, Q) # 0 then
Begin A22 := A 2 2 Ư {dj};
If Ư(R, Q) = U(R, dj) then A21 := A21ư {dj} End;
If U(R,Q) = U(R, dj) then A23:= A23u {dj};
Else
If L(R, Q) # 0 then If L(R, Q) <= L(R, dj) then
Begin
Trang 31Aị2-= {dj};
If U(R, Q) <= U(R, dj} then A31:= A31 u {dj} End;
If Ư(R, Q) <= U(R, dj) then A33:= A33 Ư {dj};
Việc xác định độ chính xác giữa truy vấn với người sử dụng và các tài
liệu được khai thác sử dụng hàm xếp hạng chính CL\
Có một vấn đề trong việc khai thác thông tin từ nhận xét về độ chínhxác chủ quan và không chắc chắn Khi một số yếu tố để đưa ra nhận định về độchính xác là tương đối phức tạp, chính vấn đề này đã được nhận biết rằng các
mô hình khai thác thông tin không thể chọn chính xác tuyệt đối các tài liệutheo yêu cầu Điều này đã gợi xây dựng một hàm xếp hạng rời rạc dựa ừên 12cấp độ khai thác thông tin của các tài liệu Xác định mức độ mập mờ như nhauđối với tất cả các tài liệu trong cùng một cấp độ
Trang 322 5
Thấy rằng các tài liệu ừong mỗi nhóm con có cùng độ chính xác tươngđương với chúng có cùng số từ khóa chung với truy vấn q TRSM cũng pháttriển một chiến lược xếp hạng khác từ chiến lược xếp hạng ERSM thông qualọc các xếp hạng rời rạc
Có thể ước lượng so sánh một cách thực nghiệm giữa các chiến lượcxếp hạng của ERSM và TRSM bởi vì TRSM phụ thuộc mạnh vào cách xâydựng không gian xấp xỉ Khi trọng lượng các term là có sẵn
2.2 Tìm kiếm văn bản theo mô hình xác suất
Mô hình truy tìm theo xác suất xem xét các phụ thuộc và quan hệ cácthuật ngữ Nó dựa vào bốn tham số sau:
- P(rel): Xác suất tính phù hợp của tài liệu
- P(nonrel): Xác suất tính không phù hợp của tài liệu
- ai: Giá trị kết hợp vói việc tiny tìm tài liệu không liên quan
- a2: Giá tri kết hợp với việc không truy tìm tài liệu liên quan
Vì việc truy tìm tài liệu không phù hợp hết aiP(nonrel) và loại bỏ các tàiliệu phù hợp hết a2P(rel), tổng số thòi gian truy tìm sẽ tối ưu nếu a2P(rel) >aiP(nonrel)
Nhiệm vụ chính của mô hình truy tìm xác suất là dự báo P(rel) vàP(nonrel) Thông thường chúng được thực hiện với giả sử rằng sự phân bổxuất hiện một số thuật ngữ trong các tài liệu
Mô hình xác suất cung cấp chỉ dẫn quan trọng cho đặc trưng hóa tiếntrình truy tìm Tuy nhiên, hiệu quả truy tìm không được nâng cao là mấy, vì rấtkhó khăn để có được sự dự báo chính xác P(rel) và P(nonrel)
2.3 Tìm kiếm văn bản theo mô hình không gian vectơ
Đây là một trong những mô hình phân nhóm hoặc tìm kiếm văn bảntruyền thống là dựa vào mô hình không gian vectơ Truy tìm trong không gianvectơ có thể dẫn tới sự truy tìm “nghèo nàn” Trong câu trả lời có thể bao gồmnhững tài liệu không liên quan; những tài liệu phù họp mà không chứa ít nhấtmột thuật ngữ chỉ mục thì không được truy tìm Lý do việc truy tìm dựa vào
Trang 33những thuật ngữ chỉ mục mập mờ, không rõ ràng Hơn nữa, nhu cầu thông tincủa người sử dụng có liên quan đến những khái niệm và những ý tưởng nhiềuhơn là những thuật ngữ chỉ mục.
ừận bảng tần suất Có một câu hỏi đặt ra là tại sao bảng tần suất lại quantrọng? Để giải thích câu hỏi này hãy làm một ví dụ một vài văn bản
Bảng 2.1 Tần suất của một số văn bản
này ti và t4 xuất hiện nhiều lần, t3 và t5 xuất hiện ít nhất
Nhưng việc đếm các từ một cách đơn thuần không chỉ ra được tầm quantrọng của các từ trong văn bản Xét một ví dụ, một từ xuất hiện ba lần ừong
Trang 342 7
văn bản gồm mười từ thì nó được cho là quan ừọng Nhưng xét một văn bảnkhác gồm một triệu từ thì tầm quan trọng giảm đi rất nhiều Vì vậy, trong bảngtần suất thường quan tâm đến tỉ lệ giữa số lần xuất hiện của một từ trong vănbản và tổng số tò ừong văn bản đó vấn đề đặt ra la càn phải loại bỏ các tòmang ít thông tin
Sau đây, giả sử rằng bảng tần suất FreqT(ij) là những số thực lớn hơnhay bằng không và giá trị chính xác đã được xác định Nếu coi truy vấn Q là
Trang 35một văn bản thì chúng ta đang tìm các cột trong ma trận tần suất FreqT càng gần vectơ Q càng tốt Khoảng cách đó sẽ được định nghĩa như sau:
Khoảng cách từ (term distance): Giả sử vecQ (i) chứa số lần xuất hiện của từ tj
( 2 11 )
Khoảng
cách cosỉn: Thước đo này sử dụng rộng rãi trên thế giới cơ sở dữ liệu văn bản,
nó được tính bằng công thức sau:
Ịỷ^QgCqQ) X F r e q T ( j , r ) )
ở đây, tính toán kết quả của vectơ gắn với yêu cầu Q và văn bản dị.
Trong trường họp xấu nhất, sẽ có 0(N) sự so sánh, một cho mỗi tài liệu và mỗi
sự so sánh sẽ mất thời gian O(M) Vì vậy, tổng cộng sẽ mất khoảng thời gian
là 0(MX AỌ để tìm ra giải pháp tối ưu nhất
2.3.2 Phương pháp TF-IDF (Term Frequency-Inverse Document Frequency)
Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế.Trong đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗithành phàn trong một vectơ thuật ngữ được tính bỏi số lần thuật ngữ đó xuấthiện trong tài liệu; DDF (Inverse Document Frequency) được tính bằng côngthức IDF = log(N/ĩii), vói N là toàn bộ tài liệu trong tập hợp và ĩiị là số các tàiliệu chứa thuật ngữ i Với chỉ TF, nếu một thuật ngữ xuất hiện thường xuyêntrong tài liệu thì nó chưa chắc đã là lựa chọn tốt làm thuật ngữ chỉ mục, vì nókhông giúp phân biệt được các tài liệu người sử dụng quan tâm với các tài liệukhác, tức là số lượng tài liệu truy tìm lớn nhưng độ chính xác không cao IDFgiúp cải thiện vấn đề này, trọng số các thuật ngữ sẽ rất cao nếu nó xuất hiệnthường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt