Chương 1 6 TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN
1.3 Các chức năng của hệ ống t th ìm kiế m thông tin
1.3.1 Chức năng t ìm kiế m
1.3.1.5 Che giấu thuật ngữ
Che giấu thuật ngữ là k thuật cho phép m rỹ ở ộng thuật ngữ m kiếm tì bằng c ch che giấu một phần thuật ngữ, thay v o đóá à là một k hiệu hợp lệ ăn ý nhập v ới phần không b ị che giấ . Ư đu u iểm c a vi c che giủ ệ ấu thuật ngữ thể hiện rất r trong cáõ c hệ thố không thng ực hiện stemming hoặc chỉ cung cấp thuật to n stemmingá m ở ức đơn giản. C hai kiểu che giấu thuậó t ngữ tìm
kiếm: che một khoảng có chiều dài c ố định và che một khoảng có chiều dài thay đổi.
Che giấu với chiều dài cố định là che giấu vị í tr đơn, có thế là ký t nàự o đó hoặc ký t thi u trong từ. Kiểu che giấu n ự ế ày không những cho phép bấ ứt c ký t nàự o trong vị tr che giấu m í à còn chấp nhận c c từá có v í ị tr không tồn tại.
Che giấu thuật ngữ chiều dài cố định ít khi được s dử ụng.
Che giấu thuật ngữ ớ v i chiều dài thay đổi cho ph p che gié ấu ký t bự ất k ỳ trong token xử . Việc che giấu c thể thực hiện ở phần trước, ở phần sau, lý ó c ả phần trước cả phần sa . Ba trường u này tương ứng được ọi l g à tìm kiếm tiền tố, t m kiếm hậu tốì và tìm kiếm chuỗi k ự nh ng. Trong h nh 1. , “*” biểu ý t ú ì 4 đạt cho việc che giấu chiều d i thay đổà i, sau đây là một s cách s d ng thông ố ử ụ thường:
“*COMPUTER” Tìm kiếm tiền tố
“COMPUTER*” Tìm kiếm hậu tố
“*COMPUTER*” Tìm kiếm chuỗi nh ngú Hình 1. : C4 ách sử d ng che gi u thuấ ật ngữ 1.3.1.6 Các lĩnh vực về ố s và àng y thá ng
Che gi u thuấ ật ngữ ch phù hợỉ p khi áp dụng đ i với chữ, không phù ố h ợp khi m kiếm trong lĩnh vực sốtì và ng y th ng. Để m c c số ớn ơà á tì á l h n
“125”, s dử ụng hạng thức “125*” chỉ tìm thấy c s b ác ố ắt đầu bằng “125”.
Trong các hệ thống chuẩn hóa, người ta sử dụng mô tả các chữ như số ặc ho ngày tháng. Có thể nh p “125 425” ậ - đối v s ới ố hoặc “4/2/93 5/2/95” - đối với ngày tháng hoặc các ạm ph vi mở như “>125”, “<=233” trong truy vấn.
1.3.1.7 M rở ộng về ákh i niệm và t ừ điển đồng nghĩa
Liên quan tới truy v n Boolean v truy vấ à ấn ngôn ngữ ự t nhiên là khả năng mở ộ r ng thuật ng thông qua t ển đồng nghĩa hoặ ớữ ừ đi c l p khái niệ . Từm
điển đồng nghĩa là m r ng cấp 1 hoặở ộ c c p 2 củấ a các thu t ngữậ sang thu t ngữ ậ khác, có ý nghĩa tương t nhau. L p kháự ớ i niệm là một cấu tr c cây ở ộ , ú m r ng tương ứng mỗi nghĩa của một từ có các kh i niệm có thể có liên quan tới thuật á ngữ ố g c. C c lá ớp khái niệm đôi khi được xem như cấu tr c mạng liên kết với ú tất cả các từ ốc. V ụ ấu tr c từ điển đồng nghĩa g í d c ú và lớp kh i niệá m đư c cho ợ trên hình 1.5 và 61. . C c đại diện lớp khái niệm cho ph p người dùng mở á é rộng các khái niệm cụ thể thành các khái niệm có liên quan CSDL ựa trên . d khái niệm cho biết mối liên kết có thể không thấy trong các từ điển ngôn ngữ.
Người d ng xem rằng kh i niệm ở ức cao hơn trong mô h nh phân cấp sẽ ù á m ì có ý nghĩa tổng qu t hơn.á
T ừ điển đồng nghĩa bao gồm cả ngữ nghĩa và s ố liệu thống kê. Từ điển ng nghữ ĩa là một danh sách c c từá có ý nghĩa tương tự. Kh th c hiện truy i ự vấn, một thuật ngữ có thể được mở ộng tới tất cả r các thuật ngữ có liên quan trong từ ể đi n đồng nghĩa hoặc cây khái niệm. Chức năng này là rất cần thiết, cho phép loại ra các từ đồ ng nghĩa nhưng thực tế không có ý nghĩa trong câu lệnh t m kiếm củì a ngư i d ng.ờ ù
Thông thường có thể duyệt từ điển đồng nghĩa hoặc cây khái niệm, thêm thuật ngữ và các quan hệ thuật ngữ vào cây khái niệm. Điều này cho phép người dùng cải tiến từ điển đồng nghĩa hoặc cây khái niệm khi có các biệt ngữ riêng trong các phạm vi họ quan tâm.
T ừ điển đ ng nghĩ có thể chỉ phồ a ù hợp với một ngôn ngữ ụ thể c và có thể đưa ra nhi u thuật ngề ữ tìm ki m. Mộế t giải pháp khắc phục là s dử ụng CSDL hoặc mẫu đại diện đ tạo ra c c thuật ngữ liên quan theo thống kê. ể á Cách làm này đưa tới t ừ ểđi n đồng nghĩa d a trên khái ni m, ự ệ trong đó các t ừ liên quan thống kê tới các kh từ ác thông qua tần số ất hiệxu n c ng nhau trong ù các tài liệu. Kiểu từ ể đi n này phụ thuộc vào CSDL văn bản m kiếm v tì à có thể không linh hoạt bằng các CSDL khá c.
Về mặt lý thuyế , ừ đi n đt t ể ồng ngh a v cây khĩ à ái niệm c thể được sử ó dụng để m rở ộng câu lệnh t m kiếm với c c thuật ngữ ổ sung hoặc l m cho ì á b à nó c ụ thể hơn. Dựa trên ch đ nh gicá á á này, việc mở ộng c c thuật ngữ m r á là tăng độ ọ g i lại nhưng lại làm giảm đ ch nh x c.ộ í á
Hình 1. : C c từ đồng nghĩa với thuật ngữ5 á “computer”
Hình 1. : Cấu tr c lớp kh i niệm phân cấp của computer6 ú á “ ” 1.3.1.8 Các truy vấn ngôn ngữ ự t nhiên
Thay vì người d ng phù ải nhập vào câu truy vấn Boolean, bằng việc xác định các thu t ng tìm ki m và m i quan h logic gi a chúậ ữ ế ố ệ ữ ng, c truy v n cá ấ ngôn ngữ ự t nhiên cho phép người dùng nh p vậ ào một câu văn bản mô t ả
COMPUTER
MAINFRAME PC MULTITASKING
COMPUTER CPU
DATA PROCESSOR
MINICOMPUTER
COMPUTER
PROCESSOR OPERATING SYSTEM NETWORK
COMPUTER HARDWARE
PERIPHERAL
COMPUTER SOFTWARE
APPLICATION
thông tin người dùng c n tìầ m kiếm. ăn bản càV ng d , ết quả trả ềài k v càng chính x c. Vấá n đ ó ề kh khăn nhất đ i v i cố ớ ác truy vấn ngôn ngữ ự nhiên l t à khả năng chỉ rõ s ủ địự ph nh trong câu tìm kiếm và h ệ thống đoán nh n nậ ó như s ự phủ định. Hệ thống sẽ tìm tất cả cá àc t i liệ giống với câu truy vấn nhập u vào nhất.
Đối v i nhi u ngư i, đây là lo i giao di n cung c p ph n m r ng t ớ ề ờ ạ ệ ấ ầ ở ộ ự nhiên để yêu c u ai đó th c hi n tầ ự ệ ìm kiếm. Một v ụ ề trí d v uy vấn ngôn ngữ ự t nhiên là:
Find for me all the items that discuss oil reserves and current attemps to find new oil reserves. Include any items that discuss the international financial aspects of the oil production process. Do not include items about the oil industry in the United States.
Vấn đề xảy ra với nhiều kỹ thuật và h ệ thống l không đưa ra c t i à cá à liệu nói về àng nh công nghi p dầu mệ ỏ ở M . ỹ Khi khả năng này xảy ra, người dùng c xu hướ g nhập v o mộó n à t đo n câu phản nh c i họ ần t m hơn lạ á á c ì à m ột câu đầy đ . Đi u nàủ ề y c th hi u đư c, vì ngư i dùng mu n s d ng ít nh t ó ể ể ợ ờ ố ử ụ ấ tài nguyên ủa ọ ề thời gian). Họ ẽ chỉ nhập v o như sau:c h (v s à
oil reserves and attemps to find new oil reserves, international financial aspects of the oil production not United States oil industry
Kiểu sử ụ d ng n y r t quan trà ấ ọng, vì các đoạn câu tạo ra các phân tích h nh ì thái học của truy v n ngôn ngấ ữ ự t nhiên khó và có ể ớth gi i hạn khả năng c a ủ h ệ thống trong việc thực hiện l m r nghĩa thuật ngữà õ .
S dử ụng c ng câu truy vấn t m kiếm, truy vấn Boolean cù ì ố ắ g ng tìm cùng thông tin c thể xuất hiệ như sau:ó n
(“locate” AND “new” AND “oil reserves”) OR (“international”AND
“financ*” AND “oil production”) NOT (“oil industry” AND “United States”)