62 Trang 10 DANH MỤC THUẬT NGỮ STT Từ viết tắt Thuật ngữ Tiếng AnhThuật ngữ Tiếng Việt1 CSDL Database Cơ sở dữ liệu2 DR Data Retrieval Tìm kiếm dữ liệu3 DRS Data Retrieval System Hệ th
4 GIỚI THIỆU
Đặt vấn đề
Ngày nay, với sự phát triển mạnh mẽ của thông tin và đặc biệt là World Wide Web, việc tìm kiếm thông tin và kiến thức hữu ích trở thành một đề tài quan trọng trong lĩnh vực khoa học máy tính và thông tin Thông tin được lưu trữ hàng ngày, tạo thành một kho tàng khổng lồ cung cấp kiến thức quý báu về đời sống, khoa học và kỹ thuật cho người sử dụng Tuy nhiên, không phải ai cũng dễ dàng tìm được thông tin chính xác do nhiều lý do khách quan khác nhau Hiện nay, các hệ thống tìm kiếm thông tin như Google, Yahoo và Live đóng vai trò quan trọng trong việc hỗ trợ người dùng trong việc truy cập thông tin cần thiết.
Trước đây, các công cụ tìm kiếm như Ask và Altavista đã cố gắng đáp ứng nhu cầu tìm kiếm của người dùng, nhưng vẫn chưa hoàn toàn thỏa mãn Người dùng thường phải tốn nhiều thời gian để đọc các tài liệu không liên quan đến yêu cầu của họ.
Nhằm giải quyết các vấn đề liên quan đến việc giảm thời gian và công sức trong tìm kiếm thông tin, tác giả lựa chọn đề tài "Hệ thống trợ giúp tìm kiếm thông tin" Mục tiêu là cung cấp cái nhìn tổng quan về hệ thống tìm kiếm thông tin hiện nay, bao gồm các công cụ, tiện ích, ngôn ngữ và tính năng nâng cao hỗ trợ người dùng.
Tôi xin tr n trọng ảm ơn Viện Đào ạo Sau đại ọc Trường Đại ọcâ c t h - h
Trong thời gian tới, các nội dung trong luận văn này chỉ mang tính chất khởi đầu và cần bổ sung thêm căn cứ khoa học Chúng tôi mong nhận được ý kiến đóng góp để hoàn thiện luận văn một cách tốt nhất.
M ục tiêu
Nghiên c u vứ ề ệ ố h th ng trợ giú ìm kiếp t m thông tin v xây dà ựng chương trình thử nghiệm ứng dụng cho t m kiếì m văn b n.ả
B c ố ục nội dung luận văn
Toàn bộ ội dung luậ n n văn đư c thể ệợ hi n qua các chương như sau:
• Chương 0: Giới thi u v tà “ệ ề đề i H ệ th ố ng tr ợ ú ìgi p t m ki ế m thông tin”
Chương 1 trình bày tổng quan về hệ thống thông tin, bao gồm mục tiêu, chức năng và các cấu trúc dữ liệu thường sử dụng Bên cạnh đó, chương này cũng đề cập đến các kỹ thuật tìm kiếm nhằm hướng đến người dùng, giúp nâng cao hiệu quả và tính khả dụng của hệ thống thông tin.
Chương 2 trình bày một số phương pháp biểu diễn tài liệu trong hệ thống tìm kiếm thông tin, bao gồm mô hình Boolean, mô hình không gian vector, mô hình xác suất, mô hình tập hợp, và mô hình lập mệnh đề Mỗi mô hình đều có những ưu và nhược điểm riêng, góp phần vào việc cải thiện hiệu quả tìm kiếm thông tin.
• Chương 3: Trình b v h ày ề ệ thống trợ giúp ìm kiếm th ng tin Lịch ử t ô s ra đời, định nghĩa, th h phần và ch nàn ức ăng.
• Chương 4: Giới thiệu ề chương trình x y dựng v â và c k ác ết quả thực nghiệm ểm ki thử chất ượng ủa h l c ệ thốn g.
• Chương 5: Nhận xét về những mặt đã được và những vấn đề tồn tại, từ đó đề ra những hướng phát triển trong thời gian tiếp theo.
6 TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN
Các tiêu chí đánh giá một hệ thống tìm kiếm thông tin
Để đánh giá chất lượng của một HTTKTT, ta thường dựa vào các tiêu chí sau:
Độ lớn và độ phức tạp của cơ sở dữ liệu (CSDL) ảnh hưởng trực tiếp đến hiệu quả của hệ thống tìm kiếm thông tin (HTTKTT) Khi CSDL ngày càng lớn và đa dạng về nội dung nhưng hệ thống vẫn hoạt động hiệu quả, điều này chứng tỏ chất lượng của hệ thống cao Để so sánh chất lượng giữa các HTTKTT, người ta đã thiết lập một tập dữ liệu chuẩn cùng với các câu hỏi và câu trả lời tương ứng.
Thời gian phản hồi của hệ thống là khoảng thời gian từ khi nhận được câu hỏi truy vấn đến khi người sử dụng nhận được câu trả lời Thời gian phản hồi ng
Hiệu quả của việc hiển thị kết quả cho người sử dụng là rất quan trọng Nhiều hệ thống chỉ thực hiện tìm kiếm và cung cấp tài liệu liên quan mà không đánh giá mức độ liên quan của chúng Điều này dẫn đến việc người dùng phải đọc tất cả các tài liệu được trả về để tìm ra thông tin cần thiết, gây mất thời gian và giảm hiệu quả tìm kiếm.
Khả năng biểu diễn câu hỏi một cách thuận lợi và dễ dàng là rất quan trọng Để diễn đạt chính xác nội dung mà người dùng tìm kiếm không phải là điều đơn giản Một số hệ thống sử dụng dãy từ khóa hoặc thuật ngữ, trong khi những hệ thống khác áp dụng các phép toán logic như AND, OR, NOT Do đó, hệ thống có khả năng biểu diễn câu hỏi một cách chính xác và hiệu quả, càng gần với ngôn ngữ tự nhiên của con người thì càng được đánh giá cao.
Không gian lưu trữ hệ thống là một tiêu chí quan trọng, vì tài nguyên máy tính có hạn Các hệ thống yêu cầu ít không gian đĩa và sử dụng bộ nhớ hiệu quả sẽ được đánh giá cao hơn.
Độ chính xác (P) và độ gọi lại (R) là hai tiêu chí quan trọng nhất để đánh giá chất lượng của một hệ thống tìm kiếm Độ chính xác P thể hiện tỷ lệ giữa số tài liệu tìm được và số tài liệu có liên quan đến câu hỏi trong tổng số tài liệu mà hệ thống đã tìm kiếm.
Các chức năng của hệ ống t th ìm kiế m thông tin
Độ gọi lại R của h thống là t l giữa s t ệ ỷ ệ ố ài liệu tìm được và có êli n quan đến c u hâ ỏi êtr n tổng s ố tài liệu liên quan có trong CSDL
Trong hệ thống thông tin, độ chính xác càng cao thì tỷ lệ gọi lại càng giảm và ngược lại Tình huống lý tưởng xảy ra khi hệ thống trả lời cho người sử dụng hoàn toàn trùng khớp với tập hợp các dữ liệu thực sự liên quan đến các câu hỏi truy vấn trong cơ sở dữ liệu.
Hình 2 1 : Minh họa về độ chính xác và gọi lại
1.3 Các chức năng của hệthống t m kiếm thông tin ì
Hệ thống thông tin có hai chức năng chính là tìm kiếm và duyệt, giúp người sử dụng định vị thông tin liên quan một cách hiệu quả Chức năng tìm kiếm hỗ
1.3.1 Ch ức năng t ìm ki ế m
Chức năng tìm kiếm nhằm mục đích tạo ra sự kết nối giữa yêu cầu của người dùng và các dữ liệu trong cơ sở dữ liệu, từ đó cung cấp câu trả lời phù hợp Cách thức truy vấn tìm kiếm sẽ phụ thuộc vào cách người dùng mô tả thông tin mà họ cần.
Số tài liệu tìm được nh ng không úng ư đ Số tài liệu liên quan nh ng không ư tìm được T ổng ố ài liệu s t a b c
Trong hệ thống tìm kiếm tài liệu, việc sử dụng ngôn ngữ tự nhiên kết hợp với các thuật ngữ truy vấn và các chỉ thị logic Boolean là rất quan trọng Logic Boolean giúp tối ưu hóa quá trình tìm kiếm, cho phép người dùng kết hợp các điều kiện khác nhau để nhận được kết quả chính xác hơn.
Logic Boolean cho phép người dùng liên kết các khái niệm với thông tin cần thiết Các phép toán Boolean cơ bản bao gồm AND, OR và NOT Dấu ngoặc đơn được sử dụng để xác định thứ tự thực hiện các phép toán Boolean Nếu không có dấu ngoặc, hệ thống sẽ tuân theo thứ tự ưu tiên mặc định của các phép toán, thường là NOT trước, sau đó là AND, và cuối cùng là OR Trong trường hợp không có thứ tự ưu tiên rõ ràng, các phép toán và truy vấn sẽ được thực hiện từ trái sang phải, trừ khi có sử dụng dấu ngoặc đơn.
Hầu hết c c HTTKTT đều cho ph p c c ph p to n Boolean thực hiệná é á é á trên giao diện ngôn ngữ ự nhiên t
Câu truy vấn Phép toán hệ ố th ng
NOT MAINFRAME Đưa ra tất c cáả c t i li u nói v máy à ệ ề tính hoặc bộ ử , chứ kh ng phải ề x lý ô v má íy t nh lớn
NOT MAINFRAME) Đưa ra tất cả các t i liệu n i vềà ó máy tính hoặc c c t i liệu n i về ộ ửá à ó b x lý chứ ôkh ng phải v má íề y t nh lớn
PROCESSOR OR MAINFRAME Đưa ra tất c cá àả c t i li u v máệ ề y t nh í n ói chung chứ kh ng phải chỉ ề ộ vi ô v b x lý ử hoặc ác i liệu ề c tà v má íy t nh lớn
Hình 1 : S ự ử ng c ủ a c c ph p to n Boolean3 s d á é á 1.3.1.2 X ác định ức độ ầ n g ũi m g
Mức độ gần gũi được sử dụng để xác định mức độ tương tự nhau trong một tài liệu giữa hai thuật ngữ mà người dùng tìm kiếm Về mặt ngữ nghĩa, hai thuật ngữ gần nhau trong văn bản có liên quan đến một khái niệm và cùng mô tả một đối tượng.
Mức độ gần gũi giữa các từ khóa có thể được sử dụng để cải thiện độ chính xác trong tìm kiếm Nếu các thuật ngữ "COMPUTER" và "DESIGN" thường xuất hiện cùng nhau, chúng ta có thể kết luận rằng tài liệu đang nói về thiết kế của máy tính, đặc biệt là khi chúng xuất hiện liên tiếp trong các đoạn văn.
Dạng thức biểu đạt ức độ ần gũi m g là: “Thuật ngữ 1 xuất hiện trong m
Thuật ngữ "units" đề cập đến các thành phần như ký tự, từ, câu hoặc đoạn văn trong tài liệu Cấu trúc tài liệu có thể tạo ra khoảng cách giữa các ký tự, điều này rất quan trọng Đối với tài liệu có hình ảnh, văn bản giữa các hình ảnh có thể tăng độ chính xác khi xác định một thông tin cụ thể Mức độ gần gũi giữa các tham số định hướng cần được tìm hiểu kỹ lưỡng, đặc biệt là trong trường hợp các đơn vị liền kề (adjacent units) với khoảng cách bằng không, khi đó có thể xảy ra sự trùng lặp về nghĩa.
Mệnh đ ừ ần nhau (Contiguous Word Phrases - CWP) là cách xác định thuật ngữ truy vấn cùng với các từ khóa tìm kiếm đặc biệt tương ứng Mệnh đề từ gần nhau bao gồm hai từ (hoặc nhiều hơn) được kết hợp như một đơn vị ngữ nghĩa đơn Ví dụ, "United States of America" gồm 4 từ nhưng chỉ biểu diễn một khái niệm ngữ nghĩa đơn (về một đất nước), có thể được sử dụng trong bất kỳ từ khóa nào đã nêu ở trên Do đó, truy vấn có thể là “manufacturing” AND “United States of America” với mong muốn trả lại các tài liệu liên quan chứa từ “manufacturing” và cụm từ “United States of America”.
Mệnh đề ừ ần nhau tương tự như toán tử mệnh đề, cho phép bổ sung các đặc trưng khác nhau Đối với các mệnh đề ừ ầề t g n nhau, có nhiều hơn hai thuật ngữ phả ạo mộ, trong đó việc tìm kiếm tương đương sử dụng các toán tử ừ ầ nhau và các liên kết logic Boolean.
Tìm kiếm mờ là một chức năng quan trọng giúp xác định các lỗi chính tả của người dùng khi nhập vào thanh tìm kiếm Chức năng này còn được sử dụng để chỉnh sửa các lỗi chính tả của từ, tăng độ chính xác của kết quả tìm kiếm Tuy nhiên, tìm kiếm mờ cũng có thể làm giảm độ chính xác của kết quả nếu không được sử dụng đúng cách Trong quá trình mở rộng thuật ngữ truy vấn, tìm kiếm mờ cho phép tham chiếu đến các thuật ngữ khác về mặt chính tả, xác định á vần trọng số cho cố gắng tìm kiếm các từ không nằm trong CSDL, có cùng chiều dài và vị trí của các ký tự có thể khác Ví dụ, tìm kiếm mờ với thuật ngữ "computer" sẽ tham chiếu đến các từ sau trong CSDL: "computer", "compiter", "conputer", giúp người dùng tìm được kết quả chính xác hơn.
Tìm kiếm mờ là một phương pháp hiệu quả trong việc xử lý tài liệu qua thiết bị quang học Công nghệ OCR (Optical Character Recognition) cho phép quét tài liệu và chuyển đổi chúng thành ảnh nhị phân với độ phân giải cao, thường từ 300 dpi trở lên Quá trình này bao gồm nhận dạng mẫu và phân tích các vùng có ý nghĩa trong ảnh, từ đó chuyển đổi thành mã số để lưu trữ trên máy tính, như mã ASCII hoặc các chuẩn ngôn ngữ khác Chất lượng tài liệu giấy ảnh hưởng đến độ chính xác của quá trình nhận dạng ký tự, với tỷ lệ chính xác đạt từ 90-99% nếu chất lượng hình ảnh đầu vào tốt.
Che giấu thuật ngữ là một kỹ thuật cho phép người dùng tìm kiếm thông qua việc che giấu một phần thuật ngữ, thay vì sử dụng thuật ngữ đầy đủ Kỹ thuật này thể hiện rõ trong các hệ thống không thực hiện stemming hoặc chỉ cung cấp thuật toán stemming đơn giản Có hai kiểu che giấu thuật ngữ tìm kiếm: che một khoảng có chiều dài cố định và che một khoảng có chiều dài thay đổi.
Che giấu với chiều dài cố định là phương pháp che giấu ký tự tại một vị trí nhất định trong từ, cho phép thay thế một ký tự cụ thể hoặc ký tự thiếu Kiểu che giấu này không chỉ cho phép ẩn đi ký tự tại vị trí đã chỉ định mà còn chấp nhận các từ có vị trí không tồn tại Tuy nhiên, thuật ngữ che giấu chiều dài cố định ít khi được sử dụng trong thực tế.
Thuật ngữ "che giấu" đề cập đến việc ẩn dấu ký tự trong token xử lý, với chiều dài có thể thay đổi Việc này có thể thực hiện ở phần trước, phần sau, hoặc cả hai, tương ứng với việc tìm kiếm tiền tố, hậu tố và chuỗi ký tự Hình 1 minh họa rằng ký tự "*" biểu thị cho việc che giấu chiều dài thay đổi, và dưới đây là một số cách sử dụng thông số này trong thực tiễn.
“*COMPUTER” Tìm kiếm tiền tố
“COMPUTER*” Tìm kiếm hậu tố
“*COMPUTER*” Tìm kiếm chuỗi nh ngú
Hình 1 : C4 ách s ử d ng che gi u thu ấ ậ t ng ữ
1.3.1.6 Các l ĩ nh v ự c v ề ố s và àng y thá ng
Kỹ thuật đán h chỉ ụ m c
Mục đích của việc đánh chỉ mục thay đổi theo quá trình phát triển của hệ thống thông tin Tính sẵn sàng của dữ liệu văn bản tại thời điểm hiện tại có thể làm thay đổi mục tiêu ban đầu của việc đánh chỉ mục thành công Cấu trúc dữ liệu văn bản đã được xây dựng trong tài liệu cung cấp lớp chỉ mục, gọi là chỉ mục tài liệu tổng thể Trong môi trường này, tất cả các từ trong tài liệu là bản mô tả cho các chỉ mục tiềm năng và chức năng của tài liệu Các hệ thống hiện nay đều có khả năng đánh trọng số độ tương quan của các token, dựa trên mức độ quan trọng của chúng trong định nghĩa các khái niệm trong tài liệu.
Việc đánh chỉ mục tài liệu tổng thể giúp tối ưu hóa quá trình tìm kiếm, cho phép người dùng tìm kiếm theo từ khóa bất kỳ trong tài liệu Để đảm bảo tính chính xác, cần phải thiết lập các thuật ngữ chỉ mục một cách có hệ thống, sử dụng bộ từ vựng hạn chế Bộ từ vựng này cung cấp một tập hợp các thuật ngữ cần thiết để lựa chọn, mặc dù việc đánh chỉ mục thủ công với từ vựng hạn chế có thể chậm hơn nhưng lại đảm bảo độ chính xác cao hơn Điều này giúp người dùng xác định rõ ràng miền của thuật ngữ và thông tin mà họ cần Ngược lại, bộ từ vựng không hạn chế có thể tăng tốc độ đánh chỉ mục nhưng lại làm cho quá trình tìm kiếm trở nên khó khăn hơn.
Tính sẵn sàng của tài liệu ở các hệ thống quản lý dữ liệu điện tử đã thay đổi mục tiêu của việc đánh chỉ mục thủ công Thông tin nguồn, thường gọi là dữ liệu trích dẫn, có thể được trích xuất một cách tự động Các hệ thống hiện đại sử dụng từ điển ngữ nghĩa và các cơ sở dữ liệu tham chiếu khác để giải quyết sự đa dạng của ngôn ngữ, làm giảm nhu cầu về từ vựng hạn chế Hầu hết các khái niệm được nhắc đến trong tài liệu đều có thể định nghĩa thông qua tìm kiếm chỉ mục tài liệu tổng thể Mục đích chính của việc đánh chỉ mục là thay đổi sự trừu tượng của dữ liệu và đánh giá dựa trên giá trị của thông tin Các thuật toán phân tích văn bản tự động không thể thực hiện việc trừu tượng hóa trên tất cả các khái niệm cá biệt trong tài liệu và không thể tương quan các sự kiện theo mối quan hệ nguyên nhân/kết quả để xác định các khái niệm quan hệ bổ sung được đánh chỉ mục Các thuật ngữ chỉ mục bổ sung cho phép cải thiện độ chính xác của hệ thống, đặc biệt trong các câu hỏi nhấn mạnh.
Từ được sử dụng trong tài liệu không chỉ là những ký tự đơn giản mà còn phản ánh giá trị của các khái niệm hiện tại Đáo có thể được xem là sự kết hợp của các từ và các liên quan ngữ nghĩa, chứa đựng giá trị khái niệm đang được xem xét Tính chất hữu ích của khái niệm phụ thuộc vào nhu cầu của người dùng, với mỗi người dùng cá nhân có phạm vi quan tâm riêng, giới hạn các khái niệm họ quan tâm Điều này giúp đánh giá chất lượng của khái niệm được tham chiếu trong tài liệu, quyết định cách mà khái niệm này sẽ được sử dụng để ánh chạm Sự khác biệt trong yêu cầu người dùng giữa cán bộ và người dùng cá nhân cho thấy tại sao các tác tác có hiệu quả chỉ định cụ thể lại là một phần thiết yếu của các hệ thống thông tin có chất lượng Dựa trên giá trị khái niệm, việc này sẽ nâng cao độ chính xác trong các tác vụ tìm kiếm.
Tính sẵn sàng của việc đánh chỉ mục tài liệu giúp người dùng không phải nhập các thông tin thủ công, tiết kiệm thời gian và công sức Người dùng có thể sử dụng các file chỉ mục để tạo thành một phần tiêu chuẩn trong quá trình tìm kiếm, từ đó gia tăng độ chính xác và hiệu quả Hơn nữa, việc sử dụng file chỉ mục riêng biệt còn giúp hạn chế kết quả tìm kiếm, nâng cao độ chính xác trong việc truy xuất thông tin.
Nội dung tài liệu không chỉ giúp người dùng dễ dàng tìm kiếm thông tin liên quan mà còn cung cấp các ứng dụng hỗ trợ khác Hệ thống điện tử hoạt động như một thư viện vật lý, với việc phân nhóm tài liệu theo khái niệm để nâng cao khả năng tìm kiếm Đánh chỉ mục tự động là khả năng hệ thống tự động gán nhãn cho tài liệu, với cách đơn giản nhất là sử dụng các từ trong tài liệu làm thuật ngữ chỉ mục Tuy nhiên, khi mục tiêu là cạnh tranh, việc xác định các thuật ngữ chính trong tài liệu trở nên phức tạp hơn Mặc dù đánh chỉ mục thủ công có ưu điểm về độ chính xác và khả năng xác định giá trị của khái niệm, nhưng nó tốn thời gian và có thể thiếu tính nhất quán Đánh chỉ mục tự động có thể thực hiện nhanh chóng cho tài liệu từ 300 đến 500 từ, tùy thuộc vào kích thước bộ vi xử lý và độ phức tạp của thuật toán.
Một ưu điểm nổi bật của việc đánh chỉ mục tự động là khả năng dự đoán độ chính xác của thuật toán Nếu việc đánh chỉ mục được thực hiện tự động, nó sẽ đảm bảo tính nhất quán trong quá trình lựa chọn thuật ngữ chỉ mục Bộ chỉ mục thủ công thường tạo ra các chỉ mục khác nhau với cùng một tài liệu Trong một thí nghiệm về tính nhất quán trên TREC, có đến 20% sự khác biệt trong đánh giá các tài liệu có cùng giá trị ban đầu và bản đánh giá thứ hai của hơn 400 tài liệu Do các bản đánh giá dựa trên sự liên quan khác nhau, việc lựa chọn thuật ngữ chính xác và trọng số của chúng tương ứng với các chủ đề là khác nhau Trong đánh chỉ mục tự động, các nhà nghiên cứu hiểu rõ quá trình tự động, có thể nhận diện lợi ích và những khiếm khuyết của nó, cho phép điều chỉnh hệ thống những đặc điểm trong chiến lược tìm kiếm Đánh chỉ mục tự động cho phép bảo toàn văn bản gốc của tài liệu, dựa vào độ chính xác của giá trị chỉ mục tìm kiếm cuối cùng trên văn bản gốc hoặc ánh xạ tài liệu sang một dạng biểu diễn hoàn toàn khác, gọi là đánh chỉ mục khái niệm và sử dụng khái niệm này làm cơ sở cho tập giá trị chỉ mục cuối cùng.
1.4.2.1 Đánh ch ỉ c b ằ ng thu ậ t ng ữ m
Các thuật ngữ ủa tài liệu căn bản được sử dụng làm cơ sở cho quá trình định chỉ mục, bao gồm hai kỹ thuật chính: thống kê và xử lý ngôn ngữ tự nhiên Kỹ thuật thống kê dựa trên mô hình vector và mô hình xác suất, trong đó các mô hình Bayesian được áp dụng trong những trường hợp đặc biệt Các mô hình này được xếp loại theo các loại thống kê do các tính toán trọng số sử dụng thông tin thống kê như tần số xuất hiện của từ và sự phân phối của chúng trong cơ sở dữ liệu tìm kiếm Kỹ thuật xử lý ngôn ngữ tự nhiên cũng sử dụng một số thông tin thống kê, nhưng thực hiện các phân tích phức tạp hơn để định nghĩa tập khái niệm chỉ mục cuối cùng.
Các hệ thống có trọng số thường được coi là hệ thống biểu diễn thông tin dưới dạng vector, với các trọng số là cơ sở để phát hiện thông tin và lưu trữ trong không gian vector Mỗi vector biểu diễn một tài liệu và mỗi vị trí trong vector thể hiện một từ hoặc thuật ngữ trong cơ sở dữ liệu Giá trị gán cho mỗi vị trí là trọng số của thuật ngữ đó trong tài liệu, trong đó giá trị 1 cho biết thuật ngữ có trong tài liệu và 0 cho biết thuật ngữ không có Các truy vấn có thể được diễn đạt dưới dạng vector, và việc tìm kiếm được thực hiện bằng cách tính khoảng cách giữa vector truy vấn và vector tài liệu.
Mô hình xác suất cổ điển đã được sử dụng bên cạnh mô hình vector Phương pháp Bayesian đã chứng tỏ tính hiệu quả trong việc áp dụng cho hệ thống thông tin Mạng Bayesian là một đồ thị định hướng không chu trình, trong đó mỗi nút biểu diễn một biến ngẫu nhiên và mỗi cung nối giữa các nút biểu diễn xác suất phụ thuộc giữa nút đó và nút cha của nó.
Hình 1 cho thấy tiếp cận trọng số cơ bản cho c c thuật ngữ chỉ ục hay mối 7 á m quan hệ giữa thuật ngữ truy v n vấ à thuật ngữ chỉ ụ m c
Nút C1 và C2 thể hiện tài liệu chứa khái niệm Ci, trong khi node F biểu diễn tài liệu có chứa đặc điểm F Mạng cộng đồng có thể hiểu rằng C đại diện cho các khái niệm trong câu truy vấn, còn F là đại diện cho các khái niệm trong tài liệu.
Hệ thống DR-LINK là một công cụ tìm kiếm tài liệu thông minh, sử dụng quá trình xử lý ngôn ngữ tự nhiên để phân tích và xử lý các tài liệu Hệ thống này
1.4.2.2 Đánh chỉ m c b ằ ng khái ni ệ m
Cơ sở ủ c a đánh ch m c là biểu diễà n của một tưởng, giúp tăng hiệu quả tìm kiếm bằng việc sử dụng biểu diễn đơn giản Đánh chỉ ụ m c b ng ằ khái niệm xem mỗi sự kiện xảy ra như một chỉ ục khác nhau, và sử dụng từ điển đồng nghĩa hoặc các kỹ thuật tìm kiếm khác để tạo ra các biểu diễn khác nhau cho cùng một nội dung Ánh ch m c khái niệm xác định dựa trên tập thuật ngữ kiểm thử và sử dụng chúng làm cơ sở để đánh chỉ ục tất cả tài liệu Điều này gọi là đánh ch m c ng ngh a n b i, vì nó ánh ch m c thông tin ng ngh a n ỉ ụ ữ ĩ ẩ trên các thuật ngữ Tập khái niệm xác
1.4.3 Mô hình Latent Sema tic Indexing (LSI)n
Mô hình Latent Semantic Indexing (LSI) được sử dụng để đánh chỉ mục, quản lý và truy xuất thông tin từ các tập văn bản lớn một cách hiệu quả LSI không chỉ giảm số chiều của ma trận term-document mà còn tìm kiếm chính xác theo ngữ nghĩa, trả về các văn bản phù hợp với yêu cầu của người dùng Tuy nhiên, việc tính độ đo Cosine cho tất cả các tập văn bản trong ma trận xấp xỉ Ak có thể làm giảm tốc độ tìm kiếm Để cải thiện hiệu suất, trước khi tính Cosine giữa vector truy vấn và các vector văn bản trong ma trận Ak, cần thực hiện bước gom cụm văn bản.
Khi gom cụm văn bản trên ma trận Ak, mỗi cụm sẽ có một vector trọng tâm riêng Thay vì tính độ đo Cosine của câu truy vấn với tất cả các vector văn bản, ta chỉ tính độ đo Cosine giữa vector truy vấn và các vector trọng tâm của từng cụm Sau đó, chúng ta chỉ trả về các cụm có độ đo vượt qua ngưỡng đã định và thực hiện lại việc tính độ đo Cosine với các vector văn bản trong các cụm đó Phương pháp này giúp cải thiện hiệu quả trong việc truy tìm thông tin.
Cá c kỹ thuật t m kiếm hướ ì ng ngư i dù ờ ng
Phần này tập trung vào việc tìm kiếm được thực hiện như thế nào Để hiểu quá trình tìm kiếm, cần xem xét các mức độ khác nhau của câu lệnh tìm kiếm nhập vào từ người dùng đối với cơ sở dữ liệu Việc lựa chọn và xếp hạng tài liệu được thực hiện thông qua độ đo tương tự, tính toán độ tương đồng giữa các câu lệnh tìm kiếm và sự biểu diễn lưu trữ có trọng số của ngữ nghĩa trong tài liệu Thông tin phản hồi liên quan giúp người dùng tăng hiệu quả tìm kiếm bằng cách sử dụng kết quả tìm kiếm trước đó Kỹ thuật này sử dụng thông tin từ các tài liệu được xem xét để xác định xem có liên quan hay không, từ đó đưa ra quyết định.
1.6.1 Các câu l ệ nh tìm ki ế m và ràng bu ộ c
Câu lệnh tìm kiếm là những câu chứa thông tin cần thiết mà người dùng đưa ra để xác định các khái niệm mà họ đang quan tâm trong tập tài liệu Như đã đề cập trước đây, câu lệnh tìm kiếm sử dụng logic Boolean truyền thống hoặc ngôn ngữ tự nhiên Trong việc tạo ra câu lệnh tìm kiếm, người dùng có khả năng đánh trọng số các khái niệm khác nhau trong câu lệnh Đây là kiểu ràng buộc tương ứng với kinh nghiệm của người dùng Ràng buộc này có thể được hiểu là khi một dạng thức trừu tượng được định nghĩa lại thành một dạng thức cụ thể hơn Mặt khác, ràng buộc tiếp theo là khi câu lệnh tìm kiếm được phân tích để sử dụng bởi hệ thống tìm kiếm cụ thể.
Hệ thống tìm kiếm chuyển đổi truy vấn sang ngôn ngữ tự nhiên, sử dụng quy trình tương tự như đánh chỉ mục tài liệu Các hệ thống này quyết định token nào quan trọng và gán trọng số cho từng token dựa trên tần suất xuất hiện trong câu lệnh tìm kiếm Ngôn ngữ tự nhiên xác định cú pháp và ngữ nghĩa của từ, áp dụng các thuật toán giống như trong quá trình đánh chỉ mục Hệ thống ánh xạ câu lệnh tìm kiếm với tập hợp các khái niệm sử dụng để chỉ mục tài liệu hiệu quả.
Mức ràng buộc cuối cùng là một yếu tố quan trọng trong việc tìm kiếm, áp dụng cho một cơ sở dữ liệu nhất định Ràng buộc này dựa trên thống kê của các token và ngữ nghĩa được sử dụng trong cơ sở dữ liệu Điều này hoàn toàn đúng trong các hệ thống chỉ mục khi phân tích và thống kê Một số thống kê được sử dụng để đánh giá sự phân bố dựa trên nội dung hiện tại của cơ sở dữ liệu Các kỹ thuật đánh chỉ mục ngôn ngữ tự nhiên đang áp dụng xu hướng sử dụng thuật toán độ nhạy cao Hình 1.21 minh họa ba mức ràng buộc khác nhau, với các dấu ngoặc đơn được sử dụng trong bước ràng buộc thứ hai để chỉ ra phần mềm ở mức ràng buộc bởi từ để định nghĩa rõ ràng.
Chiều dài của câu lệnh tìm kiếm có ảnh hưởng trực tiếp đến khả năng của hệ thống thông tin trong việc tìm kiếm các tài liệu liên quan Câu truy vấn càng dài thì hệ thống càng dễ dàng tìm ra tài liệu phù hợp.
“Find me information on the impact of the oil sprills in Alaska on the price of oil” ì ù
Câu lệnh t m kiếm ngư i d ng sửờ dụng vốn từ ựng v
(accidents), Alaska, price (cost, value)
Ràng buộc hệ thống thống kê r t ú ra các token xử lý
Impact (0.308), oil (0.606), petroleum (0.65), sprill (0.12), accidents (0.23), Alaska ( 45), 0 price (0.16), cost ( 25), value0
Gán trọng số cho c c thuật ngữá tìm kiếm dựa trên thuật to n tần sốá tài liệu nghịch đ o v cơ sở ữả à d liệu
Hình 1.21: Các ví d v rà ề ng bu ộ c truy v ấ n 1.6.2 Độ tương tự và x ế p h ạ ng
Tìm kiếm thông tin liên quan đến việc tính toán độ tương tự giữa câu lệnh tìm kiếm của người dùng và tài liệu trong cơ sở dữ liệu Mặc dù nhiều hệ thống cũ không hiệu quả, nhưng các hệ thống hiện đại đã cải thiện đáng kể bằng cách lưu trữ các giá trị trọng số phù hợp cho các chỉ mục tài liệu Độ tương tự có thể áp dụng cho tất cả các tài liệu hoặc một phần trong tài liệu.
Khi các tài liệu được xác định là liên quan đến truy vấn của người dùng, việc sắp xếp các tài liệu liên quan nhất lên đầu là rất quan trọng Quá trình này được gọi là "quá trình xếp hạng".
Có nhiều phương pháp đo độ tương tự khác nhau có thể sử dụng để tính độ tương tự giữa tài liệu và câu truy vấn tìm kiếm Đặc điểm của công thức tính độ tương tự là kết quả của công thức sẽ tăng khi các tài liệu càng giống nhau Giá trị bằng 0 nếu các tài liệu hoàn toàn khác nhau.
( , trong đ C ló à hằng số dùng để điều chỉnh, IDFi là tần số i liệu nghị tà ch đ o ả của thuật ngữ ” trong tập t i liệu v “i à à fi,j= K + (K 1) TF– i,j / maxfreqj
K là hằng số, TFi,j đại diện cho tần số của thuật ngữ i trong tài liệu j, trong khi v_maxfreq là tần số lớn nhất của bất kỳ thuật ngữ nào trong tài liệu j Giá trị tối ưu của K nằm trong khoảng từ 0.3 đến 0.5.
Một công thức tính độ tương tự giữa tài liệu và truy vấn được đưa ra, trong đó các đối tượng được xem như các vector trong không gian nhiều chiều Để xác định mức độ tương đồng của tài liệu với câu lệnh tìm kiếm, công thức Cosine được sử dụng để tính khoảng cách giữa vector của tài liệu và vector của truy vấn.
Trong mô hình vector, DOCó i,k đại diện cho thuật ngữ thứ k trong vector trọng số của tài liệu i, trong khi QTERMj,k là thuật ngữ thứ k trong truy vấn j Công thức cosine được sử dụng để tính cosine của góc giữa hai vector; khi cosine bằng 1, điều này có nghĩa là hai vector trùng nhau, thể hiện rằng thuật ngữ và truy vấn biểu diễn cùng một thông tin Ngược lại, nếu thuật ngữ và truy vấn không liên quan, hai vector sẽ vuông góc và cosine sẽ bằng 0 Một trong những kỹ thuật mô hình hóa phổ biến là mô hình Markov ẩn.
Việc sử dụng mô hình Markov ẩn (HMM) trong tìm kiếm nguyên bản đã dẫn đến một mô hình mới cho tìm kiếm Trong hầu hết các kỹ thuật tìm kiếm trước đây, truy vấn được coi là một tập tài liệu cố định mà hệ thống cố gắng tìm tất cả các tài liệu tương tự Tuy nhiên, trong HMM, tài liệu được coi là một quá trình thống kê không xác định có thể tạo ra đầu ra tương đương với tập hợp các câu hỏi sẽ xem xét tài liệu liên quan HMM được định nghĩa bởi đầu ra là kết quả của việc xử lý các trạng thái không xác định thông qua các chuyển dịch trạng thái, có thể bị nhiễu bởi bối cảnh Đầu ra quan sát được là một câu truy vấn và các tài liệu liên quan không xác định Kênh n là sự ghép đôi không cân đối giữa cách mà tác giả tài liệu biểu diễn và khả năng xác định câu hỏi của người dùng Nếu D là xác suất tài liệu liên quan đến truy vấn và Q là câu truy vấn, thì có thể áp dụng luật Bayes.
Chúng ta đang thực hiện các phân tích hiệu quả từ việc đánh giá tài liệu, với P(Q) có giá trị giống nhau cho mọi tài liệu, do đó có thể bỏ qua P(D | R) cũng được xem là nhiệm vụ khả thi trong việc xử lý các văn bản lớn.
Việc sử dụng đo lường tương tự trong lựa chọn các tài liệu mang lại lợi ích trong việc xếp hạng đầu ra, giúp người dùng truy cập nhanh chóng vào các tài liệu phù hợp nhất Xếp hạng này không chỉ giảm chi phí mà còn tối ưu hóa khả năng hiển thị các tài liệu liên quan Các hệ thống Boolean truyền thống trả về kết quả theo thứ tự ngay lập tức dựa trên độ liên quan của truy vấn, trong khi các kỹ thuật tính toán độ tương tự thống kê trong hệ thống thương mại hiện đại cho phép xử lý lượng lớn dữ liệu từ nhiều nguồn Tuy nhiên, nhiều hệ thống vẫn chưa tận dụng tri thức về nội dung tài liệu để cải thiện độ chính xác trong xếp hạng, do khó khăn trong việc duy trì cập nhật khi cơ sở dữ liệu thay đổi.
Hệ thống RetrievalWare sử dụng danh sách nghịch đảo để nhận diện các tài liệu liên quan Sau đó, hệ thống áp dụng xếp hạng thô và xếp hạng tinh Xếp hạng thô dựa vào sự hiện diện của các thuật ngữ truy vấn trong tài liệu, trong khi xếp hạng tinh xác định chính xác các tài liệu được lựa chọn Xếp hạng thô điều chỉnh dựa trên tính chất ngữ nghĩa, dấu hiệu ngữ cảnh và khoảng cách ngữ nghĩa Tính chính xác của xếp hạng phụ thuộc vào các thuật ngữ truy vấn và trọng số được gán cho từng thuật ngữ Dấu hiệu ngữ cảnh xuất hiện khi các từ liên quan trong mạng ngữ nghĩa có mặt trong tài liệu Nếu người dùng chỉ ra rằng thuật ngữ “charge” có nghĩa là trả tiền cho một đối tượng, hệ thống sẽ tìm các từ như “buy”, “purchase”, “debt” để xác định sự hiện diện của thuật ngữ “charge” trong tài liệu và điều chỉnh xếp hạng Khoảng cách ngữ nghĩa đánh giá mối quan hệ giữa các từ và thuật ngữ truy vấn, với từ đồng nghĩa làm tăng trọng số và từ trái nghĩa làm giảm trọng số Quá trình xếp hạng thô cung cấp xếp hạng ban đầu dựa trên các từ hiện có trong tài liệu, nhưng giá trị xếp hạng có thể thay đổi tùy thuộc vào ngữ cảnh và tính chính xác của thông tin.
59
Mô hình Boolean (Boolean Model)
Mô hình tìm kiếm thông tin Boolean là một phương pháp phổ biến trong các hệ thống thông tin thương mại hiện nay Mô hình này dựa trên Logic Boolean và lý thuyết tập hợp cổ điển, trong đó tài liệu tìm được và câu truy vấn của người dùng được xem như là tập hợp các thuật ngữ Tìm kiếm thông tin dựa trên việc kiểm tra sự hiện diện của các thuật ngữ trong câu truy vấn trong tài liệu.
Cho một tập hợp hữu hạn T = {t1, t2, , tm} gồm các thuật ngữ chỉ mục và một tập hữu hạn D = {D1, D2, , Di, , Dn} trong đó Di là tài liệu Biểu thức Boolean Q được sử dụng để biểu diễn một truy vấn tìm kiếm.
Q được định nghĩa là (Wi OR Wk OR ) AND AND (Wj OR Ws OR ), trong đó Wi = ti, Wk = tk, Wj = tj, Ws = ts, hoặc Wi = NON ti, Wk = NON tk, Wj = NON tj, Ws = NON ts Sự xuất hiện của từ NON trước các thuật ngữ tương ứng chỉ ra rằng chúng không có mặt trong tài liệu cần tìm Q có thể được trình bày dưới dạng chuẩn hội, đồng thời cũng có thể ở dạng chuẩn tuyển.
Quá ìtr nh t m kiếm gồm hai bước: ì
Bước 1: Tập Sj được xác định dựa trên việc liệu dữ liệu thu được có chứa hoặc không chứa thuật ngữ Wj, với công thức Sj = {Di | Di chứa phần tử Wj}.
Bước 2: Cá àc t i li u tìm đư c, đáp ứng truy v n Q, là k t qu c a cáệ ợ ấ ế ả ủ c thao t c á tập hợp tương ng, tức l : UNION(INTERSECTION Sj)ứ à
Chúng ta có một kho tài liệu phong phú về các tác phẩm của Shakespeare và muốn tìm kiếm các vở kịch chứa từ "Brutus" và "Caesar" nhưng không chứa từ "Calpurnia" (Brutus AND Caesar AND NOT Calpurnia) Shakespeare sử dụng khoảng 32,000 từ khác nhau, mỗi từ có thể xuất hiện trong nhiều vở kịch khác nhau Để thực hiện điều này, chúng ta đã xây dựng một ma trận ảnh hưởng từ – tài liệu.
Hình 2.1 minh họa ma trận ảnh hưởng thuật ngữ – tài liệu, trong đó các thuật ngữ được sắp xếp theo bảng chữ cái theo hướng dọc Mỗi phần tử (t,d) ở hàng t và cột d sẽ có giá trị 1 nếu vở đích d chứa thuật ngữ t, ngược lại, giá trị sẽ là 0.
Theo hình thức vector, mỗi thuật ngữ được biểu diễn bằng một vector, ví dụ: vector Brutus được viết gọn là 110100 Để trả lời cho truy vấn “Brutus AND Caesar AND NOT Calpurnia”, ta thực hiện phép AND trên các vector của Brutus và Caesar, đồng thời áp dụng phép phủ định cho Calpurnia.
Kết quả trả ời cho truy vấn n y l hai vở ịch Anthony and Cleopatra” và l à à k “
“Hamlet” (trong trường hợp v ụ ngắn gọn ở trên).í d
Mô hình Boolean mang đến cái nhìn trực quan và dễ hiểu cho người sử dụng hệ thống thông tin Các câu hỏi truy vấn được xác định bởi biểu thức Boolean có ý nghĩa rõ ràng, giúp người dùng dễ dàng tiếp cận Nhờ vào tính đơn giản và khả năng hiểu biết nhanh chóng, mô hình này đã thu hút sự quan tâm lớn trong những năm qua và được ứng dụng rộng rãi trong các hệ thống thương mại.
Mô hình Boolean không cung cấp danh sách tài liệu được sắp xếp theo mức độ liên quan, điều này khiến nó không đáp ứng được yêu cầu của các hệ thống tìm kiếm hiện đại Mặc dù các biểu thức Boolean có ngữ nghĩa rõ ràng, việc chuyển đổi thông tin cần thiết thành biểu thức này là rất khó khăn Người sử dụng thường gặp khó khăn trong việc diễn đạt yêu cầu của họ thành các biểu thức Boolean Hơn nữa, sự khớp chính xác có thể dẫn đến việc trả về quá ít hoặc quá nhiều tài liệu.
2.2.1 Mô hình không gian vector (Vector Space Model)
Trong mô hình này, mỗi văn bản được chuyển đổi thành một vector, trong đó mỗi thành phần biểu thị một giá trị thuật ngữ cụ thể từ tập văn bản gốc Mỗi thành phần vector được gán giá trị từ hàm f của từng thuật ngữ, thường là trọng số của từ trong văn bản, được xác định qua nhiều phương pháp biểu diễn khác nhau.
Ví dụ dưới đây mô tả việc biểu diễn các vector văn bản trong không gian 2 chiều (chỉ có 2 thuật ngữ):
Trong không gian chỉ có hai thuật ngữ, các vector văn bản được biểu diễn như hình 2.2 Các mô hình không gian vector phổ biến được áp dụng trong xử lý văn bản bao gồm mô hình Boolean, TF, IDF và TFxIDF.
Mô hình không gian vector (Vector Space M odel)
Khi đó giá trị trọng số được xác định theo từng mô hình biểu diễn cụ thể như sau:
2.2.1 Mô hình Boolean Đây là mô hình biểu diễn vector với hàm cho giá trị rời rạc vớif duy nhất 1 và 0 (true/false) Hàm f(t) ương t ứng với thuật ngữ ti s ẽ cho gi trị đúngá n và ếu chỉ ếu thuật ngữ t n i xuất hiện trong văn bản đó
2.2.2 Mô hình tần suất (Term Frequency - TF)
Giá trị wij được tính dựa trên tần suất xuất hiện của thuật ngữ trong đoạn văn bản Công thức tính wij là wij = 1 + log(fij), trong đó fij là số lần xuất hiện của thuật ngữ tại vị trí i trong văn bản dj, và log(X) là hàm logarit cơ số 10 đối số X.
Trong phân tích văn bản, tần suất xuất hiện của thuật ngữ "ti" đóng vai trò quan trọng Khi số lần thuật ngữ này xuất hiện nhiều, điều đó cho thấy văn bản có sự phụ thuộc lớn vào nó, đồng thời cung cấp nhiều thông tin liên quan trong nội dung.
2.2.3 Mô hình nghịch đảo tần số văn bản (Inverse Document Frequency - IDF)
Trọng số \( w_{ij} \) được xác định dựa trên độ quan trọng của thuật ngữ \( t_i \) trong văn bản \( d_j \) Nếu thuật ngữ \( t_i \) xuất hiện trong ít tài liệu, điều này cho thấy trọng số của nó đối với văn bản \( d_j \) sẽ cao hơn, đồng nghĩa với việc hàm lượng thông tin trong thuật ngữ đó cũng lớn hơn.
) log( log i ij i h h m m w trong đó:
- m là tổng số văn bản;
- hi là s vố ăn bản c chứa thuật ngữ tó i
2.2.4 Mô hình kết hợp TFxIDF
Phương pháp này kết hợp hai kỹ thuật TF và IDF, mang lại những lợi ích nổi bật từ cả hai Giá trị của các thành phần trong ma trận trọng số được tính toán một cách chính xác để tối ưu hóa hiệu quả.
Trọng số wij được tính ằng ần số xuất hiện ủa thuật ngữ t b t c i trong văn ản db j và độ hiếm ủa thuật ngữ t c i êtr n toàn ộ CSDL b
2.2.5 Áp dng phương pháp vector thưa trong biểu diễn văn bản
Khi biểu diễn văn bản theo mô hình vector chuẩn, kích thước của ma trận Wij, với i = {1,…,n} là số thuật ngữ và j = {1,…,m} là số văn bản trong CSDL, có thể rất lớn, dẫn đến số lượng phần tử lên đến hàng triệu Việc lưu trữ ma trận này sẽ tiêu tốn nhiều tài nguyên bộ nhớ và các phép toán trên vector trở nên phức tạp Để khắc phục vấn đề này, kỹ thuật xử lý trên vector thưa sẽ được áp dụng thay vì lưu trữ và xử lý trên các vector đầy đủ.
Vector thưa là loại vector chỉ lưu trữ các từ khóa có tần suất xuất hiện lớn hơn 0 trong văn bản, không ghi nhận các từ không xuất hiện Mỗi phần tử trong vector thưa bao gồm hai thành phần: chỉ số của thuật ngữ và số lần xuất hiện hoặc trọng số của thuật ngữ trong văn bản.
Xét ví dụ biểu diễn vector thưa như sau: w ij máy tính virus buôn bán thị trường học sinh nhà trường d 0 ( CNTT) 2 3 0 0 0 0 d 1 (kinh tế) 1 0 7 4 0 0 d 2 (giáo dục) 1 0 0 0 3 5
Bảng 2 -2: V í d biểu diễn vector thưa Trong ví dụ trên, các vector chuẩn có dạng: d0 = (2, 3, 0, 0, 0, 0) d1 = (1, 0, 7, 4, 0, 0) d2 = (1, 0, 0, 0, 3, 5) Đối với vector thưa: d0 = ((0,2), (1,3)) d1 = ((0,1), (2,7), (3,4)) d2 = ((0,1), (4,3), (5,5))
Mô hình xác suất (Probabilistic Model)
Mô hình xác suất, lần đầu được giới thiệu vào năm 1976, sử dụng lý thuyết xác suất để giải quyết các vấn đề trong tìm kiếm thông tin Đây là một trong những mô hình định lượng phổ biến nhất, cho phép sắp xếp tài liệu theo thứ tự xác suất liên quan Tiêu chuẩn sắp xếp này giúp cải thiện độ chính xác trong việc tìm kiếm thông tin.
“nguyên lý sắp xếp theo xác suất”, được phát biểu như sau:
Nếu hệ thống thông tin cung cấp cho người dùng một danh sách tài liệu sắp xếp theo thứ tự giảm dần của xác suất liên quan, thì các xác suất này được đánh giá dựa trên độ chính xác có thể từ cơ sở dữ liệu hiện có Do đó, hiệu quả tổng thể của hệ thống đối với người dùng sẽ đạt mức tối ưu khi dựa trên cơ sở dữ liệu đó.
Hệ thống thông tin khuyến nghị (HTTKTT) có mục đích chính là hỗ trợ người dùng tìm kiếm tài liệu liên quan Để đạt được hiệu quả tốt nhất, việc sắp xếp tài liệu theo xác suất mức độ liên quan cần tuân theo hai nguyên tắc: đầu tiên, mức độ liên quan được xác định bằng hai giá trị yes hoặc no; thứ hai, mức độ liên quan của tài liệu đối với một yêu cầu không bị ảnh hưởng bởi các tài liệu khác trong tập hợp.
Khái niệm “xác suất độ liên quan” cần được xác định rõ ràng Khi người dùng nhập truy vấn với từ đơn “Anthony”, nếu tất cả tài liệu đều được nhận diện, chúng ta có thể phân chia tập tài liệu thành 4 tập con không chồng chéo.
Trong số 10.000 tài liệu, có 1.000 tài liệu chứa từ "Anthony" Tuy nhiên, chỉ có 11 tài liệu liên quan đến truy vấn, trong đó chỉ một tài liệu có chứa từ "Anthony" Nếu một tài liệu được lấy ngẫu nhiên từ tập hợp các tài liệu đã được chỉ số hóa với từ này, kết quả sẽ cho thấy sự phân bố không đồng đều của từ khóa trong các tài liệu.
“Anthony”, thì xác suất của việc chọn được một tài liệu liên quan là là 1/1000
Người sử dụng chỉ cần nhập một thuật ngữ, hệ thống sẽ cung cấp hai lựa chọn: tài liệu được chỉ số hóa với thuật ngữ đó xuất hiện đầu tiên trong danh sách sắp xếp, hoặc tài liệu không được chỉ số hóa với thuật ngữ đó cũng được hiển thị đầu tiên.
Mô hình tìm kiếm theo xác suất là một trong những phương pháp hiệu quả nhất mà không cần bổ sung thuật toán tính trọng số, với việc sắp xếp tài liệu hoàn toàn dựa trên lý thuyết Tuy nhiên, trong nhiều ứng dụng, sự phân phối thuật ngữ giữa các tài liệu liên quan và không liên quan thường không có sẵn, khiến việc đánh giá xác suất chỉ mang tính lý thuyết Điểm chính của mô hình này là chỉ xác định một phần các tài liệu được sắp xếp, và với các truy vấn ngắn, số tập con phân biệt sẽ tương đối thấp Mô hình này bỏ qua sự phân bố của các thuật ngữ trong tài liệu, dẫn đến những nhược điểm tương tự như mô hình Boolean, khi không cho phép người sử dụng can thiệp vào tập hợp tài liệu tìm kiếm Nhiều phương pháp tiếp cận dựa vào lý thuyết xác suất đã được phát triển, trong đó mạng niềm tin Bayes (Bayesian belief networks) nổi bật nhờ khả năng kết hợp các dấu hiệu khác nhau như truy vấn quá khứ và phản hồi thông tin, hỗ trợ cho quá trình sắp xếp tài liệu.
Mô hình tập mờ (Fuzzy Set Model)
2.4.1 Lý thuyết tập mờ FS
Trong lý thuyết tập hợp cổ điển, với một tập E và tập A là con của E, mỗi phần tử x thuộc E chỉ có hai khả năng: x thuộc A hoặc x không thuộc A Do đó, việc xác định tập con A⊂E tương đương với việc xác định hàm đặc trưng lA(x) thỏa mãn điều kiện nhất định.
Hàm đặc trưng có miền giá trị từ 0 đến 1 Bằng cách mở rộng miền giá trị này từ hai điểm rời rạc 0 và 1 thành đoạn [0, 1] của hàm lA(x), khái niệm mờ đã được xây dựng Điều này cho phép xác định x thuộc tập A hoặc không thuộc tập A một cách linh hoạt hơn.
Cho E là một tập hợp làm không gian nền gọi là một tập mờ trên A E nếu nó tương đương với một hàm thực nhận giá trị trong miền [0, 1]:
Người ta thường kí hiệu:
A = {(x, μ(x))| x ∈E} trong đó μA(x): E → [0, 1] được gọi là hàm thuộc nhận giá trị trong đoạn [0,1], đặc trưng mức độ phụ thuộc x vào A
Nếu X là tập các điểm rời rạc x1, x2, …, xnthì A được kí hiệu như sau:
Nếu X liên tục thì A được ký hiệu là:
2.4.2 Biểu diễn văn bản dựa trên khái niệm mờ
Trong một tập văn bản D = {d1, d2,…, dM} và tập thuật ngữ T = {t1, t2,…,tN}, sự liên quan của các từ khoá đến văn bản được xác định thông qua một phương pháp đánh chỉ số đã được công nhận Cụ thể, độ liên quan của các từ khoá được biểu diễn bằng μ(T) = {μT(t1), μT(t2), …, μT(tN)}.
Thực hiện chuẩn hoá các giá trị của μ(T) vào [0, 1].
Xét một chủ đề cụ thể, giả sử có một tập các khái niệm liên quan tới chủ đề này, ký hiệu:
Các giá trị được xác định bởi người dùng Xét một khái niệm k trong tập hợp các khái niệm, khái niệm này có thể bao gồm một số thuật ngữ và được định nghĩa như sau: k = {t1, t2,…, tm}.
Từ đó có thể xây dựng một khái niệm mờ như sau:
Khái niệm mờ là một tập hợp các yếu tố không rõ ràng liên quan đến một khái niệm cụ thể Hàm thuộc của khái niệm này được xác định dựa trên mức độ quan trọng của các từ liên quan đến nó.
Ký hiệu một khái niệm mờ của khái niệm k là
Mức độ quan trọng của một khái niệm mờ khi đó được xác định bằng một hàm tích hợp mờ, ký hiệu là μ(
Định nghĩa 2: Hàm tích hợp khái niệm
Hàm F: [0, 1] n → [0, 1] được gọi là hàm tích hợp mờ nếu thoả mãn các tính chất của hàm tích hợp, tức là:
2 F(μT(t1), μT(t2), …, μT(tm)) ≤ F(μT(t’1), μT(t’2), …, μT(t’m)) với μT(ti) ≤ μT(t’i), (i ∈ [1, m]), trong đó, μT(ti) và μT(t’i) biểu diễn mức độ quan trọng của các thuật ngữ Về mặt ngữ nghĩa, trong hai khái niệm, khái niệm nào có nhiều thuật ngữ liên quan đến văn bản hơn thì khái niệm đó được xác định rõ ràng hơn và ngược lại
Khi đó, một văn bản d có thể được biểu diễn dưới dạng:
~ k i)} nếu t i ∉ k nếu t i ∈ k nếu t i chưa chắc thu ộc k
Mô hình tập thô (Rough Set Model)
Bằng cách áp dụng hàm tích hợp, chúng ta có thể giải quyết vấn đề từ đồng nghĩa trong xử lý văn bản Các từ đồng nghĩa được xác định và kết hợp vào một khái niệm chung, cho phép việc xử lý văn bản diễn ra trên các khái niệm mờ thay vì trực tiếp trên các thuật ngữ cụ thể.
Phạm vi của các khái niệm thường không độc lập và có sự giao nhau, đặc biệt trong ngôn ngữ tự nhiên khi một thuật ngữ có thể thuộc nhiều lĩnh vực Bài toán biểu diễn văn bản tập trung vào việc lưu trữ và xử lý các khái niệm thay vì chỉ làm việc với các thuật ngữ, điều này mang lại kết quả tốt hơn và hiệu quả hơn Tuy nhiên, vấn đề tính hàm phụ thuộc giữa các khái niệm và thuật ngữ vẫn còn khó khăn Mô hình tập mờ có ưu điểm so với mô hình không gian vector và mô hình xác suất nhờ vào khả năng sắp xếp các truy vấn có cấu trúc Cũng giống như mô hình không gian vector, các mô hình tập mờ cần bổ sung thuật toán tính trọng số thuật ngữ để xác định hàm thuộc của các thuật ngữ riêng lẻ Tuy nhiên, nhược điểm của mô hình này là không giải thích được lý do tại sao một số phép toán hoạt động tốt hơn những phép toán khác, dẫn đến sự không rõ ràng về trực giác.
2.5 Mô hình t ô ậpth (Rough Set Model)
2.5.1 Giới thiệu về lý thuyết tập thô và mô hình tập thô dung sai
Lý thuyết tập thô bắt đầu từ việc xem xét các tập X trong không gian vũ trụ U thông qua các xấp xỉ trên (upper approximations) và xấp xỉ dưới (lower approximations) của một không gian xấp xỉ ℜ = (U, R), trong đó R ⊆ U x U là một quan hệ tương đương Hai đối tượng x, y ∈ U được coi là không phân biệt nếu chúng có quan hệ xRy theo R.
R Xấp xỉ êtr n và xấp x dỉ ưới trong kh ng gian xấp x c bô ỉ ℜ ủa ất kỳ mọt t ập
X⊆U, được định nghĩa như sau:
U(ℜ,X) = {x U: [x]∈ R∩ ≠ ∅X } trong đó [x]R biểu thị ớp ương đương của ác đối tượng kh ng ph n biệt l t c ô â được ới v x đ với ối quan hệ ương đương R t
Một số nghiên cứu trước đây về bài toán tìm kiếm thông tin sử dụng mô hình tập thương đương với giả thiết cơ bản là tập hợp T Tập hợp này bao gồm các thuật ngữ có thể chia thành các lớp tương đương xác định theo quan hệ R Quan hệ R là một lương lý thuyết mà đòi hỏi phải thỏa mãn ba tính chất: phản xạ, đối xứng và bắc cầu Tuy nhiên, tính chất bắc cầu không phải lúc nào cũng được đảm bảo trong lĩnh vực xử lý ngôn ngữ tự nhiên và tìm kiếm thông tin.
I : U → 2 u là m hột àm kh ng chắc chắn ô v: 2 u 2x u [→ 0,1] là m hàột m tập ờ m
P: I(U) → {0,1} là một hàm cấu trúc
Giả thiết rằng ối t ng x đ ượ được ận ết bnh bi ằng hàm thông tin Inf(x)
Hàm không chắc chắn I xác định độ dung sai của tất cả các đối tượng có cùng thông tin với x Hàm này có thể là bậc nhất nếu và chỉ nếu x thuộc I(x) và y thuộc I(x) khi và chỉ khi x thuộc I(y) với ∀x,y thuộc U.
Hàm tập ờ v li liên quan đến m ê câu hỏi ớp dung sai I(x) của một đối tượng thông l m t ô tin x∈U, được phân loại vào hai tập con: tập có cấu trúc với xác suất P(I(x))=1 và tập không có cấu trúc với xác suất P(I(x))=0.
V ôới kh ng gian dung sai, xấp xỉ tr n v ê à xấp xỉ ưới ủa ột ập X được d c m t định ngh a nh ĩ ưsau:
Vấn đề c bản của việc sử dụng không gian dung sai trong các ứng dụng là ơ xác định các hàm I, v, P phù hợp
2.5.2 Ứng dng mô hình tập thô trong bài toán tìm kiếm thông tin
Tập vũ trụ U bao gồm các thuật ngữ, ký hiệu là U = {t1,t2 ,tM} Quan hệ đồng xuất hiện của các thuật ngữ trong các văn bản tài liệu từ tập D được chọn làm quan hệ dung sai, vì sự đồng xuất hiện này cho phép thể hiện một cách có ý nghĩa về tính phụ thuộc và quan hệ ngữ nghĩa giữa các thuật ngữ.
Hơn nữa việc xác ịnh tính ồng xuất hiện của các thuật ngữ khá đơn giản và đ đ hiệu quả tính toán tốt
Ký hiệu fD(ti, tj) là số tài liệu trong D có chứa cả ti, tj Ta định nghĩa hàm không chắc chắn I phụ thuộc vào ngưỡng θ như sau:
Iθ(ti) = {tj / c(ti, tj) } ≥ θ ∪{ti}
Hàm tập mờ ợc đư định nghĩa nh ư sau:
Hàm thành phần th được định nghĩa như sau: ô à(ti, X) = v(Iθ(ti),X) = ( )
∩ X v c ới ác định nghĩa tr n, xấp xỉ tr n v ê ê à x x dấp ỉ ưới ủa ập X được định nghĩa c t l là: ại
Trong mô hình tập thô dung sai, để thực hiện truy vấn, cần so sánh câu hỏi với các tài liệu bằng cách kiểm tra các mức độ thô khác nhau giữa các xấp xỉ trên và xấp xỉ dưới Các độ thô giữa hai tập được định nghĩa cho quan hệ tương đương, được mở rộng cho quan hệ dung sai.
Mô hình tập thô có lợi thế về chi phí tính toán thấp hơn so với các mô hình khác, đồng thời vẫn duy trì độ chính xác cao Do đó, mô hình này đang được nghiên cứu và phát triển mạnh mẽ trong thời gian gần đây.
74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN
Giới thiệu
Với sự phát triển nhanh chóng của thông tin và khả năng truy cập dễ dàng, đặc biệt là từ World Wide Web, việc tìm kiếm thông tin và kiến thức hữu ích đã trở thành một vấn đề quan trọng trong lĩnh vực khoa học máy tính và thông tin Các trình duyệt và máy tìm kiếm Web được thiết kế dựa trên lý thuyết tìm kiếm thông tin, tạo ra các hệ thống tìm kiếm nhằm cung cấp cho người sử dụng thông tin phù hợp và hữu ích, đáp ứng nhu cầu truy vấn của họ.
Hệ thống thu thập thông tin (IRS) và các trình duyệt Web mở rộng chức năng tìm kiếm của hệ thống tìm kiếm dữ liệu (DRS), với sự khác biệt chính nằm ở tên miền Tìm kiếm dữ liệu giải quyết các vấn đề đơn giản và có cấu trúc, trong khi tìm kiếm thông tin xử lý các vấn đề phức tạp hơn, không được định nghĩa rõ ràng Trong DRS, người dùng thực hiện tìm kiếm có cấu trúc dựa trên các truy vấn cụ thể, còn với IRS, người dùng có thể thực hiện các tác vụ ít cấu trúc hơn, giúp tìm kiếm thông tin hữu ích hiệu quả hơn Sự phát triển của XML cho phép biểu diễn cả cấu trúc và ngữ nghĩa của thông tin, mở rộng khả năng cho người dùng trong việc xử lý tài liệu Để hỗ trợ người dùng tốt hơn, IRS cần được nâng cấp thành hệ thống hỗ trợ tìm kiếm thông tin (IRSS), tập trung vào chức năng trợ giúp hơn là chỉ tìm kiếm và duyệt Trong quá trình này, người dùng có thể sử dụng các công cụ và ngôn ngữ do hệ thống cung cấp để đóng vai trò như một IRSS.
IRSS được hiểu là giai đoạn phát triển tiếp theo của hệ thống tìm kiếm, cho thấy sự tiến hóa từ DRS lên IRS và từ IRS lên IRSS.
Quá trình phát triển của hệ tìm kiếm
3.2.1 Quá trình phát triển từ hệ tìm kiếm dữ liệu (DRS) lên hệ tìm kiếm thông tin (IRS)
DRS có thể được xem là giai đoạn đầu trong khi IRS là giai đoạn tiếp theo trong sự phát triển của hệ thống tìm kiếm Cả hai mô hình tìm kiếm đều bao gồm một tập hợp thông tin (dữ liệu hoặc tài liệu) và các yêu cầu thông tin từ người dùng Chức năng chính của hệ thống tìm kiếm là kết nối tài liệu với yêu cầu của người dùng, nhấn mạnh vào sự so khớp giữa tài liệu và yêu cầu thông tin Do đó, không có gì ngạc nhiên khi hệ thống tìm kiếm thông tin (IR) thường trả về nhiều kết quả do sự so khớp này.
Sự khác biệt giữa DR và IR thể hiện rõ trong cách biểu diễn các mục tài liệu và yêu cầu thông tin của người dùng, cũng như trong quá trình so khớp Trong hệ CSDL, các mục tài liệu và yêu cầu thông tin được mô tả rõ ràng, cho phép sử dụng các lược đồ biểu diễn tri thức và ngôn ngữ truy vấn hiệu quả Mô hình này khẳng định mối quan hệ giữa các mục tài liệu và yêu cầu thông tin của người dùng một cách rõ ràng, giúp việc so khớp chính xác và kết luận suy diễn dễ dàng hơn Ngược lại, trong IR, các tài liệu và yêu cầu thông tin không được mô tả rõ ràng, mối quan hệ giữa chúng rất mơ hồ và thường được định nghĩa một cách chủ quan.
DR giải quyết các vấn đề có cấu trúc một cách rõ ràng và chính xác, trong khi IR tập trung vào việc giải quyết các vấn đề không có cấu trúc với sự không chắc chắn trong định nghĩa và vai trò.
Trong thiết kế ủ c a IRS, chức năng tìm ki m củế a DRS đư c mở ộợ r ng, nhưng nguyên lý thiết kế ch ính vẫn đư c giữ ạợ l i IRS được giới thiệu trong thư viện thông tin tìm kiếm và chia thành 3 thế hệ: thế hệ đầu tiên cho phép tìm kiếm tự động danh mục tài liệu, sử dụng tên tác giả và tiêu đề; thế hệ thứ hai tăng cường chức năng tìm kiếm dựa trên văn bản, cho phép tìm kiếm theo chủ đề, từ khóa và các truy vấn phức tạp; thế hệ thứ ba tập trung vào cải tiến giao diện, tích hợp chức năng siêu văn bản và kiến trúc hệ thống mở IRS trong bằ ố ải c nh thư viện chỉ ố ắng tự động hóa công việc tìm kiếm, còn các chức năng hỗ trợ dành cho người quản lý thư viện.
Có hai loại tác động của người dùng khi sử dụng hệ thống tìm kiếm: tìm kiếm và duyệt Tìm kiếm thường được thực hiện bằng cách chuyển đổi yêu cầu thông tin thành câu truy vấn, từ đó hệ thống sẽ tìm kiếm dựa trên câu truy vấn đó Trong khi đó, công việc duyệt diễn ra thông qua việc tìm kiếm trong tập tài liệu qua giao diện tương tác Trong quá trình duyệt, yêu cầu thông tin của người dùng và mục tiêu cụ thể có thể không được định nghĩa rõ ràng và có thể được xem xét lại thông qua tương tác với hệ thống.
Xem xét ba thế hệ của IRS cho thấy mỗi thế hệ đều cải tiến và bổ sung nhiều chức năng hơn so với thế hệ trước Khi chuyển từ DR sang IR, có thể quan sát sự thay đổi về độ phức tạp và tính tự nhiên của vấn đề DR tập trung vào các vấn đề có cấu trúc rõ ràng, trong khi IR giải quyết các vấn đề bán cấu trúc với các khái niệm không được định nghĩa rõ ràng Hệ thống tương lai có thể giải quyết các vấn đề không có cấu trúc Bên cạnh đó, sự điều khiển người dùng cũng từ đơn giản đến phức tạp, với hệ DR giúp tìm kiếm thông tin một cách hiệu quả.
Trí tuệ nhân tạo (AI) đang giải quyết các vấn đề phi thực tế Các thế hệ AI trong tương lai có khả năng xử lý các tác vụ phức tạp hơn như phân tích, tổ chức và phát hiện thông tin Hai chiều này được mô tả thông qua một framework rất nổi bật trong lĩnh vực ra quyết định.
3.2.2 Quá trình phát triển từ IRS lên IRSS
Cải thiện trong hệ thống tìm kiếm thông tin (IR) đã mở rộng từ tìm kiếm đa phương tiện đến tìm kiếm siêu văn bản và thư viện kỹ thuật số Sự phát triển nhanh chóng của Web và các thư viện kỹ thuật số cho thấy ứng dụng rộng rãi của IR, với các công cụ tìm kiếm đóng vai trò quan trọng trong sự thành công của Web Mặc dù thiết kế khoa học và nguyên lý của IR vẫn còn tồn tại, việc tìm kiếm thông tin có thể được hiểu như là tìm kiếm dữ liệu khi thay thế ‘tài liệu’ bằng ‘thông tin’ Các vấn đề liên quan đến đánh chỉ mục và tìm kiếm vẫn tồn tại, và IRS được định nghĩa là hệ thống cung cấp các chức năng tìm kiếm và duyệt cơ bản.
Trong thiết kế và thực thi các hệ thống tìm kiếm thông tin mới, cần chú trọng đến việc quản lý các vấn đề không cấu trúc và điều khiển người dùng, bên cạnh việc phân tích các khía cạnh của DR và IR.
Để tối ưu hóa quá trình tìm kiếm thông tin, người dùng cần hiểu rõ các tác vụ của mình, với mục đích cuối cùng là sử dụng thông tin liên quan để đưa ra quyết định Ví dụ, nhà nghiên cứu có thể so sánh và phân tích thông tin từ các bài báo khoa học hay lập kế hoạch dự án Để trích lọc thông tin hữu ích từ dữ liệu lớn hoặc Internet, người dùng phải thực hiện nhiều tác vụ như duyệt, điều tra, phân tích, hiểu, tổ chức và tìm kiếm tài liệu Tìm kiếm và duyệt chỉ là những bước khởi đầu; hệ thống thông tin cần hỗ trợ nhiều tác vụ người dùng khác, không chỉ giới hạn ở việc tìm kiếm Việc phát triển các công cụ, phương pháp và ngôn ngữ hỗ trợ sẽ giúp người dùng thực hiện các tác vụ này một cách hiệu quả hơn.
Dựa trên các vấn đề đã nêu, có thể kết luận rằng quan điểm tập trung vào tìm kiếm trong thiết kế hệ thống IR không còn phù hợp Nhiều người sử dụng công cụ tìm kiếm Web hiện nay phải mất thời gian để hiểu, trích lọc và tổ chức thông tin được trả về từ công cụ Với Web được xem như phương tiện để lưu trữ, phân phối, thu thập, chia sẻ, xử lý và sử dụng thông tin, vấn đề tìm kiếm thông tin đã trở nên phức tạp hơn và không còn đơn giản như trước.
Một bộ nguyên lý mới cho thiết kế và thực thi của thế hệ tiếp theo của Hệ thống Tìm kiếm Thông tin (IR) là cần thiết Thay vì chỉ tập trung vào chức năng tìm kiếm, thế hệ này sẽ chú trọng vào việc hỗ trợ các tính năng đa dạng Điều này được xem như là giai đoạn tiếp theo trong quá trình phát triển của hệ thống tìm kiếm, nhằm nâng cao hiệu quả của hệ thống trong việc hỗ trợ người dùng Mục tiêu của Hệ thống Tìm kiếm Thông tin (IRSS) là cung cấp hỗ trợ cho nhiều loại tác vụ khác nhau, giúp người dùng ra quyết định dựa trên thông tin một cách hiệu quả hơn.
3.3 Các vấn đ cơ bề ản c a hủ ệ thống trợ giú ìm kiếp t m thông tin
3.3.1 Kh i ni ệ m v ề ệ á h th ố ng tr ợ úp tìgi m ki ế m IRSS
Khái niệm về Hệ thống hỗ trợ tìm kiếm thông tin (IRSS) được phát triển từ Hệ thống hỗ trợ quyết định (DSS) Trong khi DSS tập trung vào hỗ trợ và cải thiện quy trình ra quyết định, IRSS lại chú trọng vào việc hỗ trợ và cải thiện quá trình tìm kiếm thông tin Các nguyên lý và kỹ thuật từ DSS có thể được áp dụng cho IRSS, nhưng thay vì nhiệm vụ “ra quyết định”, IRSS tập trung vào nhiệm vụ “tìm kiếm thông tin” Quan điểm này rất hợp lý, vì việc tìm kiếm thông tin hữu ích là cần thiết để đưa ra quyết định thông minh và hợp lý.
Hệ thống hỗ trợ quyết định (DSS) được định nghĩa là một hệ thống dựa trên máy tính, tương tác với người dùng để hỗ trợ trong việc ra quyết định thông qua việc sử dụng dữ liệu và các mô hình nhằm giải quyết các vấn đề phi cấu trúc Một định nghĩa khác cho rằng DSS là hệ thống thông tin tích hợp giữa máy tính, mô hình và dữ liệu, giúp người dùng giải quyết các vấn đề phi cấu trúc qua giao diện thân thiện.
Các kỹ thuật trợ giúp người dùng
Đồ ọ h a má íy t nh v hi n th d li u à ể ị ữ ệ
Trong nhiều trường hợp, người dùng không muốn chi tiết hóa các tài liệu cụ thể chứa thông tin hữu ích Họ thường mong muốn có cái nhìn tổng quan trước khi đi sâu vào phân tích Với kho tài liệu phong phú, người dùng có thể nhận được cái nhìn trung tâm, mặc dù một số chi tiết có thể bị bỏ qua Hầu hết các bộ phận của IRS hiện nay đều tìm kiếm kết quả dưới dạng danh sách tài liệu đã được phân loại Trong IRSS, người dùng có thể sử dụng các công cụ đồ họa để hiển thị dữ liệu, giúp họ xem xét mô hình dữ liệu một cách trực quan Việc hiển thị dữ liệu một cách rõ ràng cho phép người dùng thực hiện các kết luận và phân tích ở mức độ cao hơn.
Các agent thông tin thông minh
Các agent thông tin thông minh đang được sử dụng rộng rãi trong hệ thống IRS để thu thập thông tin và tương tác với người dùng Tiềm năng của các agent này cần được khai thác và phát triển hơn nữa trong IRS Đặc biệt, người dùng nên có quyền xây dựng một agent cá nhân để tương tác hiệu quả với IRS Khả năng tự động hóa và học hỏi của các agent sẽ giúp nâng cao sức hấp dẫn của IRS đối với người dùng.
Nhìn chung, IRSS có thể kết hợp v i bất k ớ ỳ ại h lo ệ ống thông tin nào th đểcung cấp ki u h tr êể ỗ ợri ng.
3.4 Các k ỹ thuậttrợ úp gi người dùng
3.4.1 Gợi ý thuật ngữ tới người dùng
Phương thức này tự động gợi ý các thuật ngữ liên quan đến truy vấn của người dùng, giúp họ dễ dàng tìm kiếm thông tin Nếu người dùng không tìm thấy thuật ngữ phù hợp trong danh sách gợi ý, hệ thống sẽ cung cấp thêm các thuật ngữ mới từ tài liệu tìm kiếm Hệ thống HTTKTT dựa trên phương thức hỗ trợ và được đánh giá thông qua bảng câu hỏi Kết quả từ các đánh giá cho thấy hệ thống này rất hữu ích cho những người dùng thiếu kiến thức chuyên môn trong lĩnh vực liên quan.
Sự phát triển nhanh chóng của công nghệ máy tính và Internet đã tạo điều kiện cho việc truy cập khối lượng thông tin khổng lồ trở nên dễ dàng hơn bao giờ hết Do đó, các kỹ thuật tìm kiếm tài liệu để lấy thông tin cần thiết một cách nhanh chóng đang ngày càng trở nên quan trọng Hầu hết các hệ thống tìm kiếm hiện nay sử dụng từ khoá mà người dùng nhập vào để tìm kiếm thông tin Tuy nhiên, việc tìm kiếm chính xác thông tin theo yêu cầu không phải là điều dễ dàng, đặc biệt là khi người dùng chỉ diễn đạt thông tin cần thiết bằng một vài từ khoá.
Các câu hỏi về lĩnh vực kiến thức có sự thay đổi đáng kể tùy thuộc vào mức độ hiểu biết của người dùng Việc so sánh số lượng từ khóa trong câu hỏi giữa hai nhóm: (1) Người dùng có kiến thức và (2) Người dùng không có đủ kiến thức cho thấy rằng số lượng từ khóa trong truy vấn của người dùng có kiến thức thường lớn hơn nhiều so với nhóm còn lại Kết quả cho thấy việc tìm kiếm thông tin chính xác trở nên khó khăn hơn khi người dùng thiếu kiến thức, vì các từ khóa khó được xác định Nếu số lượng từ khóa không đủ để hệ thống hiểu thông tin cần tìm, có thể rút ra hai kết luận khác nhau.
Trong trường hợp 1, người dùng nhận được các tài liệu không liên quan đến thông tin cần thiết Ngược lại, trong trường hợp 2, chỉ một phần tài liệu yêu cầu được trả về Để giải quyết vấn đề này, một phương pháp hiệu quả là mở rộng câu hỏi bằng cách thêm các thuật ngữ liên quan Khi người dùng không tìm thấy thông tin, trong trường hợp 1, họ cần thực hiện phép "AND" giữa các tài liệu không liên quan, trong khi trong trường hợp 2, họ nên thực hiện phép "OR" bằng cách bổ sung các thuật ngữ mới.
Phương thức hỗ trợ người dùng trong việc tìm kiếm thông tin sẽ gợi ý cho họ các thuật ngữ liên quan đến truy vấn Phương thức này có ba đặc điểm chính: hỗ trợ tìm kiếm nhanh chóng, nâng cao độ chính xác của kết quả và cải thiện trải nghiệm người dùng.
• Hệ thống tự động gợi ý cho ng ời dùng thuật ngữ kiên quan ến truy vấn.ư đ
Hệ thống trích xuất thuật ngữ từ các tài liệu được xếp hạng cao trong kết quả tìm kiếm có thể áp dụng cho các công cụ tìm kiếm với chức năng xếp hạng tài liệu.
Người dùng có thể chọn các thuật ngữ phù hợp với thông tin cần tìm từ danh sách gợi ý Hệ thống sẽ thực hiện tìm kiếm bằng cách sử dụng truy vấn mở rộng, kết hợp các thuật ngữ đã được lựa chọn.
• Tài liệu chứa nhiều thuật ngữ được chọn lựa bởi người dùng được hệ thống gán xếp hạng cao
Nếu người dùng không tìm thấy thuật ngữ phù hợp từ các gợi ý, hệ thống sẽ đề xuất thuật ngữ mới từ các tài liệu không chứa những thuật ngữ mà người dùng đã không chọn.
3.4.1.1 Ph ương thức hỗ trợ tìm kiếm thông tin Đ ặc iểm chính của quá trình tìm kiếm đ
Bước 1: Người dùng nhập câu truy vấn, và hệ thống sẽ sử dụng nó để tìm kiếm tài liệu Nếu tài liệu phù hợp được tìm thấy, quá trình sẽ kết thúc Nếu không, người dùng sẽ chuyển sang bước 2.
Bước 2: H ệ thống gợi cho người d ng những thuật ngữý ù rút ra từ cá àc t i liệu được gán x p hạng cao trong sốế các k t quả ả ềế tr v
Bước 3: Người d ng lựa chọn thuật ngữ th ch hợù í p liên quan đ n thông tin ế mình cần từ các thuật ngữ ợi g ý
Bước 4: ệ thống mở ộng câu truy vấn bằng việc thêm c c thuật ngữ đ ựa H r á ã l chọn và thực hiện tìm kiếm với câu truy vấn mở ộ r ng đó
Phương pháp ítr ch r t thu ậ ú t ng ữ
Phương pháp ítr ch r t thuật ngữ ựa trên hai giả thuyết sau: ú d
Giả thuy t 1: ế Thuật ngữ xuất hiện nhi u lề ầ trong tài liện u có liên quan tới câu truy vấn
Giả thuy t 2: ế Thuật ngữ ữ h u ích loạ á àđể i c c t i liệu không liên quan đ n nhu ế cầu ngư i d ng từờ ù cá à ic t i l ệu t m được trong tập i liệu.ì tà
Phương pháp tr ch r t thuật ngữí ú như sau:
• H ệ thống t m kiếm t i liệu bằng việc sử ụng câu truy vấì à d n do ngư i d ng ờ ù nhập và o.
• H ệ thống tr ch r t c c thuật ngữ ừ ập t i liệí ú á t t à u S đư c g n xếp hạng cao ợ á trong số các k t quả trả ềế v Ở đây, các ký t ự được sử ụ d ng là
KATAKANA; các thuật ngữ phức hợp, tên địa danh và tên tổ chức thì được coi là thu t ngữ ậ
• Giá trị trọng số ủa thuật ngữ w trong t i liệu s đượ c à c tính theo công th c ứ sau:
W ( , ) = ( , ) × log / × log / , × log − tf(w,s): tần suất xuất hiện của thuật ngữ w trong tài liệu s df(w): tần suất xuất hiện của thuật ngữ w trong tập tài liệu S dt(w): tần suất xuất hiện của thuật ngữ w trong tập tài liệu S n: hạng của tài liệu s trong tập hợp.
Công thức này thay đổi phương pháp tính toán tf-idf để nâng cao giá trị trọng số của các thuật ngữ xuất hiện nhiều lần trong tài liệu, giúp cải thiện thứ hạng của chúng trong các kết quả tìm kiếm và phân tán trong tập tài liệu.
• Giá trị trọng số ủa thuật ngữ w l max c à s S ∈ W(w,s).
• H ệ thống so s nh tần suất xuất hiện của thuật ngữ KATAKANA với c c á á thuật ngữ phức trong t p tậ à ệu i li
Khi tần suất của KATAKANA lớn hơn tần suất của các thuật ngữ khác trong tài liệu, giá trị trọng số của mỗi thuật ngữ KATAKANA sẽ được tính toán bằng tích của các giá trị được xác định theo công thức.
Tần suất của thuật ngữ KATAKANA
Tần suất của thuật ngữ phức
Ngượ ạc l i, tr ng s c a m i thu t ng ph c là tích c a cáọ ố ủ ỗ ậ ữ ứ ủ c gi tr đư c á ị ợ tính bởi công thức
Tần suất của thuật ngữ phức
Tần suất của thuật ngữ KATAKANA
• H ệ thống gợi người d ng c c thuật ngữý ù á có á gi trị trọng số liên quan với chúng trong việc làm giảm thứ ự ừ t t cái lớn nhất.
Một câu truy vấn do người dùng nhập vào có thể được mở rộng bằng cách thêm các thuật ngữ được lựa chọn từ những thuật ngữ liên quan Câu truy vấn mở rộng này giúp cải thiện độ chính xác và tính liên quan của kết quả tìm kiếm.
Q: câu truy vấn ngư i dùng nhờ ập vào
W1, W2,…,Wn: các thuật ngữ đư c ngư i dùợ ờ ng chọn từ những thuật ngữ ợ g i ý của hệ thống
93 MÔ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM
Giới thiệu chương trình
Chương trình áp dụng giải thuật Knuth Morris Pratt để thực hiện việc so khớp chuỗi, đồng thời tự động xác định xem kết quả tìm kiếm có phải là từ hoặc cụm từ hoàn chỉnh hay không Chương trình chỉ chấp nhận các từ hoặc cụm từ hoàn chỉnh; ví dụ, khi người dùng tìm kiếm từ khóa “Free”, chỉ những văn bản chứa từ “Free” đầy đủ mới được hiển thị trong kết quả.
_ “This is a Free Software” hợp lệ
_ ”This is Freeze Game ” không hợp lệ
_ “This is Freeze Game, and it is Free!” hợp lệ.
_ “Find Shared/Free software ” hợp lệ
_ “Mailto Free@vinagame.com.vn” là hợp lệ
Chương trình được thiết kế với giao diện thân thiện, tương tự như trang web tìm kiếm hàng đầu thế giới google.com, nhằm tối ưu hóa trải nghiệm của người dùng web.
Giao diện ứng dụng hiển thị combobox cho phép người dùng nhập từ khóa tìm kiếm, với tính năng gợi ý từ khóa dựa trên dữ liệu từ CSDL irss Dữ liệu này được lưu trữ trong hệ CSDL MySQL Nếu từ khóa người dùng nhập chưa có trong CSDL, chương trình sẽ tự động thêm vào cơ sở dữ liệu.
Sau khi điền xong từ khóa:
− Con trỏ ở trên combobox, người dùng có thể ấn Enter ngay và quá trình tìm kiếm bắt đầu
− Hoặc kích chuột vào nút tìm kiếm bên cạnh để bắt đầu quá trình tìm kiếm
Quá trình tìm kiếm là đệ quy trên toàn bộ ổ cứng máy tính, hoặc trên 1 thư mục do người dùng chỉ định Các tùy chọn tìm kiếm nâng cao:
− Nội dung tìm kiếm: Chính xác cụm từ được điền vào, hoặc 1 từ trong cụm từ được điền vào
− Định dạng file tìm kiếm
Quá trình tìm kiếm bắt đầu từ thư mục gốc, nơi chương trình sẽ khám phá các thư mục con và kiểm tra nội dung trong các file văn bản.
Việc tìm kiếm có thể mất thời gian, vì vậy cần xây dựng một quy trình duy nhất để theo dõi trạng thái hoạt động Nếu quy trình đang chạy và người dùng muốn thực hiện tìm kiếm mới, chương trình sẽ thông báo cho họ biết.
Còn đây là kết quả tìm kiếm cho từ khóa “Fixed” trên 1 thư mục có
3276 file và 207 thư mục con, với yêu cầu lọc file có định dạng HTML:
Có 2 nút Back, Next để qua lại giữa các trang, số trang được hiển thị bằng chữ màu xanh lá Mỗi trang hiển thị tối đa 10 kết quả Trong tìm kiếm kể trên, ta có đúng kết quả tìm được và ta đang ở trang thứ nhất h8 iển thị kết quả tìm kiếm
− Dòng chữ màu xanh: Đường dẫn của file
− Dòng chữ màu đen: Một trích dẫn câu trong file chứa từ khóa tìm kiếm được tô đ m ậ
Khi bạn nhấp chuột vào dòng màu xanh, chương trình sẽ tự động mở file theo đường dẫn đã chỉ định, sử dụng ứng dụng mặc định được đăng ký trên hệ điều hành.
Thực nghiệm khả năng của chương trình
Chương trình được thực hiện trên máy tính có cấu hình: CPU Intel Pentium 4 @ 3GHz, RAM 1GB
Ta đặt tên kiểu tìm kiếm chính xác từ (cụm từ) được điền vào là kiểu 1, kiểu còn lại là kiểu 2
Tìm kiếm trên 1 thư mục có 35 file tất cả, trong đó 17 file HTML, 16 file PDF, 0 file DOC Chọn tìm kiếm cho cả 2 định dạng HTML, PDF:
Từ khóa Số kết quả trả về Thời gian
Before subscribing to any of the mailing lists (kiểu 1) 1 1224 ms
Thư mục docs chứa các tài liệu hướng dẫn cho người dùng thư viện Apache POI 3.1 của tổ chức Apache Foundation, một thư viện mạnh mẽ để xử lý tất cả các định dạng file Microsoft Office.
Thư mục này có tổng cộng 3276 file, với 207 thư mục con Với các định dạng file cụ thể:
− Có 3159 file HTML, kích thước thực 53.2MB, kích thước lưu trữ trên đĩa cứng 112MB (do hệ điều hành Window XP quản lý), không tính các file ảnh
− Có 69 file PDF, kích thước thực 1.07MB, kích thước lưu trữ trên đĩa cứng 2.56MB
− Không có 1 file định dạng DOC nào
N ếu chỉ chọn với file HTML, th ta cì ó k ết quả như sau:
Từ khóa Số kết quả trả về Thời gian
Fixed 15 27925 ms project 34 27812 ms re serialization- 1 26211 ms
Việc tìm kiếm thông tin trên file HTML diễn ra nhanh chóng hơn so với file PDF và DOC, nhờ vào định dạng file và hiệu suất của thư viện xử lý các định dạng này.
Ta có giản đồ thời gian tìm kiếm sau, với các thông số tìm kiếm:
− Độ dài từ (cụm từ) khóa tìm kiếm trung bình: 50
Định dạng file cần sử dụng bao gồm TXT, HTML, DOC và PDF Đối với hai định dạng DOC và PDF, nên chọn những file có ít hình ảnh và cấu trúc đơn giản để đảm bảo tính hiệu quả.
Từ giản đồ, có thể nhận thấy rằng đường cong gần giống với đường thẳng, cho thấy hiệu quả tìm kiếm của chương trình khá ổn định Thời gian tìm kiếm tỷ lệ thuận với số lượng file, điều này cho thấy rằng khi số lượng file tăng lên, thời gian tìm kiếm cũng sẽ tăng theo.
Độ dài văn bản trong một file thường lớn hơn nhiều so với từ khóa tìm kiếm Với độ phức tạp O(M + N) và qua thực nghiệm, kết quả tìm kiếm cho thấy sự thay đổi của độ dài từ khóa dao động trong khoảng 40.
100 không khác nhau nhiều lắm.
Nhận xét kết quả thực nghiệm
Có thể đưa ra một số nhận xét như sau:
−−−−− Module cài đặt giải thuật tìm kiếm đệ quy các file trong thư mục gốc làm việc tốt
−−−−− Module cài đặt giải thuật Knuth-Morris-Pratt làm việc tốt.
−−−−− Module cài đặt giải thuật tách lấy từ hoàn chỉnh làm việc tốt
−−−−− Kết quả khá gần với đường tuyến tính, cho thấy chương trình làm việc ổn định
Java gặp hạn chế trong việc xử lý file trên hệ điều hành Windows, dẫn đến tốc độ làm việc của chương trình bị ảnh hưởng Thuật toán Knuth-Morris-Pratt chỉ phát huy hiệu quả trong các trường hợp truy vấn tìm kiếm có tính chất lặp lại cao.
101 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận chung
5.1.1 Những kết quả đạt được
Luận văn đã trình bày những lý thuyết cơ bản của hệ thống thông tin kinh tế, đặc biệt nhấn mạnh phương pháp hỗ trợ người dùng, một phương pháp hiệu quả giúp giảm chi phí trong quá trình tìm kiếm thông tin Qua việc thiết kế, cài đặt và thực hiện thí nghiệm với chương trình, tác giả đã đạt được những kết quả cụ thể đáng ghi nhận.
Luận văn đã thử nghiệm chương trình minh họa sử dụng thuật toán khớp từ khóa Knuth-Morris-Pratt, cho thấy chương trình thực thi ổn định với tốc độ và hiệu quả cao Nghiên cứu đã cài đặt thành công chức năng tìm kiếm nâng cao, bao gồm gợi ý thuật ngữ cho người dùng Nếu từ khóa được tìm kiếm lần đầu, chương trình sẽ tự động cập nhật vào cơ sở dữ liệu Ngoài ra, chương trình hỗ trợ tìm kiếm theo định dạng file và tìm kiếm theo cụm từ với độ chính xác cao hoặc một từ trong cụm từ nhập vào.
5.1.2 Những khó khăn còn tồn tại
Do thời gian thực hiện và trình độ hạn chế nên chưa giải quyết một số vấn đề sau:
• N tìếu m kiếm tr n thư ê m ục được chỉ định trước theo đường ẫn th thời d ì gian tìm kh nhanh nhá , ưng tìm kiếm êtr n toàn b h ộ ệ thống lâu
• T ìm kiếm các file c định ạng như Plaintext hoặc HTML kh nhanh, cácó d á file có định dạng doc v PDF l u hơn rất nhiều à â
• Chưa kiểm tra được tính đúng đắn của chương trình trên tập CSDL lớn
Hướng phát triển
Với những vấn đề còn tồn tại như đã nêu trên, trong thời gian tới, t ác giả dự kiến phát triển đề tài theo các hướng như sau:
• Tiếp tục nghiên cứu xử lý các vấn đề còn tồn tại của thuật áto n
Tiếp tục nâng cao tính năng cho chương trình bằng cách cải thiện khả năng tìm kiếm theo thời gian thiết lập file, khu vực và bổ sung các định dạng file tìm kiếm khác như PowerPoint, Excel.
Nghiên cứu lý thuyết về ứng dụng thuật toán trong xử lý dữ liệu lớn là cần thiết Cần mở rộng chương trình để tìm kiếm và xử lý dữ liệu đa dạng, từ đó nâng cao ý nghĩa và phạm vi sử dụng của nó.
[1] Cao Việt Hùng (2004), Tìm kiếm thông tin dựa trên mô hình không gian vectơ - một số giải thuật và ứng dụng, Trường Đại học Bách Khoa
[2] http://vi.wikipedia.org/wiki/M%C3%A1y_truy_t%C3%ACm_d%E1%BB%AF_li%E1%BB%87u
Nguyễn Thế Quang has developed an algorithm for clustering HTML text, which has significant applications in knowledge technology This innovative approach enhances the organization and retrieval of information from web content, making it more efficient and user-friendly For more details, visit the official UIT forum.
[4 ] Phùng Văn Đức (2006), Phân loại văn bản tiếng Việt sử dụng phương pháp SVMs, Trường Đại học Bách Khoa Hà Nội
[5 ] Gerald J Kowalski and Mark T Maybury (2000), Information Storage and Retrieval Systems: Theory and Implementation- 2 nd , Kluwer
[6 ] H Sakai, K.Ohtake, S Masuyama (2001), “A retrieval support system by suggesting terms to a user”, Proceedings 2001 International
Conference on Chinese Language Computing, pp 77 – 80
[7 ] Y.Y Yao (2002), “Information Retrieval Support Systems”, IEEE
World Congress on Computational Intelligence, Honolulu, Hawaii, USA, pp 773 – 778.