Quá trình phát triển từ IRS lên IRSS

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 85 - 100)

Chương 3 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN

3.2 Quá trình phát triển của hệ tìm kiếm

3.2.2 Quá trình phát triển từ IRS lên IRSS

Có rất nhiều cải thiện được tạo ra trong IR, bao gồm từ tìm kiếm đa phương tiện (hình ảnh, âm thanh hoặc video), tìm kiếm siêu văn bản và thư viện kỹ thuật số tới tìm kiếm Web. Với sự phát triển nhanh chóng của Web và các thư viện kỹ thuật số, ta thấy các ứng dụng rộng rãi của hệ IR. Trên thực tế, các hệ IR giống như các công cụ tìm kiếm đóng vai trò quan trọng trong sự thành công và bùng nổ của Web. Mặt khác, thiết kế khoa học và các nguyên lý của IR, như đã đề cập trong các cuốn sách kinh điển vẫn còn ít nhiều tồn tại. Để mở rộng hơn, tìm kiếm thông tin có thể vẫn được nhìn nhận như tìm kiếm dữ liệu bằng việc thay thế ‘tài liệu’ thành ‘thông tin’ Các ý tưởng chính . của IR, cụ thể là đánh chỉ mục và tìm kiếm, cũng tồn tại nhiều vấn đề. IRS được hiểu như một hệ thống cung cấp các chức năng tìm kiếm và duyệt cơ bản.

Qua việc mô tả 2 chiều về các vấn đề của DR và IR trong phần trước, ta cần quan tâm đến vấn đề không cấu trúc và điều khiển người dùng hơn trong thiết kế và thực thi của các hệ thống và chiến lược tìm kiếm thông tin mới.

Cần hiểu biết hơn về các tác vụ của người sử dụng. Mục đích cuối cùng của việc tìm kiếm thông tin là sử dụng các thông tin có liên quan trong quá trình

đưa ra quyết định. Chẳng hạn, một nhà nghiên cứu có thể so sánh, phân tích và tổng hợp thông tin liên quan trong các bài báo khoa học, hoặc tính toán trong các bản đề xuất dự án. Để tìm kiếm và trích lọc được các thông tin hữu ích từ một tập dữ liệu lớn hoặc trên Web, cũng như sử dụng một cách hiệu quả các thông tin đã được trích lọc đó để giải quyết vấn đề, người sử dụng phải đóng vai trò trong nhiều tác vụ khác nhau, như duyệt, điều tra, phân tích, hiểu, tổ chức và tìm kiếm trong tập tài liệu. Tìm kiếm và duyệt chỉ là những công việc đầu tiên và đơn giản. Thế hệ tiếp theo của hệ IR cần hỗ trợ nhiều loại tác vụ người dùng hơn nữa ngoài tìm kiếm và duyệt. Các tác vụ này không nhất thiết phải được mô tả chính xác, tự động hoá hoàn toàn mà chỉ cần xây dựng nhiều công cụ, hệ phương pháp và ngôn ngữ để hỗ trợ người sử dụng.

Qua các vấn đề trên, chúng ta có thể kết luận rằng quan điểm tập trung vào tìm kiếm trong thiết kế của hệ thống IR có thể không còn phù hợp nữa.

Quan điểm này cũng được đưa ra t th c t là r t nhiềừ ự ế ấ u ngườ ử ụi s d ng công c tìụ m kiếm Web phải mất nhiều thời gian đ hiểu, tr ch lọc v ổ chức c c t i ể í à t á à liệu đư c trả ề ừợ v t m t công cụộ tìm ki m. Đ i với Web được coi như là ế ố phương ti n đệ ể lưu tr thông tin, phân ph i, thu th p, chia s , x lý và s ữ ố ậ ẻ ử ử dụng th ấì v n đề tìm kiếm thông tin không c n l qu tr nh t m kiếò à á ì ì m đơn gi n ả nữa.

Và như vậy một bộ nguyên lý mới d nh cho thiết kếà và thực thi của thế h cệ ủa IR tiếp theo là cần thiết. Thay v ập trung v o chức năng t m kiếm thì t à ì ì thế ệ h m i nàớ y tập trung v o việc hỗ ợà tr cá íc t nh năng đ . Đi u n y có ề à ó ể th đư c xem như giai đoợ ạn kế ế ti p trong quá ìtrnh phát triển của h tìm ki m đưa ệ ế đến s ra đ i c a h th ng tr ú ìự ờ ủ ệ ố ợ gi p t m ki m (IRSS). M c tiêu c a IRSS là h ế ụ ủ ỗ trợ nhi u loại táề c vụ người d ng khù ác nhau trong việc t m kiếm vì à s dử ụng

thông tin giống như hệ ợ tr giúp quyết định h ỗ trợ người sử ụ d ng trong quá trình đưa ra quyế ịt đ nh.

3.3 Các vấn đ cơ bề n c a h thng tr giú ìm kiếp t m thông tin 3.3.1 Kh i nim về ệá h thng tr úp tìgi m kiếm IRSS

Khái niệm về IRSS đư c r t ra tợ ú ừ m i liên quan với hệ ỗố h trợ quyết định (DSS). Trong khi DSS t p trung vào hậ ỗ ợ tr và c i thiệả n vi c ra quyệ ết định, IRSS l i t p trung vào h tr và c i thi n vi c tìm ki m. Các tri t lý, ạ ậ ỗ ợ ả ệ ệ ế ế nguyên lý và k ỹ thuật từ DSS có thể áp d ng cho IRSS chụ ỉ ầ c n thay thế nhiệm v “ụ ra quyế ịt đ nh” th nh nhiệm vụà “tìm kiếm thông tin”. Quan điểm n y đặc à biệt hợp lý bởi nếu xem xét một thực ết là nó cần thiế ểt đ có được tìm kiếm thông tin hữu ích để đưa ra quyế ịt đnh thông minh và hợ ý. p l

DSS được định nghĩa là “h ệ thống d a trên mự á íy t nh tương tác, trợ gi p ú người ra quyế ịt đ nh sử ụ d ng dữ ệ li u và các mô hình để giải quyế ất v n đề phi cấu tr ”. Lại có định nghĩa úc khác như sau: “DSS là ệ thống thông tin dựa h trên máy t nh kí ết hợp các mô hình và d ữ liệu để c gố ắng gi i quyả ết các vấn đ ề phi cấu trúc với người dùng thông qua giao diện ngư i dùng thân thi n”. ờ ệ

T cáừ c định nghĩa trên, ch ng ta c thể nhấn mạnh hai chức năng quan ú ó trọng của DSS đ đi th ng vàể ẳ o c ch thá ể ệ hi n IRSS. Một chức năng là k t hợp ế d ữ liệu và các mô h nh. Dữ liệu l thô vì à à là các sự kiện chưa đư c giải th ch. ợ í Để có th t o ra ngh a c a d li u thô thì ph i xây d ng cáể ạ ĩ ủ ữ ệ ả ự c mô h nh kh c ì á nhau. Do đó, DSS xử lý c d ả ữ liệu và cách hiểu của ch ng. Chứú c năng khá à c l nhấn m nh v o s liên quan vạ à ự ới ng i dườ ùng. DSS đóng vai trò trợ úp trong gi việc giải quy t vế ấn đ . ề

3.3.2 Đặc điểm ca IRSS

Các vấn đề tìm kiếm và s dử ụng thông tin liên quan từ ập t i liệu rộng t à lớn là các vấn đ không cề ó cấu tr c, không thú ể mô t d dàng và íả ễ ch nh xác được. Trên th c t nó còn ph c tự ế ứ ạp hơn nhiều vì ngườ ử ụi s d ng thậm chí còn

không biết chính xác m nh đang tìì m kiếm c i gá ì. Trong việc giải quyết các vấn đề tìm kiếm, IRSS hữu ch v hiệu quả hơn IRS. Dự trên 2 đặí à a c đi m của ể h ệ trợ gi p quyế ú t đ nh DSS đ đượị ã c đề cập đ n ở trên, ch ng ta c thểế ú ó xác định vài đ c đi m phân bi t IRSS v i các h tìm ki m thông tin hi n nay và ặ ể ệ ớ ệ ế ệ một v i ưu điểm của IRSS.à

Hầu hết c c HTTKTT hiện nay đềá u d a trên nguyên lý ánh ch m c và ự đ ỉ ụ tìm kiếm. Cụ thể là cá àc t i liệu đư c biểu diễn bởi một tập c c thuật ngữ được ợ á đánh ch m c (các t ỉ ụ ừ kho ) xu t hi n trong cá àá ấ ệ c t i li u. Yêu c u thông tin ệ ầ người dùng được đ c bi u diễn bằng c c truy vượ ể á ấn ó , c th là các bi u th c ể ể ứ Boolean hoặc đơn giản chỉ là m t danh sách cáộ c thuật ngữ ch m c. Quá ìỉ ụ tr nh tìm kiếm đư c mô h nh ho giốợ ì á ng như s so khớp bộ phận giữa c c t i liệu vự á à à một truy vấn. ác mô nh t m kiếm đ được nghiên cứu ở chương I như mô C hì ì ã : hình như mô h nh Boolean, mô h nh tì ì ập mờ, mô hình không gian vector và mô hình x c suất.á

Một v i vấà n đề có thể thấy đư c về ệ IRS hiện nay, hầu hết ch ng đều ợ h ú s dử ụng c c lượá c đ biểu diễn t i liệu rấồ à t đơn gi n, cũng như phương ph p ả á tìm kiếm đơn gi n. Tất cảả cá àc t i liệu đ u đư c mô tả ở ức chi tiết như nhau. ề ợ m Các biểu diễn t i liệu v phương ph p t m kiếm giốà à á ì ng nhau được s dử ụng không phụ thu c vào người sử ụộ d ng. Cấu trúc và thông tin ngữ nghĩa c a tủ ài liệu và tậ ài liệp t u không đư c xem xéợ t. Mặc dù có nhiều nghiên cứu đã x lý ử một số ấ v n đ , như sề ử dụng c c công cụ siêu t m kiếm, xây dựng c c tiểu sửá ì á người dùng v phân nh m t p tài liệà ó ậ u, nhưng có những framework không đồng nh t nên không th x lý đư c. ấ ể ử ợ

Các vấn đề của hệ thống IRS hiện nay xuất ph t từ ầm quan trọng của á t chúng trong việc lưu trữ và tìm ki m, dẫế n đ n viế ệc thiếu xem xét đến hai vấn đề quan tr ng là cáọ c mô h nh vì à sự liên quan đ n ngư i s d ng. Nó áế ờ ử ụ i c ch khác, một hệ thống IRS thực hiệ ìn t m kiếm trên mức dữ liệu thô v không cà ó

tương tác người dùng. M c dù các h th ng IRS gầặ ệ ố n đây (ví d ụ như các công c tìụ m kiếm Web) đ xây dựng mô h nh phân cấp đểã ì cung c p ngữ nghĩa làm ấ sáng tỏ cá àc t i liệu trong tập t i liệu và à các người d ng cuối cũng không liên ù quan đến quá ìtrnh xây dựng mô hình.

IRSS cố ắ g ng gi i quyả ết các vấn đề của IRS b ng vi c cung c p nhiằ ệ ấ ều chức năng trợ úgi p hơn. H th ng IRSS cung c p cệ ố ấ ác mô hình, ngôn ngữ, tiện ích v công cụ để trợ gi p người d ng trong việà ú ù c đi u tra, phân t ch, t m hiểu ề í ì và t ổ chức tập t i liệu và à các kết quả m kiếm. C c công cụ tì á này cho ph p é ngườ ử ụi s d ng khảo sát c ngữ nghĩả a và c u trúc thông tin trong m i tài li u ấ ỗ ệ nói riêng v trong cả ập t i liệu nóà t à i chung.

Có ba kiểu mô h nh liên quan cầì n đư c quan tâm trong IRSS. C c t i ợ á à liệu trong tập tài liệu đư c dùợ ng l m dữ ệu thô c a IRSS. Cà li ủ ác mô hình tài liệu xử lý việc biên d ch vị à ểbi u di n tễ ài liệu và tậ àp t i liệu. Các mô nh tìm hì kiếm xử lý ệc tvi ìm kiếm. C c mô há ình trình diễn thì x lý ử việc biên d ch vị à biểu di n cễ ác kết quả m kiếm. Một mô h tì ình dữ ệ li u đơn, một mô hình tìm kiếm đơn hoặc một mô hình tr nh diì ễn đơn có thể không phù hợp với các người dùng kh c nhau. Do đóá , IRSS phải hỗ trợ đa mô hình v cung cấp nhiều à công cụ để ngư i dùờ ng có thể quả ý cán l c mô hình kh c nhau.á

Có những mô h nh dữ liệu cho ph p đa biểu diễn t i liệu. T nh to n hạt ì é à í á nhân (Granular computing GrC) l– à một hệ phương pháp luận cho việc tính toán c c mứá c đ kh c nhau của sự ừộ á tr u tư ng hoợ á, sẽ đ óng vai trò quan trọng trong việc xây dựng các mô hình dữ ệ li u.

Các mô h nh t m kiếm cung cấp ngôn ngữì ì và công cụ để trợ gi p người ú dùng thực hiện c c công việc như t m kiếm v duyệt. IRSS cung cấp nhiều á ì à kiểu mô hình tìm kiế . Người dm ùng có thể chọn các mô hình tìm kiếm kh c á nhau đối v i cáớ c mô h nh d li u khì ữ ệ ác nhau. Mô hình biểu di n cho phép ễ người dùng xem x t vé à sắp xếp kết qu tìm ki m. Các k t qu giống nhau có ả ế ế ả

thể đư c xem xợ ét theo nhiều c ch kh c nhau bằng việá á c sử ụ d ng mô h nh biì ểu diễn riêng biệt. Hơn th , người dùng cế òn c thểó phân tích v so sà ánh các kết quả ừ t các mô h nh tì ìm kiếm khác nhau.

IRSS thực thi và quả ý c n l ả ba loại mô hình cũng như các ngôn ngữ ế k t hợp, c c công cụá và tiện ch. IRSS lí à h ệ tương t c cao gi p người d ng c thểá ú ù ó đưa ra quyế ịt đ nh ở những giai đoạn khác nhau. Người dùng c th th c hi n ó ể ự ệ nhiều vai trò trong quá ìtr nh tìm kiếm thông tin có ích.

T ừ những vấn đ đề ã nêu ở trên, a thấy rằng một hệ thống trợ gi p t m t ú ì kiếm thông tin c thể thựó c hi n cệ á ác t c vụ m kiếm c tì ó cấu tr c dễú dàng và linh hoạt, khi việc t ự động hóa c thểó th c hiện và những liên quan người ự dùng không cần thiết. Mặt khác hệ thống trợ giúp tìm kiếm thông tin hỗ ợ tr người dùng th c hi n các vấự ệ n đề tìm ki m khó ế khăn và không có cấu tr c. Do ú t ự động h a ho n to n không thể thực hiệó à à n được nên chức năng ch nh của í IRSS v n lẫ à trợ giúp người sử ụ d ng.

3.3.3 Các th nh phn ca IRSS à

Rất khó có thể đưa ra được ch nh x c c c th nh phần của IRSS, ta chỉí á á à đưa ra m t hưộ ớng tiếp cận đơn giản thông qua các kết quả ủ c a DSS và các hệ thống thông minh.

H h ệ ỗ trợ quyế ịt đ nh DSS thư ng bao gồm ờ 4 h ệ thống con:

• H ệ quản trị ữ liệu: hệ thống con n y giải quyết việc quản l d à ý d ữ liệu thô ở ứ m c thấp sử ụ d ng hệ ần mềph m như h ản trị ệ qu CSDL (DBMS) và kho dữ liệu.

• H ệ quản trị mô h nh: hệ thốì ng con đư c xem như h quản trị cơ sở mô ợ ệ hình (MBMS). N bao gồm c c mô h nh địó á ì nh lư ng cho việc phân t ch ợ í và biên dịch dữ liệu thô v cung cấp ngôn ngữà và công cụ trong việc xây d ng mô hự ình người dùng.

• H ệ quản trị tri thức: hệ thống con n y hỗ trợà các hệ thống con kh c vá à đưa ra những tr úợgi p thông minh t i ngư i ra quy t định. ớ ờ ế

• H ệ giao diện ngư i sử ụng: hệ thống con n y xửờ d à lý các giao dịch giữa người sử ụ d ng và h ệ thống.

Mô tả dư i dạng giớ ản đ ồ ở trên của DSS có thể đư c áp dụng cho nghiên ợ cứu về IRSS. N i c ch kh c, mỗó á á i đ i tư ng c thể được quản lố ợ ó ý bởi hệ thống con khác nhau nhưng các nguyên l cơ bản l như nhau.ý à

3.3.4 Các lĩnh vc liên quan đến IRSS

Các kỹ thuật, c c kết quảá và các b i học từ nh ều lĩnh vực kh c nhau cà i á ó thể đư c sử ụợ d ng đ nghiên c u v IRSS vể ứ ề à cải tiến tính năng của IRSS.

Ngoài DSS và GrC đã nói đến ở trên th ở phầì n dư i liệt kê một v i lĩnh vực ớ à có liên quan khác

H chuyên gia ( Expert systems – ES)

Cách thực hiện đư c thiết lập tốt trong hệ chuyên gia lợ à tách tri thức và công c suy di n. Trong khi công cụ ễ ụ suy diễn d a trên logic vự à độc lập vấn đ ề thì tri thức dựa trên nh vlĩ ực cụ ể. Hệth chuyên gia ch ra r ng việc th c thi ỉ ằ ự các công cụ suy diễn không thể được d ng để xây dựng nhiều hệ chuyên gia ù theo l nh vĩ ực cụ ể th khác nhau.

Tương tự như v y, chúậ ng ta c th xây d ng tri th c d a trên IRSS ó ể ự ứ ự bằng việc t ch riêng cơ sở tri thức vá à h ệ quản trị.

Hc m y, khai phá á d liu v khai phà á văn bản

Bằng việc p dụng c c thuật to n học m y, khai phá á á á á d ữ liệu v khai phà á văn bản với các t i lià ệu được lưu tr ữ trong IRSS, c th kháó ể m ph ra c c á á pattern và ítr ch r t ra các tri thức hữu ích với người sử ụú d ng. Các chức năng như v y đậ ặc biệt h u ích đốữ i v i nhữớ ng người dùng quan tâm đến tìm ki m ế khám phá và tìm duyệt. Chẳng hạn, người dùng có thể ầ l n theo các xu hướng trong vùng riêng hoặc khám phá các chủ đề ớ m i n i tổ ừ ậ t p tài liệu đang thay

đổi thư ng xuyên. Ngư i dùng c ng có th áờ ờ ũ ể kh m phá các liên k t gi a cá àế ữ c t i liệu kh c nhau hoá ặc các vùng nghiên cứu.

Đồ ọ h a má íy t nh v hi n th d li u à ị ữ ệ

Trong nhiều trường hợp, ngư i dùờ ng c thể không muốn chi ti t vó ế ề các tài liệu cụ thể chứa c c thông tin hữu ch. Người sử ụng muốn cá í d ó cảm nhận chung trư c khi đi vớ ào phân tích sâu hơn. Với kho tài liệu, c thểó cung cấp cái nhìn trung tâm cho người dù , trong đó cáng c chi tiết bị ỏ qua. Hầu hết cá b c hệ IRS hiện nay đều tìm kiếm c c kết quả dưới dạá ng danh sách t i liệu đ được à ã xếp hạng. Trong IRSS, ngư i d ng c thể ử ụng c c công ụ đồ ọa v hiển ờ ù ó s d á c h à thị ữ d ệli u đ ể xem x t mô h nh d ệu cụ ể. Hiển thị ữé ì ữ li th d ệu cho phép người li dùng thực hiện kết luận v phân t ch ở ấà í c p đ cao.ộ

Các agent thông tin thông minh

Các agent thông tin thông minh đ được sử ụng trong nhiềã d u IRS để tập hợp thông tin v tương t c vớà á i ngư i sử ụng. Tiềờ d m năng c a c c agent ủ á cần đư c tiếp tục t m hiểợ ì u hơn n a trong IRSS. Đ c biệt l người d ng nên ữ ặ à ù được phép xây d ng một agent cá ự nhân để tương tác v i IRSS. Kh ớ ả năng tự động và h c h i c a các agent s làọ ỏ ủ ẽ m cho ch ng cú ó sức thu hút v i c IRSS ớ ả và người d ng.ù

Nhìn chung, IRSS có thể kết hợp v i bất k ớ ỳ ại h lo ệ ống thông tin nào th đểcung cấp ki u h tr êể ỗ ợri ng.

3.4 Các k thuậttr úp gi người dùng 3.4.1 Gợi ý thuật ngữ tới người dùng

Phương thức này tự động gợi ý các thuật ngữ có liên quan tới truy vấn của người dùng. Khi ng ời dùng không lựa chọn được thuật ngữ thích hợp ư trong số các thuật ngữ đã gợi ý, phương thức sẽ gợi ý thuật ngữ mới có trong các tài liệu tìm kiếm. HTTKTT dựa trên ph ng thức hỗ trợ và ươ đánh giá nó bằng cách cho ng ời dùng iền vào bảng câu hỏi. Từ các kết quả ánh giá thử ư đ đ

nghiệm, có thể thấy rằng hệ thống này hữu ích cho những ng ời dùng không ư có đủ kiến thức về lĩnh vực liên quan.

Với sự phát triển mạnh mẽ và nhanh chóng trong máy tính điện tử và công nghệ Internet ã làm cho chúng ta có thể truy cập số l ợng thông tin đ ư khổng lồ một cách dễ dàng. Vì vậy các kỹ thuật tìm kiếm tài liệu ể thu đưđ ợc thông tin cần thiết nhanh chóng ngày càng trở nên quan trọng. Hầu hết các HTTKTT hiện nay đều sử dụng từ khoá mà ng ời dùng nhập vào nh truy ư ư vấn. Tuy nhiên, không dễ gì mà ng ời dùng có thể tìm được chính xác thông ư tin mà họ yêu cầu. ặc biệt là càng khó khĐ ăn hơn khi người dùng diễn đạt thông tin mình cần bằng một vài từ khoá.

Nhìn chung, các câu hỏi thay đổi ối với lđ ượng kiến thức về lĩnh vực liên quan. Việc so sánh số các từ khoá được dùng trong câu hỏi dựa vào hai trường hợp : (1) Ng ời dùng có ủ kiến thức về lĩnh vực liên quan. (2) Ng ời ư đ ư dùng không có đủ kiến thức về lĩnh vực liên quan. Số các từ khoá trong truy vấn được đưa ra bởi ng ời dùng có ủ kiến thức về lĩnh vực liên quan lớn hư đ ơn số các từ khoá trong truy vấn được đưa ra bởi ng ời dùng có rất ít kiến thức ư về lĩnh vực liên quan. Các kết quả cho thấy không dễ gì để người dùng có thể tìm được chính xác thông tin c ần do các từ khoá biểu diễn rất khó tìm khi người dùng không có ủ kiến thức. Nếu số l ợng từ khoá không ủ ể cho hệ đ ư đ đ thống biết về thông tin cần thì có thể hiểu theo hai trường hợp sau:

Trường hợp 1: Các tài liệu không liên quan ến thông tin cần đưđ ợc trả về.

Trường hợp 2: Một phần các tài liệu yêu cầu ợc trả vềđư

Đ để ối phó với vấn ề này, một ph ng pháp hiệu quả là mở rộng câu đ ươ hỏi bằng cách thêm thuật ngữ liên quan đến câu hỏi khi

từ khoá nhập vào bởi ng ời dùng không ủ thông tin. Trong tr ờng hợp 1 ư đ ư người dùng phải thực hiện phép “AND” giữa các tài liệu không liên quan và

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 85 - 100)

Tải bản đầy đủ (PDF)

(112 trang)