Tìm kiếm và truy xuất thông tin(Information Retrieval)

Tìm kiếm truy xuất thông tin(Information Retrieval) Nội dung        Đặt toán IR ? Các trình xử lý IR? Lập mục (Indexing) Thu thập tìm kiếm (Retrieval) Đánh giá hệ thống (System evaluation) Một số hướng nghiên cứu nay? Báo cáo môn học? Bài toán IR  Mục tiêu = tìm tập tài liệu phù hợp từ tập lớn tài liệu để có thông tin thích hợp Info need Query Document collection Retrieval IR system Answer list Ví dụ Google Web Các phương pháp tiếp cận Sử dụng thuật toán đối sánh chuỗi (String matching): - Chậm thực đối sánh tuyến tính (linear search) - Khó khăn phát triển hệ thống Sử dụng kỹ thuật Indexing: (*) - Thực nhanh tài liệu tìm thông qua index - Mềm dẻo dễ dàng cải tiến Indexing-based IR Document Query indexing indexing (Query analysis) Representation (keywords) Query evaluation Representation (keywords) Ba vấn đề IR    Đánh mục cho tài liệu câu hỏi: làm để có biểu diễn tốt cho tài liệu (docurments) câu hỏi (query)? Phương pháp tìm kiếm thu thập: mức độ phù hợp tài liệu query? Đánh giá hệ thống:    Làm ta biết hệ thống IR tốt? Tài liệu tìm kiếm có phù hợp hay không? Tài liệu tìm kiếm có đầy đủ hay không? Lập mục tài liệu   Mục tiêu: tìm ngữ nghĩa quan trọng tạo nên biểu diễn tài liệu Các nhân tố xem xét:     Độ xác phương pháp biểu diễn ngữ nghĩa(semantics) Tính toàn diện (Exhaustiveness) hay mức độ bao phủ(cover) đến tất nội dung Khả thực thi máy tính Phương pháp biểu diễn tốt nội dung tài liệu     Coverage (Recall) Char string (char trigrams): không đủ độ xác Word: độ bao phủ tốt, độ xác thấp Phrase: độ bao phủ thấp, độ xác cao Concept: độ bao phủ thấp, độ xác cao String Word Phrase Concept Accuracy (Precision) Lựa chọn ước lượng trọng số từ khóa (key works)  Làm để lựa chọn từ khóa tốt?  Sử dụng tần xuất xuất trung bình (middlefrequency words) F r e q u e n c y / In f o r m a ti v i ty fr e q u e n c y i n f o r m a ti v i ty M ax M in … R ank Lược đồ ước lượng trọng số tf*idf  tf (term frequency): tần xuất xuất từ   df (document frequency): tần xuất tài liệu    Tần xuất xuất từ thương số lần xuất từ tổng số từ tài liệu Giá trị tf cao phản ánh từ quan trọng Số lượng tài liệu chứa đựng từ Phân bố từ toàn tài liệu idf (inverse document frequency): tần xuất nghịch đảo   Sự thay đổi phân bố từ toàn tài liệu Sự riêng biệt từ tài liệu The more the term is distributed evenly, the less it is specific to a document weight(t,D) = tf(t,D) * idf(t) 10 Mở rộng mô hình logic   D = {…, (ti, wi), …}: từ khóa đánh trọng số Mở rộng:   D thành viên lớp ti với mức độ wi Trong tập mờ: ti(D) = wi Một số đánh giá dùng: R(D, R(D, R(D, R(D, ti) = ti(D); Q1  Q2) = min(R(D, Q1), R(D, Q2)); Q1  Q2) = max(R(D, Q1), R(D, Q2)); Q1) = - R(D, Q1) 20 Mô hình không gian Vector     Vector space = tập tất từ khóa có //rất lớn Tài liệu: D = < a1, a2, a3, …, an> = trọng số ti D Câu hỏi: Q = < b1, b2, b3, …, bn> bi = trọng số ti Q R(D,Q) = Sim(D,Q) 21 Biểu diễn ma trận Document space D1 D2 D3 … Dm Q t1 t2 t3 a11 a12 a13 a21 a22 a23 a31 a32 a33 … … … … tn a1n a2n a3n am1 am2 am3 … b1 b2 b3 … amn bn Term vector space 22 Một số cách đo độ tương tự Dot product Sim( D, Q)   (ai * bi ) t1  (a * b ) i Cosine i Sim( D, Q)   *  bi i Dice Q i t2 2 (ai * bi ) Sim( D, Q)  i    bi i Jaccard D i i  (a * b ) Sim( D, Q)   a   b   (a * b ) i i i 2 i i i i i i i 23 Mô hình thống kê    Cho D, ước lượng P(R|D) and P(NR|D) P(R|D)=P(D|R)*P(R)/P(D) (P(D), P(R) constant)  P(D|R) 1 present xi   D = {t1=x1, t2=x2, …}  absent P ( D | R)   P(t i  xi | R) ( t i  xi )D x   P(ti  | R ) xi P(ti  | R) (1 xi )   pi i (1  pi ) (1 xi ) ti ti x P ( D | NR )   P(ti  | NR) xi P(ti  | NR) (1 xi )   qi i (1  qi ) (1 xi ) ti ti 24 Prob model Xếp hạng tài liệu x P( D | R) Odd ( D)  log  log P( D | NR) (1 xi ) i p (  p )  i i ti x (1 xi ) i q (  q )  i i ti pi (1  qi )  pi   xi log   log qi (1  pi ) ti  qi ti pi (1  qi )   xi log qi (1  pi ) ti 25 Đánh giá hệ thống   Hiệu thuật toán: thời gian, không gian Hiệu kết quả:    Làm ta biết hệ thống có khả thu thập tìm kiếm tài liệu thích hợp? Làm ta biết hệ thống IR tốt hệ thống khác? Các độ đo thường sử dụng:   Precision = retrieved relevant docs / retrieved docs Recall = retrieved relevant docs / relevant docs retrieved relevant relevant retrieved 26 MAP (Mean Average Precision) 1 j MAP    n Qi | Ri | D j Ri rij     rij = rank of the j-th relevant document for Qi |Ri| = #rel doc for Qi n = # test queries E.g Rank: 1st rel doc 2nd rel doc 10 3rd rel doc 1 1 MAP  [ (   )  (  )] 10 27 Một số nghiên cứu  Keywords: chưa đại diện hoàn hảo cho khái niệm  Sự nhập nhằng (Ambiguity): table = data structure, furniture?  Thiếu xác: “operating”, “system” không xác “operating_system”  Giải pháp đề xuất     Định hướng ngữ nghĩa theo ngữ cảnh Sử dụng hợp từ (chưa có từ điển hợp chuẩn mực) Sử dụng cụm danh từ (các mẫu cú pháp kết hợp với thống kê) Still a long way to go 28 Theory …  Bayesian networks  P(Q|D) D1 D2 t1 t2 t3 c1 c2 c3 Inference  D3 Q … t4 c4 … Dm tn … cl revision Language models 29 Mô hình logic     Làm để mô tả mối quan hệ liên quan biểu thức logic? D => Q Các tính chất mối quan hệ gì? Làm kết hợp điều không chắn khung logic? Vấn đề đặt ra: quan niệm thích hợp gì? 30 Các ứng dụng liên quan: Lọc thông tin   IR: thay đổi câu hỏi tập tài liệu cho trước IF: quan tâm đến dòng tài liệu có quan tâm cao     Quyết định yes/no việc đặt thứ tự tài liệu Lợi thế: mô tả sở thích người dùng tích hợp nhiều tài nguyên sẵn có Khó khăn: điều chỉnh ngưỡng để giữ lại bỏ qua tài liệu Các kỹ thuật sở giống IF: “Lọc thông tin IF hai mặt đồng tiền” keep … doc3, doc2, doc1 IF User profile ignore 31 Một số bình luận cuối  IR liên quan đến nhiều lĩnh vực khác nhau:       NLP, AI, database, machine learning, user modeling… library, Web, multimedia search, … Liên quan đến nhiều vấn đề lý thuyết Liên quan đến nhiều thử nghiệm thực tế Chứa đựng nhiều vấn đề lý thú cần giải Lĩnh vực khó: giải vấn đề mô hình trực quan 32 CASE STUDY Problem: Input:   D = {d1, d2, , dN} tập tài liệu có Q câu hỏi Output:  Tìm tập kết R=(Q, D)? 33 CASE STUDY  Lập tạo mục: Trình bày phương pháp biểu diễn, lập tạo mục tài liệu theo phương pháp đây:            Mô Mô Mô Mô Biểu diễn tài liệu tiếng Anh N-Grams Biểu diễn tài liệu tiếng Anh từ (word) Biểu diễn tài liệu tiếng Anh cụm từ (word pharse) Biểu diễn tài liệu tiếng Việt N-Grams Biểu diễn tài liệu tiếng Việt từ (word) Biểu diễn tài liệu tiếng Việt cụm từ (word pharse) Tìm hiểu công cụ biểu diễn tài liệu tiếng Anh, tiếng Việt: Weka, VnTockenizer hình hình hình hình không gian vector ứng dụng phân loại văn thống kê ứng dụng phân loại văn ma trận nhân tử ứng dụng phân loại văn phân cụm ứng dụng phân loại văn 34 [...]... vào được sử dụng trong tìm kiếm và thu thập thông tin một cách hiệu quả 15 4 Retrieval  Những vấn đề cơ bản của retrieval  Mô hình tìm kiếm và thu thập    Làm thế nào một tài liệu được biểu diễn với tập từ khóa cho trước? Làm thế nào một tài liệu và một câu hỏi biểu diễn và so sánh để tính toán điểm số? Một số vấn đề về cài đặt (Implementation) 16 Tình huống  1-word query: Các tài liệu được tìm. .. normalization, /max, … 11 Từ dừng (Stopwords / Stoplist)   Một số từ không đem theo thông tin ví dụ of, in, about, with, I, although, … Stoplist: contain stopwords, not to be used as index        Giới từ (Prepositions) Mạo từ (Articles) Đại từ (Pronouns) Một số phó từ và tính từ (Some adverbs and adjectives) Một số từ thông dụng (e.g document) Lược bỏ stopwords thường nâng cao hiệu quả cho IR Một... tìm kiếm là những tài liệu chứa đựng từ - Tập các từ đã được lưu trong inverted list của tài liệu - Sắp xếp theo trọng số các từ  Multi-word query? - Kết hợp với một số danh sách từ? Làm thể nào để ước lượng trọng số? 17 Các mô hình IR  Mô hình đối sánh điểm (Matching score)    Tài liệu D = tập các từ khóa đã được đánh trọng số Câu hỏi Q = tập các từ khóa chưa được đánh trọng số Kết quả tìm kiếm: ... ti pi (1  qi )   xi log qi (1  pi ) ti 25 5 Đánh giá hệ thống   Hiệu quả về thuật toán: thời gian, không gian Hiệu quả về kết quả:    Làm thế nào ta biết được hệ thống có khả năng thu thập và tìm kiếm tài liệu thích hợp? Làm thế nào ta biết một hệ thống IR này tốt hơn các hệ thống khác? Các độ đo thường sử dụng:   Precision = retrieved relevant docs / retrieved docs Recall = retrieved relevant... ứng dụng liên quan: Lọc thông tin   IR: thay đổi câu hỏi trên tập tài liệu cho trước IF: quan tâm đến dòng tài liệu có sự quan tâm cao     Quyết định yes/no trong việc sắp đặt thứ tự tài liệu Lợi thế: mô tả sở thích người dùng tích hợp được nhiều tài nguyên sẵn có Khó khăn: điều chỉnh ngưỡng để giữ lại hoặc bỏ qua tài liệu Các kỹ thuật cơ sở giống như IF: “Lọc thông tin và IF là hai mặt của cùng... giải quyết vấn đề bằng các mô hình trực quan 32 CASE STUDY Problem: Input:   D = {d1, d2, , dN} là tập tài liệu hiện có Q là một câu hỏi Output:  Tìm tập kết quả R=(Q, D)? 33 CASE STUDY  Lập và tạo chỉ mục: Trình bày các phương pháp biểu diễn, lập và tạo chỉ mục tài liệu theo các phương pháp dưới đây:            Mô Mô Mô Mô Biểu diễn tài liệu tiếng Anh bằng N-Grams Biểu diễn tài liệu... thông dụng (e.g document) Lược bỏ stopwords thường nâng cao hiệu quả cho IR Một số ít stoplists được sử dụng (e.g compare, however…) 12 Phần sau của từ (Stemming)  Lý do:   Các từ khác nhau có thể có thông tin tương tự nhau (e.g search, searching): ta tạo biểu diễn cho tất cả các từ này Stemming:  Loại bỏ phần sau của từ để có được từ gốc computer compute computes computing computed computation comput... chưa đại diện hoàn hảo cho các khái niệm  Sự nhập nhằng (Ambiguity): table = data structure, furniture?  Thiếu chính xác: “operating”, “system” không chính xác bằng “operating_system”  Giải pháp đề xuất     Định hướng ngữ nghĩa theo ngữ cảnh Sử dụng hợp nhất từ (chưa có từ điển hợp nhất chuẩn mực) Sử dụng cụm danh từ (các mẫu cú pháp kết hợp với thống kê) Still a long way to go 28 Theory … ... (word) Biểu diễn tài liệu tiếng Anh bằng cụm từ (word pharse) Biểu diễn tài liệu tiếng Việt bằng N-Grams Biểu diễn tài liệu tiếng Việt bằng từ (word) Biểu diễn tài liệu tiếng Việt bằng cụm từ (word pharse) Tìm hiểu về các công cụ biểu diễn tài liệu tiếng Anh, tiếng Việt: Weka, VnTockenizer hình hình hình hình không gian vector ứng dụng trong phân loại văn bản thống kê ứng dụng trong phân loại văn bản ma ... (query)? Phương pháp tìm kiếm thu thập: mức độ phù hợp tài liệu query? Đánh giá hệ thống:    Làm ta biết hệ thống IR tốt? Tài liệu tìm kiếm có phù hợp hay không? Tài liệu tìm kiếm có đầy đủ hay... lượng trọng số tf*idf  tf (term frequency): tần xuất xuất từ   df (document frequency): tần xuất tài liệu    Tần xuất xuất từ thương số lần xuất từ tổng số từ tài liệu Giá trị tf cao phản... comput  {(D1,0.2), (D2,0.1), …} Đây liệu đầu vào sử dụng tìm kiếm thu thập thông tin cách hiệu 15 Retrieval  Những vấn đề retrieval  Mô hình tìm kiếm thu thập    Làm tài liệu biểu diễn với

Định dạng
Số trang	34
Dung lượng	328,46 KB