Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,56 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Trần Lâm Quân MỘT SỐ KỸ THUẬT TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN VÀ GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9.46.01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC Hà Nội - 2020 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: TS Vũ Tất Thắng Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 202… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Trong kỷ nguyên big-data, không gian Internet, lượng liệu sinh không ngừng, Search Engine cốt lõi để đáp ứng nhu cầu tìm kiếm thơng tin người sử dụng Theo thống kê, xấp xỉ 71% câu tìm kiếm web có chứa tên thực thể [7], [8] Khi xét truy vấn gồm tên thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, trực quan, ta thấy ngữ nghĩa tiềm ẩn sau truy vấn Nói cách khác, tiềm ẩn quan hệ tương tự cặp tên thực thể “Việt Nam”:“Hà Nội” cặp tên thực thể “Pháp”:“?” Nếu xét trực quan, khả “tự nhiên” người - khả suy thông tin/tri thức chưa biết suy diễn tương tự Với truy vấn trên, người có khả đưa đáp án tức thời, máy tìm kiếm Search Engine (SE) tìm tài liệu chứa từ khóa nói trên, SE khơng đưa câu trả lời “Paris” Cũng vậy, giới thực tồn câu hỏi dạng: “nếu Fansipan cao Việt Nam, đâu đỉnh Tây Tạng?”, “biết Elizabeth nữ hồng Anh quốc vương Nhật Bản ai?”, v.v Đối với truy vấn tồn quan hệ tương đồng trên, chế tìm kiếm theo từ khóa khó khăn việc đưa đáp án, người dễ dàng suy luận tương tự Hình 1.1: Danh sách trả từ Keyword-SE ứng với query=”Việt Nam”, “Hà Nội”, “Pháp” Nghiên cứu, mô khả tự nhiên người suy diễn từ miền ngữ nghĩa quen thuộc (“Việt Nam”, “Hà Nội”) sang miền ngữ nghĩa không quen thuộc (“Pháp”, “?”) - mục đích toán thứ Bài toán thứ gợi ý truy vấn Cũng theo thống kê, câu truy vấn người dùng đưa vào thường ngắn, mơ hồ, đa nghĩa [1-6] Trong phiên tìm kiếm, lượng kết trả nhiều phần lớn khơng thích hợp với ý định tìm kiếm người sử dụng1 Từ đó, có nhiều hướng nghiên cứu đặt nhằm cải thiện kết quả, hỗ trợ người tìm kiếm Các hướng nghiên cứu bao gồm: gợi ý truy vấn (query suggestion), viết lại truy vấn (rewriting query), mở rộng truy vấn (query expansion), đề xuất cá nhân hóa (personalized recommendations), phân hạng kết (ranking/re-ranking search results), v.v Hướng nghiên cứu gợi ý truy vấn thường áp dụng kỹ thuật truyền thống gom cụm, đo độ tương đồng, v.v truy vấn [9], [10] Tuy nhiên, kỹ thuật truyền thống có ba nhược điểm: Thứ nhất, đưa gợi ý tương tự có liên quan với truy vấn vừa nhập - mà chất lượng chưa tốt truy vấn vừa nhập Thứ hai, không đưa xu hướng mà tri thức số đông thường hỏi sau truy vấn hành Thứ ba, cách tiếp cận không xét chuỗi truy vấn cách liền mạch từ người sử dụng để nắm bắt ý định tìm kiếm người dùng Chẳng hạn, Search Engine (SE) thông dụng, gõ truy vấn liên tiếp q1: “Joe Biden https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf ai”, q2: “Ông tuổi”, q1, q2 có liên quan ngữ nghĩa Tuy nhiên kết trả cho q1, q2 tập kết khác Điều cho thấy nhược điểm chế tìm kiếm theo từ khóa Hình 1.2: Danh sách trả từ SE ứng với q1, q2 Nắm bắt chuỗi truy vấn liền mạch, nói cách khác, nắm bắt ngữ cảnh tìm kiếm, SE “hiểu” ý định tìm kiếm người sử dụng Hơn nữa, nắm bắt chuỗi truy vấn, SE gợi ý truy vấn theo chuỗi, chuỗi gợi ý tri thức số đông, cộng đồng thường hỏi sau q1, q2 Đây mục đích tốn thứ hai Mục tiêu nghiên cứu luận án Mục tiêu tổng quát luận án tập trung nghiên cứu, xác định thực nghiệm phương pháp, nguyên lý nhằm giải toán nêu Cài đặt thực nghiệm phương pháp áp dụng đề xuất cải thiện kỹ thuật Phân tích, đánh giá kết sau thực nghiệm So sánh với kỹ thuật khác: Các nội dung nghiên cứu luận án Thuộc lớp toán khai phá liệu, khai phá ngữ nghĩa xử lý ngôn ngữ tự nhiên, đối tượng nghiên cứu luận án gồm: - Phương pháp tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn - Phương pháp gợi ý truy vấn hướng ngữ cảnh CHƯƠNG 1: TỔNG QUAN 1.1 Bài tốn tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn Xét truy vấn gồm thực thể: “Kinh Qur’an”:“Đạo Hồi”, “sách Phúc Âm”:”?”, người có khả suy diễn tức thời cho dấu “?”, SE đưa kết tài liệu có chứa từ khóa trên, khơng đưa câu trả lời “Kitơ giáo” Do tìm thực thể, kỹ thuật mở rộng viết lại câu truy vấn không áp dụng với dạng quan hệ có ngữ nghĩa ẩn cặp thực thể Từ đó, hình thái tìm kiếm nghiên cứu, motive truy vấn tìm kiếm có dạng: {(A, B), (C, ?)}, (A, B) cặp thực thể nguồn, (C, ?) cặp thực thể đích Đồng thời, hai cặp (A, B), (C, ?) có quan hệ tương đồng ngữ nghĩa Cụ thể, người sử dụng nhập vào truy vấn gồm thực thể {(A, B), (C, ?)}, máy tìm kiếm có nhiệm vụ liệt kê, tìm kiếm danh sách ứng viên thực thể D (thực thể dấu ?), thực thể D thỏa điều kiện có quan hệ ngữ nghĩa với C, đồng thời cặp (C, D) có quan hệ tương đồng với cặp (A, B) Quan hệ ngữ nghĩa - theo nghĩa hẹp góc nhìn từ vựng - biểu diễn ngữ cảnh gồm từ/cụm từ (terms/patterns/context) xung quanh (trước, sau) cặp thực thể biết2 Vì quan hệ ngữ nghĩa, quan hệ tương đồng không nêu tường minh truy vấn (câu truy vấn gồm thực thể: A, B, C), nên hình thái tìm kiếm theo motive gọi mơ hình tìm kiếm thực thể dựa ngữ nghĩa ẩn (Implicit Relational Entity Search hay Implicit Relational Search, ngắn gọn: IRS) Xét input query gồm thực thể q = “Mê Kông”:“Việt Nam”, “?”:“Trung Quốc” Truy vấn q gồm thực thể (“Mê Kông”:“Việt Nam”, “?”:“Trung Quốc”) Truy vấn q không mô tả quan hệ ngữ nghĩa (“sông dài nhất” hay “lớn nhất” hay “lưu vực rộng nhất”, v.v.) Mơ hình tìm kiếm thực thể dựa ngữ nghĩa có nhiệm vụ tìm thực thể “?”, thỏa điều kiện có quan hệ ngữ nghĩa với thực thể “Trung Quốc”, đồng thời cặp “?”:“Trung Quốc” tương đồng với cặp “Mê Kơng”:“Việt Nam” Tìm/tính tốn độ tương đồng quan hệ cặp thực thể tốn khó, khó vì: Thứ nhất, độ tương đồng quan hệ biến đổi theo thời gian, xét cặp thực thể (Joe Biden, tổng thống Mỹ) (Elizabeth, nữ hoàng Anh), độ tương đồng quan hệ biến đổi theo nhiệm kỳ Thứ hai, khó nội thực thể có tên (tên cá nhân, tổ chức, địa danh, ) vốn khơng phải từ thơng dụng có từ điển Hình 1.3: Input query: ”Cuba”, “José Marti”, “Ấn Độ” (ngữ nghĩa ẩn: “anh hùng dân tộc”) Thứ ba, cặp thực thể, có nhiều quan hệ ngữ nghĩa khác nhau, như: “Ổ dịch Corona khởi phát từ Vũ Hán”; “Corona cô lập thành phố Vũ Hán”; “Số ca lây nhiễm Corona giảm dần Vũ Hán”; v.v Thứ tư, yếu tố thời gian, cặp thực thể khơng chia sẻ chia sẻ ngữ cảnh xung quanh cặp thực thể, như: Apple:iPod (vào 2010s) Sony:Walkman (vào 1980s), dẫn đến kết cặp thực thể không tương đồng Thứ năm, cặp thực thể có quan hệ ngữ nghĩa có cách biểu đạt: “X was acquired by Y” “X buys Y” Và cuối cùng, khó thực thể D chưa biết, thực thể D tiến trình tìm kiếm Motive tìm kiếm câu truy vấn có dạng: q = {(A, B), (C, ?)}, truy vấn gồm thực thể: A, B, C Xác định mối quan hệ tương đồng cặp thực thể (A, B), (C, ?) điều kiện cần để xác định thực thể cần tìm Thuộc lớp tốn xử lý ngơn ngữ tự nhiên, độ tương đồng quan hệ tác vụ quan trọng tìm kiếm dựa ngữ nghĩa Do đó, luận án liệt kê hướng nghiên cứu độ tương đồng quan hệ Các nghiên cứu liên quan đến tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn 1.2 1.2.1 Lý thuyết ánh xạ cấu trúc (Structure Mapping Theory – SMT) SMT [12] coi độ tương đồng ánh xạ “tri thức” (mapping of knowledge) từ miền nguồn vào miền đích, theo luật ánh xạ: Loại bỏ thuộc tính đối tượng trì ánh xạ quan hệ đối tượng từ miền nguồn vào miền đích Luật ánh xạ (Mapping rules): M: si ti; (trong s: source, t: target) Loại bỏ thuộc tính: HOT(si) ↛HOT(ti); MASSIVE(si) ↛MASSIVE(ti); Duy trì ánh xạ quan hệ: Revolves(Planet, Sun) Revolves(Electron, Nucleus) Birger Hjorland Link: http://vnlp.net Hình 1.5 cho thấy cấu trúc s (subject), o (object), SMT xét cặp: (Planet, Sun) (Electron, Nucleus) tương đồng quan hệ, dù cặp đối tượng nguồn đích: (Sun, Nucleus), (Planet, Electron) khác thuộc tính: HOT, MASSIVE, …Tham chiếu với mục tiêu nghiên cứu, truy vấn là: ((Planet, Sun), (Electron, ?)), SMT kết xuất câu trả lời xác: “Nucleus” Hình 1.5: Ánh xạ cấu trúc SMT Nhưng SMT khơng khả thi với cấu trúc bậc thấp (thiếu quan hệ) Vì SMT khơng khả thi với tìm kiếm thực thể dựa vào quan hệ ngữ nghĩa ẩn 1.2.2 Tương đồng quan hệ dựa hệ thống phân loại tương đồng Wordnet Cao [20] Agirre [21] đề xuất độ đo tương đồng quan hệ dựa hệ phân loại tương đồng Wordnet, nhiên phương pháp trên, Wordnet khơng chứa thực thể có tên (Named Entity), Wordnet khơng thích hợp với mơ hình tìm kiếm thực thể 1.2.3 Mơ hình khơng gian vector (Vector Space Model - VSM) Áp dụng mơ hình khơng gian vector, Turney [13] đưa khái niệm vector tạo thành mẫu (pattern) chứa cặp thực thể (A, B) tần suất xuất mẫu VSM thực phép đo độ tương đồng quan hệ sau: Các mẫu tạo thủ công, query đến Search Engine (SE), số kết trả từ SE tần suất xuất mẫu Từ đó, độ tương đồng quan hệ cặp thực thể tính Cosine vector 1.2.4 Phân tích quan hệ tiềm ẩn (Latent Relational Analysis - LRA) Turney lai ghép VSM với LRA nhằm xác định mức tương đồng quan hệ [14-16] Như VSM, LRA sử dụng vector tạo thành mẫu (pattern/context) chứa cặp thực thể (A, B) tần suất mẫu, mẫu xét theo ngrams Đồng thời, LRA áp dụng từ điển đồng nghĩa để mở rộng biến thể của: A bought B, A acquired B; X headquarters in Y, X offices in Y, LRA áp dụng tìm n-grams thường xuyên để gắn mẫu với cặp thực thể (A, B) Sau xây dựng ma trận mẫu - cặp thực thể, phần tử ma trận biểu diễn tần suất xuất cặp (A, B) thuộc mẫu Nhằm giảm chiều ma trận, LRA áp dụng SVD (Singular Value Decomposition) để giảm số cột ma trận Cuối cùng, LRA áp dụng phép đo Cosine để tính độ tương đồng quan hệ cặp thực thể Tuy cách tiếp cận hiệu để xác định độ tương đồng quan hệ, LRA địi hỏi thời gian tính tốn, xử lý dài, tham khảo [17] cho biết LRA cần ngày để thực 374 SAT analogy questions Điều không khả thi với hệ tìm kiếm đáp ứng thời gian thực 1.2.5 Ánh xạ quan hệ tiềm ẩn (Latent Relation Mapping Engine - LRME) Để cải thiện việc dựng luật ánh xạ, cấu trúc s (subject), o (object) cách thủ công SMT, Turney áp dụng phép ánh xạ quan hệ tiềm ẩn LRME [11], cách kết hợp SMT LRA Mục đích: Tìm mối quan hệ terms A, B (xét terms thực thể) Với đầu vào (bảng 1.1) danh sách terms từ miền (nguồn đích), đầu (bảng 1.2) kết ánh xạ danh sách 1.2.6 Quan hệ ngữ nghĩa tiềm ẩn (Latent Semantic Relation – LSR) Bollegala, Duc [17-18], Kato [19] sử dụng giả thuyết phân phối (Distributional hypothesis) mức context: Trong corpus, context pi, pj khác thường đồng với cặp thực thể wm, wn context pi, pj tương tự ngữ nghĩa Khi pi, pj tương tự ngữ nghĩa, cặp thực thể wm, wn tương đồng quan hệ Giả thuyết phân phối đòi hỏi cặp thực thể phải “đồng hiện” với context, đồng thời giải thuật gom cụm Bollega đề xuất mức context (mức câu) không thực gom cụm mức terms câu Độ tương đồng dựa giả thuyết phân phối mà không dựa tương đồng term ảnh hưởng không nhỏ đến chất lượng kỹ thuật gom cụm, từ ảnh hưởng đến chất lượng hệ tìm kiếm 1.2.7 Mơ hình học biểu diễn vector từ Word2Vec Mơ hình Word2Vec Mikolov đồng đề xuất [22], mơ hình học biểu diễn từ thành vector (ánh xạ từ thành one-hot vector), Word2Vec diễn tả mối quan hệ (xác suất) từ với ngữ cảnh từ Mô hình Word2Vec có kiến trúc mạng nơ-ron đơn giản: Continous Bag-Of-Words (CBOW) Skip-gram Áp dụng Skip-gram, bước huấn luyện, mơ hình Word2Vec dự đốn ngữ cảnh vòng skip-gram định Giả sử từ huấn luyện input “banking”, với cửa sổ trượt skip = m = 2, output ngữ cảnh trái kết xuất “turning into”, output ngữ cảnh phải “crises as” Hình 1.6: Quan hệ từ mục tiêu ngữ cảnh mơ hình Word2Vec Để dự đốn, hàm mục tiêu Skip-gram thực tối đa hóa xác suất Với chuỗi từ huấn luyện w1, w2, …, wT, Skip-gram áp dụng Maximum Likelihood: 𝑇 𝐽(𝜃) = ∑ 𝑇 ∑ log 𝑝(𝑤𝑡+𝑗 |𝑤𝑡 ) 𝑡=1 −𝑚≤𝑗≤𝑚,𝑗≠0 đó: T: số lượng từ có data-set; t: từ huấn luyện; m: window-side (skip); 𝜃: vector biểu diễn; Quá trình huấn luyện áp dụng giải thuật lan truyền ngược (back-propagation), Xác suất đầu p(wt+j|wt) xác định hàm kích hoạt softmax: 𝑝(𝑜|𝑐) = exp(𝑢𝑜𝑇 𝑣𝑐 ) 𝑇 ∑𝑊 𝑤−1 exp(𝑢𝑤 𝑣𝑐 ) đó: W: Vocabulary; c: từ huấn luyện (input/center); o: output c; u: Vector biểu diễn o; v: Vector biểu diễn c; Trong thực nghiệm, Mikolov et al [22-25] xử lý cụm từ từ đơn, loại bỏ từ lặp lại thường xuyên, sử dụng hàm Negative Sampling loss function chọn ngẫu nhiên n từ để xử lý tính tốn thay tồn từ data-set, giúp cho thuật toán huấn luyện nhanh so với hàm softmax nói Hình 1.7: Word2Vec “học” quan hệ “ẩn” từ mục tiêu ngữ cảnh từ3 Các phép toán vector như: vec(“king”) - vec(“man”) ≈ vec(“queen”) - vec(“woman”) cho thấy mơ hình Word2Vec phù hợp với truy vấn dạng “A:B :: C:?”, nói cách khác, mơ hình Word2Vec gần với hướng nghiên cứu luận án Điểm khác biệt: đầu vào Word2Vec (theo mơ hình Skip-gram) từ, đầu ngữ cảnh Đầu vào mơ hình tìm kiếm thực thể dựa ngữ nghĩa thực thể (A:B :: C:?), đầu thực thể cần tìm kiếm (D) Về tìm kiếm thực thể dựa ngữ nghĩa, từ vấn đề cịn tồn tại, để tiệm cận đến “trí thơng minh nhân tạo” máy tìm kiếm, luận án nghiên cứu, áp dụng kỹ thuật mô khả tự nhiên người: khả suy thông tin/tri thức không xác định suy diễn tương tự 1.3 Bài toán gợi ý truy vấn hướng ngữ cảnh Đối với SE, khả “hiểu” ý định tìm kiếm câu truy vấn người sử dụng thách thức Tập liệu sử dụng để khai phá Query Log (nhật ký truy vấn, QLogs) Tập truy vấn khứ QLogs ghi lại truy vấn “tương tác” người dùng với công cụ tìm kiếm, QLogs chứa thơng tin giá trị nội dung truy vấn, mục đích, hành vi, thói quen, sở thích phản hồi ngầm (implicit feedback) người sử dụng tập kết mà SE trả Khai phá tập liệu QLogs có ích nhiều ứng dụng: Phân tích truy vấn, quảng cáo, xu hướng, cá nhân hóa, gợi ý truy vấn, v.v Đối với gợi ý truy vấn, kỹ thuật truyền thống Explicit Feedback [30-32], Implicit Feedback [3336], User profile [37-39], Thesaurus [40-42], … đưa gợi ý tương tự với input query người dùng: Hình 1.12: Gợi ý truy vấn kỹ thuật truyền thống với input query “điện thoại di động” 1.4 Các nghiên cứu liên quan đến gợi ý truy vấn Xoay quanh hạt nhân Qlogs, nói việc gợi ý truy vấn theo kỹ thuật truyền thống thực chức chính: https://cs224d.stanford.edu/lectures/CS224d-Lecture2.pdf Kỹ thuật dựa cụm áp dụng phép đo độ tương đồng nhằm gom truy vấn tương tự thành cụm (nhóm) Kỹ thuật dựa phiên với phiên tìm kiếm chuỗi liên tục câu truy vấn 1.4.1 Kỹ thuật gợi ý truy vấn dựa phiên (Session) a) Dựa vào câu truy vấn đồng (co-occurrence) hay liền kề (adjacency) thuộc sessions Qlog: Trong cách tiếp cận dựa Session, cặp truy vấn liền kề (adjacency) đồng (co-occurrence) thuộc phiên đóng vai trị danh sách ứng viên cho đề xuất truy vấn b) Dựa vào đồ thị (Query Flow Graph - QFG): Trên đồ thị QFG, truy vấn qi, qj thuộc ý đồ tìm kiếm (search mission) biểu diễn cạnh có hướng từ qi tới qj Mỗi node đồ thị tương ứng với truy vấn, cạnh đồ thị xem hành vi tìm kiếm (searching behavior) Cấu trúc tổng quát phiên CFG biểu diễn: QLog = ; Boldi et al [50, 51] sử dụng cấu trúc phiên rút gọn QLog = để thực gợi ý truy vấn, theo dãy bước: Xây dựng đồ thị QFG với đầu vào tập phiên Query Logs Hai truy vấn qi qj nối với tồn phiên mà qi, qj xuất liên tiếp Tính trọng số w(qi, qj) cạnh: 𝑓(𝑞𝑖 ,𝑞𝑗 ) w(qi, qj) = { đó: 𝑓(𝑞𝑖 ) , 𝑖𝑓(𝑤(𝑞𝑖 , 𝑞𝑗 ) > 𝜃) ∨ (𝑞𝑖 = 𝑠) ∨ (𝑞𝑖 = 𝑡) 0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (1.6) f(𝑞𝑖 ,𝑞𝑗 ): số lần xuất qj sau qi phiên; f(qi): số lần xuất qi QLogs; 𝜃: threshold; s, t: node trạng thái bắt đầu, kết thúc chuỗi truy vấn phiên; Xác định chuỗi thỏa điều kiện (1.6) để phân tích ý đồ người dùng: Khi truy vấn đưa vào, dựa vào đồ thị, đưa gợi ý truy vấn có trọng số cạnh lớn 1.4.2 Kỹ thuật gợi ý truy vấn dựa cụm (Cluster) K-means; Hierarchical; DB-SCAN; … Hình 1.9: Các phương pháp phân cụm [54] Gợi ý truy vấn hướng ngữ cảnh (Context-aware Query Suggestion) nét mới, Context-aware xét truy vấn đứng trước truy vấn hành ngữ cảnh tìm kiếm, nhằm “nắm bắt” ý định tìm kiếm người dùng Kế tiếp, khai phá truy vấn đứng sau truy vấn hành - danh sách gợi ý Đây ưu điểm riêng cách tiếp cận - so với cách tiếp cận gợi ý truy vấn tương tự Lớp truy vấn đứng sau truy vấn hành, cách hình thức, phản ánh vấn đề mà người dùng thường hỏi sau truy vấn hành Đồng thời, lớp truy vấn sau truy vấn hành thường gồm câu truy vấn (chuỗi truy vấn) tốt hơn, phản ánh rõ ý đồ tìm kiếm CHƯƠNG 2: TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN 2.1 Bài toán Trong tự nhiên, tồn mối quan hệ thực thể, như: Khuê Văn – Văn miếu; Stephen Hawking – Nhà vật lý; Thích Ca – phái Đại thừa; Apple – iPhone; Trong giới thực, tồn câu hỏi dạng: “biết Fansipan núi cao Việt Nam núi cao Ấn Độ?”, “nếu Biden tổng thống đắc cử Hoa Kỳ người quyền lực Thụy Điển?”, … Trong chế tìm kiếm theo từ khóa, theo thống kê, truy vấn thường ngắn, mơ hồ đa nghĩa [1-6] Cũng theo thống kê, xấp xỉ 71% câu tìm kiếm web có chứa tên thực thể [7], [8] Nếu người sử dụng nhập vào thực thể: “Việt Nam”, “Hà Nội”, “Pháp” máy tìm kiếm đưa kết tài liệu có chứa từ khóa khơng đưa câu trả lời “Paris” Do tìm thực thể, kỹ thuật mở rộng, viết lại câu truy vấn khơng áp dụng với dạng quan hệ có ngữ nghĩa ẩn cặp thực thể Từ đó, hình thái tìm kiếm nghiên cứu, motive câu truy vấn tìm kiếm có dạng: {(A, B), (C, ?)}, (A, B) cặp thực thể nguồn, (C, ?) cặp thực thể đích Đồng thời, hai cặp (A, B), (C, ?) có quan hệ tương đồng ngữ nghĩa Nói cách khác, người sử dụng nhập vào truy vấn {(A, B), (C, ?)}, máy tìm kiếm có nhiệm vụ liệt kê danh sách thực thể D, thực thể D thỏa điều kiện có quan hệ ngữ nghĩa với C, đồng thời cặp (C, D) có quan hệ tương đồng với cặp (A, B) Với đầu vào gồm thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, quan hệ ngữ nghĩa “là thủ đô” không câu truy vấn 2.2 Phương pháp tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn 2.2.1 Kiến trúc – Mơ hình Khái niệm tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn phân biệt rõ chế tìm kiếm theo từ khóa Hình 2.1 mơ câu truy vấn gồm thực thể, query = {(Việt Nam, Mê Kông), (Trung Quốc, ?)}, viết quy ước: q = {(A, B), (C, ?)} Trong (Việt Nam, Mê Kơng) cặp thực thể nguồn, (Trung Quốc, ?) cặp thực thể đích Máy tìm kiếm có nhiệm vụ tìm thực thể (“?”) có quan hệ ngữ nghĩa với thực thể “Trung Quốc”, đồng thời cặp thực thể (Trung Quốc, ?) phải tương đồng quan hệ với cặp thực thể (Việt Nam, Mê Kông) Lưu ý câu truy vấn không chứa cách tường minh quan hệ ngữ nghĩa thực thể Việc không tường minh quan hệ ngữ nghĩa thực tế - quan hệ ngữ nghĩa biểu đạt nhiều cách khác xung quanh cặp thực thể (Việt Nam, Mê Kơng), ví dụ “sông dài nhất”, “sông lớn nhất”, “lưu vực rộng nhất”… Hình 2.1: Tìm kiếm dựa quan hệ ngữ nghĩa với đầu vào gồm thực thể 11 b) Thành phần gom cụm quan hệ ngữ nghĩa Áp dụng PMI cải tiến độ đo tương đồng theo giả thuyết phân phối: SimDH(p,q) = Cosine(PMI(p, q)) = ∑𝑖(𝑃𝑀𝐼(𝑤𝑖 ,𝑝)∙𝑃𝑀𝐼(𝑤𝑖 ,𝑞)) ||𝑃𝑀𝐼(𝑤𝑖 ,𝑝)||||𝑃𝑀𝐼(𝑤𝑖 ,𝑞)|| (2.25) Độ tương đồng theo terms context p, q: Simterm (p, q) = ∑n i=1(weighti (p)∙weighti (q)) ||weight(p)||||weight(q)|| (2.26) Độ đo tương đồng kết hợp: Sim(p,q) = Max(SimDH(p, q),Simterm(p, q)) (2.27) c) Giải thuật gom cụm: - Đầu vào: Tập P = {p1, p2, …, pn}; Ngưỡng phân cụm θ1, ngưỡng heuristic θ2; Dmax: Đường kính cụm; Sim_cp: Kết hàm đo độ tương đồng kết hợp, áp dụng theo công thức (2.27) - Đầu ra: Tập cụm Cset (ClusterID, context, trọng số context cặp thực thể tương ứng) Program Clustering_algorithm 01 Cset = {}; iCount=0; 02 for each context pi ∈ P 03 Dmax = 0; c* = NULL; 04 for each cluster cj ∈ Cset 05 Sim_cp=Sim(pi,Centroid(cj)) 06 if (Sim_cp > Dmax) then 07 Dmax = Sim_cp; c* ← cj; 08 end if 09 end for 10 if (Dmax > θ1) then 11 c*.append(pi) 12 else 13 Cset ∪= new cluster{c*} 14 end if 15 if (iCount > θ2) then 16 iCount++; 17 exit Current_Proc_Cluster_Alg(); 18 end if 19 end for 20 Return Cset; @CallMerge_Cset_from_OtherNodes() 2.2.4 Thành phần tính tốn độ tương đồng cặp thực thể Thành phần tính tốn độ tương đồng quan hệ cặp thực thể thực tác vụ: Lọc (tìm) Phân hạng Nhận vào q={(A, B), (C, ?)}, thông qua mục inverted index, IRS gọi hàm Filter-Entities Fe đặt lọc (tìm) tập ứng viên chứa cặp thực thể (C, Di) quan hệ ngữ nghĩa (context) tương ứng, với điều kiện (C, Di) tương đồng với (A, B) Kế tiếp, gọi hàm Rank-Entities Re để xếp hạng thực thể Di, Dj tập ứng viên theo phép đo RelSim (Relational Similarity), trả danh sách {Di} xếp hạng Giải thuật Filter-Entities: Lọc tìm tập ứng viên chứa câu trả lời: Đầu vào: Query q = (A, B)(C, ?) Đầu ra: Tập ứng viên S (gồm thực thể Di context tương ứng); Program Filter_Entities 12 01 02 03 04 05 06 07 S = {}; P(w) = EntPair_from_Cset.Context(); for each context pi ∈ P(w) W(p) = Context(pi).EntPairs(); If (W(p) contains (C:Di)) then S ∪= W(p); end for retufn S Sau thực thi Filter-Entities, thu tập gồm thực thể Di context tương ứng Tiến trình RelSim thực xử lý, tính tốn tập này, đồng thời áp dụng ngưỡng α để loại thực thể Di có giá trị RelSim thấp Với: Fe(q,D) = Fe({(A, B),(C,?)}, D): 𝐹𝑒 (𝑞, 𝐷𝑖 ) = { 1, 𝑖𝑓𝑅𝑒𝑙𝑆𝑖𝑚((𝐴, 𝐵), (𝐶, 𝐷𝑖 )) > α 0, 𝑒𝑙𝑠𝑒 Giải thuật Rank-Entities: Giải thuật Rank-Entities có nhiệm vụ tính RelSim: Đầu vào gồm: Tập ứng viên S và: - Cặp thực thể nguồn (A, B), ký hiệu s; Các thực thể ứng viên (C, Di), ký hiệu c; - Các context tương ứng với s, c; Tập cụm thu được: Cset; - Các thực thể A, B, C biết tập cụm tương ứng chứa A, B, C xác định; - Ngưỡng α (so giá trị RelSim); Ngưỡng α xác định kiểm thử chương trình - Khởi tạo tích vơ hướng (β); tập used-context (γ); Đầu ra: Danh sách câu trả lời (danh sách thực thể xếp hạng) Di; Ký hiệu: - P(s), P(c) nêu công thức (2.19), (2.20); - f(s, pi), f(c, pi), ɸ(s), ɸ(c) nêu (2.21), (2.22); - γ: Biến (dạng tập hợp) giữ context xét; - q: Biến trung gian (Context); Ω: Cụm; Program Rank_Entities - 01 for each context pi ∈ P(c) 02 if (pi ∈ P(s)) then 03 β ← β + f(s, pi)·f(c, pi) 04 γ ← γ ∪ {p} 05 else 06 Ω ← cluster contains pi 07 max_co-occurs = 0; 08 q← NULL; 09 for each context pj ∈ (P(s)\P(c)\γ) 10 if (pj ∈ Ω) & (f(s, pj) > max_co-occurs) 11 max_co-occurs ← f(s, pj); 12 q ← pj; 13 end if 14 end for 15 if (max_co-occurs > 0) then 16 β ← β + f(s, q)·f(c, pi) (2.29) 13 17 γ ← γ ∪ {q} 18 end if 19 end if 20 end for 21 RelSim ← β/L2-norm(ɸ(s), ɸ(c)) 22 if (RelSim ≥ α) then return RelSim Diễn giải giải thuật: Trường hợp cặp thực thể nguồn đích quan hệ ngữ nghĩa (cùng chia sẻ chung context, câu lệnh 1-2): pi ∊ P(s) ∩ P(c), tính tích vơ hướng tương tự cơng thức Cosine tính độ tương đồng Trường hợp pi ∊ P(c) pi ∉ P(s), giải thuật tìm context pj (hay biến trung gian q, dịng 12), pi, pj thuộc cụm biết Thân vòng lặp (từ lệnh 10-13) chọn context pj có số lần đồng (co-occurs) với s lớn Theo giả thuyết phân phối, context pi, pj đồng nhiều cặp thực thể, độ tương đồng Cosine vector cao Khi giá trị Cosine cao, pi, pj tương tự Nói cách khác, cặp (C, Di) xác quán ngữ nghĩa với cặp thực thể nguồn (A, B) Dãy câu lệnh từ 15-18 tính tích vơ hướng Các câu lệnh 21-22 tính giá trị RelSim Từ tập RelSim thu được, xếp để thực thể Di có RelSim cao xếp thứ tự thấp (theo nghĩa gần top hơn, hay rank cao hơn) Tập kết Di danh sách câu trả lời cho truy vấn mà người dùng muốn tìm 2.3 Kết thực nghiệm – Đánh giá 2.3.1 Dataset Tập dataset xây dựng từ tập liệu mẫu thực nghiệm, dựa vào phân lớp thực thể có tên: PER; ORG; LOC TIME; 2.3.2 Kiểm thử - Điều chỉnh tham số Để đánh giá hiệu thuật toán phân cụm thuật toán xếp hạng ứng viên Rank_Entities, Chương thực thay đổi giá trị θ1 α, sau tính độ đo Precision, Recall, F-Score tương ứng với giá trị thay đổi α, θ1 Hình 2.3 cho thấy α = 0.5, θ1 = 0.4, điểm F-Score đạt giá trị cao Hình 2.3: Giá trị F-Score tương ứng với giá trị thay đổi α, θ1 Giải thuật Rank_Entities dòng 22 (if (RelSim ≥ α) return RelSim) cho thấy, α nhỏ số lượng ứng viên tăng, có nhiễu, đồng thời thời gian xử lý real-time tốn chi phí thời gian, hệ thống xử lý nhiều truy vấn ứng viên Ngược lại α lớn giá trị Recall nhỏ, kéo theo F-Score giảm đáng kể 2.3.3 Đánh giá với độ đo MRR (Mean Reciprocal Rank) Đối với truy vấn Q, thứ hạng câu trả lời truy vấn q ∈ Q rq, độ đo MRR Q tính: 1 MRR(Q) = |𝑄| ∑𝑞∈𝑄 𝑟 𝑞 (2.33) Với phân lớp thực thể: PER; ORG; LOC TIME; phương pháp dựa tần suất đồng (f) đạt giá trị trung bình MRR ≈ 0.69; đó, phương pháp dựa PMI đạt 0,86 Điều cho thấy PMI giúp cải thiện độ xác tương đồng ngữ nghĩa tốt tần suất đồng context-cặp thực thể 14 Hình 2.4: So sánh PMI với f: tần suất (số lần đồng hiện) dựa MRR 2.3.4 Hệ thống thực nghiệm Tập liệu mẫu thực nghiệm download từ nguồn Viwiki (7877 files) Vn-news (35440 files) Mục đích chọn nguồn Viwiki Vn-news dataset chứa mẫu gồm thực thể có tên (Named Entity) Tiến trình đọc, lấy nội dung file, tách đoạn, tách câu (main-sentences, sub-sentences), thu 1572616 câu Các nhãn tổng quát NER (Named Entity Recognition) gồm: PER: Tên người; ORG: Tên tổ chức; LOC: Địa danh; TIME: Kiểu thời gian; NUM: Kiểu số; CUR: Kiểu tiền tệ; PCT: Kiểu phần trăm; MISC: Kiểu thực thể khác; O: Không phải thực thể Giải thuật rút trích patterns lưu vào database, sau thực bước xử lý điều kiện giới hạn, Database lại 404507 câu context Từ tập context này, giải thuật gom cụm quan hệ ngữ nghĩa gom 124805 cụm Hình 2.5: Thực nghiệm IRS với nhãn thực thể B-PER Để đánh giá độ xác, thực nghiệm thực 500 queries để kiểm thử, kết cho thấy độ xác đạt khoảng 92% ID Bảng 2.3: Các ví dụ kết thực nghiệm với input q = {A, B, C} output D A B C D German Angela Merkel Israel Benjamin Netanyahu Harry Kane Tottenham Messi Barca 15 Hồng Cơng Lương Hịa Bình Thiên Sơn RO 2.4 Kết luận chương Khả suy thông tin/tri thức không xác định suy diễn tương tự khả tự nhiên người Chương trình bày mơ hình tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn (IRS) nhằm mơ khả Mơ hình IRS tìm kiếm thơng tin/tri thức từ miền khơng quen thuộc khơng cần biết trước từ khóa, cách sử dụng ví dụ tương tự (quan hệ tương đồng) từ miền quen thuộc Đóng góp Chương 2: Xây dựng kỹ thuật tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng cao hiệu tìm kiếm Đồng thời, luận án đề xuất độ đo tương đồng kết hợp - theo terms theo giả thuyết phân phối; Từ độ đo đề xuất, đồng thời áp dụng heuristic vào giải thuật gom cụm để cải thiện chất lượng cụm CHƯƠNG 3: GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH 3.1 Bài toán Trong lĩnh vực gợi ý truy vấn (query suggestion), tiếp cận truyền thống session-based, documentclick based, v.v thực khai phá tập truy vấn khứ (Query Logs) để kết xuất gợi ý Cách tiếp cận “Gợi ý truy vấn hướng ngữ cảnh khai phá liệu phiên tài liệu chọn đọc” (gọi ngắn gọn: “cách tiếp cận hướng ngữ cảnh” Huanhuan Cao cộng [9], [10]) hướng - hướng xét truy vấn đứng trước truy vấn vừa đưa vào (truy vấn hành) ngữ cảnh tìm kiếm, nhằm “nắm bắt” ý định tìm kiếm người dùng, nhằm đưa gợi ý xác đáng Rõ ràng, lớp truy vấn đứng trước có mối liên hệ ngữ nghĩa với truy vấn hành Kế tiếp, thực khai phá truy vấn đứng sau truy vấn hành danh sách gợi ý Phương pháp tận dụng “tri thức” cộng đồng, lớp truy vấn đứng sau truy vấn hành phản ánh vấn đề mà người dùng thường hỏi sau truy vấn hành Đóng góp chương gồm: 1) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên sâu áp dụng hướng ngữ cảnh miền sở tri thức riêng (dữ liệu hàng không) 2) Đề xuất độ đo tương đồng tổ hợp toán gợi ý truy vấn theo ngữ cảnh nhằm nâng cao chất lượng gợi ý Ngồi ra, chương có đóng góp bổ sung thực nghiệm: i) Tích hợp nhận dạng tổng hợp tiếng nói tiếng Việt tùy chọn vào máy tìm kiếm để tạo thành hệ tìm kiếm có tương tác tiếng nói ii) Áp dụng cấu trúc dàn khái niệm để phân lớp tập kết trả 3.2 Phương pháp hướng ngữ cảnh 3.2.1 Định nghĩa – Thuật ngữ Phiên tìm kiếm: Là chuỗi liên tục câu truy vấn Chuỗi truy vấn biểu diễn với thứ tự thời gian Mỗi phiên tương ứng với người dùng Cấu trúc phiên tổng quát: {sessionID; queryText; queryTime; URL_clicked} Ngữ cảnh: đặc tả chuỗi lân cận trước truy vấn hành Trong phiên tìm kiếm người dùng, ngữ cảnh chuỗi truy vấn đứng trước truy vấn vừa nhập Lớp queries trước qcurrent ↔ ngữ cảnh) qcurrent (Lớp queries sau) 16 3.2.2 Kiến trúc – Mơ hình Phương pháp hướng ngữ cảnh dựa phases: online offline, khái quát: Trong phiên tìm kiếm (online phase), tiếp cận gợi ý truy vấn hướng ngữ cảnh đón câu truy vấn hành xét chuỗi truy vấn đứng trước truy vấn hành ngữ cảnh Chính xác hơn, diễn dịch chuỗi truy vấn đứng trước current query thành chuỗi khái niệm - chuỗi khái niệm biểu đạt ý định tìm kiếm người sử dụng Hình 3.4: Mơ hình Gợi ý truy vấn hướng ngữ cảnh Khi có ngữ cảnh tìm kiếm, hệ thống thực so khớp với tập ngữ cảnh dựng sẵn (phase offline, tập ngữ cảnh dựng sẵn xử lý tính tốn sẵn tập truy vấn q khứ - Query Logs Về cấu trúc liệu lưu trữ, tập ngữ cảnh dựng sẵn lưu cấu trúc liệu hậu tố) Tiến trình so khớp (maximum matching) kết xuất danh sách ứng viên, danh sách gồm vấn đề mà đa số người dùng thường hỏi sau truy vấn vừa nhập Sau bước ranking, danh sách ứng viên trở thành danh sách gợi ý 3.2.4 Phase Offline - Giải thuật Gom cụm Ý tưởng giải thuật gom cụm: Giải thuật quét toàn queries Query Logs lần, cụm tạo tiến trình quét Ban đầu, cụm khởi tạo truy vấn, mở rộng dần truy vấn tương tự Quá trình mở rộng dừng đường kính cụm vượt ngưỡng Dmax Do cụm (cluster) xem khái niệm (concept), nên tập cụm tập khái niệm Đầu vào: Tập Query Logs Q, ngưỡng Dmax; Đầu ra: Tập cụm Cset; program Context_Aware_Clustering_alg // Khởi tạo mảng dim_array[d] = Ø, ∀d (d: document click) // Mảng dim_array chứa số chiều vectors 01 02 03 04 05 06 07 08 09 10 for each query qi ∈ Q θ = Ø; for each nonZeroDimension d of ⃗⃗⃗ 𝑞𝑖 θ ∪= dim_array[d]; C = arg minC’∈C-Setdistance(qi, C’); if (diameter(C∪{qi}) ≤ Dmax) C ∪= qi; cập nhật lại đường kính tâm cụm C; else C = new cluster({qi}); Cset ∪= C; for each nonZeroDimension d of ⃗⃗⃗ 𝑞𝑖 if (C ∉ dim_array[d]) dim_array[d] ∪= C; end for return Cset; 3.3.6 Phân tích ưu nhược điểm 17 Ưu điểm: Với toán gợi ý truy vấn - cách tiếp cận Thực gợi ý truy vấn, tiếp cận kinh điển - cũ thường lấy truy vấn có Query Logs để đề xuất Các đề xuất tương tự có liên quan với truy vấn hành, khơng đưa xu hướng mà tri thức số đông thường hỏi sau câu truy vấn hành Cũng vậy, chưa có tiếp cận đặt chuỗi truy vấn trước truy vấn hành vào ngữ cảnh tìm kiếm - thể liền mạch ý đồ tìm kiếm người sử dụng Kỹ thuật hướng ngữ cảnh, hết ý tưởng gợi ý vấn đề mà người dùng thường hỏi sau truy vấn hành, điểm độc đáo, hiệu quả, “nét thông minh” lĩnh vực gợi ý truy vấn Nhược điểm: Khi người dùng đưa vào truy vấn hay vài truy vấn (mới so với truy vấn - khứ) chí khơng - theo nghĩa khơng có mặt chuỗi khái niệm thường xuyên (chẳng hạn, tập liệu mẫu, với chuỗi khái niệm c2c3 c1c2c3, giải thuật xác định chuỗi thường xuyên thu c2c3, trường hợp - người sử dụng đưa vào c1) Tiếp cận hướng ngữ cảnh không đưa gợi ý dù c1 có khứ (đã tồn QLogs) Mỗi cụm (khái niệm) gồm nhóm truy vấn tương đồng Độ đo tương đồng dựa URL - click mà khơng dựa tương đồng term, điều ảnh hưởng không nhỏ đến chất lượng kỹ thuật gom cụm Ràng buộc truy vấn thuộc cụm (khái niệm): quan điểm không hợp lý không tự nhiên - câu truy vấn đa nghĩa “tiger” “gladitor”, hay nhiều từ đa nghĩa khác tiếng Việt, v.v Chỉ xét đến gợi ý truy vấn (query suggestion) mà không xét đến gợi ý tài liệu (gợi ý URL - URL - recommendation) Đồng thời, định hướng “click-through” không sử dụng thơng tin clicked Urls ngữ cảnh tìm kiếm (khi tìm kiếm hậu tố, Concept sequence đầu vào gồm queries) Trên đồ thị phía, phía tập đỉnh Q vector thưa (số chiều thấp), phía tập đỉnh URLs click - gặp phải vấn đề liệu thưa (URL click thưa), vectors thưa, chất lượng gom cụm bị ảnh hưởng - Trong thuật giải gom cụm, Query Logs lớn, số chiều vector lớn, mảng dim_array[d] có kích thước lớn, địi hỏi cấp phát lượng nhớ lớn thực thi Thực tế, phiên tìm kiếm bất kỳ, người sử dụng nhập vào nhiều truy vấn, vậy, người sử dụng khơng click nhiều URL kết quả, có URL click không ý, xem nhiễu (noise) Phương pháp hướng ngữ cảnh cần có chuỗi truy vấn liên tiếp hình thành ngữ cảnh khơng phản ảnh thực tế, người dùng nhập vào truy vấn Tuy nhiên, việc phụ thuộc vào URL click không xét đến tính tương đồng term nhược điểm rõ phương pháp 3.3.7 Các đề xuất kỹ thuật Khai phá Query Logs, bước gom cụm ứng dụng luận án không đơn dựa vào click-through mà tập trung vào ba thành phần cố định chắn, gồm: Câu truy vấn; Top N kết trả về; Tập URLs click Đây ba thành phần quan trọng tác vụ khai phá liệu, với tiền đề: Nếu giao từ khóa (terms) truy vấn đạt tỷ lệ định truy vấn tương đồng 18 Nếu giao top N kết truy vấn đạt tỷ lệ định truy vấn tương đồng Nếu giao tập URLs click truy vấn vượt ngưỡng tương đồng truy vấn tương đồng Xét đồng thời tổ hợp tiền đề nêu trên, kết hợp với ngưỡng rút từ thực nghiệm, đảm bảo độ đo tương đồng xác, luận án liệt kê cơng thức sau: Độ tương đồng (Similarity) theo từ khóa truy vấn p, q: Simkeywords (p, q) = ∑n i=1 w(ki (p))+w(ki (q)) (3.9) 2×MAX(kn(p),kn(q)) cơng thức trên: - kn(.): tổng trọng số terms p, q; - w(ki(.)): trọng số term chung thứ i p q; Độ tương đồng theo top50 URL kết truy vấn p, q: Simtop50URL (p, q) = ∧(topUp,topUq) 2×MAX(kn(p),kn(q)) (3.10) ký hiệu: (topUp, topUq): phần giao top50URL kết p q; Độ tương đồng theo clickedUrls truy vấn p, q: ∧(U_click_p,U_click_q) SimURLsClicked (p, q) = 2×MAX(kn(p),kn(q)) (3.11) ký hiệu: (U_Clickp, U_Clickq): số URLs click chung p q; U_Clickp: số URL clicked query; Từ (3.9), (3.10), (3.11), đề xuất đẳng thức tính độ tương đồng tổ hợp: Sim(p, q) = α Sim(p, q) + β Sim(p, q) + γ Sim(p, q) 𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑖𝑜𝑛 keywords 𝑡𝑜𝑝50𝑈𝑅𝐿 URLsclicked (3.12) Với α + β + γ = 1; α, β, γ tham số ngưỡng rút trình thực nghiệm Trong ứng dụng máy tìm kiếm, α = 0,4; β = 0,4; γ = 0,2 3.2.8 Kỹ thuật phân lớp kết tìm kiếm dựa Dàn khái niệm (Concept Lattice) Cấu trúc dàn có khả tự động phân nhóm tập kết trả từ máy tìm kiếm Việc phân nhóm tập kết vào chủ đề giúp người sử dụng dễ dàng quan sát, đưa định tài liệu thích hợp, hạn chế việc thơng tin phù hợp bị vùi lấp danh sách dài Phân tích khái niệm hình thức (Formal Concept Analysis - FCA) kỹ thuật áp dụng dàn FCA ứng dụng để lập bảng với dịng mơ tả đối tượng, cột mơ tả thuộc tính, từ dựng lên dàn [88] Trong tìm kiếm thơng tin, FCA xét tương quan đối tượng thuộc tính tương quan tài liệu - thuật ngữ Tiến trình dựng dàn, FCA quy ước nút dàn khái niệm Thuật toán dựng dàn cài đặt vào khái niệm cặp đơi: tập tài liệu có chung thuật ngữ; tập thuật ngữ xuất tài liệu Mở rộng, xem khái niệm (mỗi nút dàn) cặp câu hỏi, câu trả lời Phép duyệt dàn bottom-up duyệt lên duyệt xuống dàn để đến khái niệm tổng quát khái niệm chi tiết Tương ứng với khái niệm tổng quát số lượng tài liệu kết nhiều hơn, ngược lại Với liệu thử (chuyên ngành hàng không), luận án sử dụng dàn để phân lớp tập kết trả theo chủ đề định sẵn a) Bài toán minh họa 19 Để nhìn trực quan dàn khái niệm, luận án trình bày tốn (ví dụ) minh họa tự nhiên dàn khái niệm (tập đối tượng, tập thuộc tính) Từ bảng ngữ cảnh, dàn hình thành cách trực quan lược đồ Hasse: Bảng 3.2: Bảng ngữ cảnh Hình 3.10: Dựng dàn khái niệm từ bảng ngữ cảnh Tương ứng với truy vấn: “cho biết lồi có cánh, bay đẻ con?”, phép duyệt tìm kiếm dàn trả kết khái niệm C={G, M}=({Dơi}, {Bay được, Có cánh, Đẻ con}) Tuy nhiên, đặc điểm kỹ thuật FCA nằm phân lớp kết tìm kiếm Nếu truy vấn đưa vào “dơi”, tập kết thu phân lớp chủ để: loài động vật “bay được”, “có cánh”, “đẻ con” Tương tự, truy vấn đưa vào “jaguar”, tập kết thu phân thành chủ đề: “car”, “big cat”, “MAC OS”, … Có thể thấy, việc phân hạng thuật toán dựa đặc trưng cấu trúc dàn, tập khái niệm cha chứa nhiều đối tượng (tài liệu) hơn, tập khái niệm chứa nhiều thuộc tính (terms) Khi kết xuất, kết đầu chứa tất terms cần tìm, kết sau chứa phần terms câu truy vấn, theo số lượng giảm dần Hình 3.11 minh họa việc tìm kiếm phân lớp tập kết trả cấu trúc dàn [92] Về phân lớp kết tìm kiếm, trình duyệt dàn, tập phủ (biến upper cover hàm Locate_Pivot) chứa nhãn, nhãn mơ tả chủ đề phân lớp Hình 3.11: Tìm kiếm phân lớp kết với truy vấn “jaguar” b) Phép tạo duyệt dàn Tạo dàn: Với giải thuật AddIntent, thời gian giải thuật tính tốn trường hợp tốt đánh giá O(|L||G|2max(|g’|)) Trong L dàn khái niệm, G tập đối tượng L, max(g’) số thuộc tính lớn concept L 20 Có thể nói, giải thuật tạo dàn, AddIntent kỹ thuật thêm dần khái niệm vào dàn, nói cách khác, giả sử tập liệu mẫu có N tài liệu, AddIntent thêm dần tài liệu 1, 2, …i, i+1, …, N vào dàn Li, Li+1, … L AddIntent có đoạn giả mã chính: CreateLatticeIncrementally Diễn giải giải thuật: Thủ tục CreateLatticeIncrementall 01: CreateLatticeIncrementally(G, M, I) 02: BottomConcept := (Ø, M) 03: L := {BottomConcept} 04: For each g in G 05: ObjConcept=AddIntent(g’,BottomConcept,L) 06: Add g to the extent of ObjConcept and all concepts above 07: End For Thủ tục CreateLatticeIncrementally(G, M, I) nhận vào toàn tập liệu mẫu (tập đối tượng G gồm files, tập thuộc tính M gồm terms files, tương quan I thuộc G, M) AddIntent giải thuật theo hướng Bottom-Up, khởi gán {0, M} Nói cách khác, khái niệm BottomConcept chứa toàn terms dàn L (dịng 02) Tiến trình bắt đầu với việc cập nhật khái niệm BottomConcept vào đáy dàn (dòng 03) Với đối tượng g thuộc tập đối tượng G (với file thuộc tập files), thủ tục gọi hàm AddIntent để thêm dần khái niệm vào dàn khái niệm, truyền vào AddIntent ba tham biến: g’ (intent, tập terms file), khái niệm BottomConcept (tập terms files) dàn L (dòng 04, 05) Trong thân thủ tục, hàm AddIntent tạo khái niệm (và nối kết ràng buộc với khái niệm khác), vòng lặp For End For thủ tục lấy khái niệm tập khái niệm tạo - để cập nhật vào Extent, dòng 06 Thủ tục kết thúc dàn tạo xong Duyệt dàn: Xét mối quan hệ truy vấn xem mối quan hệ khái niệm dàn Khi tìm kiếm, hệ thống phân tích câu truy vấn, tìm khái niệm hình thức (terms), duyệt dàn so khớp với khái niệm thuộc dàn Cốt lõi việc duyệt dàn thực tế nằm hàm AddIntent Có thể nói AddIntent hàm “xương sống” hai tiến trình tạo dàn tìm kiếm dàn Tư tưởng giải thuật duyệt tìm kiểm dàn sau (BR-Explorer [95]): Sử dụng hàm AddIntent để đưa câu truy vấn (intent) vào dàn (nhằm thỏa quan hệ thứ tự ≤) Sau tiến hành tìm khái niệm trụ (Locate_Pivot) ứng với intent câu truy vấn Hàm Locate_Pivot Cuối tập kết gồm tài liệu khái niệm trụ + tài liệu khái niệm cha khái niệm trụ tập kết cần tìm Nói cách khác, nút cha Locate_Pivot chứa chủ đề chung nút Trong giải thuật BR-Explorer, đoạn giả mã Locate_Pivot xác định tập phủ (tập chủ đề) Diễn giải giải thuật: Tương ứng với truy vấn đưa vào từ phía người dùng, hàm Locate_Pivot sẽ: - Trả khái niệm (khái niệm nằm tập phủ upper-cover khái niệm có intent (tập terms) chứa tập terms truy vấn q (dịng 04-13) - Nếu khơng, trả BottomConcept 01: found := false // ⊥ is the BottomConcept in B(Gq,Mq,Iq) 02: SUBS := {⊥} 03: while !found 04: for each C = (A,B) ∈ SUBS 05: if x’ = B then 06: Pivot P:=C; found:=true 07: break 08: else if x′ ⊂ B then 09: SUBS:=upper-cover(SUBS) 10: break 11: end if 12: end for 21 Quá trình duyệt dàn, tập phủ (biến upper cover hàm Locate_Pivot) chứa nhãn, nhãn mô tả chủ đề phân lớp thuộc tập kết tìm kiếm c) Nhận xét Việc phân hạng thuật toán dựa đặc trưng cấu trúc dàn, tập khái niệm cha chứa nhiều đối tượng (tài liệu) hơn, tập khái niệm chứa nhiều thuộc tính (terms) Kết tìm xếp hạng, kết đầu chứa tất thuật ngữ cần tìm, kết phía sau chứa phần thuật ngữ yêu cầu tìm kiếm, theo số lượng giảm dần Luận án cài đặt thực nghiệm liệu mẫu tài liệu chuyến bay [98], [99] Hình 3.12 minh họa việc duyệt tìm kiếm dàn tương ứng với truy vấn “Hãng bay đến US, Europe, Canada, Mexico, Carribean ?” Hình 3.12: Tìm kiếm, phân lớp dàn Trong thực nghiệm máy tìm kiếm hướng ngữ cảnh (mục 3.4), thủ tục tạo dàn duyệt dàn áp dụng việc phân lớp kết tìm kiếm Ưu điểm: Dàn khái niệm thích hợp với kỹ thuật gom cụm (theo chủ đề), phân lớp khái niệm; Mối quan hệ khái niệm cha - khái niệm cấu trúc dàn thỏa quan hệ thứ tự ≺ , đó, người tìm kiếm khai thác thơng tin node lân cận thuộc dàn mà không thời gian tìm kiếm lại tồn tập sở liệu văn lớn Nhược điểm: Khi truy vấn đưa vào dàn, phải gọi lớp AddIntent AddIntent thực đệ qui, dẫn đến tăng đáng kể thời gian tìm kiếm Hàm BR-Explorer có nhược điểm thời gian tính, nội hàm gọi hàm khác (để tính tốn lan truyền dàn) phải đệ qui (khi thêm câu truy vấn vào dàn thông qua AddIntent) 3.4 Kết thực nghiệm – Đánh giá Hình 3.13: Mơ hình tìm kiếm hướng ngữ cảnh tích hợp tương tác giọng nói tiếng Việt 22 Ứng dụng máy tìm kiếm chuyên sâu khác SE tổng quát điểm: Dữ liệu đầu vào phụ thuộc miền, Query Logs đặc thù, gợi ý truy vấn hướng ngữ cảnh, phân nhóm kết trả về, hình thành nên máy tìm kiếm khác với máy tìm kiếm tổng quát Việc bổ sung thêm nhận dạng, tổng hợp tiếng nói vào máy tìm kiếm hình thành máy tìm kiếm hướng ngữ cảnh & tương tác giọng nói [34], [76] Hình 3.17: Tìm kiếm hướng ngữ cảnh Đánh giá, so sánh: Để đánh giá hiệu phương pháp hướng ngữ cảnh, luận án lập bảng đối sánh SE hướng ngữ cảnh Lucene (Nutch), đồng thời so sánh kỹ thuật gợi ý truy vấn với phương pháp baselines: Adjacency N-Gram Tiêu chí so sánh dựa vào: Tính thích đáng (quality - độ đo chất lượng) Tính đa dạng (coverage - độ phủ) tập gợi ý truy vấn Tập liệu mẫu áp dụng thử nghiệm thực phần tập liệu gốc với khoảng 20000 tài liệu lĩnh vực Hàng không, thuộc định dạng phổ biến: html, pdf, doc, xls, txt, v.v, tài liệu có độ dài biến đổi từ đến 4500 trang A4 Bảng 3.3: Bảng so sánh tìm kiếm hướng ngữ cảnh Lucene-Nutch Lucene - Nutch Tập liệu mẫu Thời gian tìm kiếm SE hướng ngữ cảnh Chung tập liệu milliseconds Milliseconds Có Có Thơng dụng Áp dụng mạng VNA Khả gợi ý nhanh Khơng Có Phân loại tập kết trả Khơng Có Gợi ý truy vấn Khơng Có Xếp hạng kết (ranking) Tính thực tiễn Tiêu chí so sánh Độ đo chất lượng phản ánh đắn nhu cầu thông tin đồng thời giúp người sử dụng tìm họ quan tâm Độ phủ phản ánh tính đa dạng, bao phủ nhiều khía cạnh tìm kiếm khác Để thực đánh giá, luận án so sánh kỹ thuật gợi ý hướng ngữ cảnh với phương pháp baselines: Adjacency N-Gram Phương pháp Adjacency nhận vào chuỗi truy vấn q1, q2, , qi - tất phiên tìm kiếm - Adjacency xếp hạng theo tần suất xuất truy vấn sau truy vấn qi Kết xuất topN (N=5) truy vấn có tần suất xuất cao danh sách gợi ý Tương tự, N-Gram nhận chuỗi đầu vào query sequence qs = q1, q2, , qi Trên phiên tìm kiếm, N-Gram thực xếp hạng theo tần suất xuất truy vấn sau chuỗi qs, trả topN truy vấn có tần suất xuất cao danh sách gợi ý 23 60 50 40 30 20 10 0.9 0.8 Adjacency N-Gram Hướng ngữ cảnh 0.7 Adjacency N-Gram Hướng ngữ cảnh Hình 3.14: (a): Độ đo tính đa dạng; (b): Độ đo tính thích đáng Độ phủ đo tỷ lệ số test cases có khả đưa gợi ý truy vấn tổng số test cases Hình a minh họa kết phép đo độ phủ phương pháp Như giả thiết, nhận vào test case qs = q1, q2, , qi, phương pháp N-Gram đưa danh sách gợi ý tồn liệu huấn luyện phiên tìm kiếm dạng qs1= q1, q2, , qi, qi+1, , qj Rõ ràng, phương pháp Adjacency có tỷ lệ đa dạng vượt trội so với phương pháp N-gram, cần tồn chuỗi dạng qs2= , qi, qi+1, , qj thuộc liệu huấn luyện Nói cách khác, qs1 trường hợp đặc biệt qs2 Tuy nhiên, xét theo trình tự thời gian phiên tìm kiếm, phương pháp N-Gram có ưu điểm gợi ý, gợi ý thành chuỗi (cả chuỗi gợi ý) So với phương pháp N-Gram Adjacency, trường hợp “vắng mặt” qs1 lẫn qs2, phương pháp hướng ngữ cảnh chứng minh tính hiệu trội phương pháp trên, cần chuỗi truy vấn dạng qs2’= , qi’, qi+1, , qj mà qi qi’ tương đồng (thuộc cụm), ký thuật hướng ngữ cảnh thực cung cấp danh sách gợi ý Độ đo chất lượng tính điểm cách lấy ý kiến chuyên gia (con người) Đối chiếu với truy vấn hành, câu gợi ý danh sách đánh giá thích đáng, phương pháp cộng điểm Nếu danh sách gợi ý có hai nhiều câu gợi ý gần trùng lặp, phương pháp cộng điểm Nếu test case không đưa gợi ý, thử nghiệm không đếm test case Tổng điểm phương pháp ứng với test case cụ thể tổng điểm cộng chia cho tổng số câu gợi ý truy vấn Điểm trung bình phương pháp thương số tổng điểm tổng số test cases đếm Trên tất mẫu thử nghiệm, phép đo tính thích đáng tính đa dạng, thang điểm đánh giá phương pháp minh họa hình b, cho thấy gợi ý hướng ngữ cảnh tối ưu so với phương pháp baselines Thay gợi ý mức truy vấn đơn lẻ, phương pháp hướng ngữ cảnh xác định ý đồ tìm kiếm người sử dụng mức cụm (mức khái niệm) CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ 4.1 Kết luận Áp dụng phân tích khái niệm hình thức (FCA – Formal Concept Analysis) cấu trúc dàn khái niệm để khai phá tìm kiếm liệu văn Dàn có cấu trúc đẹp mặt tốn học, thích hợp với khai phá, phân tích gom cụm liệu, dàn khơng hồn tồn thích hợp lĩnh vực tìm kiếm Do đó, luận án chun sâu hai hướng nghiên cứu chính: i) Tìm kiếm thực thể dựa quan hệ ngữ nghĩa, nhằm mô khả suy thông tin/tri thức chưa biết suy diễn tương tự, khả “tự nhiên” người; ii) Gợi ý truy vấn hướng ngữ cảnh - xét chuỗi truy vấn liền mạch nhằm nắm bắt ý định tìm kiếm, sau đưa xu hướng mà tri thức số đông thường hỏi sau truy vấn hành 24 4.2 Kiến nghị Với hướng nghiên cứu Tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn, nhận thấy mơ hình tìm kiếm bị cứng hóa thực thể đầu vào, nhược điểm Để khắc phục nhược điểm, mặt - xét thêm loại ánh xạ quan hệ, thêm yếu tố thời gian để kết tìm kiếm cập nhật xác Mặt khác, mở rộng tìm kiếm thực thể với truy vấn đầu vào gồm thực thể, ví dụ: “Sơng dài Trung Quốc?”, mơ hình tìm kiếm thực thể dựa ngữ nghĩa ẩn đưa câu trả lời xác: “Trường Giang”, dù Corpus có câu gốc “Trường Giang sơng lớn Trung Quốc” Với hướng nghiên cứu Gợi ý truy vấn dựa kỹ thuật hướng ngữ cảnh, mặt, nghiên cứu cịn vài thiếu sót chí khuyết điểm, lọc nhiễu âm đầu vào để cải thiện chất lượng nhận dạng, áp dụng học máy để tối ưu tham số α, β, γ cách tính độ tương đồng tổ hợp phương pháp tìm kiếm hướng ngữ cảnh Mặt khác, nghiên cứu biến thể tương đồng quan hệ RelSim (Relational Similarity), nghiên cứu phương pháp kết hợp Word2Vec, Doc2Vec, Word embeddings, … cho máy tìm kiếm Hướng phát triển, luận án tập trung vào nghiên cứu áp dụng thuật tốn thích nghi, mơ hình thống kê, thành phần cốt lõi hệ thống xử lý ngôn ngữ tự nhiên NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN Luận án nghiên cứu giải vấn đề tìm kiếm thực thể dựa quan hệ ngữ nghĩa gợi ý truy vấn hướng ngữ cảnh Đóng góp luận án gồm: Xây dựng kỹ thuật tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng cao hiệu tìm kiếm Đề xuất độ đo tương đồng tổ hợp toán gợi ý truy vấn theo ngữ cảnh nhằm nâng cao chất lượng gợi ý Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên sâu áp dụng hướng ngữ cảnh miền sở tri thức riêng (dữ liệu hàng khơng) DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ Trần Lâm Quân - Vũ Tất Thắng “Tìm kiếm thực thể dựa quan hệ ngữ nghĩa ẩn” Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông (27-28/07.2018) Trần Lâm Quân - Vũ Tất Thắng “Search for entities based on the Implicit Semantic Relations” Tạp chí Tin học Điều khiển 2019 (Volume 35, Number 2019) Trần Lâm Quân - Đỗ Quốc Trường - Phan Đăng Hưng - Đinh Anh Tuấn - Phi Tùng Lâm - Vũ Tất Thắng - Lương Chi Mai “A study of applying Vietnamese voice interaction for a context-based Aviation search engine” The IEEE RIVF 2013 International Conference on Computing and Communication Technologies 10-13.11.2013 Trần Lâm Quân – Vũ Tất Thắng “Context-aware and voice interactive search” (the SoCPaR 2013 special issue) Journal of Network and Innovative Computing ISSN 2160-2174 Volume 2, pages 233-239, 2014 Trần Lâm Quân - Phan Đăng Hưng - Vũ Tất Thắng “Tìm kiếm giọng nói với kĩ thuật hướng ngữ cảnh” Tạp chí Khoa học Cơng nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam ISSN: 0886 768X Số 52 (1B), 29.06.2014 Trần Lâm Quân - Lê Đức Hiếu - Lê Ngọc Thế - Vũ Tất Thắng “Một cách tiếp cận sử dụng cấu trúc dàn khái niệm để khai phá tìm kiếm liệu văn bản” Hội thảo Quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông 30-31.10.2014