Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
626 KB
Nội dung
Ứng dụng Topic Modeling để tự động xây dựng lớp ngữ nghĩa I Bài tốn Sử dụng mơ hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa tập liệu ngữ nghĩa thô (Raw semantic classes: RASCs) trích xuất cách xác định trước mẫu từ web pages Tiếp cận giải tốn dựa q trình bản: Q trình tiền xử lý (Preprocessing); Mơ hình hóa chủ để (Sử dụng LDA); Quá trình hậu xử lý (Postprocessing) I Bài tốn Mơ tả tập liệu ngữ nghĩa thơ sau: Bảng sample patterns Bảng tập liệu thơ RASCs II Tiếp cận tốn • Một lớp ngữ nghĩa tập từ hay cụm từ (items: words or phrases), thành phần lớp ngữ nghĩa có quan hệ ngang hàng quan hệ họ hàng với (peer or bibling relationship) • Ví dụ: {red, white, black, blue…} lớp ngữ nghĩa màu sắc II Tiếp cận tốn • Một item thuộc nhiều lớp ngữ nghĩa, cần phát nhiều lớp ngữ nghĩa khác mà item thuộc • Ví dụ: Từ “Lincoln” biểu diễn đồng thời người, địa điểm tên nhãn xe tơ • Để xây dựng mơ hình chủ đề xây dựng tham chiếu tới RASCs bảng sau: II Tiếp cận toán Topic modeling Semantic class construction Word Item (word or phrase) Topic Semantic class Document RASC II Tiếp cận tốn */ Mơ hình hóa chủ đề (Topic Modeling) • Trong mơ hình chủ đề, tài liệu mơ tập chủ đề ẩn • Các từ tài liệu sinh theo phân bố từ qua chủ đề tương ứng với tài liệu • Cho corpus, chủ đề ẩn nhận thủ tục ước lượng tham số II Tiếp cận toán Latent Dirichlet Allocation (LDA): Ý tưởng: Trong LDA, liệu từ tài liệu tài liệu biểu diễn cấu trúc chủ đề ẩn, chủ đề ẩn xác định qua phân bố tập từ vựng • Với tập liệu, phân bố hậu nghiệm liệu ẩn cho tập liệu xác định phân tích chủ đề ẩn tập liệu II Tiếp cận toán Kỹ thuật: Cơ chế xử lý cho tài liệu corpus sau: Chọn tài liệu có độ dài N từ hàm phân bố Poisson( ) Chọn từ phân bố Dirichlet với thông số Với từ tổng số N từ wi II Tiếp cận toán a Chọn chủ đề z từ đa phân bố với thông số b Chọn lấy wi qua xác suất p(i | z, ) Với xác suất likelihood cho tài liệu là: p (d ) p ( | ) p ( z | ) p (i | z , )d i z III Giải toán III Giải toán Thực mơ hình chủ đề: • Cho item q, mơ hình hóa chủ đề thực để xử lý RASCs CR(q) nhằm sinh k lớp ngữ nghĩa ẩn Qui trình xử lý cho RASC R corpus CR(q) sau: Chọn RASC có cỡ (số lượng items R): N R : Poisson( ) III Giải toán Thực mơ hình chủ đề: Chọn vector R - k chiều từ phân bố Dirichlet với thông số Với items an tổng số N R : a Lấy lớp ngữ nghĩa zn từ hàm phân bố nhiều với thông số R p (an | zxác b Lấy iteman từ xác suất n, ) suất item xác định qua ma trận III Giải tốn Q trình tiền xử lý: • Q trình tiền xử lý (preprocessing) dùng cho CR(q) trước xây dựng mơ hình chủ đề cho • Cơng việc q trình loại bỏ tất items RASCs nhỏ ngưỡng h Một RASC bị loại bỏ từ CR(q) chứa items sau loại bỏ III Giải toán Q trình hậu xử lý: • Q trình hậu xử lý (postprocessing), lớp ngữ nghĩa đầu (“các chủ đề”) mơ hình hóa chủ đề gộp lại để đưa lớp ngữ nghĩa cuối • Q trình bao gồm hai giai đoạn: Gộp lớp ngữ nghĩa xếp items lớp ngữ nghĩa III Giải tốn Gộp lớp ngữ nghĩa: Q trình thực cách lặp lại việc tính tốn tương tự hai lớp ngữ nghĩa hai lớp gộp lại với với độ tương tự cao độ tương tự ngưỡng • Ta có cơng thức tính độ tương tự: sim(C1 , C2 ) C1 C2 C1 C2 III Giải tốn hay đề xuất cách tính khác sau: sim(C , C ) aC1 bC2 sim(a, b) C1 C2 m ki i 1 j 1 sim(a, b) log(1 w( P(Ci , j ))) III Giải tốn Trong đó: - |C|: Số lượng items lớp ngữ nghĩa C - sim(a,b) – Độ tương tự items a b - Ci,j: Là RASC chứa a b - P(Ci,j): Là mẫu trích xuất RASC - w(P): Là trọng số mẫu P III Giải tốn Sắp xếp items: • Một item nhận thứ hạng cao độ tương tự trung bình item với item khác lớp ngữ nghĩa cao, có độ tương tự cao để truy vấn tới item q • Do việc tính tốn mức độ quan trọng item a lớp ngữ nghĩa C sau: III Giải toán g (a | C ) .sim(a, C ) (1 ).sim(a, q ) sim(a, C ) bC sim(a, b) C Trong đó: 0,1 sim(a,q) - độ tương tự item a truy vấn q; sim(a,C) – độ tương tự item a lớp C IV Kết thực nghiệm • Trong phương pháp tiếp cận chúng ta, truy vấn item q nhận từ người sử dụng trả lại lớp ngữ nghĩa chứa truy vấn • Do thời gian truy vấn item yêu cầu nhanh hơn, để giảm thời gian truy vấn xử lý offline truy vấn có tính phổ biến cao lưu chúng lại thành lớp ngữ nghĩa tổng hợp ... hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa tập liệu ngữ nghĩa thô (Raw semantic classes: RASCs) trích xuất cách xác định trước mẫu từ web pages Tiếp cận giải toán dựa trình bản: Quá trình... (Postprocessing) I Bài tốn Mơ tả tập liệu ngữ nghĩa thô sau: Bảng sample patterns Bảng tập liệu thô RASCs II Tiếp cận tốn • Một lớp ngữ nghĩa tập từ hay cụm từ (items: words or phrases), thành phần... đồng thời người, địa điểm tên nhãn xe ô tơ • Để xây dựng mơ hình chủ đề xây dựng tham chiếu tới RASCs bảng sau: II Tiếp cận toán Topic modeling Semantic class construction Word Item (word or phrase)