1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc

23 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Cùng tìm hiểu Mô hình ngôn ngữ nằm trong bài 11 thuộc bộ bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 do TS.Nguyễn Bá Ngọc biên soạn. Với các vấn đề chính như: Mô hình sinh; mô hình sinh văn bản; máy một trạng thái; xếp hạng văn bản;...

(IT4853) Tìm kiếm trình diễn thơng tin Mơ hình ngôn ngữ Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung    Mơ hình sinh Các giả thuyết Thử nghiệm Mơ hình sinh văn   Máy trạng thái hữu hạn I wish I wish I wish I wish Không thể sinh: “wish I wish” “I wish I” Máy trạng thái frog said that toad likes frog STOP P(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 Trong STOP trạng thái dừng Xếp hạng văn     “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1 Nội dung    Mơ hình sinh Các giả thuyết Thử nghiệm Xác suất sinh chuỗi từ    Giả thuyết Unigram: Xác suất sinh từ độc lập với xác suất sinh từ lại: Giả thuyết đa thức: Xác suất phù hợp truy vấn      Query likelihood language model Xếp hạng văn theo xác suất P(d|q): xác suất văn d phù hợp với truy vấn q Theo luật Bayes P(q) số; Giả sử P(d) đồng nhất; Có thể xếp hạng theo P(q|d): xác suất mơ hình văn d sinh truy vấn q Giả thuyết Unigram phân bố đa thức 𝐿𝑞 ! 𝐾𝑞 = 𝑡𝑓𝑡1,𝑞 ! 𝑡𝑓𝑡2,𝑞 ! … 𝑡𝑓𝑡𝑀 ,𝑞 ! Trong Kq hệ số đa thức – số với câu truy vấn q xác định, bỏ qua xếp hạng 10 Ước lượng sử dụng khả cực đại  Hàm xếp hạng: 𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑝(𝑡|𝑀𝑑 ) 𝑡∈𝑞 𝑝(𝑡|𝑀𝑑 )𝑡𝑓𝑡,𝑞 𝑅𝑎𝑛𝑘 𝑑, 𝑞 = 𝑡 𝑑𝑢𝑦 𝑛ℎấ𝑡 ∈𝑞 Maximum likelihood estimation: 𝑝 𝑡 𝑀𝑑 𝑡𝑓𝑡,𝑑 = 𝐿𝑑 Nếu d không chứa từ truy vấn t Rank(d, q) = ==> Cần làm mịn để tránh giá trị 11 Mơ hình liệu    Tương tự văn bản, xác suất liệu sinh từ t: 𝑐𝑓𝑡,𝐶 𝑝 𝑡 𝑀𝐶 = 𝐿𝐶 MC mơ hình sinh xác định liệu C 𝐿𝐶 = 𝑑∈𝐶 𝐿𝑑 , số từ liệu 12 Làm mịn tuyến tính   Linear interpolation Kết hợp mơ hình văn mơ hình liệu p(t|d) = λp(t|Md) + (1 - λ)P(t|Mc) 𝑤𝑡,𝑑 𝑡𝑓𝑡,𝑑 𝑐𝑓𝑡,𝐷 =λ + (1 − λ) 𝐿𝑑 𝐿𝐷 13 Tổng hợp giả thuyết     Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả cực đại: Maximum Likelihood Estimation (MLE) 𝑅𝑎𝑛𝑘 𝑞 𝑑 = 𝑡∈𝑉 𝑡𝑓𝑡,𝑑 𝑐𝑓𝑡,𝐶 λ + (1 − λ) 𝐿𝑑 𝐿𝐶 14 Giá trị tham số  Sử dụng λ lớn có xu hướng trả văn chứa tất từ truy vấn   Giá trị λ nhỏ thích hợp cho xử lý truy vấn dài   Hiệu ứng sử dụng điều kiện AND Hiệu ứng sử dụng điều kiện OR Cần tùy chỉnh λ để đạt chất lượng cao 15 Giả thuyết mơ hình ngơn ngữ   Người dùng có hình dung định văn cần tìm Chính mơ hình văn tưởng tượng làm nảy sinh câu truy vấn Xác suất p(q|d) thể khả văn d văn tưởng tượng người dùng 16 Nội dung    Mơ hình sinh Các giả thuyết Thử nghiệm 17 Thử nghiệm Ponte Croft   Mơ hình ngơn ngữ trả kết tốt so với VSM thử nghiệm này… …Tuy nhiên chưa đủ sở vững để thay VSM thực tế 18 Ví dụ      Bộ liệu: d1 d2 d1: Jackson was one of the most talented entertainers of all time d2: Michael Jackson anointed himself King of Pop Truy vấn q: Michael Jackson Sử dụng mơ slide 14 với λ = 1/2 19 Ví dụ   Rank(q|d1) = [(0/11 + 1/18)/2] · [(1/11 + 2/18)/2] ≈ 0.003 Rank(q|d2) = [(1/7 + 1/18)/2] · [(1/7 + 2/18)/2] ≈ 0.013 d2 xếp hạng cao d1 20 Ví dụ      Bộ liệu: d1 d2 d1 : Xerox reports a profit but revenue is down d2: Lucene narrows quarter loss but decreases further Truy vấn q: revenue down Sử dụng mơ slide 14 với λ = 1/2 21 Ví dụ      P(q|d1) = [(1/8 + 2/16)/2] · [(1/8 + 1/16)/2] P(q|d1) = 1/8 · 3/32 = 3/256 P(q|d2) = [(1/8 + 2/16)/2] · [(0/8 + 1/16)/2] = P(q|d2) = 1/8 · 1/32 = 1/256 Xếp hạng d2 cao d1 22 23 .. .Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb... · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 1 0-1 2 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 1 0-1 2 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng:... vấn q: Michael Jackson Sử dụng mơ slide 14 với λ = 1/2 19 Ví dụ   Rank(q|d1) = [(0 /11 + 1/18)/2] · [(1 /11 + 2/18)/2] ≈ 0.003 Rank(q|d2) = [(1/7 + 1/18)/2] · [(1/7 + 2/18)/2] ≈ 0.013 d2 xếp

Ngày đăng: 08/05/2021, 13:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w