Nhưng khả năng là cụm từ của nó ít hơn.[r]
(1)Phản hồi thông tin
1
Lê Thanh Hương Bộ môn Hệ thống thông tin
Viện CNTT&TT
Phản hồi thông tin
Phản hồi thông tin (Information
Retrieval - IR) việc tìm tài liệu phi cấu trúc(thường văn bản) thỏađiều
cấu trúc(thường văn bản) thỏa điều kiện tìm kiếm từ một kho dữ liệu lớn (thường được lưu máy tính)
2
Các hệ thống dựa từ khóa
tập từ khóa có khả xuất tài liệu (vd., JFK, assasination)
Các phép toán AND OR:
3
AND(Kennedy, conspiracy, OR(assasination, murder)) or
AND(OR(Kennedy,JFK), OR(conspiracy, plot), OR(assasination,assasinated,assasinate,murder,
murdered,kill,killed)
Các vấn đề
Đa nghĩa: từ - n nghĩa Đồng nghĩa: n từ - nghĩa
ố
4 Kích thước: hệ thống IR phải có khả
năng xử lý tập ngữ liệu cỡ ~Gb
Độ phủ: Các hệ thống IR phải có khả xử lý câu truy vấn thuộc lĩnh vực
Lấy từ gốc
Gắn thuật ngữ câu truy vấn với biến thể từ (cùng gốc từ) tài liệu VD: assassination Ỉassassinat
Assassination Assassinations
5
Assassination Assassinations Assassinate Assassinated Assassinating
Vấn đề:
Lỗi: organization - organ past - paste Bỏ qua: analysis - analyzes matrices - matrix
Từ dừng
Là từ thường xuất hầu hết tài liệu Các từ không chứa nhiều thông tin
6 Khơng đưa vào file nghịch đảo Ỉgiảm
kích thước file
(2)Nhược điểm của việc bỏ từ dừng
Có thể bỏ tên người “The”
Các từ dừng thành phần quan trọng đoạn Ví dụ, câu nói Shakepeare: “to be or not to be”
7 to be or not to be”
Một số từ dừng (vd., giới từ) cung cấp thông tin quan trọng mối quan hệ
Bộ nhớ ngày rẻ Ỉtiết kiệm nhớ khơng cịn vấn đề quan trọng
trước
Từ chức năng từ nội dung
Muốn loại bỏ từ chức giảm ảnh hưởng
Xác định từ nội dung:
8
Nó có xuất thường xun khơng? Nó có xuất số tài liệu khơng? Tần suất có thay đổi tài liệu khơng?
File nghịch đảo (Inverted
Files)
Để biểu diễn tài liệu kho ngữ liệu Là bảng từ với danh sách tài liệu
chứa từ
Assassination: (doc1 doc4 doc35 )
9
Assassination: (doc1, doc4, doc35,…) Murder: (doc3, doc7, doc36,…) Kennedy: (doc24, doc27, doc29,…) Conspiracy: (doc3, doc55, doc90,…)
Thông tin bổ sung:
vị trí từ tài liệu
thông tin xấp xỉ: để so khớp so gần
đoạn
Chỉ số nghịch đảo
Với thuật ngữ t, lưu danh sách tài liệu chứa t
Định nghĩa tài liệu docID, số thứ tự
Sec 1.2
tài liệu
10 Brutus
Calpurnia
Caesar 16 57 132 11 31 45 173
2 31
Vấn đề xảy từCaesarđược thêm vào tài liệu 14? 174
54 101
Chỉ số nghịch đảo
Ta cần danh sách với độ dài thay đổi
Có thể sử dụng linked list mảng có độ dài thay đổi
Sec 1.2
11
Từđiển Sắp theo docID
Brutus
Calpurnia
Caesar 16 57 132 11 31 45 173
2 31
174
54 101
Tokenizer
Xâu từ
Xây dựng chỉ số nghịch đảo
Các tài liệu cần
đánh số
Friends, Romans, countrymen
Sec 1.2
Xâu từ Friends Romans Countrymen
Linguistic modules
Các từđã biến đổi friend roman countryman
Indexer
Inverted index
friend roman countryman
2
2
13 16
(3)Bước đánh chỉ số: Chuỗi từ Chuỗi cặp
(từđã biến đổi, Document ID)
Sec 1.2
I did enact Julius Caesar I was killed
i' the Capitol; Brutus killed me
Doc
So let it be with Caesar The noble Brutus hath told you Caesar was ambitious
Doc
Bước đánh chỉ số: Sắp xếp
Sắp theo từ, theo docID
ố ố
Sec 1.2
Bước đánh số cốt lõi
Bước đánh chỉ số: Từđiển
danh sách
Nhiều mục từ tài liệu
được trộn lẫn
Sec 1.2
Đưa vào từ
điển danh sách Thêm số lần xuất
hiện tài liệu
Lưu trữ
Thuật ngữ sốlần
Sec 1.2
Danh sách docIDs
Con trỏ số lần
xuất
Xử lý truy vấn: AND
Xét câu truy vấn: BrutusANDCaesar Định vị Brutustrong từđiển;
Lấy danh sách
Sec 1.3
y
Định vịCaesartrong từđiển; Lấy danh sách Trộn danh sách
17 128
34 16 32 64 13 21
Brutus Caesar
Phép trộn
Duyệt qua danh sách, thời gian tỉ lệ
với số nút
Sec 1.3
18 34 128 16 32 64 13 21
128 34 16 32 64 13 21
Brutus Caesar
Nếu danh sách có độ dài x y, phép trộn có độ
phức tạp O(x+y)
(4)Trộn danh sách
19
Câu truy vấn logic: so khớp
Mơ hình phản hồi Boolean có thể trả lời
câu truy vấn ở dạng biểu thức Boolean
Câu truy vấn sửdụngAND, ORvàNOTđể Sec 1.3
Câu truy vấn sử dụng AND, ORvà NOTđể
kết nối thuật ngữ
Coi tài liệu tập từ
Chính xác: tài liệu thỏa điều kiện không Đây mơ hình IR đơn giản
20
Câu truy vấn logic: phép trộn tổng quát hơn
Bài tập: Thực phép trộn cho câu
truy vấn:
BrutusAND NOTCaesar
Sec 1.3
BrutusAND NOTCaesar BrutusOR NOTCaesar
Thời gian thực hiện O(x+y)?
21
Phép trộn
Thực hiện phép trộn cho câu truy vấn:
(BrutusORCaesar)AND NOT
Sec 1.3
(BrutusOR Caesar) AND NOT (Antony OR Cleopatra)
Có thể ln thực hiện thời gian
tuyến tính?
Có thể làm tốt hơn khơng?
22
Tối ưu hóa truy vấn
Đâu trật tự tốt để xử lý truy vấn? Xét câu truy vấn phép AND n thuật ngữ Với thuật ngữ, lấy danh sách , sau
Sec 1.3
ậ g , y ,
đó làm phép AND
Brutus Caesar Calpurnia
1 16 21 34
2 16 32 64 128
13 16
Query:BrutusANDCalpurniaANDCaesar23
Tối ưu hóa truy vấn – Ví dụ
Xử lý theo trật tự tăng tần suất:
khởi đầu với tập nhỏ, sau tiếp tục loại bỏ
Sec 1.3
24
Thực câu truy vấn (CalpurniaANDBrutus)AND Caesar.
Brutus Caesar Calpurnia
1 16 21 34
2 16 32 64 128
(5)Tối ưu hóa truy vấn
vd., (maddingOR crowd) AND (ignoble
OR strife)
Lấy tần suất xuất cho thuật ngữ Sec 1.3
Lấy tần suất xuất cho thuật ngữ
Đánh giá kích thước câu lệnh OR
bằng cách tính tổng tần suất
Xử lý theo trật tự tăng kích thước
danh sách phép OR
25
Bài tập
Đưa trình tự xử lý truy vấn cho
Term Freq
eyes 213312
(tangerineORtrees)AND y
kaleidoscope 87009 marmalade 107913
skies 271658
tangerine 46653
trees 316812
26
(tangerine ORtrees) AND
(marmalade ORskies) AND (kaleidoscope OReyes)
Bài tập
Cho câu truy vấn friendsAND romans AND (NOT countrymen), ta sử dụng
tần suất củacountrymennhưthếnào?
tần suất của countrymen như thế nào? Mở rộng phép trộn cho câu truy vấn
ngẫu nhiên Có thểđảm bảo thực hiện trong thời gian tuyến tính với tổng kích thước danh sách khơng
27
Các kỹ thuật nâng cao
Cụm từ: Stanford University Xấp xỉ: Tìm GatesNEAR Microsoft.
Cần đánh số để lấy thơng tin vị trí tài liệu Vịtrí tài liệu: Tìm tài liệu có (author = Vị trí tài liệu: Tìm tài liệu có (author
Ullman)AND(text contains automata)
Từ khóa tìm kiếm xuất tài liệu nhiều tốt
Cần thông tin tần suất thuật ngữ tài liệu Cần độđo xấp xỉ câu truy vấn với tài liệu
Cần định trả tài liệu thỏa câu truy vấn hay nhóm tài liệu phủ khía cạnh khác câu truy vấn
28
Từ thuật ngữ
IR quan tâm đến thuật ngữ VD: câu truy vấn
Wh t ki d f k li i C t Ri ?
29
What kind of monkeys live in Costa Rica?
Từ thuật ngữ
What kind of monkeys live in Costa
Rica?
30 từ?
(6)Cụm từ (các từ thường đi liền nhau)
kick the bucket directed graph iambic pentameter
O bi L d
31 Osama bin Laden
United Nations real estate quality control
international best practice … có ý nghĩa riêng, cách dịch riêng
Tìm cụm từ Sử dụng bigrams? Không tốt:
80871 of the 58841 in the
32
58841 in the 26430 to the …
15494 to be …
12622 from the 11428 New York 10007 he said
Giải quyết: bỏ từ dừng
Sử dụng bigrams?
Tốt hơn: lọc theo thẻ : A N, N N, N P N …
11487 New York 7261 United States
Tìm cụm từ
33
5412 Los Angeles 3301 last year …
1074 chief executive 1073 real estate …
Vẫn muốn bỏ “new companies”
Các từ thường xuất từđều thường xuất
Q át ất ủ từ từ ất ủ
Tìm cụm từ
34 Quan sát xác suất từ xác suất
cụm từ
p(new) p(companies) p(new companies)
thông tin tương hỗ = p(new) p(companies | new)
Thông tin tương hỗ
new _ ¬new _ TOTAL
_ companies 4,667
(“old companies”)
4,675
¬companies 15 820 14 287 181 14 303 001
data from Manning & Schütze textbook (14 million words of NY Times)
35 _ ¬companies 15,820 14,287,181
(“old machines”)
14,303,001 TOTAL 15,828 14,291,848 14,307,676 p(new companies) = p(new) p(companies) ?
MI = log2p(new companies) / p(new)p(companies)
= log2 (8/N) /((15828/N)(4675/N)) = log21.55 = 0.63 MI > nhỏ Với cụm từ thường xuất hiện, giá trị lớn
N
Phép thử mức độ quan trọng
new _ ¬new _ TOTAL
_ companies 583
(“old companies”)
584
_ ¬companies 1978 1,785,898 1,787,876
data from Manning & Schütze textbook (14 million words of NY Times)
36
_ p
(“old machines”)
TOTAL 1979 1,786,481 1,788,460 Dữ liệu thưa Giả sử chia tất giá trị cho
Giá trị MI có thay đổi khơng?
Không Nhưng khả cụm từ Điều xảy từ xuất cạnh nhau?
(7)Mức độ quan trọng nhị thức
new _ ¬new _ TOTAL
_ companies 4,667 4,675
_ ¬companies 15,820 14,287,181 14,303,001 TOTAL 15,828 14,291,848 14,307,676
data from Manning & Schütze textbook (14 million words of NY Times)
37
Giả sử có đồng xu dùng để sinh văn
Tiếp theo new, ta dùng xu A để định xem có từ companies khơng Tiếp theo ¬new, ta dùng xu B để định xem có từ companies
khơng
Ta thấy A tung 15828 lần lần có mặt ngửa B tung 14291848 lần 4667 lần có mặt ngửa
Câu hỏi: đồng xu có trọng số khác khơng? Nói cách khác, đồng xu hay đồng xu
Mức độ quan trọng nhị thức
new _ ¬new _ TOTAL
_ companies 4,667 4,675
_ ¬companies 15,820 14,287,181 14,303,001 TOTAL 15 828 14 291 848 14 307 676
data from Manning & Schütze textbook (14 million words of NY Times)
38 Giả thiết Null:cùng đồng xu
giả sử pnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 4675/14307676
pnull(data)= pnull(8 out of 15828)*pnull(4667 out of 14291848) = 00042
Giả thiết đồng xuất hiện: 2 đồng xu khác
giả sử pcoll(co’s | new) = 8/15828, pcoll(co’s | ¬new) = 4667/14291848
pcoll(data)= pcoll(8 out of 15828)*pcoll(4667 out of 14291848) = 00081
TOTAL 15,828 14,291,848 14,307,676
Do giả thiết đồng xuất gấp đơi liệu p(data) Ta xếp bigrams theo giá trị log pcoll(data)/pnull(data) nghĩa là, mức độ chắn “companies” sau “new”
Mức độ quan trọng nhị thức
new _ ¬new _ TOTAL
_ companies 583 584
_ ¬companies 1978 1,785,898 1,787,876
TOTAL 1979 786 481 788 460
data from Manning & Schütze textbook (14 million words of NY Times)
39 TOTAL 1979 1,786,481 1,788,460
Giả thiết Null:cùng đồng xu
giả sửpnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 584/1788460
pnull(data)= pnull(1 out of 1979)*pnull(583 out of 1786481) = 0056 Giả thiết đồng xuất hiện: 2 đồng xu khác
giả sử pcoll(co’s | new) = 1/1979, pcoll(co’s | ¬new) = 583/1786481
pcoll(data)= pcoll(1 out of 1979)*pcoll(583 out of 1786418) = 0061
Giả thiết đồng xuất tăng p(data), nhỏ Nếu khơng có nhiều liệu, mơ hình đồng xu không thuyết phục
Thông tin tương hỗ có giá trị, dựa liệu Do tin giả thiết Null trùng hợp ngẫu nhiên
Phân tích ngữ nghĩa tiềm ẩn
Mỗi tài liệu coi vector có độ dài k
40 (0, 3, 3, 1, 0, 7, 1, 0)
1 tài liệu
Phân tích ngữ nghĩa tiềm ẩn
Mỗi tài liệu biểu diễn thành điểm không gian vector
Cácđiểm không gian thu gọn Cácđiểm không gian k chiều
41
Các điểm không gian thu gọn
41
Các điểm không gian k chiều
Phân tích ngữ nghĩa tiềm ẩn
Giảm điểm: điểm thực chuyển không gian chiều ∃một lựa chọn tốt cho chiều - biểu diễn cách tốt
đặc tính liệu
Tìm nhờ sử dụng đại số tuyến tính “Singular Value Decomposition”
(SVD)
Cácđiểm không gian thu gọn Cácđiểm không gian k chiều
42
Các điểm không gian thu gọn
42