1. Trang chủ
  2. » Trung học cơ sở - phổ thông

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 8 - Lê Thanh Hương

7 23 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nhưng khả năng là cụm từ của nó ít hơn.[r]

(1)

Phản hồi thông tin

1

Lê Thanh Hương Bộ môn Hệ thống thông tin

Viện CNTT&TT

Phản hồi thông tin

„Phản hồi thông tin (Information

Retrieval - IR) việc tìm tài liệu phi cấu trúc(thường văn bản) thỏađiều

cấu trúc(thường văn bản) thỏa điều kiện tìm kiếm từ một kho dữ liệu lớn (thường được lưu máy tính)

2

Các hệ thống dựa từ khóa

„ tập từ khóa có khả xuất tài liệu (vd., JFK, assasination)

„ Các phép toán AND OR:

3

AND(Kennedy, conspiracy, OR(assasination, murder)) or

AND(OR(Kennedy,JFK), OR(conspiracy, plot), OR(assasination,assasinated,assasinate,murder,

murdered,kill,killed)

Các vấn đề

„ Đa nghĩa: từ - n nghĩa „ Đồng nghĩa: n từ - nghĩa

4 „ Kích thước: hệ thống IR phải có khả

năng xử lý tập ngữ liệu cỡ ~Gb

„ Độ phủ: Các hệ thống IR phải có khả xử lý câu truy vấn thuộc lĩnh vực

Lấy từ gốc

„ Gắn thuật ngữ câu truy vấn với biến thể từ (cùng gốc từ) tài liệu „ VD: assassination Ỉassassinat

Assassination Assassinations

5

Assassination Assassinations Assassinate Assassinated Assassinating

„ Vấn đề:

„Lỗi: organization - organ past - paste „Bỏ qua: analysis - analyzes matrices - matrix

Từ dừng

„ Là từ thường xuất hầu hết tài liệu Các từ không chứa nhiều thông tin

6 „ Khơng đưa vào file nghịch đảo Ỉgiảm

kích thước file

(2)

Nhược điểm của việc bỏ từ dừng

„ Có thể bỏ tên người “The”

„ Các từ dừng thành phần quan trọng đoạn Ví dụ, câu nói Shakepeare: “to be or not to be”

7 to be or not to be”

„ Một số từ dừng (vd., giới từ) cung cấp thông tin quan trọng mối quan hệ

„ Bộ nhớ ngày rẻ Ỉtiết kiệm nhớ khơng cịn vấn đề quan trọng

trước

Từ chức năng từ nội dung

„ Muốn loại bỏ từ chức giảm ảnh hưởng

„ Xác định từ nội dung:

8

„Nó có xuất thường xun khơng? „Nó có xuất số tài liệu khơng? „Tần suất có thay đổi tài liệu khơng?

File nghịch đảo (Inverted

Files)

„ Để biểu diễn tài liệu kho ngữ liệu „ Là bảng từ với danh sách tài liệu

chứa từ

„ Assassination: (doc1 doc4 doc35 )

9

„ Assassination: (doc1, doc4, doc35,…) „ Murder: (doc3, doc7, doc36,…) „ Kennedy: (doc24, doc27, doc29,…) „ Conspiracy: (doc3, doc55, doc90,…)

„ Thông tin bổ sung:

„ vị trí từ tài liệu

„ thông tin xấp xỉ: để so khớp so gần

đoạn

Chỉ số nghịch đảo

„ Với thuật ngữ t, lưu danh sách tài liệu chứa t

„ Định nghĩa tài liệu docID, số thứ tự

Sec 1.2

tài liệu

10 Brutus

Calpurnia

Caesar 16 57 132 11 31 45 173

2 31

Vấn đề xảy từCaesarđược thêm vào tài liệu 14? 174

54 101

Chỉ số nghịch đảo

„ Ta cần danh sách với độ dài thay đổi

„ Có thể sử dụng linked list mảng có độ dài thay đổi

Sec 1.2

11

Từđiển Sắp theo docID

Brutus

Calpurnia

Caesar 16 57 132 11 31 45 173

2 31

174

54 101

Tokenizer

Xâu từ

Xây dựng chỉ số nghịch đảo

Các tài liệu cần

đánh số

Friends, Romans, countrymen

Sec 1.2

Xâu từ Friends Romans Countrymen

Linguistic modules

Các từđã biến đổi friend roman countryman

Indexer

Inverted index

friend roman countryman

2

2

13 16

(3)

Bước đánh chỉ số: Chuỗi từ „ Chuỗi cặp

(từđã biến đổi, Document ID)

Sec 1.2

I did enact Julius Caesar I was killed

i' the Capitol; Brutus killed me

Doc

So let it be with Caesar The noble Brutus hath told you Caesar was ambitious

Doc

Bước đánh chỉ số: Sắp xếp

„ Sắp theo từ, theo docID

ố ố

Sec 1.2

Bước đánh số cốt lõi

Bước đánh chỉ số: Từđiển

danh sách

„ Nhiều mục từ tài liệu

được trộn lẫn

Sec 1.2

„ Đưa vào từ

điển danh sách „ Thêm số lần xuất

hiện tài liệu

Lưu trữ

Thuật ngữ sốlần

Sec 1.2

Danh sách docIDs

Con trỏ số lần

xuất

Xử lý truy vấn: AND

„ Xét câu truy vấn: BrutusANDCaesar „ Định vị Brutustrong từđiển;

„Lấy danh sách

Sec 1.3

y

„ Định vịCaesartrong từđiển; „Lấy danh sách „ Trộn danh sách

17 128

34 16 32 64 13 21

Brutus Caesar

Phép trộn

„Duyệt qua danh sách, thời gian tỉ lệ

với số nút

Sec 1.3

18 34 128 16 32 64 13 21

128 34 16 32 64 13 21

Brutus Caesar

Nếu danh sách có độ dài x y, phép trộn có độ

phức tạp O(x+y)

(4)

Trộn danh sách

19

Câu truy vấn logic: so khớp

„ Mơ hình phản hồi Boolean có thể trả lời

câu truy vấn ở dạng biểu thức Boolean

„ Câu truy vấn sửdụngAND, ORNOTđể Sec 1.3

Câu truy vấn sử dụng AND, ORvà NOTđể

kết nối thuật ngữ

„Coi tài liệu tập từ

„Chính xác: tài liệu thỏa điều kiện không „ Đây mơ hình IR đơn giản

20

Câu truy vấn logic: phép trộn tổng quát hơn

„ Bài tập: Thực phép trộn cho câu

truy vấn:

BrutusAND NOTCaesar

Sec 1.3

BrutusAND NOTCaesar BrutusOR NOTCaesar

Thời gian thực hiện O(x+y)?

21

Phép trộn

Thực hiện phép trộn cho câu truy vấn:

(BrutusORCaesar)AND NOT

Sec 1.3

(BrutusOR Caesar) AND NOT (Antony OR Cleopatra)

„Có thể ln thực hiện thời gian

tuyến tính?

„Có thể làm tốt hơn khơng?

22

Tối ưu hóa truy vấn

„ Đâu trật tự tốt để xử lý truy vấn? „ Xét câu truy vấn phép AND n thuật ngữ „ Với thuật ngữ, lấy danh sách , sau

Sec 1.3

ậ g , y ,

đó làm phép AND

Brutus Caesar Calpurnia

1 16 21 34

2 16 32 64 128

13 16

Query:BrutusANDCalpurniaANDCaesar23

Tối ưu hóa truy vấn – Ví dụ

„ Xử lý theo trật tự tăng tần suất:

„ khởi đầu với tập nhỏ, sau tiếp tục loại bỏ

Sec 1.3

24

Thực câu truy vấn (CalpurniaANDBrutus)AND Caesar.

Brutus Caesar Calpurnia

1 16 21 34

2 16 32 64 128

(5)

Tối ưu hóa truy vấn

„ vd., (maddingOR crowd) AND (ignoble

OR strife)

„ Lấy tần suất xuất cho thuật ngữ Sec 1.3

Lấy tần suất xuất cho thuật ngữ

„ Đánh giá kích thước câu lệnh OR

bằng cách tính tổng tần suất

„ Xử lý theo trật tự tăng kích thước

danh sách phép OR

25

Bài tập

„ Đưa trình tự xử lý truy vấn cho

Term Freq

eyes 213312

(tangerineORtrees)AND y

kaleidoscope 87009 marmalade 107913

skies 271658

tangerine 46653

trees 316812

26

(tangerine ORtrees) AND

(marmalade ORskies) AND (kaleidoscope OReyes)

Bài tập

„Cho câu truy vấn friendsAND romans AND (NOT countrymen), ta sử dụng

tần suất củacountrymennhưthếnào?

tần suất của countrymen như thế nào? „Mở rộng phép trộn cho câu truy vấn

ngẫu nhiên Có thểđảm bảo thực hiện trong thời gian tuyến tính với tổng kích thước danh sách khơng

27

Các kỹ thuật nâng cao

„ Cụm từ: Stanford University „ Xấp xỉ: Tìm GatesNEAR Microsoft.

„ Cần đánh số để lấy thơng tin vị trí tài liệu „ Vịtrí tài liệu: Tìm tài liệu có (author = „ Vị trí tài liệu: Tìm tài liệu có (author

Ullman)AND(text contains automata)

„ Từ khóa tìm kiếm xuất tài liệu nhiều tốt

„ Cần thông tin tần suất thuật ngữ tài liệu „ Cần độđo xấp xỉ câu truy vấn với tài liệu

„ Cần định trả tài liệu thỏa câu truy vấn hay nhóm tài liệu phủ khía cạnh khác câu truy vấn

28

Từ thuật ngữ

„IR quan tâm đến thuật ngữ „VD: câu truy vấn

Wh t ki d f k li i C t Ri ?

29

„What kind of monkeys live in Costa Rica?

Từ thuật ngữ

„ What kind of monkeys live in Costa

Rica?

30 „ từ?

(6)

Cụm từ (các từ thường đi liền nhau)

„ kick the bucket „ directed graph „ iambic pentameter

O bi L d

31 „ Osama bin Laden

„ United Nations „ real estate „ quality control

„ international best practice „ … có ý nghĩa riêng, cách dịch riêng

Tìm cụm từ „ Sử dụng bigrams? „ Không tốt:

„ 80871 of the „ 58841 in the

32

„ 58841 in the „ 26430 to the „ …

„ 15494 to be „ …

„ 12622 from the „ 11428 New York „ 10007 he said

„ Giải quyết: bỏ từ dừng

„ Sử dụng bigrams?

„ Tốt hơn: lọc theo thẻ : A N, N N, N P N …

„11487 New York „7261 United States

Tìm cụm từ

33

„5412 Los Angeles „3301 last year „…

„1074 chief executive „1073 real estate „…

„ Vẫn muốn bỏ “new companies”

„ Các từ thường xuất từđều thường xuất

Q át ất ủ từ từ ất ủ

Tìm cụm từ

34 „ Quan sát xác suất từ xác suất

cụm từ

„p(new) p(companies) „p(new companies)

„thông tin tương hỗ = p(new) p(companies | new)

Thông tin tương hỗ

new _ ¬new _ TOTAL

_ companies 4,667

(“old companies”)

4,675

¬companies 15 820 14 287 181 14 303 001

data from Manning & Schütze textbook (14 million words of NY Times)

35 _ ¬companies 15,820 14,287,181

(“old machines”)

14,303,001 TOTAL 15,828 14,291,848 14,307,676 „ p(new companies) = p(new) p(companies) ?

„ MI = log2p(new companies) / p(new)p(companies)

= log2 (8/N) /((15828/N)(4675/N)) = log21.55 = 0.63 „ MI > nhỏ Với cụm từ thường xuất hiện, giá trị lớn

N

Phép thử mức độ quan trọng

new _ ¬new _ TOTAL

_ companies 583

(“old companies”)

584

_ ¬companies 1978 1,785,898 1,787,876

data from Manning & Schütze textbook (14 million words of NY Times)

36

_ p

(“old machines”)

TOTAL 1979 1,786,481 1,788,460 „ Dữ liệu thưa Giả sử chia tất giá trị cho

„ Giá trị MI có thay đổi khơng?

„ Không Nhưng khả cụm từ „ Điều xảy từ xuất cạnh nhau?

(7)

Mức độ quan trọng nhị thức

new _ ¬new _ TOTAL

_ companies 4,667 4,675

_ ¬companies 15,820 14,287,181 14,303,001 TOTAL 15,828 14,291,848 14,307,676

data from Manning & Schütze textbook (14 million words of NY Times)

37

„ Giả sử có đồng xu dùng để sinh văn

„ Tiếp theo new, ta dùng xu A để định xem có từ companies khơng „ Tiếp theo ¬new, ta dùng xu B để định xem có từ companies

khơng

„ Ta thấy A tung 15828 lần lần có mặt ngửa „ B tung 14291848 lần 4667 lần có mặt ngửa

„ Câu hỏi: đồng xu có trọng số khác khơng? Nói cách khác, đồng xu hay đồng xu

Mức độ quan trọng nhị thức

new _ ¬new _ TOTAL

_ companies 4,667 4,675

_ ¬companies 15,820 14,287,181 14,303,001 TOTAL 15 828 14 291 848 14 307 676

data from Manning & Schütze textbook (14 million words of NY Times)

38 ƒ Giả thiết Null:cùng đồng xu

ƒ giả sử pnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 4675/14307676

ƒ pnull(data)= pnull(8 out of 15828)*pnull(4667 out of 14291848) = 00042

ƒ Giả thiết đồng xuất hiện: 2 đồng xu khác

ƒ giả sử pcoll(co’s | new) = 8/15828, pcoll(co’s | ¬new) = 4667/14291848

ƒ pcoll(data)= pcoll(8 out of 15828)*pcoll(4667 out of 14291848) = 00081

TOTAL 15,828 14,291,848 14,307,676

„ Do giả thiết đồng xuất gấp đơi liệu p(data) „ Ta xếp bigrams theo giá trị log pcoll(data)/pnull(data) „ nghĩa là, mức độ chắn “companies” sau “new”

Mức độ quan trọng nhị thức

new _ ¬new _ TOTAL

_ companies 583 584

_ ¬companies 1978 1,785,898 1,787,876

TOTAL 1979 786 481 788 460

data from Manning & Schütze textbook (14 million words of NY Times)

39 TOTAL 1979 1,786,481 1,788,460

ƒ Giả thiết Null:cùng đồng xu

„ giả sửpnull(co’s | new) = pnull(co’s | ¬new) = pnull(co’s) = 584/1788460

„ pnull(data)= pnull(1 out of 1979)*pnull(583 out of 1786481) = 0056 ƒ Giả thiết đồng xuất hiện: 2 đồng xu khác

„ giả sử pcoll(co’s | new) = 1/1979, pcoll(co’s | ¬new) = 583/1786481

„ pcoll(data)= pcoll(1 out of 1979)*pcoll(583 out of 1786418) = 0061

ƒ Giả thiết đồng xuất tăng p(data), nhỏ ƒ Nếu khơng có nhiều liệu, mơ hình đồng xu không thuyết phục

ƒ Thông tin tương hỗ có giá trị, dựa liệu Do tin giả thiết Null trùng hợp ngẫu nhiên

Phân tích ngữ nghĩa tiềm ẩn

„Mỗi tài liệu coi vector có độ dài k

40 (0, 3, 3, 1, 0, 7, 1, 0)

1 tài liệu

Phân tích ngữ nghĩa tiềm ẩn

„ Mỗi tài liệu biểu diễn thành điểm không gian vector

Cácđiểm không gian thu gọn Cácđiểm không gian k chiều

41

Các điểm không gian thu gọn

41

Các điểm không gian k chiều

Phân tích ngữ nghĩa tiềm ẩn

„ Giảm điểm: điểm thực chuyển không gian chiều „ ∃một lựa chọn tốt cho chiều - biểu diễn cách tốt

đặc tính liệu

„ Tìm nhờ sử dụng đại số tuyến tính “Singular Value Decomposition”

(SVD)

Cácđiểm không gian thu gọn Cácđiểm không gian k chiều

42

Các điểm không gian thu gọn

42

Ngày đăng: 09/03/2021, 05:48

Xem thêm: