Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 5(tt) - Lê Thanh Hương

7 13 0
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 5(tt) - Lê Thanh Hương

Đang tải... (xem toàn văn)

Thông tin tài liệu

[r]

(1)

Nghĩa t vng phân

gii nhp nhng t

Lê Thanh Hương

1

g Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn

Tđồng âm

z Từđồng âm (Homonymy): từ trùng hình thức ngữ âmnhưng khácnhau

nghĩa

z Từđồng âm, đồng tự (Homograph) : từ với cách viết có nghĩa khác Ví dụ:

d di i hi bi d

zdove - dive into water, white bird zsaw

z Từđồng âm, không đồng tự (Homophone): từ có cách viết khác có âm Ví dụ:

zsee, sea; meat, meet

2

Phân loi tđồng âm tiếng Vit

z Đồng âm từ với từ, gồm:

z Đồng âm từ vựng: Tất từđều thuộc từ loại Ví dụ:

z đường1(đắp đường) -đường2(đường phèn)

z đường kính1(đường đểăn) -đường kính2(…của đường trịn) z cất1(cất vó) -cất2(cất tiền vào tủ) -cất3(cất hàng) -cất4(cất rượu)

z Đồng âm từ vựng-ngữ pháp: Các từ nhóm đồng âm với

khác từ loại Ví dụ:

z chỉ1(cuộn chỉ) -chỉ2(chỉ tay năm ngón) -chỉ3(chỉ cịn có dăm đồng) z câu1(nói vài câu) -câu2(rau câu) -câu3(chim câu) -câu4(câu cá)

z Đồng âm từ với tiếng: đơn vị khác cấp độ; kích

thước ngữ âm chúng khơng vượt q tiếng Ví dụ:

z Con trai Văn Cốclên dốc bắn , đứng lăm lecười khanh khách Con gái

Bát Chàngbán hàng thịt ếchngồi châu chẫunói ương ương

3

T đa nghĩa, đồng nghĩa

z Từđa nghĩa (Polysemy): từ nhiều nghĩa, biểu thị đặc điểm, thuộc tính khác đối tượng, biểu thị đối tượng khác thực Ví dụ

z đichỉ việc dịch chuyển hai chi

ột ời đóđã hết người chết

z Đồng nghĩa (Synonymy): từ tương

đồng với nghĩa, khác âm Ví dụ

z cố, gắng z car, automobile

4

Nghĩa t vng

z Ngữ nghĩa nghiên cứu ý nghĩa phát biểu dạng

ngôn ngữ

z Nghĩa từ vựng (Lexical semantics) nghiên cứu:

z (quan hệ từ vựng) liên hệ mặt ngữ nghĩa từ z (ràng buộc lựa chọn) cấu trúc liên hệ ngữ nghĩa bên

trong từ

z bao gồm lý thuyết phân loại phân rã nghĩa từ,

giống khác cấu trúc từ vựng – ngữ nghĩa ngôn ngữ, quan hệ nghĩa từ với cú pháp ngữ

nghĩa câu

5

Ràng buc v la chn: Mã hóa ng nghĩa văn phm

zVị từ biểu diễn ràng buộc qua tham số

z read (human subject, textual object) z eat (animate subject)

z kill (animate object) z kill (animate object)

zSử dụng vị từ để phân giải nhập nhằng zVí dụ "dish":

z đĩa đểăn z ăn

z phương tiện liên lạc

(2)

Ví d v t “dish”

z Not unexpectedly, wives, whether working or

non-working, did by far the most - about 80% of the shopping, laundry and cooking, and about two-thirds of

housecleaning, washingdishes, child care, and family paper work

p p

z In her tiny kitchen at home, Ms Chen works efficiently,

stir-frying several simple dishes, including braised pig's ears and chicken livers with green peppers

z Installation of satellite dishes, TVs and videocassette

equipment will cost the company about $20,000 per school, Mr Whittle said

7

Ràng buc la chn

zVPPNC có thểđưa vào ràng buộc lựa chọn

z tạo ontology (ví dụ, người, động vật) z ràng buộc luật

z vd VP →VgiếtNPđộng vật

z ràng buộc dịch nghĩa

z vd ăn([sinh vật sống], [thức ăn])

zNhược điểm: Cách viết không tổng quát

z không đủ thông tin

z không sử dụng với trường hợp không liệt kê văn phạm

8

Khai thác quan h t vng

Xác định quan hệ từ vựng từ đoạn sau

Tôi yêu y động vg t ni nhà Tơi g đặc bit thích mèo chúng lồi động vt rt độc lp Ngược li, chó lm nhu cu Ví d, bn phi dt chúng đi do hàng ngày

9

Khai thác quan h t vng z Từ điển đồng nghĩa:

z gồm từđồng nghĩa (Synonyms) trái nghĩa (Antonyms)

z Wordnet:

z Từđồng nghĩa trái nghĩa z Từ lớp cha từ lớp z …

10

Nhp nhng ràng buc la chn

z Nhập nhằng:

z Các vị từ khác ứng với nghĩa khác

zwash the dishes (theme : washable-thing) z Tham số giải nhập nhằng cho vị từ

serve vegetarian dishes (theme : food-type)

Phân tích ngữnghĩa

z Phân tích ngữ nghĩa:

z Luật có gắn thơng tin ngữ nghĩa sử dụng với câu phân tích cú pháp

“I wanna eat somewhere close to CSSE”

Ngoại động từ: VỈeat <theme> {theme:food-type} (VP > V NP)

Nội động từ: VỈeat <no-theme> (VP > V)

z Xung đột ràng buộc lựa chọn: loại trừ cú pháp

11

z Vấn đề:

z Đôi ràng buộc lựa chọn không đủ chặt (khi từ

có nhiều nghĩa)

z Đơi ràng buộc chặt – vị từ sử dụng

phép ẩn dụ Vd, I’ll eat my hat!

p p ụ , y

(3)

CSDL từ vựng

z Lấy ý tưởng từ lý thuyết tâm lý ngôn ngữ khả

nhớ từ vựng người

Xâ d ột khổ lồ từ hệtừ

WordNet: Gii thiu

z Xây dựng mạng khổng lồ từ vựng quan hệ từ

vựng

z Wordnet tiếng Anh

z4 lớp: danh từ, động từ, tính từ, trạng từ

zDanh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; Trạng từ: 6,000

13

CSDL từ vựng

z Wordnet cho ngôn ngữ khác [www.globalwordnet.org]

WordNet: Gii thiu

zCó wordnet cho ngôn ngữ: Tây Ban Nha, Tiệp, Hà Lan, Pháp, Đức, Ý, BồĐào Nha, Thụy Điển, Basque, Estonian

zWordnets làm cho tiếng: Bulgary, Đan mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian, Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ

Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran

14

Tp tđồng nghĩa

Synonym Sets - Synsets z Từ có nhập nhằng

z Các nút Wordnet biểu diễn tập từđồng nghĩa “synonym sets”, synsets Ví dụ:

z Fool: người dễbịlợi dụng z Fool: người dễ bị lợi dụng

z {chump, fish, fool, gull, mark, patsy, fall guy, sucker, schlemiel, shlemiel, soft touch, mug}

z Synset = tập khái niệm

15

Các quan h khác WordNet

•Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) -hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ phận meronymy (part_of) holonymy (has_part)

•Mỗi nghĩa từđược biểu diễn số synset

http://wordnet.princeton.edu/ 16

Phân gii nhp nhng s dng quan h t vng

Supplement Vitamin_Pill

Publication Dietary

Pill

SENSE OF WORD KIND-OF (HYPONYMY) HAS-PART (HOLONYMY) PART-OF (MERONYMY)

Nutriment Nutriment

Medicine Textual

Matter

WordNet Similarity Metrics:

(4)

Đo quan h t vng

z Đếm số cạnh/đỉnh đồ thị:

z khoảng cách từ tỉ lệ nghịch với quan hệ ngữ nghĩa

giữa chúng

z Nếu từ có nhiều đường đi, chọn đường ngắn

số cạnh = số nút =

19

Cp t gn hơn? z cá heo cá?

z cá cá hồi?

WordNet Similarity Metrics:

http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi

20

21 22

Phân gii nhp nhng đếm cnh

zwhale#n#1

z người lớn (về kích thước phẩm chất)

zfish#n#3

z (thiên văn học) người sinh mặt trời Pisces

sao Pisces

person

Pisces (fish) Giant (whale)

tall/large person

Path Length = 4

23

Phân gii nhp nhng đếm cnh vertebrate

fish aquatic vertebrate mammal

placental aquatic

whale animal

cetacean

Path length = 8

(5)

Nhược đim ca WordNet tính quan h ng nghĩa

z Độđo quan hệ ngữ nghĩa WordNet dựa giả

thiết sau:

z Mọi cạnh đồ thị có độ dài z Các nhánh gđồ thị có gđộđậm đặc z Tồn tất quan hệ ngoại động từ

¾ khơng đáng tin cậy

25

Cách tiếp cn da tđin z Các từđiển điện tử (Lesk ‘86)

z Cho biết ý nghĩa từ ngữ cảnh cụ thể nội dung (vd., I’ve often caught bass while out at sea) z So sánh chồng chéo cg định nghg ĩa nghg ĩa

của từ (bass2: a type of fish that lives in the sea)

z Chọn nghĩa trùng nhiều

z Hạn chế: đường dẫn đến từ ngắn Ỉmở rộng cho từ liên quan

26

Cách tiếp cn hc máy

z Học việc phân loại để gán từ với nghĩa

z Tích lũy tri thức từ tập ngữ liệu có khơng gán nhãn z Con người can thiệp vào tập ngữ liệu gán nhãn lựa

ử ấ

chọn tập đặc trưng sử dụng việc huấn luyện

z Vào: vectơđặc trưng

z đích (từ cần phân giải nhập nhằng)

z nội dung (các đặc trưng dùng để tiên đoán nghĩa

đúng)

z Ra: luật phân loại cho văn

27

Các đặc trưng s dng WSD

z Các thẻ POS từ từ lân cận z Các từ lân cận (có thể lấy gốc từ không) z Dấu chấm, viết hoa, định dạng

z PTCP bộộ php ậận để xác địịnh vai trò ngg p pữ pháp quan q

hệ chúng

z Các thông tin vềđồng xuất hiện:

z Từ từ lân cận có thường đồng xuất không

z Đồng xuất từ láng giềng

z Ví dụ: seacó thường xun xuất với bass khơng

28

Ví d

Tôi ăn cơm với cá

z DT ĐgT DT GT DT

z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT với) (DT cá)))))

Em bé thích ăn kẹẹo thơi

z DT TT TT ĐgT DT PT

z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT

ăn) (DT kẹo)))) (PT thơi)))) Nó ăn nhiều hoa hồng q

z ĐaT ĐgT TT DT TT

z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa hồng)) (TT quá))))

z Tôi tên Hoa

29

Các kiu phân loi

z Nạve Bayes: Nghĩa tốt nghĩa có khả xảy

nhất với đầu vào cho trước

z ŝ= p(s|V),

z s nghĩa V vector đầu vào

đặc trưng

) ( ) ( ) | ( max arg V p s p s V p S s∈ max arg S s

đặc trưng

z Chỉ có liệu có thơng tin vector kết hợp với nghĩa z Giả sử đặc trưng độc lập, p(V|s) tích xác suất

đặc trưng

z p(V) giống với ŝ (không ảnh hưởng đến xếp hạng

cuối cùng)

) | ( ) |

( n s

(6)

Các kiu phân loi

zNaïve Bayes: : Nghĩa tốt nghĩa có khả

năng xảy với đầu vào cho trước z Khi

) | ( ) ( max arg

ˆ ps n pv js

s= ∏

z P(s) xác suất tiền nghiệm nghĩa = xác suất nghĩa tập liệu gán nhãn z P(v,s) = đếm số lần xuất bassđi với sea

) | 1 ( ) ( max arg s j v j p s p S s s ∏ = ∈ = 31

WSD IR

z IR (Information Retrieval) : tìm kiếm thơng tin z Motivation

z Đồng âm = Bank (ngân hàng, sông)

z Đa nghĩa = Bat ((câu lạc chơi cricket), (cây vợt nhỏ có tay cầm dàiđểchơi bóng ))

cầm dài để chơi bóng ))

z Đồng nghĩa = doctor, doc, physician, MD, medico

z Những vấn đề ảnh hưởng đến IR nào?

z Đồng âm đa nghĩa có xu hướng giảm độ xác

z Đồng nghĩa: giảm độ phủ

32

2 ng dng ca WSD IR

z Tìm kiếm dựa câu truy vấn (Voorhees, 1998):

z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu

query bổ sung vào từ có nghĩa rộng

z Sử dụng WSD đểđánh số khái niệm: phân giải nhập nhằng tập tài

liệu xây dựng số cho tập synset thay cho tập từ gốc

z Mơ hình khơng gian vector: tìm độ tương đồng cosin câu truy vấn ỗ

và vector tài liệu

z Đánh số khái niệm

z Trong thí nghiệm, vector dựa nghĩa thực vector dựa từ gốc

z Lý do: lỗi phân giải nhập nhằng ztrong thu thập văn bản, zcác câu query ngắn thiếu nội dung

33

2 ng dng ca WSD IR

z Mở rộng query

z Không khả quan

z Nhưng, phân giải nhập nhằng mở rộng truy vấn thủ công đem lại kết tốt

z Ví dụ: z Ví dụ:

z furniture: table, chair, board, refectory(specialisations) z “Chỉ có vài từ vựng liên quan có ích việc

mở rộng câu truy vấn, đường dẫn lớp cha từ WordNet lúc đem lại mở rộng truy vấn cách hữu ích

34

Độ xác ca WSD IR

z Tập liệu đánh giá WSD: SensEval SemCor z Cách khác để tạo liệu gán nhãn: Pseudowords

z Lấy từ (ngẫu nhiên) có từ loại, thay từ

nhân tạo Ví dụ, 'door' 'banana' thay tập ngữ

liệu từ'donana' liệu từ donana

z Độ xác WSD: xác định trường hợp

donana cụ thể 'door‘ hay 'banana' (Yarowsky, 1993)

z (Sanderson, 1997) công bố: thêm nhập nhằng vào

query kết có ảnh hưởng đến độ xác việc tìm kiếm so với ảnh hưởng lỗi phân giải nhập nhằng tập kết

z có lỗi phân giải nhập nhằng mức thấp ( < 10%) tốt

phiên IR đơn giản dựa từ gốc 35

Độ xác ca WSD IR

z Tại đa nghĩa/đồng âm vấn đề lớn ta

nghĩ:

z Tác động sựđồng xuất từ truy vấn: từ

câu truy vấn tự phân giải nhập nhằng S hâ bố ữ hĩ d h iề ứ d

z Sự phân bố ngữ nghĩa: áp dụng cho miền ứng dụng

cụ thể

(7)

Độ xác ca WSD IR z Từđồng nghĩa có ảnh hưởng lớn hơn:

z Gonzalo et al (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với thẻ nghĩa WordNet) cho thấy phân giải nhập nhằng có độ cx = 100%

z Đánh chỉsốnghĩa (vd synset number) cóđộcx IR = 62% z Đánh số nghĩa (vd synset number) có độ cx IR = 62% z Đánh số nghĩa từ (vd canine1) có độ cx IR = 53.2%

z Đánh số từ gốc có độ cx IR = 48%

z Gonzalo et al cho thấy độ cx tối thiểu 90% với WSD cho IR cao Gần 60% từ giả không hoạt động giơng

từ có nhập nhằng thật

Ngày đăng: 09/03/2021, 06:35

Tài liệu cùng người dùng

Tài liệu liên quan