[r]
(1)Nghĩa từ vựng phân
giải nhập nhằng từ
Lê Thanh Hương
1
g Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn
Từđồng âm
z Từđồng âm (Homonymy): từ trùng hình thức ngữ âmnhưng khácnhau
nghĩa
z Từđồng âm, đồng tự (Homograph) : từ với cách viết có nghĩa khác Ví dụ:
d di i hi bi d
zdove - dive into water, white bird zsaw
z Từđồng âm, không đồng tự (Homophone): từ có cách viết khác có âm Ví dụ:
zsee, sea; meat, meet
2
Phân loại từđồng âm tiếng Việt
z Đồng âm từ với từ, gồm:
z Đồng âm từ vựng: Tất từđều thuộc từ loại Ví dụ:
z đường1(đắp đường) -đường2(đường phèn)
z đường kính1(đường đểăn) -đường kính2(…của đường trịn) z cất1(cất vó) -cất2(cất tiền vào tủ) -cất3(cất hàng) -cất4(cất rượu)
ồ
z Đồng âm từ vựng-ngữ pháp: Các từ nhóm đồng âm với
khác từ loại Ví dụ:
z chỉ1(cuộn chỉ) -chỉ2(chỉ tay năm ngón) -chỉ3(chỉ cịn có dăm đồng) z câu1(nói vài câu) -câu2(rau câu) -câu3(chim câu) -câu4(câu cá)
z Đồng âm từ với tiếng: đơn vị khác cấp độ; kích
thước ngữ âm chúng khơng vượt q tiếng Ví dụ:
z Con trai Văn Cốclên dốc bắn cò, đứng lăm lecười khanh khách Con gái
Bát Chàngbán hàng thịt ếchngồi châu chẫunói ương ương
3
Từ đa nghĩa, đồng nghĩa
z Từđa nghĩa (Polysemy): từ nhiều nghĩa, biểu thị đặc điểm, thuộc tính khác đối tượng, biểu thị đối tượng khác thực Ví dụ
z đichỉ việc dịch chuyển hai chi
ột ời đóđã hết người chết
z Đồng nghĩa (Synonymy): từ tương
đồng với nghĩa, khác âm Ví dụ
z cố, gắng z car, automobile
4
Nghĩa từ vựng
z Ngữ nghĩa nghiên cứu ý nghĩa phát biểu dạng
ngôn ngữ
z Nghĩa từ vựng (Lexical semantics) nghiên cứu:
z (quan hệ từ vựng) liên hệ mặt ngữ nghĩa từ z (ràng buộc lựa chọn) cấu trúc liên hệ ngữ nghĩa bên
trong từ
z bao gồm lý thuyết phân loại phân rã nghĩa từ,
giống khác cấu trúc từ vựng – ngữ nghĩa ngôn ngữ, quan hệ nghĩa từ với cú pháp ngữ
nghĩa câu
5
Ràng buộc về lựa chọn: Mã hóa ngữ nghĩa văn phạm
zVị từ biểu diễn ràng buộc qua tham số
z read (human subject, textual object) z eat (animate subject)
z kill (animate object) z kill (animate object)
zSử dụng vị từ để phân giải nhập nhằng zVí dụ "dish":
z đĩa đểăn z ăn
z phương tiện liên lạc
(2)Ví dụ về từ “dish”
z Not unexpectedly, wives, whether working or
non-working, did by far the most - about 80% of the shopping, laundry and cooking, and about two-thirds of
housecleaning, washingdishes, child care, and family paper work
p p
z In her tiny kitchen at home, Ms Chen works efficiently,
stir-frying several simple dishes, including braised pig's ears and chicken livers with green peppers
z Installation of satellite dishes, TVs and videocassette
equipment will cost the company about $20,000 per school, Mr Whittle said
7
Ràng buộc lựa chọn
zVPPNC có thểđưa vào ràng buộc lựa chọn
z tạo ontology (ví dụ, người, động vật) z ràng buộc luật
z vd VP →VgiếtNPđộng vật
z ràng buộc dịch nghĩa
z vd ăn([sinh vật sống], [thức ăn])
zNhược điểm: Cách viết không tổng quát
z không đủ thông tin
z không sử dụng với trường hợp không liệt kê văn phạm
8
Khai thác quan hệ từ vựng
Xác định quan hệ từ vựng từ đoạn sau
Tôi yêu y độộng vg ậật ni nhà Tơi g đặặc biệệt thích mèo chúng lồi động vật rất độc lập Ngược lại, chó lắm nhu cầu Ví dụ, bạn phải dắt chúng đi dạo hàng ngày
9
Khai thác quan hệ từ vựng z Từ điển đồng nghĩa:
z gồm từđồng nghĩa (Synonyms) trái nghĩa (Antonyms)
z Wordnet:
z Từđồng nghĩa trái nghĩa z Từ lớp cha từ lớp z …
10
Nhập nhằng ràng buộc lựa chọn
z Nhập nhằng:
z Các vị từ khác ứng với nghĩa khác
zwash the dishes (theme : washable-thing) z Tham số giải nhập nhằng cho vị từ
serve vegetarian dishes (theme : food-type)
Phân tích ngữnghĩa
z Phân tích ngữ nghĩa:
z Luật có gắn thơng tin ngữ nghĩa sử dụng với câu phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoại động từ: VỈeat <theme> {theme:food-type} (VP > V NP)
Nội động từ: VỈeat <no-theme> (VP > V)
z Xung đột ràng buộc lựa chọn: loại trừ cú pháp
11
z Vấn đề:
z Đôi ràng buộc lựa chọn không đủ chặt (khi từ
có nhiều nghĩa)
z Đơi ràng buộc chặt – vị từ sử dụng
phép ẩn dụ Vd, I’ll eat my hat!
p p ụ , y
(3)CSDL từ vựng
z Lấy ý tưởng từ lý thuyết tâm lý ngôn ngữ khả
nhớ từ vựng người
Xâ d ột khổ lồ từ hệtừ
WordNet: Giới thiệu
z Xây dựng mạng khổng lồ từ vựng quan hệ từ
vựng
z Wordnet tiếng Anh
z4 lớp: danh từ, động từ, tính từ, trạng từ
zDanh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; Trạng từ: 6,000
13
CSDL từ vựng
z Wordnet cho ngôn ngữ khác [www.globalwordnet.org]
WordNet: Giới thiệu
zCó wordnet cho ngôn ngữ: Tây Ban Nha, Tiệp, Hà Lan, Pháp, Đức, Ý, BồĐào Nha, Thụy Điển, Basque, Estonian
zWordnets làm cho tiếng: Bulgary, Đan mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian, Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ
Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran
14
Tập từđồng nghĩa
Synonym Sets - Synsets z Từ có nhập nhằng
z Các nút Wordnet biểu diễn tập từđồng nghĩa “synonym sets”, synsets Ví dụ:
z Fool: người dễbịlợi dụng z Fool: người dễ bị lợi dụng
z {chump, fish, fool, gull, mark, patsy, fall guy, sucker, schlemiel, shlemiel, soft touch, mug}
z Synset = tập khái niệm
15
Các quan hệ khác WordNet
•Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) -hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ phận meronymy (part_of) holonymy (has_part)
•Mỗi nghĩa từđược biểu diễn số synset
http://wordnet.princeton.edu/ 16
Phân giải nhập nhằng sử dụng quan hệ từ vựng
Supplement Vitamin_Pill
Publication Dietary
Pill
SENSE OF WORD KIND-OF (HYPONYMY) HAS-PART (HOLONYMY) PART-OF (MERONYMY)
Nutriment Nutriment
Medicine Textual
Matter
WordNet Similarity Metrics:
(4)Đo quan hệ từ vựng
z Đếm số cạnh/đỉnh đồ thị:
z khoảng cách từ tỉ lệ nghịch với quan hệ ngữ nghĩa
giữa chúng
z Nếu từ có nhiều đường đi, chọn đường ngắn
số cạnh = số nút =
19
Cặp từ gần hơn? z cá heo cá?
z cá cá hồi?
WordNet Similarity Metrics:
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
20
21 22
Phân giải nhập nhằng đếm cạnh
zwhale#n#1
z người lớn (về kích thước phẩm chất)
zfish#n#3
z (thiên văn học) người sinh mặt trời Pisces
sao Pisces
person
Pisces (fish) Giant (whale)
tall/large person
Path Length = 4
23
Phân giải nhập nhằng đếm cạnh vertebrate
fish aquatic vertebrate mammal
placental aquatic
whale animal
cetacean
Path length = 8
(5)Nhược điểm của WordNet tính quan hệ ngữ nghĩa
z Độđo quan hệ ngữ nghĩa WordNet dựa giả
thiết sau:
z Mọi cạnh đồ thị có độ dài z Các nhánh gđồ thị có gđộđậm đặc z Tồn tất quan hệ ngoại động từ
¾ khơng đáng tin cậy
25
Cách tiếp cận dựa từđiển z Các từđiển điện tử (Lesk ‘86)
z Cho biết ý nghĩa từ ngữ cảnh cụ thể nội dung (vd., I’ve often caught bass while out at sea) z So sánh chồng chéo cg định nghg ĩa nghg ĩa
của từ (bass2: a type of fish that lives in the sea)
z Chọn nghĩa trùng nhiều
z Hạn chế: đường dẫn đến từ ngắn Ỉmở rộng cho từ liên quan
26
Cách tiếp cận học máy
z Học việc phân loại để gán từ với nghĩa
z Tích lũy tri thức từ tập ngữ liệu có khơng gán nhãn z Con người can thiệp vào tập ngữ liệu gán nhãn lựa
ử ấ
chọn tập đặc trưng sử dụng việc huấn luyện
z Vào: vectơđặc trưng
z đích (từ cần phân giải nhập nhằng)
z nội dung (các đặc trưng dùng để tiên đoán nghĩa
đúng)
z Ra: luật phân loại cho văn
27
Các đặc trưng sử dụng WSD
z Các thẻ POS từ từ lân cận z Các từ lân cận (có thể lấy gốc từ không) z Dấu chấm, viết hoa, định dạng
z PTCP bộộ php ậận để xác địịnh vai trò ngg p pữ pháp quan q
hệ chúng
z Các thông tin vềđồng xuất hiện:
z Từ từ lân cận có thường đồng xuất không
z Đồng xuất từ láng giềng
z Ví dụ: seacó thường xun xuất với bass khơng
28
Ví dụ
Tôi ăn cơm với cá
z DT ĐgT DT GT DT
z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT với) (DT cá)))))
Em bé thích ăn kẹẹo thơi
z DT TT TT ĐgT DT PT
z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT
ăn) (DT kẹo)))) (PT thơi)))) Nó ăn nhiều hoa hồng q
z ĐaT ĐgT TT DT TT
z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa hồng)) (TT quá))))
z Tôi tên Hoa
29
Các kiểu phân loại
z Nạve Bayes: Nghĩa tốt nghĩa có khả xảy
nhất với đầu vào cho trước
z ŝ= p(s|V),
z s nghĩa V vector đầu vào
đặc trưng
) ( ) ( ) | ( max arg V p s p s V p S s∈ max arg S s∈
đặc trưng
z Chỉ có liệu có thơng tin vector kết hợp với nghĩa z Giả sử đặc trưng độc lập, p(V|s) tích xác suất
đặc trưng
z p(V) giống với ŝ (không ảnh hưởng đến xếp hạng
cuối cùng)
) | ( ) |
( n s
(6)Các kiểu phân loại
zNaïve Bayes: : Nghĩa tốt nghĩa có khả
năng xảy với đầu vào cho trước z Khi
) | ( ) ( max arg
ˆ ps n pv js
s= ∏
z P(s) xác suất tiền nghiệm nghĩa = xác suất nghĩa tập liệu gán nhãn z P(v,s) = đếm số lần xuất bassđi với sea
) | 1 ( ) ( max arg s j v j p s p S s s ∏ = ∈ = 31
WSD IR
z IR (Information Retrieval) : tìm kiếm thơng tin z Motivation
z Đồng âm = Bank (ngân hàng, sông)
z Đa nghĩa = Bat ((câu lạc chơi cricket), (cây vợt nhỏ có tay cầm dàiđểchơi bóng ))
cầm dài để chơi bóng ))
z Đồng nghĩa = doctor, doc, physician, MD, medico
z Những vấn đề ảnh hưởng đến IR nào?
z Đồng âm đa nghĩa có xu hướng giảm độ xác
z Đồng nghĩa: giảm độ phủ
32
2 ứng dụng của WSD IR
z Tìm kiếm dựa câu truy vấn (Voorhees, 1998):
z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu
query bổ sung vào từ có nghĩa rộng
z Sử dụng WSD đểđánh số khái niệm: phân giải nhập nhằng tập tài
liệu xây dựng số cho tập synset thay cho tập từ gốc
z Mơ hình khơng gian vector: tìm độ tương đồng cosin câu truy vấn ỗ
và vector tài liệu
z Đánh số khái niệm
z Trong thí nghiệm, vector dựa nghĩa thực vector dựa từ gốc
z Lý do: lỗi phân giải nhập nhằng ztrong thu thập văn bản, zcác câu query ngắn thiếu nội dung
33
2 ứng dụng của WSD IR
z Mở rộng query
z Không khả quan
z Nhưng, phân giải nhập nhằng mở rộng truy vấn thủ công đem lại kết tốt
z Ví dụ: z Ví dụ:
z furniture: table, chair, board, refectory(specialisations) z “Chỉ có vài từ vựng liên quan có ích việc
mở rộng câu truy vấn, đường dẫn lớp cha từ WordNet lúc đem lại mở rộng truy vấn cách hữu ích
34
Độ xác của WSD IR
z Tập liệu đánh giá WSD: SensEval SemCor z Cách khác để tạo liệu gán nhãn: Pseudowords
z Lấy từ (ngẫu nhiên) có từ loại, thay từ
nhân tạo Ví dụ, 'door' 'banana' thay tập ngữ
liệu từ'donana' liệu từ donana
z Độ xác WSD: xác định trường hợp
donana cụ thể 'door‘ hay 'banana' (Yarowsky, 1993)
z (Sanderson, 1997) công bố: thêm nhập nhằng vào
query kết có ảnh hưởng đến độ xác việc tìm kiếm so với ảnh hưởng lỗi phân giải nhập nhằng tập kết
z có lỗi phân giải nhập nhằng mức thấp ( < 10%) tốt
phiên IR đơn giản dựa từ gốc 35
Độ xác của WSD IR
z Tại đa nghĩa/đồng âm vấn đề lớn ta
nghĩ:
z Tác động sựđồng xuất từ truy vấn: từ
câu truy vấn tự phân giải nhập nhằng S hâ bố ữ hĩ d h iề ứ d
z Sự phân bố ngữ nghĩa: áp dụng cho miền ứng dụng
cụ thể
(7)Độ xác của WSD IR z Từđồng nghĩa có ảnh hưởng lớn hơn:
z Gonzalo et al (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với thẻ nghĩa WordNet) cho thấy phân giải nhập nhằng có độ cx = 100%
z Đánh chỉsốnghĩa (vd synset number) cóđộcx IR = 62% z Đánh số nghĩa (vd synset number) có độ cx IR = 62% z Đánh số nghĩa từ (vd canine1) có độ cx IR = 53.2%
z Đánh số từ gốc có độ cx IR = 48%
z Gonzalo et al cho thấy độ cx tối thiểu 90% với WSD cho IR cao Gần 60% từ giả không hoạt động giơng
từ có nhập nhằng thật