74 Trang 5 5 LỜI CAM ĐOAN Trang 6 6 DANH MỤC T ỪVIẾT T T ẮSTT T ừDạng đầy đủGiải nghĩa1 QA Question Answering System H th ng hệ ố ội thoại 2 IBiS Issue-Based Information System H th n
Trang 1B Ộ GIÁO DỤ C VÀ ĐÀO T Ạ O TRƯ NG Đ Ờ Ạ I H C BÁCH KHOA HÀ NỘI Ọ
NGƯỜI HƯỚ NG D N KHOA H C: Ẫ Ọ
TS Lê Thanh Hương
Hà Nội – 03/2011
Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205300701000000
Trang 22
M Ụ C LỤ C
32T
MỤC LỤC32T 2
32T LỜI CAM ĐOAN32T 5
32T DANH MỤC TỪ VIẾT TẮT32T 6
32T DANH MỤC CÁC HÌNH VẼ32T 7
32T DANH MỤC CÁC BẢNG 8 32T 32T LỜI MỞ ĐẦU32T 9
32T CHƯƠNG I : TỔNG QUAN32T 11
32T 1 Giới thiệu chung về hệ thống hội thoại32T 11
32T 2 Khó khăn trong xử lý ngôn ngữ tự nhiên32T 13
32T2.1 Cấu trúc ngữ pháp và các thành phần cấu tạo câu32T 13
32T2.2 Phép lặp từ32T 14
32T2.3 Câu tỉnh lược32T 14
32T CHƯƠNG II KIẾN TRÚC CHUNG HỆ THỐNG HỘI THOẠI32T 17
32T 1 Kỹ thuật nhận dạng câu hỏi và trả lời32T 18
32T1.1 Phân tích câu hỏi32T 32T 19
32T1.2 Luật phân tích từ ngữ.32T 20
32T1.3 Luật viết dạng câu trả lời - query reformulation & query expansion32T 21
32T 2 Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction32T 22
32T2.1 Trích rút thông tin - Retrieve document32T 22
32T2.2 Trích rút câu trả lời - Answer extraction32T 24
32T2.3 Kỹ thuật xử lý đại từ thay thế32T 26
32T2.4 Tổ chức cơ sở dữ liệu độc lập32T 26
32T 3 Kỹ thuật xử lý hiện tượng đồng tham chiếu và tỉnh lược trong tiếng việt32T 29
32T3.1 Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận.32T 29
32T3.2 Hiện tượng tỉnh lược câu và hướng tiếp cận32T 34
32T3.3 Tổng hợp32T 36
32T 4 Kỹ thuật phân tích câu hỏi dựa vào cây Trie32T 39
32T4.1 Cấu trúc cây Trie.32T 39
32T4.2 Phân tích câu hỏi dựa vào cấu trúc trie.32T 41
32T4.3 Câu nghi vấn và cấu trúc câu nghi vấn trong tiếng việt32T 44
Trang 33
32T4.4 Trie trong phân tích câu hỏi tiếng Việt.32T 48
32T CHƯƠNG III HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED INFORMATION SYSTEM – IBiS32T 50
32T 1 Tổng quan về IBiS132T 50
32T1.1 Kiến trúc IBiS132T 50
32T1.2 Một số giả định32T 52
32T1.3 IBiS1 Datatype32T 52
32T 2.Các cấu trúc cú pháp, ngữ nghĩa trong IBiS132T 53
32T2.1 Các dạng thay thế ngữ pháp32T 53
32T2.2 Mệnh đề32T 54
32T2.3 Câu hỏi32T 55
32T2.4 Short Answer - các câu trả lời ngắn32T 56
32T2.5 Giới hạn phân loại ngữ nghĩa 57 32T 32T2.6 Mối liên hệ giữa câu hỏi và câu trả lời32T 57
32T2.7 Kết hợp câu hỏi và câu trả lời tạo thành các mệnh đề - Proposition32T 60
32T 3 Dialogue moves - các bước thực hiện hội thoại trong IBiS1 60 32T 32T CHƯƠNG IV: CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ32T 63
32T 1.Xử lý câu tỉnh lược32T 63
32T1.1 Vị trí trong hệ thống hội thoại tổng hợp32T 63
32T1.2 Giới hạn bài toán.32T 63
32T1.3 Thiết kế các gói cho việc xử lý câu tỉnh lược của chương trình.32T 63
32T 2.Cài đặt thuật toán phân tích câu hỏi sử dụng Trie32T 65
32T2.1.Xác định loại câu hỏi và câu trả lời mong đợi cho chương trình32T 65
32T2.2 Thiết kế câu hỏi32T 66
32T2.3 Tổ chức cấu trúc Trie32T 67
32T2.4 Quá trình duyệt Trie32T 68
32T 3.Cài đặt quá trình hỏi lại và chỉnh sửa câu hỏi của người dùng.32T 67
32T3.1 Vai trò trong hệ thống32T 67
32T3.2 Các hàm liên quan đến xử lý input-text32T 67
32T3.3 Sơ đồ quá trình hỏi lại và sửa câu hỏi người dùng32T 68
32T 4 Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng.32T 70
32T4.1 Tổ chức cơ sở dữ liệu32T 70
Trang 44
32T4.2 Domain resource tài nguyên miền32T 72
32T4.3 Lexicon resource - từ điển ngôn ngữ32T 74
32T4.4 Ví dụ về hội thoại sử dụng IBiS132T 74
Trang 55
L ỜI CAM ĐOAN
Tôi tên là Bùi Thanh Tùng - học viên lớp Cao h c Công ngh ọ ệthông tin – Khoá
2009 – Viện Công nghệ thông tin và Truyền thông Trường Đại học Bách Khoa –
Hà Nội Tôi xin cam đoan bản luận văn thạc s khoa h c này do tôi t làm, không ỹ ọ ựsao chép nguyên b n c a ai Các ngu n tài liả ủ ồ ệu là do tôi thu thập và dịch từ các tài
liệu chuẩn nước ngoài Số ệu trong b n lu li ả ận văn này là ố ệ s li u thực tế, không bịa
Trang 66
DANH MỤC T Ừ VI Ế T T T Ắ
2 IBiS Issue-Based Information System H th ng hệ ố ội thoạ hướng chủi
đề
nhiên
11 CSDL Cơ sở ữ ệ d li u
bu ộc)
Trang 99
L Ờ I MỞ ĐẦ U
Cùng với sự phát tri n không ngể ừng của kinh tế - xã hội, cũng như khoa học
k thuỹ ật, lượng thông tin ngày càng khổng lồ, thế ớ gi i bước vào k nguyên mỷ ới, kỷ nguyên về ự s bùng n thông tin sổ ố Ở đó ai nắm bắt được nhiều thông tin hơn thì cơ
hội thành công ẽ cao hơn Chính vì vậy mà nhu c u tìm thông tin nhanh g n, chính s ầ ọxác và ti n l i ngày mệ ợ ột cao
Để đáp ứng nhu cầu đó ta cần xây d ng m t h th ng trích rút thông tin lý ự ộ ệ ốtưởng, đó là hệ ố th ng có khả năng thực hiện các giao ti p vàế hiểu ngôn ngữ như con người Nó cho phép ngườ ử ụng đưa ra yêu cầi s d u thông tin, nh ng câu hữ ỏi dưới
dạng ngôn ngữ ự nhiên (natural languge), hệ ống phải hiểu được các thông tin đó t th
ở ứ m c đ ộ như con người: Khi nhận được yêu cầu thông tin hay câu h i, nó ph i trả ỏ ả
v ề đúng thông tin người sử ụng cần, không thiếu, không thừa Bên cạnh đó nó có d
th ể tương tác với người sử ụng, ví dụ như : Hỏi lại hay đưa ra những gợi ý cho dngười dùng trong trường h p câu hợ ỏi đầu vào không rõ ràng hoặc bị sai
Đã có những h thống trích rút thông tin phát triệ ển và đạt được kết quả ấ r t kh ảquan, m t trong s ó chính là hộ ố đ ệ thống hội thoại (Question Answering System - QA) Nội dung chính của luận văn bao gồm:
− Tìm hiểu v ki n trúc c a h th ng h i tho i ề ế ủ ệ ố ộ ạ
− Các kỹ thu t x lý và phân tích câu h i ậ ử ỏ
− Tìm hiểu v m t h thề ộ ệ ống cụ ể th là IBiS1 (issue based information system - h thệ ống hội th ại hướng chủ đề o )
-− Cài đặt h th ng h i tho i ng d ng trong bảo tàng ệ ố ộ ạ ứ ụ
Luận văn đã tìm hiểu được mô hình chung về ệ ống hội thoại Trên cơ sở các h th
lý thuyết đãnghiên c u, luứ ận văn đã xây dựng được hệ ố th ng h i thoộ ại hướng miền
ứng dụng cho lĩnh vực b o tàng ả Có thể coi đây như một tài li u tham khệ ảo hữu ích, cũng như một mô hình đểcó thể ở ộng xây dựng các hệ thống hội thoại khác ứng m rdụng rộng rãi hơn trong tương lai
Trang 1010
Em xin chân thành gửi l i cờ ảm ơn tới các thày cô giáo trong Vi n công nghệ ệthông tin và truyền thông, đạ ọi h c Bách Khoa Hà Nộ đã ậi t n tình gi ng d y, truyả ạ ền
đạt cho em nh ng ki n th c, nh ng kinh nghiệữ ế ứ ữ m quý báu trong su t quá trình học ố
tập tại trườ Đặc biệt em xin gửi lời cảm ơn sâu sắc tới TS Lê Thanh Hương đã ngnhiệt tình giúp đỡ em trong quá trình tìm hiể nghiên cứu và hoàn thành luận văn u, này
Học viên thực hiện : Bùi Thanh Tùng
Trang 1111
CHƯƠNG T I : ỔNG QUAN
1 Giới thiệu chung về h th ệ ố ng ội thoạ h i
Trong lĩnh vực trích rút thông tin, h th ng h i tho i (Question-Answering, ệ ố ộ ạ
viết tắt là QA) đảm nhận việc tự động trả ời các câu hỏi được nhập vào ở ạ l d ng ngôn ngữ ự t nhiên Hệ ố th ng dựa vào cơ sở ữ ệ d li u hay các văn bản ngôn ng t ữ ựnhiên có sẵn, đưa ra câu trả ờ l i phù h p theo ngôn ng t nhiên ợ ữ ự
QA đòi hỏi các k thu t x lý ngôn ng t nhiên (natural language processing ỹ ậ ử ữ ự
-NLP) hơn các dạng trích rút thông tin khác, ví dụ như: trích rút văn bản (document retrieval)
QA là nền móng để phát tri n hể ệ ố th ng h i tho i, k t h p QA vộ ạ ế ợ ới các cơ chếquản lý hội thoại (Dialogue Management), ta sẽ được mộ ệ ốt h th ng hội tho i hoàn ạchỉnh, h thệ ống và người dùng đều giao ti p hỏế i – tr l i ả ờ
Cách trích rút thông tin tuyền thống là dựa vào ý tưởng coi tập văn bản như
những nhóm từ riêng biệt, nhờ đó, nội dung ngữ nghĩa của vă ản tương đương vớn b i
tập từ khoá (keyword) nó chứa mà không quan tâm đến trật tự ừ hay mối quan hệ t trong câu Tuy nhiên, chỉ có t ừ khoá thôi thì chưa đủ, tr t t t và quan hệ ữậ ự ừ ng pháp
rất quan trọng trong việc quyết định nghĩa của câu Hệ ố th ng hội thoạ ựa trên cách i d
tiếp cận chú trọng hơn đến ngữ pháp câu thông qua việc cho phép người dùng nhập câu hỏi dướ ại d ng ngôn ng t nhiênữ ự , đưa ra câu trả ờ l i ng n g n theo ngôn ng t ắ ọ ữ ựnhiên
B ả ng Sự khác nhau giữa QA và hệ ống tìm k ế 1 th i m
Trang 1212
Thực tế đã có nhiều hệ ống ội thoạ được xây d th h i ựng, v c u trúc cề ấ ủa các hệ
thống này có t ể khác nhau, nhưng nhìn chung, đềh u có nh ng v n đ chính cần ữ ấ ềquan tâm x lý là:ử
• Phân loại câu h i ỏ
Một vài hệ ố th ng hội thoạ ự động tiêu biểu trong thực tế nhưi t :
• PiQASso (Attardi et al., 2001)
• Ask MSR (Brill et al., 2002)
• TREC (Text REtrieval Conference, từ 1990 đến nay )
PiQASso là hệ ố th ng hội thoại d a tự rên sự ế k t h p cợ ủa các kỹ thuật trích rút thông tin hiệ đạn i với các bộ ọ l c ngôn ngữ để ự l a chọn đoạn văn bản ch a thông tin ứphù hợp để ả ờ tr l i Bộ ọ l c ngôn ngữ được dựa trên r t nhi u công ấ ề c x ụ ửlý ngôn ngữ
Trang 1313
t nhiên ự như: POS tagger (17TPart-Of-Speech Tagger - nh17T ận diện loại từ), NE tagger
câu hỏi để tìm ra từ khóa để truy vấn và tìm ra EAT, phân tích các đoạn văn bao
gồm cả ệc kiểm tra sự có mặt của các thực thể ủa EAT và mối quan hệ ữa các vi c gi
t ừ
AskMSR là hệ th ng hố ội thoại có đ cộ hính xác cao d a vào vi c phân tích ự ệlượng d li u online lữ ệ ớn mà nó thu được hơn là dựa vào các k thu t x lý ngôn ỹ ậ ử
ng t ữ ự nhiên Đây là hệ ống đơn giản nhưng hiệ th u quả
TREC th c hiự ệ lưu trữn các câu hỏi được phân theo t ng lo i cừ ạ ụ th ể(ví dụ: tổchức, sự ệ ki n,…) Vi c phân lo i câu h i và câu trệ ạ ỏ ả ờ l i d a trên tìm thông tin tự ừ ộ m t
s ố lượng lớn các văn bản, tài liệ u
2 Khó khăn trong xử lý ngôn ngữ ự nhiên t
2.1 C ấ u trúc ngữ pháp và các thành phần cấu tạo câu
Trong nghiên c u vứ ề ng ữ pháp ti ng Vi t chúng ta có thế ệ ể thấy rằng chưa có
một định nghĩa chuẩn về cách gọi của loại từ cũng như ngữ pháp câu tiếng Việt
Trong ti ng Viế ệt trậ ự ắp đặt t s t các từ là phương tiện chính để ể bi u th quan h ị ệ
ng pháp – tữ ức là quan hệ cú pháp – giữa các từ trong một câu ậ ự các yếu tố Tr t t
cấu thành được quy định bằng một vị trí nhất định Khi vị trí thay đổi thì nghĩa có
th ể thay đổi theo
T ừ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng Hơn nữa, trong
tiếng Việt, những từ nhiều tiếng lại có thể được ghép b i nh ng ti ng hay từ khác ở ữ ế
có nghĩa Ví dụ hai t m t tiừ ộ ếng đất, nước có th ể được ghép v i nhau thành m t t ớ ộ ừ
có ý nghĩa trừu tượng hơn là đất nước
Ngoài ra còn có các c m danh tụ ừ ộ, đ ng t và tính từ ừ ớ v i nhi u thành ph n cề ầ ấu
tạo, đảm nhiệm các chức năng khác nhau trong câu
Trang 1414
2.2 Phép lặp từ
Các đạ ừ ạ ừ ở ữi t , đ i t s h u hay danh từ thường đượ ử ụng để ỉc s d ch đến những tri thức đã được nhắc đến trong các câu hỏi trước, phép ngữ pháp như vậy gọi là phép l p tặ ừ (anaphora) Xét đoạn hội thoaị sau:
> Quy ển sách bìa đỏ k ia là sách tham kh ả o à?
mới nhất và thay thế đại từ ới tri thức gần nhất thỏa mãn ngữ pháp và giới hạn câu vPhép l p t là vặ ừ ấn đề ph biổ ến trong xử lý ngôn ngữ t nhiên ự
2.3 C âu tỉ nh lư ợ c
Hàng ngày, con người thường xuyên s dụng câu không hoàn chỉnh (câu tỉnh ửlược) trong h i thoộ ại, mà nghĩa của những câu đó phụ thu c vào nhộ ững đoạn h i ộtho i thạ ực hiện trước đó
X ửlý những trường hợp phức tạp của câu tỉnh lược đòi hỏ ệ ối h th ng ph i duy ảtrì m t model h i thoộ ộ ại, điều này không phải lúc nào cũng dễdàng m c dù viặ ệc bắt
buộc phải hỏi câu hỏi đầy đủ khá là khó chịu với ngườ ử ụi s d ng
2.3.1 Ngữ pháp ph c tạp ứ
Mặc dù có nhiều điểm căn bản gi ng v i ng pháp ti ng Anh ố ớ ữ ế – ngôn ngữ t ựnhiên được nghiên c u k càng, t m nh t – ứ ỹ ỉ ỉ ấ nhưng do nhiều y u t ế ố khác nhau như
lịch sử phát tri n lâu dài cùng vể ới sự ế ti p thu của nhi u nề ền văn hóa, ngữ pháp ti ng ế
Việt có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vô cùng phong phú Việc xây d ng m t lí thuy t ng pháp hoàn chự ộ ế ữ ỉnh là điều chưa làm được Sự ứ ph c tạp
của ngữ pháp tiếng Việt làm cho vi c phân tích c u trúc câu, phân lo i và nh n diệ ấ ạ ậ ện câu trở nên vô cùng khó khăn…
Trang 1515
Bên cạnh đó ngữ pháp ti ng Vi t còn có hiế ệ ện tượng đồng âm, đồng nghĩa, chuyển nghĩa của từ ất phức tạp Ví dụ: từ “phát triển” trong 2 cụm từ “phát triển rđất nước” và “đất nước phát tri n” là 2 lo i t khác nhau “Phát tri n” trong c m t ể ạ ừ ể ụ ừ
th nhứ ất là động từ tác động vào danh từ “đất nước” trong khi “phát ển” trong tri
cụm từ ứ hai lại là tính từ ổ nghĩa cho danh từ th b đất nước
2.3.2.Nhập nhằng trong việc tách từ và phân loạ ừ i t
Đặc điểm Tiếng Vi t là ngôn ngệ ữ đơn âm tiết, điều này gây nên khó khăn ngay từ giai đoạn tách và phân loại từ ự v ng Ví d ụ như câu:
• “Cụ /già đi/ nhanh/ quá”
• “Cụ già/đi/nhanh /quá”
Mặc dù nội dung trung tâm củ ềa đ tài không nhằm vào vấn đề này nhưng giai đoạn tách t ừ chính là giai đoạn ti n x lý c a h th ng, vì th s ề ử ủ ệ ố ế ự đúng đắn c a ủ
nó có ảnh hưởng r t lấ ớn đến sự đúng đắn của cả thuật toán
2.3.3 Sự ậ nh p nhằng , đa nghĩa của đạ ừ i t
Một trong những vấn đề ức tạp nhất của tiếng Việt là trong Tiếng Việt có ph
rất nhiều đại từ xưng hô Cặp xưng hô giữa 2 ngôi thứ nhất và th hai phứ ổ bi n ếnhư : tớ ấ - y, t - c u, tao mày… ớ ậ
Vấn đề ắ r c rối nằm ở chỗ, tuỳ vào mối quan hệ ữa ngườ gi i nói v i nhau, hoớ ặc
giữa người nói với người thứ ba mà các đại từ xưng hô này khác nhau Ví dụ:
• M ẹvà con nói chuyện với nhau :
“MẹU Ubao giờ đi làm ?”
“Lát nữa”
• Hai chị em n i chuy n v i nhau : ớ ệ ớ
“MẹU Uđã đi làm chưa nhỉ?”
“Hình như đi rồi”
“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau Để ử x lý
vấn đềnày yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó th c hi n khi xây ự ệdựng các thuật toán Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các
h thệ ống cụ th ể hướng lĩnh vực Ở đây, bằng mặ ịc đnh, luận vănnghiên cứu cho hệ
Trang 1616
thống hội thoại, do đó ưu tiên xét quan hệ xưng hô ngôi thứ ấ nh t và ngôi th hai ứ
giữa người và máy
Trang 17Hì 2 nh Lượ ồ c đ h th ệ ố ng ội thoạ h i
Trong chương này, ta sẽ ậ t p trung tìm hi u ki n trúc c a m t h th ng h i ể ế ủ ộ ệ ố ộtho i ạ và đến chương III ta sẽ tìm hiểu thêm về cơ chế quản lý hội thoại, từ đó cài đặt
th nghiử ệm hệ ống hội thoạ th i
Trang 1818
V kiề ến trúc của hệ ố th ng hội thoạ có thể chia thành 2 nhóm chính để ếi, ti p
c nậ : nhóm liên quan đến xử lý câu hỏi và câu trả lời (information extraction & syntactic analysis), nhóm liên quan đến truy nh p, trích rút thông tin theo từ khóa ậ(information retrieval) Vì thế, ta sẽ ế ti p cận hệ ố th ng hội tho theo 2 hại ệ thống con như trên
1 K ỹ thuật nhận dạng câu hỏi và trả ờ l i
Khi một câu hỏi đượ ặc đ t ra cho một người hay mộ ệ tht h ống trả ời tự động, lnhiệm vụ đầu tiên ph i gi i quy t nả ả ế hằm đưa ra được câu trả lời là phải hiểu được câu hỏi
Quá trình x lý m t câu h i bao gử ộ ỏ ồm các bước con như sau:
Phân tích câu hỏi
Phân tích ngữ pháp c a câu, vi t d ng câu trả ờủ ế ạ l i
Lọc dạng câu trả ờ l i
Lọc các quan hệ phù hợp
Sắp xếp nghĩa theo xác suất
M r ng ở ộ truy vấn
Quá trình phân tích câu h i bao g m vi c phân tích cú pháp cỏ ồ ệ ủa câu hỏi, xác
định lo i câu tr lời mong đợi, tìm từ khóa có liên quan để ựạ ả th c hiện trích rút đoạn văn Câu truy vấn ban đầu xây d ng t nh ng t ự ừ ữ ừ khóa như vây nhằm mục tiêu đạt
độ chính xác cao và có kh ả năng trích rút ra mộ ốt s nh ng ng viên cho câu tr l i ữ ứ ả ờthích h p trong t p h p l n (quá trình lợ ậ ợ ớ ọc)
Quá trình lọc dạng câu có nhi m vệ ụ ể ki m tra các ứng viên câu trả ờ l i có chứa
những thực thể ần có ở c câu trả ời mong đợi hay không và lo i b l ạ ỏ những câu không thích hợp Bộ ọ l c câu có nhiệm vụ nhận biết các mối quan h giữa các thành ệ
phần từ khóa của câu hỏi, và tìm kiếm mối quan hệ tương tự trong nhữ ứng viên ng câu trả ờ Điều này thường đượ l i c thực hiện đựa vào m t cây ph thu c mà c u trúc ộ ụ ộ ấ
do hệ ố th ng quyết định “Kho ng cách” giả ữa câu hỏi và câu tr l i đưả ờ ợc tính toán đểxác định tr t t các ứậ ự ng viên câu tr l i Câu tr lả ờ ả ời được đánh giá cao nhất là câu
tr lả ời được hệ ống lựa chọ th n
Trang 1919
1.1 Phân tích câu hỏi
Tác vụ phân tích câu h i có th ỏ ể không rõ ràng đố ới con người v i khi tr lời câu ả
hỏi, tuy nhiên đối với một hệ ống trả ời tự động nó đóng vai trò cốt yếu quyế th l t định độ chính xác c a h th ng ủ ệ ố
Chắt lọc thông tin ẩn chứa trong câu hỏi giữ vai trò quan trọng, căn bản, cho phép hệ ố th ng thực thi đúng lệnh đểđưa ra được câu trả ời đúng đắn cho câu hỏi lđó.Khi việc phân tích câu h i thỏ ất bại, rất khó và gần như là không thểcho hệ ống th
hội thoạ ực hiện nhiệm vụ ủa nó.i th c
Cách ti p cế ận căn bản nhất để phân tích câu h i là chia nhi m v thành 2 ỏ ệ ụ
phần: tìm kiếm dạng câu trả ời mong đợi và tìm kiếm trọng tâm của câu hỏi Rấ l t nhiều các hệ ống (Mollá Aliod 2003, Chen et al 2001…) s th - ử ụ d ng một tập các luật
do ngườ ậi l p trình t tự ạo để tìm ki m d ng câu trả ời mong đợi (EAT).Thườế ạ l ng thì các luật được viết dưới dạng các biểu thức chính quy (RE) và nhiệm vụ tìm kiếm
dạng câu trả ời là việc kiểm tra sự hòa hợp giữa câu hỏi và các biể l u thức đó Mọi
biểu thứ ều tương thích vớc đ i một dạng câu trả ời mong đợi và đượ ắ l c g n cho câu
hỏi phù hợp vớ ịi đnh dạng
Cách ti p cế ận đơn giản nhấ ể tìm đượt đ c trọng tâm của câu hỏi đó là loạ ỏ ấi b t t
c ảcác từ ừng (không có nghĩa quan trọng, chỉ có tác dụng về ặt ngữ pháp) khỏi d mcâu và coi nh ng t còn lữ ừ ại đại diện cho tr ng tâm câu h i (tọ ỏ ừ khóa)
Một trong những kỹ thuật được sử ụng, đó là sử ụng cây trie (m t d ng cây d d ộ ạ
ph thu c) Vụ ộ ấn đềnày sẽ được làm rõ trong chương sau
U
Trích rút t khóa (keyword) ừ
Đây là bước đầu cho vi c l a ch n t ng sinh câu tr l i phù h p ệ ự ọ ừ ữ để ả ờ ợ
H thệ ống coi từ khóa là t t cấ ả các dan ừ, độh t ng t , tính t , phó t trong câu ừ ừ ừ
hỏi, loại trừ danh sách các từ bao gồm (quyế ịt đnh dựa vào kinh nghiệm của người thiết kế) Các từ mà module phân tích cú pháp không coi là một phần của từ, cụm từngôn ngữ ọc cũng bị ạ h lo i bỏ
Việc phân tích câu hỏi trong hệ ống QA đóng vai trò quan trọng Module thphân tích câu hỏi (question analysis) cho ta đầu ra là các thông tin như :
• Định d ng câu tr lạ ả ời mong đợi
Trang 20Trong ngôn ngữ tồn tại những từ có nhiều nghĩa hoặc nhi u t ề ừ đồng nghĩa,
gần nghĩa… Vì vậy, trong hệ ống cần xây d th ựng trước nh ng luữ ật để quyết định từ
loại của từ để ục vụ cho quá trình phân tích câu h i và sinh câu tr ph ỏ ả ờ l i Một trong những cách tiếp cận, đó là xây dựng WordNet
1.2.1 Xác suất ngữ nghĩa (Sense probability).
Trong quá trình phân tích câu, hệ thống thường phải quyế ịt đnh xem một từ có thuộc một loại từ ất định nào không (như trong quá trình tìm dạng câu trả ờ nh l i mong đợi) Điều này có th th c hiể ự ện được d a vào tính toán xác su t ng ự ấ ữ nghĩa
của từ ằm trong một dạ n ng WordNet (ví d ụ như xác suấ ủ ừt c a t “cat” n m cao ằ ở
mục “animal” trong WordNet) WordNet sắp xếp nghĩa của từ theo chuỗi Ví dụ, cho m t danh sách s p x p ngộ ắ ế ữ nghĩa của từ w là {s0,…,sn} ta tính toán xác xuất nghĩa củ ừa t thu c vào mộ ục C như sau :
Trang 2121
1.2.3 Khoảng cách của từ (Word Distance)
Việc tính toán khoảng cách của từ được sử dụng để tính toán khoảng cách
giữa 2 câu, cụ ể, giữa đoạn trả ời và câu hỏ th l i
Khoảng cách giữa hai từ trái nghĩa phụ thuộc vào khoảng cách ngữ nghĩa ởcùng độ sâu trong phân lo i WordNet Chênh lạ ệch độ sâu c a t t c các c p ng ủ ấ ả ặ ữnghĩa của hai từ được đo đạc d a vào xác suự ất của cặp ngữ nghĩa của 2 từ tính riêng
và k t h p lế ợ ại
Khoảng cách giữa hai từ đồng nghĩa cũng được tính toán d a trên tự ất cả các
ng ữ nghĩa của từ, tùy theo xác suất Khoảng cách giữa hai từ, ký hiệu là dist(w1,w2) được định nghĩa là kho ng cách đả ồng nghĩa hoặc trái nghĩa tùy vào 2 từ đó là đồng nghĩa hay trái nghĩa
“machine”)
1.3 Lu ậ t viết dạng câu trả ờ query reformulation & query expansion l i -
1.3 Vi 1 ết lại dạng truy vấn Query reformulation -
Khi một câu hỏi đượ ặc đ t ra, hệ ố th ng sẽ ự độ t ng sinh ra m t ho c vài chuộ ặ ỗi
có khả năng là câu trả ờ l i cho câu hỏi
Đối v i các câu hỏớ i trong ti ng Việt thì cách t t nh t là gi nguyên c u trúc ế ố ấ ữ ấcâu, thay vào v trí cị ủa từ để ỏ h i b ng lằ ời giải
Ví dụ như: “Tác giả ủ c a bức tranh Thi u nế ữ bên hoa huệ là ai?”
Trang 2222
Câu trả ời đơn giản nhất sẽ là “Tác giả ủa bức tranh Thiếu nữ bên hoa huệ
<NAME>”
Cách t hai là vi t lh ứ ế ại câu: “<NAME> đã vẽ ứ b c tranh Thi u n bên hoa huế ữ ệ”
Để ế ti n hành tr l i đư c theo cách thứ 2 ta phải thêm vào độả ờ ợ ng t sao cho ừphù h p v i n i dung câu h i m c dù câu hợ ớ ộ ỏ ặ ỏi không chứ ộa đ ng t nào Chính vì vừ ậy nên câu trả ờ l i tốt nh t cho cấ âu hỏi trong tiếng Việt là theo d ng 1.ạ
1.3.2 M r ở ộ ng truy vấn Query expansion -
Các từ khoá tìm được trong quá trình phân tích câu hỏi được đưa vào query Quy trình này c n thiầ ết để có th t ể ự động trích rút dữ ệ li u sinh câu trả lời EAT
Bước đầu tiên trong vi c m r ng query là vi c ph i x ệ ở ộ ệ ả ử lý hình thái đa ngữnghĩa củ ừa t ng , b ng vi c thay th ữ ằ ệ ếcác từ khoá bằng những từ đồng nghĩa tương
ứng (trong t p cơ s d li u) n u c n thi t ệ ở ữ ệ ế ầ ế xác định tr ng tâm câu tr l i M t vài ọ ả ờ ộ
tiền tố thường xuyên xuất hiện trong câu hỏi như “vị trí”, “ở”, “tại” mong đợi câu
tr lả ời về địa điểm; “ngày”, “lúc”, “khi” mong đợi câu trả ời về ời gian… Sau xử l th
lý, chúng bị ạ lo i bỏ khỏi query
Vòng ti p theo, ta c n mế ầ ở ộ r ng vi c tìm ki m b ng vi c thêm vào (trong ệ ế ằ ệtrường h p “or”) các t ợ ừ đồng nghĩa vớ ụi c m t c n tìm ki m ừ ầ ế
Bước ti p theo là vi c x lý các tr ng t , b ng m t cách thích h p và lo i b ế ệ ử ạ ừ ổ ữ ộ ợ ạ ỏchúng kh i nh ng c m tỏ ữ ụ ừ ầ c n tìm ki m (x lý) tiế ử ếp
Trong vòng x lý cu i, n u query còn ch a nhiử ố ế ứ ều hơn 3 từ khoá dưới dạng liên từ ộ, đ ng từ cũng như tên người (n u có cế ả ọ h và tên) b loị ại bỏ Nếu ngay cảsau sự ắ c ỉa như vật t y mà v n còn t n t i nhiẫ ồ ạ ều hơn 3 từ khoá liên từ, chúng ta cũng
s loẽ ại bỏ ốt những từ khoá liên quan trực tiếp đến những từ khoá đã được xử ở n lý
phần trước (có thể thông qua cây phụ thu c đ phân tích c u trúc ngôn ngộ ể ấ ữ)
2 K ỹ thuật trích rút dữ li u - ệ retrieve document & answer extraction
2.1 Trích rút thông tin Retrieve document -
Dĩ nhiên, điều không thể thiếu trong một hệ ố th ng hội thoại t ự động là phải
định v ị đượ ậc t p tài li u ch a d li u mà câu hỏ ầệ ứ ữ ệ i c n có Trong quá trình này, sự sai khác giữa các định d ng câu hạ ỏi và các ứng viên câu trả ờ l i cần được xem xét, sự
Trang 2323
lựa chọn phải đủ ớn để đảm bảo độ chính xác cao nhưng phải kiểm soát được sự lnhiễu do ệc viết lại định dạng câu (reformulation) Hệ ống QA đã tái sử ụvi th d ng h ệ
th ng ố trích rút thông tin để ực hiện điều này th
Ví dụ như ệ h thống QALC (Question-Answering program of the Language and Cognition):
Module phân tích câu hỏi quyết định các thông tin như: định dạng câu trả ờ l i mong đợi, nhóm c a câu hỏi, từủ khoá… Thông tin này s được sử dẽ ụng đểtrích rút
d liữ ệu thông qua bộ tìm kiếm
Thông tin hay đoạn văn mà câu trả lời đang tìm kiếm là k t qu c a m t vài ế ả ủ ộquá trình ch n l a thành công, gọ ự ồm có:
• Lựa chọn đầu tiên dựa vào các từ có ý nghĩa (từ khóa) của câu hỏi tìm kiếm
tệp dữ ệ li u
Trang 24e
Đầu ra của modul này thường không ph i là thích h p nh t cho hả ợ ấ ệ ố th ng h i ộtho iạ: tài liệu có thể không được xếp hạng nếu là câu hỏi đúng-sai, s l a ch n d a ự ự ọ ựnhiều vào từ khoá hơn là bản thân câu hỏi…Vì thế, thường đầu ra sẽ được xử lý tiếp
ở bước sau là trích rút câu trả ờ l i (answer extraction)
2.2 Trích rút câu trả ờ Answer extraction l i -
Trích rút câu trả ờ l i Answer - extraction, hay còn gọi là bước xử lý cú pháp, là bước ti p theo sau vi c trích rút d liế ệ ữ ệu để đưa ra được câu tr l i mong mu n T i ả ờ ố ạbước này, các câu tr l i tiả ờ ềm năng được tách ra và đánh giá
Hai cách phổ ến để bi trích ra câu trả lời, đó là:
− Phân tích dạng câu tr l i (Answer type analysis) ả ờ
− Tiếp cận theo hướng học máy (Pattern learning approach)
U
Phân tích d ng câu trạ ả ờ l i -Answer type analysis:
Xây dựng t p các d ng câu tr l i ậ ạ ả ờ
Phân loại câu tr l i ả ờ
Các khuôn dạng được g n vói d ng câu tr lắ ạ ả ời tương ng ứ
Cách này có tính chính xác cao nhưng không trả ời đượ l c các câu h i ngoài ỏkhuôn dạng (không gán nhãn được)
U
Tiếp cậ n theo hư ng học máy Pattern learning approach ớ
- Dạng câu hỏi có thể được “h c” n u s d ng c p câu h i-tr lọ ế ử ụ ặ ỏ ả ời như một
kiểu dữ ệu liên tục li
Thuật toán
Trang 2525
− Khuôn chứa đối tượng, văn cảnh và câu hỏi được đưa ra bộ tìm ki m Ví ế
dụ: callories, Big Mac, 560
− Tất cả các tên thực thể được thay thế ằng dạng của chúng b
− Một vài khuôn dạng cùng loại được dùng để “học” về vài dạng sở ữu đặc htrưng
− Thực hiện tổng quát hoá (theo dạng thực thể và các lựa chọn token khác)
S dử ụng “độ tin tưởng” để đánh giá câu trả ời Độ tin tưởng được tính băng lcông thức (TH đúng/ TH đúng+sai)
Giai đoạn này có th ể được phân rã giai đoạn này thành 4 giai đoạn con
• Tìm ra các thực thể Entity Extraction: Nhiệm vụ ủa giai đoạn là rút ra một - c
t p ậ ứng viên câu trả ời từ tài liệu Có thể ấy ngay rằng, nếu sử ụng cây l th dtrie, quá trình duyệt cây kết thúc, ta sẽ thu được dạng câu trả lời mong muốn
T dừ ạng câu mong muố sinh ra tập hợp các thựn, c th s p x p theo các lu t ể ắ ế ậ
viết lại câu (reformulation)
• Phân loại các th c th - Entity classification: Tập thực thể ự ể thu được ở giai đoạn trước có th ể được phân vào m t s nhóm nhộ ố ất định Các loại thực thể
Mỗi dạng thực thể yêu cầu cách sắp câu và xử lý tương ứng
• Phân loại truy v n - ấ Query Classification: Dùng để xác đ nh lu t cú pháp c n ị ậ ầdung để ế vi t câu tr l i t câu hả ờ ừ ỏi đã được phân lo i ạ ở giai đoạn trước
• So sánh các thực th - Entity Ranking: Quy t đ nh d ng th c th có phù h p ể ế ị ạ ự ể ợdạng câu hỏi không Bước này có thể ử x lý chung khi phân tích câu hỏi nếu
s dử ụng cấu trúc cây phân tích Sử ụ d ng bộ ọ l c câu đ xác để ịnh, đánh giá câu
tr lả ời tương thích với câu hỏi, công thức cho điểm được lấy từ TREC
Trang 2626
2.3 K ỹ thuật xử lý đại từ thay thế
Ví d : Khi câu hụ ỏi sau được nh p vào: “B c tranh to nhậ ứ ất được vẽ năm nào?”
H thệ ống cần phải hiểu “Bức tranh to nhất” là đạ ừi t thay thế Hệ ố th ng phải
ti n ế hành tìm kiếm trong CSDL để tìm ra tên b c tranh có thuứ ộc tính kích thích đạt lớn nhất, sau đó thể vào câu hỏi, đưa câu hỏ ề ạng đơn giản hơn: “Bứi v d c tranh
$PIC được v ẽ năm nào? ”
2.4 T ổ chứ c cơ s ở d li ữ ệ u đ ộ c lậ p
Cơ sở ữ ệu cũng là mộ ấ d li t v n đ c n quan tâm c a h thống Trong phân tích ề ầ ủ ệcâu hỏi, đại đa sốcác hệ ố th ng h i tho i hi n nay dộ ạ ệ ựa vào đầu vào ng pháp là t p ữ ậ
cơ sở ữ ệ d li u c a WordNet và TREC Ngu n d liủ ồ ữ ệu lưu trữ thông tin, tu h th ng ỳ ệ ố
có thể là chưa sắ ếp x p ho c s p x p m t ph n Các h thống cơ sở ữ ệặ ắ ế ộ ầ ệ d li u chuyên nghiệp hiện nay như SQL server, Orcale sử ụng lưu trữ cơ sở ữ ệu trên các bảng d d li
Vấn đề đặt ra là cách tương ứng gi a nh ng bảữ ữ ng d li u này vớ ệ ốữ ệ i h th ng cú pháp và bộ ọ l c câu phù h p hợ ệngôn ngữ ự nhiên đã nói ở ần trên Có ể t ph th tham
khảo cách tổ chức của EUFID (End-User Friendly Interface to Data Management , )
tại đó tổchức dữ ệ li u được tổ chứ ộc đ c lập với phần ứng dụng Dữ ệu trong những li
h thệ ống liên quan đến ngôn ngữ ự nhiên thường bao gồm 3 thành phần là: t
• Các bảng ng ữ nghĩa ngữ ự t nhiên
• Các bảng lưu trữ ữ ệ d li u
• Ánh xạ gi a 2 b ng ng pháp và b ng d li u ữ ả ữ ả ữ ệ
2.4.1 B ả ng ngữ nghĩa câu - Semantic tables
Đây là loại d li u th hi n cách nhìn c a chuyên gia vữ ệ ể ệ ủ ề mặt ngôn ngữ ự t nhiên, tại đó, tập hợp từ được phát tri n và cể ấ trúc câu cơ bản đượu c định nghĩa Từ
ng ữ được phân loại như:
Trang 27Một thực thể ần tương tự như một danh từ và sự ện thì thường gắn với một g ki
động t Thành ph n liên k t là ti n từ ầ ế ề ố ẽ đượ s c lo i bạ ỏ sau khi câu được phân tích Quán t (systen word) , liên từ ừ, bổ nghĩa góp phần quyết định nghĩa của câu nhưng không liên quan đến ph n d liầ ữ ệu căn bản Đạ ừi t là nh ng t nh c l i cho c m t ữ ừ ắ ạ ụ ừ
đã được nh c đắ ến trước đó, đạ ừi t là nh ng tữ ừ s b ẽ ị thay thế trong qua trình phân tích câu Tóm lại, chỉ có những từ liên quan đến dữ ệ li u cơ bản là t thu c nhóm ừ ộ
dạng danh từ Ví dụ, ba nghĩa của từ “ship” được minh hoạ dưới đây:
Trang 2828
Hì 4 nh Nghĩa của từ "ship"
2.4.2 B ả ng dữ liệ u cơ b ả n
Bảng dữ ệu cơ bả li n th hi n c u trúc d li u theo cách nhìn c a m t h th ng ể ệ ấ ữ ệ ủ ộ ệ ố
quản lý dữ ệu Vì tất cả các hệ ản trị cơ sở ữ ệu xử lý các thành phần dữ ệ li qu d li li u
bằng cách tổ chức nh ng “nhóm” liên kữ ết thực thể Việc có một định d ng bạ ảng chung là hoàn toàn khả dĩ vớ ớ ấ ỳ ệi v i b t k h quả ịn tr cơ s d li u nào ở ữ ệ
Bảng dữ ệu cơ bả li n g m 2 thành ph n, m t lo i ch a các thông tin c a ồ ầ ộ ạ ứ ủ
“nhóm” và các thành ph n dầ ữ ệu Nhóm đượ li c định nghĩa bằng tên nhóm Thành phần còn lại chứa mối liên kết giữa các nhóm
2.4.3 Ánh x ạ ữ gi a 2 lo i b ạ ả ng
Thành ph n này có chầ ức năng chỉ ẫn cho chương trình cách thứ d c đi từ m t ộnút ngữ nghĩa (trong từ điển ngữ nghĩa) tới tên c a vùng dủ ữ ệ li u cơ b n ả
Trang 2929
3 K ỹ thu ậ t x lý hi ử ệ n tư ng đ ợ ồ ng tham chi u và t ế ỉ nh lư ợ c trong ti ng vi ế ệ t
3.1 Hi ệ n tư ng đ ợ ồ ng tham chi u trong ti ng Vi ế ế ệt và hướ ng ti ế p cận
Hiện tượng đồng tham chiếu Np anaphora là hiện tượng đồng tham chiếu hay xảy –
ra nh t trong h i tho i ti ng Viấ ộ ạ ế ệt
3 1.1 Np anaphora -
Nhắc lại định nghĩa, hiện tượng Np anaphora là hiện tượng một từ thường - -
là đạ ừi t - thay th cho một danh từ, một cụm danh từ ế đã nhắc đến ở phía trước
a Cách ti ế p cậ n cũ – thu ậ t toán Hobbs.
Phải nói rằng, đây là thu t toán nh n diậ ậ ện đạ ừ đầi t u tiên cho nh ng k t quữ ế ảthực nghiệm khả quan từ ững năm 70 củ nh a th k ế ỷ trước Trước khi b t tay vào ắnghiên c u nh ng thu t toán m i, em xin phép nhứ ữ ậ ớ ắc lạ ểi đi m cốt lõi c a thu t toán ủ ậnày
Thuật toán này đòi hỏi xây ựng một cây phân tích cú pháp, cây phân tích có dnhiệm vụ phân chia câu thành chủ ữ ộ ng , đ ng từ ạ, đ i từ, bổ ữ, tính từ… mà không ngthay đổi tr t t t hay b qua t trong câu theo chi u phân tích t trái sang ph i ậ ự ừ ỏ ừ ề ừ ảđúng như cấu trúc ng pháp ti ng Anh ữ ế
Hì 5 - nh Mô phỏng thuật toán Hobbs
Căn bản dựa trên cây phân tích cú pháp, thu t toán duy t qua bậ ệ ề ặ m t cây phân tích cú pháp theo m t tr t tộ ậ ự đặc bi t, tìm ki m m t c m danh tệ ế ộ ụ ừ tương thích về ố s lượng (s ít, s nhi u), ki u lo i (giố ố ề ể ạ ống đực, gi ng cái ) v i đ i t Tr t t duy t ố ớ ạ ừ ậ ự ệnhư sau:
Trang 3030
1 Bắt đầ ở nút NP đạu i diện cho đại từ ần thay thế c
2 Đi ngược lên gốc của cây đến khi gặp nút NP hoặc nút S đầu tiên Gọi nút này là X, và con đường để dẫn đến X là p
3 Duyệt tất cả các nhánh ở dưới nút X và bên trái nhánh p theo phương pháp tìm ki m r ng Cho là m i c m tế ộ ỗ ụ ừ ị b thay thế ởi đạ b i t (antecedent) có m t nút NP ừ ộhoặc S nằm giữa nó và X
4 Nếu X là nút S cao nh t trong câu, duy t cây phân tích cú pháp cấ ệ ủa câu đứng trước theo tr t t t ậ ự ừ câu gần nhất vói câu đang xét Mỗi cây được duyệt kiểu tìm
kiếm rộng từ trái sang phải, và khi gặp một nút NP, nút đó được cho là c m tụ ừ mà
đạ ừi t thay th (antecedent) N u X không ph i là nút S cao nh t trong cây, ti p tế ế ả ấ ế ục bước 5
5 T ừ nút X, tiếp tục đi lên gốc cây cho đến khi gặp được một nút S hoặc NP
Gọi nút mới này là X và con đường duyệt đến nó là p
6 Nếu X là một nút NP và đường p duyệt tới X không chứa nút (mỗi nút NP
có một nút ngay dưới nó đại diện phần danh từ chính của cụm danh t ) nào mà X ừngay lập tức bao hàm, gán X là cụm danh t thay thừ ế (antecedent)
7 Duyệt tất cả các nhánh cây nằm dưới nút X theo tr t tậ ựtìm kiếm rộng từ trái sang ph i Gán m i nút NP gả ọ ặp được là antecedent
8 Nếu X là một nút S, duyệt tất cả các nhánh của nút X đến nhánh bên phải của đường p theo tr t t tìm ki m r ng t trái sang phậ ự ế ộ ừ ải nhưng không duyệt xuống dưới
bất cứ nút NP hay S nào gặp được Gán bấ ứt c nút NP nào gặp được là antecedent
Điểm hạn chế ủ c a thuật toán này, đó chính là việc chỉ ệ hi u qu trong viả ệc xử
lý các đồng tham chi u n m trong cùng m t câu, trong nhiế ằ ộ ều trường hợp, để ả c i thiện hiệu quả yêu cầu phải đưa vào những ràng bu c h n ch ộ ạ ế như là:
• Ngày tháng không thể ịch chuyển d
• Địa điểm không thể di chuyển
• Những v t l n không thậ ớ ể ị dch chuyển
Trang 31là không có Vì thế ệ vi c cài đặt thu t toán Hobbs tr nên không khậ ở ả thi
b Cách tiếp cận mới – Đa chiế n lư ợ c
Ý tưởng của cách tiế ập c n m i này là thay vì hoàn toàn phớ ụ thuộc vào tr t tậ ự
của cây cú pháp như thuật toán Hobbs, ta chỉ tìm kiếm các tiền ngữ phía trướ ạc đ i
t ừvà sử ụng tập các ràng buộ ể d c đ x ửlý lựa chọn ra tiền ngữ phù hợp nhất với đại
ng biữ ến đổi linh động qua từng câu Mỗi đại từ thay thế ẽ ứng với một tiền ngữ s duy nhất trước nó (là danh ngữ được xếp mức ưu tiên cao nhấ ủa câu trướt c c).N u ếgọi tập các tiền ngữ trong câu th n-ứ 1 là Cf, tập các đạ ừi t thay th trong câu thế ứ n
là Cb(i), vi c chúng ta phệ ải làm là tìm ra được Cp (tiền ng thích h p nh t) trong Cf ữ ợ ấtương ứng cho t ng Cb(i) ừ
Ta xây d ng các ràng buự ộc với các mức ưu tiên từ trên xuống dưới như sau
• Local constraints : Tiền ngữ và đại từ đồng tham chi u ph i th ng nh t vế ả ố ấ ề
mặt số lượng (số ít, số nhiều), giống (người/ vật, đực/ cái), bản chất (động
Trang 3232
vật/ thực vật)… Tất cả các ng viên trong Cf vi ph m r ng buứ ạ ằ ộc này đều
phải bị ại bỏ lo
Ví dụ John và Mary đi siêu thị : , Anh y mua m t cái tấ ộ ủ ạ l nh mới Anh ấy
phải được hiểu là John
• Case – role sentence contraints : Vai trò ý nghĩa học của tiền tố và đại từ
đồng tham chi u ph i th ng nh t T t c các ứng viên vi phế ả ố ấ ấ ả ạm đều phả ị i b
loại bỏ
Ví d : John l y cái bánh ụ ấ ở trên bàn và ăn nó “nó” là cái bánh chứ không
th ể là bàn được
• Disjoint-Contraints : Câu Su – Verb – Ob tu vào tỳ ừng động từ ụ ể c th mà
có cho phép Su và Ob là m t hay không Tộ ất cả các tiền t vi ph m ràng ố ạ
Mọ ềi ti n ngữ không thoả mãn đều phải bị ại bỏ lo
• Prefer- Constraint: Nếu sau khi tất cả các giớ ạn trên đượi h c áp dụng mà
vẫn con nhiều hơn 2 ứng viên tiền tố Ta sẽ tính đến ưu tiên về vai trò
ng ữ pháp và ưu tiên vềchủ đề câu
Các ứng viên tiền ngữ được xác định b ng cách lằ ọc ra các cụm danh từ ừ t câu
gần nhất mà thuật toán tìm được tiền ngữ thích hợp, nếu không tìm được thì bắ ầt đ u
t ừcâu gần nhất được nhập vào Để thuật toán được chính xác cần phải phân biệt rõ ràng ràng bu c nào là b t bu c và ràng bu c nào là ph n thêm Ràng buộ ắ ộ ộ ầ ộc bắt bu c ộ
áp d ng cho t t cụ ấ ả các trường h p trong khi ràng bu c thêm ch áp d ng cho các ợ ộ ỉ ụtrường h p nh p nh ng (c th ợ ậ ằ ụ ểnhư câu có hơn 2 người vai trò tương đương)
Khẳng định ràng buộc thêm không có độ chính xác 100 %, đó chỉ là các điều
kiện ta thêm vào để ối ưu hóa kết quả trong các trường hợp nhập nhằng ngữ nghĩa t
mà thôi
Trang 3333
3 1.2 “One” anaphora
Nhắc lạ ịnh nghĩa, onei đ - anaphora là hiện tượng sử ụ d ng số ừ để t thay thếcho từ ạ lo i danh từ đã nhắc đến phía trước
S t ố ừ thường được sử ụ d ng nhiều như: cái, chiếc,đứa…
Ví d : Trung tâm m i nh p vụ ớ ậ ề ộ m t loại thi pU ệ U m i ớ
Cho tôi xem thử Umột chiếcU
Mặc dù đây là hiện tượng hay g p trong h i tho i ti ng Viặ ộ ạ ế ệt nhưng do tính chất của hội thoại là li n mề ạch và đơn giản nên việc xửlý one-anaphora cũng tương tự như Np anaphora nhưng các ràng buộ- c c a nó không nhiều – ủ chỉ có sự ràng buộc tương thích giữa danh t và s t ừ ố ừ
Ví dụ:
• Lan muốn Uăn kem Tràng TiềnU
• Nhưng tôi không muốn UthếU
Ch ỉxét các câu có cấu trúc đơn giản (vì m c tiêu c a luụ ủ ận văn là hướng vào
ứng d ng h i thoụ ộ ại), đặc điểm nh n bi t VP anaphora là câu có cậ ế – ấu trúc <đ ng ộ
từ><từ thay thế>, trong đó, <động từ> thường là các động t ch s ừ ỉ ở thích như thích,
muốn… và từ thay thế thường là: thế, vậy
c thù cĐặ ủa hội tho i là tính liên tạ ục của ngữ ả c nh, vì thế ế n u phát hi n m t câu ệ ộ
có x y ra hiả ện tượng VP – anaphora thì cụm động từ - tiền ngữ đã được thay thế-
phải xuất hiệ ở câu ngay phía trước Ta chỉ ần c n tìm các ti n ng là cề ữ ụm động t ừ đểthay th (mà không cế ần đến một cây cấu trúc ngữ pháp hoàn chỉnh và chính xác)
3.1.4 S- anaphora
Nhắc lại định nghĩa, S- anaphora là hiện tượng sử ụ d ng một từ để thay thế cho
c mả ột câu đã được nhắ ếc đ n ở phía trước
Ví dụ:
Trang 34Cách ti p c n cế ậ ủa S- anaphora cũng tương tựVP – anaphora
3.2 Hiệ n tư ợ ng tỉ nh lư ợc câu và hướ ng tiếp cận
3.2.1 T ỉ nh lư ợ c ngữ pháp - Contextual ellipsis
Nếu như hiện tượng đồng tham chiếu, đặc biệt là NP anaphora không chỉ ả- x y
ra trong h i tho i mà còn xu t hi n r t nhi u trong nhộ ạ ấ ệ ấ ề ững đoạn văn chuẩn m c thì ự
hiện tượng tỉnh lược câu lại là hiện tượng đặc thù của hội thoại Như đã phân tích ở
phần trước, chúng ta sẽ chỉ quan tâm đến phần tỉnh lược ngữ pháp (Contextual
ellipsis )- phần lược bỏ ủa câu có ể được khôi ph c th ục lạ ựi d a vào ngay câu phía
trước, thường phần lược b ỏ đó là sự ặ ạ ủ l p l i c a m t t ho c m t c m t ộ ừ ặ ộ ụ ừ đứng trước – trong khi tỉnh lược tình hu ng ( Pragmatic ellipsis) l i yêu cố ạ ầu có được sự ậ nh n
diện tình huống cụ ể khi xảy ra hội thoạ th i – vấn đề này t m th i s ạ ờ ẽ không xét đến
trong luận văn này
Tỉnh lược ngữ pháp -Contextual ellipsis bao hàm nhiều trường hợ ỉnh lược p tcâu khác Ranh gi i giớ ữa tỉnh lược và VP anaphora, S anaphora , one- – -anaphora chỉ là tương đối Tuy câu tỉnh lược có nhi u dề ạng, nhưng trong hội tho i vạ ới người
hỏi là người sử ụng thì hai loại câu tỉnh lược hay gặp nhất là thuộc tính ật, vậ d v t
A v ật B với A,B thuộc cùng lo i thạ ực thể (A,B có thể đồng nghĩa , hoặc là phân
lớp con/cha của nhau)
• Trong trường b n có bao nhiêu n giáo viên có b ng tiạ ữ ằ ến sĩ?
Trang 35• Hè này tôi Ungh mátỉ U H Long ở ạ
• Tôi thì [- Gapping - ầm Sơn ] S
3.2.2 Hướ ng ti p c n ế ậ
Hình 6 - Mô ph ng quan h ỏ ệ ừ ự t v ng
Bài toán gi i quy t hiả ế ện tượng tỉnh lược là bài toán khôi phục lạ ầy đủ ấi đ c u trúc của câu đã bị lược bỏ Giả ế thi ồ ạ ộ ốt t n t i m t m i quan hệ ữ gi a mộ ừ t t trong câu
tỉnh lược ngữ pháp và một từ trong phần đã bị tỉnh lược ta gọi đây là mối quan hệ –
tỉnh lược Ví dụ : cái khóa là m t ph n cộ ầ ủa cán ửh c a , ta ký hi u: cánh cệ ửa cái khóa M t m i qua hộ ố ệ như thếlà n n t ng gi i quy t bài toán Tìm ki m m i quan ề ả ả ế ế ố
h ệnày là nhiệm vụ ần thực hiện, tuy nhiên vi c này s c ệ ẽkhông được thực hiện một cách trự ếc ti p mà b ng cách tìm kiằ ếm gốc và đích (tiền ngữ ị b lược bỏ) của mối qua
h ệnày
Thuật toán x lý vử ấn đềnày có thể tóm lược như sau:
• Bắt đầu từ câu tỉnh lược B
Trang 3636
• Tìm kiếm A câu gở ần đây nhất cho k t qu ti n t ế ả ề ố
• Kiểm tra mối quan hệ của A và B Nếu A thoả mãn các rằng bu c Viết lại ộ
B theo A
• Không thoả mãn Tìm ti p ế ở câu trước đó
Chú ý là với đặc thù liên tục của hội tho i và giạ ả thiết là tất cả các y u tố đã ế
biết (tìm được tiền ngữ) hầu hết các tiền ngữ ị lược bỏ ải được tìm thấ ở câu b ph y phía trước
Bởi vì hiện tượn ỉnh lượ ốg t c v n là hi n tư ng ng pháp câu khuyệ ợ ữ ết đi một phần, do đó, cái “gốc” của mối quan hệ tỉnh lược khá dễ dàng để ận diện : phát nh
hiện khiếm khuyết ngữ pháp của câu Về ặ m t ng ữpháp, các dạng khi m khuy t hay ế ế
gặp nhất là dạng:
• Thiếu vắng chủ ể th - một từ mà không thể đứng đầu câu l i không ch u tác ạ ị
động c a các t khác trong câu Ví d ủ ừ ụ như một tính từ thiếu vắng danh
từ…như (nghiêm trọng l ỗi lầm)
Thiếu vắng bổ ữ ng - một từ yêu cầu kèm theo th c thự ể ị b tác động nhưng trong câu không có th c thự ể này Ví dụ đơn giản như từtrong câu tỉnh lược là một bộ ậ ph n,
một thuộc tính, một phân lớp của từ đã bị ỉnh lược, như tranh trường phái trừ t u
tượng
Thuật toán nhìn qua có vẻ khá đơn giản tuy nhiên vấn đề ấ m u ch t và phố ức
tạp của hiện tượng tỉnh lược câu chính là phát hi n m i quan hệ ố ệ ữ gi a hai câu A –
câu tỉnh lược và B- câu phía trước Giải pháp của luận văn này đó là so sánh từ ấ/c u trúc c a 2 câu và d vào m i quan hủ ự ố ệđã được định nghĩa trong một từ điển được
xây d ng mự ới tương tựWordNet C u trúc cấ ủa từ điển này sẽ được làm rõ ở ph n ầ
sau
3 3 Tổng hợ p
3.3.1.Hướ ng gi i quy t m i quan h ch ng - ả ế ố ệ ủ ữ độ ng từ ổ ữ - b ng
Mặc dù ận văn ựa trên cách ti p clu d ế ận cố ắ g ng ít d a vào phân tích câu hự ết
mức có thể, nhưng các ràng buộ ộc đ ng từ danh t - ừ ẫn đòi hỏ v i vai trò cú pháp của
t mừ ở ột mức nhất định nào đó
Trang 3737
Xét ví dụ:
• Họa sĩ Tô Ngọc Vân số ở đâu?ng
• Ông ấy sinh ra và lớn lên ở Hà Nội
• Tôi nghĩ rằng b c tranh này là gi ứ ả
Trên là ba ví dụ ề ạ v d ng câu hay gặp nhất, dựa trên điều ki n là các câu hội ệthoại là câu đơn có cấu trúc khá đơn giản, ta có thể tìm kiểm chủ ữ ủ ộ ng c a đ ng từ
bằng thuật toán đơn giản mà hiệu quả như sau:
• Ch ng ủ ữ là danh từ đứng trướ ộc đ ng từ thay vì đi phân tích cú pháp câu,
ta đi tìm danh từ đứng trước động t ừ đó
Nếu phía trước động từ là từ ối như và, nhưng… chủ ữ ủ ộ n ng c a đ ng từ đó là chủ
ng cữ ủa động từ phía trước nó
3.3.2 Hướng xây dựng cơ sở ữ ệ ừ ể d li u t đi n m i ớ
a Nguyên nhân
Câu hỏ ặi đ t ra là t i sao không thạ ể ử ụ s d ng m t tộ ừ điể n từ ựng thông thườ v ng
vốn đã rất sẵn có mà cần phải tạo một từ điể ộn đ ng mới tương tự ừ điển WordNet? t
Việc xây dựng từ điển mới rõ ràng là phức tạp và tốn thời gian hơn nhiều nhưng lại
là điều c n thi t bầ ế ởi các lý do sau đây :
• Để gi i quy t hi n tư ng tả ế ệ ợ ỉnh lược ta c n bi t m i quan h m c sâu gi a các ầ ế ố ệ ứ ữ
từ, ví dụ như : ổ khóa là một phầ ủn c a cánh c a, th y giáo và hử ầ ọa sĩ đều là t ừ
loại nghề nghiệp của con người hay như trường phái là một thuộc tính của
b Cấu trúc từ điển mới.
T ừ điển mới được xây dựng cở ấu trúc cây Xml, dễ dàng cho phép người dùng
nhập thêm từ ới nếu cần thiết Hai đối tượ m ng c n quan tâm nh t c a luầ ấ ủ ận văn
Trang 38Mục tiêu của từ điển này là không chỉ liệt kê các danh t mà còn ph i – trực ừ ả
tiếp hoặc gián tiếp – đưa ra được m i quan h giố ệ ữa các danh từ ếu có n
Hình 7 Cây Semantic 1
Trong đó, các từ thu c cùng một cha sẽộ có ng ữ nghĩa tương tự nhau, và các từ
có quan hệcha – con trong cây xml sẽcó quan hệ ụ ph thuộc bộ ận hoặc thuộc phtính v i nhau.ớ
+) T ừ điể n đ ộ ng từ
Mục tiêu của từ điển này là liệt kê động từ và mối quan hệ ữ ộ gi a đ ng từ và danh t Vì thừ ế ấu trúc cây độ c ng từ đơn giản hơn Các nút cây chỉ là Root/<Vx>/HeadWord/
Trong đó, Vx đại di n m t d ng con c a đ ng t ệ ộ ạ ủ ộ ừ (đã nêu trong phần 3.2) và
mỗi nút headword sẽ thêm vào các thuộc tính như Su, Ob… thể ệ yêu cầu ràng hi n
buộc của nhóm động từ đó
3.3.3.T ổ ng hợp các phương pháp
Các phân tích trên sở ử ụ d ng chi n thuế ật chia để ị tr, phân lo i hiạ ện tượng đồng tham chi u và tế ỉnh lược thành các trường hợp nhỏ hơn và sử ụ d ng các cách tiế ận p c
Trang 3939
khác nhau để ả gi i quy t tế ừng trường h p Bài toán ch hoàn ch nh khi ta có thợ ỉ ỉ ể ổ t ng
hợp các phần riêng lẻ ại thành một khối thống nhấ l t
Trong quá trình phân tích t ng d ng riêng bi t cừ ạ ệ ủa hiện tượng tỉnh lược và
đồng tham chi u, ta có th ế ể đưa ra nhận xét sau:
• Câu phía trước là câu đã qua xử lý c a h th ng t ủ ệ ố ừ trước, do đó nó là câu đầy
đủ ả ề c v ng ữ nghĩa lần ng pháp ữ
• Mỗi câu, nếu có xảy ra thì chỉ ảy ra một trong những trường hợp nhỏ đã nêu x
• Tỉnh lược là hiện tượng câu thiếu các bộ ph n ngữ pháp ậ
• Đồng tham chi u là hiế ện tượng câu đủ ộ b phận ng ữ pháp nhưng thiếu ng ữnghĩa
Do đó, hệ ố th ng sẽ phải xây d ng modul thích hự ợp để phát hi n hiệ ện tượng
ng ữ pháp xảy ra trong câu với ưu tiên kiểm tra hiện tượng tỉnh lược trước vì hiện tượng đồng tham chi u ít nhi u d a trên ng pháp câu ế ề ự ữ
4 K ỹ thu ậ t phân tích câu h i d a vào cây Trie ỏ ự
4 1 Cấu trúc cây Trie.
Một cây Trie , theo Clément et al.(1998), là m t c u trúc dộ ấ ữ ệu đượ li c định nghĩa bởi m t luộ ật đệ quy T(S) = <T(S/a1),T(S/a2),…,T(S/ar)>, v i S là m t tớ ộ ập hợp các xâu alphabet A = {aj}rj=1 , và S/an là t t cấ ả các chuỗi của S bắt đầ ới an u vTrong hệ ố th ng này, ta sử dụng cấu trúc trie với các “chuỗi” là các định dạng câu hỏi và “alphabet” là tập các từ để ỏ h i và các dạng thực thể Mộ ịt đnh d ng câu ạ
hỏi là ột đại diên c a bim ủ ểu thức RE với phầ ắ ần b t đ u và kết thúc được đánh dấu,
phần còn lại đượ ạc đ i diện bằng các dạng thực thể
Ví dụ: <Q AT=’NAME’> Who is the
<ENAME type =”POS”> dean</ENAME> of
<ENAME type = “ORG”> Macquarie
University </ENAME> ? </Q>
Trang 4040
Biểu diễn của câu hỏi trie tương đối giống biểu diễn của một từ điển trie, tuy nhiên, việc lưu trữ thông tin, sử ụ d ng dấu hiệu (token)… là khác bi Trong biệt ểu diễn trie, mỗi khi một nút được thăm hoặc tạo mới, tần suất EAT của nó được ghi lại Vì một nút trong trie có thể đến được qua nhiều d ng câu khác nhau, m i nút có ạ ỗlưu trữ ầ t n s và phân loố ại Giả ử s có một tập các câu hỏi, ta phân tích chúng thành các khuôn d ng cạ ụ ể như sau th :
B ng 2 ả Các câu hỏi mẫ u
Hình dưới ch ra cách d liỉ ữ ệu đượ ổc t chức và lưu trữ tương ứng v i t p chu i ớ ậ ỗ
định d ng câu h i b ng trên Có th nh n th y r ng, m i nút cạ ỏ ở ả ể ậ ấ ằ ỗ ủa trie lưu trữ ộ m t hay nhi u EAT.ề