Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
546,12 KB
Nội dung
Tạp chí Tin học Điều khiển học, T.30, S.1 (2014), 15–27 TRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆTSỬDỤNGPHƯƠNGPHÁPLANTRUYỀNNHÃN LÊ THANH HƯƠNG1 , SAM CHANRATHANY1 , NGUYỄN THANH THUỶ2 , NGUYỄN THÀNH LONG1 , TRỊNH MINH DŨNG1 Viện Công nghệ Thông tin Truyền thông, ĐH Bách khoa Hà Nội Khoa CNTT, Trường ĐH Công nghệ, ĐHQG Hà Nội Tóm tắt Bài báo đề xuất việc xây dựnghệ thống tríchrútquanhệthựcthểtừvăntiếngViệtsửdụngphươngpháplantruyềnnhãnCác đóng góp là: (i) đề xuất phươngpháp đo độ tương đồng câu; (ii) đề xuất phươngpháp giảm ảnh hưởng nhãn có tần suất xuất lớn đến trình lantruyềnnhãn Thử nghiệm cho thấy phươngpháp giảm ảnh hưởng nhãn có tần suất xuất lớn cho kết tốt đáng kể phươngpháplantruyềnnhãn gốc [10] Ngoài ra, sửdụng liệu huấn luyện nhỏ phươngpháplantruyềnnhãn tốt phươngpháp SVM Từ khóa Tríchrút mối quan hệ, lantruyền nhãn, học bán giám sát Abstract This paper presents a relation extraction system for Vietnamese texts using label propagation In this paper, we propose: (i) a measure of similarities between two sentences; (ii) a method to decrease the effect of high frequency labels in the documents Our experimental results show that proposed label propagation method achieves a higher accuracy than the ordinary one [10] Moreover, its accuracy is also higher than the support vector machine method applied Key words Relation extraction, labeled propagation, semi supervised learning MỞ ĐẦU Tríchrút mối quanhệthựcthể (Relation Extraction - RE) công việc xác định quanhệ cặp thựcthểvăn Ví dụ, quanhệ sống hai thựcthể “ tên người ” “ tên địa điểm ”, quanhệ họ hang hai thựcthể “ tên người ” “tên người” Trong thập niên qua, có nhiều nghiên cứu tríchrútquanhệthựcthể [1, 3, 6, 9, 12] Các nghiên cứu chia thành hai hướng Đó cách tiếp cận dựa việc xây dựng tập luật tríchrút cách thủ công cách tiếp cận dựa học máy Trong cách tiếp cận thứ nhất, luật thủ công xây dựng dựa việc quan sát quy luật liệu, nên thường có độ xác cao Tuy nhiên, cách tiếp cận không xử lý hết trường hợp chưa bao quát tập luật Trong đó, kĩ thuật học máy thường sửdụng tập liệu gán nhãn cho trước để xây dựng nên mô hình, phục vụ cho mục đích toán (học có giám sát) Đây cách tiếp cận tự động, cho phép ta học luật có xuất liệu huấn luyện, khó phát quan sát thủ công người Khó 16 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs khăn học có giám sát cần tập liệu gán nhãn có kích cỡ lớn để phục vụ cho việc huấn luyện mô hình tríchrút Việc xây dựng tập liệu huấn luyện lớn đòi hỏi phải đầu tư nhiều thời gian công sức Đối với tiếngViệt chưa có tập liệu gán nhãn với kích thước lớn Để giải vấn đề này, cách tiếp cận học máy bán giám sát đề xuất năm gần [4, 8, 11] Ý tưởng phươngpháp học máy bán giám sát là: huấn luyện hệ thống sửdụng liệu gán nhãn (thường có kích cỡ nhỏ) liệu chưa gán nhãn (thường có kích cỡ lớn) Zhang cộng [11] giải toán tríchrút mối quanhệthựcthể cách sửdụngphươngpháp Bootstrapping kết hợp với SVM Đầu tiên, họ biểu diễn câu dạng (cpr , e1 , cm , e2 , cpt ) → r, e1 e2 thựcthể xét mối quanhệ r, cpr , cm , cpt ngữ cảnh trước, sau cặp thựcthể Sau đó, sửdụngphươngpháp Bagging Bootstrapping để huấn luyện hệ thống Ý tưởng phươngpháp là: Giả sử có L mẫu có nhãn U mẫu chưa gán nhãn Đầu tiên, nhân mẫu có nhãn L thành B gói huấn luyện B phân lớp sửdụng liệu nhân B phân lớp áp dụng liệu chưa có nhãn U Sau gán nhãn cho tập liệu U , hệ thống tính độ tin cậy để tìm S câu có độ tin cao (độ tin cậy tính hàm entropy) đưa thêm vào liệu huấn luyện Quá trình lặp lại không tìm liệu thỏa mãn Tác giả [8] sửdụngphươngpháp học máy bán giám sát sửdụngphươngpháp SVM kết hợp với kỹ thuật bagging bootstrapping để tríchrút mối quanhệvăntiếngViệt Đầu tiên, họ biến đổi câu văn thành hai hàm nhân Hai hàm nhân hàm nhân ngữ cảnh toàn cục (thu thập thông tin ngữ cảnh câu để suy mối quan hệ) hàm nhân ngữ cảnh cục (để suy vai trò thựcthể câu, xác định đâu tác nhân, đâu đích) Tiếp theo, họ sửdụng SVM kết hợp với kỹ thuật bagging-bootstrapping để huấn luyện hệ thống Chen cộng [4] đề xuất phươngphápbán giám sát, sửdụng giải thuật lantruyềnnhãn (label propagation) Họ biểu diễn mẫu (có nhãn chưa có nhãn) dạng nút, khoảng cách nút trọng số cạnh đồ thị Trên sở đó, xây dựng hai ma trận Y T Ma trận Y có kích thước m × n, với n số mẫu có nhãn chưa có nhãn, m số nhãn cần xét Ma trận T , có kích thước n × n, đo độ tương đồng mẫu Thựcnhân hai ma trận lặp lại trình nhiều lần hội tụ Kết thúc trình, ma trận Y , mẫu có nhãn tương ứng với phần tử có giá trị lớn Như vậy, điểm nhấnphươngpháp đo mức độ tương đồng mẫu Có thể thấy rõ ưu điểm phươngpháp chỗ, nhãnquanhệ dựa tương tự mẫu nên không cần đến liệu lớn Trên sở ưu nhược điểm phươngpháp đó, báo đề xuất cải tiến giải thuật lantruyềnnhãn Chen cộng [4] cho toán tríchrútquanhệthựcthể cho văntiếngViệtTRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂSỬDỤNGPHƯƠNGPHÁPLANTRUYỀNNHÃN 2.1 Phươngpháplantruyềnnhãn Trong phươngpháp này, liệu gán nhãn chưa gán nhãn biểu diễn dạng điểm không gian Quá trình lantruyềnnhãnthực theo kiểu qui TRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 17 nạp, cách gán nhãn dần điểm chưa gán nhãn, dựa khoảng cách chúng với điểm gán nhãn Cách biểu diễn liệu đồ thị Giả sử ta có đồ thị G = (V, E), với V = {1, , n} tập nút E tập cạnh Trong toán tríchrútquanhệthực thể, nút câu gán nhãn chưa gán nhãnquanhệ Mỗi cạnh ứng với độ tương đồng câu Độ tương đồng biểu diễn ma trận T xi xj láng giềng Tij = Khi đó, cạnh (i, j) E có trọng số Tij Ý tưởng học bán giám sát nhằm lantruyềnnhãn đồ thị thể sau: Tại thời điểm ban đầu, nút 1, 2, , l có nhãn nút l + 1, , n chưa có nhãn Tiến hành lantruyềnnhãn nút cho láng giềng Quá trình lặp lặp lại không lantruyềnnhãn tiếp gán nhãn cho tất đỉnh đồ thị Trong phươngpháplantruyền nhãn, mẫu biểu diễn nút khoảng cách hai nút trọng số cạnh nối chúng Sau đó, thông tin nhãn nút đồ thị lantruyền cho nút bên cạnh thông qua trọng số cạnh đạt trạng thái ổn định Trọng số cạnh lớn, nhãn qua cạnh dễ dàng Do mẫu giống có nhãn giống Giải thuật lantruyềnnhãn đề xuất tác giả [10], mô tả giải thuật Ma trận Y (biểu diễn mối quanhệ mẫu nhãn) ma trận T (đo độ tương đồng mẫu) xây dựng Ma trận Y có n hàng, m cột với n tổng số mẫu gán nhãn chưa gán nhãn, m số nhãn cần xét; Yij = mẫu thứ i có nhãn j , trường hợp ngược lại Ma trận T có kích thước n × n với n tổng số mẫu bao gồm mẫu gán nhãn chưa gán nhãn; Tij độ tương tự mẫu thứ i với mẫu thứ j Sau đó, lặp lại việc nhân ma trận T với ma trận Y nhiều lần đến hội tụ Cuối cùng, mẫu chưa có nhãn ma trận Y gán nhãn ứng với phần tử có giá trị lớn hàng ứng với mẫu Trong trình lantruyền nhãn, nhãnban đầu mẫu gán tay giữ lại bước lặp để cung cấp nguồn nhãn, có nghĩa bước lặp l dòng đầu ma trận Y mang giá trị giống hệt ma trận khởi tạo Các mẫu gán nhãn tay đóng vai trò nguồn để sinh nhãn cho liệu nhãn Giải thuật 1: Lantruyềnnhãn [10] Bước 1: Khởi tạo +t=0 + Y khởi tạo nhãnban đầu kết nối với nút, Yij0 = yi có nhãn rj ngược lại + YL0 l dòng phía ma trận Y tương ứng với l liệu có nhãn YU0 u dòng lại, tương ứng với liệu chưa có nhãn Bước 2: Lantruyềnnhãn nút cho nút láng giềng cách Y t+1 = T Y t , T ma trận chuẩn hóa ma trận T Bước 3: Giữ lại phần có nhãnban đầu, tức thay l dòng đầu ma trận Y t+1 YL0 Bước 4: Lặp lại bước thoả mãn điều kiện dừng Bước 5: Gán xh (l + ≤ h ≤ n) nhãn yh = arg maxj Yhj Điều kiện dừng số vòng lặp lớn tham số Q vòng vặp dừng Y t = Y t+1 18 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs 2.2 Đo độ tương đồng câu dựa phươngpháp so trùng thuộc tính từ Mục tiêu toán tính độ tương đồng câu có chứa hai thựcthể Bài toán phát biểu sau: Xét tài liệu d có n câu: d = S1 , S2 , , Sn Mục tiêu toán tìm giá trị độ tương đồng cặp câu (Si , Sj ) Giá trị cao, giống ngữ nghĩa hai câu lớn Hai câu có độ tương đồng lớn, khả chứa mối quanhệ cao Giả sử: Câu thứ có m từ, S1 = A1 A2 A3 Am Câu thứ hai có p từ, S2 = B1 B2 B3 Bp SimW (Ai , Bj ) độ tương đồng từ Ai S1 từ Bj S2 , i = 1, m, j = 1, p SimW S(Ai , S2 ) độ tương đồng từ Ai với tất từ câu thứ hai B1 B2 B3 Bp SimGB(S1 , S2 ) độ tương đồng ngữ cảnh toàn cục hai câu SimLC(S1 , S2 ) độ tương đồng ngữ cảnh cục hai câu SimS(S1 , S2 ) độ tương đồng hai câu Chúng đề xuất tính độ tương đồng ngữ nghĩa hai câu sau: Mỗi từ câu thứ so với tất từ câu thứ hai khía cạnh: từ, từ loại, kiểu thực thể, ngữ nghĩa Độ tương đồng từ câu thứ với tất từ câu thứ hai tính SimW S(Ai , S2 ) = max SimW (Ai , Bj ), (1) 1≤j≤p tức giữ lại giá trị độ tương đồng từ lớn từ Ai câu thứ so với tất từ câu thứ hai Cuối cùng, độ tương đồng ngữ nghĩa hai câu tính m SimGB(S1 , S2 ) = SimW S(Ai , S2 ) (2) i=1 Ví dụ: câu “Nam sống Sài Gòn với đồng nghiệp” câu “Thủy sống Hà Nội” gán thẻtừ loại có dạng sau: Nam/E1 Np N R sống V P Thủy/E1 Np sống V P Hà Nội/E2 Np Sài Gòn/E2 Np với P đồng nghiệp N Trong N, R, V, P, Np tương ứng danh từ, phụ từ, động từ, giới từ, danh từ riêng E1 , E2 thựcthể xét mối quanhệ Ta thực tính mức độ tương đồng từ: Như ví dụ m = 8, n = Ta có hai tập từ: { Nam, nay, đang, sống, ở, Sài Gòn, với, đồng nghiệp} { Thủy, sống, tại, Hà Nội} Giả sử xét độ tương đồng ST từ “Nam” câu thứ với tất từ câu thứ hai {Thủy, sống, tại, Hà Nội} Ta tính độ tương đồng từ cặp (Nam, Thủy), (Nam, sống), (Nam, tại), (Nam, Hà Nội), sau chọn giá trị lớn độ tương đồng từ giá trị SimW S(A1 , S2 ) TRÍCH RÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 19 Ta thấy từ “Nam” từ “Thủy” hai từ khác từ loại N , có kiểu thựcthể tên người lớp ngữ nghĩa độ tương đồng hai từ SimW (Nam,Thủy)= Tương tự SimW (Nam, sống)=1/5, SimW (Nam, tại)=1/5, SimW (Nam, Hà Nội)=7/6 Như SimW S (Nam, { Thủy, sống, tại, Hà Nội} )=3 Tiếp tục làm với từ khác sau cộng lại, ta độ tương đồng ngữ nghĩa hai câu Nhược điểm phươngpháp cách giải Xét hai câu sau: (a) “ Hiện nay, anh Nam sống Mỹ Đình làm việc cho công ty FPT Hai Bà Trưng ” (b) “ Chị Thủy sống Mỹ Đình ” Dựa câu (a), cho ta biết anh Nam sống Mỹ Đình, làm việc Hai Bà Trưng làm việc cho công ty FPT Như vậy, câu có ba mối quan hệ: sống (Nam, Mỹ Đình), địa điểm làm việc (Nam, Hai Bà Trưng), làm việc cho (Nam, FPT) Giả sử câu (a) gán nhãn câu (b) chưa gán nhãn Nói cách khác, câu (a) gán nằm tập liệu gán nhãn L câu (b) nằm tập liệu chưa gán nhãn U Các kiểu quanhệ xét sống ở, làm việc cho, địa điểm làm việc Như vây để đảm bảo có đủ thông tin ba mối quanhệ câu (a) phải xuất ba lần L, lần tương ứng kiểu quanhệ (a1) “ Hiện nay, anh Nam (A) sống Mỹ Đình (T) làm việc cho công ty FPT Hai Bà Trưng ” Đây quanhệ “ sống ” (a2) “ Hiện nay, anh Nam (A) sống Mỹ Đình làm việc cho công ty FPT(T) Hai Bà Trưng ” Đây quanhệ “ làm việc cho ” (a3) “ Hiện nay, anh Nam (A) sống Mỹ Đình làm việc cho công ty FPT Hai Bà Trưng(T) ” Đây quanhệ “ địa điểm làm việc ” A tới thựcthể tác nhân, T tới thựcthể đích Nói cách khác, A T cho ta biết xét kiểu quanhệ cặp thựcthể Như vậy, xây dựng ma trận độ tương đồng T , ta cần đo độ tương đồng (b,a1), (b,a2), (b,a3) Ta thấy, chất câu (b) kiểu quanhệ sống có phần giống với câu (a1) Nhưng áp dụngphươngpháp đo độ tương đồng ngữ nghĩa hai câu SimGB (b,a1)=SimGB (b,a2)=SimGB (b,a3) Nghĩa câu b thuộc ba kiểu quan hệ, tạo nhập nhằng dẫn đến thuận toán nhận dạng sai mối quanhệ Độ tương đồng ngữ cảnh cục hai câu : độ tương đồng so khớp từ cửa số ngữ cảnh xung quanh hai thựcthể hai câu Ta thấy ta biết thựcthể xét mối quan hệ, thựcthể tác nhânthựcthể đích thu hẹp phạm vi đo độ tương đồng câu Hơn nữa, với câu vậy, động từ mối quanhệ thường nằm gần thựcthể đích Dựa ý tưởng đó, khắc phục vấn đề cách tính độ tương đồng ngữ cảnh cục SimLC(S1 , S2 ) sau: • Gán nhãn A T cho thựcthể câu, nhằm đâu thựcthể tác nhân đâu thựcthể đích xét mối quanhệ • Tạo cửa sổ ngữ cảnh xung quanh thựcthể A thựcthể T kích thước (gồm thựcthể xét, từ trước từ sau nó) 20 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs • Tính độ tương đồng ngữ cảnh cục xung quanh thựcthể A, SimLCA(S1 , S2 ); xung quanh thựcthể T, SimLCT (S1 , S2 ) Cả hai độ tương đồng tính tương tựphươngpháp đo độ tương đồng ngữ cảnh toàn cục hai câu nói khác chỗ thay so khớp toàn từ câu thứ với toàn từ câu thứ hai, so sánh từ nằm cửa số ngữ cảnh xung quanh thựcthể Ví dụ, đổi với SimLCA(S1 , S2 ) so khớp tất từ nằm cửa số xung quanh thựcthể A câu thứ với tất từ nằm cửa số xung quanh thựcthể A câu thứ • Độ tương đồng ngữ cảnh cục hai câu tính SimLC(S1 , S2 ) = SimLCA(S1 , S2 ) + SimLCT (S1 , S2 ) (3) Độ tương đồng hai câu: kết hợp độ tương đồng ngữ cảnh toàn cục với độ tương đồng ngữ cảnh cục SimS(S1 , S2 ) = SimGB(S1 , S2 ) + SimLC(S1 , S2 ) (4) Làm vậy, ta tạo khác biệt lần tính độ tương đồng trên, tức là: SimS (b,a1) = SimS (b,a2) = SimS (b,a3), làm cho giải thuật phân lớp tốt Giải thuật đo độ tương đồng câu dựa phươngpháp so trùng thuộc tính từ nhóm nghiên cứu đề xuất sau Giải thuật Độ tương đồng câu dựa phươngpháp so trùng thuộc tính từ Đầu vào: Cặp câu gán nhãnthựcthể E1 , E2 Đầu ra: Độ tương đồng câu Khởi tạo: Độ tương đồng ngữ cảnh toàn cục hai câu SimGB(S1 , S2 ) = Số từ câu thứ m Số từ câu thứ hai p Chuyển câu thành tập từ xác định A T Phương pháp: Bước : Tính độ tương đồng ngữ cảnh toàn cục hai câu For i = to m { - For j = to p Tính độ tương đồng hai từ SimW (Ai , Bj ) - Tính độ tương đồng từ thứ i câu thứ so với tất từ câu thứ hai SimW S(Ai , S2 ) -Tính độ tương đồng ngữ cảnh toàn cục SimGB(S1 , S2 ) = SimGB(S1 , S2 ) + SimW S(Ai , S2 ) } Bước : Tính độ tương đồng ngữ cảnh cục SimLCA(S1 , S2 ), SimLCT (S1 , S2 ) Bước : Kết hợp độ tương đồng ngữ nghĩa hai câu độ tương đồng ngữ cảnh xung quanh hai thựcthể ta độ tương đồng hai câu Trong giải thuật trên, ta cần đo độ tương đồng từ hai câu Để làm việc này, phươngpháp đo độ tương đồng từ đề xuất sau TRÍCH RÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 21 Phươngpháp đo độ tương đồng từ ngữ nghĩa Cây ngữ nghĩa cấu trúc phân cấp biểu diễn quanhệ ngữ nghĩa khái niệm Trên giới có nhiều phươngpháp đánh giá độ tương tựtừ dựa mạng ngữ nghĩa biểu diễn quanhệtừ (ví dụ: Wordnet) Đối với tiếng Việt, chưa có mạng ngữ nghĩa vậy, nên để giải vấn đề kết hợp phân cấp ngữ nghĩa (hình 1) từ điển từ trung tâm từ điển học Việt nam (Vietlex) [14] xây dựng Hình Cấu trúc phân cấp ngữ nghĩa Để tính độ tương tự ngữ nghĩa hai từ đó, trước tiên ta tìm hai từtừ điển từ để tìm lớp khái niệm mà hai từ thuộc Sau dựa phân cấp ngữ nghĩa tính khoảng cách lớp khái niệm mà hai từ thuộc Ví dụ: Đối với hai từ “ trai ” “ mèo ” tìm từ điển Vietlex từ “ trai ” thuộc lớp Person từ “ mèo ” thuộc lớp Animal Lớp Person lớp Animal có khoảng cách phân cấp ngữ nghĩa Một ví dụ khác: Khi tìm từ điển Vietlex, từ “ nông dân ” thuộc lớp Person từ “ công dân ” thuộc lớp Person Vậy hai từ có khoảng cách phâp cấp ngữ nghĩa Độ tương tự ngữ nghĩa hai từ c1 c2 tính sau Sim(c1, c2) = 1/dist(c1, c2), (5) đó, dist(c1, c2) khoảng cách từ c1, c2 phân cấp ngữ nghĩa Đối với ví dụ đầu tiên, độ tương tự ngữ nghĩa từ “ trai ” “ làm việc ” 1/3 Với ví dụ thứ hai, độ tương tự ngữ nghĩa từ “ nông dân ” từ “ công nhân ” 22 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs 2.3 Đo độ tương đồng hai câu dựa phươngpháp mô hình Dirichlet ẩn Mô hình Dirichlet ẩn (Latent Dirichlet Allocation – LDA) [5, 7] dựa ý tưởng: tài liệu trộn lẫn nhiều chủ đề, chủ đề phân bố tập từ vựng Cụ thể là, ta có K chủ đề ứng với D tài liệu; tài liệu liên quan đến chủ đề theo tỷ lệ khác Về chất, LDA mô hình Baysian ba cấp phần tập hợp biểu diễn mô hình trộn hữu hạn sở tập xác suất chủ đề Trong ngữ cảnh mô hình văn bản, xác suất chủ đề cung cấp biểu diễn tường minh cho tài liệu Sự tương tác tài liệu chủ đề ẩn thể tiến trình ngẫu nhiên, giả định sinh tài liệu Mô hình sinh LDA Cho tập ngữ liệu có M tài liệu, biểu diễn D = {d1 , d2 , , dM }, tài liệu có Nm từ wi rúttừ tập từ vựng {t1 , t2 , , tv }, V số kích thước tập từ vựng Ta có tiến trình sinh xác suất cho tập tài liệu sau Giải thuật Tiến trình sinh xác suất tài liệu dạng văn liệu Phươngpháp (1) Với chủ đề, → a Tính phân bố từ chủ đề ϕk ∼ Dir(β) (2) Với tài liệu, → a Tính phân bố chủ đề tài liệu ϑ m ∼ Dir(α) b Với từ, → Tìm chủ đề gán với từ Zm,n ∼ M ult( ϑ m ), Zm,n ∈ {1, 2, , K} Tìm từ dựa vào chủ đề gán với → Wd,n ∼ M ult( ϕ Zm,n ), Wm,n ∈ {1, 2, , V } Ở đây, Dir M ult phân phối Dirichlet, M ultinomial (lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial) Đối với toán đo độ tương đồng câu, giải thuật LDA nhận đầu vào câu, đầu kết luận chủ đề câu Mỗi câu gắn với phân phối xác suất chủ đề câu phân phối xác suất từ chủ đề Nói cách khác, với câu i, LDA sinh phân phối chủ đề cho câu Với từ câu, phân phối xác suất chủ đề từ j câu i (Zij ) lấy mẫu dựa theo phân phối chủ đề Dựa vào Zij , hệ thống làm giàu câu cách thêm từ Vectơ tương ứng với câu thứ i có dạng sau Si = {p1 , p2 , , pk , q1 , q2 , , qv } với pl trọng số chủ đề thứ l K chủ đề phân tích; qi trọng số từ thứ i tập từ vựng V tất câu Trường hợp từ j câu i, gán giá trị Mỗi câu có nhiều phân phối xác suất chủ đề Với hai câu s1 s2 , ta sửdụng độ TRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 23 đo cosine để tính độ tương đồng hai câu Ss = Si × Sj Si × Sj (6) Hay K pi,k × pj,k Simi,j (chủ đề -Part) = k=1 K k=1 p2i,p , K × k=1 (7) p2j,p |V | qi,p × qj,p Simi,j (từ -Part) = p=1 |V | i=1 , (8) |V | × qi,p p=1 qj,p Simi,j (chủ đề-Part) độ tương đồng hai câu i j tính theo vectơ trọng số chủ đề pi ; Simi,j (từ-part) độ tương đồng hai câu i j tính theo vectơ trọng số từ qi ; Độ tương đồng hai câu tính sở tổ hợp hai độ đo Sim(si , sj ) = λ × Sim(chủ đề -Part) + (1 − λ) × Sim(từ -Part), (9) công thức λ số trộn, nằm đoạn [0,1] 2.4 Điểm yếu giải thuật lantruyềnnhãn [10] cách cải tiến Ta thấy rằng, giải thuật lantruyềnnhãn có ảnh hưởng nhãn so với nhãn khác, phụ thuộc vào số lượng nhãn tập liệu Nói cách khác, kết đầu bị ảnh hưởng lớn nhãn có tần suất xuất lớn Ví dụ, giả sử tập liệu gán nhãn, số nhãn ứng với quanhệ sống ở, làm việc cho, chức vụ nhiều số nhãn O (không thuộc quanhệquan tâm).Do vậy, áp dụng giải thuật lantruyềnnhãn qua phép nhân ma trận, số lượng nhãn O nhiều nên giá trị liên quan đến nhãn O lớn nhiều giá trị liên quan đến nhãn khác Điều dẫn đến bước giải thuật lantruyềnnhãn (gán xh nhãn yh = arg maxj Yhj ), nhãn O thay dần nhãn khác Nhiều chỗ kiểu thựcthểthực tế phải tên người quanhệ khác lại trở thành nhãn O Đây vấn đề liệu huấn luyện không cân bằng, có loại mẫu nhiều hẳn loại mẫu khác Cải tiến thuận toán: Các giải pháp thường nghĩ đến việc giải vấn đề liệu huấn luyện không cân là: (i) tăng số lượng mẫu chiếm thiểu số giảm số lượng mẫu chiếm đa số; (ii) gán trọng số cho loại mẫu liệu huấn luyện Do tập ngữ liệu phục vụ toán xác định mối quanhệthựcthểvăntiếngViệt sẵn mà phải tự xây dựng tay nên tập ngữ liệu có không dư thừa để loại bỏ mẫu ứng với nhãn O Hơn nữa, việc bổ sung thêm tập liệu có nhãn khác để cân với nhãn O khó khăn Số lượng mẫu có nhãn O nhiều nhãn khác xuất phát từ việc gán nhãnquanhệvăn bản; số lượng nhãn thuộc 24 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs loại cân Vì vậy, ta chọn giải pháp thứ hai: mẫu huấn luyện thuộc loại mẫu chiếm số đông có trọng số nhỏ loại mẫu lại Trong cách tiếp cận báo, trọng số loại mẫu phần bù xác suất xuất loại mẫu tập mẫu Cụ thể là, để giảm ảnh hưởng nhãn có tần suất xuất lớn ma trận, xây dựng ma trận Y , nửa ma trận từ gán nhãn, thay gán giá trị ta gán phần bù xác suất xuất nhãn phần liệu L gán nhãn Ví dụ: Tập L có 100 câu 12 câu có quanhệ sống ở, 20 câu có quanhệ làm việc cho, 18 câu có quanhệ chức vụ, 50 câu có quanhệ O Với ma trận Y , câu có quanhệ O gán trọng số α = − 50/100 = 0, 5, câu có quanhệ sống có α = − 12/100 = 0, 88, câu có quanhệ làm việc cho có trọng số α = − 20/100 = 0, 8, câu có quanhệ chức vụ có trọng số α = − 18/100 = 0, 82 Như vậy, với nhãn xuất nhiều lần giá trị Y nhỏ ngược lại Cách giải hiệu quả, toán tríchrútthựcthể số nhãn O luôn xuất nhiều nhãn khác 3.1 THỬ NGHIỆM Tập ngữ liệu phươngpháp thử nghiệm Tập ngữ liệu thử nghiệm thu thập thủ công từ trang web tiếngViệt bao gồm cáctrang web cá nhân trang tin tức (vnexpress.net, dantri.com, wikipedia) thuộc lĩnh vực thể thao, khoa học, văn hóa, giáo dục, kinh tế thu thập 950 văntừ trang web Từvăn trên, ta trích chọn 1200 câu chứa hai thựcthể thuộc loại tên người, tên địa điểm, tên tổ chức, chức vụ Các câu đượcgán nhãn tay, 960 câu số câu giấu nhãn để làm tập test Mỗi văn có hai người gán (một người gán, người kiểm tra lại) Như nói trên, mối quanhệ xét thử nghiệm làm việc (tên người-tên tổ chức), sống (tên người-tên địa điểm), chức vụ (tên người-chức vụ) Ví dụ - Stephen Hawking - nhà vật lý thiên văn số giới- không thắng bệnh tật, không quật ngã ông Câu chứa thựcthể tên người (per) nên không chọn Ví dụ - Vài ngày trước đó, Paris gặp anh Christophe Galfard , nghiên cứu sinh Hawking Câu chọn chứa thựcthể tên người (per) tên địa điểm (loc) Câu dù có chứa thựcthể tên người thựcthể tên địa điểm quanhệ sống ở, gán nhãn “0” làm mẫu âm cho trình huấn luyện Để đánh giá hệ thống, ta khởi tạo u 960 câu chưa có nhãn mối quan hệ, l 240 câu có nhãn mối quanhệ Vì ba mối quanhệ xét làm việc cho, sống ở, chức vụ,ma trận Y có cột n = 1200 dòng số câu có nhãn chưa có nhãnquan hệ; l = 240 số câu có nhãn tương ứng với l dòng ma trận Y, u=960 số câu chưa có nhãn tương ứng với u dòng lại ma trận Y Ma trận T kích thước n × n ma trận đo mức độ tương tự câu 25 TRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 3.2 Phươngpháp đánh giá Kết hệ thống đánh giá thông qua độ đo: độ xác P , độ phủ R, độ đo trung bình F Độ xác P xác định phần trăm mẫu (trong thí nghiệm câu) hệ thống tìm thấy so với mẫu hệ thống cho Độ phủ R xác định phần trăm mẫu hệ thống tìm thấy so với thực tế gán tay Độ đo F giá trị trung bình độ phủ R độ xác P Độ đo P, R, F tính theo công thức sau Số mẫu hệ thống gán P = , (10) Số mẫu hệ thống cho R= Số mẫu hệ thống gán , Số mẫu gán tay (11) 2×P ×R P +R (12) F = Như nói Mục 2.2, trường hợp câu chứa n mối quanhệ câu xuất n lần tập ngữ liệu, lần xuất ứng với quanhệCác độ đo P, R, F tính bình thường theo công thức Sau kết thử nghiệm hệ thống toán tríchrútthựcthểtríchrút mối quanhệthựcthể 3.3 Kết thu Bảng So sánh kết chưa chuẩn hoá ma trận sau chuẩn hoá ma trận Kiểu mối quanhệ Chưa chuẩn hoá ma trận Sau chuẩn hoá ma trận Chức vụ Sống P 90.90 100.0 R 18.51 18.75 F 30.76 31.57 P 81.53 74.57 R 98.14 91.66 F 89.07 82.24 Làm việc cho 83.0 78.0 80.42 70.39 97.36 82.62 Bảng cho thấy kết phươngpháplantruyềnnhãn đề xuất (chuẩn hoá ma trận Y ) tốt phươngpháplantruyềnnhãn [4] (khi chưa chuẩn hoá ma trận) Bảng So sánh độ đo F ba phươngpháp đo độ tương đồng từ Chức vụ Sống Làm việc cho So trùng thuộc tính từ 89.07 82.24 82.62 LDA 87.25 82.07 82.10 LDA + trùng thuộc tính từ 90.9 85.0 82.65 Bảng cho thấy kết phươngpháp LDA so trùng thuộc tính từ gần tương đương Phươngpháp so trùng thuộc tính từsửdụng nhiều đặc trưng ngữ cảnh độ tương đồng từ (sử dụng thông tin từ loại, kiểu thực thể, ngữ nghĩa, ), độ tương đồng ngữ cảnh xung quanh cặp thực thể; phươngpháp LDA sửdụng thuộc tính từ, đó, kết hợp hai phương pháp, kết cho tốt Việc tích hợp thực cách cộng hai ma trận đo độ tương đồng hai phươngpháp 26 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs Bài báo thực so sánh phươngpháplantruyềnnhãn với phươngpháp SVM phươngpháp SVM kết hợp với Bootstrapping [8], sửdụng liệu Bảng tóm tắt kết phươngpháplantruyềnnhãn (ở sửdụng LDA kết hợp với so trùng thuộc tính từ), phươngpháp SVM [8] phươngpháp SVM kết hợp Bootstrapping [8], thông qua độ đo F Bảng So sánh độ đo F ba phươngpháplantruyềnnhãnsửdụng so trùng thuộc tính từ, SVM SVM kết hợp Bootstrapping Chức vụ Sống Làm việc cho Lantruyềnnhãn 90.9 85.0 82.65 SVM 87.8 59.5 79.8 SVM + Bootstrapping 92.9 87.0 82.7 Bảng cho thấy phươngpháplantruyềnnhãn cho kết tốt phươngpháp SVM có giám sát, thấp phươngpháp SVM bán giám sát (SVM kết hợp với kỹ thuật Bagging-Bootstrapping) Xét mặt thời gian phươngpháplantruyềnnhãn nhanh nhiều phươngpháp SVM bán giám sát KẾT LUẬN Tríchrút mối quanhệthựcthể toán mở tiếngViệt Để hệ thống tríchrútquanhệthựcthể có độ xác cao, cần có tập liệu huấn luyện lớn Do tiếngViệt chưa có tập liệu vậy, báo đề xuất hệ thống học bán giám sát kết hợp với đặc tính ngôn ngữ Việt cho toán tríchrútquanhệthựcthể Ở đây, ta sửdụngphươngpháplantruyềnnhãn Bài báo đề xuất thử nghiệm ba phươngpháp đo độ tương đồng câu bao gồm: phươngpháp so trùng thuộc tính từ, phươngpháp LDA kết hợp hai phươngpháp Ngoài ra, báo đưa giải pháp giảm ảnh hưởng nhãn có tần suất xuất lớn đến trình lantruyềnnhãn Thử nghiệm cho thấy kết cải tiến phươngpháplantruyềnnhãn sau chuẩn hoá ma trận tốt phươngpháp cũ (chưa chuẩn hoá ma trận) Ngoài ra, phươngpháp so trùng thuộc tính từphươngpháp LDA cho kết tương tự Việc kết hợp hai phươngpháp đo độ tương đồng cho kết tốt chưa kết hợp Thử nghiệm cho thấy phươngpháplantruyềnnhãn cho kết tốt phươngpháp SVM, thấp phươngphápbán giám sát [8] Tuy nhiên, phươngpháplantruyềnnhãn chạy nhanh phươngpháp SVM bán giám sát Trong tương lai, mở rộng thử nghiệm với kiểu mối quanhệthựcthể khác để đánh giá tính xác hệ thống đề xuất Ngoài ra, cấu trúc ngữ pháp câu thông tin quan trọng toán tríchrút mối quanhệthực thể, cần phải nghiên cứu cách tích hợp thông tin vào hệ thống tríchrút mối quanhệthựcthể nhằm tăng độ xác hệ thống TÀI LIỆU THAM KHẢO [1] R.C Bunescu, R.J Mooney, Subsequence kernels for relation extraction, Proceedings of 19th Annual Conference on Neural Information Processing Systems (NIPS’ 05), Vancouver, TRÍCHRÚTQUANHỆGIỮACÁCTHỰCTHỂTỪVĂNBẢNTIẾNGVIỆT 27 British Columbia, Canada, 2005 [2] A Culotta, J Sorensen, Dependency tree kernels for relation extraction, Proceedings of the 42nd Meeting of the Association for ComputationalLinguistics (ACL’04), Main Volume, Barcelona, Spain, July 2004 (423–429) [3] M E Califf, and R J Mooney, Relational learning of pattern-match rules for information extraction, Proceedings of the Sixteenth National Conferenceon Artificial Intelligence (AAAI-99), Orlando, Florida, July 1999 (328–334) [4] J Chen, D Ji, L.C Tan, Z Niu, Relation extraction using label propagation based semisupervised learning, Proceeding of 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistic, Stroudsburg, PA, USA, 2006 (129–136) [5] M.B David, Y.N Andrew, I.J Michael, Latent dirichlet allocation, Journal of Machine Learning Research (January 2003) 993–1022 [6] C Giuliano, A Lavelli, and L Romano, Exploiting shallow linguistic information for relation extraction from biomedical literature, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL ’06), Trento, Italy, 2006 [7] T Hofmann, Unsupervised learning by probabilistic latent semantic analysis, Machine Learning 42 (1-2) (2001) 177–196 [8] C.R Sam, T.H Le, T.T.Nguyen, A.D.Le, and T.M.N Nguyen, Semi-supervised learning for relation extraction in vietnamese text, Proceedings of the Second Symposium on Information and Communication Technology (SoICT’2011), Hanoi, Vietnam, 2011 (100–105) [9] M.V Tran, V.V Nguyen, T.U Pham, T.O Tran, Q.T Ha, An experimental study of vietnamese question answering system, Proceedings of the International Conference on Asian Language Processing, Singapore, 2009 (152–155) [10] Z Xiaojin, and G Zoubin, “Learningfrom Labeled and Unlabeled Data with Label Propagation”, CMU CALD tech report CMU-CALD-02-107 (2002) [11] Z Zhang, Weakly supervised relation classification for information extractionProceedings of Thirteenth International Conference on Information and Knowledge Management, Washington, DC, 2004 [12] D Zelenko, A Aone, and A Richardella, Kernel methods for relation extraction Journal of Machine Learning Research (2003) 1083–1106 [13] X Zhu, “Semi-supervised learning literature survey (2008)”, Technical Report 1530, University of Wisconsin Madison, 2008 [14] Vietlex: http://www.vietlex.com Ngày nhận 26 - 11 - 2012 Nhận lại sau sửa ngày 12 - 03 - 2014 ... thuật lan truyền nhãn Chen cộng [4] cho toán trích rút quan hệ thực thể cho văn tiếng Việt TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ SỬ DỤNG PHƯƠNG PHÁP LAN TRUYỀN NHÃN 2.1 Phương pháp lan truyền nhãn. .. Trong phương pháp này, liệu gán nhãn chưa gán nhãn biểu diễn dạng điểm không gian Quá trình lan truyền nhãn thực theo kiểu qui TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 17 nạp, cách... mặt thời gian phương pháp lan truyền nhãn nhanh nhiều phương pháp SVM bán giám sát KẾT LUẬN Trích rút mối quan hệ thực thể toán mở tiếng Việt Để hệ thống trích rút quan hệ thực thể có độ xác