Trích rút quan hệ giữa các thực thể từ văn bản tiếng việt sử dụng phương pháp lan truyền nhãn

Tạp chí Tin học Điều khiển học, T.30, S.1 (2014), 15–27 TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP LAN TRUYỀN NHÃN LÊ THANH HƯƠNG1 , SAM CHANRATHANY1 , NGUYỄN THANH THUỶ2 , NGUYỄN THÀNH LONG1 , TRỊNH MINH DŨNG1 Viện Công nghệ Thông tin Truyền thông, ĐH Bách khoa Hà Nội Khoa CNTT, Trường ĐH Công nghệ, ĐHQG Hà Nội Tóm tắt Bài báo đề xuất việc xây dựng hệ thống trích rút quan hệ thực thể từ văn tiếng Việt sử dụng phương pháp lan truyền nhãn Các đóng góp là: (i) đề xuất phương pháp đo độ tương đồng câu; (ii) đề xuất phương pháp giảm ảnh hưởng nhãn có tần suất xuất lớn đến trình lan truyền nhãn Thử nghiệm cho thấy phương pháp giảm ảnh hưởng nhãn có tần suất xuất lớn cho kết tốt đáng kể phương pháp lan truyền nhãn gốc [10] Ngoài ra, sử dụng liệu huấn luyện nhỏ phương pháp lan truyền nhãn tốt phương pháp SVM Từ khóa Trích rút mối quan hệ, lan truyền nhãn, học bán giám sát Abstract This paper presents a relation extraction system for Vietnamese texts using label propagation In this paper, we propose: (i) a measure of similarities between two sentences; (ii) a method to decrease the effect of high frequency labels in the documents Our experimental results show that proposed label propagation method achieves a higher accuracy than the ordinary one [10] Moreover, its accuracy is also higher than the support vector machine method applied Key words Relation extraction, labeled propagation, semi supervised learning MỞ ĐẦU Trích rút mối quan hệ thực thể (Relation Extraction - RE) công việc xác định quan hệ cặp thực thể văn Ví dụ, quan hệ sống hai thực thể “ tên người ” “ tên địa điểm ”, quan hệ họ hang hai thực thể “ tên người ” “tên người” Trong thập niên qua, có nhiều nghiên cứu trích rút quan hệ thực thể [1, 3, 6, 9, 12] Các nghiên cứu chia thành hai hướng Đó cách tiếp cận dựa việc xây dựng tập luật trích rút cách thủ công cách tiếp cận dựa học máy Trong cách tiếp cận thứ nhất, luật thủ công xây dựng dựa việc quan sát quy luật liệu, nên thường có độ xác cao Tuy nhiên, cách tiếp cận không xử lý hết trường hợp chưa bao quát tập luật Trong đó, kĩ thuật học máy thường sử dụng tập liệu gán nhãn cho trước để xây dựng nên mơ hình, phục vụ cho mục đích tốn (học có giám sát) Đây cách tiếp cận tự động, cho phép ta học luật có xuất liệu huấn luyện, khó phát quan sát thủ cơng người Khó 16 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs khăn học có giám sát cần tập liệu gán nhãn có kích cỡ lớn để phục vụ cho việc huấn luyện mơ hình trích rút Việc xây dựng tập liệu huấn luyện lớn đòi hỏi phải đầu tư nhiều thời gian công sức Đối với tiếng Việt chưa có tập liệu gán nhãn với kích thước lớn Để giải vấn đề này, cách tiếp cận học máy bán giám sát đề xuất năm gần [4, 8, 11] Ý tưởng phương pháp học máy bán giám sát là: huấn luyện hệ thống sử dụng liệu gán nhãn (thường có kích cỡ nhỏ) liệu chưa gán nhãn (thường có kích cỡ lớn) Zhang cộng [11] giải tốn trích rút mối quan hệ thực thể cách sử dụng phương pháp Bootstrapping kết hợp với SVM Đầu tiên, họ biểu diễn câu dạng (cpr , e1 , cm , e2 , cpt ) → r, e1 e2 thực thể xét mối quan hệ r, cpr , cm , cpt ngữ cảnh trước, sau cặp thực thể Sau đó, sử dụng phương pháp Bagging Bootstrapping để huấn luyện hệ thống Ý tưởng phương pháp là: Giả sử có L mẫu có nhãn U mẫu chưa gán nhãn Đầu tiên, nhân mẫu có nhãn L thành B gói huấn luyện B phân lớp sử dụng liệu nhân B phân lớp áp dụng liệu chưa có nhãn U Sau gán nhãn cho tập liệu U , hệ thống tính độ tin cậy để tìm S câu có độ tin cao (độ tin cậy tính hàm entropy) đưa thêm vào liệu huấn luyện Quá trình lặp lại khơng tìm liệu thỏa mãn Tác giả [8] sử dụng phương pháp học máy bán giám sát sử dụng phương pháp SVM kết hợp với kỹ thuật bagging bootstrapping để trích rút mối quan hệ văn tiếng Việt Đầu tiên, họ biến đổi câu văn thành hai hàm nhân Hai hàm nhân hàm nhân ngữ cảnh tồn cục (thu thập thơng tin ngữ cảnh câu để suy mối quan hệ) hàm nhân ngữ cảnh cục (để suy vai trò thực thể câu, xác định đâu tác nhân, đâu đích) Tiếp theo, họ sử dụng SVM kết hợp với kỹ thuật bagging-bootstrapping để huấn luyện hệ thống Chen cộng [4] đề xuất phương pháp bán giám sát, sử dụng giải thuật lan truyền nhãn (label propagation) Họ biểu diễn mẫu (có nhãn chưa có nhãn) dạng nút, khoảng cách nút trọng số cạnh đồ thị Trên sở đó, xây dựng hai ma trận Y T Ma trận Y có kích thước m × n, với n số mẫu có nhãn chưa có nhãn, m số nhãn cần xét Ma trận T , có kích thước n × n, đo độ tương đồng mẫu Thực nhân hai ma trận lặp lại q trình nhiều lần hội tụ Kết thúc trình, ma trận Y , mẫu có nhãn tương ứng với phần tử có giá trị lớn Như vậy, điểm nhấn phương pháp đo mức độ tương đồng mẫu Có thể thấy rõ ưu điểm phương pháp chỗ, nhãn quan hệ dựa tương tự mẫu nên không cần đến liệu lớn Trên sở ưu nhược điểm phương pháp đó, báo đề xuất cải tiến giải thuật lan truyền nhãn Chen cộng [4] cho tốn trích rút quan hệ thực thể cho văn tiếng Việt TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ SỬ DỤNG PHƯƠNG PHÁP LAN TRUYỀN NHÃN 2.1 Phương pháp lan truyền nhãn Trong phương pháp này, liệu gán nhãn chưa gán nhãn biểu diễn dạng điểm không gian Quá trình lan truyền nhãn thực theo kiểu qui TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 17 nạp, cách gán nhãn dần điểm chưa gán nhãn, dựa khoảng cách chúng với điểm gán nhãn Cách biểu diễn liệu đồ thị Giả sử ta có đồ thị G = (V, E), với V = {1, , n} tập nút E tập cạnh Trong tốn trích rút quan hệ thực thể, nút câu gán nhãn chưa gán nhãn quan hệ Mỗi cạnh ứng với độ tương đồng câu Độ tương đồng biểu diễn ma trận T xi xj láng giềng Tij = Khi đó, cạnh (i, j) E có trọng số Tij Ý tưởng học bán giám sát nhằm lan truyền nhãn đồ thị thể sau: Tại thời điểm ban đầu, nút 1, 2, , l có nhãn nút l + 1, , n chưa có nhãn Tiến hành lan truyền nhãn nút cho láng giềng Q trình lặp lặp lại không lan truyền nhãn tiếp gán nhãn cho tất đỉnh đồ thị Trong phương pháp lan truyền nhãn, mẫu biểu diễn nút khoảng cách hai nút trọng số cạnh nối chúng Sau đó, thơng tin nhãn nút đồ thị lan truyền cho nút bên cạnh thông qua trọng số cạnh đạt trạng thái ổn định Trọng số cạnh lớn, nhãn qua cạnh dễ dàng Do mẫu giống có nhãn giống Giải thuật lan truyền nhãn đề xuất tác giả [10], mô tả giải thuật Ma trận Y (biểu diễn mối quan hệ mẫu nhãn) ma trận T (đo độ tương đồng mẫu) xây dựng Ma trận Y có n hàng, m cột với n tổng số mẫu gán nhãn chưa gán nhãn, m số nhãn cần xét; Yij = mẫu thứ i có nhãn j , trường hợp ngược lại Ma trận T có kích thước n × n với n tổng số mẫu bao gồm mẫu gán nhãn chưa gán nhãn; Tij độ tương tự mẫu thứ i với mẫu thứ j Sau đó, lặp lại việc nhân ma trận T với ma trận Y nhiều lần đến hội tụ Cuối cùng, mẫu chưa có nhãn ma trận Y gán nhãn ứng với phần tử có giá trị lớn hàng ứng với mẫu Trong q trình lan truyền nhãn, nhãn ban đầu mẫu gán tay giữ lại bước lặp để cung cấp nguồn nhãn, có nghĩa bước lặp l dòng đầu ma trận Y mang giá trị giống hệt ma trận khởi tạo Các mẫu gán nhãn tay đóng vai trò nguồn để sinh nhãn cho liệu khơng có nhãn Giải thuật 1: Lan truyền nhãn [10] Bước 1: Khởi tạo +t=0 + Y khởi tạo nhãn ban đầu kết nối với nút, Yij0 = yi có nhãn rj ngược lại + YL0 l dòng phía ma trận Y tương ứng với l liệu có nhãn YU0 u dòng lại, tương ứng với liệu chưa có nhãn Bước 2: Lan truyền nhãn nút cho nút láng giềng cách Y t+1 = T Y t , T ma trận chuẩn hóa ma trận T Bước 3: Giữ lại phần có nhãn ban đầu, tức thay l dịng đầu ma trận Y t+1 YL0 Bước 4: Lặp lại bước thoả mãn điều kiện dừng Bước 5: Gán xh (l + ≤ h ≤ n) nhãn yh = arg maxj Yhj Điều kiện dừng số vịng lặp lớn tham số Q vòng vặp dừng Y t = Y t+1 18 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs 2.2 Đo độ tương đồng câu dựa phương pháp so trùng thuộc tính từ Mục tiêu tốn tính độ tương đồng câu có chứa hai thực thể Bài toán phát biểu sau: Xét tài liệu d có n câu: d = S1 , S2 , , Sn Mục tiêu toán tìm giá trị độ tương đồng cặp câu (Si , Sj ) Giá trị cao, giống ngữ nghĩa hai câu lớn Hai câu có độ tương đồng lớn, khả chứa mối quan hệ cao Giả sử: Câu thứ có m từ, S1 = A1 A2 A3 Am Câu thứ hai có p từ, S2 = B1 B2 B3 Bp SimW (Ai , Bj ) độ tương đồng từ Ai S1 từ Bj S2 , i = 1, m, j = 1, p SimW S(Ai , S2 ) độ tương đồng từ Ai với tất từ câu thứ hai B1 B2 B3 Bp SimGB(S1 , S2 ) độ tương đồng ngữ cảnh toàn cục hai câu SimLC(S1 , S2 ) độ tương đồng ngữ cảnh cục hai câu SimS(S1 , S2 ) độ tương đồng hai câu Chúng tơi đề xuất tính độ tương đồng ngữ nghĩa hai câu sau: Mỗi từ câu thứ so với tất từ câu thứ hai khía cạnh: từ, từ loại, kiểu thực thể, ngữ nghĩa Độ tương đồng từ câu thứ với tất từ câu thứ hai tính SimW S(Ai , S2 ) = max SimW (Ai , Bj ), (1) 1≤j≤p tức giữ lại giá trị độ tương đồng từ lớn từ Ai câu thứ so với tất từ câu thứ hai Cuối cùng, độ tương đồng ngữ nghĩa hai câu tính m SimGB(S1 , S2 ) = SimW S(Ai , S2 ) (2) i=1 Ví dụ: câu “Nam sống Sài Gòn với đồng nghiệp” câu “Thủy sống Hà Nội” gán thẻ từ loại có dạng sau: Nam/E1 Np hi$n N R s&ng V ' P Th•y/E1 Np s&ng V t#i P Hà N i/E2 Np Sài Gịn/E2 Np v(i P đ)ng nghi$p N Trong N, R, V, P, Np tương ứng danh từ, phụ từ, động từ, giới từ, danh từ riêng E1 , E2 thực thể xét mối quan hệ Ta thực tính mức độ tương đồng từ: Như ví dụ m = 8, n = Ta có hai tập từ: { Nam, nay, đang, sống, ở, Sài Gòn, với, đồng nghiệp} { Thủy, sống, tại, Hà Nội} Giả sử xét độ tương đồng ST từ “Nam” câu thứ với tất từ câu thứ hai {Thủy, sống, tại, Hà Nội} Ta tính độ tương đồng từ cặp (Nam, Thủy), (Nam, sống), (Nam, tại), (Nam, Hà Nội), sau chọn giá trị lớn độ tương đồng từ giá trị SimW S(A1 , S2 ) TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 19 Ta thấy từ “Nam” từ “Thủy” hai từ khác từ loại N , có kiểu thực thể tên người lớp ngữ nghĩa độ tương đồng hai từ SimW (Nam,Thủy)= Tương tự SimW (Nam, sống)=1/5, SimW (Nam, tại)=1/5, SimW (Nam, Hà Nội)=7/6 Như SimW S (Nam, { Thủy, sống, tại, Hà Nội} )=3 Tiếp tục làm với từ khác sau cộng lại, ta độ tương đồng ngữ nghĩa hai câu Nhược điểm phương pháp cách giải Xét hai câu sau: (a) “ Hiện nay, anh Nam sống Mỹ Đình làm việc cho cơng ty FPT Hai Bà Trưng ” (b) “ Chị Thủy sống Mỹ Đình ” Dựa câu (a), cho ta biết anh Nam sống Mỹ Đình, làm việc Hai Bà Trưng làm việc cho công ty FPT Như vậy, câu có ba mối quan hệ: sống (Nam, Mỹ Đình), địa điểm làm việc (Nam, Hai Bà Trưng), làm việc cho (Nam, FPT) Giả sử câu (a) gán nhãn câu (b) chưa gán nhãn Nói cách khác, câu (a) gán nằm tập liệu gán nhãn L câu (b) nằm tập liệu chưa gán nhãn U Các kiểu quan hệ xét sống ở, làm việc cho, địa điểm làm việc Như vây để đảm bảo có đủ thơng tin ba mối quan hệ câu (a) phải xuất ba lần L, lần tương ứng kiểu quan hệ (a1) “ Hiện nay, anh Nam (A) sống Mỹ Đình (T) làm việc cho công ty FPT Hai Bà Trưng ” Đây quan hệ “ sống ” (a2) “ Hiện nay, anh Nam (A) sống Mỹ Đình làm việc cho công ty FPT(T) Hai Bà Trưng ” Đây quan hệ “ làm việc cho ” (a3) “ Hiện nay, anh Nam (A) sống Mỹ Đình làm việc cho cơng ty FPT Hai Bà Trưng(T) ” Đây quan hệ “ địa điểm làm việc ” A tới thực thể tác nhân, T tới thực thể đích Nói cách khác, A T cho ta biết xét kiểu quan hệ cặp thực thể Như vậy, xây dựng ma trận độ tương đồng T , ta cần đo độ tương đồng (b,a1), (b,a2), (b,a3) Ta thấy, chất câu (b) kiểu quan hệ sống có phần giống với câu (a1) Nhưng áp dụng phương pháp đo độ tương đồng ngữ nghĩa hai câu SimGB (b,a1)=SimGB (b,a2)=SimGB (b,a3) Nghĩa câu b thuộc ba kiểu quan hệ, tạo nhập nhằng dẫn đến thuận toán nhận dạng sai mối quan hệ Độ tương đồng ngữ cảnh cục hai câu : độ tương đồng so khớp từ cửa số ngữ cảnh xung quanh hai thực thể hai câu Ta thấy ta biết thực thể xét mối quan hệ, thực thể tác nhân thực thể đích thu hẹp phạm vi đo độ tương đồng câu Hơn nữa, với câu vậy, động từ mối quan hệ thường nằm gần thực thể đích Dựa ý tưởng đó, chúng tơi khắc phục vấn đề cách tính độ tương đồng ngữ cảnh cục SimLC(S1 , S2 ) sau: • Gán nhãn A T cho thực thể câu, nhằm đâu thực thể tác nhân đâu thực thể đích xét mối quan hệ • Tạo cửa sổ ngữ cảnh xung quanh thực thể A thực thể T kích thước (gồm thực thể xét, từ trước từ sau nó) 20 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs • Tính độ tương đồng ngữ cảnh cục xung quanh thực thể A, SimLCA(S1 , S2 ); xung quanh thực thể T, SimLCT (S1 , S2 ) Cả hai độ tương đồng tính tương tự phương pháp đo độ tương đồng ngữ cảnh toàn cục hai câu nói khác chỗ thay so khớp tồn từ câu thứ với toàn từ câu thứ hai, so sánh từ nằm cửa số ngữ cảnh xung quanh thực thể Ví dụ, đổi với SimLCA(S1 , S2 ) so khớp tất từ nằm cửa số xung quanh thực thể A câu thứ với tất từ nằm cửa số xung quanh thực thể A câu thứ • Độ tương đồng ngữ cảnh cục hai câu tính SimLC(S1 , S2 ) = SimLCA(S1 , S2 ) + SimLCT (S1 , S2 ) (3) Độ tương đồng hai câu: kết hợp độ tương đồng ngữ cảnh toàn cục với độ tương đồng ngữ cảnh cục SimS(S1 , S2 ) = SimGB(S1 , S2 ) + SimLC(S1 , S2 ) (4) Làm vậy, ta tạo khác biệt lần tính độ tương đồng trên, tức là: SimS (b,a1) = SimS (b,a2) = SimS (b,a3), làm cho giải thuật phân lớp tốt Giải thuật đo độ tương đồng câu dựa phương pháp so trùng thuộc tính từ nhóm nghiên cứu đề xuất sau Giải thuật Độ tương đồng câu dựa phương pháp so trùng thuộc tính từ Đầu vào: Cặp câu gán nhãn thực thể E1 , E2 Đầu ra: Độ tương đồng câu Khởi tạo: Độ tương đồng ngữ cảnh toàn cục hai câu SimGB(S1 , S2 ) = Số từ câu thứ m Số từ câu thứ hai p Chuyển câu thành tập từ xác định A T Phương pháp: Bước : Tính độ tương đồng ngữ cảnh tồn cục hai câu For i = to m { - For j = to p Tính độ tương đồng hai từ SimW (Ai , Bj ) - Tính độ tương đồng từ thứ i câu thứ so với tất từ câu thứ hai SimW S(Ai , S2 ) -Tính độ tương đồng ngữ cảnh toàn cục SimGB(S1 , S2 ) = SimGB(S1 , S2 ) + SimW S(Ai , S2 ) } Bước : Tính độ tương đồng ngữ cảnh cục SimLCA(S1 , S2 ), SimLCT (S1 , S2 ) Bước : Kết hợp độ tương đồng ngữ nghĩa hai câu độ tương đồng ngữ cảnh xung quanh hai thực thể ta độ tương đồng hai câu Trong giải thuật trên, ta cần đo độ tương đồng từ hai câu Để làm việc này, phương pháp đo độ tương đồng từ đề xuất sau TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 21 Phương pháp đo độ tương đồng từ ngữ nghĩa Cây ngữ nghĩa cấu trúc phân cấp biểu diễn quan hệ ngữ nghĩa khái niệm Trên giới có nhiều phương pháp đánh giá độ tương tự từ dựa mạng ngữ nghĩa biểu diễn quan hệ từ (ví dụ: Wordnet) Đối với tiếng Việt, chưa có mạng ngữ nghĩa vậy, nên để giải vấn đề kết hợp phân cấp ngữ nghĩa (hình 1) từ điển từ trung tâm từ điển học Việt nam (Vietlex) [14] xây dựng Hình Cấu trúc phân cấp ngữ nghĩa Để tính độ tương tự ngữ nghĩa hai từ đó, trước tiên ta tìm hai từ từ điển từ để tìm lớp khái niệm mà hai từ thuộc Sau dựa phân cấp ngữ nghĩa tính khoảng cách lớp khái niệm mà hai từ thuộc Ví dụ: Đối với hai từ “ trai ” “ mèo ” tìm từ điển Vietlex từ “ trai ” thuộc lớp Person từ “ mèo ” thuộc lớp Animal Lớp Person lớp Animal có khoảng cách phân cấp ngữ nghĩa Một ví dụ khác: Khi tìm từ điển Vietlex, từ “ nơng dân ” thuộc lớp Person từ “ công dân ” thuộc lớp Person Vậy hai từ có khoảng cách phâp cấp ngữ nghĩa Độ tương tự ngữ nghĩa hai từ c1 c2 tính sau Sim(c1, c2) = 1/dist(c1, c2), (5) đó, dist(c1, c2) khoảng cách từ c1, c2 phân cấp ngữ nghĩa Đối với ví dụ đầu tiên, độ tương tự ngữ nghĩa từ “ trai ” “ làm việc ” 1/3 Với ví dụ thứ hai, độ tương tự ngữ nghĩa từ “ nông dân ” từ “ công nhân ” 22 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs 2.3 Đo độ tương đồng hai câu dựa phương pháp mơ hình Dirichlet ẩn Mơ hình Dirichlet ẩn (Latent Dirichlet Allocation – LDA) [5, 7] dựa ý tưởng: tài liệu trộn lẫn nhiều chủ đề, chủ đề phân bố tập từ vựng Cụ thể là, ta có K chủ đề ứng với D tài liệu; tài liệu liên quan đến chủ đề theo tỷ lệ khác Về chất, LDA mơ hình Baysian ba cấp phần tập hợp biểu diễn mơ hình trộn hữu hạn sở tập xác suất chủ đề Trong ngữ cảnh mơ hình văn bản, xác suất chủ đề cung cấp biểu diễn tường minh cho tài liệu Sự tương tác tài liệu chủ đề ẩn thể tiến trình ngẫu nhiên, giả định sinh tài liệu Mơ hình sinh LDA Cho tập ngữ liệu có M tài liệu, biểu diễn D = {d1 , d2 , , dM }, tài liệu có Nm từ wi rút từ tập từ vựng {t1 , t2 , , tv }, V số kích thước tập từ vựng Ta có tiến trình sinh xác suất cho tập tài liệu sau Giải thuật Tiến trình sinh xác suất tài liệu dạng văn liệu Phương pháp (1) Với chủ đề, → a Tính phân bố từ chủ đề ϕk ∼ Dir(β) (2) Với tài liệu, → a Tính phân bố chủ đề tài liệu ϑ m ∼ Dir(α) b Với từ, → Tìm chủ đề gán với từ Zm,n ∼ M ult( ϑ m ), Zm,n ∈ {1, 2, , K} Tìm từ dựa vào chủ đề gán với → Wd,n ∼ M ult( ϕ Zm,n ), Wm,n ∈ {1, 2, , V } Ở đây, Dir M ult phân phối Dirichlet, M ultinomial (lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial) Đối với toán đo độ tương đồng câu, giải thuật LDA nhận đầu vào câu, đầu kết luận chủ đề câu Mỗi câu gắn với phân phối xác suất chủ đề câu phân phối xác suất từ chủ đề Nói cách khác, với câu i, LDA sinh phân phối chủ đề cho câu Với từ câu, phân phối xác suất chủ đề từ j câu i (Zij ) lấy mẫu dựa theo phân phối chủ đề Dựa vào Zij , hệ thống làm giàu câu cách thêm từ Vectơ tương ứng với câu thứ i có dạng sau Si = {p1 , p2 , , pk , q1 , q2 , , qv } với pl trọng số chủ đề thứ l K chủ đề phân tích; qi trọng số từ thứ i tập từ vựng V tất câu Trường hợp từ j khơng có câu i, gán giá trị Mỗi câu có nhiều phân phối xác suất chủ đề Với hai câu s1 s2 , ta sử dụng độ TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 23 đo cosine để tính độ tương đồng hai câu Ss = Si × Sj Si × Sj (6) Hay K pi,k × pj,k Simi,j (chủ đề -Part) = k=1 K k=1 p2i,p , K × k=1 (7) p2j,p |V | qi,p × qj,p Simi,j (từ -Part) = p=1 |V | i=1 , |V | × qi,p p=1 (8) qj,p Simi,j (chủ đề-Part) độ tương đồng hai câu i j tính theo vectơ trọng số chủ đề pi ; Simi,j (từ-part) độ tương đồng hai câu i j tính theo vectơ trọng số từ qi ; Độ tương đồng hai câu tính sở tổ hợp hai độ đo Sim(si , sj ) = λ × Sim(chủ đề -Part) + (1 − λ) × Sim(từ -Part), (9) cơng thức λ số trộn, nằm đoạn [0,1] 2.4 Điểm yếu giải thuật lan truyền nhãn [10] cách cải tiến Ta thấy rằng, giải thuật lan truyền nhãn có ảnh hưởng nhãn so với nhãn khác, phụ thuộc vào số lượng nhãn tập liệu Nói cách khác, kết đầu bị ảnh hưởng lớn nhãn có tần suất xuất lớn Ví dụ, giả sử tập liệu gán nhãn, số nhãn ứng với quan hệ sống ở, làm việc cho, chức vụ nhiều số nhãn O (khơng thuộc quan hệ quan tâm).Do vậy, áp dụng giải thuật lan truyền nhãn qua phép nhân ma trận, số lượng nhãn O nhiều nên giá trị liên quan đến nhãn O lớn nhiều giá trị liên quan đến nhãn khác Điều dẫn đến bước giải thuật lan truyền nhãn (gán xh nhãn yh = arg maxj Yhj ), nhãn O thay dần nhãn khác Nhiều chỗ kiểu thực thể thực tế phải tên người quan hệ khác lại trở thành nhãn O Đây vấn đề liệu huấn luyện khơng cân bằng, có loại mẫu nhiều hẳn loại mẫu khác Cải tiến thuận toán: Các giải pháp thường nghĩ đến việc giải vấn đề liệu huấn luyện không cân là: (i) tăng số lượng mẫu chiếm thiểu số giảm số lượng mẫu chiếm đa số; (ii) gán trọng số cho loại mẫu liệu huấn luyện Do tập ngữ liệu phục vụ toán xác định mối quan hệ thực thể văn tiếng Việt khơng có sẵn mà phải tự xây dựng tay nên tập ngữ liệu có khơng dư thừa để loại bỏ mẫu ứng với nhãn O Hơn nữa, việc bổ sung thêm tập liệu có nhãn khác để cân với nhãn O khó khăn Số lượng mẫu có nhãn O nhiều nhãn khác xuất phát từ việc gán nhãn quan hệ văn bản; số lượng nhãn thuộc 24 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs loại cân Vì vậy, ta chọn giải pháp thứ hai: mẫu huấn luyện thuộc loại mẫu chiếm số đơng có trọng số nhỏ loại mẫu lại Trong cách tiếp cận báo, trọng số loại mẫu phần bù xác suất xuất loại mẫu tập mẫu Cụ thể là, để giảm ảnh hưởng nhãn có tần suất xuất lớn ma trận, xây dựng ma trận Y , nửa ma trận từ gán nhãn, thay gán giá trị ta gán phần bù xác suất xuất nhãn phần liệu L gán nhãn Ví dụ: Tập L có 100 câu 12 câu có quan hệ sống ở, 20 câu có quan hệ làm việc cho, 18 câu có quan hệ chức vụ, 50 câu có quan hệ O Với ma trận Y , câu có quan hệ O gán trọng số α = − 50/100 = 0, 5, câu có quan hệ sống có α = − 12/100 = 0, 88, câu có quan hệ làm việc cho có trọng số α = − 20/100 = 0, 8, câu có quan hệ chức vụ có trọng số α = − 18/100 = 0, 82 Như vậy, với nhãn xuất nhiều lần giá trị Y nhỏ ngược lại Cách giải hiệu quả, tốn trích rút thực thể số nhãn O luôn xuất nhiều nhãn khác 3.1 THỬ NGHIỆM Tập ngữ liệu phương pháp thử nghiệm Tập ngữ liệu thử nghiệm thu thập thủ công từ trang web tiếng Việt bao gồm cáctrang web cá nhân trang tin tức (vnexpress.net, dantri.com, wikipedia) thuộc lĩnh vực thể thao, khoa học, văn hóa, giáo dục, kinh tế thu thập 950 văn từ trang web Từ văn trên, ta trích chọn 1200 câu chứa hai thực thể thuộc loại tên người, tên địa điểm, tên tổ chức, chức vụ Các câu đượcgán nhãn tay, 960 câu số câu giấu nhãn để làm tập test Mỗi văn có hai người gán (một người gán, người kiểm tra lại) Như nói trên, mối quan hệ xét thử nghiệm làm việc (tên người-tên tổ chức), sống (tên người-tên địa điểm), chức vụ (tên người-chức vụ) Ví dụ - Stephen Hawking - nhà vật lý thiên văn số giới- không thắng bệnh tật, khơng quật ngã ông Câu chứa thực thể tên người (per) nên khơng chọn Ví dụ - Vài ngày trước đó, Paris chúng tơi gặp anh Christophe Galfard , nghiên cứu sinh Hawking Câu chọn chứa thực thể tên người (per) tên địa điểm (loc) Câu dù có chứa thực thể tên người thực thể tên địa điểm quan hệ sống ở, gán nhãn “0” làm mẫu âm cho trình huấn luyện Để đánh giá hệ thống, ta khởi tạo u 960 câu chưa có nhãn mối quan hệ, l 240 câu có nhãn mối quan hệ Vì ba mối quan hệ xét làm việc cho, sống ở, chức vụ,ma trận Y có cột n = 1200 dòng số câu có nhãn chưa có nhãn quan hệ; l = 240 số câu có nhãn tương ứng với l dòng ma trận Y, u=960 số câu chưa có nhãn tương ứng với u dịng cịn lại ma trận Y Ma trận T kích thước n × n ma trận đo mức độ tương tự câu 25 TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 3.2 Phương pháp đánh giá Kết hệ thống đánh giá thơng qua độ đo: độ xác P , độ phủ R, độ đo trung bình F Độ xác P xác định phần trăm mẫu (trong thí nghiệm câu) hệ thống tìm thấy so với mẫu hệ thống cho Độ phủ R xác định phần trăm mẫu hệ thống tìm thấy so với thực tế gán tay Độ đo F giá trị trung bình độ phủ R độ xác P Độ đo P, R, F tính theo công thức sau Số mẫu hệ thống gán , (10) P = Số mẫu hệ thống cho R= Số mẫu hệ thống gán , Số mẫu gán tay (11) 2×P ×R P +R (12) F = Như nói Mục 2.2, trường hợp câu chứa n mối quan hệ câu xuất n lần tập ngữ liệu, lần xuất ứng với quan hệ Các độ đo P, R, F tính bình thường theo cơng thức Sau kết thử nghiệm hệ thống tốn trích rút thực thể trích rút mối quan hệ thực thể 3.3 Kết thu Bảng So sánh kết chưa chuẩn hoá ma trận sau chuẩn hoá ma trận Ki•u m•i quan h! Chưa chu#n hố ma tr$n Sau chu#n hố ma tr$n Ch•c v• S!ng " P 90.90 100.0 R 18.51 18.75 F 30.76 31.57 P 81.53 74.57 R 98.14 91.66 F 89.07 82.24 Làm vi#c cho 83.0 78.0 80.42 70.39 97.36 82.62 Bảng cho thấy kết phương pháp lan truyền nhãn đề xuất (chuẩn hoá ma trận Y ) tốt phương pháp lan truyền nhãn [4] (khi chưa chuẩn hoá ma trận) Bảng So sánh độ đo F ba phương pháp đo độ tương đồng từ Ch•c v• S!ng " Làm vi#c cho So trùng thu$c tính t% 89.07 82.24 82.62 LDA 87.25 82.07 82.10 LDA + trùng thu$c tính t% 90.9 85.0 82.65 Bảng cho thấy kết phương pháp LDA so trùng thuộc tính từ gần tương đương Phương pháp so trùng thuộc tính từ sử dụng nhiều đặc trưng ngữ cảnh độ tương đồng từ (sử dụng thông tin từ loại, kiểu thực thể, ngữ nghĩa, ), độ tương đồng ngữ cảnh xung quanh cặp thực thể; phương pháp LDA sử dụng thuộc tính từ, đó, kết hợp hai phương pháp, kết cho tốt Việc tích hợp thực cách cộng hai ma trận đo độ tương đồng hai phương pháp 26 LÊ THANH HƯƠNG, SAM CHANRATHANY, NGUYỄN THANH THUỶ, ccs Bài báo thực so sánh phương pháp lan truyền nhãn với phương pháp SVM phương pháp SVM kết hợp với Bootstrapping [8], sử dụng liệu Bảng tóm tắt kết phương pháp lan truyền nhãn (ở sử dụng LDA kết hợp với so trùng thuộc tính từ), phương pháp SVM [8] phương pháp SVM kết hợp Bootstrapping [8], thông qua độ đo F Bảng So sánh độ đo F ba phương pháp lan truyền nhãn sử dụng so trùng thuộc tính từ, SVM SVM kết hợp Bootstrapping Ch•c v• S•ng • Làm vi!c cho Lan truy"n nhãn 90.9 85.0 82.65 SVM 87.8 59.5 79.8 SVM + Bootstrapping 92.9 87.0 82.7 Bảng cho thấy phương pháp lan truyền nhãn cho kết tốt phương pháp SVM có giám sát, thấp phương pháp SVM bán giám sát (SVM kết hợp với kỹ thuật Bagging-Bootstrapping) Xét mặt thời gian phương pháp lan truyền nhãn nhanh nhiều phương pháp SVM bán giám sát KẾT LUẬN Trích rút mối quan hệ thực thể tốn cịn mở tiếng Việt Để hệ thống trích rút quan hệ thực thể có độ xác cao, cần có tập liệu huấn luyện lớn Do tiếng Việt chưa có tập liệu vậy, báo đề xuất hệ thống học bán giám sát kết hợp với đặc tính ngơn ngữ Việt cho tốn trích rút quan hệ thực thể Ở đây, ta sử dụng phương pháp lan truyền nhãn Bài báo đề xuất thử nghiệm ba phương pháp đo độ tương đồng câu bao gồm: phương pháp so trùng thuộc tính từ, phương pháp LDA kết hợp hai phương pháp Ngồi ra, báo cịn đưa giải pháp giảm ảnh hưởng nhãn có tần suất xuất lớn đến q trình lan truyền nhãn Thử nghiệm cho thấy kết cải tiến phương pháp lan truyền nhãn sau chuẩn hoá ma trận tốt phương pháp cũ (chưa chuẩn hoá ma trận) Ngồi ra, phương pháp so trùng thuộc tính từ phương pháp LDA cho kết tương tự Việc kết hợp hai phương pháp đo độ tương đồng cho kết tốt chưa kết hợp Thử nghiệm cho thấy phương pháp lan truyền nhãn cho kết tốt phương pháp SVM, thấp phương pháp bán giám sát [8] Tuy nhiên, phương pháp lan truyền nhãn chạy nhanh phương pháp SVM bán giám sát Trong tương lai, mở rộng thử nghiệm với kiểu mối quan hệ thực thể khác để đánh giá tính xác hệ thống đề xuất Ngồi ra, cấu trúc ngữ pháp câu thông tin quan trọng tốn trích rút mối quan hệ thực thể, cần phải nghiên cứu cách tích hợp thơng tin vào hệ thống trích rút mối quan hệ thực thể nhằm tăng độ xác hệ thống TÀI LIỆU THAM KHẢO [1] R.C Bunescu, R.J Mooney, Subsequence kernels for relation extraction, Proceedings of 19th Annual Conference on Neural Information Processing Systems (NIPS’ 05), Vancouver, TRÍCH RÚT QUAN HỆ GIỮA CÁC THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 27 British Columbia, Canada, 2005 [2] A Culotta, J Sorensen, Dependency tree kernels for relation extraction, Proceedings of the 42nd Meeting of the Association for ComputationalLinguistics (ACL’04), Main Volume, Barcelona, Spain, July 2004 (423–429) [3] M E Califf, and R J Mooney, Relational learning of pattern-match rules for information extraction, Proceedings of the Sixteenth National Conferenceon Artificial Intelligence (AAAI-99), Orlando, Florida, July 1999 (328–334) [4] J Chen, D Ji, L.C Tan, Z Niu, Relation extraction using label propagation based semisupervised learning, Proceeding of 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistic, Stroudsburg, PA, USA, 2006 (129–136) [5] M.B David, Y.N Andrew, I.J Michael, Latent dirichlet allocation, Journal of Machine Learning Research (January 2003) 993–1022 [6] C Giuliano, A Lavelli, and L Romano, Exploiting shallow linguistic information for relation extraction from biomedical literature, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL ’06), Trento, Italy, 2006 [7] T Hofmann, Unsupervised learning by probabilistic latent semantic analysis, Machine Learning 42 (1-2) (2001) 177–196 [8] C.R Sam, T.H Le, T.T.Nguyen, A.D.Le, and T.M.N Nguyen, Semi-supervised learning for relation extraction in vietnamese text, Proceedings of the Second Symposium on Information and Communication Technology (SoICT’2011), Hanoi, Vietnam, 2011 (100–105) [9] M.V Tran, V.V Nguyen, T.U Pham, T.O Tran, Q.T Ha, An experimental study of vietnamese question answering system, Proceedings of the International Conference on Asian Language Processing, Singapore, 2009 (152–155) [10] Z Xiaojin, and G Zoubin, “Learningfrom Labeled and Unlabeled Data with Label Propagation”, CMU CALD tech report CMU-CALD-02-107 (2002) [11] Z Zhang, Weakly supervised relation classification for information extractionProceedings of Thirteenth International Conference on Information and Knowledge Management, Washington, DC, 2004 [12] D Zelenko, A Aone, and A Richardella, Kernel methods for relation extraction Journal of Machine Learning Research (2003) 1083–1106 [13] X Zhu, “Semi-supervised learning literature survey (2008)”, Technical Report 1530, University of Wisconsin Madison, 2008 [14] Vietlex: http://www.vietlex.com Ngày nhận 26 - 11 - 2012 Nhận lại sau sửa ngày 12 - 03 - 2014 ... câu 12 câu có quan hệ sống ở, 20 câu có quan hệ làm việc cho, 18 câu có quan hệ chức vụ, 50 câu có quan hệ O Với ma trận Y , câu có quan hệ O gán trọng số α = − 50/100 = 0, 5, câu có quan hệ sống... quan hệ sống ở, làm việc cho, chức vụ nhiều số nhãn O (không thuộc quan hệ quan tâm).Do vậy, áp dụng giải thuật lan truyền nhãn qua phép nhân ma trận, số lượng nhãn O nhiều nên giá trị liên quan. .. RÚT QUAN HỆ GIỮA CÁC THỰC THỂ SỬ DỤNG PHƯƠNG PHÁP LAN TRUYỀN NHÃN 2.1 Phương pháp lan truyền nhãn Trong phương pháp này, liệu gán nhãn chưa gán nhãn biểu diễn dạng điểm khơng gian Q trình lan

Định dạng
Số trang	13
Dung lượng	420,34 KB