Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
158,13 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Việt Hùng NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ VÀ ỨNG DỤNG CHO TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 LỜI CẢM ƠN Trong trình học tập nghiên cứu, em nhận hướng dẫn tận tình thầy Lê Hồng Phương cô Nguyễn Thị Minh Huyền Em xin chân thành cảm ơn thầy, cô giúp đỡ em nhiều học tập công việc Em xin gửi lời cảm ơn tới thầy, cô giáo nhiệt tình giảng dạy chuyên đề Cao học cho chúng em Em xin cảm ơn gia đình, bạn bè, đồng nghiệp, người quan tâm, động viên em trình học tập làm luận văn Hà Nội, ngày 29 tháng 11 năm 2015 Học viên Nguyễn Việt Hùng i Mục lục Danh sách bảng v Danh sách hình vẽ vi Giới thiệu 1 Tổng quan xác định đồng sở 1.1 Bài toán xác định đồng sở 1.2 Cách giải toán xác định đồng sở 1.2.1 Xác định đề cập 1.2.2 Xác định quan hệ đồng sở Phương pháp xác định đồng sở 11 1.3.1 Phương pháp phân loại 11 1.3.2 Phương pháp phân cụm 12 1.3.3 Phương pháp lai 13 Đánh giá kết xác định đồng sở 14 1.4.1 Ngữ liệu 14 1.4.2 Độ đo đánh giá 14 1.3 1.4 Phương pháp xác định đồng sở sàng nhiều lượt 22 2.1 Kiến trúc hệ thống 22 2.2 Một số trình xử lý hệ thống 25 2.2.1 Xác định đề cập 25 2.2.2 Xử lý cụm đơn 26 2.2.3 Đầu vào đầu bước sàng 26 ii 2.3 2.4 2.2.4 Chia sẻ đặc trưng đề cập cụm 26 2.2.5 Xác định đại diện cụm 27 2.2.6 Việc gộp cụm 27 Các lượt sàng 27 2.3.1 Xác định người nói 28 2.3.2 So khớp chuỗi chặt 29 2.3.3 So khớp chuỗi nới lỏng 29 2.3.4 Một số trường hợp xác cao 29 2.3.5 So khớp từ chặt 30 2.3.6 So khớp từ biến thể 30 2.3.7 So khớp từ danh từ riêng 30 2.3.8 So khớp từ nới lỏng 30 2.3.9 Xác định đồng sở cho đại từ 31 Kết cho tiếng Anh 31 2.4.1 Ngữ liệu 31 2.4.2 Kết 31 Ứng dụng cho tiếng Việt 3.1 3.2 3.3 33 Các công cụ có cho xử lý tiếng Việt 33 3.1.1 Công cụ tách từ, gán nhãn từ loại 33 3.1.2 Kho ngữ liệu có gán nhãn cú pháp thành phần 34 3.1.3 Kho ngữ liệu có gán nhãn cú pháp phụ thuộc 34 3.1.4 Kho ngữ liệu có gán nhãn vai nghĩa 34 Phương pháp sàng nhiều lượt cho tiếng Việt 35 3.2.1 Các lượt sàng 35 3.2.2 Xác định đặc trưng đề cập cho tiếng Việt 41 Thực nghiệm 41 3.3.1 Ngữ liệu 41 3.3.2 Kết thực nghiệm 42 Kết luận 43 Tài liệu tham khảo 45 iii Phụ lục 49 VietTreebank 49 Một số quan hệ phụ thuộc cho tiếng Việt 49 Phân tích vai nghĩa 53 iv Danh sách bảng 1.1 Các đặc trưng mô hình xác định đồng sở học máy 1.2 Các liệu 15 2.1 Các lượt sàng tiếng Anh 28 2.2 Các liệu thử nghiệm 32 2.3 Kết hệ thống hệ thống Stanford với số liệu 32 2.4 Kết hệ thống Stanford thi năm 2013 32 3.1 Các lượt sàng áp dụng cho tiếng Việt 35 3.2 Kết thực nghiệm 42 3.3 Tập nhãn từ loại VietTreeBank 49 3.4 Tập nhãn cụm từ VietTreeBank 50 3.5 Các nhãn chức cú pháp VietTreebank 50 v Danh sách hình vẽ 1.1 Phân tích cú pháp thành phần câu tiếng Việt 2.1 Kiến trúc hệ thống xác định đồng sở Stanford [17] 23 3.1 Phân tích cú pháp câu "Tôi mua sách mà thầy giáo giới thiệu." 37 3.2 Phân tích cú pháp câu "Quyển sách hay." 38 3.3 Phân tích cú pháp câu "Hà Nội, thủ đô Việt Nam, bị ô nhiễm." 39 3.4 Phân tích cú pháp câu "Hà Nội thủ đô Việt Nam." 40 3.5 Câu tiếng Anh gán nhãn vai nghĩa vi 54 Giới thiệu Trong ngôn ngữ học, thuật ngữ đồng sở dùng để nói quan hệ cụm từ tới thực thể Xác định đồng sở trình tìm cụm từ văn tham chiếu tới thực thể Xác định đồng sở vấn đề ngôn ngữ tự nhiên Đây bước quan trọng việc phân tích hiểu ngữ nghĩa văn Ví dụ: John nhạc sĩ Anh chơi ca khúc Một cô gái chăm lắng nghe ca khúc "Đây hát yêu thích tôi", John nói với cô Để hiểu đoạn văn trên, trước tiên cần phải xác định đối tượng nói tới (đề cập) văn Có 11 (sự) đề cập đoạn văn là: [John]1 [một nhạc sĩ]2 [Anh ấy]3 chơi [một ca khúc mới]4 [Một cô gái]5 chăm lắng nghe [ca khúc]6 "[Nó]7 [bài hát yêu thích [tôi]9 ]8 ", [John]1 nói với [cô ấy]1 Các đề cập nói tới đối tượng: • Một người nhạc sĩ tên John: [John]1 , [một nhạc sĩ]2 , [Anh ấy]3 , [tôi]9 , [John]1 • Một cô gái nghe nhạc John: [Một cô gái]5 , [cô ấy]1 • Một hát John: [một ca khúc mới]4 , [ca khúc]6 , [Nó]7 , [bài hát yêu thích tôi]8 Bài toán xác định đồng sở nghiên cứu nhiều cho tiếng Anh vấn đề thời Các phương pháp luận áp dụng cho tiếng Anh phát triển rộng rãi cho ngôn ngữ khác [5] Bài toán xác định đồng sở giải thông qua hai bước: • Bước 1: Xác định đề cập văn bản; • Bước 2: Xác định quan hệ đồng sở đề cập Bước giải cách xác định cụm danh từ văn bản, thường đề cập văn Bước trọng tâm để giải toán Trong đa số trường hợp, nói tới việc xác định đồng sở cho văn bản, người ta tập trung vào giải bước Bài toán xác định đồng sở mô hình hóa theo hai cách: • Xác định cặp đề cập có quan hệ đồng sở hay không • Phân cụm đề cập cho đề cập cụm tham chiếu đến thực thể Theo mô hình thứ nhất, toán đưa toán phân lớp Còn theo mô hình thứ hai, ta có toán phân cụm Một số hệ thống sử dụng hai mô hình Tiêu biểu hệ thống xác định đồng sở với kiến trúc sàng nhiều lượt nhóm xử lý ngôn ngữ trường Đại học Stanford cho kết tốt với tiếng Anh áp dụng cho ngôn ngữ khác với kết khả quan [17] Với tiếng Việt, nghiên cứu đồng sở chưa nhiều, tập trung vào số toán riêng xác định thực thể định danh [23] [15] [22] [20], xác định hồi số đại từ đặc biệt Do vậy, mục tiêu luận văn nghiên cứu xây dựng hệ thống xác định đồng sở văn tiếng Việt Yêu cầu cho hệ thống xác định đồng sở xác định đặc trưng cho xác đề cập (hoặc cụm đề cập) Trong luận văn này, đặc trưng tiếng Anh sử dụng làm sở để xây dựng đặc trưng cho tiếng Việt với số thay đổi cho phù hợp với đặc điểm ngôn ngữ Quá trình xác định đặc trưng đề cập (hoặc cặp đề cập) cần nhiều thông tin, nhiều thông tin xác định, kết xác định đồng sở xác Trong tiếng Anh, có nhiều công cụ hỗ trợ để xác định đặc trưng Với tiếng Việt, có nhiều hạn chế công cụ xử lý ngôn ngữ bản: chưa có WordNet cho tiếng Việt, chưa có công cụ có độ xác cao chia sẻ để thực công việc xác định thực thể định danh (NER), chưa có từ điển thống để xác định thông tin hình thái giống đực/cái, người/chỉ vật, Một công việc cần thiết để xác định đồng sở cho tiếng Việt cần xây dựng công cụ để hỗ trợ xác định quan hệ đặc trưng đề cập Trong trình ứng dụng cho tiếng Việt, thực nghiệm tiến hành kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP gồm 10000 câu phân tích cú pháp Kho ngữ liệu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] để xác định đặc trưng cho mô hình Luận văn có cấu trúc gồm phần chính: • Chương trình bày tổng quan toán xác định đồng sở chỉ, cách tiếp cận giải toán xác định đồng sở • Chương trình bày hệ thống xác định đồng sở theo kiến trúc sàng nhiều lượt • Chương trình bày việc ứng dụng sàng nhiều lượt để xác định đồng sở cho tiếng Việt thực nghiệm http://vlsp.vietlp.org:8080 Hình 3.2: Phân tích cú pháp câu "Quyển sách hay." cụm ngăn cách dấu "," tách biệt với vị ngữ dấu "," Vị ngữ định Cặp cụm danh từ liên kết vị ngữ định có quan hệ đồng sở Trường hợp nhận biết thông qua phân tích cú pháp tìm mệnh đề có cụm vị ngữ có vị từ "là" Mệnh đề cần tìm có cấu trúc dạng "NP VP(là NP)" Ví dụ: Hà Nội thủ đô Việt Nam Trong ví dụ này, cụm NP "Hà Nội" có cụm vị ngữ VP "là thủ đô Việt Nam" - với vị từ "là" cụm NP "thủ đô Việt Nam" Một cách đơn giản để xác định cặp đề cập trường hợp sử dụng kết phân tích vai nghĩa Ta tìm tất trường hợp xuất REL "là" Các cặp cụm danh từ ARG-0 ARG-1 có quan hệ đồng sở So khớp từ chặt chẽ Trong tượng này, hai cụm danh từ có từ giống nhau, có tương đồng cấu trúc cú pháp (cây cú pháp bao trùm nhau) có quan hệ đồng sở Cách thức để nhận biết trường hợp so sánh hai cú pháp, hai đề cập có quan hệ đồng sở 38 Hình 3.3: Phân tích cú pháp câu "Hà Nội, thủ đô Việt Nam, bị ô nhiễm." Phân cụm đề cập lại Ở bước này, cụm thu sau bước so khớp trước chọn đề cập đại diện xác định xác đặc trưng để tiến hành phân cụm Thuật toán phân cụm sử dụng DBSCAN với số MinPts = Khoảng cách hai đề cập tính theo công thức: dist(N Pi , N Pj ) = f ∈F wf ∗ incompatibilityf (N Pi , N Pj ) đó, • F tập hợp đặc trưng • f đặc trưng • wf trọng số đặc trưng f 39 Hình 3.4: Phân tích cú pháp câu "Hà Nội thủ đô Việt Nam." • incompatibilityf hàm số tính khoảng cách hai đề cập theo đặc trưng f, hàm trả giá trị Các đặc trưng sử dụng cho bảng: Danh sách từ 10 tất từ thuộc đề cập thuộc đề cập kia, ngược lại Từ 1 khác từ chính, từ Khoảng cách câu (khoảng cách số câu)/(tổng số câu) Khoảng cách đoạn (khoảng cách đoạn)/(tổng số đoạn) Là chuỗi -∞ đề cập chuỗi đề cập lại Số ít, số nhiều ∞ loại, ngược lại Tên riêng ∞ tên riêng, ngược lại 40 3.2.2 Xác định đặc trưng đề cập cho tiếng Việt Vấn đề quan trọng hệ thống xác định đồng sở cho tiếng Việt xác định thông tin đặc trưng cho đề cập Các đặc trưng đặc trưng để so khớp cặp đề cập để phân cụm đề cập Với tiếng Việt, sẵn công cụ bổ trợ công cụ xác định phân lớp theo thực thể định danh (NER), từ điển riêng (mỗi công cụ nhóm nghiên cứu có từ điển riêng như: từ điển tên gọi khác nhau, danh sách từ đặc biệt để xác định người người nói, ), WordNet, việc xác định đặc trưng đề cập toán khó Phương pháp đề xuất báo cáo để giải vấn đề phân tích cú pháp phân tích vai nghĩa Quá trình phân tích cú pháp cho thông tin ngữ pháp văn bản, giúp xác định cụm danh từ, từ cụm danh từ, nhãn từ loại, Phân tích vai nghĩa giúp làm rõ quan hệ cụm từ câu thông qua động từ [6] Thông tin giúp xác định quan hệ đặc biệt đề cập dễ dàng xác định người nói 3.3 Thực nghiệm Các thực nghiệm tiến hành để đánh giá khả ứng dụng kiến trúc sàng nhiều lượt cho tiếng Việt 3.3.1 Ngữ liệu Thực nghiệm tiến hành 3000 câu 50 văn lấy từ kho ngữ liệu VietTreebank gồm 10000 câu phân tích cú pháp thành phần 3000 câu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] xác định đồng sở thủ công 41 [...]... lại 40 3.2.2 Xác định đặc trưng của các đề cập cho tiếng Việt Vấn đề quan trọng nhất trong hệ thống xác định đồng sở chỉ cho tiếng Việt chính là xác định các thông tin và các đặc trưng cho các đề cập Các đặc trưng này có thể là các đặc trưng để so khớp một cặp đề cập hoặc để phân cụm các đề cập Với tiếng Việt, do không có sẵn các công cụ bổ trợ như công cụ xác định và phân lớp theo thực thể định danh... nhau) có quan hệ đồng sở chỉ Cách thức để nhận biết trong trường hợp này là so sánh hai cây cú pháp, nếu một cây là cây con của cây kia thì hai đề cập sẽ có quan hệ đồng sở chỉ 38 Hình 3.3: Phân tích cú pháp câu "Hà Nội, thủ đô của Việt Nam, đang bị ô nhiễm." Phân cụm các đề cập còn lại Ở bước này, các cụm thu được sau các bước so khớp trước sẽ chọn ra các đề cập đại diện và được xác định xác đặc trưng... của văn bản, giúp xác định các cụm danh từ, từ chính của cụm danh từ, nhãn từ loại, Phân tích vai nghĩa sẽ giúp làm rõ quan hệ giữa các cụm từ trong câu thông qua động từ [6] Thông tin này giúp xác định các quan hệ đặc biệt giữa các đề cập và dễ dàng xác định người nói 3.3 Thực nghiệm Các thực nghiệm được tiến hành để đánh giá khả năng ứng dụng kiến trúc sàng nhiều lượt cho tiếng Việt 3.3.1 Ngữ liệu... với vị từ chính "là" và cụm NP "thủ đô của Việt Nam" Một cách đơn giản hơn để xác định các cặp đề cập trong trường hợp này là sử dụng kết quả của phân tích vai nghĩa Ta sẽ tìm tất cả các trường hợp xuất hiện của REL "là" Các cặp cụm danh từ trong ARG-0 và ARG-1 có quan hệ đồng sở chỉ So khớp từ chính chặt chẽ Trong hiện tượng này, hai cụm danh từ có từ chính giống nhau, có sự tương đồng về cấu trúc cú... "," và tách biệt với vị ngữ bởi dấu "," Vị ngữ chỉ định Cặp cụm danh từ được liên kết bằng vị ngữ chỉ định sẽ có quan hệ đồng sở chỉ Trường hợp này được nhận biết thông qua phân tích cú pháp bằng tìm các mệnh đề có cụm vị ngữ có vị từ chính là "là" Mệnh đề cần tìm sẽ có cấu trúc dạng "NP VP(là NP)" Ví dụ: Hà Nội là thủ đô của Việt Nam Trong ví dụ này, cụm NP "Hà Nội" có cụm vị ngữ VP "là thủ đô của Việt. .. nghiên cứu đều có các từ điển riêng như: từ điển các tên gọi khác nhau, các danh sách các từ đặc biệt để xác định người người nói, ), WordNet, việc xác định các đặc trưng của các đề cập cũng là một bài toán khó Phương pháp được đề xuất trong báo cáo để giải quyết vấn đề này là phân tích cú pháp và phân tích vai nghĩa Quá trình phân tích cú pháp cho chúng ta thông tin về ngữ pháp của văn bản, giúp xác. .. câu trong 50 văn bản được lấy từ kho ngữ liệu VietTreebank gồm 10000 câu đã được phân tích cú pháp thành phần 3000 câu này đã được bổ sung thông tin về cú pháp phụ thuộc [8] và thông tin về vai nghĩa [6] và được xác định đồng sở chỉ thủ công 41 ... để tiến hành phân cụm Thuật toán phân cụm được sử dụng là DBSCAN với chỉ số MinPts = 2 Khoảng cách giữa hai đề cập được tính theo công thức: dist(N Pi , N Pj ) = f ∈F wf ∗ incompatibilityf (N Pi , N Pj ) trong đó, • F là tập hợp các đặc trưng • f là một đặc trưng • wf là trọng số của đặc trưng f 39 Hình 3.4: Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." • incompatibilityf là một hàm số tính... f 39 Hình 3.4: Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." • incompatibilityf là một hàm số tính khoảng cách của hai đề cập theo đặc trưng f, hàm này trả về giá trị giữa 0 và 1 Các đặc trưng được sử dụng được cho trong bảng: Danh sách các từ 10 1 nếu tất cả các từ thuộc đề cập này thuộc đề cập kia, 0 nếu ngược lại Từ chính 1 1 nếu khác từ chính, 0 nếu cùng từ chính Khoảng cách câu 5 (khoảng