Dựa trên hướng tiếp cận được giới thiệu tại mục 2.2.2, khóa luận đề xuất một mô hình trích chọn quan hệđồng tham chiếu trong văn bản trong tiếng Việt bao gồm 3 pha chính: Pha tiền xử lý có vai trò nhận dạng và sinh tập các cụm từ tiềm năng; pha sinh vector đặc trưng có nhiệm vụ là ghép cặp các cụm từ tiềm năng và sinh tập các vector đặc trưng tương ứng; pha nhận dạng dựa trên bộ phân lớp SVM được học để
xác định các cặp cụm từđồng tham chiếu và gom nhóm chúng lại với nhau.
Hình 6: Mô hình trích chọn quan hệđồng tham chiếu trong văn bản tiếng Việt
a. Pha tiền xử lý
Đầu vào: Văn bản tiếng Việt
Đầu ra: Tập các câu và các cụm từđã nhận dạng trong câu tương ứng
Xử lý:
Trong pha này sử dụng bộ công cụ VSW6 (Vietnam semantic web) là bộ
công cụ mã nguồn mở hỗ trợ việc tách câu, tách từ, nhận dạng thực thể…Văn bản tiếng Việt đầu vào được đưa qua bộ tách câu của bộ công cụ VSW thành một tập các câu thô chưa xử lý. Sau đó tập các câu thô này được đNy qua bộ gán gán và nhận dạng thực thể của bộ công cụ VSW nhằm nhận dạng các cụm từ 6 http://code.google.com/p/vsw/ Văn bản tiếng Việt Tập các cụm từ Vector đặc trưng Các nhóm đồng tham chiếu Pha tiền xử lý
Pha sinh vector
đặc trưng Pha nhận dạng Tách câu Tập các câu thô POS-tagging, nhận dạng thực thể Ghép cặp Lựa chọn đặc trưng Bộ phân lớp SVM
30
tiềm năng trong quan hệ đồng tham chiếu: Thực thể tên, danh từ chỉ nghề
nghiệp, chức vụ, đại từ …
Ví dụ:
“Bách Dương tên thật là Quách Định Sanh, sinh năm 1920 tại Hà Nam, Trung Quốc. Bách Dương là một trong những trí giả lớn về nhiều phương diện của Trung Quốc thế kỷ 20. Ông là nhà văn, nhà thơ, nhà phê bình, nhà nghiên cứu, nhà hoạt động xã hội tích cực”
Kết quả tốt nhất của pha này với đầu vào như trên là:
• Các cụm từ “Bách Dương”, “Quách Định Sanh”, “Hà Nam”, “Trung Quốc” tương ứng với câu “Bách Dương tên thật là Quách Định Sanh, sinh năm 1920 tại Hà Nam, Trung Quốc”.
• Các cụm từ “Bách Dương”, “trí giả”, “Trung Quốc” tương ứng với câu “Bách Dương là một trong những trí giả lớn về nhiều phương diện của Trung Quốc thế kỷ 20”.
• Các cụm từ “Ông”, “nhà văn”, “nhà thơ”, “nhà phê bình”, “nhà nghiên cứu”, “nhà hoạt động xã hội” tương ứng với câu “Ông là nhà văn, nhà thơ, nhà phê bình, nhà nghiên cứu, nhà hoạt động xã hội tích cực” Các câu và các cụm từ tiềm năng này được sử dụng cho pha sau.
b. Pha sinh vector đặc trưng:
Trong pha này gồm hai thành phần xử lý con: c. Ghép cặp:
Đầu vào: Tập các câu và các thành phần đã nhận dạng
Đầu ra: Tập các cặp từ các thành phần đã nhận dạng
Xử lý:
Dựa trên một số nhận xét:
• Trong các cặp có quan hệ đồng tham chiếu thì các thực thể tên thường
được đề cập trước trong văn bản. Tức là, xuất hiện trong câu trước khi xuất hiện các thành phần đồng tham chiếu với nó.
• Trong văn bản tiếng Việt, nhằm đảm bảo tính liên kết ngữ nghĩa giữa các câu trong một đoạn, qua sự khảo sát miền dữ liệu thực nghiệm cho thấy các cặp đồng có quan hệđồng tham chiếu thường cách nhau không quá 3 câu.
• Một số trường hợp hai cụm từ có quan hệđồng tham chiếu nằm trong hai câu ngăn cách bởi một câu không chứa các thành phần tiềm năng.
31
Khóa luận đề xuất phương pháp xử lý trong phần này như sau: • Bước 1: Duyệt danh sách câu ngược từ cuối lên.
• Bước 2: Tại mỗi câu hiện tại, xét với 3 câu trước nó
• Bước 3: Tiến hành ghép cặp giữa các thành phần đã nhận dạng của câu hiện tại đối với các thành phần đã nhận dạng của 3 câu trước.
• Bước 4: Dịch vị trí câu hiện tại lên câu ngay trước. Trở lại bước 2 • Bước 5: Trả về tập các cặp đã ghép
Ví dụ: Từ ví dụ phần a, một số cặp có thể được ghép là: (“Bách Dương”, “Quách Đình Sanh”), (“Bách Dương”, “Ông”), (“Bách Dương”, “trí giả”), …. d. Sinh vector đặc trưng:
Mỗi một cặp ở trên tương ứng với một quan hệ. Mỗi một quan hệđược biểu diễn bởi một vector đặc trưng. Trong khóa luận có sử dụng 7 loại đặc trưng chính như sau:
• Đặc trưng chủ ngữ (Subject Feature): Cụm từ đang xét có phải là chủ
ngữ của câu hay không.
• Đặc trưng kiểu của cụm từ (Type Feature): Cụm từ đang xét thuộc loại thành phần nào: Thực thể tên, danh từ, đại từ
• Đặc trưng nghề nghiệp (Job Feature): Cụm từ đang xét có phải là một danh từ chỉ nghề nghiệp, chức vụ hay không.
• Đặc trưng số lượng (Number Feature): Kiểm tra số lượng biểu diễn trong cụm từđang xét.
• Đặc trưng giới tính (Gender Feature): Kiểm tra giới tính biểu diễn trong cụm từđang xét.
• Đặc trưng vị trí (Position Feature): Thể hiện đặc trưng về vị trí của câu chứa cụm từ trong tập các câu đã xử lý hoặc đặc trưng về vị trí của cụm từ trong câu.
• Đặc trưng cặp (Both Feature): Kiểm tra các đặc trưng về cùng kiểu, cùng là chủ nghĩa, cùng số lượng, cùng giới tính; đặc trưng về đồng vị
ngữ
Từ các đặc trưng chính đó, mỗi vector đặc trưng cho một cặp (NP1, NP2) bao gồm 22 thuộc tính gồm ba phần:
• Phần một là các đặc trưng của cụm từNP1được mô tả trong bảng 6 • Phần hai là các đặc trưng của cụm từNP2được mô tả trong bảng 7
32 • Phần ba là các đặc trưng thể hiện mối quan hệ giữa NP1 và NP2, được mô tả trong bảng 8. Bảng 6: Bảng đặc trưng của cụm từ NP1 STT Tên đặc trưng Giá trị Ý nghĩa 1 TYPE_1 [1, 2, 3] Là đặc trưng về kiểu của NP1. Các giá trị tương ứng với kiểu là tên, danh từ, đại từ
2 SUBJECT_1 [0, 1] Là đặc trưng về khả năng NP1 là chủ ngữ của câu. 3 JOB_1 [0, 1] Là đặc trưng về khả năng NP1 là một nghề nghiệp, chức vụ 4 GENDER_1 [-1, 0, 1] Là đặc trưng về giới tính của NP1. Nếu là nam thì có giá trị là 1. Giá trị0 là nữa. Và -1
nếu không xác định được 5
NUMBER_1 [1, 2] Là đặc trưng về số lượng của NP1. Nếu lớn hơn hai vẫn được coi có giá trị là 2. Còn lại có giá trị là 1.
Bảng 7: Bảng đặc trưng của cụm từ NP2
STT Tên đặc trưng Giá trị Ý nghĩa
6 TYPE_2 [1, 2, 3] Là đặc trưng về kiểu của NP2. Các giá trị tương ứng với kiểu là tên, danh từ, đại từ
7 SUBJECT_2 [0, 1] Là đặc trưng về khả năng NP2 là chủ ngữ của câu. 8 JOB_2 [0, 1] Là đặc trưng về khả năng NP2 là một nghề nghiệp, chức vụ 9 GENDER_2 [-1, 0, 1] Là đặc trưng về giới tính của NP2. Nếu là nam thì có giá trị là 1. Giá trị0 là nữa. Và -1
nếu không xác định được 10 NUMBER_2 [1, 2]
Là đặc trưng về số lượng của NP2. Nếu lớn hơn hai vẫn được coi có giá trị là 2. Còn lại có giá trị là 1.
33 Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 STT Tên đặc trưng Giá trị Ý nghĩa 11 BOTH_SUBJECT [0,1] Là đặc trưng về khả năng đồng thời là chủ ngữ của cả cụm NP1 và NP2 12 BOTH_NE [0, 1] Là đặc trưng về khả năng đồng thời là thực thể tên của cả cụm NP1 và NP2 13 BOTH_N [0, 1] Là đặc trưng về khả năng đồng thời là cụm danh từ của cảNP1 và NP2 14 BOTH_PRO [0, 1] Là đặc trưng về khả năng đồng thời là đại từ của cả NP1 và NP2 15 STR_MATCH [0, 1] Là đặc trưng về khả năng trùng khớp toàn phần của NP1 và NP2 16 SUB_STR_MATCH [0, 1] Là đặc trưng về khả năng trùng khớp bộ phận của NP1 và NP2 17 GENDER [-1, 0, 1] Là đặc trưng về khả năng cùng giới tính của NP1 và NP2. 18 NUMBER [-1, 0, 1] Là đặc trưng về khả năng cùng số lượng của NP1 và NP2. 19 AGREEMENT [-1, 0, 1] Là đặc trưng về khả năng cùng số lượng và cùng giới tính của NP1 và NP2. 20 APPOSITTIVE [0, 1] Là đặc trưng về khả năng là đồng vị ngữ của nhau giữa NP1, NP2 21 SEN_DISTANCE [0, 1, …] Là đặc trưng về khoảng cách giữa NP1 và NP2. 22 POS_IN_SEN_DISTANCE [-1, 0, 1, …] Là đặc trưng về khoảng cách NP1 và NP2 nếu tồn tại trong cùng một câu c. Pha nhận dạng
Tập các vector đặc trưng được sinh ra sẽđược đưa qua mô hình phân lớp đã
được học trong phần trước nhằm xác định nhãn lớp. Từ đó, xác định được cặp cụm từ của vector đặc trưng được gán nhãn tương ứng có quan hệ đồng tham
34
chiếu với nhau (nhãn 1) hay không có quan hệđồng tham chiếu ( nhãn 0). Bước cuối cùng là nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm.
Tóm tắt chương 3
Trong chương này, dựa trên phân tích các đặc trưng của văn bản tiếng Việt, khóa luận
đã đưa ra một phương án xây dựng bộ dữ liệu học bán tựđộng và mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ SVM. Kết quả thực nghiệm ở chương sau cho thấy mô hình đề xuất hoàn toàn khả thi.
35
Chương 4: Thực nghiệm và đánh giá
Trong chương này này, khóa luận trình bày một số thực nghiệm để minh chứng tính đúng đắn và tính thực tiễn của mô hình đề xuất.
Vì thời gian có hạn, khóa luận mới chỉ xây dựng thực nghiệm kiểm tra quan hệ đồng tham chiếu giữa các cụm từ trong văn bản thông qua việc xây dựng bộ phân lớp SVM dựa trên những đặc trưng đã đề xuất. Ngoài ra, nhằm minh chứng mô hình đề
xuất là phù hợp với miền dữ liệu tiếng Việt và cho kết quả tốt hơn mô hình cơ sở với các đặc trưng tương đương, khóa luận cũng xây dựng đồng thời một bộ phân lớp dựa trên mô hình cơ sở (tiến hành ghép cặp trên toàn bộ văn bản). Mô hình đề xuất được
đặt tên là PModel, mô hình cơ sởđược đặt tên là Bmodel.