TIẾNG VIỆT
2.3.3. Mơ hình đề xuất
Trong phần này, nghiên cứu sinh đề xuất một mơ hình tích hợp xử lý đồng thời hai bài toan:bài toán nhận dạng thực thể và bài tốn trích chọn các thuộc tính liên quan của thực thể tên ngƣời. Nghiên cứu này dựa trên ba lý do chính: thứ nhất, mơ hình xử lý lần lƣợt thơng thƣờng có nhiều hạn chế khó có thể khắc phục, thứ hai, cả hai bài tốn nhận dạng thực thể và trích chọn thuộc tính của thực thể đều có thể xử lý nhƣ một bài tốn gán nhãn chuỗi với nhiều đặc trƣng tƣơng tự, thứ ba, sau khi khảo sát dữ liệu, nghiên cứu sinh nhận thấy các nhãn của thực thể tên ngƣời, loại thuộc tính và giá trị thuộc tính khơng có q nhiều nhập nhằng, vì vậy chúng có thể sử dụng cùng một tập nhãn.
Phạm vi của nghiên cứu hiện tại nằm ở mức câu, tức là thực thể tên ngƣời chính và các thuộc tính của nó phải đƣợc nhắc đến trong cùng một câu.
Nhƣ đã nhắc đến ở phần trên, dựa vào những thuộc tính có tần số xuất hiện cao nhất do WePS2 cung cấp [SJ09], luận án chọn sử dụng 10 loại thuộc tính trong q trình thực nghiệm. Rõ ràng rằng một số thuộc tính trong số này có thể là thuộc
43
về một loại thực thể nào đó (tên ngƣời, ngày tháng, địa điểm, v.v..), không giống với bài tốn NER thơng thƣờng, luận án đề xuất sử dụng một tập nhãn hợp lý để xác định một thực thể có thuộc về loại thuộc tính nào đó khơng, tập nhãn này phân biệt giữa kiểu thuộc tính (tên khác, ngày sinh, ngày mất, nơi sinh, nơi mất, giới tính, nghề nghiệp, quốc tịch, nơi làm việc và thân nhân) và giá trị cụ thể của thuộc tính. Nhƣ vậy, ngồi thực thể chính, có thêm 20 nhãn tƣơng ứng với các thuộc tính, các nhãn này đƣợc liệt kê trong bảng 2.2. Tuân theo danh pháp BIO, có tất cả 43 thẻ đƣợc sử dụng để gán nhãn tập huấn luyện, hình 2.2. là một ví dụ về câu đƣợc gán nhãn.
Bảng 2.2. Các nhãn được sử dụng trong mơ hình
STT Tên nhãn Ý nghĩa STT Tên nhãn Ý nghĩa
1 Oper Thực thể tên ngƣời chính
2 Rper Thực thể tên ngƣời có quan hệ nhân thân với
ngƣời chính
12 R_Relationship Quan hệ nhân thân
3 NickPer Tên gọi khác 13 R_OtherName Quan hệ tên gọi khác 4 VBornLoc Nơi sinh, quê quán 14 R_WhereBorn Quan hệ nơi sinh,
quê quán 5 VDeadLoc Nơi mất 15 R_WhereDead Quan hệnơi mất 6 VHomeLoc Quốc tịch 16 R_Nationality Quan hệ quốc tịch 7 VJobOrg Nơi làm việc 17 R_WhereJob Quan hệ nơi làm
việc
8 Vjob Nghề nghiệp 18 R_Job Quan hệ nghề
nghiệp
9 Vsex Giới tính 19 R_Sex Quan hệ giới tính
44
10 VBornTime Ngày tháng năm sinh 20 R_WhenBorn Quan hệ ngày tháng năm sinh 11 VDeadTime Ngày tháng năm mất 21 R_WhenDead Quan hệ ngày
tháng năm mất
Câu: “Hoàng Cầm tên thật là Bùi Tằng Việt, (sinh 22 tháng 2 năm 1922, tại
xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang – mất 6 tháng 5 năm 2010 tại Hà Nội), là một nhà thơ Việt Nam”.
Hoàng Cầm:{OPer:B} tên:{R_OtherName:B} thật:{R_OtherName:I}
là:{R_OtherName:I} Bùi Tằng Việt:{NickPer:B} ,:{} (:{} sinh:{R_WhenBorn:B}
22:{VBornTime:B} tháng:{VBornTime:I} 2:{VBornTime:I} năm:{VBornTime:I}
1922:{VBornTime:I} ,:{} tại:{R_WhereBorn:B} xã:{VBornLoc:B} Phúc
Tằng:{VBornLoc:I} ,:{VBornLoc:I} huyện:{VBornLoc:I} Việt Yên:{VBornLoc:I} ,:{VBornLoc:I} tỉnh:{VBornLoc:I} Bắc Giang:{VBornLoc:I} –:{} mất:{R_WhenDead:B}
6:{VDeadTime:B} tháng:{VDeadTime:I} 5:{VDeadTime:I} năm:{VDeadTime:I}
2010:{VDeadTime:I} tại:{R_WhereDead:B} Hà Nội:{VDeadLoc:B} ):{} ,:{} là:{} một:{} nhà thơ:{VJob:B} Việt Nam:{VHomeLoc:B} .:{}
Hình 2.2. Một ví dụ về câu được gán nhãn
Mơ hình đƣợc đề xuất gồm có ba pha chính, đƣợc mơ hình hóa trong hình 2.3. Đầu vào của mơ hình là từng câu trong văn bản và đầu ra là các câu đã đƣợc gán nhãn dựa trên mơ hình nhận dạng.
Pha 1: Huấn luyện mơ hình
Tập dữ liệu huấn luyện đã đƣợc gán nhãn sẽ đƣợc đƣa qua công cụ vTools để tiến hành tách từ, gán nhãn từ loại, đây là một công cụ đƣợc nghiên cứu sinh phát triển nhằm mục đích hỗ trợ cho các bài tốn xử lý ngơn ngữ tự nhiên tiếng Việt [CTLA3]. Sau khi tiền xử lý, hệ thống trích chọn và biểu diễn dữ liệu đầu vào dƣới dạng một vector đặc trƣng. Các đặc trƣng đƣợc trích xuất dựa trên nhiều nguồn tri thức và từ điển, các đặc trƣng này sẽ đƣợc mô tả kỹ hơn trong mục 2.3.4. Các vector đặc trƣng sẽ đƣợc huấn luyện thành mơ hình nhận dạng bằng các kỹ thuật học máy thống kê nhƣ CRF hoặc MEM+BS.
45
Pha 2: Gán nhãn dữ liệu dựa trên mơ hình nhận dạng thực thể và thuộc tính
Trong pha này, dữ liệu kiểm thử hoặc dữ liệu chƣa có nhãn đƣợc đƣa qua mơ hình nhận dạng thực thể và thuộc tính đã đƣợc huấn luyện trong pha 1 để nhận dạng các nhãn thực thể cũng nhƣ các nhãn thuộc tính. Trƣớc khi đƣa qua bƣớc nhận dạng, các dữ liệu cũng đƣợc đƣa qua thành phần tiền xử lý dữ liệu bằng công cụ vTools[CTLA3] để tiến hành tách từ, gán nhãn từ loại, sau đấy đƣợc trích xuất đặc trƣng nhƣ ở pha trên. Kết quả đầu ra của pha này sẽ là các câu đã đƣợc gán các nhãn thực thể và nhãn thuộc tính nhƣ mơ tả trong bảng 2.1.
Hình 2.3. Mơ hình tích hợp NER và trích chọn thuộc tính của thực thể tên người
Pha 3 - Lọc câu lọc dữ liệu đã đƣợc gán nhãn thu đƣợc ở pha 2 và chỉ giữ lại các câu có nhãn phù hợp.
46
Pha 3 dựa trên lập luận rằng một mối quan hệ giữa thuộc tính và thực thể phải bao gồm 3 thành phần: thực thể chính (là một thực thể tên ngƣời), kiểu thuộc tính và giá trị thuộc tính. Trong đó, kiểu thuộc tính có thể đƣợc thể hiện bằng từ vựng hoặc ẩn đi, nhƣng hai thành phần còn lại bắt buộc phải xuất hiện trong câu. Nhƣ vậy, trong pha này, tất cả các câu khuyết thiếu một trong hai thành phần thực thể chính và giá trị thuộc tính đều bị loại bỏ. Các câu cịn lại đƣợc coi là kết quả cuối cùng của hệ thống.