Tác giảđã sử dụng các công cụ sau trong quá trình xây dựng hệ thống như liệt kê trong bảng 10: Bảng 10: Danh sách các phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn 1. Eclipse-SDK- 3.6.1-win32 http://www.eclipse.org/downloads 2. Vietnam semantic web (VSW) Nguyễn Tuấn Anh và Trần Mai Vũ http://code.google.com/p/vsw/
36
3. httpClient 4.1 Apache http://hc.apache.org/httpcomponent s-client-ga/
4. htmlParser Derrick Oswald http://htmlparser.sourceforge.net
5. libSVM Chih-Chung Chang, Chih-Jen Lin http://www.csie.ntu.edu.tw/~cjlin/li bsvm/ 4.2. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm gồm 200 trang báo tiếng Việt được lấy từ trang báo điện tử
VnExpress.net chuyên mục Văn hóa – xã hội.
4.3. Thực nghiệm
4.3.1. Mô tả cài đặt chương trình
Chương trình thực nghiệm được tổ chức thành 8 gói:
• Cor.analysis: Thực hiện việc tách câu từ văn bản đầu vào, phân tích và nhận dạng các thực thể tên, danh từ, đại từ trong mỗi câu
• Cor.entity: Các lớp thực thể sử dụng trong mô hình
• Cor.fextract: Thực hiện việc ghép cặp các cụm từ trong câu hiện tại và 3 câu phía trước.
• Cor.dict: Thực hiện việc xác định xem một từ có nằm trong từđiển nghề
nghiệp, chức vụ hay không
• Cor.crawler: Thực hiện việc tải và trích xuất nội dung cho bộ dữ liệu học • Cor.util: Thực hiện xử lý vào ra file, xử lý xâu, biểu thức chính quy • Cor.classification: Thực hiện việc phân lớp các vector đặc trưng • Cor.libsvm: Bộ thư viện LibSVM
4.3.2. Xây dựng bộ dữ liệu học a. Pha tiền xử lý a. Pha tiền xử lý
Tiến hành thu thập tập tài liệu là nội dung chính 200 bài báo trong dữ
liệu thực nghiệm như chiến lược đã đề xuất tại mục 3.3.1. Theo như mô hình đã
đề xuất sẽ lần lượt đưa các tài liệu này qua bước tiền xử lý nhằm nhận dạng ra các cụm từ tiềm năng tham gia vào các quan hệđồng tham chiếu thông qua bộ
công cụ VSW. Tuy nhiên, trong quá trình thực nghiệm, chúng tôi nhận thấy rằng tính chính xác của pha tiền xử lý này là yếu tố quan trọng quyết định ảnh hưởng tới tính chính xác của bộ phân lớp nói riêng hay tính chính xác của toàn
37
mô hình nói chung. Pha tiền xử lý càng chuNn xác thì các vector đặc trưng được sinh ra càng sát với dữ liệu thực tế, từđó bộ phân lớp cho kết quả càng cao. Vì vậy, để đầu ra pha tiền xử lý chuNn xác, thực nghiệm tiến hành gán nhãn bằng tay tập dữ liệu nội dung tải về để máy tính có thể bắt một cách chuNn xác nhất. Trong phần thực nghiệm này, chỉ xét các thành phần tiềm năng tham gia vào quan hệ đồng tham chiếu là: Thực thể tên người, đại từ, danh từ chỉ nghề
nghiệp. Các nhãn được gán bao gồm: NE, N, P. Trong đó, NE thể hiện cho các thực thể tên, N thể hiện cho các danh từ chỉ nghề nghiệp, chức vụ khác, P thể
hiện cho các đại từ.
<NE>Trịnh Công Sơn</NE> (28/2/1939 - 1/4/2001) là một trong những <N>nhạc sĩ</N> lớn của tân nhạc Việt Nam. Ngoài nhạc, <P>ông</P> còn được xem là một <N>nhà thơ</N>, một <N>họa sĩ</N>. <NE>Trịnh Công Sơn</NE> sáng tác khoảng hơn 500 ca khúc, không những mang đậm phong cách riêng mà còn gửi gắm nhiều triết lý. <P>Ông</P> từng lý giải: "<P>Tôi</P> chỉ là một <N>tên hát rong</N> đi qua miền đất này để hát lên những linh cảm của <P>mình</P> về những giấc mơđời hưảo".
Hình 7: Ví dụ về dữ liệu gán nhãn
Nhận xét: Việc gán nhãn bằng tay tập dữ liệu đầu vào trong pha tiền xử lý có hai ưu điểm
• Mô hình nhận dạng được toàn bộ các cụm từ tiềm năng tham gia vào quan hệđồng tham chiếu
• Mô hình loại bỏ, không nhận dạng cụm từ không mong muốn
b. Pha sinh vector đặc trưng
• Ghép cặp
Từ tập các câu và các thành phần đã nhận dạng từ pha trên, đối với mô hình đề xuất trong pha này tiến hành ghép cặp các thành đã nhận dạng theo chiến lược đã đề xuất trong 3.2.2:
• Bước 1: Duyệt danh sách câu ngược từ cuối lên. • Bước 2: Tại mỗi câu hiện tại, xét với 3 câu trước nó
• Bước 3: Tiến hành ghép cặp giữa các thành phần đã nhận dạng của câu hiện tại đối với các thành phần đã nhận dạng của 3 câu trước. • Bước 4: Dịch vị trí câu hiện tại lên câu ngay trước. Trở lại bước 2
38
Đối với mô hình cơ sở, các bước tương tự chỉ khác tại bước 3, tiến hành ghép cặp trên toàn bộ tập văn bản.
Nhận xét:
• Số cặp được sinh ra bởi PModel ít hơn số cặp được sinh ra bởi
BModel, vì vậy thời gian xử lý sẽ nhanh hơn.
• Khi số tài liệu đầu vào nhiêu, BModel sẽ tạo ra số cặp rất lớn.
• Sinh vector đặc trưng
Mỗi một cặp ở trên tương ứng với một quan hệ. Mỗi một quan hệđược biểu diễn bởi một vector đặc trưng gồm 22 thuộc tính v = {vi} i = 1, 2, …, 22đã
đề cập trong mục 3.3.2. Trong đó:
• v1, v2 thể hiện đặc trưng về kiểu của các cụm từ trong cặp. Giá trị của các thuộc tính này là 1, 2, 3 tương ứng với các kiểu thực thể tên, danh từ và đại từ
• v3, v4, v5 thể hiện đặc trưng về khả năng cùng kiểu thực thể tên, danh từ, đại từ của cặp cụm từ. Giá trị của thuộc tính này là 0, 1. Trong đó 1 tương ứng với việc cùng kiểu thực thể và ngược lại.
• v6, v7, v8 lần lượt thể hiện đặc trưng về khả năng là chủ ngữ trong câu của các cụm từ trong cặp và khả năng cùng là chủ ngữ trong câu. Giá trị của thuộc tính này là 0, 1 tương ứng với việc có là chủ ngữ trong câu hoặc cùng là chủ ngữ, 0 ngược lại.
• v9, v10 lần lượt thể hiện đặc trưng về khả năng là danh từ chỉ nghề
nghiệp, chức vụ của các cụm từ trong cặp . Giá trị của thuộc tính này là 0, 1 tương ứng với việc cụm từ là danh từ chỉ nghề nghiệp, chức vụ; 0 ngược lại.
• v11 thể hiện khả năng hai cụm từ là đồng vị ngữ của nhau. Giá trị
thuộc tính là 1 khi hai cụm từ là đồng vị ngữ. Ngược lại, nhận giá trị
là 0
• v12, v13 thể hiện đặc trưng về trùng khớp toàn phần và trùng khớp bộ
phận của hai cụm từ. Thuộc tính nhận giá trị 1 nếu là trùng khớp hoàn toàn hoặc trùng khớp bộ phận tương ứng. Ngược lại nhận giá trị
là 0.
• v14, v15, v16 lần lượt thể hiện đặc trưng về giới tính của hai cụm từ và
đặc trưng về khả năng giống nhau về giới tính của hai cụm từ. Thuộc tính v14, v15 nhận giá trị là 1, 0, -1 tương ứng với giới tính nam, nữ,
39
không xác định. Thuộc tính v16 nhận giá trị 1, 0, -1 tương ứng với cùng giới tính, khác giới tính, không xác định.
• v17, v18, v19: lần lượt thể hiện đặc trưng về số lượng của hai cụm từ và
đặc trưng về khả năng cùng số lượng của hai cụm từ. Thuộc tính v17, v18 nhận giá trị là 1, 2, -1 tương ứng với số ít, số nhiều ( nhiều hơn bằng 2) và không xác định được. Thuộc tính v19 nhận giá trị 1, 0, -1
tương ứng với cùng số lượng, khác số lượng và không xác định được. • v20: thể hiện đặc trưng về khả năng cùng số lượng và cùng giới tính. Thuộc tính nhận giá trị là 1, 0, -1 tương ứng với việc cùng số lượng và giới tính; ít nhất một trong hai đặc trưng là khác; có ít nhất một
đặc trưng không xác định được.
• v21, v22 lần lượt thể hiện đặc trưng về khoảng cách câu giữa hai cụm từ và khoảng cách từ giữa hai cụm từ. v21 nhận giá trị là 0, 1, 2, 3 trong mô hình đề xuất, và 0, 1, 2…, n trong mô hình cơ sở. v22 nhận giá trị là -1, 0, 1, 2, …, n tương ứng với việc hai cụm từ ở khác câu và khoảng cách từ giữa hai cụm từ nếu cùng trong một câu.
< NE > Trương Trí Lâm < /NE > , < NE > Ngô Quân Như < /NE > là <N>bạn học</N> cùng đại học. <P>Họ < /P > là <N>những sinh viên xuất sắc</N> của trường. Trương Trí Lâm | Họ 1:3 2:1 3:-1 4:0 5:-1 6:1 7:1 8:1 9:0 10:0 11:0 12:0 13:0 14:-1 15: -1 16:-1 17:1 18:1 19:1 20:-1 21:1 22:-1 Hình 8: Một ví dụ về sinh vector đặc trưng Nhận xét:
• Thực nghiệm cho thấy giá trị các thuộc tính v6, v7, v8 ,v11 nếu nhận giá trị
là 1 thì đa số các trường hợp cặp cụm từ này có quan hệ đồng tham chiếu.
• Tuy nhiên, có một số trường hợp vì nhập nhằng ngữ nghĩa vì thế nên vector đặc trưng không thể hiện tốt được quan hệ của hai cụm từ, gây khó khăn cho việc gán nhãn lớp trong pha tiếp theo.
• Với số dữ liệu thực nghiệm mô hình đề xuất sinh ra được hơn 2500
40
4.3.3. Xây dựng bộ phân lớp
Tập các vector đặc trưng được sinh trong phần trước, được tiến hành kiểm tra và gán nhãn bằng tay. Trong đó, các vector đặc trưng có nhãn là 1 tương ứng với cặp cụm từ tương ứng có quan hệđồng tham chiếu, và ngược lại. Sau đó tập các vector đã
được gán nhãn này được tiến hành huấn luyện mô hình và kiểm thử sử dụng bộ công cụ libSVM.
4.4. Đánh giá, so sánh
4.4.1. Đánh giá hệ thống
Hệ thống được đánh giá chất lượng thông qua ba độđo: độ chính xác
(precision), độ hồi tưởng (recall) và độđo F (F-measure). Ba độđo này được tính toán theo công thức sau:
ݎ݁ = ܿݎݎ݁ܿݐܥܿݎݎ݁ܿݐܥ + ݅݊ܿݎݎ݁ܿݐܥ ݎ݁ܿభ = ܿݎݎ݁ܿݐܥܿݎݎ݁ܿݐܥଵ ଵ+ ݅݊ܿݎݎ݁ܿݐܥ ܨ = 2 ∗ ݎ݁∗ ݎ݁ܿ ݎ݁ܿ+ ݎ݁ܿ Trong đó: Giá trị Ý nghĩa
ܿݎݎ݁ܿݐܥ Số kết quảđược phân lớp vào lớp 0 là đúng ݅݊ܿݎݎ݁ܿݐܥ Số kết quảđược phân lớp vào lớp 0 là sai
ܿݎݎ݁ܿݐܥଵ Số kết quảđược phân lớp vào lớp 1 là đúng ݅݊ܿݎݎ݁ܿݐܥଵ Số kết quảđược phân lớp vào lớp 1 là sai
4.4.2. Phương pháp đánh giá
Tiến hành thực nghiệm bộ phân lớp của hai mô hình theo phương pháp đánh giá chéo. Theo phương pháp này, dữ liệu học được chia thành 10 phần bằng nhau, lần lượt lấy 9 phần để huấn luyện và 1 phần còn lại để kiểm tra, kết quả sau 10 lần thực nghiệm được ghi lại và đánh giá tổng thể. Thư viện libSVM sử dụng trong khóa luận hỗ trợ phương pháp đánh giá này, vì vậy phần thực nghiệm sử dụng kết quả sẵn có của bộ thư viện.
41
Ngoài ra, trong phần này còn tiến hành thực nghiệm thực tế trên 10 đoạn văn bản khác. Các đoạn văn bản này được gán nhãn thành phần, sau đó sinh vector đặc trưng và gán nhãn lớp tương ứng. Kết quảđược ghi lại và đánh giá tổng thể.
4.4.3. Kết quả thực nghiệm
Kết quả thực nghiệm so sánh giữa hai mô hình: Mô hình đề xuất PModel và mô hình cơ sở BModel.
Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản PModel BModel Độ chính xác trung bình theo LibSVM 76.51 % 73.79 % Độ chính xác trung bình theo thực nghiệm thực tế 77, 83 % 71,12 %
Hình 9: Kết quảđộđo chính xác của hai mô hình thực nghiệm trên 10 văn bản
0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 PModel BModel
42
Hình 10: Kết quảđộđo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản
Hình 11: Kết quảđộđo F1 của hai mô hình thực nghiệm trên 10 văn bản
4.5. Nhận xét
Quá trình thực nghiệm bước đầu mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ SVM cho thấy kết quả tương đối khả quan với độ chính xác trung bình là 76.51%, trong khi mô hình cơ
sở với các đặc trưng tương đương cho độ chính xác là 73.79%. Điều này thể hiện tính
đúng đắn và phù hợp của mô hình đề xuất với miền dữ liệu tiếng Việt. Ngoài ra, kết quả phần thực nghiệm thực tế với 10 văn bản khác với độ chính xác trung bình của
PModel và BModel lần lượt là 77. 83%, 71.12% củng cố thêm rằng mô hình đề xuất
0 10 20 30 40 50 60 70 80 1 2 3 4 5 6 7 8 9 10 PModel BModel 0 10 20 30 40 50 60 70 80 1 2 3 4 5 6 7 8 9 10 PModel BModel
43
là hoàn toàn khả thi. Tuy nhiên, kết quả độ đo hồi tưởng và độ đo F1 phụ thuộc chưa cho kết quả cao bởi sự phụ thuộc vào dữ liệu văn bản kiểm tra có tính nhập nhằng cao; kết quảđộđo chính xác với từng văn bản chưa đồng đều do miền dữ liệu học chưa bao phủ hết các trường hợp. Nhưng tác giả tin rằng một khi đã xây dưng được tập dữ liệu huấn luyện đủ lớn, thu thập được các nguồn dữ liệu chuNn và kết hợp thêm các đặc trưng, mô hình còn có thểđạt được độ chính xác cao hơn nữa trong tương lai.
44
Kết luận
Từ việc nghiên cứu bài toán đồng tham chiếu trong văn bản, khóa luận đã đề
xuất ra mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể là mô hình trích chọn các quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa trên phương pháp máy vector hỗ trợ (SVM). Qua các kết quả thực nghiệm đạt được cho thấy mô hình đề xuất là hoàn toàn khả thi và có thể áp dụng trong thực tếđược.
Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
• Giới thiệu bài toán đồng tham chiếu trong văn bản và các khái niệm liên quan. • Tìm hiểu và giới thiệu các phương pháp giải quyết bài toán đồng tham chiếu
trong văn bản bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy giám sát.
• Trên cơ sở kế thừa và nghiên cứu, khảo sát các đặc trưng của văn bản tiếng Việt, khóa luận đã đề xuất một sốđặc trưng mới dựa trên mô hình học có giám sát SVM cơ sở. Từđó, xây dựng mô hình trích chọn quan hệđồng tham chiếu trong văn bản tiếng Việt đạt kết quả tương đối khả quan (76.51%).
Bên cạnh những kết quả đạt được đó, do hạn chế về mặt thời gian và kiến thức nên khóa luận vẫn còn một số hạn chế như sau:
• Chưa đánh giá mô hình giải quyết bài toán trong điều kiện dữ liệu đầu vào là kết quảđầu ra của các pha nhận dạng thực thể và gắn nhãn từ loại
• Chưa xây dựng được giao diện sử dụng tương tác với người dùng. Vềđịnh hướng nghiên cứu trong thời gian tới:
• Khảo sát và áp dụng một sốđặc trưng về quan hệ ngữ nghĩa trong tiếng Việt
để nâng cao độ chính xác của mô hình.
• Thử nghiệm, nghiên cứu những phương pháp tiếp cận khác đối với bài toán
đồng tham chiếu trong tiếng Việt.
• Đóng gói mô đun và tích hợp vào hệ thống hỏi đáp thực thể tên người cho
45
Tài liệu tham khảo Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 2009.
[2] Lê Trung Hoa : Họ và tên người Việt Nam, Nhà xuất bản Khoa học Xã hội, 2005
[3] Lê Thanh Hương: Một cách tiếp cận trong việc tựđộng sinh các biểu diễn