Có thể nói kết thúc giai đoạn nhận dạng thực thể chỉ người ở mục 4.3.3.7, ta đã xây dựng xong một hệ thống nhận dạng thực thể trong văn bản tiếng Việt ở một mức nào đó. Tuy nhiên thực tế hiệu quả của hệ thống chưa được cao như chúng tôi mong muốn. Rất nhiều câu như:
“Ba Te, người con cả trong gia đình, đi phu hồ quanh năm mà vẫn không kiếm được là bao.”
“Niềm vui bất ngờ ập đến với A Lưới.”
không thể được nhận dạng đúng bởi hệ thống. Hơn nữa trong các trường hợp nhập nhằng hơn như các từ: “Anh”, “Mỹ”, “Nhật” v.v… việc nhận dạng lại càng khó khăn. Đến giai đoạn này, chúng tôi quyết định tích hợp những thành phần “thông minh” hơn cho hệ thống. “Thông minh” bởi chúng có sử dụng thêm các yêu tố văn cảnh vào việc nhận dạng.
43
Trước tiên chúng tôi xử lý tập các từ có độ nhập nhằng cao “Mỹ, Nga, Nhật, Đức v.v…” dựa trên một số quy định:
Nếu trong văn bản xuất hiện nhiều hơn 2 tên quốc gia thì sẽ nhận tất các tên như trên là ở dạng thực thể chỉ địa điểm <Location> hoặc thực thể thuộc về quốc gia <Nationality>.
Nếu có nhiều hơn 2 tên trong số các từ nhập nhằng trên xuất hiện trong văn bản thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ địa điểm <Location> hoặc thực thể thuộc về quốc gia <Nationality>.
Nếu có một tên trong số các tên trên chắc chắn chỉ người (đứng sau các tiền tố: ông, bà, anh, v.v…) thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ người <Person>.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
44
Hình 4.3 mô tả kết quả nhận dạng của hệ thống cho câu:
“Nga, Mỹ vừa ra lệnh trừng phạt Nhật”.
Tuy cả ba từ: “Nga”, “Mỹ”, “Nhật” đều có thể là tên người, hoặc tên quốc gia, nhưng vì chúng ở cùng trong một câu, nên chúng tôi ưu tiên nhận dạng thực thể thuộc về quốc gia <Nationality>.
Bước tiếp theo chúng tôi sử dụng văn cảnh và độ chắc chắn để nhận thêm các thực thể chỉ người <Person>, chỉ địa điểm <Location>, chỉ tổ chức <Organization>, chỉ công trình <Facility>. Những thực thể được xác định bởi những luật có độ chắc chắn cao sẽ được nhận là thực thể có độ chính xác cao. Một số luật có độ chắc chắn cao như:
Tiền tố (ông, bà, anh, chị v.v…) + <Person> <Person> + hậu tố (nói, cười, khóc v.v…) Tiền tố (ở, đến, tại v.v…) + <Location>
Tiền tố (công ty, tập đoàn v.v…) + <Organization> Tiền tố (chợ, cầu, cảng v.v…) + <Facility>
Chúng tôi sử dụng đặc trưng “sure=90” cho những nhãn (annotation) này. Những từ, cụm từ giống với những thực thể có độ chính xác cao được nhận là thực thể cùng loại. Xem xét đoạn văn sau:
“Bà Nùng vừa hút tẩu thuốc vừa kể: “Đời thằng A Lưới khổ lắm. Nhà chẳng
còn ai, lao động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ mới có vợ.” Ấy thế mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giáo miền xuôi mới lên bản.”
Nhờ có cụm “thằng A Lưới” nên “A Lưới” được nhận là thực thể chỉ người với độ chắc chắn cao. Nhờ đó từ “A Lưới” ở câu dưới cũng được nhận là thực thể chỉ người. Hình 4.4 là kết quả chạy của hệ thống đối với đoạn văn trên.
45
Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh
Tuy nhiên trong một số trường hợp luật này gây ra một vài mâu thuẫn. Lấy đoạn văn sau làm ví dụ:
“Chợ Quảng Châu tại Quảng Châu là một nơi nổi tiếng nhất Trung Quốc về
hàng nhái.”
Cả <Facility>Quảng Châu</Facility> trong “Chợ Quảng Châu” và <Location>Quảng Châu</Location> trong “tại Quảng Châu” đều được nhận với độ chắc chắn cao sẽ dẫn đến việc gán nhãn sai. Vì lý do này chúng tôi chỉ cho phép những thực thể chưa được nhận, hoặc nhận ở độ chắc chắn không cao được phép gán nhãn lại trong giai đoạn này.
Một mặt khác, trong quá trình phân tích lỗi chúng tôi đã gặp những trường hợp rất đáng tiếc như:
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
46
Tất nhiên sau này khi chúng tôi đã cập nhật lại cho bộ từ điển tên người, thì hiển nhiên tất cả các tên này đều được nhận ra một cách đơn giản. Nhưng mới đầu trong từ điển tên người không có các từ “Đạt, Đại, Đăng, Giang” làm cho hệ thống chỉ nhận ra một mình “Đạt” là thực thể chỉ người <Person> (do đứng sau tiền tố “sinh viên”) và bỏ xót mất ba thực thể một cách đáng tiếc. Giải quyết việc này cũng thực đơn giản, chúng tôi xây dựng một bước kiểm tra các nhãn (annotation) NamePhrase ở cạnh nhau (cách nhau bởi dấu “,” hoặc từ “và”), nếu có một NamePhrase đã được nhận ra ở dạng thực thể nào đó, thì tất cả các NamePhrase liền kề nó sẽ được nhận dạng cùng loại.
Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau
Cuối cùng chúng tôi duyệt lại toàn bộ các thực thể đã được nhận dạng, xóa đi những thực thể vi phạm nguyên tắc nằm trong một thực thể khác và những nhãn (annotation) trung gian do bộ luật tự sinh ra.
Như vậy chúng ta đã tìm hiểu qua những nét cơ bản của hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi xây dựng. Ở chương tiếp theo, chúng
47
tôi sẽ đưa ra những đánh giá về hiệu quả của hệ thống, cũng như phân tích những lỗi mà hệ thống còn mắc phải.
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
48
Chương 5
Kết quả thực nghiệm và phân tích lỗi
Chúng tôi đánh giá hệ thống trên hai tập dữ liệu, tập dữ liệu được dùng trong quá trình viết luật (tập huấn luyện) gồm 18 văn bản (1013 câu), và tập dữ liệu mới (tập kiểm tra) gồm 17 văn bản (879 câu). Cả hai tập dữ liệu này được gán nhãn và kiểm tra bởi hai người theo quy trình ở mục 4.2.