Cơ sở thực tiễn

Một phần của tài liệu PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ (Trang 29 - 31)

Như đã trình bày ở phần trên, mỗi phương pháp được đưa ra chỉ khả thi trên một miền dữ liệu nhất định và phần lớn là trong ngôn ngữ tiếng Anh, chưa có một phương pháp nào áp dụng trên nhiều miền dữ liệu. Vì vậy, việc nghiên cứu miền dữ liệu rất quan trọng để đưa ra một phương pháp đúng đắn trên miền đó. Khóa luận này thực hiện công việc phân biệt nhập nhằng tên người trên miền dữ liệu báo điện tử Việt Nam, nên cần việc phân tích những đặc trưng về ngôn ngữ và hình thức của báo điện tử là rất cần thiết. Ví dụ một bản tin về giáo sư “Nguyễn Hữu Đức”-Phó giám đốc đại học Quốc Gia Hà Nội.

Hình 8 - Đoạn trích từ bài báo “Năm 2010: ĐH Quốc gia Hà Nội tuyển sinh 5.500 chỉ tiêu” Phương pháp của S.Mann và David Yarowsky [13] sử dụng việc sinh mẫu trích xuất không giám sát để trích ra các thông tin quan trọng liên quan đến thực thể người như ngày sinh, nơi sinh, nghề nghiệp…Rõ ràng là với miền dữ liệu báo điện tử Việt Nam những thông tin như vậy là rất hiếm và việc sinh mẫu bắt được thông tin là không hề đơn giản vì tính đa dạng cấu trúc của tiếng Việt. Phương pháp của Bagga và Breck Baldwin [6], sử dụng khửđồng tham chiếu và xây dựng vector thực thể biễu diễn ngữ cảnh của tên người, tuy nhiên có một số vấn đề là khi thực hiện trên miền dữ liệu báo điện tử Việt Nam: thứ nhất là ngôn ngữ tiếng Việt chưa có một công cụ nguồn mở nào cho việc thực hiện khửđồng tham chiếu, thứ hai là khi một người tham gia vào những hoạt động khác nhau thì tập thực định danh thể biểu diễn ngữ cảnh của người đó cũng rất khác nhau do đó nếu biễu diễn bằng mô hình vector thì vector sẽ bị thưa với nhiều phần từ bằng 0 và độ tương đồng thấp, gây sai lệch kết quả.

Miền dữ liệu báo điện tử Việt Nam có một số đặc điểm phục vụ cho việc phân biệt nhập nhằng tên người như sau:

23

Đặc trưng thứ nhất: Trong bài báo,thường có có một câu giới thiệu chi tiết đầy đủ về thông tin một người ở phần đầu bài báo. Đây là những thông tin mang tính định danh mạnh nhất cho một người nào đó, chúng rất có ý nghĩa trong việc phân biệt tên người.

Hình 9 - Đoạn trích từ bài báo “Cá ngừ độc là do chứa histamin tự do”

Như ví dụở trên, chức danh và địa chỉ công tác của một người có tên là “Nguyễn Hữu Đức” xuất hiện đầy đủ trên câu đầu tiên của bài báo.

Qua khảo sát 1000 trang Web, chúng tôi thấy đặc trưng trên xuất hiện rất phổ biến trên miền dữ liệu báo chí điện tử.

Đặc trưng thứ hai: Một đặc trưng về mạng xã hội. Nếu hai bài báo chứa tên nhập nhằng, mà có từ 2 tên người chung nhau (khác với tên nhập nhằng) trở lên thì khả năng rất lớn là hai bài báo đó cùng nói về một người. Nó có thể hiểu như một dạng quan hệ xã hội.

24

Hình 11 - Trích từ bài báo “Siêu lừa Nguyễn Lâm Thái có dấu hiệu tâm thần” từ trang vnexpress.net

Trong 2 bài báo trên, tên người “Nguyễn Hữu Đức” xuất hiện cùng 2 tên người khác là “Ngô Quang Thạch” và “Nguyễn Thị Tuyết”, và trong thực tế thì 2 bài báo này cùng nói về một người.

Một phần của tài liệu PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ (Trang 29 - 31)