Đặc điểm miền dữ liệu các trang Web tin tức tiếng- 123docz.net

Dữ liệu thực nghiệm có ảnh hưởng trực tiếp đến kết quả thực nghiệm và mô hình giải quyết bài toán, do đó khóa luận sẽ phân tích đặc điểm về ngôn ngữ và hình thức của miền dữ liệu báo điện tử Việt Nam để đưa ra được phương pháp phù hợp nhất.

Trong miền dữ liệu báo tin tức điện tử Việt Nam có một số đặc trưng phục vụ cho nhiệm vụ phân biệt tên người như sau:

Đặc trƣng về hình thức:

- Trong các trang báo tin tức Việt Nam, thường có một câu mô tả khá chi tiết đặc trưng về thuộc tính người ở phần tóm tắt nội dung của báo. Các thông tin này có tính xác định thực thể người mạnh, giúp cho người đọc có thể xác định được thực thể người đang được mô tả là ai, thông tin này cũng rất hữu ích để xác định thực thể người trong bài toán phân biệt tên người.

Hình 15 : Đoạn tóm tắt của bài báo “Nữ cán bộ Agribank bị bắt vì nghi tham ô 6 tỷ đồng.”

- Tên họ hàng/người thân của thực thể người cần nhận diện rất ít xuất hiện trong các bài báo tin tức Việt Nam.

Một số đặc trƣng về mạng xã hội: giúp ích nhiều cho việc phân biệt tên người như sau:

- Hai bài báo mà chứa lớn hơn hoặc bằng hai tên người giống nhau, cùng với tên người cần phân biệt, thì rất có khả năng hai bài báo đó nói về cùng một người.

Ví dụ, trong 2 đoạn trích từ hai bài báo của trang VnExpress.Net, tên người “Trương Hồng Nhung” luôn cùng xuất hiện với các tên người như Đặng Thế Quốc Hưng, Trần Ngọc Sương…

Hình 16: Tên người các tên người khác cùng xuất hiện với tên người “Trương Hồng Nhung”

- Hai bài báo chứa phần lớn các thuật ngữ cùng xuất hiện với người giống nhau cũng mang lại nhiều khả năng hai bài báo nói về cùng một người.

Đặc điểm miền dữ liệu các trang Web tin tức tiếng Việt

Mô hình không gian vector

Phân cụm phân cấp HAC (Hierachical agglomerative clustering)