Cách ướng tiếp cận khác

M Ở ĐẦU

2.1.2.3. Cách ướng tiếp cận khác

Năm 2009, Juan Martinez-Romo và Lourdes Araujo [9] đã đề xuất một phương pháp phân biệt nhập nhằng tên người sử dụng kỹ thuật mô hình ngôn ngữ.

Hướng tiếp cận này sử dụng mô hình ngôn ngữ để trích chọn ra các thuật ngữ từ văn bản và dựa trên một phương pháp kinh nghiệm để tìm ra số lượng đặc tính của một người. Phương pháp này được đề xuất gồm hai pha. Pha thứ nhất, tất cả các văn bản được đánh chỉ mục bởi quá trình lọc các từ dừng và thực hiện một vài thống kê như số lượng các văn bản và tổng tần số xuất hiện , sau đó sử dụng thống kê này để xác định mô hình ngôn ngữ. Từ tập hợp này, nhóm tác giả sẽ trích chọn ra một từ vựng phù hợp nhất với từ khóa bằng cách sử dụng mô hình ngôn ngữđã được xác định. Pha thứ hai sẽ áp dụng một thuật toán phân cụm cổ điển dựa trên độ tương đồng cosin giữa các đặc trưng.

Một hướng tiếp cận khác nhằm giải quyết vấn đề phân biệt nhập nhằng tên người trên Web là phương pháp sử dụng cấu trúc đồ thị Web được đề xuất bởi nhóm nghiên cứu Elena Smirnova và cộng sự, 2010 [6]. Ý tưởng của phương pháp này là sử dụng liên kết giữa các trang Web với giả thiết rằng các trang Web xuất hiện trong kết quả trả về từ máy tìm kiếm khi đưa một tên người như một truy vấn là độc lập với nhau. Bước đầu tiên trong ý tưởng là tìm ra các trang liên kết từ các trang nhận được từ máy tìm kiếm sử dụng phương pháp đồ thị đường đi ngẫu nhiên và dựa vào các trang liên kết để phân cụm các trang Web nhận được từ máy tìm kiếm.. Tiếp theo, họ xây dựng một tập hợp tích trọng số cho tất cả các trang Web, kể cả các liên kết. Sau đó, Họ đánh lại trọng số cho tập hợp tích mỗi trang nhận được theo tập hợp tích của các trang liên kết của nó. Cuối cùng, họ sử dụng thuật toán phân cụm phân cấp để phân cụm tập hợp các trang Web.

Thuật toán phân cụm HAC

Xây dựng tập dữ liệu thực nghiệm