Tiếp cận dựa trên kỹ thuật trích xuất thông tin- 123docz.net

Năm 2003, S.Mann và David Yarowsky [13] giới thiệu một thuật toán không giám sát hiệu quả để phân biệt nhập nhằng tên người. Phương pháp này dựa trên kỹ thuật trích xuất thông tin sử dụng thuật toán không giám sát để sinh tựđộng mẫu trích xuất của Ravichan và Hovy [11] và thuật toán phân cụm phân cấp. Việc sử dụng kỹ thuật trích xuất thông tin giúp làm giàu đặc trưng cho người bằng các thuộc tính cá nhân như : ngày sinh, nghề nghiệp, nơi làm việc, quốc tịch, nơi ở. Tác giảđã kết hợp và so sánh kết quả của việc kết hợp các thuộc tính cá nhân và các đặc trưng khác như: các từ trong văn bản, danh từ riêng, đặc trưng mở rộng.

Mô hình tác giảđưa ra gồm 2 pha chính:

Pha 1: Sử dụng kỹ thuật trích xuất thông tin để trích xuất các thuộc tính đặc trưng mạnh cho người cần phân biệt.

Trong pha 1 chia làm 2 bước nhỏ:

Bước 1: Sinh mẫu trích xuất đặc trưng.

Hệ thống sử dụng và mở rộng phương pháp của Ravichan và Hovy [11]. Phương pháp này dựa trên kỹ thuật boot-trapping, tự động sinh mẫu từ tập nhân mồi ban đầu. Nó có lợi thế là không phụ thuộc vào ngôn ngữ (independent language) , vì vậy mà nó rất khả chuyển có thể sinh mẫu cho các ngôn ngữ khác nhau với độ chính xác cao.

Ví dụ với tập nhân ban đầu là (‘Mozart’,1756)

Hệ thống sẽ sinh ra một truy vấn đưa vào máy tìm kiếm để tìm ra những câu chứa cặp nhân trên. Ví dụ với máy tìm kiếm Altavista truy vấn là “Mozart”+ “1976. Sau đó chỉ giữ lại nhưng câu chứa đủ cả cặp nhân.

Tất các các sâu con chứa cặp nhân này trong mỗi câu được lấy ra. Những sâu con này được đơn giản hóa bằng cách thay các nhân bằng nhãn của nó. Trong trường hợp này ta thay ‘Mozart’ bằng <name> và 1976 bằng <birth year>. Tất cả những chữ số khác được thay bằng dấu #.

Từ tất cả các chuỗi này ta xây dựng nên cây hậu tố (suffix-tree), và chỉ giữ lại những chuỗi con có tần xuất xuất hiện cao.

Với mỗi chuỗi con có tần số cao này lại lọc ra chỉ chọn những chuối chứa đủ tập nhân ban đầu là ‘Mozart’ và 1756, khi đó chúng sẽ trở thành những mẫu tiềm năm.

Những mẫu tiềm năng được kiểm tra xem nó có thực sựđáng tin cậy hay không, bằng cách áp dụng nó với các tập nhân khác, nếu kết quả vượt trên một ngưỡng nào đó thì có thể coi là tin cậy.

Khi áp dụng mô hình trên hệ thống thu được các mẫu với quan hệ tên và ngày ngày sinh:

Hình 7 - Các mẫu trích xuất sinh tự động cho ngày sinh

Hệ thống sử dụng phương pháp trên cho việc sinh mẫu tựđộng cho năm sinh và nghề nghiệp và sinh mẫu bằng tay cho thông tin về nơi sinh, ngày sinh, quốc tịch, gia đình, đồng nghiệp.

Bước 2: Áp dụng mẫu có được ở bước 1 để trích ra các đặc trưng quan trọng cho người.

Pha 2: Sử dụng kỹ thuật phân cụm phân cấp dựa trên các đặc trưng có từ pha 1 chia các tài liệu thành các cụm, các tài liệu trong một cụm nói về một người duy nhất.

Hệ thống sử dụng thuật toán phân cụm phân cấp từ dưới lên. Trong thuật toán này, mỗi văn bản sẽđược coi như một vector của các đặc trưng trích chọn được từ văn bản. Tại mỗi giai đoạn của quá trình phân cụm, 2 vector tương đồng nhất sẽ được trộn

lại với nhau tạo ra một cụm mới, và vector mới cho cụm đó tương đương với trung bình của các vector trong cụm. Quá trình này tiếp tục cho đến khi chỉ còn 1 cụm duy nhất. Vector đặc trưng cho mỗi văn bản được sinh ra theo những phương pháp sau:

• Baseline: Tất cả các từ hoặc chỉ danh từ riêng. • Most Relevant words : Những từ liên quan nhất.

• Biographical features: Các thông tin đặc trưng hồ sơ người dùng.

• Extend Biographical features: Các thông tin đặc trưng mở rộng hồ sơ người dùng.

- Với phương pháp Baseline, hệ thống sử dụng tất cả các từ trong văn bản (loại bỏ từ dừng), hoặc chỉ danh từ riêng. Sau đó biểu diễn dưới dạng mô hình vector và độ đo cosin để tính độ tương đồng.

- Với phương pháp dùng những từ liên quan nhất, hệ thống thử nghiệm cả việc đánh trọng số của từ trong mô hình vector theo cả độ đo tf-idf và độ đo tương tác thông tin (mutual information)

I(w;c) = ) ( ) | ( w p c w p (2.9) Trong đó c là tập hơn văn bản và w là từ cần đánh trọng số Trọng số của từ trong mô hình vector là log(I(w;c))

- Với phương pháp dùng các thông tin đặc trưng hồ sơ người dùng, hệ thống dùng phương pháp sinh mẫu trích xuất không giám sát để trích ra.

- Với phương pháp dùng thông tin đặc trưng mở rộng hồ sơ người dùng: đối với những từ thỏa mãn mẫu trích xuất sẽ được gán trọng số cao hơn, ví dụ năm 1756 thỏa mãn mẫu trích xuất về ngày sinh thì với các sự xuất hiện khác của 1976 sẽđược đánh trọng số rất cao.

Khi phân cụm, hệ thống sử dụng những thông tin về người dùng như những hạt giống để chia các cụm thành các nhóm. Tiếp theo dựa trên các đặc trưng còn lại, để thực hiện phân cụm phân cấp từ dưới lên.

Tiếp cận dựa trên kỹ thuật trích xuất thông tin

Một số cách tiếp cận khác

Mô hình không gian vector