Tiếp cận dựa trên kỹ thuật trích xuất thông tin- 123docz.net

Năm 2003, S.Mann và David Yarowsky [13] giới thiệu một thuật toán không

giám sát hiệu quả để phân biệt nhập nhằng tên người. Phương pháp này dựa trên kỹ

thuật trích xuất thông tin sử dụng thuật toán không giám sát để sinh tự động mẫu trích

xuất của Ravichan và Hovy [11] và thuật toán phân cụm phân cấp. Việc sử dụng kỹ

thuật trích xuất thông tin giúp làm giàu đặc trưng cho người bằng các thuộc tính cá nhân như : ngày sinh, nghề nghiệp, nơi làm việc, quốc tịch, nơi ở. Tác giả đã kết hợp

và so sánh kết quả của việc kết hợp các thuộc tính cá nhân và các đặc trưng khác như:

các từ trong văn bản, danh từ riêng, đặc trưng mở rộng.

Mô hình tác giả đưa ra gồm 2 pha chính:

 Pha 1: Sử dụng kỹ thuật trích xuất thông tin để trích xuất các thuộc tính đặc trưng mạnh cho người cần phân biệt.

Trong pha 1 chia làm 2 bước nhỏ:

Bước 1: Sinh mẫu trích xuất đặc trưng.

Hệ thống sử dụng và mở rộng phươngpháp của Ravichan và Hovy [11]. Phương

pháp này dựa trên kỹ thuật boot-trapping, tự động sinh mẫu từ tập nhân mồi ban đầu.

Nó có lợi thế là không phụ thuộc vào ngôn ngữ (independent language) , vì vậy mà nó rất khả chuyểncó thể sinh mẫu cho các ngôn ngữkhác nhau với độ chính xác cao.

Ví dụ với tập nhân ban đầu là (‘Mozart’,1756)

Hệ thống sẽ sinh ra một truy vấn đưa vào máy tìm kiếm để tìm ra những câu

chứa cặp nhân trên. Ví dụ với máy tìm kiếm Altavista truy vấn là “Mozart”+ “1976.

Sau đó chỉ giữ lại nhưng câu chứa đủ cả cặp nhân.

Tất các các sâu con chứa cặp nhân này trong mỗi câu được lấy ra. Những sâu con này được đơn giản hóa bằng cách thay các nhân bằng nhãn của nó. Trong trường hợp

này ta thay ‘Mozart’ bằng <name> và 1976 bằng <birth year>. Tất cả những chữ số khác được thay bằng dấu #.

Từ tất cả các chuỗi này ta xây dựng nên cây hậu tố (suffix-tree), và chỉ giữ lại

những chuỗi con có tần xuất xuất hiện cao.

Với mỗi chuỗi con có tần số cao này lại lọc ra chỉ chọn những chuối chứa đủ tập

Những mẫu tiềm năng được kiểm tra xem nó có thực sự đáng tin cậy hay không,

bằng cách áp dụng nó với các tập nhân khác, nếu kết quả vượt trên một ngưỡng nào đó

thì có thể coi là tin cậy.

Khi áp dụng mô hình trên hệ thống thu được các mẫu với quan hệ tên và ngày ngày sinh:

Hình 7 - Các mẫu trích xuất sinh tự động cho ngày sinh

Hệ thống sử dụng phương pháp trên cho việc sinh mẫu tự động cho năm sinh và nghề nghiệp và sinh mẫu bằng tay cho thông tin về nơi sinh, ngày sinh, quốc tịch, gia đình, đồng nghiệp.

Bước 2: Áp dụng mẫu có được ở bước 1 để trích ra các đặc trưng quan trọng cho người.

 Pha 2: Sử dụng kỹ thuật phân cụm phân cấp dựa trên các đặc trưng có từ pha 1

chia các tài liệu thành các cụm, các tài liệu trong một cụm nói về một người duy

nhất.

Hệ thống sử dụng thuật toán phân cụm phân cấp từ dưới lên. Trong thuật toán

này, mỗi văn bản sẽ được coi như một vector của các đặc trưng trích chọn được từ văn

lại với nhau tạo ra một cụm mới, và vector mới cho cụm đó tương đương với trung

bình của các vector trong cụm. Quá trình này tiếp tục cho đến khi chỉ còn 1 cụm duy

nhất. Vector đặc trưng cho mỗi văn bản được sinh ra theo những phương pháp sau:  Baseline: Tất cả các từ hoặc chỉ danh từ riêng.

 Most Relevant words : Những từ liên quan nhất.

 Biographical features: Các thông tin đặc trưng hồ sơ người dùng.

 Extend Biographical features: Các thông tin đặc trưng mở rộng hồ sơ người dùng.

- Với phương pháp Baseline, hệ thống sử dụng tất cả các từ trong văn bản (loại

bỏ từ dừng), hoặc chỉ danh từ riêng. Sau đó biểu diễn dưới dạng mô hình vector và độ đo cosin để tính độ tương đồng.

- Với phương pháp dùng những từ liên quan nhất, hệ thống thử nghiệm cả việc đánh trọng số của từ trong mô hình vector theo cả độ đo tf-idf và độ đo tương tác

thông tin (mutual information) I(w;c) = ) ( ) | ( w p c w p (2.9)

Trong đó c là tập hơn văn bản và w là từ cần đánh trọng số

Trọng số của từ trong mô hình vector là log(I(w;c))

- Với phương pháp dùng các thông tin đặc trưng hồ sơ người dùng, hệ thống dùng phương pháp sinh mẫu trích xuất không giám sát để trích ra.

- Với phương pháp dùng thông tin đặc trưng mở rộng hồ sơ người dùng: đối với

những từ thỏa mãn mẫu trích xuất sẽ được gán trọng số cao hơn, ví dụ năm 1756 thỏa

mãn mẫu trích xuất về ngày sinh thì với các sự xuất hiện khác của 1976 sẽ được đánh

trọng số rất cao.

Khi phân cụm, hệ thống sử dụng những thông tin về người dùng như những hạt

giống để chia các cụm thành các nhóm. Tiếp theo dựa trên các đặc trưng còn lại, để

thực hiện phân cụm phân cấp từ dưới lên.

Tiếp cận dựa trên kỹ thuật trích xuất thông tin

Một số cách tiếp cận khác

Mô hình không gian vector