Mô hình giải quyết bài toán tìm kiếm người trên We- 123docz.net

M Ở ĐẦU

3.2. Mô hình giải quyết bài toán tìm kiếm người trên Web

Xiaojun Wan, Jianfeng Gao, Mu Li Binggong Ding đã trình bày hệ thống Webhark nhằm giải quyết các vấn đề liên quan tới thực thể người trong kết quả tìm kiếm người[14]. Qua sự tìm hiểu và phân tích, khóa luận xin đưa ra mô hình giải quyết bài toán người theo tên trên Web.

Đầu vào: Tên thực thể người

Đầu ra: Danh sách các thực thể người theo tên đã được xếp hạng

Hình 11. Mô hình giải quyết bài toán Bước 1: Thu thập dữ liệu

Với mỗi tên người cho trước, đNy vào máy tìm kiếm Google với truy vấn theo cú pháp [<dấu cách> <câu hỏi người dùng> <dấu cách> {[<dấu cách> site:.edu OR site:.edu.vn <dấu cách> để lấy ra kết quả phù hợp cho mỗi truy vấn

Ví dụ:

Đưa vào google với truy vấn [ Nguyễn Thị Lan { site:.edu OR site:.edu.vn } ]

Tiến hành lọc lấy các trang dạng html, bỏ qua các văn bản đính kèm chứa “jobs” hoặc văn bản đính kèm đuôi .doc, .docx, .xls, .XLS, .pdf, .pdf,.axps.

Loại bỏ các trang không chứa tên người đó hoặc các trang chứa tên không đúng tên người đưa vào google làm truy vấn. Ví dụ như Nguyễn Thị Phương Lan hoặc Nguyễn Thị Lan Anh.

Giả thiết rằng một trang chỉ trỏ tới một người cùng tên. Do đó, tiến hành loại bỏ các trang chứa hai hoặc nhiều người có cùng tên với tên cho trước.

Bước 2: Tiền xử lý dữ liệu Trong bước này, tiến hành:

Loại bỏ các thẻ html

lấy urls và nội dung chính của trang Tên thực thể người Thu thd li u ập Tập các trang Web chứa tên ng i Tiền xử lý Văn bản Phân cụm văn bản Tập các văn bản đã phân cụm Trích chọn thực thể Tập các thực thể Xếp hạng thực thể Danh sách các thực thể được sắp xếp

Thực hiện tách câu, tách từ trên miền dữ liệu đã thu được

Bước 3: Phân cụm văn bản

Trong bước này, khóa luận tiến hành thực hiện một số xử lý chính sau:

Trích chọn đặc trưng

Nhiêm vụ trích chọn thuộc tính về người được trình bày tại hội nghị WebPS-3 tại (Italy), tổ chức vào hai ngày 22 và 23 tháng 9 năm 2010, với 16 đặc trưng/thuộc tính[7].

Bảng 1. Danh sách các thuộc tính được đề xuất trong hội nghị WebPS-3[7].

STT Attribute Class Examples of Attribute Value 1 Date of birth 4 February 1888

2 Birth place Brookline, Massachusetts 3 Other name JFK

4 Occupation Politician

5 Affiliation University of California, Los Angeles 6 Award Pulitzer Prize

7 School Stanford University

8 Major Mathematics

9 Degree Ph.D.

10 Mentor Tony Visconti 11 Nationality American

12 Relatives Jacqueline Bouvier 13 Phone +1 (111) 111-1111

14 FAX (111) 111-1111

15 Email xxx@gmail.com

16 Web site http://nlp.cs.nyu.edu

Trong khóa luận này, tôi trích trọn 12 thuộc tính của người, địa chỉ URL của trang và gán nhãn tương ứng với các thuộc tính như sau:

Bảng 2. Các thuộc tính được sử dụng trong khóa luận

Đặc trưng Nhãn Ví Dụ

<Tên người> Name Nguyễn Thị Kim Chi <Ngày sinh> BornTime 29/10/1989

<Quê quán, quốc tịch > HomeLoc Lạng Giang, Bắc Giang <Nghề nghiệp> Job Giáo viên

<Tên Cơ quan> JobOrg Trường THCS Tân Dĩnh <Chức vụ, học vị> Degree Hiệu trưởng

<Email> Email chintk@gmail.com <Sốđiện thoại> Tel 0989342245

<Website> Website http://www.kimchiwordpress.com

<Fax> Fax (111)11-111

<Chuyên ngành> Major Công nghệ thông tin <Thành tích> Award Giáo viên giỏi cấp tỉnh

Dựa vào dữ liệu đã được gán nhãn, và một số đặc trưng để trích trọn các thuộc tính của người trong văn bản.

Một sốđặc trưng sử dụng để trích chọn

Bảng 3. Một sốđặc trưng sử dụng để trích chọn

Đặc trưng Ý nghĩa Ví dụ

Đặc trưng viết hoa Viết hoa chữ cái đầu, viết hoa toàn bộ?

Nguyễn, NGUYỄN… Đặc trưng của các

từ xung quanh Các tsau từừđđứang xét vng trước, ới biên đứng độ là 2 từ

Đặc trưng từđiển Từ đang xét có thuộc một mục nào trong từ điển tên người, từ điển họ…không?

Đặc trưng tiền tố Đứng phía trước từ đang xét có từ nào nằm trong từđiển tiền tố không? Ông, bà,anh, ….. Đặc trưng về từ loại Nhãn từ loại của từ đang xét Nguyễn Văn Nam:Np (danh từ riêng) Tính độ tương đồng giữa các đặc trưng

Khóa luận sử dụng phương pháp độ đo cosin để tính độ tương đồng giữa hai xâu. Dựa trên độ tương đồng này, tính độ tương đồng giữa các đặc trưng được trích chọn. Dựa trên khảo sát dữ liệu và suy diễn từ thực tế, tôi thấy rằng: Mỗi đặc trưng có một độ quan trọng khác nhau. Nếu hai người có cùng ngày tháng năm sinh hoặc cùng số điện thoại, đặc biệt là cùng Email thì khả năng hai người đó là một người rất lớn.. Vì vậy, các đặc trưng như Email, ngày tháng năm sinh, sốđiện thoại sẽ được gán trọng số cao. Vì vậy, tôi đánh trọng số cho mỗi đặc trưng như sau:

<BornTime>:3 , <Email>:4 , <Tel>:4 , <Website>:4 , <Fax>:4 , <HomeLoc>:2 , <Job>:1 , <JobOrg>:2 , <Major>: 1, <Degree>:1 , <Award> : 2.

Độ tương đồng giữa hai văn bản được tính bằng tổng độ tương đồng giữa các đặc trưng

Trong khóa luận, tôi sử dụng thuật toán phân cụm phân cấp HAC dựa trên độ tương đồng giữa các văn bản để gom cụm dữ liệu và sử dụng ngưỡng tương đồng αđể cắt cây phân cụm phân cấp HAC.

Bước 4: Trích chọn thực thể từ cụm văn bản

Sau bước phân cụm, kết quả nhận được sẽ là các cụm văn bản sao cho các văn bản trong một cụm cùng trỏ tới một người. Các văn bản trong các cụm khác nhau sẽ trỏ tới các người khác nhau. Vì vậy, thay vì trích chọn tập thực thể từ các văn bản, tôi tiến hành trích chọn thực thể từ các cụm bằng cách gộp tất cả các văn bản trong cụm thành một văn bản đơn và thực hiện trích rút thực thể người từ văn bản đó. Mỗi thực thể người được biểu diễn dưới dạng tập các cặp (<thuộc tính><giá trị>). Ví dụ với thực thể người có tên là Nguyễn Tuấn Anh và các cặp đặc tính như (<Name><Nguyễn Tuấn Anh>),(<Tel><01238562899>)…. Việc trích chọn này có thể dựa vào pha trích chọn đặc trưng tai bước phân cụm.

Bước 5: Xếp hạng thực thể

Việc xếp hạng thực thể tương đương với việc xếp hạng các cụm theo từng tên người. Tại bước này, tôi sử dụng phương pháp học xếp hạng cặp thứ tựđể xếp hạng thực thể dựa trên điểm số của các thực thể

Điểm số cho thực thểđược tính dựa trên hai ý tưởng sau:

Dựa trên ý tưởng của thuật toán Pagerank thô

Ý tưởng của Pagerank là hạng của một trang được tính dựa trên hạng của các trang trỏ tới nó. Trong bước này, khóa luận dựa trên ý tưởng Pagerank như sau: Thông tin về một người có thểđược tổng hợp từ nhiều trang Web chứa thông tin về người đó. Vì vậy, một thực thể mà có nhiều trang cùng trỏ tới thực thểđó thì điểm của thực thể bằng tổng điểm của các thực thể trong các trang trong cùng cụm thực thể người đó.

Dựa trên điểm số của các trường thông tin

Các trường thuộc tính sẽđược gán các trọng số khác nhau. Các trường thông tin có đô tin cậy cao như Email, Tel, ngày sinh được gán điểm số là 2. Các trường còn lại được gán với điểm số là 1. Tuy nhiên , với trường ngày sinh, nếu đầy đủ thông tin về ngày tháng năm sinh thì điểm số là 2. Nếu thiếu một trong ba trường thì điểm số sẽ hạ xuống 0.25.

Điểm số cuối cùng cho mỗi thực thể người là điểm số kết hợp dựa trên mỗi ý tưởng. Dựa vào giá trị của hàm điểm số và thông tin trong các trường, tiến hành sắp xếp tập các thực thể người cùng tên.

Mô hình giải quyết bài toán tìm kiếm người trên Web

Cách ướng tiếp cận khác

Thuật toán phân cụm HAC