Định biên trên dòng đa tác giả

2. Kỹ thuật trích chọn thông tin

2.2.5 Định biên trên dòng đa tác giả

Một dòng gọi là đa tác giả khi nó có nhiều hơn 4 từ (word ). Dòng đa tác giả là dòng chứa tên của nhiều tác giả bài viết. Hệ thống cần xử lý để trích chọn tên của từng tác giả đưa và lớp tên (name).

Hầu hết các dòng đa tác giả đều sử dụng dấu cách( dấu chấm ,phẩy , & , ..), hoặc khoảng trắng (space) để phân ra các tác giả khác nhau. Do đó ta chia 2 cách để xác định tên tác giả:

o Định biên trên dòng phân cách bởi dấu cách (punctuation saparated) o Định biên trên dòng phân cách bởi khoảng trắng (space sapareted)

Định biên trên dòng phân cách bởi dấu cách

Ta có thể sử dụng thêm các thông tin ngữ cảnh bên cạnh các dấu cách để hỗ trợ cho việc định biên cụm. Những thông tin phổ biến là:

• Số dấu cách trên 1 dòng (Nếu có nhiều dấu chấm “.” thì nó là dấu phân cách tên tác giả).

• Số từ trước/sau dấu cách

• Số từ nẵm giữa 2 dấu cách: có thể trở thành một cụm tên

• Mỗi từ của dòng đa tác giả cũng được mô tả theo một số đặc trưng về tên nhằm hỗ trợ cho việc tách tên có kết quả hơn.

• Một bộ thuộc tính < FN, LN, L, FC, D > dùng để mô tả từ bao gồm:

• FN(FirstName): Nhận giá trị 1 nếu từ là một họ trong từ điển; 0 nếu ngược

lại

• LN(Lastname): Nhận giá trị 1 nếu từ là một tên trong từ điển; 0 nếu ngược

lại.

• L(letter): Nhận giá trị 1, 2, 0 nếu từ có 1 chữ cái , 2 chữ cái hay nhiều hơn 2 chữ cái.

• FC(FirstCapitalization) : Nhận giá trị 1 nếu từ được viết hoa; 0 nếu ngược

lại.

• D(dictionary) : Nhận giá trị 1 nếu từ nằm trong list từ điển ; 0 nếu ngược lại

Kết hợp các thuộc tính trên của từ với vị trí các dấu phân cách để xác định biên cho cụm tên

Ví dụ: “Leonidas Fegaras, David Maier” được miêu tả có dạng “[10010(First name)] [01011(Last name)], [10011(Firstname)] [00010(Last name)]” nên có thể xác định dâu “,” là dấu phân tách 2 tên tác giả.

Định biên trên dòng phân cách bởi khoảng trắng

Những dòng mà cụm tin được phân cách nhau bởi khoảng trắng thì việc định biên sẽ phức tạp hơn, dấu hiệu để nhận biết sẽ dựa trên nguồn thông tin của từ.

Quá trình định biên bao gồm :

i. Đưa ra tất cả các từ có thể là tên dựa trên phần định nghĩa tên như bảng sau : Loại Định dạng 1 (F|F-)F,(F|F-)(F|F-)F (F|F-)(F|F-)(F|F-)F 2 (F|F-)IF, (F|F-)IIF, (F| F-)IIIF 3 IF,IIF 4 I(F|F-)F 5 (F|F-)ssF

Chú thích : F: (FullName):Tên đầy đủ; F-: Tên đầy đủ đi liền dấu ‘-‘ ; I : tên viết tăt (1 chữ cái đi với dấu chấm ) ; s: từ viết in thường

ii. Định nghĩa đặc trưng mô tả cho các từ của tên. iii. Sử dụng phân loại SVM để phân loại các tên. iv. Đánh giá kết quả và hiệu chỉnh.

- Những đặc trưng được thiết kế cho dãy tên :

Giả sử L là dòng có M dãy tên ( n1, n2, …nm). Dãy tên ni có N từ . 5 đặc trưng bao gồm :

i. Formi,j : Form của từ thứ j của dãy tên ni ; Form có dạng như phần định

nghĩa tên ở trên {F,F-,I,s,o} o: các loại khác

ii. Posi,j : Vị trí từ thứ j của dãy tên ni trên dòng.

iii. FN i,j =1 nếu từ thứ j của ni là first name; =0 nếu ngược lại.

iv. LNi,j =1 nếu là last name; =0 nếu ngược lại.

NonDici,j: =1 nếu từ thứ j của ni ko làm trong từ điển.

Phân dòng dựa trên Support Vector Machine(SVM )

Mô hình hệ thống của CiteSeerX