Đặc trưng trích chọn

Một phần của tài liệu Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX. (Trang 32)

2. Kỹ thuật trích chọn thông tin

2.2.2 Đặc trưng trích chọn

Đặc trưng trích chọn là các đặc trưng miêu tả một từ hay một dòng, hỗ trợ cho việc trích chọn phân loại thông tin.

i. Đặc trưng miêu tả từ (word-scpecified feature : các tính chất, đặc trưng được

định nghĩa dựa trên một số luật để mô tả các từ trong một dòng. Từ ở đây là tập kí

tự các số, chữ cái, dấu liền nhau. Một số luật đươc sử dụng:

Kiểm tra sự tồn tại của từ trong hệ cơ sở dữ liệu từ điển (Dictionary)

Hệ cơ sở dữ liệu từ điển là cơ sở dữ liệu về họ, tên, quận, thành phố, quốc gia, ngày tháng,…có sẵn được nhiều chuyên gia cung cấp. Hệ thống sử dụng nó để miêu tả ngữ nghĩa từ (là tên người hay địa danh, ngày tháng…) giúp phân loại dễ dàng.

Bên cạnh cơ sở dữ liệu từ điển, người phát triển có thể tự tạo danh sách worklist là danh sách từ hay dùng cho một lớp. Nếu từ nằm trong danh sách đó hệ thống có thể đoán nhận dòng chứa nó thuộc lớp nào.

Ví dụ: có thể tạo danh sách từ dùng cho lớp Affiliation – nơi xác nhận tư cách tác

giả (có thể là một trường đại học , một phòng thí nghiêm , một khoa viện,…) như sau:(University, Department,Uni, Institute, Research,Lab,Tech,Dept,School,Center)

Ngữ nghĩa , quy tắc chính tả của từ :

o Số(number) : một hay nhiều chữ số. Số sẽ là năm nếu có định dạng

19xx hay 20xx; là số chương số trang có thể đi kèm từ khóa volume, pages; là địa chỉ nếu đi kèm với tên địa danh,…

o Chữ cái : Từ viết hoa tất cả các kí tự hay chỉ kí tự đầu. Nếu viết hoa

tất cả thì có thể viết tắt cho tên địa danh (liền kề với các số địa chỉ) hay tên người (có dấu chấm xen giữa các kí tự). Một số kí tự đặc biệt

để nhận biết từ như www(địa chỉ web), @(địa chỉ mail), dấu gạch nối (tên người),…

ii. Đặc trưng miêu tả dòng ( line-specifed feature )

Là các tính chất đặc trưng được định nghĩa để mô tả một dòng. Một số đặc trưng hay dùng :

CsenLen : Số từ trên một dòng .

ClinePos : Vị trí dòng (line number): Dùng để xác định dòng tựa đề – dòng

đầu tiên.

CNonDicWordNumPer: Phần trăm những từ không thuộc từ điển của dòng .

CDicWordNumPer: Phần trăm những từ thuộc từ điển của dòng.

CCaplDicWordNumPer: Phần trăm những từ thuộc từ điển và có chữ in hoa

đầu.

CcaplNonDicWordNumPer: Phần trăm từ không thuộc từ điển và có chữ in

hoa đầu.

CdigitNumPer : Phần trăm của số(number) có trên dòng .

Ngoài ra còn có một số đặc trưng miêu tả lớp cho dòng:

CaffiNumPer : Phần trăm của từ thuộc lớp affiliation có trên dòng.

CaddrNumPer, CdateNumPer, CphoneNumPer, CpageNumPer: Phần trăm

những từ mô tả lớp địa chỉ, ngày tháng , phone, pages, … có trên dòng. Đây là những cơ sở giúp hệ thống xác định được lớp cho một dòng .

Một phần của tài liệu Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX. (Trang 32)

Tải bản đầy đủ (DOC)

(69 trang)
w