Tập đặc trưng

Sử dụng một số đặc trưng để mô tả tốt nhất đặc điểm của một cặp chuỗi. Các đặc trưng có thể nắm bắt được sự tương tự giữa nhiều biến thể (ví dụ chữ viết, cú pháp và từ bổ nghĩa) được trích trong giai đoạn học mô hình. Các đặc trưng được sử dụng trong mô hình phân lớp dựa trên các đặc trưng đã khảo sát được trong tài liệu [1] gồm có:

Tên rút gọn (Acronym): Xác điịnh một đặc trưng mà có thể suy luận một chuỗi

này là tên rút gọn của một chuỗi khác. Đầu tiên tách các thuật ngữ và lấy ra các chữ cái đầu của từng từ trong thuật ngữ đó sau đó so sánh tên rút gọn của 2 thuật ngữ với nhau, ví dụ tên rút gọn của thuật ngữ “Interleukin-2” là “IL-2”. Nếu tên rút gọn của 2 thuật ngữ mà giống nhau thì giá trị của đặc trưng sẽ là đúng “acronym:true”, ngược lại là sai “acronym:false”.

Độ dài chuỗi (Length): Độ dài chuỗi ảnh hưởng tới việc đối sánh các chuỗi ký

tự. Chuỗi càng dài thì độ so khớp càng nhiều nhiễu. Có hai đặc trưng với độ dài chuỗi: “length:long” với các chuỗi có độ dài lớn hơn 4 (tokens), “length:short” với các chuỗi còn lại.

Cụm từ đồng nghĩa (Synonym phrases): Mỗi thuật ngữ thường có một số các

cụm từ đồng nghĩa được liệt kê thông qua tag “synonym”. So sánh các cặp từ đồng nghĩa của hai thuật ngữ giúp nâng cao các đặc trưng ngữ nghĩa. Giá trị của đặc trưng này lần lượt là nhiều (lớn hơn 2) “syns:high”, bình thường “syns:medium”, và không có “syns:none”.

Xâu con chung (CommonToken): Ngoài các đặc trưng đã miêu tả ở trên chúng

ta sử dụng đặc trưng xâu con chung. Đầu tiên tách các thuật ngữ bằng kí tự trắng và một vài kí tự được xác định trước (‘,’, ’/’, ‘-‘…). Duyệt qua cặp thuật ngữ, đưa những từ giống nhau trong thuật ngữ vào tập các token phổ biến, ví dụ như ta có các token phổ biến “GATA”, “binding” , “5” từ cặp thuật ngữ “GATA binding protein 5” và “GATA binding factor 5”.

Xâu con khác (DifferenceToken): Tương tự với Xâu con chung chúng ta sử

dụng sự khác nhau đối xứng của hai biểu hiện thể hiện đặc trưng, ta sẽ đưa ra những từ khác nhau trong cặp thuật ngữ và đưa vào tập các token khác biệt, ví dụ “protein” và “factor” là những token khác biệt của “GATA binding protein 5” và “GATA binding factor 5”.

SoftTFIDF[21]: Một trong những lợi ích của sử dụng học máy là chúng ta có thể

kết hợp thông tin từ các độ đo tương tự khác nhau. Độ đo được định nghĩa trong với TF (term frequency) chỉ tần suất xuất hiện của từ trong tập thuật ngữ và IDF(inverse document frequency) chỉ tần suất xuất hiện của các thuật ngữ có chứa từ đó. Nếu giá

trị softTFIDF lớn hơn ngưỡng đưa ra thì giá trị đặc trưng sẽ là cao “high” và ngược lại là thấp “low”.

Mô hình giải quyết bài toán

Phương pháp hồi qui logistic