Học xếp hạng và SVM Rank

3.1.2.1 Học xếp hạng

Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có các tập tài liệu D = {d1, d2, …, dn} và với truy vấn q, cần xác định hàm xếp hạng h(x): D → R để sắp xếp các tài liệu D theo độ

phù hợp với truy vấn [2].

Dữ liệu học S là xếp hạng đúng của một tập các tài liệu D’ Є D được đưa ra để học hàm h(x). Tùy từng ứng dụng mà có các mức yêu cầu khác nhau về sắp xếp thứ hạng

đúng của dữ liệu:

1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S, Do trong ứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp hạng nên y thường được xác định:

• Hai giá trị tương ứng với xếp hạng phù hợp (relevant) hay không phù hợp (irrelevant). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chí đặt ra hay không.

• N giá trị xác định tương ứng N hạng nhất định.Ví dụ: rất phù hợp, phù hợp, có thể phù hợp, không phù hợp.

2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng.

3. Danh sách sắp thứ tựđúng của “tất cả” các đối tượng theo độ phù hợp.

Các phương pháp học xếp hạng theo Sounmen Chakrabarti [13] và Tie-Yan Liu [23] là:

- Hồi quy (Regression): Có S = {(xi, hi)} mỗi đối tượng xi xác định giá trị yi tương

ứng vềđộ phù hợp. Học hàm h(x) thỏa mãn:

h(xi) = y(i) với mọi x Є X’

Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thì phương pháp gọi là hồi quy có thứ tự (Ordinal Regression).

- Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứ

tự, với mỗi cặp (xi, xj) có nghĩa xi có hạng cao hơn xj (xi phù hợp với điều kiện hơn xj) Tìm h(x):

(xi, xj) S có xi > xj thì h(xi) > h(xj)

SVM-Rank là một trong những thuật toán thuộc phương pháp này.

- Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượng được xác định. Tuy nhiên, điều này không khả thi trong một vài ứng dụng, ví dụ máy tìm kiếm.

Ta có S = {x1, x2, ..., xm với xi Є X’ là một sắp thứ tự (x1 > x2 > ... > xm) Cần tìm hàm h(x) sao cho h(x1) > h(x2) > ... > h(xm)

3.1.2.2 SVM-Rank

SVM-Rank là một thuật toán được xây dựng nhằm giải quyết vấn đề xếp hạng các tài liệu bằng việc sử dụng thuật toán học giám sát SVM.

Giả sử dữ liệu đầu vào là tập tài liệu nằm trong không gian n chiều X € Rn với n là số đặc trưng của tài liệu. Tồn tại một kết quả xếp hạng Y = {r1 , r2 ,..., rq } với q là số

lượng các hạng có thể. Giả sử tồn tại một thứ tự giữa các hạng rq › rq-1 › ... › r1 trong đó "›" thể hiện quan hệưu tiên giữa các tài liệu [29]. Tồn tại một tập các hàm xếp hạng f € F mà mỗi hàm f có thể quyết định quan hệưu tiên giữa các tài liệu:

xi › xj ↔ f(xi) > f(xj) (1)

Giả sử ta có một tập các tài liệu đã được xếp hạng: S = {( xi , yi )} i =1,t từ không gian X × Y. Nhiệm vụđặt ra là phải lựa chọn hàm f* tốt nhất từ F sao cho cực tiểu hóa độ

sai lệch (loss value) với một hàm tính độ sai lệch cho trước (lost function) trên tập dữ liệu

đã cho.

[14]

Herbrich đã chuẩn hóa vấn đề học ở trên thành việc học cho phân lớp trên các cặp tài liệu. Giả sử f là một hàm tuyến tính: Fw(x) = < w, x > (2) Trong đó w là véc tơ trọng số và < , > là ký hiệu của tích trong. Từ (1) và (2) ta có: xi › xj ↔ <w, xi - xj> > 0 (3)

Khi này, quan hệ giữa xi và xj: xi › xj được thể hiện bởi véc tơ xi - xj. Tiếp đó, ta lấy tất cả các cặp tài liệu và quan hệ giữa chúng để tạo nên một véc tơ mới và một nhãn mới. Kí hiệu x(1) và x(2) lần lượt là tài liệu thứ nhất và tài liệu thứ 2, y(1) và y(2) là hạng của chúng. Ta có:

, 1

1 (4)

Từ tập dữ liệu train S ta tạo ra một tập dữ liệu train khác S' với l véc tơ đã được gán nhãn:

S’ = {xi(1) – xi(2), zi} i = 1,n (5)

Sử dụng S' làm dữ liệu cho phân lớp và xây dựng một mô hình SVM cho phép xác

định nhãn z là âm hay dương z = +1 hay z = -1 với mỗi véc tơ x(1) - x(2) Việc xây dựng mô hình SVM tương đương với việc giải bài toán:

min ∑

0, , 1 1, … ,

(6)

Việc tối ưu (6) tương đương v i tớ ối ưu (7) khi λ = 1/2C:

min ∑ 1 , (7)

Giả sủ w* là véc tơ trọng số của mô hình SVM. Về mặt hình học, w* sẽ vuông góc với siêu phẳng của Ranking SVM. Ta sử dụng w* để xây dựng hàm ranking fw* cho việc xếp hạng các tài liệu:

fw*(x) = < w, x > (8)

Khi áp dụng SVM, mỗi vectơ đặc trưng được tạo ra từ một cặp tài liệu. Mỗi đặc trưng được định nghĩa như một hàm của truy vấn và tài liệu.Ví dụđặc trưng tần suất xuất hiện của từ khóa được tính bằng số lần xuất hiện của các từ khóa trong câu truy vấn trên tài liệu. Tất cả các kết quả từ tất cả các truy vấn được sử dụng trong quá trình training. Không có sự khác biệt giữa các tài liệu từ các truy vấn khác nhau. Hơn nữa, không có sự

khác biệt giữa các cặp tài liệu thuộc các hạng khác nhau, trong khi trên thực tế, ảnh hưởng của việc xếp hạng sai giữa những tài liệu có hạng cao với tài liệu có hạng thấp là lớn hơn so với việc xếp hạng sai giữa những tài liệu có hạng thấp với nhau . Đây chính là hai vấn

đề có thể gây ra sự thiếu chính xác của Ranking SVM.

Để giải quyết hai vấn đề được nêu ở trên, ta có thể định nghĩa một hàm loss mới dựa trên cơ sở của Hinge Loss [29].

Loss function

Trong loss function ở (9) ta thêm một tham số hạng τ đểđiều chỉnh độ lệch giữa các cặp hạng, thêm tham số μ để điều chỉnh độ lệch giữa các truy vấn. Ta phát biểu lại bài toán của Ranking SVM với mục tiêu là cực tiểu hóa loss function sau:

min 1 , (9)

Trong đó k(i) là hạng của cặp tài liệu i, τk(i) là tham số hạng của k(i), q(i) ứng với truy vấn của cặp tài liệu i, μq(i) là tham số của truy vấn q(i). Độ vi phạm nhận được từ cặp thứ i

được quyết định bởi tích của τk(i) và μq(i): τk(i) μq(i)

Xác định giá trị các tham số

Ta phải xác định làm thế nào để tính giá trị của τ và μ.

Với τ, ta sử dụng một phương pháp Heuristic để ước lượng các tham biến dựa trên mô hình cơ sở. Giả sử NDCG được sử dụng để đánh giá (có thể sử dụng các độđo khác). Thuật toán được mô tả như sau:

Hình 8. Thuật toán ước lượng tham biến τ [29]

Với μ ta tính như s :au

ữ ặ à ệ ứ ớ

ữ ặ à ệ ứ ớ (10)

Mô hình ước lượng CTR(Click Through Rate)

Xếp hạng trong máy tìm kiếm