Từ Cranfield đến TREC

Dự án Cranfield do Cleverdon thực hiện thường được đánh giá như là mô hình chủ lực của TREC. Cleverdon tạo ra các cuộc kiểm thử Cranfield, Cranfield chủ

yếu được dùng trong thí nghiệm với mục đích chính là xem xét, đánh giá các hàm, chức năng lập chỉ mục khác nhau thực hiện khác nhau như thế nào. Mục đích chính là xác định thuật toán nào là tối ưu nhất, phù hợp nhất với các tiêu chuẩn đo lường và độđo. Từđó truyền thống nghiên cứu thử nghiệm hướng hệ thống ra đời.

Salton ở Hoa Kỳ là người đầu tiên mở rộng phương pháp thử nghiệm cho đánh giá các thuật toán tìm kiếm thông tin theo mô hình Không gian Vec-tơ [6] . Ông bắt đầu nghiên cứu tìm kiếm thông tin tại Đại học Harvard năm 1961. Ông muốn phát triển một khung làm việc (framework) cho so sánh khả năng lập chỉ mục và các kỹ thuật tìm kiếm thông tin của hệ thống. Khung làm việc được thực hiện bởi một loạt các thuật toán và được biết đến như là hệ thống SMART. Dự án SMART có lẽ là nghiên cứu tìm kiếm thông tin kéo dài nhất cho đến ngày hôm nay, trong khoảng thời gian từ 1961 đến khi Salton mất năm 1996, nhóm SMART đã thử

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

weighting), mở rộng câu hỏ (query expansion), phản hồi tương quan (relevance feedback), phân lớp (clustering) v.v. Tất cả các thử nghiệm đều dựa trên hệ thống tìm kiếm thông tin SMART, chi tiết của hệ thống này sẽ được trình bày ở mục 3.1.4.1. Dự án SMART đạt được kết quả tốt nhất trong mô hình Không gian vec-tơ

trực quan và hiệu quả.

Chương trình TREC đang tiến hành hiện nay đã được thôi thúc bởi các nghiên cứu Cranfield và SMART. TREC bắt đầu năm 1992 với hai nhiệm vụ chính: nghiên cứu “ad-hoc” và nghiên cứu “routing”. Kể từđó, nhiều nhiệm vụ mới được kiểm tra trong nhiều track khác nhau. Ưu điểm chính của TREC là kích thước của ngữ liệu dùng để đánh giá thực tế hơn những dự án khác và việc đánh giá thì mở

cho bất kỳ nhóm nghiên cứu nào. Những người tham gia vào TREC qua các năm tăng lên một cách nhanh chóng. Số lượng có ý nghĩa các nhóm tham gia mỗi năm, bảo đảm sự ổn định và có thể so sánh qua các năm. TREC sử dụng ủy ban đánh giá từ Viện Quốc gia về Tiêu chuẩn và Công nghệ Hoa Kỳ (National Institute of Standard and Technology - NIST) để thực hiện đánh giá. Nghiên cứu STAIR là một trong những nghiên cứu đầu tiên phát triển thủ tục mới để đo độ bao phủ, bởi vì kích thước lớn của ngữ liệu làm cho việc tạo bảng Đánh giá liên quan chuẩn quá tốn nhiều chi phí. TREC cũng bố trí các độ đo bao phủ của nó trên việc xem xét một tập nhỏ các tài liệu (pool - gọi là “hồ” hay tập hợp xác định) nhưng sử dụng các phương pháp khác nhau để tạo nó. Tập hợp xác định này được tạo từ một mẫu các việc chạy hệ thống tìm kiếm khác nhau (càng khác nhau càng tốt). Đối với mỗi câu truy vấn, danh sách các tài liệu trả về được kết hợp với nhau bằng cách trộn vào nhau và loại bỏ các tài liệu lặp lại. Kết quả là một danh sách các tài liệu thống nhất. Cuối cùng, người đánh giá xem lại đểđánh giá là các tài liệu trong danh sách này (có một danh sách các câu hỏi) có thật sự liên quan đến câu hỏi tương ứng không. Ảnh hưởng của TREC trong tìm kiếm thông tin là rất lớn và chất lượng của bộ ngữ liệu kiểm tra là rất tốt vì có nhiều hệ thống tham gia đóng góp vào tập hợp xác định các tài liệu và do tính chất tiếp tục của chương trình TREC. TREC đã tạo

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

ra một tài sản lớn bộ ngữ liệu dùng để đánh giá mà có thể được dùng trong số

lượng lớn các thử nghiệm được kiểm soát.

Ưu điểm lớn của các thử nghiệm được kiểm soát là nó có thể được lặp lại. Trước khi TREC ra đời, có nhiều bộ ngữ liệu kiểm tra nhỏ, rất khó để so sánh các phương pháp giữa các nhóm khác nhau. Tình trạng này ngăn cản sự phát triển của

đánh giá các hệ thống tìm kiếm thông tin. TREC có mục tiêu là xây dựng một số

lượng các bộ ngữ liệu đánh giá lớn cho tìm kiếm thông tin, chủ yếu là để thực hiện

đánh giá dưới các điều kiện được kiểm soát và cho phép thực hiện lại việc đánh giá.

Nhìn vào những kết quả mà các nhóm tham gia TREC từ khi TREC bắt đầu, chúng ta có thể thấy một sự tiến bộđáng kể.

Chi tiết về TREC sẽđược giới thiệu trong mục 2.2.4 . 2.2.2.2. Thủ tục đánh giá

Phương pháp thử nghiệm hướng hệ thống được thực hiện qua các bước phân biệt sau:

• Trước hết, xây dựng một bộ ngữ liệu dùng để đánh giá. Bộ ngữ liệu dùng

để đánh giá gồm có tập các tài liệu mẫu, tập câu truy vấn mẫu, và bảng

đánh giá liên quan chuẩn. Theo lý thuyết, mỗi kết hợp câu truy vấn-tài liệu

đều được kiểm tra liên quan. Nhưng trên thực tế, chỉ một phần tập tài liệu

được xem xét cho mỗi câu truy vấn.

• Các hệ thống tìm kiếm thực hiện tìm kiếm trên bộ ngữ dùng để đánh giá: lập chỉ mục tập tài liệu, tạo các câu hỏi từ chủđề (topic), tạo bảng liên quan có thứ tự các tài liệu cho mỗi câu hỏi.

• Đánh giá các độđo thực hiện: Các độ đo cổđiển là độ bao phủ và độ chính xác, nhưng có một số lượng lớn các độ đo khác. Đó là độ đo trung bình nghiêm ngặt (Mean average precision).

• Đánh giá tầm quan trọng của kết quả trả về bằng phương pháp thống kê. Các độ đo thực hiện toàn bộ hệ thống tìm kiếm chủ yếu được lấy trung bình

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay

đổi của các độ đo tính toán là rất cao, nên đòi hỏi một phương pháp phân tích thống kê thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ

thống có phải là có ý nghĩa thống kê đến một độ tin cậy nhất định không.

2.2.2.3. Đánh giá sự liên quan

Trong đánh giá các hệ thống tìm kiếm thông tin theo kiểu của TREC, có hai giảđịnh quan trọng, mà không có trong các thiết lập ở thế giới thực :

• Sự liên quan hoàn toàn theo khái niệm: một tài liệu chỉ có thể là liên quan hoặc không liên quan.

• Sự liên quan của một tài liệu hoàn toàn độc lập với các tài liệu khác. Các giả định này làm đơn giản việc đo các hệ thống tìm kiếm. Nhiều nhà nghiên cứu đã thử nghiệm với nhiều tỉ lệ khác nhau của sự liên quan. Các tỉ lệ này

được trình bày rõ hơn trong mục 2.2.3.4.

Giảđịnh về sự liên quan của một tài liệu hoàn toàn độc lập với các tài liệu khác không thực tế trong hầu hết các trường hợp. Trong hầu hết các trường hợp tìm kiếm thông tin cơ bản, chẳng hạn tìm kiếm thông tin trên web, những người tìm kiếm muốn tìm một câu trả lời cho một câu hỏi xác định hay một vài tham khảo. Giả sử rằng người sử dụng sẽ bắt đầu duyệt qua các tài liệu được tìm thấy bắt đầu từ những tài liệu liên quan nhất, các tài liệu ít liên quan hơn thì phụ thuộc vào tài liệu liên quan đã đọc. Xác suất có tài liệu mới giảm dần theo danh sách tài liệu. Sự

phụ thuộc này thường bị bỏ qua bởi các nhà nghiên cứu tìm kiếm thông tin.

Có nhiều mối quan tâm về tính chủ quan của thủ tục đánh giá. Con ngừơi thường có những ý kiến khác nhau về sự liên quan. Điều này có ảnh hưởng xấu

đến sự phát triển của các đánh giá của TREC. Tuy nhiên, đã có nhiều nghiên cứu

để giải quyết vấn đề này và thấy rằng ảnh hưởng trên tập các hệ thống có kết quả

sắp thứ tự liên quan thì có thể bỏ qua. Một nghiên cứu gần đây liên quan đến bộ

ngữ liệu đểđánh giá của TREC kiểm thử nhiều vấn đề khác nhau:

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

• Đánh giá một bảng khác với đánh giá nhóm bảng đánh giá

• Đánh giá trong cùng một môi trường khác với đánh giá nhiều môi trường Những yếu tố này ảnh hưởng đến giá trị tuyệt đối của các độ đo khả năng thực hiện, nhưng thứ tự liên quan của các hệ thống vẫn ổn định.

2.2.3. Thực hiện đo khả năng tìm kiếm

Các độ đo cổ điển cho khả năng tìm kiếm của các thử nghiệm hệ thống thông tin là độ bao phủ và độ chính xác. Trong những phần tiếp theo, chúng tôi mô tả

các thủ tục để đo độ chính xác và độ bao phủ và tính độ đo cho các hệ thống tìm kiếm có kết quảđược sắp thứ tự trong tình huống không thểđánh giá tất cả các tài liệu trong bộ ngữ liệu kiểm tra. Từ độ bao phủ và độ chính xác, chúng tôi dùng phương pháp tính độ chính xác dựa trên 11 điểm của độ bao phủđể tính độ chính xác. Kết quả trả về từ phương pháp này là một bảng biến thiên của độ chính xác và

độ bao phủ hay là một hàm số của độ chính xác dựa trên độ bao phủ. Có thể biểu diễn đồ thị liên hệ giữa độ chính xác và độ bao phủ từ hàm số này để cho biết hiệu quả trả về của hệ thống một cách trực quan, và có thể so sánh nhiều hệ thống với nhau dựa trên đồ thị.

2.2.3.1. Các khái niệm vềđộđo và liên quan Tính liên quan của tài liệu (relevant ): Tính liên quan của tài liệu (relevant ):

Một tài liệu được gọi là có liên quan khi nội dung của tài liệu đó có đề

cập đến vấn đề mà câu truy vấn của người dùng quan tâm.

Độ bao phủ (Recall - R):

Cho biết khả năng của hệ thống tìm kiếm được những tài liệu có liên quan.

Độ chính xác (Precision - P):

Cho biết khả năng của hệ thống tìm được những tài liệu chính xác

Khả năng loại bỏ: (Fall out - F):

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin 2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P) Độ bao phủ (R): Độ chính xác (P): Khả năng loại bỏ: (Fall out - F):

Tập tài liệu trả về Tập tài liệu trả về có liên quan

Tập tài liệu có liên quan Tập dữ liệu về tài liệu

Có liên quan Không liên quan (Relevant) (non- relevant)

Tìm thấy (retrieved) Không tìm thấy (not retrieved) B A A ∩ B A ∩ ∩ ∩ B R = A ∩ B B ( 1 ) P = A ∩ B A ( 2 ) F = ∩B ( 3 ) A ∩ B A B

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mối liên hệ giữa R, P, F:

G : là nhân tố tổng quát đo độ dày đặc của tài liệu liên quan trong tập dữ

liệu G cho biết độ liên quan của tài liệu so với câu truy vấn là cao hay thấp

Vấn đề đo độ bao phủ:

Tính độ bao phủ là một vấn đề khó khăn trong việc đánh giá hệ thống tìm kiếm thông tin bởi vì nó liên quan đến việc định giá thủ công tổng số tài liệu liên quan trong tập tài liệu đối với mỗi câu truy vấn (vấn đề tạo bảng liên quan lý thuyết) , việc định giá như vậy rất tốn kém nếu tập dữ liệu lớn. Để giải quyết vấn đề này người ta đưa ra phương pháp “pooling”.Ý tưởng của phương pháp “pooling” là trong danh sách tài liệu trả về chỉ lấy n tài liệu đầu, n được gọi là chiều dài của “pool”.

Việc tạo bảng liên quan lý thuyết áp dụng phương pháp “pooling” được tiến hành như sau: tiến hành tìm kiếm trên nhiều hệ thống áp dụng phương pháp “pooling”, có thể tài liệu liên quan được trả về của một hệ thống là cao, ta tiến hành giao các tập tài liệu liên quan trả về của các hệ thống đó và chỉ lấy n tài liệu đầu.

Bởi vì tập kết quả trả về được sắp xếp theo thứ tự nên độ chính xác và độ

bao phủ có thể tính được tại các ngưỡng vị trí thứ tự thứ i tài liệu.

Vấn đề bảng liên quan thực tế

Đối với cách tính trên ta phải quan niệm vềđộ liên quan của tài liệu trên 2 mức độ : hoặc là tài liệu có liên quan hoặc là tài liệu không liên quan. Cách

G = A S Với S là tập tài liệu F = R * G R * G + F* (1-G) ( 4 ) ( 5 )

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

quy ước như vậy nhằm làm đơn giản hoá cách đánh giá. Trên thực tế , độ liên quan của tài liệu không chỉ là 2 mức độ mà có thể có nhiều mức độ.

2.2.3.3. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ của độ bao phủ

2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm

Ứng với 1 câu truy vấn được thực hiện bởi hệ thống sẽ có 1 độ bao phủ (Ri) , độ chính xác (Pi) cụ thể .

Với 1 cặp (Ri,Pi) biểu diễn trên hệ trục toạ độ ROP tương ứng với 1

điểm.

Biểu diễn kết quả của tập câu truy vấn trên ROP ta sẽ có 2 đường cong mô tả hiệu suất thực thi của hệ thống. Đường cong có dạng:

Từ đồ thị ta có thể rút ra kết luận: độ bao phủ vả độ chính xác có mối quan hệ gần như tỷ lệ nghịch, khi R tăng thì P có thể sẽ giảm và ngược lại.

Khi ta cố gắng làm tăng R bằng cách tăng số tài liệu trả về (N), theo công thức (1) :

N tăng nên cơ may số tài liệu có liên quan sẽ tăng trên tổng số tài liệu có liên quan so với câu truy vấn trong bảng liên quan chuẩn là

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

R sẽ có thể tăng

Mặt khác theo công thức (2) do N tăng có nghĩa là số tài liệu trả về

tăng mặc dù số tài liệu có liên quan tăng nhưng không đáng kể so với số tài liệu trả về (lúc này cũng tăng) nên P sẽ giảm.

Nói cách khác, khi cho hệ thống thực thi 1 câu truy vấn mà ta tăng số tài liệu trả về thì kết quả sẽ có được nhiều tài liệu có ích nhiều hơn nhưng số tài liệu không liên quan (tài liệu rác) cũng sẽ tăng.

2.2.3.3.2.Đường cong độ bao phủ và độ chính xác RP

Cơ sở tính bảng giá trị cho đường cong RP dựa vào bảng liên quan lý thuyết và danh sách tài liệu liên quan đã được sắp thứ tự do hệ thống tìm kiếm thông tin trả về(còn gọi là bảng liên quan thực tế).

Xét ví dụ sau:

Thực hiện kiểm tra hệ thống tìm kiếm thông tin với tập câu hỏi. Xét câu hỏi thứ k, cách tính như sau:

Tài liệu liên quan được trả về là phần giao của danh sách tài liệu liên quan theo lý thuyết và theo thực tế => Tổng số tài liệu liên quan được trả

về : 5

Bảng giá trị R,P tính với n tài liệu được trả về

n Doc ID Liên quan theo lý thuyết ? Số tài liệu liệu liên quan được trả về Số tài liệu trả về Độ bao phủ (R) Độ chính xác (P) 1 588 true 1 1 1/5=0.2 1/1=1.00 2 589 true 2 2 2/5=0.4 2/2=1.00 3 576 false 2 3 2/5=0.4 2/3=0.67 4 590 true 3 4 3/5=0.6 3/4=0.75 5 986 false 3 5 3/5=0.6 3/5=0.60 6 592 true 4 6 4/5=0.8 4/6=0.67

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin 7 984 false 4 7 4/5=0.8 4/7=0.57 8 988 false 4 8 4/5=0.8 4/8=0.50 9 578 false 4 9 4/5=0.8 4/9=0.44 10 985 false 4 10 4/5=0.8 4/10=0.40 11 103 false 4 11 4/5=0.8 4/11=0.36 12 591 false 4 12 4/5=0.8 4/12=0.33 13 772 true 5 13 5/5=1.0 5/13=0.38 14 990 false 5 14 5/5=1.0 5/14=0.36

Nhìn bảng giá trị trên, ta thấy tại giá trị R=0.6 có 2 giá trị P (P=0.75 và

Đánh giá sự liên quan

Các vấn đề về độ liên quan