Như chúng tôi đã đề cập, chúng tôi thực hiện đánh giá dựa trên mô hình hướng hệ thống đểđánh giá kết quả trả về của các hệ thống tìm kiếm thông tin (chúng tôi gọi tắt là hệ thống IR). Nhưng để việc đánh giá được thực hiện một
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
thống trợ giúp đánh giá các hệ tìm kiếm thông tin. Hệ thống trợ giúp đánh giá gồm có chương trình hỗ trợ đánh giá các hệ thống tìm kiếm tựđộng và bộ ngữ
liệu dùng đểđánh giá.
3.2.1.2. Mục tiêu
Chương trình hỗ trợ đánh giá cho phép thực thi và xem cách thức hoạt động của các hệ thống tìm kiếm thông tin bất kỳ. Để thực thi tìm kiếm trên một hệ
thống tìm kiếm thông tin bất kỳ, chương trình phải cho phép định dạng bộ ngữ
liệu dùng để đánh giá của chương trình thành bộ ngữ liệu mà hệ thống tìm kiếm có thể hiểu và tìm kiếm được. Còn cách thức hoạt động của hệ thống tìm kiếm chủ yếu là việc lập chỉ mục câu hỏi, tài liệu để cho người đánh giá thấy một cách trực quan cách lập chỉ mục của hệ thống tìm kiếm và so sánh cách lập chỉ mục của các hệ thống với nhau. Nhưng phần quan trọng nhất mà chương trình phải hỗ trợ đó là tính hiệu suất thực thi của các hệ thống tìm kiếm thông tin để biết được hệ thống tìm kiếm có tốt hay không. Hiệu suất thực thi được tính dựa trên độ đo độ bao phủ và độ chính xác của kết quả mà hệ thống tìm kiếm trả về. Hiệu suất thực thi của từng hệ thống và so sánh hiệu suất của các hệ thống được biểu diễn bằng đồ thị trực quan cho phép người đánh giá có thể
dễ dàng xác định khả năng tìm kiếm của một hệ thống và so sánh nhiều hệ
thống tìm kiếm với nhau.
3.2.1.3. Phạm vi
Phạm vi của hệ thống đánh giá là chỉ trợ giúp các hệ thống IR có: - các file kết quả và file chỉ mục là dạng XML
- tập dữ liệu kiểm thử (tập tài liệu và tập câu hỏi) có thểở dạng XML hay dạng text file
3.2.1.4. Chức năng
- Định dạng tập tài liệu và tập câu hỏi của chương trình phù hợp với cấu
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
- cho phép thực thi một hệ thống IR (với điều kiện hệ thống IR phải có file thực thi)
- Cho phép xem cách thức hoạt động của hệ thống IR (ví dụ như cách lập chỉ mục bộ ngữ liệu dùng để đánh giá).
- Hiểu thông tin kết quả trả về của hệ thống IR và tính toán ,đánh giá hệ
thống IR đó
- cho phép xem kết quảđánh giá của một hệ thống cụ thể
- so sánh các hệ thống IR
cho phép xem đồ thị biểu diễn đường cong RP chuẩn hóa
3.2.1.5. Tính khả dụng
- Tương thích, chạy được trên hai môi trường Windows và Linux
- Giao diện người dùng dễ sử dụng, cho phép định dạng, xem hệ thống tìm kiếm thực thi và đánh giá trực quan bằng đồ thị.
3.2.1.6. Hiệu suất - có khả năng định dạng bộ ngữ liệu dùng để đánh giá kích thước lớn một cách nhanh chóng. 3.2.1.7. Tính bảo mật (không có) 3.2.2. Phân tích hệ thống đánh giá 3.2.2.1. Chức năng của hệ thống
Hệ thống trợ giúp đánh giá có các chức năng chính sau:
Đánh giá kết quả truy vấn của một hệ thống IR So sánh hiệu suất thực thi của nhiều hệ thống IR
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
3.2.2.2. Chức năng yêu cầu
3.2.2.2.1.Chức năng đánh giá một hệ thống IR
3.2.2.2.2.Chức năng so sánh nhiều hệ thống IR
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Mô tả usecase: Dinh dang tai lieu
Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tài liệu của chương trình thành cấu trúc tài liệu của hệ thống IR
Dinh dang cau hoi:
Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập câu hỏi của chương trình thành cấu trúc câu hỏi của hệ thống IR
Thuc thi he thong IR:
Usecase này cho phép thực thi một hệ thống IR bên ngoài
Dinh dang ket qua:
Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin kết quả
của hệ thống IR thành cấu trúc tập tin kết quả do chương trình định nghĩa và xử lý các thông tin kết quả này để đánh giá hệ thống IR
Dinh dang index file:
Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin index của hệ thống IR thành cấu trúc tập tin index do chương trình định nghĩa
Xem ket qua danh gia
Tap du lieu kiem tra
(from Actors)
He thong IR
(from Actors)
Thuc thi he thong IR
(from Use Cases)
Dinh dang tai lieu
(from Use Cases)
Dinh dang cau hoi
(from Use Cases)
Dinh dang ket qua
(from Use Cases)
Dinh dang index file
(from Use Cases)
Xem ket qua danh gia
(from Use Cases)
So sanh nhieu he thong IR
(from Use Cases)
NguoiSuDung
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Usecase này cho phép người sử dụng xem kết quảđánh giá hệ thống IR
So sanh nhieu he thong IR
Usecase này cho phép so sánh nhiều hệ thống IR với nhau
3.2.2.2.4.Sơ đồ tuần tự hoạt động usecase Dinh dang tai lieu:
: NguoiSuDung TH_DDTaiLieu XL_Doc XL_XML XL_Text LT_XML LT_Text Mo man hinh
Nhap thong tin dinh dang
Yeu cau chuyen sang XML Dinh dang tai lieu
Chuyen doi XML Ghi file XML
Yeu cau chuyen sang text
Yeu cau dinh dang text
Chuyen doi text
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Dinh dang cau hoi:
: NguoiSuDung TH_DDCauHoi XL_Topic XL_XML XL_Text LT_XML LT_Text Mo man hinh
Nhap thong tin dinh dang
Yeu cau chuyen sang XML
Dinh dang cau hoi
Chuyen doi XML Ghi file XML
Yeu cau chuyen doi sang text
Dinh dang cau hoi text
Chuyen doi sang Text
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Thuc thi he thong IR:
: NguoiSuDung TH_ThucThiHT TH_DKThucThi XL_HeThongIR : He thong IR Mo man hinh
Yeu cau thuc thi he thong IR
Xet tap du lieu kiem tra da san sang ?
Chua san sang Yeu cau nhap vi tri luu tru tap du lieu
Nhap vi tri luu tap du lieu
Sao chep tap du lieu den vi tri yeu cau Thuc thi he thong
Da san sang
Thuc thi he thong
hien thi he thong IR
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Dinh dang ket qua
: NguoiSuDung TH_DDKetQua XL_KetQua XL_XML LT_XML
Mo man hinh
Nhap thong tin dinh dang
Yeu cau dinh dangDinh dang ket qua IRLay du lieu file kq
Thong tin ve ket qua Tao file ket qua co cau truc cua chuong trinh
Ghi file XML
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Dinh dang index file:
: NguoiSuDung TH_DDIndex
XL_Index
XL_XML LT_XML
Mo man hinh
Nhap thong tin dinh dang
Yeu cau chuyen doi
Chuyen doi file index tai lieu
Lay thong tin file index tai lieu Thong tin file index tai lieu Tao file index tai lieu theo cau truc cua chuong trinh
Chuyen doi file index cau hoi
Ghi file XML
Lay thong tin file index cau hoi Thong tin file index cau hoi
Ghi file XML
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
XL_Index
: NguoiSuDungTH_Kq_DanhGiaTH_XemChiTietTH_DoThi_HeThongXL_Topic XL_KetQuaXL_Doc XL_HeThongIRXL_XML XL_DoThi LT_XML
Mo nam hinh
Yeu cau thong tin ve cac he thong da danh gia
danh sach he thong
Hien thi danh sach he thong
Chon he thong can xem
Lay danh sach cac cau hoi duoc kiem tra
Lay noi dung cua cac the theo yeu cau cua file xmlDoc file he thong
Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Danh sach cau hoi
xem thong tin lien quan cua mot cau hoi
Lay cac tai lieu lien quan den cau hoi do va ket qua danh gia
Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Cac tai lieu lien quan va thong tin danh gia
Hien thi ket qua danh gia
Yeu cau xem thong tin chi tiet
Mo man hinh xem chi tietLay noi dung cua cau hoi
Noi dung cau hoi
Lay noi dung tai lieu lien quan va do tuong quan
Noi dung tai lieu lien quan va do tuong quan
Lay noi dung cua cac the theo yeu cau
Doc file cau hoi tuong ung
Lay noi dung cua cac the theo yeu cau
Doc file tai lieu tuong ung
Lay thong tin chi muc cua tai lieu va cau hoiLay noi dung cua cac the theo yeu cau
Doc file index cua tai lieu va cau hoi Noi dung theo yeu cau
Noi dung theo yeu cau
Noi dung theo yeu cau Noi dung index
hien thi thong tin lien quan cua cau voi voi 1 tai lieu
Yeu cau xem do thi he thong
Ve do thi he thong
Lay thong tin ve do chinh xac o 11 diem chuan cua do bao phu
Lay noi dung cua the theo yeu cau Doc file he thong
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
So sanh nhieu he thong IR
: NguoiSuDung TH_SoSanhHT XL_HeThongIR XL_DoThi XL_XML LT_XML
Mo man hinh
Lay danh sach cac he thong
Lay thong tin cac the theo yeu cau Doc file he thong
Danh sach he thong IR
Thong tin theo yeu cau
Hien thi cac he thong IR
Chon cac he thong IR can so s anh
Lay gia tri R,P chuan cua cac he thong
Yeu cau ve do thi
Lay thong tin cac the theo yeu cau Doc file he thong thong tin theo yeu cau
Thong tin R,P o 11 diem chuan
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
3.3. Thiết kế hệ thống đánh giá
3.3.1. Các chức năng của chương trình
3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”
Chương trình phải xây dựng tập cơ sở dữ liệu dùng cho việc kiểm tra các hệ thống IR . Tập cơ sở dữ liệu bao gồm : các tài liệu , tâp câu truy vấn . (Ngoài ra còn có bảng kết quả đánh giá chuẩn để so sánh hệ thống IR với các hệ thống IR chuẩn). Với chức năng này, chương trình sẽ cho phép người dùng khai báo định dạng dữ liệu (bao gồm tài liệu và câu truy vấn) mà hệ thống IR của họ cần. Dựa vào định dạng này , chương trình sẽ tạo tập dữ liệu có nội dung là tập dữ liệu của mình nhưng có cấu trúc của hệ
thống IR
3.3.1.2. Chức năng “Định dạng kết quả trả về”
Hệ thống IR sau khi thực hiện tất cả các câu truy vấn trong tập cơ sở dữ
liệu tài liệu , sẽ gửi kết quả thực thi về cho chương trình.
Mỗi hệ thống IR sẽđịnh dạng kết quả trả về khác nhau, và kết quả trả về
mà chương trình quan tâm là tập tin kết quả ghi nhận sự liên quan của mỗi câu hỏi với tập tài liệu
Đánh giá nhiều hệ thống IR
Đánh giá một hệ thống IR
Thực thi hệ thống IR Xử lý kết quả trả về
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Chức năng này ghi nhận các thông tin định dạng kết quả tạo file kết quả
có cấu trúc của chương trình và ghi nhận thông tin kết quả của hệ thống IR tạo bảng liên quan thực tế (do chương trình IR cần đánh giá cung cấp)
3.3.1.3. Chức năng “Định dạng file index”
Hệ thống IR có lưu trữ thông tin lập chỉ mục cho tài liệu và cho câu hỏi Để hỗ trợ người dùng đánh giá chức năng lập chỉ mục của hệ thống IR, chương trình hiện thị thông tin chỉ mục của hệ thống IR. Do đó chức năng này cho phép người dùng khai báo cấu trúc file index để chương trinh lấy thông tin
3.3.1.4. Chức năng “Thực thi hệ thống IR”
Gọi thực thi hệ thống IR
3.3.1.5. Chức năng “Xử lý kết quả trả về”
Dựa vào bảng đánh giá chuẩn (bảng liên quan theo lý thuyết) và bảng liên quan tính độ bao phủ,độ chính xác và các giá trị độ chính xác tại 11
điểm chuẩn của độ bao phủ, tính giá trị độ bao phủ trung bình, độ chính xác trung bình
3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”
Dựa vào tập kết quả trả vềđã được cấu hình theo định dạng của chương trình, chuương trình sẽ tính hiệu suất thực thi của hệ thống dựa vào độ bao phủ và độ chính xác