Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 74)

3.2.1.1. Phát biểu bài toán

Như chúng tôi đã đề cập, chúng tôi thực hiện đánh giá dựa trên mô hình hướng hệ thống đểđánh giá kết quả trả về của các hệ thống tìm kiếm thông tin (chúng tôi gọi tắt là hệ thống IR). Nhưng để việc đánh giá được thực hiện một

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

thống trợ giúp đánh giá các hệ tìm kiếm thông tin. Hệ thống trợ giúp đánh giá gồm có chương trình hỗ trợ đánh giá các hệ thống tìm kiếm tựđộng và bộ ngữ

liệu dùng đểđánh giá.

3.2.1.2. Mục tiêu

Chương trình hỗ trợ đánh giá cho phép thực thi và xem cách thức hoạt động của các hệ thống tìm kiếm thông tin bất kỳ. Để thực thi tìm kiếm trên một hệ

thống tìm kiếm thông tin bất kỳ, chương trình phải cho phép định dạng bộ ngữ

liệu dùng để đánh giá của chương trình thành bộ ngữ liệu mà hệ thống tìm kiếm có thể hiểu và tìm kiếm được. Còn cách thức hoạt động của hệ thống tìm kiếm chủ yếu là việc lập chỉ mục câu hỏi, tài liệu để cho người đánh giá thấy một cách trực quan cách lập chỉ mục của hệ thống tìm kiếm và so sánh cách lập chỉ mục của các hệ thống với nhau. Nhưng phần quan trọng nhất mà chương trình phải hỗ trợ đó là tính hiệu suất thực thi của các hệ thống tìm kiếm thông tin để biết được hệ thống tìm kiếm có tốt hay không. Hiệu suất thực thi được tính dựa trên độ đo độ bao phủ và độ chính xác của kết quả mà hệ thống tìm kiếm trả về. Hiệu suất thực thi của từng hệ thống và so sánh hiệu suất của các hệ thống được biểu diễn bằng đồ thị trực quan cho phép người đánh giá có thể

dễ dàng xác định khả năng tìm kiếm của một hệ thống và so sánh nhiều hệ

thống tìm kiếm với nhau.

3.2.1.3. Phạm vi

Phạm vi của hệ thống đánh giá là chỉ trợ giúp các hệ thống IR có: - các file kết quả và file chỉ mục là dạng XML

- tập dữ liệu kiểm thử (tập tài liệu và tập câu hỏi) có thểở dạng XML hay dạng text file

3.2.1.4. Chức năng

- Định dạng tập tài liệu và tập câu hỏi của chương trình phù hợp với cấu

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

- cho phép thực thi một hệ thống IR (với điều kiện hệ thống IR phải có file thực thi)

- Cho phép xem cách thức hoạt động của hệ thống IR (ví dụ như cách lập chỉ mục bộ ngữ liệu dùng để đánh giá).

- Hiểu thông tin kết quả trả về của hệ thống IR và tính toán ,đánh giá hệ

thống IR đó

- cho phép xem kết quảđánh giá của một hệ thống cụ thể

- so sánh các hệ thống IR

cho phép xem đồ thị biểu diễn đường cong RP chuẩn hóa

3.2.1.5. Tính khả dụng

- Tương thích, chạy được trên hai môi trường Windows và Linux

- Giao diện người dùng dễ sử dụng, cho phép định dạng, xem hệ thống tìm kiếm thực thi và đánh giá trực quan bằng đồ thị.

3.2.1.6. Hiệu suất - có khả năng định dạng bộ ngữ liệu dùng để đánh giá kích thước lớn một cách nhanh chóng. 3.2.1.7. Tính bảo mật (không có) 3.2.2. Phân tích hệ thống đánh giá 3.2.2.1. Chức năng của hệ thống

Hệ thống trợ giúp đánh giá có các chức năng chính sau:

Đánh giá kết quả truy vấn của một hệ thống IR So sánh hiệu suất thực thi của nhiều hệ thống IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin (adsbygoogle = window.adsbygoogle || []).push({});

3.2.2.2. Chức năng yêu cầu

3.2.2.2.1.Chức năng đánh giá một hệ thống IR

3.2.2.2.2.Chức năng so sánh nhiều hệ thống IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mô tả usecase: Dinh dang tai lieu

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tài liệu của chương trình thành cấu trúc tài liệu của hệ thống IR

Dinh dang cau hoi:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập câu hỏi của chương trình thành cấu trúc câu hỏi của hệ thống IR

Thuc thi he thong IR:

Usecase này cho phép thực thi một hệ thống IR bên ngoài

Dinh dang ket qua:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin kết quả

của hệ thống IR thành cấu trúc tập tin kết quả do chương trình định nghĩa và xử lý các thông tin kết quả này để đánh giá hệ thống IR

Dinh dang index file:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin index của hệ thống IR thành cấu trúc tập tin index do chương trình định nghĩa

Xem ket qua danh gia

Tap du lieu kiem tra

(from Actors)

He thong IR

(from Actors)

Thuc thi he thong IR

(from Use Cases)

Dinh dang tai lieu

(from Use Cases)

Dinh dang cau hoi

(from Use Cases)

Dinh dang ket qua

(from Use Cases)

Dinh dang index file

(from Use Cases) (adsbygoogle = window.adsbygoogle || []).push({});

Xem ket qua danh gia

(from Use Cases)

So sanh nhieu he thong IR

(from Use Cases)

NguoiSuDung

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Usecase này cho phép người sử dụng xem kết quảđánh giá hệ thống IR

So sanh nhieu he thong IR

Usecase này cho phép so sánh nhiều hệ thống IR với nhau

3.2.2.2.4.Sơ đồ tuần tự hoạt động usecase Dinh dang tai lieu:

: NguoiSuDung TH_DDTaiLieu XL_Doc XL_XML XL_Text LT_XML LT_Text Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen sang XML Dinh dang tai lieu

Chuyen doi XML Ghi file XML

Yeu cau chuyen sang text

Yeu cau dinh dang text

Chuyen doi text

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang cau hoi:

: NguoiSuDung TH_DDCauHoi XL_Topic XL_XML XL_Text LT_XML LT_Text Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen sang XML

Dinh dang cau hoi

Chuyen doi XML Ghi file XML

Yeu cau chuyen doi sang text

Dinh dang cau hoi text

Chuyen doi sang Text

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Thuc thi he thong IR:

: NguoiSuDung TH_ThucThiHT TH_DKThucThi XL_HeThongIR : He thong IR Mo man hinh (adsbygoogle = window.adsbygoogle || []).push({});

Yeu cau thuc thi he thong IR

Xet tap du lieu kiem tra da san sang ?

Chua san sang Yeu cau nhap vi tri luu tru tap du lieu

Nhap vi tri luu tap du lieu

Sao chep tap du lieu den vi tri yeu cau Thuc thi he thong

Da san sang

Thuc thi he thong

hien thi he thong IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang ket qua

: NguoiSuDung TH_DDKetQua XL_KetQua XL_XML LT_XML

Mo man hinh

Nhap thong tin dinh dang

Yeu cau dinh dangDinh dang ket qua IRLay du lieu file kq

Thong tin ve ket qua Tao file ket qua co cau truc cua chuong trinh

Ghi file XML

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang index file:

: NguoiSuDung TH_DDIndex

XL_Index

XL_XML LT_XML

Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen doi

Chuyen doi file index tai lieu

Lay thong tin file index tai lieu Thong tin file index tai lieu Tao file index tai lieu theo cau truc cua chuong trinh

Chuyen doi file index cau hoi

Ghi file XML

Lay thong tin file index cau hoi Thong tin file index cau hoi

Ghi file XML (adsbygoogle = window.adsbygoogle || []).push({});

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

XL_Index

: NguoiSuDungTH_Kq_DanhGiaTH_XemChiTietTH_DoThi_HeThongXL_Topic XL_KetQuaXL_Doc XL_HeThongIRXL_XML XL_DoThi LT_XML

Mo nam hinh

Yeu cau thong tin ve cac he thong da danh gia

danh sach he thong

Hien thi danh sach he thong

Chon he thong can xem

Lay danh sach cac cau hoi duoc kiem tra

Lay noi dung cua cac the theo yeu cau cua file xmlDoc file he thong

Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Danh sach cau hoi

xem thong tin lien quan cua mot cau hoi

Lay cac tai lieu lien quan den cau hoi do va ket qua danh gia

Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Cac tai lieu lien quan va thong tin danh gia

Hien thi ket qua danh gia

Yeu cau xem thong tin chi tiet

Mo man hinh xem chi tietLay noi dung cua cau hoi

Noi dung cau hoi

Lay noi dung tai lieu lien quan va do tuong quan

Noi dung tai lieu lien quan va do tuong quan

Lay noi dung cua cac the theo yeu cau

Doc file cau hoi tuong ung

Lay noi dung cua cac the theo yeu cau

Doc file tai lieu tuong ung

Lay thong tin chi muc cua tai lieu va cau hoiLay noi dung cua cac the theo yeu cau

Doc file index cua tai lieu va cau hoi Noi dung theo yeu cau

Noi dung theo yeu cau

Noi dung theo yeu cau Noi dung index

hien thi thong tin lien quan cua cau voi voi 1 tai lieu

Yeu cau xem do thi he thong (adsbygoogle = window.adsbygoogle || []).push({});

Ve do thi he thong

Lay thong tin ve do chinh xac o 11 diem chuan cua do bao phu

Lay noi dung cua the theo yeu cau Doc file he thong

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

So sanh nhieu he thong IR

: NguoiSuDung TH_SoSanhHT XL_HeThongIR XL_DoThi XL_XML LT_XML

Mo man hinh

Lay danh sach cac he thong

Lay thong tin cac the theo yeu cau Doc file he thong

Danh sach he thong IR

Thong tin theo yeu cau

Hien thi cac he thong IR

Chon cac he thong IR can so s anh

Lay gia tri R,P chuan cua cac he thong

Yeu cau ve do thi

Lay thong tin cac the theo yeu cau Doc file he thong thong tin theo yeu cau

Thong tin R,P o 11 diem chuan

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3. Thiết kế hệ thống đánh giá

3.3.1. Các chức năng của chương trình

3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”

Chương trình phải xây dựng tập cơ sở dữ liệu dùng cho việc kiểm tra các hệ thống IR . Tập cơ sở dữ liệu bao gồm : các tài liệu , tâp câu truy vấn . (Ngoài ra còn có bảng kết quả đánh giá chuẩn để so sánh hệ thống IR với các hệ thống IR chuẩn). Với chức năng này, chương trình sẽ cho phép người dùng khai báo định dạng dữ liệu (bao gồm tài liệu và câu truy vấn) mà hệ thống IR của họ cần. Dựa vào định dạng này , chương trình sẽ tạo tập dữ liệu có nội dung là tập dữ liệu của mình nhưng có cấu trúc của hệ

thống IR

3.3.1.2. Chức năng “Định dạng kết quả trả về”

Hệ thống IR sau khi thực hiện tất cả các câu truy vấn trong tập cơ sở dữ

liệu tài liệu , sẽ gửi kết quả thực thi về cho chương trình.

Mỗi hệ thống IR sẽđịnh dạng kết quả trả về khác nhau, và kết quả trả về

mà chương trình quan tâm là tập tin kết quả ghi nhận sự liên quan của mỗi câu hỏi với tập tài liệu

Đánh giá nhiều hệ thống IR

Đánh giá một hệ thống IR (adsbygoogle = window.adsbygoogle || []).push({});

Thực thi hệ thống IR Xử lý kết quả trả về

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Chức năng này ghi nhận các thông tin định dạng kết quả tạo file kết quả

có cấu trúc của chương trình và ghi nhận thông tin kết quả của hệ thống IR tạo bảng liên quan thực tế (do chương trình IR cần đánh giá cung cấp)

3.3.1.3. Chức năng “Định dạng file index”

Hệ thống IR có lưu trữ thông tin lập chỉ mục cho tài liệu và cho câu hỏi Để hỗ trợ người dùng đánh giá chức năng lập chỉ mục của hệ thống IR, chương trình hiện thị thông tin chỉ mục của hệ thống IR. Do đó chức năng này cho phép người dùng khai báo cấu trúc file index để chương trinh lấy thông tin

3.3.1.4. Chức năng “Thực thi hệ thống IR”

Gọi thực thi hệ thống IR

3.3.1.5. Chức năng “Xử lý kết quả trả về”

Dựa vào bảng đánh giá chuẩn (bảng liên quan theo lý thuyết) và bảng liên quan tính độ bao phủ,độ chính xác và các giá trị độ chính xác tại 11

điểm chuẩn của độ bao phủ, tính giá trị độ bao phủ trung bình, độ chính xác trung bình

3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”

Dựa vào tập kết quả trả vềđã được cấu hình theo định dạng của chương trình, chuương trình sẽ tính hiệu suất thực thi của hệ thống dựa vào độ bao phủ và độ chính xác

3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”

Dựa vào tập tin lưu trữ kết quả trả về của từng hệ thống mà nó đã đánh giá, chương trình sẽ so sánh các hệ thống

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2. Thiết kế hệ thống

3.3.2.1. Sơđồ kiến trúc tổng thể

3.3.2.1.1.Danh sách các lớp đối tượng 3.3.2.1.2.Lớp đối tượng thể hiện

STT Tên Ý nghĩa Ghi chú 1 TH_Main Màn hình chính của chương trình Từ màn hình chính, chúng ta có thể thực thi tất cả các chức năng của chương trình 2 TH_DDTaiLieu Định dạng tài liệu Tất cả tài liệu của chương

trình được lưu bằng file TH_Main

TH_DDTaiLieu TH_DDCauHoi TH_ThucThiHT

TH_TTTaiLieu TH_TTCauHoi TH_DDKetQua

TH_KqDanhGia TH_SoSanhHT XL_Doc CTopic CDocument XL_HeThongIR LT_Text

CFormat CHeThongIR CKetQua

XL_Topic XL_KetQua XL_XML XL_Text LT_XML TH_DDIndex CIndex XL_Index TH_DoThi_HeThong TH_XemChiTiet Tầng thể hiện Tầng xử lý Tầng lưu trữ CRelevant TH_DKThucThi XL_DoThi

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin XML, chức năng này của chương trình cho phép chuyển đổi các tài liệu XML thành các tài liệu XML khác (có định dạng khác) hoặc tài liệu dạng text (phù hớp với định dạng của file tài liệu của hệ thống IR bên ngoài) 3 TH_TTTaiLieu Định dạng thuộc tính cho các thẻ tài liệu nếu có

Khi chuyển các file XML tài liệu của chương trình (F1) sang file XML khác (F2) : các thẻ của F1 tương ứng với các thẻ của F2 mà các thẻ của F2 có thuộc tính là các thẻ của F1 hoặc thẻ mới thì chương trình sẽ hiện thị màn hình TH_TTTaiLieu cho phép người dùng định nghĩa các thuộc tính đó Chú ý : với chức năng chuyển từ file XML (file tài liệu của chương trình) sang file text (file tài liệu phù hợp với hệ thống IR) sẽ không cần màn hình này

4 TH_DDCauHoi Định dạng câu hỏi

(tương tự TH_DDTaiLieu) (adsbygoogle = window.adsbygoogle || []).push({});

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

tính cho các thẻ

câu hỏi nếu có 6 TH_DKThucThi Màn hình nhập

điều kiện cần thiết trước khi thực thi hệ thống

Màn hình này chỉ dùng khi người dùng không định dạng tài liệu và câu hỏi và muốn thực thi hệ thống IR. Nhiệm vụ của màn hình này là yêu cầu người dùng cung cấp nơi lưu trữ tập tài liệu và tập câu hỏi của hệ thống IR 7 TH_ThucThiHT Thực thi hệ thống IR bên ngoài Tại màn hình này sẽ gọi các hệ thống IR cần thực thi sau khi đã chuyển đối tập dữ liếu kiểm tra (gồm tập tài liệu và tập câu hỏi)phù hợp với hệ thống IR đó. 8 TH_DDKetQua Định dạng kết quả

Sau khi thực thi hệ thống IR xong, chúng ta cần lấy thông tin về định dạng các file kết quả của hệ thống IR trả vềđể

chương trình có thể đánh giá dựa trên các file kết quả này 9 TH_DDIndex Màn hình định dạng các tập tin chỉ mục của tập tài liệu và tập câu hỏi Chức năng định dạng tập tin chỉ mục không bắt buộc 10 TH_Kq_DanhGia Hiện thị kết quả Màn hình này chỉ thể hiện

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin đánh giá của một hệ thống IR đánh giá dưới góc độ hệ thống 11 TH_XemChiTiet Màn hình cho phép xem thông tin cụ thẻ của một tài liệu liên quan

đến 1 câu truy vấn

Tại màn hình xem kết quả đánh giá (TH_Kq_DanhGia), khi muốn xem chi tiết sự liên quan của một tài liệu cụ thể

với một câu truy vấn nào đó chương trình sẽ gọi màn hình này 12 TH_DoThi_HeThon g Màn hình biểu diễn đường cong RP của một câu hỏi 13 TH_SoSanhHT So sánh các hệ thống IR 3.3.2.1.3.Lớp đối tượng xử lý STT Tên Ý nghĩa Ghi chú 1 CFormat Cho phép khai

báo cấu trúc của các dạng định dạng của tài

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 74)