Phát biểu bài toán

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 74 - 87)

Như chúng tôi đã đề cập, chúng tôi thực hiện đánh giá dựa trên mô hình hướng hệ thống đểđánh giá kết quả trả về của các hệ thống tìm kiếm thông tin (chúng tôi gọi tắt là hệ thống IR). Nhưng để việc đánh giá được thực hiện một

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

thống trợ giúp đánh giá các hệ tìm kiếm thông tin. Hệ thống trợ giúp đánh giá gồm có chương trình hỗ trợ đánh giá các hệ thống tìm kiếm tựđộng và bộ ngữ

liệu dùng đểđánh giá.

3.2.1.2. Mục tiêu

Chương trình hỗ trợ đánh giá cho phép thực thi và xem cách thức hoạt động của các hệ thống tìm kiếm thông tin bất kỳ. Để thực thi tìm kiếm trên một hệ

thống tìm kiếm thông tin bất kỳ, chương trình phải cho phép định dạng bộ ngữ

liệu dùng để đánh giá của chương trình thành bộ ngữ liệu mà hệ thống tìm kiếm có thể hiểu và tìm kiếm được. Còn cách thức hoạt động của hệ thống tìm kiếm chủ yếu là việc lập chỉ mục câu hỏi, tài liệu để cho người đánh giá thấy một cách trực quan cách lập chỉ mục của hệ thống tìm kiếm và so sánh cách lập chỉ mục của các hệ thống với nhau. Nhưng phần quan trọng nhất mà chương trình phải hỗ trợ đó là tính hiệu suất thực thi của các hệ thống tìm kiếm thông tin để biết được hệ thống tìm kiếm có tốt hay không. Hiệu suất thực thi được tính dựa trên độ đo độ bao phủ và độ chính xác của kết quả mà hệ thống tìm kiếm trả về. Hiệu suất thực thi của từng hệ thống và so sánh hiệu suất của các hệ thống được biểu diễn bằng đồ thị trực quan cho phép người đánh giá có thể

dễ dàng xác định khả năng tìm kiếm của một hệ thống và so sánh nhiều hệ

thống tìm kiếm với nhau.

3.2.1.3. Phạm vi

Phạm vi của hệ thống đánh giá là chỉ trợ giúp các hệ thống IR có: - các file kết quả và file chỉ mục là dạng XML

- tập dữ liệu kiểm thử (tập tài liệu và tập câu hỏi) có thểở dạng XML hay dạng text file

3.2.1.4. Chức năng

- Định dạng tập tài liệu và tập câu hỏi của chương trình phù hợp với cấu

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

- cho phép thực thi một hệ thống IR (với điều kiện hệ thống IR phải có file thực thi)

- Cho phép xem cách thức hoạt động của hệ thống IR (ví dụ như cách lập chỉ mục bộ ngữ liệu dùng để đánh giá).

- Hiểu thông tin kết quả trả về của hệ thống IR và tính toán ,đánh giá hệ

thống IR đó

- cho phép xem kết quảđánh giá của một hệ thống cụ thể

- so sánh các hệ thống IR

cho phép xem đồ thị biểu diễn đường cong RP chuẩn hóa

3.2.1.5. Tính khả dụng

- Tương thích, chạy được trên hai môi trường Windows và Linux

- Giao diện người dùng dễ sử dụng, cho phép định dạng, xem hệ thống tìm kiếm thực thi và đánh giá trực quan bằng đồ thị.

3.2.1.6. Hiệu suất - có khả năng định dạng bộ ngữ liệu dùng để đánh giá kích thước lớn một cách nhanh chóng. 3.2.1.7. Tính bảo mật (không có) 3.2.2. Phân tích hệ thống đánh giá 3.2.2.1. Chức năng của hệ thống

Hệ thống trợ giúp đánh giá có các chức năng chính sau:

Đánh giá kết quả truy vấn của một hệ thống IR So sánh hiệu suất thực thi của nhiều hệ thống IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.2.2.2. Chức năng yêu cầu

3.2.2.2.1.Chức năng đánh giá một hệ thống IR

3.2.2.2.2.Chức năng so sánh nhiều hệ thống IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mô tả usecase: Dinh dang tai lieu

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tài liệu của chương trình thành cấu trúc tài liệu của hệ thống IR

Dinh dang cau hoi:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập câu hỏi của chương trình thành cấu trúc câu hỏi của hệ thống IR

Thuc thi he thong IR:

Usecase này cho phép thực thi một hệ thống IR bên ngoài

Dinh dang ket qua:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin kết quả

của hệ thống IR thành cấu trúc tập tin kết quả do chương trình định nghĩa và xử lý các thông tin kết quả này để đánh giá hệ thống IR

Dinh dang index file:

Usecase này cho phép người sử dụng chuyển đổi cấu trúc tập tin index của hệ thống IR thành cấu trúc tập tin index do chương trình định nghĩa

Xem ket qua danh gia

Tap du lieu kiem tra

(from Actors)

He thong IR

(from Actors)

Thuc thi he thong IR

(from Use Cases)

Dinh dang tai lieu

(from Use Cases)

Dinh dang cau hoi

(from Use Cases)

Dinh dang ket qua

(from Use Cases)

Dinh dang index file

(from Use Cases)

Xem ket qua danh gia

(from Use Cases)

So sanh nhieu he thong IR

(from Use Cases)

NguoiSuDung

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Usecase này cho phép người sử dụng xem kết quảđánh giá hệ thống IR

So sanh nhieu he thong IR

Usecase này cho phép so sánh nhiều hệ thống IR với nhau

3.2.2.2.4.Sơ đồ tuần tự hoạt động usecase Dinh dang tai lieu:

: NguoiSuDung TH_DDTaiLieu XL_Doc XL_XML XL_Text LT_XML LT_Text Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen sang XML Dinh dang tai lieu

Chuyen doi XML Ghi file XML

Yeu cau chuyen sang text

Yeu cau dinh dang text

Chuyen doi text

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang cau hoi:

: NguoiSuDung TH_DDCauHoi XL_Topic XL_XML XL_Text LT_XML LT_Text Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen sang XML

Dinh dang cau hoi

Chuyen doi XML Ghi file XML

Yeu cau chuyen doi sang text

Dinh dang cau hoi text

Chuyen doi sang Text

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Thuc thi he thong IR:

: NguoiSuDung TH_ThucThiHT TH_DKThucThi XL_HeThongIR : He thong IR Mo man hinh

Yeu cau thuc thi he thong IR

Xet tap du lieu kiem tra da san sang ?

Chua san sang Yeu cau nhap vi tri luu tru tap du lieu

Nhap vi tri luu tap du lieu

Sao chep tap du lieu den vi tri yeu cau Thuc thi he thong

Da san sang

Thuc thi he thong

hien thi he thong IR

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang ket qua

: NguoiSuDung TH_DDKetQua XL_KetQua XL_XML LT_XML

Mo man hinh

Nhap thong tin dinh dang

Yeu cau dinh dangDinh dang ket qua IRLay du lieu file kq

Thong tin ve ket qua Tao file ket qua co cau truc cua chuong trinh

Ghi file XML

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Dinh dang index file:

: NguoiSuDung TH_DDIndex

XL_Index

XL_XML LT_XML

Mo man hinh

Nhap thong tin dinh dang

Yeu cau chuyen doi

Chuyen doi file index tai lieu

Lay thong tin file index tai lieu Thong tin file index tai lieu Tao file index tai lieu theo cau truc cua chuong trinh

Chuyen doi file index cau hoi

Ghi file XML

Lay thong tin file index cau hoi Thong tin file index cau hoi

Ghi file XML

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

XL_Index

: NguoiSuDungTH_Kq_DanhGiaTH_XemChiTietTH_DoThi_HeThongXL_Topic XL_KetQuaXL_Doc XL_HeThongIRXL_XML XL_DoThi LT_XML

Mo nam hinh

Yeu cau thong tin ve cac he thong da danh gia

danh sach he thong

Hien thi danh sach he thong

Chon he thong can xem

Lay danh sach cac cau hoi duoc kiem tra

Lay noi dung cua cac the theo yeu cau cua file xmlDoc file he thong

Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Danh sach cau hoi

xem thong tin lien quan cua mot cau hoi

Lay cac tai lieu lien quan den cau hoi do va ket qua danh gia

Lay noi dung cua cac the theo yeu cau cua file xml Doc file danh gia Cac tai lieu lien quan va thong tin danh gia

Hien thi ket qua danh gia

Yeu cau xem thong tin chi tiet

Mo man hinh xem chi tietLay noi dung cua cau hoi

Noi dung cau hoi

Lay noi dung tai lieu lien quan va do tuong quan

Noi dung tai lieu lien quan va do tuong quan

Lay noi dung cua cac the theo yeu cau

Doc file cau hoi tuong ung

Lay noi dung cua cac the theo yeu cau

Doc file tai lieu tuong ung

Lay thong tin chi muc cua tai lieu va cau hoiLay noi dung cua cac the theo yeu cau

Doc file index cua tai lieu va cau hoi Noi dung theo yeu cau

Noi dung theo yeu cau

Noi dung theo yeu cau Noi dung index

hien thi thong tin lien quan cua cau voi voi 1 tai lieu

Yeu cau xem do thi he thong

Ve do thi he thong

Lay thong tin ve do chinh xac o 11 diem chuan cua do bao phu

Lay noi dung cua the theo yeu cau Doc file he thong

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

So sanh nhieu he thong IR

: NguoiSuDung TH_SoSanhHT XL_HeThongIR XL_DoThi XL_XML LT_XML

Mo man hinh

Lay danh sach cac he thong

Lay thong tin cac the theo yeu cau Doc file he thong

Danh sach he thong IR

Thong tin theo yeu cau

Hien thi cac he thong IR

Chon cac he thong IR can so s anh

Lay gia tri R,P chuan cua cac he thong

Yeu cau ve do thi

Lay thong tin cac the theo yeu cau Doc file he thong thong tin theo yeu cau

Thong tin R,P o 11 diem chuan

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3. Thiết kế hệ thống đánh giá

3.3.1. Các chức năng của chương trình

3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”

Chương trình phải xây dựng tập cơ sở dữ liệu dùng cho việc kiểm tra các hệ thống IR . Tập cơ sở dữ liệu bao gồm : các tài liệu , tâp câu truy vấn . (Ngoài ra còn có bảng kết quả đánh giá chuẩn để so sánh hệ thống IR với các hệ thống IR chuẩn). Với chức năng này, chương trình sẽ cho phép người dùng khai báo định dạng dữ liệu (bao gồm tài liệu và câu truy vấn) mà hệ thống IR của họ cần. Dựa vào định dạng này , chương trình sẽ tạo tập dữ liệu có nội dung là tập dữ liệu của mình nhưng có cấu trúc của hệ

thống IR

3.3.1.2. Chức năng “Định dạng kết quả trả về”

Hệ thống IR sau khi thực hiện tất cả các câu truy vấn trong tập cơ sở dữ

liệu tài liệu , sẽ gửi kết quả thực thi về cho chương trình.

Mỗi hệ thống IR sẽđịnh dạng kết quả trả về khác nhau, và kết quả trả về

mà chương trình quan tâm là tập tin kết quả ghi nhận sự liên quan của mỗi câu hỏi với tập tài liệu

Đánh giá nhiều hệ thống IR

Đánh giá một hệ thống IR

Thực thi hệ thống IR Xử lý kết quả trả về

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Chức năng này ghi nhận các thông tin định dạng kết quả tạo file kết quả

có cấu trúc của chương trình và ghi nhận thông tin kết quả của hệ thống IR tạo bảng liên quan thực tế (do chương trình IR cần đánh giá cung cấp)

3.3.1.3. Chức năng “Định dạng file index”

Hệ thống IR có lưu trữ thông tin lập chỉ mục cho tài liệu và cho câu hỏi Để hỗ trợ người dùng đánh giá chức năng lập chỉ mục của hệ thống IR, chương trình hiện thị thông tin chỉ mục của hệ thống IR. Do đó chức năng này cho phép người dùng khai báo cấu trúc file index để chương trinh lấy thông tin

3.3.1.4. Chức năng “Thực thi hệ thống IR”

Gọi thực thi hệ thống IR

3.3.1.5. Chức năng “Xử lý kết quả trả về”

Dựa vào bảng đánh giá chuẩn (bảng liên quan theo lý thuyết) và bảng liên quan tính độ bao phủ,độ chính xác và các giá trị độ chính xác tại 11

điểm chuẩn của độ bao phủ, tính giá trị độ bao phủ trung bình, độ chính xác trung bình

3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”

Dựa vào tập kết quả trả vềđã được cấu hình theo định dạng của chương trình, chuương trình sẽ tính hiệu suất thực thi của hệ thống dựa vào độ bao phủ và độ chính xác

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 74 - 87)

Tải bản đầy đủ (PDF)

(187 trang)