Thiết kế dữ liệu – tổ chức lưu trữ

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 105 - 124)

3.3.2.3.1.Mô hình dữ liệu a) Mô hình ER:

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

b) Giải thích :

Chương trình lưu giữ các giá trị đánh giá của một hệ thống IR được tiến hành kiểm tra.Hệ thống IR là một thực thể (System)

Mỗi một hệ thống sau khi thực hiện việc tìm kiếm dựa trên tập dữ liệu (gồm tập tài liệu và tập câu hỏi) được chương trình cung cấp, sẽ thông báo cho chương trình biết thông tin về sự liên quan của các câu hỏi với tập tài liệu và mức độ liên quan của nó. Chương trình sẽ ghi nhận lại thông tin liên quan đó gọi là bảng liên quan thực tế (relevant_TT).

Để thực hiện việc kiểm tra chương trình có sẵn bảng liên quan của tập dữ

liệu, gọi là bảng liên quan theo lý thuyết (relevant_LT)

Mỗi một hệ thống sau khi thực thi tập câu hỏi trên tập tài liệu kiểm tra đó sẽ

có một bảng đánh giá theo từng câu hỏi (evaluation). Bảng đánh giá gồm các thông tin sau:các câu hỏi được thực thi, về số tài liệu liên quan thực sự trả về(là phần giao của các tài liệu trong bảng liên quan lý thuyết và bảng liên quan thực tế của hệ thống IR), số tài liệu liên quan theo lý thuyết , số tài liệu trả về (do hệ

thống IR), độ bao phủ ,độ chính xác của hệ thống khi thực hiện câu hỏi đó và

độ chính xác tại 11 điểm chuẩn của độ bao phủ.Các thông tin này có được do chương trình tính toán dựa vào bảng liên quan thực tế của một hệ thống IR xác

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mỗi một câu hỏi hay một tài liệu đều được lập chỉ mục theo một phương pháp nào đó của một hệ thống IR cụ thể (Index_Topic) (Index_Doc). Thông tin về index này sẽ được thông báo cho chương trình biết được để hỗ trợ hiện thị

cho người dùng có thểđánh giá phương pháp index đó có thật sự tốt hay không

3.3.2.3.2.Sơ đồ logic dữ liệu Sơ đồ logic :

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Giải thích:

System: sysID,Name,Date,AvgRecall, AvgPrecision,

R00,R01,R02,R03,R04,R05,R06,R07,R08,R09,R10

- Mỗi hệ thống được phân biệt với các hệ thống khác dựa vào sysID của nó. Thông tin đánh giá ở mức độ hệ thống bao gồm : (tên, ngày thực hiện kiểm tra, Độ bao phủ trung bình, độ chính xác trung bình , độ chính xác trung bình được tính ở 11 điểm chuẩn của độ bao phủ : R00… R10) sẽđược lưu lại

Terms: termID, Term

- Danh sách các từ có nghĩa.

Topic: TopID , Title, Des, Narr

- Tập câu hỏi (topic) sẽ được lưu và được phân biệt bởi TopID.Thông tin mà chương trình quan tâm đến câu hỏi là nội dung của nó (title), các thông tin phụ như chú giải (description) , ràng buộc liên quan (narrative) chỉ có ý nghĩa đối với người dùng để đánh giá khi nào một tài liệu được gọi là có liên quan đến câu hỏi này, phần thông tin này không có ý nghĩa đối với chương trình

Index_topic : topID, sysID,size

- Mỗi câu hỏi sẽ được lập 1 chỉ mục theo phương pháp lập chỉ mục của hệ thống IR cụ thể (có sysID), thông tin chỉ mục của từng câu hỏi chỉ

thuộc về 1 câu hỏi đó,thông tin chỉ mục bao gồm : kích thước của chỉ

mục (tổng số từ trong câu hỏi được lập chỉ mục), các từ được lập chỉ

mục và trọng số của mỗi từđó

Topic_term : termID,topID,sysID,weigh

- Mỗi index_topic sẽ được lập chỉ mục dựa trên bảng từ có nghĩa (term) và đánh trọng số (weigh) cho mỗi từ. (adsbygoogle = window.adsbygoogle || []).push({});

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

- Tập tài liệu (document) sẽ được lưu và được phân biệt bởi DocID.Thông tin mà chương trình quan tâm đến tài liệu là nội dung của nó (content), chủ đề (title), tác giả của tài liệu đó (author), ngày tạo (date), nguồn gốc của tài liệu (news)…

Index_Doc : docID,sysID, size

- Mỗi tài liệu sẽđược lập 1 chỉ mục theo phương pháp lập chỉ mục của hệ

thống IR cụ thể (có sysID), thông tin chỉ mục của từng tài liệu chỉ thuộc về 1 tài liệu đó,thông tin chỉ mục bao gồm : kích thước của chỉ mục (tổng số từ trong tài liệu được lập chỉ mục), các từ lập chỉ mục và trọng số của mỗi từđó

Doc_term : termID,docID,sysID,weigh

- Mỗi index_doc sẽđược lập chỉ mục dựa trên bảng từ có nghĩa (term) và

đánh trọng số (weigh) cho mỗi từ.

relevant_TT: topID,DocID,sysID, similarity

- Mối liên hệ giữa câu hỏi và tài liệu được hệ thống IR cụ thể (có một sysID cụ thể)bên ngoài trả về, chương trình sẽ ghi nhận để đánh giá

relevant_LT : topID,DocID

- Sự liên quan đến tài liệu của một câu hỏi với tài liệu theo lý thuyết.Sự liên quan theo lý thuết này được tạo ra từ bên ngoài qua việc kiểm tra nhiều hệ

thống

evaluation: sysID,TopID, Ret_Rel, Ret,Rel,R,P,

R00,R01,R02,R03,R04,R05,R06,R07,R08,R09,R10

- Mỗi một topic được thực thi trên một hệ thống (có sysId cụ thể) sẽđược chương trình đánh giá và lưu trữ các thông tin như: số tài liệu có liên quan

được trả về (RET_REL), số tài liệu liên quan theo lý thyết (REL), số tài liệu trả về thực sự(RET,tính độ bao phủ ,độ chính xác và các độ chính xác tại 11 điểm chuẩn của độ bao phủ (R00.. R10)….

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2.4. Tố chức lưu trữ dữ liệu

Tất cả dữ liệu được lưu trữ dưới file XML 3.3.2.4.1.System

- Các hệ thống IR sau khi được tiến hành kiểm tra sẽđược lưu trữ trong file system.xml.

- Ngoài ra để đưa ra bảng giá trị thực hiện việc vẽđường cong RP , chương trình sẽ tính giá trị độ chính xác được tính ở các điểm chuẩn của độ bao phủ .Tất cả các giá trị này sẽđược lưu trữ .

Cấu trúc DTD của file system.xml như sau: <!ELEMENT COMPARE (SYSTEM*)>

<!ELEMENT SYSTEM (NAME,DATE, AVGRECALL,

AVGPRECISION, R00, R01, R02, R03, R04, R05, R06, R07, R08, R09, R10)>

<!ATTLIST SYSTEM SYSID CDATA #REQUIRE> <!ELEMENT NAME (#PCDATA)>

<!ELEMENT DATE (#PCDATA)>

<!ELEMENT AVGRECALL (#PCDATA)> <!ELEMENT AVGPRECISION (#PCDATA)> <!ELEMENT R00 (#PCDATA)> <!ELEMENT R02(#PCDATA)> <!ELEMENT R03 (#PCDATA)> <!ELEMENT R04 (#PCDATA)> <!ELEMENT R05 (#PCDATA)> <!ELEMENT R06 (#PCDATA)> <!ELEMENT R07 (#PCDATA)> <!ELEMENT R08 (#PCDATA)> <!ELEMENT R09 (#PCDATA)> <!ELEMENT R10 (#PCDATA)>

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin <COMPARE> <SYSTEM SYSID=""> <NAME > </NAME > <DATE > </DATE > <AVGRECALL > </AVGRECALL > <AVGPRECISION> </AVGPRECISION> <R00> </R00> <R01> </R01> <R02> </R02> <R03> </R03> <R04> </R04> <R05> </R05> <R06> </R06> <R07> </R07> <R08> </R08> <R09> </R09> <R10> </R10> </SYSTEM> </COMPARE> Diễn giải:

<SYSTEM SYSID=""> : mỗi hệ thống sẽ được cấp một chỉ số duy nhất sysID (adsbygoogle = window.adsbygoogle || []).push({});

<NAME> : tên hệ thống

<DATE> : ngày giờ tiến hành kiểm tra hệ thống <AVGRECALL> : độ bao phủ trung bình <AVGPRECISION> : độ chính xác trung bình

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2.4.2.Topic

Các câu hỏi dùng để kiểm tra hệ thống IR được lưu trữ thành các file có cấu trúc như sau:

Cấu trúc DTD:

<!ELEMENT TOPIC (TOP*)>

<!ELEMENT TOP(TOPID,TITLE,DES,NARR)> <!ELEMENT TOPID(#PCDATA)>

<!ELEMENT TITLE (#PCDATA)> <!ELEMENT DES (#PCDATA)> <!ELEMENT NARR (#PCDATA)>

<TOPIC> <TOP> <TOPID> </TOPID> <TITLE> </TITLE> <DES> </DES> <NARR> </NARR> </TOP> </TOPIC> Diễn giải: <TOPID> : chỉ số của câu hỏi <TITLE> : nội dung của câu hỏi <DES> : chú thích cho câu hỏi

<NARR>: yêu cầu về sự liên quan của câu hỏi đối với tài liệu

(Thông tin DES, NARR chỉ có ý nghĩa cho việc nghiên cứu sự liên quan của câu hỏi với tài liệu)

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2.4.3.Index_topic

Mỗi một câu hỏi được lập chỉ mục theo phương pháp lập chỉ mục của hệ

thống IR bên ngoài. Chương trình tổ chức việc lưu các file chỉ mục của các topic thuộc về một hệ thống là một file xml, có nghĩa là hệ thống IR có sysID1 được tiến hành kiểm tra có thông tin về chỉ mục của tập câu hỏi của chương trình , các thông tin đó sẽđược lưu thanh một file xml, thông tin lập chỉ mục của hệ thống khác sysID2 sẽ được lưu thành file xml khác. Cách

đặt tên của file chỉ mục sẽ được đặt theo nguyên tắc sau: (để có thể dễ tiến hành việc đọc file)

Tên file chỉ mục câu hỏi của hệ thống IR có sysID1 = “idx_topic_”+ sysID1+ “.xml”

Cấu trúc DTD của file như sau: <!ELEMENT MATRIX (INDEX*)>

<!ATTLIST MATRIX SIZE CDATA #REQUIRE> <!ELEMENT INDEX (TERM)>

<!ATTLIST INDEX ID CDATA #REQUIRE SIZE CDATA #REQUIRE> <!ELEMENT TERM(#PCDATA)>

<!ATTLIST TERM WORD CDATA #REQUIRE WEIGH CDATA #REQUIRE> Cấu trúc của file như sau:

<MATRIX SIZE = “”>

<INDEX ID=”” SIZE = “”>

<TERM WORD=”” WEIGH=””> </INDEX>

</MATRIX> Diễn giải:

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

- <INDEX ID =”” SIZE = “”> :ID là topicID của một câu hỏi;size là tổng số từ trong một câu hỏi được lập chỉ mục

- <TERM WORD=”” WEIGH=””> : word: là từ trong câu hỏi có topicID

được lập chỉ mục, weigh là trọng số của nó (adsbygoogle = window.adsbygoogle || []).push({});

3.3.2.4.4.Document

Các tài liệu dùng để kiểm tra hệ thống IR được lưu trữ thành các file có cấu trúc như sau: Cấu trúc DTD : <!ELEMENT DOCUMENT(DOC*)> <!ELEMENT DOC(DOCID,TITLE,AUTHOR,DATE,NEWS,CONTENT)> <!ELEMENT DOCID(#PCDATA)>

<!ELEMENT TITLE (#PCDATA)> <!ELEMENT AUTHOR (#PCDATA)> <!ELEMENT DATE (#PCDATA)> <!ELEMENT NEWS (#PCDATA)> <!ELEMENT CONTENT (#PCDATA)>

<DOCUMENT> <DOC> <DOCID> </DOCID> <TITLE> </TITLE> <AUTHOR> </AUTHOR> <DATE> </DATE> <NEWS> </NEWS> <CONTENT> </CONTENT> </DOC> </DOCUMENT>

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Diễn giải:

<DOCID>: chỉ số của tài liệu <TITLE>: chủđề của tài liệu <AUTHOR>: tác giải tài liệu <DATE> ngày tạo tài liệu <NEWS>: nguồn gốc tài tiệu <CONTENT> nội dung của tài liệu

3.3.2.4.5.Index_Doc

Tương tự cách lưu trữ của Index_Topic, các file lập chỉ mục tài liệu của hệ

thống sysID cụ thể sẽ được lưu thành một file xml riêng biệt.Cách tổ chức cấu trúc ý nghĩa của file xml đó cũng tương tự như file lưu trữ index của topic, nhưng cách đặt tên của file chỉ mục tài liệu của một hệ thống cụ thể

như sau:

Tên file = “idx_doc_”+ sysID + “.xml”

3.3.2.4.6.relevant_TT

Mỗi hệ thống sau khi đã tìm kiếm trên kho dữ liệu của chương trình sẽ trả

về cho chương trình file biểu diễn mối liên quan của các câu hỏi với các tài liệu.Chương trình ghi nhận lại các thông tin sự liên quan đó của một hệ

thống IR cụ thể (có sysID) bằng một file xml, có nghĩa là sự liên quan thực tế của các câu hỏi với tài liệu do một hệ thống IR cụ thể sysID1 sẽđược lưu thành một file, con sự liên hệ topic-doc của hệ thống khác sysID2 sẽđược lưu thành file khác. Do đó chương trình quy định cách đặt tên cho file như

sau:

Tên file = “rel_”+sysID + “.xml”

Cấu trúc của file được tổ chức như sau: <!ELEMENT RELEVANT(REL*)> <ELEMENT REL(DOCID)>

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

<!ATTLIST REL TOPID CDATA #REQUIRE> <!ELEMENT DOCID(#PCDATA)>

<!ATTLIST DOCID SIMILARITY CDATA >

<RELEVANT> <REL TOPID=””> <DOCID SIMILARITY=”” “”> </REL> </RELEVANT> Diễn giải: <TOPID>: chỉ số của topic

<DOC ID>: chỉ số của tài liệu có liên quan với câu hỏi có chỉ số là TOPID <SIMILARITY>: độ tương quan của tài liệu DOCID với câu hỏi TOPID

3.3.2.4.7.relevant_LT

Chương trình đã tạo sẵn bảng liên quan giữa câu hỏi với tài liệu (bảng liên quan theo lý thuyết). File lưu trữ thông tin liên quan có cấu trúc sau:

<!ELEMENT RELEVANT(REL*)> <ELEMENT REL(DOCID)>

<!ATTLIST REL TOPID CDATA #REQUIRE> <!ELEMENT DOCID(#PCDATA)> <RELEVANT> <REL TOPID=””> <DOCID> </DOCID> </RELEVANT> Diễn giải: (tương tự như trên)

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2.4.8.evaluation (adsbygoogle = window.adsbygoogle || []).push({});

Với 1 câu hỏi được thực thi bởi 1 hệ thống IR bất kỳ, chương trình sẽ tính tóan các thông tin về : số tài liệu liên quan, số tài liệu trả về, số tài liệu liên quan được trả về,độ bao phủ, độ chính xác. Các thông tin này sẽđược lưu trữ vào file evaluation.xml. Cấu trúc file này như sau:

DTD :

<!ELEMENT EVALUATION(SYSTEM*)> <!ELEMENT SYSTEM(EVAL*)>

<!ATTLIST SYSTEM SYSID CDATA #REQUIRE>

<!ELEMENT EVAL(RETREL,RET,REL, RECALL, PRECISION, R00, R01, R02, R03, R04, R05, R06, R07, R08, R09, R10)>

<!ATTLIST EVAL TOPID CDATA #REQUIRE> <!ELEMENT RETREL(#PCDATA)>

<!ELEMENT RET(#PCDATA)> <!ELEMENT REL(#PCDATA)> <!ELEMENT RECALL (#PCDATA)> <!ELEMENT PRECISION (#PCDATA)> <!ELEMENT R00 (#PCDATA)> <!ELEMENT R02 (#PCDATA)> <!ELEMENT R03 (#PCDATA)> <!ELEMENT R04 (#PCDATA)> <!ELEMENT R05 (#PCDATA)> <!ELEMENT R06 (#PCDATA)> <!ELEMENT R07 (#PCDATA)> <!ELEMENT R08 (#PCDATA)> <!ELEMENT R09 (#PCDATA)> <!ELEMENT R10 (#PCDATA)>

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin <EVALUATION> <SYSTEM SYSID=””> <EVAL TOPID=””> <RETREL> </RETREL> <RET> </RET> <REL> </REL> <RECALL> </RECALL> <PRECISION> </PRECISION> <R00> </R00> <R01> </R01> <R02> </R02> <R03> </R03> <R04> </R04> <R05> </R05> <R06> </R06> <R07> </R07> <R08> </R08> <R09> </R09> <R10> </R10> </EVAL> </SYSTEM > </EVALUATION> Diễn giải: <SYSTEM SYSID=””> : chỉ số của hệ thống IR

<EVAL TOPID=””> :chỉ số câu hỏi được thực thi bởi hệ thống IR đó <RETREL>: số tài liệu có liên quan được trả về (retrieval relevant) <RET>: số tài liệu trả về (retrieval)

<REL>: số tài liệu liên quan (relevant)

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

<PRECISION>: độ chính xác của câu hỏi TopID

<Ri>: độ chính xác của câu hỏi TopID được tính tại 11 điểm chuẩn của độ

bao phủ

3.3.2.5. Thiết kế giao diện

3.3.2.5.1.Sơ đồ liên hệ giữa các màn hình Qui trình 1: Từ màn hình chính chọn: Bước 1: Định dạng tài liệu Bước 2: định dạng kết quả Bước 3: Thực thi hệ thống IR Bước 4: Định dạng kết quả trả về của hệ thống Bước 5: Định dạng file index

Bước 6: Xem kết quảđịnh dạng Bước 7: xem đồ thị hệ thống Bước 8: xem chi tiết

Nếu kho dữ liệu của chương trình có cấu trúc giống với cấu trúc định dạng của hệ thống IR thì bước định dạng dữ liệu (bước 1 và 2) có thể bỏ qua.

Có thể hệ thống IR được thực hiện bên ngoài, bước 3 được bỏ qua, người dùng chỉ thông báo cho chương trình các file kết quả và file index để thực hiện việc

đánh giá.

fraThucThiHT

fraDDKetQua fraDDIndex

fraKqDanhGia fraSoSanhHT

fraDDTaiLieu

fraTTTaiLieu fraDDCauHoi fraTTCauHoi

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Qui trình 2:

Từ màn hình chính chọn: - Thực thi hệ thống IR:

Gọi màn hình thông báo cho chương trình biết vị trí các kho dữ liệu cần

để =>fraDKThucThi (adsbygoogle = window.adsbygoogle || []).push({});

Gọi màn hình thực thi hệ thống IR =>fraThucThiHT Xử lý kết quả trả về

Định dạng tập tin chỉ mục (có thể không có) Xem thông tin kết qua đánh giá

Xem chi tiết

Xem đồ thị hệ thống

Qui trình 3:

Từ màn hình chính chọn: - Xử lý kết quả trả về:

Gọi màn hình xử lý kết quả trả về, yêu cầu nhập thông tin về tên hệ thống

Định dạng tập tin chỉ mục (có thể không có) Xem thông tin kết quảđánh giá

ế fraThucThiHT fraDDKetQua fraDDIndex fraKqDanhGia fraDKThucThi fraXemChiTiet fraDoThi_HeThong

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Xem đồ thị hệ thống

Qui trình 4:

Từ màn hình chính chọn:

- Xem thông tin kết quảđánh giá:

Gọi màn hình xem thông tin kết quả đánh giá, yêu cầu chọn hệ thống cần xem Xem chi tiết Xem đồ thị hệ thống Qui trình 5: Từ màn hình chính chọn: - so sánh nhiều hệ thống => gọi màn hình fraSoSanhHT fraKqDanhGia fraXemChiTiet fraDoThi_HeThong Chọn hệ thống cần xem fraDDKetQua fraDDIndex fraKqDanhGia fraXemChiTiet fraDoThi_HeThong Nhập tên hệ thống

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

3.3.2.6. Thiết kế màn hình

3.3.2.6.1.Màn hình chính (TH_Main) Ký hiệu: fraMain

Cho phép liên kết các chức năng của chương trình.Chương trình gồm các chức năng sau:

- Chuyển đổi định dạng của kho dữ liệu (để phù hợp với định dạng dữ

liệu của hệ thống IR cần kiểm tra).Kho dữ liệu bao gồm: tập tài liệu và tập câu hỏi

- Thực thi hệ thống IR bên ngoài

- Chuyển đổi định dạng các file kết quả và file index của hệ thống IR để

tạo file kết quả và index cho chương trình - Đánh giá hệ thống IR

- So sánh các hệ thống IR đã được đánh giá

3.3.2.6.2.Màn hình định dạng tài liệu (TH_DDTaiLieu) Ký hiệu: fraDDTaiLieu 5 6 4 3 2 1

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 105 - 124)