1. Cấu trúc lưu trữ dữ liệu
1.7 Tập tin chứa các từ trong câu hỏi và các tài liệu liên quan
Tập tin này chứa các từ trong câu hỏi và các tham chiếu đến các tài liệu chứa các từ này, kèm theo tần số, trọng số của mỗi từ trong tài liệu tương ứng, nó được lưu trong thư mục “CauHoi” và tên tập tin là “CauHoiVaTaiLieu.xml”.
1.7.1 Cấu trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)> <!ELEMENT WORD (Doc)>
<!ATTLIST WORD Name CDATA #REQUIRED> <!ELEMENT Doc EMPTY>
<!ATTLIST Doc Frequence CDATA #REQUIRED> <!ATTLIST Doc Weight CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="Frequence" dt:type="int"/> <AttributeType name="Weight" dt:type="fixed.14.4"/> <AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly"> <attribute type="DOC_ID"/>
<attribute type="Frequence"/> <attribute type="Weight"/> </ElementType>
<ElementType name="WORD" content="eltOnly"> <attribute type="Name"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType>
</Schema>
1.7.2 Tài liệu XML
<WORDS>
<WORD Name="đất nước">
<DocDOC_ID="12" Frequence="2" Weight="2.48" /> <DocDOC_ID="13" Frequence="1" Weight="1.24" /> <DocDOC_ID="38" Frequence="1" Weight="1.24" /> <DOCDOC_ID="2446" Frequence="0" Weight="0" /> </WORD>
<WORD Name="con người">
<DocDOC_ID="12" Frequence="2" Weight="3.48" /> <DocDOC_ID="13" Frequence="0" Weight="0" /> <DocDOC_ID="38" Frequence="0" Weight="0" /> <DOCDOC_ID="2446" Frequence="0" Weight="0" /> </WORD>
<WORD Name="việt nam">
<DocDOC_ID="12" Frequence="1" Weight="2.48" /> <DocDOC_ID="13" Frequence="0" Weight="0" /> <DocDOC_ID="38" Frequence="2" Weight="2.12" /> <DOCDOC_ID="2446" Frequence="1" Weight="1.25" /> </WORD>
</WORDS>