1. Cấu trúc lưu trữ dữ liệu
1.4 Tập tin chỉ mục đảo (Inverted )
Tập tin chỉ mục đảo lưu các từ chỉ mục, mỗi từ có các tham chiếu đến tài liệu chứa từ đó kèm theo tần số, trọng số của từ đó trong tài liệu, trong chương trình tập tin này được lưu trong thư mục “Inverted ”.
1.4.1 Cấu trúc DTD / XSD
• DTD
<!ELEMENT Term (DOC+)>
<!ATTLIST Term Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>
<!ATTLIST DOC D CDATA #REQUIRED> <!ATTLIST DOC F CDATA #REQUIRED> <!ATTLIST DOC W CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here --> <AttributeType name="D" dt:type="string"/>
<AttributeType name="F" dt:type="int"/>
<AttributeType name="W" dt:type="fixed.14.4"/> <AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly"> <attribute type="D"/>
<attribute type="F"/> <attribute type="W"/>
</ElementType>
<ElementType name="Term" content="eltOnly"> <attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType>
<ElementType name="Inverted_File" content="eltOnly">
<element type="Term" minOccurs="1" maxOccurs="*"/> </ElementType>
</Schema>
1.4.2 Tài liệu XML
<Inverted_File>
<Term Name="nhân công">
<DOCD="378" F="1" W="2.5" /> <DOCD="879" F="3" W="7.49" /> <DOCD="1584" F="1" W="2.5" /> <DOCD="1627" F="1" W="2.5" /> <DOCD="1659" F="1" W="2.5" /> <DOCD="1708" F="1" W="2.5" /> <DOCD="2194" F="2" W="4.99" />
</Term>
<Term Name="gia truyền">
<DOCD="942" F="1" W="2.87" /> <DOCD="1670" F="1" W="2.87" /> <DOCD="2194" F="1" W="2.87" /> </Term> …… </Inverted_File>