Tập tin chỉ mục đảo (Inverted )

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 70 - 73)

1. Cấu trúc lưu trữ dữ liệu

1.4 Tập tin chỉ mục đảo (Inverted )

Tập tin chỉ mục đảo lưu các từ chỉ mục, mỗi từ có các tham chiếu đến tài liệu chứa từ đó kèm theo tần số, trọng số của từ đó trong tài liệu, trong chương trình tập tin này được lưu trong thư mục “Inverted ”.

1.4.1 Cấu trúc DTD / XSD

• DTD

<!ELEMENT Term (DOC+)>

<!ATTLIST Term Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>

<!ATTLIST DOC D CDATA #REQUIRED> <!ATTLIST DOC F CDATA #REQUIRED> <!ATTLIST DOC W CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here --> <AttributeType name="D" dt:type="string"/>

<AttributeType name="F" dt:type="int"/>

<AttributeType name="W" dt:type="fixed.14.4"/> <AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly"> <attribute type="D"/>

<attribute type="F"/> <attribute type="W"/>

</ElementType>

<ElementType name="Term" content="eltOnly"> <attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType>

<ElementType name="Inverted_File" content="eltOnly">

<element type="Term" minOccurs="1" maxOccurs="*"/> </ElementType>

</Schema>

1.4.2 Tài liệu XML

<Inverted_File>

<Term Name="nhân công">

<DOCD="378" F="1" W="2.5" /> <DOCD="879" F="3" W="7.49" /> <DOCD="1584" F="1" W="2.5" /> <DOCD="1627" F="1" W="2.5" /> <DOCD="1659" F="1" W="2.5" /> <DOCD="1708" F="1" W="2.5" /> <DOCD="2194" F="2" W="4.99" />

</Term>

<Term Name="gia truyền">

<DOCD="942" F="1" W="2.87" /> <DOCD="1670" F="1" W="2.87" /> <DOCD="2194" F="1" W="2.87" /> </Term> …… </Inverted_File>

Một phần của tài liệu hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt (Trang 70 - 73)

Tải bản đầy đủ (DOC)

(116 trang)
w