Phân b it gia tp tin ngh cho và tp tin tr cti p

Một phần của tài liệu Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép (Trang 61 - 138)

3. Lp ch mc cho tài li uting V it

4.1 Phân b it gia tp tin ngh cho và tp tin tr cti p

ptintr cti p(directfile)làt ptinmàchínhcácm cthôngtin ãcungc pth chínhc at ptin.

Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch i bao g m m t t p các m c thông tin.

Nguy nTh ThanhHà-0112215 46 Nguy nTrungHi u-

1 2 3 4

1 1 0 1

0 1 1 1

1 0 1 1

Tài li u 1 Tài li u 2 Tài li u 3

1 0 1

1 1 0

0 1 1

1 1 1

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p tinngh ch os l utr nh sau: 1 2 3 4 ng4-1Cácht ptinngh ch ol utr Tàili u1

Tài li u 2 Tài li u 3

ng4-2Cácht ptintr cti pl utr

4.2 isao s d ng t ptin ngh ch o l p ch m c

Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp

vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p

t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin

Nguy nTh ThanhHà-0112215 47 Nguy nTrungHi u-

0112216

Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4

1 0 1 0

1 1 0 0

0 1 1 1

1 1 1 1

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v

cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t

tàili um i,t tc cáct cóliênquan ntàili unày uph i cc pnh tl i. Ví d

1 2 3 4

ng4-3Thêmm ttàili um ivàot ptinnghch o

Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c

,t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h th ngtìmki mthôngtin,ng itach c pnh tl it ptint im tkho ngth igian

nh

.Vìv y, t ptinngh ch ov n cs d ng l pch m c.

Nguy nTh ThanhHà-0112215 48 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Ch ng5: PHÂN TÍCH

1. UseCase h th ng

Hình5-1S Use-casec ah th ng

Nguy nTh ThanhHà-0112215 49 Nguy nTrungHi u-

0112216

STT ACTOR

2 User Ng i

3 Cactailieu Cáctài

4 Cactailieulienquancauhoi Các tài li u tr

5 p tin chi muc ptinchli uacác

STT USECASE

1 Tach tu

2 Tao moi t p tin chi muc

3 Capnhatt ptinchimuc

4 Timkiem

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

ng5-1DanhsáchcácActor

ng5-2DanhsáchcácUseCase

Nguy nTh ThanhHà-0112215 50 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

2. L p

Hình5-2S cácl pth hi n

Nguy nTh ThanhHà-0112215 51 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-3S cácl px

Nguy nTh ThanhHà-0112215 52 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

3. Tách t

3.1 UseCase

Hình5-4S Use-casetácht

Hình5-5S tu nt tácht

Nguy nTh ThanhHà-0112215 53 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-6S c ngtáctácht

3.4 L p

Hình5-7S l ptácht

Nguy nTh ThanhHà-0112215 54 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

4. pch m c

Hình5-8S use-casel pch m c

Nguy nTh ThanhHà-0112215 55 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

4.2 Tu nt

Hình5-9S tu nt t om ich m c

Nguy nTh ThanhHà-0112215 56 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-10 S tu nt c pnh tch m c

Nguy nTh ThanhHà-0112215 57 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

4.3 C ng tác

Hình5-11S c ngtáct om ich m c

Nguy nTh ThanhHà-0112215 58 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-12 S c ng tácc pnh tch m c

Nguy nTh ThanhHà-0112215 59 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-13 S l pl pch m c

Nguy nTh ThanhHà-0112215 60 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

5. Tìmki m

5.1 UseCase

Hình5-14S use-casetìmki m

Hình5-15S tu nt tìmki m

Nguy nTh ThanhHà-0112215 61 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-16S c ngtáctìmki m

Nguy nTh ThanhHà-0112215 62 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Hình5-17 S l ptìmki m

Nguy nTh ThanhHà-0112215 63 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

Ch ng 6: THI T K VÀCÀI T

Ø Ngônng l ptrình:C#, ASP.NET

Ø Công c l p trình : Microsoft Visual Studio .NET

Ø utr d li u: t ptinXML

Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t

Các tài li u ti ng Vi t và câu truy v n s ctácht theoph ngpháp Longest

Matching.

1. utrúc l utr d li u

tc t ptin v n b n,t ptinch a cáct ã ctách, t ptinch m c o,t p

tinch acáct khôngquantr ng,t ptinl utr t ngquangi acâutruy v nvà tài

li u… u cl utr d id ngXml.

1.1 ptin l un i dungtài li u

ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin

ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th

c “VanBanXML”.

1.1.1 utrúcDTD /XSD

• DTD

<!ELEMENT NEWSPAPERS(DOC*)>

Nguy nTh ThanhHà-0112215 64 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)> <!ATTLISTDOCDOC_IDCDATA#REQUIRED>

<!ELEMENT AUTHOR (#PCDATA)> <!ELEMENTDATE(#PCDATA)> <!ELEMENTNEWS(#PCDATA)> <!ELEMENT CONTENT (#PCDATA)>

• XSD

<?xml version='1.0'?>

<schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<ElementTypename="TITLE"content="textOnly"dt:type="string"/> <ElementType name="AUTHOR" content="textOnly" dt:type="string"/> <ElementType name="DATE" content="textOnly" dt:type="string"/> <ElementTypename="NEWS"content="textOnly"dt:type="string"/> <ElementType name="CONTENT" content="textOnly"

dt:type="string"/>

<AttributeTypename="DOC_ID"dt:type="string"/>

Nguy nTh ThanhHà-0112215 65 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

<ElementType name="DOC" content="eltOnly" order="seq"> <attributetype="DOC_ID"/>

<element type="AUTHOR"/> <elementtype="DATE"/> <elementtype="NEWS"/> <element type="CONTENT"/> </ElementType>

<ElementType name="NEWSPAPERS" content="eltOnly"> <elementtype="DOC"minOccurs="1"maxOccurs="*"/> </ElementType>

</schema>

1.1.2Tàili uXML

<NEWSPAPERS>

<DOCDOC_ID="1">

<TITLE>ThanhniênVN: ngl cchonh ngt mnhìnm i</TITLE> <AUTHOR>Tác gi : .Bình</AUTHOR>

<DATE>Ngày :01/12/2000</DATE>

<NEWS>Tênt báo:Tu itr Th lo i:,Trang:trang1,14</NEWS> <CONTENT>ThanhniênVN: ngl cchonh ngýt ngm i,t m nhìn

i.(TT-HàN i)-T il khaim cDi n ànthanhniên(TN)VNv ich

Nguy nTh ThanhHà-0112215 66 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN VNph ih pv icácc quanLHQt iVNt ch c),ôngEdouardWattez,

u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong quátrìnhm c av ith gi i... .Bình.</CONTENT>

</DOC>

……

</NEWSPAPERS>

1.2 ptin saukhi tách t tàili u

âylàt p tinXml l ucác t tách c t cáct ptin v n b n g ccùngv i các

ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin

nb ng c,trongch ngtrìnhcáct ptinnày cl u th m c“TachTu”.

1.2.1 utrúcDTD /XSD

• DTD

<!ELEMENT WORDS(WORD*)> <!ELEMENTWORD(DOC+)>

<!ATTLIST WORD Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>

<!ATTLIST DOCDOC_IDCDATA#REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

Nguy nTh ThanhHà-0112215 67 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="Name" dt:type="string"/> <ElementTypename="DOC"content="eltOnly">

<attributetype="DOC_ID"/> </ElementType>

<ElementType name="WORD" content="eltOnly"> <attribute type="Name"/>

<elementtype="DOC"minOccurs="1"maxOccurs="*"/> </ElementType>

<ElementType name="WORDS" content="eltOnly">

<elementtype="WORD"minOccurs="1"maxOccurs="*"/> </ElementType> </Schema> 1.2.2Tàili uXML <WORDS> <WORDName="thành l p"> <DOCDOC_ID="2051"/> <DOCDOC_ID="2063"/>

Nguy nTh ThanhHà-0112215 68 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

<DOCDOC_ID="2091"/> </WORD>

<WORDName="trungtâm"> <DOCDOC_ID="2091"/> <DOCDOC_ID="2092"/> <DOCDOC_ID="2099"/> </WORD> <WORDName=" "> <DOCDOC_ID="2076"/> <DOCDOC_ID="2079"/> <DOCDOC_ID="2084"/> <DOCDOC_ID="2086"/> <DOCDOC_ID="2091"/> <DOCDOC_ID="2094"/> <DOCDOC_ID="2095"/> <DOCDOC_ID="2096"/> <DOCDOC_ID="2099"/> </WORD> …… </WORDS>

Nguy nTh ThanhHà-0112215 69 Nguy nTrungHi u-

0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

1.3 ptin ch acác t khôngth hi nn idung c av nb n (stop list)

âylàt ptinXmlch acáct khôngth hi nn idungc av nb n,g ilàdan h

sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”

1.3.1 utrúcDTD /XSD

• DTD

<!ELEMENT STOP_LIST (WORD*)> <!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

<?xmlversion='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!--contentsofXMLSchemadocumentgoeshere--> <AttributeType name="Name" dt:type="string"/>

<ElementTypename="WORD"content="eltOnly"> <attributetype="Name"/>

</ElementType>

Nguy nTh ThanhHà-0112215 70 Nguy nTrungHi u-

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

<ElementType name="STOP_LIST" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.3.2Tàili uXML <STOP_LIST> <WORDName=" i"/> <WORDName=" ng" /> <WORDName="và"/> <WORDName="có"/> <WORDName="nh ng"/> <WORDName=" "/> <WORDName=" i"/> </STOP_LIST> 1.4 ptin ch m c o (Inverted ).

p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u

ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin

này c l u trong th m c “Inverted ”.

Nguy nTh ThanhHà-0112215 71 Nguy nTrungHi u- 0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

• DTD

<!ELEMENTInverted_File(Term*)> <!ELEMENTTerm(DOC+)>

<!ATTLIST Term Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>

<!ATTLISTDOCDCDATA#REQUIRED> <!ATTLIST DOC F CDATA #REQUIRED> <!ATTLISTDOCWCDATA#REQUIRED>

• XSD

<?xmlversion='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!--contentsofXMLSchemadocumentgoeshere--> <AttributeTypename="D"dt:type="string"/>

<AttributeType name="F" dt:type="int"/>

<AttributeTypename="W"dt:type="fixed.14.4"/> <AttributeTypename="Name"dt:type="string"/>

<ElementType name="DOC" content="eltOnly"> <attribute type="D"/>

Nguy nTh ThanhHà-0112215 72 Nguy nTrungHi u- 0112216

Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p

<attributetype="F"/> <attribute type="W"/> </ElementType>

<ElementTypename="Term" content="eltOnly"> <attributetype="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType>

<ElementTypename="Inverted_File"content="eltOnly">

<element type="Term" minOccurs="1" maxOccurs="*"/> </ElementType>

</Schema>

1.4.2Tàili uXML

<Inverted_File>

<TermName="nhâncông">

<DOCD="378"F="1"W="2.5"/> <DOCD="879"F="3"W="7.49"/> <DOCD="1584"F="1"W="2.5"/> <DOCD="1627"F="1"W="2.5"/>

Một phần của tài liệu Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép (Trang 61 - 138)

Tải bản đầy đủ (DOCX)

(138 trang)
w