3. Lp ch mc cho tài li uting V it
4.1 Phân b it gia tp tin ngh cho và tp tin tr cti p
ptintr cti p(directfile)làt ptinmàchínhcácm cthôngtin ãcungc pth chínhc at ptin.
Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch i bao g m m t t p các m c thông tin.
Nguy nTh ThanhHà-0112215 46 Nguy nTrungHi u-
1 2 3 4
1 1 0 1
0 1 1 1
1 0 1 1
Tài li u 1 Tài li u 2 Tài li u 3
1 0 1
1 1 0
0 1 1
1 1 1
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p tinngh ch os l utr nh sau: 1 2 3 4 ng4-1Cácht ptinngh ch ol utr Tàili u1
Tài li u 2 Tài li u 3
ng4-2Cácht ptintr cti pl utr
4.2 isao s d ng t ptin ngh ch o l p ch m c
Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp
vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p
t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin
Nguy nTh ThanhHà-0112215 47 Nguy nTrungHi u-
0112216
Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4
1 0 1 0
1 1 0 0
0 1 1 1
1 1 1 1
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v
cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t
tàili um i,t tc cáct cóliênquan ntàili unày uph i cc pnh tl i. Ví d
1 2 3 4
ng4-3Thêmm ttàili um ivàot ptinnghch o
Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c
,t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h th ngtìmki mthôngtin,ng itach c pnh tl it ptint im tkho ngth igian
nh
.Vìv y, t ptinngh ch ov n cs d ng l pch m c.
Nguy nTh ThanhHà-0112215 48 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Ch ng5: PHÂN TÍCH
1. UseCase h th ng
Hình5-1S Use-casec ah th ng
Nguy nTh ThanhHà-0112215 49 Nguy nTrungHi u-
0112216
STT ACTOR
2 User Ng i
3 Cactailieu Cáctài
4 Cactailieulienquancauhoi Các tài li u tr
5 p tin chi muc ptinchli uacác
STT USECASE
1 Tach tu
2 Tao moi t p tin chi muc
3 Capnhatt ptinchimuc
4 Timkiem
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
ng5-1DanhsáchcácActor
ng5-2DanhsáchcácUseCase
Nguy nTh ThanhHà-0112215 50 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
2. L p
Hình5-2S cácl pth hi n
Nguy nTh ThanhHà-0112215 51 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-3S cácl px lý
Nguy nTh ThanhHà-0112215 52 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
3. Tách t
3.1 UseCase
Hình5-4S Use-casetácht
Hình5-5S tu nt tácht
Nguy nTh ThanhHà-0112215 53 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-6S c ngtáctácht
3.4 L p
Hình5-7S l ptácht
Nguy nTh ThanhHà-0112215 54 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
4. pch m c
Hình5-8S use-casel pch m c
Nguy nTh ThanhHà-0112215 55 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
4.2 Tu nt
Hình5-9S tu nt t om ich m c
Nguy nTh ThanhHà-0112215 56 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-10 S tu nt c pnh tch m c
Nguy nTh ThanhHà-0112215 57 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
4.3 C ng tác
Hình5-11S c ngtáct om ich m c
Nguy nTh ThanhHà-0112215 58 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-12 S c ng tácc pnh tch m c
Nguy nTh ThanhHà-0112215 59 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-13 S l pl pch m c
Nguy nTh ThanhHà-0112215 60 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
5. Tìmki m
5.1 UseCase
Hình5-14S use-casetìmki m
Hình5-15S tu nt tìmki m
Nguy nTh ThanhHà-0112215 61 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-16S c ngtáctìmki m
Nguy nTh ThanhHà-0112215 62 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Hình5-17 S l ptìmki m
Nguy nTh ThanhHà-0112215 63 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
Ch ng 6: THI T K VÀCÀI T
Ø Ngônng l ptrình:C#, ASP.NET
Ø Công c l p trình : Microsoft Visual Studio .NET
Ø utr d li u: t ptinXML
Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t
Các tài li u ti ng Vi t và câu truy v n s ctácht theoph ngpháp Longest
Matching.
1. utrúc l utr d li u
tc t ptin v n b n,t ptinch a cáct ã ctách, t ptinch m c o,t p
tinch acáct khôngquantr ng,t ptinl utr t ngquangi acâutruy v nvà tài
li u… u cl utr d id ngXml.
1.1 ptin l un i dungtài li u
ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin
ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th
c “VanBanXML”.
1.1.1 utrúcDTD /XSD
• DTD
<!ELEMENT NEWSPAPERS(DOC*)>
Nguy nTh ThanhHà-0112215 64 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)> <!ATTLISTDOCDOC_IDCDATA#REQUIRED>
<!ELEMENT AUTHOR (#PCDATA)> <!ELEMENTDATE(#PCDATA)> <!ELEMENTNEWS(#PCDATA)> <!ELEMENT CONTENT (#PCDATA)>
• XSD
<?xml version='1.0'?>
<schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<ElementTypename="TITLE"content="textOnly"dt:type="string"/> <ElementType name="AUTHOR" content="textOnly" dt:type="string"/> <ElementType name="DATE" content="textOnly" dt:type="string"/> <ElementTypename="NEWS"content="textOnly"dt:type="string"/> <ElementType name="CONTENT" content="textOnly"
dt:type="string"/>
<AttributeTypename="DOC_ID"dt:type="string"/>
Nguy nTh ThanhHà-0112215 65 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
<ElementType name="DOC" content="eltOnly" order="seq"> <attributetype="DOC_ID"/>
<element type="AUTHOR"/> <elementtype="DATE"/> <elementtype="NEWS"/> <element type="CONTENT"/> </ElementType>
<ElementType name="NEWSPAPERS" content="eltOnly"> <elementtype="DOC"minOccurs="1"maxOccurs="*"/> </ElementType>
</schema>
1.1.2Tàili uXML
<NEWSPAPERS>
<DOCDOC_ID="1">
<TITLE>ThanhniênVN: ngl cchonh ngt mnhìnm i</TITLE> <AUTHOR>Tác gi : .Bình</AUTHOR>
<DATE>Ngày :01/12/2000</DATE>
<NEWS>Tênt báo:Tu itr Th lo i:,Trang:trang1,14</NEWS> <CONTENT>ThanhniênVN: ngl cchonh ngýt ngm i,t m nhìn
i.(TT-HàN i)-T il khaim cDi n ànthanhniên(TN)VNv ich
Nguy nTh ThanhHà-0112215 66 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN VNph ih pv icácc quanLHQt iVNt ch c),ôngEdouardWattez,
u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong quátrìnhm c av ith gi i... .Bình.</CONTENT>
</DOC>
……
</NEWSPAPERS>
1.2 ptin saukhi tách t tàili u
âylàt p tinXml l ucác t tách c t cáct ptin v n b n g ccùngv i các
ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin
nb ng c,trongch ngtrìnhcáct ptinnày cl u th m c“TachTu”.
1.2.1 utrúcDTD /XSD
• DTD
<!ELEMENT WORDS(WORD*)> <!ELEMENTWORD(DOC+)>
<!ATTLIST WORD Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>
<!ATTLIST DOCDOC_IDCDATA#REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
Nguy nTh ThanhHà-0112215 67 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="Name" dt:type="string"/> <ElementTypename="DOC"content="eltOnly">
<attributetype="DOC_ID"/> </ElementType>
<ElementType name="WORD" content="eltOnly"> <attribute type="Name"/>
<elementtype="DOC"minOccurs="1"maxOccurs="*"/> </ElementType>
<ElementType name="WORDS" content="eltOnly">
<elementtype="WORD"minOccurs="1"maxOccurs="*"/> </ElementType> </Schema> 1.2.2Tàili uXML <WORDS> <WORDName="thành l p"> <DOCDOC_ID="2051"/> <DOCDOC_ID="2063"/>
Nguy nTh ThanhHà-0112215 68 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
<DOCDOC_ID="2091"/> </WORD>
<WORDName="trungtâm"> <DOCDOC_ID="2091"/> <DOCDOC_ID="2092"/> <DOCDOC_ID="2099"/> </WORD> <WORDName=" "> <DOCDOC_ID="2076"/> <DOCDOC_ID="2079"/> <DOCDOC_ID="2084"/> <DOCDOC_ID="2086"/> <DOCDOC_ID="2091"/> <DOCDOC_ID="2094"/> <DOCDOC_ID="2095"/> <DOCDOC_ID="2096"/> <DOCDOC_ID="2099"/> </WORD> …… </WORDS>
Nguy nTh ThanhHà-0112215 69 Nguy nTrungHi u-
0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
1.3 ptin ch acác t khôngth hi nn idung c av nb n (stop list)
âylàt ptinXmlch acáct khôngth hi nn idungc av nb n,g ilàdan h
sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”
1.3.1 utrúcDTD /XSD
• DTD
<!ELEMENT STOP_LIST (WORD*)> <!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
<?xmlversion='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!--contentsofXMLSchemadocumentgoeshere--> <AttributeType name="Name" dt:type="string"/>
<ElementTypename="WORD"content="eltOnly"> <attributetype="Name"/>
</ElementType>
Nguy nTh ThanhHà-0112215 70 Nguy nTrungHi u-
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
<ElementType name="STOP_LIST" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.3.2Tàili uXML <STOP_LIST> <WORDName=" i"/> <WORDName=" ng" /> <WORDName="và"/> <WORDName="có"/> <WORDName="nh ng"/> <WORDName=" "/> <WORDName=" i"/> </STOP_LIST> 1.4 ptin ch m c o (Inverted ).
p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u
ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin
này c l u trong th m c “Inverted ”.
Nguy nTh ThanhHà-0112215 71 Nguy nTrungHi u- 0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
• DTD
<!ELEMENTInverted_File(Term*)> <!ELEMENTTerm(DOC+)>
<!ATTLIST Term Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY>
<!ATTLISTDOCDCDATA#REQUIRED> <!ATTLIST DOC F CDATA #REQUIRED> <!ATTLISTDOCWCDATA#REQUIRED>
• XSD
<?xmlversion='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!--contentsofXMLSchemadocumentgoeshere--> <AttributeTypename="D"dt:type="string"/>
<AttributeType name="F" dt:type="int"/>
<AttributeTypename="W"dt:type="fixed.14.4"/> <AttributeTypename="Name"dt:type="string"/>
<ElementType name="DOC" content="eltOnly"> <attribute type="D"/>
Nguy nTh ThanhHà-0112215 72 Nguy nTrungHi u- 0112216
Xâyd ngh th ngtìmki mthôngtinti ngVi td atrêncácch m clàcáct ghé p
<attributetype="F"/> <attribute type="W"/> </ElementType>
<ElementTypename="Term" content="eltOnly"> <attributetype="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType>
<ElementTypename="Inverted_File"content="eltOnly">
<element type="Term" minOccurs="1" maxOccurs="*"/> </ElementType>
</Schema>
1.4.2Tàili uXML
<Inverted_File>
<TermName="nhâncông">
<DOCD="378"F="1"W="2.5"/> <DOCD="879"F="3"W="7.49"/> <DOCD="1584"F="1"W="2.5"/> <DOCD="1627"F="1"W="2.5"/>