HệthốngIRvàvaitrò của chúngtrongtruy tìmđa phươngtiện...13 1.3.3.. KHẢNĂNGMONGĐỢI VÀ CÁC ỨNGDỤNGCỦA MIRS...15 CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN...18 2.1.. LậpchỉmụcchotàiliệutiếngViệt...48 2.4.T
Trang 1Họcviên:LưuThịHảiYến
SốhóabởiTrungtâmHọcliệu–ĐạihọcTháiNguyên
1http://www.lrc-tnu.edu.vn
LỜICẢMƠN
TôixinbàytỏlòngkínhtrọngvàbiếtơnsâusắctớiPGS.TSĐặngVănĐức,ngườiđãtr
ựctiếphướngdẫn,giúpđỡ,độngviênt ô i trongsuốtthờigianthựchiệnl u ậnvănnày
ConcảmơnC h a , M ẹ vàgiađ ì n h , n h ữngngườiđ ã dạ y d ỗ , khuyếnkhích,độngviêncontrongnhữnglúckhókhăn,tạomọiđiềukiệnchoconnghiêncứuhọctập
TôicũngxinchânthànhcảmơncácthầycôtrongViệnCôngnghệThôngtin,cácthầycôtrongkhoaCôngNghệThôngTinvàcácbạnbè,đồngnghiệptạitrườngDựbịĐạiHọcDântộcTrungƯơngđãgiúpđỡtôirấtnhiềutrongquátrìnhh ọctập,sưutầm,tìmtòitàiliệuvàtrongcôngtácđểtôicóthểhoànthànhbảnluậnvănnày
Dùđãcốgắnghếtsứccùngvớisựtậntâmcủathầygiáohướngdẫnsongdot r ì n h độcònhạnchếnênkhótránhkhỏinhữngthiếusót.Rấtmongnhậnđượcsựthôngcảmvàgópýcủathầycôvàcácbạn
TháiNguyên,tháng11năm2008
Họcviên
LưuThịHảiYến
Trang 2LỜINÓIĐẦU 4
CHƯƠNG1:TỔNGQUAN 7
1.1.ĐẶTVẤNĐỀ 7
1.2 HỆ THỐNGTHÔNGTINĐAPHƯƠNGTIỆN: 8
1.2.1 Kháiniệmvềđaphươngtiện 8
1.2.2 Media 9
1.2.3 Multimedia 10
1.2.4 CSDLvàHệquảntrịCSDL 10
1.2.5 Truytìmthôngtintàiliệuvănbản 10
1.2.6 Chỉmụcvàtruytìmđaphươngtiện 11
1.2.7 Tríchchọnđặctrưng,Biểu diễn nộidungvàXây dựngchỉmục 11
1.3 SỰCẦNTHIẾTPHẢICÓMIRS 11
1.3.1 MôtảsơlượcdữliệuMMvàcáctínhchấtcủachúng 12
1.3.2 HệthốngIRvàvaitrò của chúngtrongtruy tìmđa phươngtiện 13
1.3.3 Tíchhợptruytìmvàchỉsố hóathôngtinđaphươngtiện 13
1.4 KHÁIQUÁTVỀMIRS 14
1.5 KHẢNĂNGMONGĐỢI VÀ CÁC ỨNGDỤNGCỦA MIRS 15
CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN 18
2.1 KHÁI QUÁTCHUNGVỀ TÌMKIẾMTHÔNGTIN 18
2.1.1 Hệthốngtruytìmthôngtin–IR 20
2.1.2 Cácthànhphầncủamộthệtìmkiếmthôngtin 24
2.1.3 SosánhhệthốngIRvớicáchệthốngthôngtinkhác 25
2.1.4 Cáchệtìmkiếmvănbảnđượcđánhgiácaohiệnnay 27
2.2 HỆTÌMKIẾMTHÔNGTIN 28
2.2.1 Kiếntrúccủahệtìmkiếmthôngtin 28
2.2.2 Mộtsốmôhìnhđể xâydựngmộthệtìmkiếmthôngtin 30
2.2.3.Cácbướcđểxâydựnghệthốngtruytìmthôngtin–IR 38
2.3 LẬPCHỈMỤCTÀILIỆU 39
2.3.1 Kháiquátvềhệthốnglậpchỉmục 40
2.3.2 Cấutrúctệpmụclục 41
2.3.3.Phươngpháplậpchỉmục 45
Trang 32.3.4 LậpchỉmụctựđộngchotàiliệutiếngAnh 47
2.3.5 LậpchỉmụcchotàiliệutiếngViệt 48
2.4.THƯỚCĐOHIỆUNĂNG 51
CHƯƠNG3:KỸTHUẬT PHÂN CỤMDỮ LIỆUVÀỨNGDỤNG 53
3.1 KHÁIQUÁTVỀPHÂNCỤMDỮLIỆU 53
3.1.1 Kháiniệm: 53
3.1.2 Mụctiêucủa phâncụmdữliệu trongtìmkiếmthôngtin 54
3.1.3 Cácyêucầucủaphâncụm 56
3.2 CÁCKIỂUDỮLIỆUTRONGPHÂNCỤM 58
3.2.1 Phânloạikiểudữliệudựatrênkíchthướcmiền 59
3.2.2 Phânloạikiểudữliệudựatrênhệđo 59
3.3 CÁC PHÉPĐOĐỘTƯƠNGTỰVÀKHOẢNGCÁCHĐỐI VỚICÁC KIỂUDỮLIỆU 60
3.3.1 Kháiniệmtươngtựvàphitươngtự 60
3.3.2 Thuộctínhkhoảng 61
3.3.3 Thuộctínhnhịphân 65
3.3.4 Thuộctínhđịnhdanh 66
3.3.5 Thuộctínhcóthứ tự 67
3.3.6 Thuộctínhtỉlệ 67
3.4 MỘTVÀIKỸTHUẬTTIẾPCẬNTRONGPHÂNCỤMDỮLIỆU 68
3.4.1 Phươngphápphâncụmphânhoạch 68
3.4.2 Phươngphápphâncụmphâncấp 74
3.4.3 Ứngdụngtrongtìmkiếmvănbảnđaphươngtiện 78
CHƯƠNG4:CHƯƠNGTRÌNHDEMO 81
4.1 MỤC TIÊUCỦA HỆTHỐNGTÌMKIẾM VĂNBẢN: 81
4.2 CHỨCNĂNGCỦAHỆTHỐNG 81
4.3 CÀIĐẶTCHƯƠNGTRÌNH 82
4.3.1 Lậpchỉmục 82
4.3.2 Tìmkiếmtàiliệu 87
KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN 88
TÀILIỆUTHAMKHẢO 90
Trang 41 5
Hình2.1:Môhìnhtìmkiếmthôngtintổngquát 21
Hình2.2:Tiếntrìnhtruyvấntàiliệucơsở 23
Hình2.3:Môitrườngcủahệtìmkiếmthôngtin 24
Hình 2.4: Tổngquanvềchứcnăngcủamộthệtìmkiếmthôngtin 25
Bảng2.1:SosánhIRSvớicáchệthốngthôngtinkhác 27
Hình2.5:Kiếntrúchệtìmkiếmthôngtincơbản 29
Hình2.6.Hệtìmkiếmthôngtintiêubiểu 29
Bảng2.2:Cáchtậptinnghịchđảolưutrữ 42
Bảng2.3:Cáchtậptintrựctiếplưutrữ 42
Bảng2.4:Thêmmộttàiliệumớivàotậptinnghịchđảo 43
Hình2.7:Cáctừ đượcsắptheothứ tự 46
Hình2.8.Môhìnhxửlýchohệthốnglậpchỉmục 48
Hình3.1:Phâncụmcácvéctơtruyvấn 55
Hình3.2:Hìnhthànhcụmcha 56
Hình 3.3:Cáctỉ lệkhácnhaucó thểdẫntớicáccụmkhácnhau 62
Hình3.4:KhoảngcáchEuclidean 64
Bảng3.1:Bảngthamsố 65
Hình 3.5:Các thiếtlậpđểxác địnhcácranhgiớicáccụmbanđầu 70
Hình3.6:Tínhcáctoántrọngtâmcủa cáccụmmới 70
Hình3.7:Vídụvềmộtsốhìnhdạngcụmdữliệuđượckhámphábởik-means 73
Hình3.8:Cácchiếnlượcphâncụmphâncấp 75
Hình3.9:CâyCFđượcsửdụngbởithuậttoánBIRCH 76
Hình4.1:Giaodiệnmànhìnhlậpchỉmục 85
Hình4.2:Giaodiệnmànhìnhcậpnhậpchỉmục 86
Hình4.2:Giaodiệnmànhìnhtìmkiếm 87
Trang 6Trongnhữngnămgầnđây,sựpháttriểnmạnhmẽcủaCNTTvàngànhcôngnghiệpp
h ầ n c ứ n g đãlàmchokhảnăngthut h ậ p vàlưut r ữ t h ô n g tinc ủ a c á c h ệ thốngthôngtintăngnhanhmộtcáchchóngmặt.Bêncạnhđóviệctinhọchoámộtcáchồạtvànhanhchóngcáchoạtđộngsảnxuất,kinhdoanhcũngnhưnhiềulĩnhvựchoạtđộngkhácđãtạorachochúngtamộtlượngdữliệulưutrữkhổnglồ.V ớimộtlượngthôngtinnhưvậythìvấnđềđặtralàphảilàmsaosửdụngchúngvàođ ú n g mụcđíchvàhiệuquảnhấtthìcũnglàmộtvấnđềđặtrahiệnnay.Mặtkhác,trongmôitrườngcạnhtranh,ngườitangàycàngcầncónhiềuthôngtinvớitốcđộnhanhđểtrợgiúpviệcraquyếtđịnhvàngàycàngcónhiềucâuhỏimangtínhchấtđ ị n h t í n h c ầ n p h ả i t r ả l ờ i dựat r ê n mộtkhốil ư ợ n g d ữ l i ệ u khổn
gl ồ đ ã c ó V ớ i n h ữnglýdonhưvậy,c ầnphải cócáccôngcụhỗtrợđ ể giúpchoviệctìmkiếmt h ô n g tinđượcnhanhvàhiệuquả.Vìvậymụctiêucủaluậnvănnàynhằmtìmhiểuvàxâydựngmộthệthốngtìmkiếmthôngtincụthểlàtìmkiếmtàiliệuvănbảntrênc ơ sởphâncụmdữliệu.Nhằmđápứngnhucầucấpthiếtcủathờiđại
+C H Ư Ơ N G 3 - K ỸT H U Ậ T PHÂNC Ụ M D Ữ LIỆUVÀỨNGD Ụ N G :
Kháiquátchungvềphâncụm,các kiểudữliệutrongphâncụmvàứngdụngkỹthuậtphâncụmdữliệutrongtìmkiếmthôngtin
+CHƯƠNG4-CHƯƠNGTRÌNHD E M O : Càiđặtmộtchươngtrìnhtìm
kiếmthôngtintrêncơsở lýthuyếtđãtrìnhbày
+KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN:Trìnhbàycáckếtquảđạtđược
Trang 7+TÀILIỆUTHAMKHẢO
CHƯƠNG1:TỔNGQUAN1.1 ĐẶTVẤNĐỀ
Vàinămtrướcđây,cácnghiêncứuvàpháttriểnthuộclĩnhvựcđaphươngtiện(MultiMedia)tậptrungvàocácvấnđềnhư:truyềnthông,authoring vàtrìnhd i ễnđaphươngtiện
TrảiquanhiềunămđãcókhốilượnglớndữliệuMultimedia(ảnh,video,âmt h a n h )đượcthuthậpvàlưutrữdướidạngsố,thídụ:
liệu(DatabaseManagmentSystem)màngàyn a y đợưcs ử d ụ ngt rongh ầ u h ế t c á c c
ơ quan,tổchức.Tu y nhiênhệquảntrịcơsở dữliệukhôngthểq u ả n lýdữliệuđaph ương tiệnmộtcáchhiệuquảbởivìcáctínhchấtdữliệuvănbảnvàdữliệuđap h ư ơn gtiệnlàkhácnhau.Dovậy,dẫntớiviệcnghiêncứupháttriểncáckỹthuậttr uytìmvàchỉmụcmớitronghệthốngquảntrịcơsơdữliệuvàviệcpháttriểnhệthốngtruytìmtàiliệuvănbản–mộtphầncủadữliệuđaphươngtiệncũngkhôngnằmngoàixuthếđó
Luậnvăntậptrungnghiêncứu cáchtìmkiếmvănbảntrêncơsởphân cụmdữ
liệu.Mụctiêuchínhcủaphươngphápphâncụmdữliệulànhómcácđốitượngtương
Trang 81.2 HỆTHỐNGTHÔNGTINĐAPHƯƠNGTIỆN:
Đaphươngtiệnlàgì?
Đaphươngtiệnlàtíchhợpcủavănbản,âmthanh,hìnhảnhcủatấtcảcácloạivàphầnmềmcóđiềukhiểntrongmộtmôitrườngthôngtinsố
Thôngtinra
Trang 10Địnhnghĩa
Địnhnghĩađaphươngtiện(theonghĩarộng)l à baogồmcácphươngtiện:vănbản,hìnhvẽtĩnh(vẽ,chụp),hoạthình(hìnhảnhđộng),âmthanh
Haycóthểđịnhnghĩađaphươngtiện;đaphươngtiệnlàkỹthuậtmôphỏngvà sửdụ ngđồngthờinhiềudạngphươngtiệnchuyểnhoáthôngtinvàcáctácphẩmtừcáckỹthuậtđó.
gphụthuộcchặtchẽvàotốcđộtrìnhdiễn.Thídụđểcảmnhậnchuyểnđộngtrơntru,videophảiđượctrìnhchiếuvớitốcđộ25frame/sec(hay30frame/
secphụthuộcvàoloạihệthốngvideo).Tươngtự,khitatrìnhdiễn(play)
tiếngnói,âmnhạc,chúngchỉđượccảmnhậntựnhiênkhiđạtđượctốcđộnhấtđịnh,nếukhôngchúnglàmgiảmchấtlượngvàýnghĩacủaâmthanh.Vìcácmedianàyphảiđượctrình
diễnliêntụcvàởtốcđộcốđịnhchonênchúngcònđượcgọilàmedialiên
Trang 11SốhóabởiTrungtâmHọcliệu–ĐạihọcTháiNguyên
10http://www.lrc-tnu.edu.vn
hôngtinnào
Trang 13Cáckỹthuậttruytìmthôngtincóthểgiúptruytìmcácđốitượngđaphươngtiệnnhưngchúngchưacókhảnăngquảnlýhiệuquảdữliệuđaphươngtiện
1.3.1 MôtảsơlượcdữliệuMMvàcáctínhchấtcủachúng
Chúngtađangđốimặtvớisựbùngnổthôngtinđaphươngtiện.ThídụtồntạimộtsốlượnglớnảnhvàvideotrênInternet.Rấtnhiềutranhvẽ,ảnhchụpđangđượcchuyểnsangdạngsốđểdễxửlývàphântánhaybảoquản.CácbứcảnhtừbảntinTVvàtrênbáocũngđangđượcchuyểnsangdạngsốđểdễdàngquảnlý.Lượnglớnảnhytế,ảnhvệtinhđangđượcthuthậphàngngày.Xuthếnàyđãthúcđẩypháttriểncôngnghệsốlưutrữvàtrìnhdiễn.Khôngthểsửdụngnhanhvàhiệuquảcácthôngtinđaphươngtiệnnàynếuchúng khôngđượctổchứctốtđểcókhảnăngtruytìmnhanh
Khôngchỉkhốilượngdữliệuđaphươngtiệnlưutrữ
tăngnhanhmàcáckiểud ữliệuvàđặctínhcủachúngkhácxadữliệuchữvàsố.Sauđâylàmộtvàitínhch ấtchínhcủadữliệuđaphươngtiện:
Khốilượngkhổnglồ(đặcbiệtvớidữliệuaudiovàvideo).Thídụ10phútvideokhôngnéncódunglượng1,5GB
Audiovàvideocóthêmchiềuthờigian
Dữliệuảnh,audiovàvideođượcthểhiệnbởidãycácgiátrịmẫu,khôngcó
cấutrúcnhấtđịnhđểmáytínhtựđộngnhậnbiết
Rấtn h i ề u ứ n g dụngđ a phươngt i ệ n đ ò i h ỏ i t r ì n h d i ễ n đồngt h ờ i c á c loạimediakhácnhau Thídụ,phimbaogồmcácảnhđồngbộvớiâmthanh
Ýnghĩacủadữliệuđaphươngtiệnđôikhirấtmờ
Dữliệuđaphươngtiệnrấtgiàuthôngtin.Đòihỏinhiềuthamsốđểbiểudiễn
nộidungcủachúng
Trang 141.3.2 HệthốngIRvàvaitròcủachúngtrongtruytìmđaphươngtiện
BổsungvàoDBMScòncókiểuhệthốngquảntrịthôngtinkhácmànótập
trungvàot r u y t ìmt à i ệlu
i vănb ả n K i ể u h ệ t h ố n g t h ô ngt i n n à y đ ượcgọi làhệthốngtruytìmthôngtin.KỹthuậtIRrấtquantrọngtronghệthốngquảntrịthôngt i n đaphươngtiệnvìhailýdochínhsau
Thứnhất,khốilượngvănbảnrấtlớnđangc ó sẵntrongcáccơquannhưthưviện.Vănbảnlànguồnthôngtinquantrọngcủamọitổchức.ĐểsửdụnghiệuquảthôngtintrongcáctàiliệunàycầncóhệthốngIRh i ệuquả.Thứhai,vănbảncònđượcsửdụngđểmôtảcác l o ạ i mediak h á c nhưaudio,ảnhvàvideo.CáckỹthuậtIRquenthuộccóthểđượcsửdụngđểtruytìmthôngtinđaphươngtiện.TuynhiênviệcsửdụngIRđểquảnlýdữliệuđaphươngtiệncócáchạnchếsau:
dovậy,đòihỏikỹthuậtmớiđểquảnlýcáctínhchấtđặcbiệtcủadữliệuđaphươngtiện.TuynhiêntanhậnrarằngDBMSvàIRcóthểđóngvaitròquantrọngtrongMMDBMS
Nhiềuphầndữliệuđaphươngtiệnnhưngàytạolập,tácgiả,v.v làcócấutrúc.Chú
ngcóthểđượcquảnlýbằngcáckỹthuậtDBMS.Môtả(annotation)bằngvănbảnvẫncònlàp
hươngpháphiệuquảđểthuthậpnộidungdữliệuđaphươngtiện,dovậycáckỹthuậtIRvẫnđóngvaitròquantrọng
Tómlại,cầnphảitíchhợpDBMS,IRvàcáckỹthuậtđặcbiệtkhácquảnlý
Trang 151.4 KHÁIQUÁTVỀMIRS
CácthaotácMIRSđượcmôtảtrênhình1 2.Dữliệu(cácmụcthôngtin)trongCSDLđượctiềnxửlýđểtríchchọnđặctrưngvànộidungngữnghĩa.Sauđóchúngđượcchỉsốhóatrêncơsởđặctrưngvàngữnghĩa
Trongkhitruytìmthôngtin,câutruyvấncủangườisửdụngđượcxửlývàcácđặctrưngchínhcủanóđượctríchchọn.CácđặctrưngnàysauđóđượcsosánhvớicácđặctrưnghaychỉmụccủamỗimụcthôngtintrongCSDL.Cácmụcthôngt i n nàocóđặctrưnggầngiốngnhấtvớicácđặctrưngcủacâutruyvấnthìđượctìmr a vàtrìnhdiễnchongườisửdụng
Trang 16Tiềnxửl ý vàchỉsốhoá
Cácđặctrưng
Tínhsựtươngđồng
Truysuấtcáckhoảnmụctươngtự
Trang 17textform,việctruytìmthựchi ệntrêncơsởtươngtựgiữacâutruyvấnvàmôtả.Thídụtruyvấ
ncóthểlà“Chỉr acácđoạnvideotrongđóACTORđangđixeđạp”
Vớiloạitruyvấnnày,tagiảsửrằngcácmụcđãđượcmôtảđầyđủvàcóthểquảnlýbởicáckỹthuậtIR
Truyvấntrêncơsởmẫu(pattern)hayđặctrưng
Mẫudữliệulàcácthôngtintĩnhvềdữliệuđaphươngtiệnnhưphânbổmàu,cườngđộâ
mthanh,môtảkếtcấubềmặt.Thídụcủaloạitruyvấnnàycóthểlà“Chỉrakhung(fra me)videovớiphânbổmàunhưTHIS”.Đểtrảlờiloạitruyvấnnày,cácthôngtinthốngkê
vềcácmụcCSDLphảiđượcchuẩnbịvàlưutrữtrước
Truyvấntheothídụ(byexample)
Truyvấntrongcácđốitượngđaphươngtiệnnhưảnh,bảnvẽvàđoạnâmthanh.Thídụtruyvấncóthểlà“HãychỉraphimtrongđócóđoạntươngtựnhưTHISPICTURE”.Loạitruyvấnnàycóthểphứctạphơnkhibổsungyếutốquanhệthờigianvàkhônggiangiữacácđốitượng
Truyvấnứngdụngcụthể
Rấtnhiềul o ạ i truy vấnc ụthểt h e o ứ n g dụng.Th í d ụ , tr uy vấntrêncơsở
thôngtinchitiết,cụthểnhưkíchthướcđốitượnghaytuổicánhân
Trang 18VìMIRScókhản ă nghỗt r ợ nhiềuloạitruyvấnc h o nênnócóứngdụng
Giáodục:Sinhviênquétbứcảnhđộngvậtvàmuốntìmmọitínhchất(baogồmâmth
anh,ảnhvàmôtảvănbảnvềloạiđộngvậtnàytừCSDLgiáodục
Thídụkhác,sinhviênmôphỏngâmthanhvàmuốntìmracácảnhvàthôngtinmôtảvềloạiđộngvậtnày
ih a y tươngtự.Đ iều đ ó phụthuộcvàomôtơtìmkiếmđểđốisánhdữliệutrongcâutruyvấnvớicácmụctrongCSDL
Trang 19CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN2.1 KHÁIQUÁTCHUNGVỀTÌMKIẾMTHÔNGTIN
Tìmkiếmthôngtinlàtìmkiếmtrongmộttậptàiliệuđểlấyracácthôngtinmàngườitìmkiếmquantâm
Kỹthuậttruyvấntàiliệuvănbảnđượcgọichunglàkỹthuậttruytìmthôngtin(IR– InformationRetrieval).KỹthuậtIRtronghệthốngđaphươngtiệnrấtquant r ọngvìhailýdoch
ínhsauđây:
Đangtồntạisốlượnglớntàiliệuvănbảntrongcácthưviện.Vănbảnlà tàinguyênrấtquantrọngđốivớicáccơquantổchức.CầncóIRđủtốtđểsửdụngcóhiệuquảcácthôngtinlưutrữtrongcáctàiliệu
Trang 20Đểnângcaohiệunăngtruyvấn,việcxửlýngônngữtựnhiênvàcáckỹthuậttrítuệnhântạođượcápdụng.
Trang 21tính,rấtnhiềuýtưởnglớnđượcđưaranhằmcungcấpmộthệthốngtìmkiếmthôngminhvàchínhxác.Tuynhiên,vấnđềtìmkiếmsaochohiệuquảvẫnchưađượcgiảiqu yết.
Vềnguyêntắc,việclưutrữthôngtinvàtìmkiếmthôngtinthìđơngiản.Giảs ửcómộtk
hochứacáctàiliệuvàmộtngườimuốntìmcáctàiliệuliênquanđếny êu cầucủamình.Ngườiđócóthểđọctấtcảcáctàiliệutrongkho,giữlạicáctàiliệuliênquanvàbỏđicáctàiliệukhôngliênquan.Rõrànggiảiphápnàykhôngthựctếbởivìtốnrấtnhiềuthờigian
Vớisựrađờicủamáyvitínhtốcđộcao,máytínhcóthể“đọc”thaychoconngườiđ
ểtríchracáctàiliệucóliênquantrongtoànbộtậpdữliệu.Tuynhiênvấnđềlúcnàylàlàmsaođểxácđịnhđượctàiliệunàoliênquanđếncâuhỏi.Mụcđíchcủamộthệthốngtìmkiếmthôngtintựđộnglàtruylụcđượctấtcảcáctàiliệucó liênquanđếnyêucầu
hôngtinnào
Tìmkiếmthôngtinlàlĩnhvựcnghiêncứunhằmtìmracácgiảiphápgiúpngườisửdụngcóthểtìmthấycácthôngtinmìnhcầntrongmộtkhốilượnglớndữl i ệu.Nhiệmvụcủamộthệthốngtìmkiếmthôngtintươngtự
nhưnhiệmvụtổchứcp h â n loạitàiliệuvàphụcvụviệctracứucủamộtthưviện.Mộthệthốngtìmkiếmt h ô n g tincóhaichứcnăngchính:lậpchỉmục(indexing)vàtracứu(interrogation).Lậpch ỉ m ụ c l à giaiđ o ạ n p h â n tícht à i l i ệ u ( d o c u m e n t ) đ ể x á c đ ị n h c á c c h ỉ
m ụ c (ter m/
indexterm)biểudiễnnộidungcủatàiliệu.Việclậpchỉmụccóthểdựavàomộtcấutrúcphânlớpcósẵn(controlvocabulary)nhưcáchlàmcủacácnhânviên
Trang 22thưviện,phânloạitàiliệutheomộtbộphânloạichotrước.Cácchỉmụctrongcáchlàm nàylàtồntạitrướcvàđộclậpvớitàiliệu.Cáchthứhaiđểlậpchỉmụclàrúttríchcácchỉmụctừchínhnộidungcủatàiliệu(freetext).Trongl u ậnvănnàytôichỉđềcậpđếncáchthứhai.Cuốigiaiđoạnlậpchỉmụcnộidungcủacáctàiliệucótrongkhotàiliệu(corpus)đượcbiểudiễnbêntrongbằngtậpcácchỉmục.
Môhìnhtổngquátcủatìmkiếmthôngtinnhưsau:
Phùhợpngườisửdụng
Ngườisửdụng
TruycậpPhùhợphệthống
Môhìnhtìmkiếmthôngtin
Trang 23 Trithức:Biểudiễncáctrithứcđểmôtảngữnghĩathuộclĩnhvựctài
liệuBiểudiễnhìnhthức:
Hệt h ố n g IRgồmc á c b ả n g h i khôngc ó c ấ u t r ú c C h ú n g k h ô n g chứacáct h
u ộctínhcốđịnh.Nóchỉđơnthuầnlàtàiliệuvănbản.Cáctàiliệunàycóthểchỉmụcbằngcá
ct ừ khóa,b ộ môtảt à i liệu,haycácthuậtngữ(term)chỉmục.Mỗit h u ậtngữchỉmụcđư
ợcsửdụngđểmôtảnộidungvănbảnchỉtheomộtkhíacạnhnàođó,khôngđầyđủvàkhôngrõràngchotoànbộnộidungvănbản.Nhiềuthuậtngữchỉmụcđượcgắntheotàiliệuhayvănbảncụthể.Bởivìcácthaotáctruyvấnvănbảnphụthuộctrựctiếpvàonộidungđạidiện,sửdụngđểmôtảcácbảnghilưu
Trang 24tàiliệulưutrữvàvấnđềsinhtừkhóa,chỉmục
Ởđây,sẽkhôngthựctếnếucoitrọngtruyvấntrêncơsởđốisánhchínhxácgiữacâutruyvấnvàcácthuậtngữtàiliệuđểtìmratàiliệukếtquả.Thayvì,truyvấncácmụcliênquanvớiđủmứcđộtươngđồnggiữatậpthuậtngữgắntheocâut ru y vấnvàtàiliệu,đượcsinhrabởiphươngphápxấpxỉhayđốisánhtừngphần.H ơn nữacùngthuậtngữcóthểcónhiềuýnghĩakhácnhau
Tómlại,cáctàiliệukếtquảtruyvấntrongDBMSlàhoàntoànliênquanđếncâu truyvấnvàcóíchvớingườisửdụng.NhưngtronghệthốngIR,các tàiliệuđượcxemnhưliênquanđếncâutruyvấnnhưngcóthểkhôngliênquanvàkhôngcóíchvớingườisửdụng.Hình2.2chỉratiếntrìnhtruyvấntàiliệucơsở
Môhìnhtàiliệu
Tàiliệutruyvấn
Đánhgiámứcđộthíchhợp
Hình2.2:Tiếntrìnhtruyvấntàiliệucơsở
Trang 25Phíaphảihình2.2chỉrarằngcáctàiliệuđượcxửlýoff-lineđểcóđạidiện(môtả) Cácđạidiệnnàyđượclưutrữcùngvớicáctàiliệu.
Phíatráihình2.2chỉraquátrìnhtruyvấn.Ngườisửdụngđưaracâutruyvấnvàđượcxửlýon-
lineđểcóđạidiệncủamình.Sauđóđốisánhđạidiệntruyvấnvớiđạidiệntàiliệu.Cáctàiliệuđượcxemnhưtươngđồngsẽđượctrìnhdiễnchongườisửdụng.Họđánhgiátàiliệucholạivàquyếtđịnhtàiliệunàothựcsựtươngđồngvớithôngtinhọcần.MộthệthốngIRtốtcầnphảichophépngườisửdụngcungcấpphảnhồithíchhợpchohệthống.Hệthốngsửdụngthôngtinnàyđểđ i ều chỉnhtruyvấn,đạidiệntruyvấn,hoặc/
vàđạidiệntàiliệu.Truytìmkháctiếpt h e o đượcthựchiệntrêncơsởcâutruyvấnđạidiệntàiliệuđãhiệuchỉnh.Nếucần,t i ếntrìnhphảnhồitruytìm
đượcthựchiệnlặpvàilần.Chúýrằng,khôngphảitấtcảc á c hệthốngIRđềucótiếntrìnhphảnhồithíchhợp
CácmôhìnhIRkhácnhauửsdụngcácphươngphápkhácnhautrongđạidiệntruyvấnvàđạidiệntàiliệu,đốisánhtươngđồnghoặc/
vàphảnhồithíchhợp.SauđâylàtrìnhbàyvềmôhìnhBoolvàmôhìnhkhônggianvéctơá
pdụngtrongtruytìmvănbản
2.1.2 Cácthànhphầncủamộthệtìmkiếmthôngtin
Gồm:tậpcáctàiliệu(DOCS)đãđượclưutrữtrongkhodữliệu,tậpcácyêuc ầu(REQS)củangườidùng,vàmộtsốphương pháptínhộđtươngquan(SIMILAR)đểxácđịnhcáctàiliệuđápứngchocácyêucầu
Hình2.3:Môitrườngcủahệtìmkiếmthôngtin
Theolýthuyếtthìmốiliênhệgiữacáccâuhỏivàcáctàiliệucóthểsosánhmộtcáchtrựctiếp
Trang 26Nhưngtrênthựctếthìđiềunàykhôngthểđượcvìcáccâuhỏivàcáctậptàiliệuđềuởdạngvănbản,chỉcóconngườiđọcvàothìthấyngayđược
Trang 27mốiliênhệgiữachúng,nhưngởđâychỉlàmộthệthốngmáymóckhôngthểsuyl u ậnnhưconngườiđược.Chínhvìthếđểxácđịnhđượcmốiliênhệgiữacáccâuhỏivàcáctậptàiliệuphảiquamộtbướctrunggian.
Hình2.4:Tổngquanvềchứcnăngcủamộthệtìmkiếmthôngtin
Trướchếtchuyểnđổicáccâuhỏithànhcáctừriêngbiệtđủđểbiểuhiệnchonộidungcủacâuhỏigọilàngônngữchỉmục(Indexinglanguage-
LANG).Táchtừtrongcáctậptàiliệuvàlậpchỉmụcchotàiliệu.Lúcnàycóthểsosánhtrựctiếpgiữacáctừcủacâuhỏivàcáctừchỉmụccủatậptàiliệu.Vàtừđótasẽdễdànghơnđểxácđịnhđộtươngquangiữacáccâuhỏivàtậptàiliệu
2.1.3 SosánhhệthốngIRvớicáchệthốngthôngtinkhác
Hệthốngtìmkiếmthôngtincũngtươngtựnhưnhiềuhệthốngxửlýthôngt i n khác.Hiệnnaycáchệthốngthôngtinquantrọngnhấtlà:hệquảntrịcơsởdữliệu(DBMS),hệquảnlýthôngtin(IMS),hệhỗtrợraquyếtđịnh(DSS),hệtrảlờic â u hỏi(QAS)vàhệtìmkiếmthôngtin(IR).Việchiểubiếtsựkhácnhaugiữahaih ệthốngtruytìmvănbản(IR)vàcáchệthốngthôngtinkhácgiúptahiểurõcáckỹt h u ậttruytìmvănbản
Hệquảntrịcơsởdữliệu
Bấtcứhệthốngthôngtintựđộngnàocũngdựatrênmộttậpcácmụcđượclưutrữ(g
ọilàcơsởdữliệu)cầnthiếtchoviệctruycập.Dođóhệquảntrịcơsởdữliệuđơngiảnlàmộth
ệthốngđượcthiếtkếnhằmthaotácvàduytrìđiềukhiểncơs ởdữliệu
Trang 28trịcơsởd ữliệucómộttậpcáclệnhđểhỗtrợchongườisửdụngtruyvấnđếndữliệucủamình.Vìvậymuốntruyvấnđếncơsởdữliệutronghệquảntrịcơsởdữliệutaphảih ọchếtcáctậplệnhnày.Nhưngngượclạinósẽcungcấpchotacácdữliệuđầyđủvàhoàntoàn
chínhxác.Hiệnnayhệquảntrịcơsởdữliệuđượcsửdụngrộngrãitrênt h ếgiới.Mộtsốhệquảntrịcơsởdữliệuthôngdụng:Access,SQLServer,Oracle
Hệquảnlýthôngtin(IMS)
Hệquảnlýthôngtinlàhệquảntrịcơsởdữliệunhưngcóthêmnhiềuchứcnhưngvềviệcq u ả n l ý N hữngchứcn ă ngq uảnl ý n à y p h ụ t h u ộ c vàogiátrịc ủ a nhiềukiểudữliệukhácnhau.Nóichungbấtkỳhệthốngnàocómụcđíchđặcbiệtp h ụcvụchoviệcquảnlýthìtagọinólàhệquảnlýthôngtin
Hệhỗtrợraquyếtđịnh(DSS)
Hệhỗtrợraquyếtđịnhsẽdựavàocáctậpluậtđượchọc,từnhữngluậtđãhọcrútranhữngluậtmới,saukhigặpmộtvấnđềnósẽcăncứvàovàotậpcácluậtđểđưaranhữngquyếtđịnhthaychoconngười.Hệthốngnàyđangđượcápdụngn hiềuchocôngviệcnhậndạngvàchuẩnđoánbệnh
Hệtrảlờicâuhỏi(QAS)
Hệtrảlờicâuhỏicungcấpviệctruycậpđếncácthôngtinbằngngônngữtựnhiên.Việclưutrữcơsởdữliệuthườngbaogồmmộtsốlượnglớncácvấnđềliênq u a n đếncáclĩnhvựcriêngbiệtvàcáckiếnthứctổngquát.Câuhỏicủangườidùngcóthểởdạngngônngữtựnhiên.Côngviệccủahệtrảlờicâuhỏilàphântíchcâutruyvấncủangườidùng,sosánhvớicáctrithứcđượclưutrữ,vàtậphợpcácvấnđ ề cóliênquanlạiđểđưaracâutrảlờithíchhợp
Trang 29hệtrảlờicâuhỏicònđangthửnghiệm.Việcxácđịnhýnghĩacủangônngữtựnhiêndườngnhưvẫnlàchướngngạilớnđểcóthểsửdụngrộngrãihệt h ốngnày
LưutrữC á c vănbảnngônngữ
tựnhiên
Xửlý
Cáccâutruyvấnkhôngchínhxác
Cácphầntửcókiểudữliệuđãđượcđịnhnghĩa
Cácphầntửdữliệuởdạngbảng
Cáccâutruyvấncócấutrúc
Cácsựkiệnrõràng
Cácsựkiệnrõràngvàcáckiếnthứctổngquát
Cáccâutruyvấnkhônggiớihạn
GiốngDBMSnhưnghỗtrợthêmnhữngthủtục(Tínhtổng,tínhtrungbình,phépchiếu…)
Trang 30ymình.Bằngviệclàmchocóthểtìmkiếmđượctrênmáytínhcủamình,Desktopđặtnhữngthôngtincủabạnvàotrongtầmtayvàrấtlinhhoạttrong
Trang 31GoogleDesktopkhôngchỉgiúpchúngtatìmkiếmtrongmáymàcòncóthểgiúpc h úngt a ấlyt h ô ngt i n t r ê n mạngvàc h ú n g đượcb ố t r í t r o n g gadgetsvàsidebar.ChúngtacóthểđặtGoogleGadgetsởbấtcứchỗnàotrongmáytínhvànóh i ểnt h ị t h ô n g t i n vềmail,t h ờ i t i ế t , ả n h , tintứcvàn h i ề u thứkhác.SidebarlàverticalbarnằmtrênmáycótácdụngtổchứclạicácGadgets
DTSearch
DTSearchlàmộthệtìmkiếmthựchiệntheomôhìnhBoolean.Nólậpchỉmụckhánhanhvàcónhiềulựachọnthíchhợpchongườisửdụng.NgoàiviệccungcấpgiaodiệntìmkiếmtrựctiếpvàlậpchỉmụcthìDTSearchcòncungcấpthưviệnd l l dùngcholậptrìnhviên.Thưviệndllnàycókhảnănglậpchỉmục,thựchiệntìmkiếmtheomôhìnhboolean.Cóthểnóikhátốthiệnnay.CóthểnóiDTSearchlàđiểnhìnhtìmkiếmvănbảntheomôhìnhBoolean
HệtìmkiếmvănbảnLucene
HệtìmkiếmvănbảnLucenelàhệtìmkiếmmãnguồnmở.Hệthốngđượcp h á t triểncảtrênnền.NetvàcảtrênngônngữJava.Hệthốnghiệncũngđượckhán h i ềulậptrìnhviênpháttriển
2.2 HỆTÌMKIẾMTHÔNGTIN
2.2.1 Kiếntrúccủahệtìmkiếmthôngtin.
Kiếntrúchệtìmkiếmthôngtincơbản
Trang 32Hình2.6.Hệtìmkiếmthôngtintiêubiểu
Trang 33bản, bộphậnlậpchỉmục,bộphậnsokhớpvàsắpxếpcáctàiliệutrảvề
(1) Bộphậnphântíchvănbản:bộphậnnàycónhiệmvụphântíchcácvănb ảnthuth
ậpđượcthànhcáctừriêngbiệt.Tươngtự,khingườidùngnhậpcâutruyvấnthìcâutruyvấncũngđượcphântíchthànhcáctừriêngbiệt
2.2.2 Mộtsốmôhìnhđểxâydựngmộthệtìmkiếmthôngtin
Mụctiêucủacáchệthốngtìmkiếmthôngtinlàtrảvềcáctàiliệucàngliênquanđếncâuhỏicàngtốt.Vìthế ngườitađãđưararấtnhiềumôhìnhtìmkiếmnhằmtínhtoánmộtcáchchínhxácđộtươngquannày.Sauđâylàmộtsốmôhìnhtìmkiếmcơbản:
a) TìmkiếmBoolean
PhầnlớncáchệthốngIRthươngmạihiệnnaycóthểphânlớpnhưhệthốngI R Boolh ayhệthốngtìmkiếmtheomẫuvănbản(text-
pattern).Cáccâutruyvấntrongtìmkiếmmẫuvănbảnlàcácxâuhaybiểuthứcthôngthường.
Trongkhitruytìm,mọitàiliệuđượctìmkiếmvàcáinàochứaxâutruyvấnthìđượclấyra.Cáchệthống“mẫuvănbản”làhìnhthứcchungnhấtchoviệctìmkiếmtrongcơsởdữliệuh a y tập
hợptàiliệunhỏ.Mộtthídụquenthuộccủatìmkiếmmẫuvănb ảnlà họcôngcụgrept rongmôitrườngUnix.
Trang 34ToántửOR:Xemxéthaithuậtngữđồngnghĩa.Thídụ,chotrướccâutruyvấn(t erm1ORterm2)thìhiệndiệncủamộttronghaithuậtngữtrongbảnghi(hayt r o n g tàiliệu)
ư vậyvớip h épa n d , c á c t à i l i ệ u t h ỏ a y ê u c ầ u c ủ a ngườidùnglà{d3,d5}
Phươngphápnàycómộtsốkhuyếtđiểmnhưsau:
Cáctàiliệutrảvềkhôngđượcsắpxếp(ranking)
Trang 35Môh ì n h t ì
miBooleanmởrộngr a đ ờ i n h ằ m h ỗ t r ợ việcsắpxếp
(ranking)kếtquảtrảvềdựatrênýtưởngcơbảnlàđánhtrọngsốchomỗitừtrongc âu hỏivàtrongtàiliệu.Giảsửmộtcâuhỏiyêucầu(t1ORt2)vàmộttàiliệuDcóchứat1vớitrọngsốw1vàt2vớitrọngsốw2.Nếuw1vàw2đ ề ubằng1thìtàiliệun ào cóchứacảhaitừnàysẽcóthứtựsắpxếpcaonhất.Tàiliệunàokhôngchứamộttrongh a i t ừ nàys ẽ c ó t h ứ t ự s ắ p x ế p thấ
SC(Qt1vt2,di)=
(w)2(w)22
Trang 36tasẽtínhkhoảngcáchđếnđiểm(1,1).Câuhỏinàoc à ng gầnđếnđiểm(1,1)thìnócàngthoảyêucầucủatoántửAND:
Trang 38Bấtkỳtàiliệunàocóchứaítnhấtmộttừtrongcâuhỏisẽđượcsắpthứtựvớimộtsốđiểmlớnhơn0.
Trang 39c) Môhìnhkhônggianvector
KháiniệmmôhìnhtruytìmB o o l đơngiảnvàđượcsửdụngtronghầuhếtcáchệt h
ố ngt h ươngmại.T u y n h i ê n t ươngđ ố i khóh ì n h t h à n h c á c c â u t r u yấvnBoolvàkếtquảtruyvấnrấtnhạycảmvớicôngthứctruyvấn.Trọngsốthuậtngữtruyvấnthườngkhôngđượcsửdụngvìcáccâutruyvấnthườngrấtngắn.Đểtránhvấnđềnày,
cácmôhìnhtruytìmkhácnhưkhônggianvéctơ,thốngkêvàtrêncơsởcụm(cluster)đượcsửdụn
gthaythế
Môhìnhkhônggianvectortínhtoánđộtươngquangiữacâuhỏivàtàiliệubằngcáchđịnhnghĩamộtvectorbiễudiễnchomỗitàiliệu,vàmộtvectorbiểudiễnch o câuhỏi[Salton,1875].Môhìnhdựatrênýtưởngchínhlàýnghĩacủamộttàiliệuthìphụthuộcvàocáctừđượcsửdụngbêntrongnó.Vectortàiliệuvàvectorcâu hỏisauđósẽđượctínhtoánđểxácđịnhđộtươngquangiữachúng.Độtươngq u an cànglớnchứngtỏtàiliệuđócàngliênquanđếncâuhỏi
Đốivớimộtcâuhỏiđãcho,thayvìchỉcăncứsosánhcáctừtrongtàiliệuvớitậpcáctừtrongcâuhỏi,tanênxemxétđếntầmquantrọngcủamỗitừ
Ýtưởngc h í n h làmộttừxuấthiệntậptrungtrongmộtsốtàiliệuthìcótrọngsốcaohơns
o vớimộttừphânbốtrongnhiềutàiliệu.Trọngsốđượctínhdựatrêntầnsốtàiliệunghịchđảo(InverseDocumentFrequency)liênquanđếncáctừđượccho:
Trang 40
i
nếutừđóxuấthiệnthườngxuyêntrongmộttàiliệuvàgiảmnếutừđóxuấthiệnthườngxuyêntrongtấtcảcáctàiliệu Đểtínhtrọngsốcủatừthứtjtron gtàiliệuDi,dựavàocôngthức:
dij=tfij*idfjdij:làtrọngsốcủatừtjtrongtàiliệuDi
Đốivớihệthốngtìmkiếmthôngtintheomôhìnhvector,mỗitàiliệulàmộtvectorcódạng:Di(di1,di2,…,din) Tươngtự,câutruyvấnQcũnglàmộtvectorc ó dạng:Q(wq1,wq2,
…,wqn)
wqj:làtrọngsốcủatừtjtrongcâutruyvấnQ
Cáctrọngsốthuậtngữdijvàwqjcóthểlànhịphân(1hoặc0)hayi d f haytrọngsốcóđượctừcáccáchkhác
Độtươngquan(SC:similaritycoeficient)giữacâutruyvấnQvàtàiliệuDiđ ư ợ ctínhnhưsau:
SC(Q,Di)=
n
wqj* dijj1
k 1
ĐâylàhệsốcosinequenthuộcgiữavéctơDivàQj.Khitruytìm,danhsách
xếphạngtheothứtựtínhtươngđồnggiảmdầnsẽđượccholại
Thídụ:có3tàiliệuvàcâutruyvấnnhưsau: