1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li

102 846 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 102
Dung lượng 920,71 KB

Nội dung

HệthốngIRvàvaitrò của chúngtrongtruy tìmđa phươngtiện...13 1.3.3.. KHẢNĂNGMONGĐỢI VÀ CÁC ỨNGDỤNGCỦA MIRS...15 CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN...18 2.1.. LậpchỉmụcchotàiliệutiếngViệt...48 2.4.T

Trang 1

Họcviên:LưuThịHảiYến

SốhóabởiTrungtâmHọcliệu–ĐạihọcTháiNguyên

1http://www.lrc-tnu.edu.vn

LỜICẢMƠN

TôixinbàytỏlòngkínhtrọngvàbiếtơnsâusắctớiPGS.TSĐặngVănĐức,ngườiđãtr

ựctiếphướngdẫn,giúpđỡ,độngviênt ô i trongsuốtthờigianthựchiệnl u ậnvănnày

ConcảmơnC h a , M ẹ vàgiađ ì n h , n h ữngngườiđ ã dạ y d ỗ , khuyếnkhích,độngviêncontrongnhữnglúckhókhăn,tạomọiđiềukiệnchoconnghiêncứuhọctập

TôicũngxinchânthànhcảmơncácthầycôtrongViệnCôngnghệThôngtin,cácthầycôtrongkhoaCôngNghệThôngTinvàcácbạnbè,đồngnghiệptạitrườngDựbịĐạiHọcDântộcTrungƯơngđãgiúpđỡtôirấtnhiềutrongquátrìnhh ọctập,sưutầm,tìmtòitàiliệuvàtrongcôngtácđểtôicóthểhoànthànhbảnluậnvănnày

Dùđãcốgắnghếtsứccùngvớisựtậntâmcủathầygiáohướngdẫnsongdot r ì n h độcònhạnchếnênkhótránhkhỏinhữngthiếusót.Rấtmongnhậnđượcsựthôngcảmvàgópýcủathầycôvàcácbạn

TháiNguyên,tháng11năm2008

Họcviên

LưuThịHảiYến

Trang 2

LỜINÓIĐẦU 4

CHƯƠNG1:TỔNGQUAN 7

1.1.ĐẶTVẤNĐỀ 7

1.2 HỆ THỐNGTHÔNGTINĐAPHƯƠNGTIỆN: 8

1.2.1 Kháiniệmvềđaphươngtiện 8

1.2.2 Media 9

1.2.3 Multimedia 10

1.2.4 CSDLvàHệquảntrịCSDL 10

1.2.5 Truytìmthôngtintàiliệuvănbản 10

1.2.6 Chỉmụcvàtruytìmđaphươngtiện 11

1.2.7 Tríchchọnđặctrưng,Biểu diễn nộidungvàXây dựngchỉmục 11

1.3 SỰCẦNTHIẾTPHẢICÓMIRS 11

1.3.1 MôtảsơlượcdữliệuMMvàcáctínhchấtcủachúng 12

1.3.2 HệthốngIRvàvaitrò của chúngtrongtruy tìmđa phươngtiện 13

1.3.3 Tíchhợptruytìmvàchỉsố hóathôngtinđaphươngtiện 13

1.4 KHÁIQUÁTVỀMIRS 14

1.5 KHẢNĂNGMONGĐỢI VÀ CÁC ỨNGDỤNGCỦA MIRS 15

CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN 18

2.1 KHÁI QUÁTCHUNGVỀ TÌMKIẾMTHÔNGTIN 18

2.1.1 Hệthốngtruytìmthôngtin–IR 20

2.1.2 Cácthànhphầncủamộthệtìmkiếmthôngtin 24

2.1.3 SosánhhệthốngIRvớicáchệthốngthôngtinkhác 25

2.1.4 Cáchệtìmkiếmvănbảnđượcđánhgiácaohiệnnay 27

2.2 HỆTÌMKIẾMTHÔNGTIN 28

2.2.1 Kiếntrúccủahệtìmkiếmthôngtin 28

2.2.2 Mộtsốmôhìnhđể xâydựngmộthệtìmkiếmthôngtin 30

2.2.3.Cácbướcđểxâydựnghệthốngtruytìmthôngtin–IR 38

2.3 LẬPCHỈMỤCTÀILIỆU 39

2.3.1 Kháiquátvềhệthốnglậpchỉmục 40

2.3.2 Cấutrúctệpmụclục 41

2.3.3.Phươngpháplậpchỉmục 45

Trang 3

2.3.4 LậpchỉmụctựđộngchotàiliệutiếngAnh 47

2.3.5 LậpchỉmụcchotàiliệutiếngViệt 48

2.4.THƯỚCĐOHIỆUNĂNG 51

CHƯƠNG3:KỸTHUẬT PHÂN CỤMDỮ LIỆUVÀỨNGDỤNG 53

3.1 KHÁIQUÁTVỀPHÂNCỤMDỮLIỆU 53

3.1.1 Kháiniệm: 53

3.1.2 Mụctiêucủa phâncụmdữliệu trongtìmkiếmthôngtin 54

3.1.3 Cácyêucầucủaphâncụm 56

3.2 CÁCKIỂUDỮLIỆUTRONGPHÂNCỤM 58

3.2.1 Phânloạikiểudữliệudựatrênkíchthướcmiền 59

3.2.2 Phânloạikiểudữliệudựatrênhệđo 59

3.3 CÁC PHÉPĐOĐỘTƯƠNGTỰVÀKHOẢNGCÁCHĐỐI VỚICÁC KIỂUDỮLIỆU 60

3.3.1 Kháiniệmtươngtựvàphitươngtự 60

3.3.2 Thuộctínhkhoảng 61

3.3.3 Thuộctínhnhịphân 65

3.3.4 Thuộctínhđịnhdanh 66

3.3.5 Thuộctínhcóthứ tự 67

3.3.6 Thuộctínhtỉlệ 67

3.4 MỘTVÀIKỸTHUẬTTIẾPCẬNTRONGPHÂNCỤMDỮLIỆU 68

3.4.1 Phươngphápphâncụmphânhoạch 68

3.4.2 Phươngphápphâncụmphâncấp 74

3.4.3 Ứngdụngtrongtìmkiếmvănbảnđaphươngtiện 78

CHƯƠNG4:CHƯƠNGTRÌNHDEMO 81

4.1 MỤC TIÊUCỦA HỆTHỐNGTÌMKIẾM VĂNBẢN: 81

4.2 CHỨCNĂNGCỦAHỆTHỐNG 81

4.3 CÀIĐẶTCHƯƠNGTRÌNH 82

4.3.1 Lậpchỉmục 82

4.3.2 Tìmkiếmtàiliệu 87

KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN 88

TÀILIỆUTHAMKHẢO 90

Trang 4

1 5

Hình2.1:Môhìnhtìmkiếmthôngtintổngquát 21

Hình2.2:Tiếntrìnhtruyvấntàiliệucơsở 23

Hình2.3:Môitrườngcủahệtìmkiếmthôngtin 24

Hình 2.4: Tổngquanvềchứcnăngcủamộthệtìmkiếmthôngtin 25

Bảng2.1:SosánhIRSvớicáchệthốngthôngtinkhác 27

Hình2.5:Kiếntrúchệtìmkiếmthôngtincơbản 29

Hình2.6.Hệtìmkiếmthôngtintiêubiểu 29

Bảng2.2:Cáchtậptinnghịchđảolưutrữ 42

Bảng2.3:Cáchtậptintrựctiếplưutrữ 42

Bảng2.4:Thêmmộttàiliệumớivàotậptinnghịchđảo 43

Hình2.7:Cáctừ đượcsắptheothứ tự 46

Hình2.8.Môhìnhxửlýchohệthốnglậpchỉmục 48

Hình3.1:Phâncụmcácvéctơtruyvấn 55

Hình3.2:Hìnhthànhcụmcha 56

Hình 3.3:Cáctỉ lệkhácnhaucó thểdẫntớicáccụmkhácnhau 62

Hình3.4:KhoảngcáchEuclidean 64

Bảng3.1:Bảngthamsố 65

Hình 3.5:Các thiếtlậpđểxác địnhcácranhgiớicáccụmbanđầu 70

Hình3.6:Tínhcáctoántrọngtâmcủa cáccụmmới 70

Hình3.7:Vídụvềmộtsốhìnhdạngcụmdữliệuđượckhámphábởik-means 73

Hình3.8:Cácchiếnlượcphâncụmphâncấp 75

Hình3.9:CâyCFđượcsửdụngbởithuậttoánBIRCH 76

Hình4.1:Giaodiệnmànhìnhlậpchỉmục 85

Hình4.2:Giaodiệnmànhìnhcậpnhậpchỉmục 86

Hình4.2:Giaodiệnmànhìnhtìmkiếm 87

Trang 6

Trongnhữngnămgầnđây,sựpháttriểnmạnhmẽcủaCNTTvàngànhcôngnghiệpp

h ầ n c ứ n g đãlàmchokhảnăngthut h ậ p vàlưut r ữ t h ô n g tinc ủ a c á c h ệ thốngthôngtintăngnhanhmộtcáchchóngmặt.Bêncạnhđóviệctinhọchoámộtcáchồạtvànhanhchóngcáchoạtđộngsảnxuất,kinhdoanhcũngnhưnhiềulĩnhvựchoạtđộngkhácđãtạorachochúngtamộtlượngdữliệulưutrữkhổnglồ.V ớimộtlượngthôngtinnhưvậythìvấnđềđặtralàphảilàmsaosửdụngchúngvàođ ú n g mụcđíchvàhiệuquảnhấtthìcũnglàmộtvấnđềđặtrahiệnnay.Mặtkhác,trongmôitrườngcạnhtranh,ngườitangàycàngcầncónhiềuthôngtinvớitốcđộnhanhđểtrợgiúpviệcraquyếtđịnhvàngàycàngcónhiềucâuhỏimangtínhchấtđ ị n h t í n h c ầ n p h ả i t r ả l ờ i dựat r ê n mộtkhốil ư ợ n g d ữ l i ệ u khổn

gl ồ đ ã c ó V ớ i n h ữnglýdonhưvậy,c ầnphải cócáccôngcụhỗtrợđ ể giúpchoviệctìmkiếmt h ô n g tinđượcnhanhvàhiệuquả.Vìvậymụctiêucủaluậnvănnàynhằmtìmhiểuvàxâydựngmộthệthốngtìmkiếmthôngtincụthểlàtìmkiếmtàiliệuvănbảntrênc ơ sởphâncụmdữliệu.Nhằmđápứngnhucầucấpthiếtcủathờiđại

+C H Ư Ơ N G 3 - K ỸT H U Ậ T PHÂNC Ụ M D Ữ LIỆUVÀỨNGD Ụ N G :

Kháiquátchungvềphâncụm,các kiểudữliệutrongphâncụmvàứngdụngkỹthuậtphâncụmdữliệutrongtìmkiếmthôngtin

+CHƯƠNG4-CHƯƠNGTRÌNHD E M O : Càiđặtmộtchươngtrìnhtìm

kiếmthôngtintrêncơsở lýthuyếtđãtrìnhbày

+KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN:Trìnhbàycáckếtquảđạtđược

Trang 7

+TÀILIỆUTHAMKHẢO

CHƯƠNG1:TỔNGQUAN1.1 ĐẶTVẤNĐỀ

Vàinămtrướcđây,cácnghiêncứuvàpháttriểnthuộclĩnhvựcđaphươngtiện(MultiMedia)tậptrungvàocácvấnđềnhư:truyềnthông,authoring vàtrìnhd i ễnđaphươngtiện

TrảiquanhiềunămđãcókhốilượnglớndữliệuMultimedia(ảnh,video,âmt h a n h )đượcthuthậpvàlưutrữdướidạngsố,thídụ:

liệu(DatabaseManagmentSystem)màngàyn a y đợưcs ử d ụ ngt rongh ầ u h ế t c á c c

ơ quan,tổchức.Tu y nhiênhệquảntrịcơsở dữliệukhôngthểq u ả n lýdữliệuđaph ương tiệnmộtcáchhiệuquảbởivìcáctínhchấtdữliệuvănbảnvàdữliệuđap h ư ơn gtiệnlàkhácnhau.Dovậy,dẫntớiviệcnghiêncứupháttriểncáckỹthuậttr uytìmvàchỉmụcmớitronghệthốngquảntrịcơsơdữliệuvàviệcpháttriểnhệthốngtruytìmtàiliệuvănbản–mộtphầncủadữliệuđaphươngtiệncũngkhôngnằmngoàixuthếđó

Luậnvăntậptrungnghiêncứu cáchtìmkiếmvănbảntrêncơsởphân cụmdữ

liệu.Mụctiêuchínhcủaphươngphápphâncụmdữliệulànhómcácđốitượngtương

Trang 8

1.2 HỆTHỐNGTHÔNGTINĐAPHƯƠNGTIỆN:

Đaphươngtiệnlàgì?

Đaphươngtiệnlàtíchhợpcủavănbản,âmthanh,hìnhảnhcủatấtcảcácloạivàphầnmềmcóđiềukhiểntrongmộtmôitrườngthôngtinsố

Thôngtinra

Trang 10

Địnhnghĩa

Địnhnghĩađaphươngtiện(theonghĩarộng)l à baogồmcácphươngtiện:vănbản,hìnhvẽtĩnh(vẽ,chụp),hoạthình(hìnhảnhđộng),âmthanh

Haycóthểđịnhnghĩađaphươngtiện;đaphươngtiệnlàkỹthuậtmôphỏngvà sửdụ ngđồngthờinhiềudạngphươngtiệnchuyểnhoáthôngtinvàcáctácphẩmtừcáckỹthuậtđó.

gphụthuộcchặtchẽvàotốcđộtrìnhdiễn.Thídụđểcảmnhậnchuyểnđộngtrơntru,videophảiđượctrìnhchiếuvớitốcđộ25frame/sec(hay30frame/

secphụthuộcvàoloạihệthốngvideo).Tươngtự,khitatrìnhdiễn(play)

tiếngnói,âmnhạc,chúngchỉđượccảmnhậntựnhiênkhiđạtđượctốcđộnhấtđịnh,nếukhôngchúnglàmgiảmchấtlượngvàýnghĩacủaâmthanh.Vìcácmedianàyphảiđượctrình

diễnliêntụcvàởtốcđộcốđịnhchonênchúngcònđượcgọilàmedialiên

Trang 11

SốhóabởiTrungtâmHọcliệu–ĐạihọcTháiNguyên

10http://www.lrc-tnu.edu.vn

hôngtinnào

Trang 13

Cáckỹthuậttruytìmthôngtincóthểgiúptruytìmcácđốitượngđaphươngtiệnnhưngchúngchưacókhảnăngquảnlýhiệuquảdữliệuđaphươngtiện

1.3.1 MôtảsơlượcdữliệuMMvàcáctínhchấtcủachúng

Chúngtađangđốimặtvớisựbùngnổthôngtinđaphươngtiện.ThídụtồntạimộtsốlượnglớnảnhvàvideotrênInternet.Rấtnhiềutranhvẽ,ảnhchụpđangđượcchuyểnsangdạngsốđểdễxửlývàphântánhaybảoquản.CácbứcảnhtừbảntinTVvàtrênbáocũngđangđượcchuyểnsangdạngsốđểdễdàngquảnlý.Lượnglớnảnhytế,ảnhvệtinhđangđượcthuthậphàngngày.Xuthếnàyđãthúcđẩypháttriểncôngnghệsốlưutrữvàtrìnhdiễn.Khôngthểsửdụngnhanhvàhiệuquảcácthôngtinđaphươngtiệnnàynếuchúng khôngđượctổchứctốtđểcókhảnăngtruytìmnhanh

Khôngchỉkhốilượngdữliệuđaphươngtiệnlưutrữ

tăngnhanhmàcáckiểud ữliệuvàđặctínhcủachúngkhácxadữliệuchữvàsố.Sauđâylàmộtvàitínhch ấtchínhcủadữliệuđaphươngtiện:

 Khốilượngkhổnglồ(đặcbiệtvớidữliệuaudiovàvideo).Thídụ10phútvideokhôngnéncódunglượng1,5GB

 Audiovàvideocóthêmchiềuthờigian

 Dữliệuảnh,audiovàvideođượcthểhiệnbởidãycácgiátrịmẫu,khôngcó

cấutrúcnhấtđịnhđểmáytínhtựđộngnhậnbiết

 Rấtn h i ề u ứ n g dụngđ a phươngt i ệ n đ ò i h ỏ i t r ì n h d i ễ n đồngt h ờ i c á c loạimediakhácnhau Thídụ,phimbaogồmcácảnhđồngbộvớiâmthanh

 Ýnghĩacủadữliệuđaphươngtiệnđôikhirấtmờ

 Dữliệuđaphươngtiệnrấtgiàuthôngtin.Đòihỏinhiềuthamsốđểbiểudiễn

nộidungcủachúng

Trang 14

1.3.2 HệthốngIRvàvaitròcủachúngtrongtruytìmđaphươngtiện

BổsungvàoDBMScòncókiểuhệthốngquảntrịthôngtinkhácmànótập

trungvàot r u y t ìmt à i ệlu

i vănb ả n K i ể u h ệ t h ố n g t h ô ngt i n n à y đ ượcgọi làhệthốngtruytìmthôngtin.KỹthuậtIRrấtquantrọngtronghệthốngquảntrịthôngt i n đaphươngtiệnvìhailýdochínhsau

Thứnhất,khốilượngvănbảnrấtlớnđangc ó sẵntrongcáccơquannhưthưviện.Vănbảnlànguồnthôngtinquantrọngcủamọitổchức.ĐểsửdụnghiệuquảthôngtintrongcáctàiliệunàycầncóhệthốngIRh i ệuquả.Thứhai,vănbảncònđượcsửdụngđểmôtảcác l o ạ i mediak h á c nhưaudio,ảnhvàvideo.CáckỹthuậtIRquenthuộccóthểđượcsửdụngđểtruytìmthôngtinđaphươngtiện.TuynhiênviệcsửdụngIRđểquảnlýdữliệuđaphươngtiệncócáchạnchếsau:

dovậy,đòihỏikỹthuậtmớiđểquảnlýcáctínhchấtđặcbiệtcủadữliệuđaphươngtiện.TuynhiêntanhậnrarằngDBMSvàIRcóthểđóngvaitròquantrọngtrongMMDBMS

Nhiềuphầndữliệuđaphươngtiệnnhưngàytạolập,tácgiả,v.v làcócấutrúc.Chú

ngcóthểđượcquảnlýbằngcáckỹthuậtDBMS.Môtả(annotation)bằngvănbảnvẫncònlàp

hươngpháphiệuquảđểthuthậpnộidungdữliệuđaphươngtiện,dovậycáckỹthuậtIRvẫnđóngvaitròquantrọng

Tómlại,cầnphảitíchhợpDBMS,IRvàcáckỹthuậtđặcbiệtkhácquảnlý

Trang 15

1.4 KHÁIQUÁTVỀMIRS

CácthaotácMIRSđượcmôtảtrênhình1 2.Dữliệu(cácmụcthôngtin)trongCSDLđượctiềnxửlýđểtríchchọnđặctrưngvànộidungngữnghĩa.Sauđóchúngđượcchỉsốhóatrêncơsởđặctrưngvàngữnghĩa

Trongkhitruytìmthôngtin,câutruyvấncủangườisửdụngđượcxửlývàcácđặctrưngchínhcủanóđượctríchchọn.CácđặctrưngnàysauđóđượcsosánhvớicácđặctrưnghaychỉmụccủamỗimụcthôngtintrongCSDL.Cácmụcthôngt i n nàocóđặctrưnggầngiốngnhấtvớicácđặctrưngcủacâutruyvấnthìđượctìmr a vàtrìnhdiễnchongườisửdụng

Trang 16

Tiềnxửl ý vàchỉsốhoá

Cácđặctrưng

Tínhsựtươngđồng

Truysuấtcáckhoảnmụctươngtự

Trang 17

textform,việctruytìmthựchi ệntrêncơsởtươngtựgiữacâutruyvấnvàmôtả.Thídụtruyvấ

ncóthểlà“Chỉr acácđoạnvideotrongđóACTORđangđixeđạp”

Vớiloạitruyvấnnày,tagiảsửrằngcácmụcđãđượcmôtảđầyđủvàcóthểquảnlýbởicáckỹthuậtIR

Truyvấntrêncơsởmẫu(pattern)hayđặctrưng

Mẫudữliệulàcácthôngtintĩnhvềdữliệuđaphươngtiệnnhưphânbổmàu,cườngđộâ

mthanh,môtảkếtcấubềmặt.Thídụcủaloạitruyvấnnàycóthểlà“Chỉrakhung(fra me)videovớiphânbổmàunhưTHIS”.Đểtrảlờiloạitruyvấnnày,cácthôngtinthốngkê

vềcácmụcCSDLphảiđượcchuẩnbịvàlưutrữtrước

Truyvấntheothídụ(byexample)

Truyvấntrongcácđốitượngđaphươngtiệnnhưảnh,bảnvẽvàđoạnâmthanh.Thídụtruyvấncóthểlà“HãychỉraphimtrongđócóđoạntươngtựnhưTHISPICTURE”.Loạitruyvấnnàycóthểphứctạphơnkhibổsungyếutốquanhệthờigianvàkhônggiangiữacácđốitượng

Truyvấnứngdụngcụthể

Rấtnhiềul o ạ i truy vấnc ụthểt h e o ứ n g dụng.Th í d ụ , tr uy vấntrêncơsở

thôngtinchitiết,cụthểnhưkíchthướcđốitượnghaytuổicánhân

Trang 18

VìMIRScókhản ă nghỗt r ợ nhiềuloạitruyvấnc h o nênnócóứngdụng

Giáodục:Sinhviênquétbứcảnhđộngvậtvàmuốntìmmọitínhchất(baogồmâmth

anh,ảnhvàmôtảvănbảnvềloạiđộngvậtnàytừCSDLgiáodục

Thídụkhác,sinhviênmôphỏngâmthanhvàmuốntìmracácảnhvàthôngtinmôtảvềloạiđộngvậtnày

ih a y tươngtự.Đ iều đ ó phụthuộcvàomôtơtìmkiếmđểđốisánhdữliệutrongcâutruyvấnvớicácmụctrongCSDL

Trang 19

CHƯƠNG2:HỆTÌMKIẾMTHÔNGTIN2.1 KHÁIQUÁTCHUNGVỀTÌMKIẾMTHÔNGTIN

Tìmkiếmthôngtinlàtìmkiếmtrongmộttậptàiliệuđểlấyracácthôngtinmàngườitìmkiếmquantâm

Kỹthuậttruyvấntàiliệuvănbảnđượcgọichunglàkỹthuậttruytìmthôngtin(IR– InformationRetrieval).KỹthuậtIRtronghệthốngđaphươngtiệnrấtquant r ọngvìhailýdoch

ínhsauđây:

 Đangtồntạisốlượnglớntàiliệuvănbảntrongcácthưviện.Vănbảnlà tàinguyênrấtquantrọngđốivớicáccơquantổchức.CầncóIRđủtốtđểsửdụngcóhiệuquảcácthôngtinlưutrữtrongcáctàiliệu

Trang 20

Đểnângcaohiệunăngtruyvấn,việcxửlýngônngữtựnhiênvàcáckỹthuậttrítuệnhântạođượcápdụng.

Trang 21

tính,rấtnhiềuýtưởnglớnđượcđưaranhằmcungcấpmộthệthốngtìmkiếmthôngminhvàchínhxác.Tuynhiên,vấnđềtìmkiếmsaochohiệuquảvẫnchưađượcgiảiqu yết.

Vềnguyêntắc,việclưutrữthôngtinvàtìmkiếmthôngtinthìđơngiản.Giảs ửcómộtk

hochứacáctàiliệuvàmộtngườimuốntìmcáctàiliệuliênquanđếny êu cầucủamình.Ngườiđócóthểđọctấtcảcáctàiliệutrongkho,giữlạicáctàiliệuliênquanvàbỏđicáctàiliệukhôngliênquan.Rõrànggiảiphápnàykhôngthựctếbởivìtốnrấtnhiềuthờigian

Vớisựrađờicủamáyvitínhtốcđộcao,máytínhcóthể“đọc”thaychoconngườiđ

ểtríchracáctàiliệucóliênquantrongtoànbộtậpdữliệu.Tuynhiênvấnđềlúcnàylàlàmsaođểxácđịnhđượctàiliệunàoliênquanđếncâuhỏi.Mụcđíchcủamộthệthốngtìmkiếmthôngtintựđộnglàtruylụcđượctấtcảcáctàiliệucó liênquanđếnyêucầu

hôngtinnào

Tìmkiếmthôngtinlàlĩnhvựcnghiêncứunhằmtìmracácgiảiphápgiúpngườisửdụngcóthểtìmthấycácthôngtinmìnhcầntrongmộtkhốilượnglớndữl i ệu.Nhiệmvụcủamộthệthốngtìmkiếmthôngtintươngtự

nhưnhiệmvụtổchứcp h â n loạitàiliệuvàphụcvụviệctracứucủamộtthưviện.Mộthệthốngtìmkiếmt h ô n g tincóhaichứcnăngchính:lậpchỉmục(indexing)vàtracứu(interrogation).Lậpch ỉ m ụ c l à giaiđ o ạ n p h â n tícht à i l i ệ u ( d o c u m e n t ) đ ể x á c đ ị n h c á c c h ỉ

m ụ c (ter m/

indexterm)biểudiễnnộidungcủatàiliệu.Việclậpchỉmụccóthểdựavàomộtcấutrúcphânlớpcósẵn(controlvocabulary)nhưcáchlàmcủacácnhânviên

Trang 22

thưviện,phânloạitàiliệutheomộtbộphânloạichotrước.Cácchỉmụctrongcáchlàm nàylàtồntạitrướcvàđộclậpvớitàiliệu.Cáchthứhaiđểlậpchỉmụclàrúttríchcácchỉmụctừchínhnộidungcủatàiliệu(freetext).Trongl u ậnvănnàytôichỉđềcậpđếncáchthứhai.Cuốigiaiđoạnlậpchỉmụcnộidungcủacáctàiliệucótrongkhotàiliệu(corpus)đượcbiểudiễnbêntrongbằngtậpcácchỉmục.

Môhìnhtổngquátcủatìmkiếmthôngtinnhưsau:

Phùhợpngườisửdụng

Ngườisửdụng

TruycậpPhùhợphệthống

Môhìnhtìmkiếmthôngtin

Trang 23

 Trithức:Biểudiễncáctrithứcđểmôtảngữnghĩathuộclĩnhvựctài

liệuBiểudiễnhìnhthức:

Hệt h ố n g IRgồmc á c b ả n g h i khôngc ó c ấ u t r ú c C h ú n g k h ô n g chứacáct h

u ộctínhcốđịnh.Nóchỉđơnthuầnlàtàiliệuvănbản.Cáctàiliệunàycóthểchỉmụcbằngcá

ct ừ khóa,b ộ môtảt à i liệu,haycácthuậtngữ(term)chỉmục.Mỗit h u ậtngữchỉmụcđư

ợcsửdụngđểmôtảnộidungvănbảnchỉtheomộtkhíacạnhnàođó,khôngđầyđủvàkhôngrõràngchotoànbộnộidungvănbản.Nhiềuthuậtngữchỉmụcđượcgắntheotàiliệuhayvănbảncụthể.Bởivìcácthaotáctruyvấnvănbảnphụthuộctrựctiếpvàonộidungđạidiện,sửdụngđểmôtảcácbảnghilưu

Trang 24

tàiliệulưutrữvàvấnđềsinhtừkhóa,chỉmục

Ởđây,sẽkhôngthựctếnếucoitrọngtruyvấntrêncơsởđốisánhchínhxácgiữacâutruyvấnvàcácthuậtngữtàiliệuđểtìmratàiliệukếtquả.Thayvì,truyvấncácmụcliênquanvớiđủmứcđộtươngđồnggiữatậpthuậtngữgắntheocâut ru y vấnvàtàiliệu,đượcsinhrabởiphươngphápxấpxỉhayđốisánhtừngphần.H ơn nữacùngthuậtngữcóthểcónhiềuýnghĩakhácnhau

Tómlại,cáctàiliệukếtquảtruyvấntrongDBMSlàhoàntoànliênquanđếncâu truyvấnvàcóíchvớingườisửdụng.NhưngtronghệthốngIR,các tàiliệuđượcxemnhưliênquanđếncâutruyvấnnhưngcóthểkhôngliênquanvàkhôngcóíchvớingườisửdụng.Hình2.2chỉratiếntrìnhtruyvấntàiliệucơsở

Môhìnhtàiliệu

Tàiliệutruyvấn

Đánhgiámứcđộthíchhợp

Hình2.2:Tiếntrìnhtruyvấntàiliệucơsở

Trang 25

Phíaphảihình2.2chỉrarằngcáctàiliệuđượcxửlýoff-lineđểcóđạidiện(môtả) Cácđạidiệnnàyđượclưutrữcùngvớicáctàiliệu.

Phíatráihình2.2chỉraquátrìnhtruyvấn.Ngườisửdụngđưaracâutruyvấnvàđượcxửlýon-

lineđểcóđạidiệncủamình.Sauđóđốisánhđạidiệntruyvấnvớiđạidiệntàiliệu.Cáctàiliệuđượcxemnhưtươngđồngsẽđượctrìnhdiễnchongườisửdụng.Họđánhgiátàiliệucholạivàquyếtđịnhtàiliệunàothựcsựtươngđồngvớithôngtinhọcần.MộthệthốngIRtốtcầnphảichophépngườisửdụngcungcấpphảnhồithíchhợpchohệthống.Hệthốngsửdụngthôngtinnàyđểđ i ều chỉnhtruyvấn,đạidiệntruyvấn,hoặc/

vàđạidiệntàiliệu.Truytìmkháctiếpt h e o đượcthựchiệntrêncơsởcâutruyvấnđạidiệntàiliệuđãhiệuchỉnh.Nếucần,t i ếntrìnhphảnhồitruytìm

đượcthựchiệnlặpvàilần.Chúýrằng,khôngphảitấtcảc á c hệthốngIRđềucótiếntrìnhphảnhồithíchhợp

CácmôhìnhIRkhácnhauửsdụngcácphươngphápkhácnhautrongđạidiệntruyvấnvàđạidiệntàiliệu,đốisánhtươngđồnghoặc/

vàphảnhồithíchhợp.SauđâylàtrìnhbàyvềmôhìnhBoolvàmôhìnhkhônggianvéctơá

pdụngtrongtruytìmvănbản

2.1.2 Cácthànhphầncủamộthệtìmkiếmthôngtin

Gồm:tậpcáctàiliệu(DOCS)đãđượclưutrữtrongkhodữliệu,tậpcácyêuc ầu(REQS)củangườidùng,vàmộtsốphương pháptínhộđtươngquan(SIMILAR)đểxácđịnhcáctàiliệuđápứngchocácyêucầu

Hình2.3:Môitrườngcủahệtìmkiếmthôngtin

Theolýthuyếtthìmốiliênhệgiữacáccâuhỏivàcáctàiliệucóthểsosánhmộtcáchtrựctiếp

Trang 26

Nhưngtrênthựctếthìđiềunàykhôngthểđượcvìcáccâuhỏivàcáctậptàiliệuđềuởdạngvănbản,chỉcóconngườiđọcvàothìthấyngayđược

Trang 27

mốiliênhệgiữachúng,nhưngởđâychỉlàmộthệthốngmáymóckhôngthểsuyl u ậnnhưconngườiđược.Chínhvìthếđểxácđịnhđượcmốiliênhệgiữacáccâuhỏivàcáctậptàiliệuphảiquamộtbướctrunggian.

Hình2.4:Tổngquanvềchứcnăngcủamộthệtìmkiếmthôngtin

Trướchếtchuyểnđổicáccâuhỏithànhcáctừriêngbiệtđủđểbiểuhiệnchonộidungcủacâuhỏigọilàngônngữchỉmục(Indexinglanguage-

LANG).Táchtừtrongcáctậptàiliệuvàlậpchỉmụcchotàiliệu.Lúcnàycóthểsosánhtrựctiếpgiữacáctừcủacâuhỏivàcáctừchỉmụccủatậptàiliệu.Vàtừđótasẽdễdànghơnđểxácđịnhđộtươngquangiữacáccâuhỏivàtậptàiliệu

2.1.3 SosánhhệthốngIRvớicáchệthốngthôngtinkhác

Hệthốngtìmkiếmthôngtincũngtươngtựnhưnhiềuhệthốngxửlýthôngt i n khác.Hiệnnaycáchệthốngthôngtinquantrọngnhấtlà:hệquảntrịcơsởdữliệu(DBMS),hệquảnlýthôngtin(IMS),hệhỗtrợraquyếtđịnh(DSS),hệtrảlờic â u hỏi(QAS)vàhệtìmkiếmthôngtin(IR).Việchiểubiếtsựkhácnhaugiữahaih ệthốngtruytìmvănbản(IR)vàcáchệthốngthôngtinkhácgiúptahiểurõcáckỹt h u ậttruytìmvănbản

Hệquảntrịcơsởdữliệu

Bấtcứhệthốngthôngtintựđộngnàocũngdựatrênmộttậpcácmụcđượclưutrữ(g

ọilàcơsởdữliệu)cầnthiếtchoviệctruycập.Dođóhệquảntrịcơsởdữliệuđơngiảnlàmộth

ệthốngđượcthiếtkếnhằmthaotácvàduytrìđiềukhiểncơs ởdữliệu

Trang 28

trịcơsởd ữliệucómộttậpcáclệnhđểhỗtrợchongườisửdụngtruyvấnđếndữliệucủamình.Vìvậymuốntruyvấnđếncơsởdữliệutronghệquảntrịcơsởdữliệutaphảih ọchếtcáctậplệnhnày.Nhưngngượclạinósẽcungcấpchotacácdữliệuđầyđủvàhoàntoàn

chínhxác.Hiệnnayhệquảntrịcơsởdữliệuđượcsửdụngrộngrãitrênt h ếgiới.Mộtsốhệquảntrịcơsởdữliệuthôngdụng:Access,SQLServer,Oracle

Hệquảnlýthôngtin(IMS)

Hệquảnlýthôngtinlàhệquảntrịcơsởdữliệunhưngcóthêmnhiềuchứcnhưngvềviệcq u ả n l ý N hữngchứcn ă ngq uảnl ý n à y p h ụ t h u ộ c vàogiátrịc ủ a nhiềukiểudữliệukhácnhau.Nóichungbấtkỳhệthốngnàocómụcđíchđặcbiệtp h ụcvụchoviệcquảnlýthìtagọinólàhệquảnlýthôngtin

Hệhỗtrợraquyếtđịnh(DSS)

Hệhỗtrợraquyếtđịnhsẽdựavàocáctậpluậtđượchọc,từnhữngluậtđãhọcrútranhữngluậtmới,saukhigặpmộtvấnđềnósẽcăncứvàovàotậpcácluậtđểđưaranhữngquyếtđịnhthaychoconngười.Hệthốngnàyđangđượcápdụngn hiềuchocôngviệcnhậndạngvàchuẩnđoánbệnh

Hệtrảlờicâuhỏi(QAS)

Hệtrảlờicâuhỏicungcấpviệctruycậpđếncácthôngtinbằngngônngữtựnhiên.Việclưutrữcơsởdữliệuthườngbaogồmmộtsốlượnglớncácvấnđềliênq u a n đếncáclĩnhvựcriêngbiệtvàcáckiếnthứctổngquát.Câuhỏicủangườidùngcóthểởdạngngônngữtựnhiên.Côngviệccủahệtrảlờicâuhỏilàphântíchcâutruyvấncủangườidùng,sosánhvớicáctrithứcđượclưutrữ,vàtậphợpcácvấnđ ề cóliênquanlạiđểđưaracâutrảlờithíchhợp

Trang 29

hệtrảlờicâuhỏicònđangthửnghiệm.Việcxácđịnhýnghĩacủangônngữtựnhiêndườngnhưvẫnlàchướngngạilớnđểcóthểsửdụngrộngrãihệt h ốngnày

LưutrữC á c vănbảnngônngữ

tựnhiên

Xửlý

Cáccâutruyvấnkhôngchínhxác

Cácphầntửcókiểudữliệuđãđượcđịnhnghĩa

Cácphầntửdữliệuởdạngbảng

Cáccâutruyvấncócấutrúc

Cácsựkiệnrõràng

Cácsựkiệnrõràngvàcáckiếnthứctổngquát

Cáccâutruyvấnkhônggiớihạn

GiốngDBMSnhưnghỗtrợthêmnhữngthủtục(Tínhtổng,tínhtrungbình,phépchiếu…)

Trang 30

ymình.Bằngviệclàmchocóthểtìmkiếmđượctrênmáytínhcủamình,Desktopđặtnhữngthôngtincủabạnvàotrongtầmtayvàrấtlinhhoạttrong

Trang 31

GoogleDesktopkhôngchỉgiúpchúngtatìmkiếmtrongmáymàcòncóthểgiúpc h úngt a ấlyt h ô ngt i n t r ê n mạngvàc h ú n g đượcb ố t r í t r o n g gadgetsvàsidebar.ChúngtacóthểđặtGoogleGadgetsởbấtcứchỗnàotrongmáytínhvànóh i ểnt h ị t h ô n g t i n vềmail,t h ờ i t i ế t , ả n h , tintứcvàn h i ề u thứkhác.SidebarlàverticalbarnằmtrênmáycótácdụngtổchứclạicácGadgets

DTSearch

DTSearchlàmộthệtìmkiếmthựchiệntheomôhìnhBoolean.Nólậpchỉmụckhánhanhvàcónhiềulựachọnthíchhợpchongườisửdụng.NgoàiviệccungcấpgiaodiệntìmkiếmtrựctiếpvàlậpchỉmụcthìDTSearchcòncungcấpthưviệnd l l dùngcholậptrìnhviên.Thưviệndllnàycókhảnănglậpchỉmục,thựchiệntìmkiếmtheomôhìnhboolean.Cóthểnóikhátốthiệnnay.CóthểnóiDTSearchlàđiểnhìnhtìmkiếmvănbảntheomôhìnhBoolean

HệtìmkiếmvănbảnLucene

HệtìmkiếmvănbảnLucenelàhệtìmkiếmmãnguồnmở.Hệthốngđượcp h á t triểncảtrênnền.NetvàcảtrênngônngữJava.Hệthốnghiệncũngđượckhán h i ềulậptrìnhviênpháttriển

2.2 HỆTÌMKIẾMTHÔNGTIN

2.2.1 Kiếntrúccủahệtìmkiếmthôngtin.

Kiếntrúchệtìmkiếmthôngtincơbản

Trang 32

Hình2.6.Hệtìmkiếmthôngtintiêubiểu

Trang 33

bản, bộphậnlậpchỉmục,bộphậnsokhớpvàsắpxếpcáctàiliệutrảvề

(1) Bộphậnphântíchvănbản:bộphậnnàycónhiệmvụphântíchcácvănb ảnthuth

ậpđượcthànhcáctừriêngbiệt.Tươngtự,khingườidùngnhậpcâutruyvấnthìcâutruyvấncũngđượcphântíchthànhcáctừriêngbiệt

2.2.2 Mộtsốmôhìnhđểxâydựngmộthệtìmkiếmthôngtin

Mụctiêucủacáchệthốngtìmkiếmthôngtinlàtrảvềcáctàiliệucàngliênquanđếncâuhỏicàngtốt.Vìthế ngườitađãđưararấtnhiềumôhìnhtìmkiếmnhằmtínhtoánmộtcáchchínhxácđộtươngquannày.Sauđâylàmộtsốmôhìnhtìmkiếmcơbản:

a) TìmkiếmBoolean

PhầnlớncáchệthốngIRthươngmạihiệnnaycóthểphânlớpnhưhệthốngI R Boolh ayhệthốngtìmkiếmtheomẫuvănbản(text-

pattern).Cáccâutruyvấntrongtìmkiếmmẫuvănbảnlàcácxâuhaybiểuthứcthôngthường.

Trongkhitruytìm,mọitàiliệuđượctìmkiếmvàcáinàochứaxâutruyvấnthìđượclấyra.Cáchệthống“mẫuvănbản”làhìnhthứcchungnhấtchoviệctìmkiếmtrongcơsởdữliệuh a y tập

hợptàiliệunhỏ.Mộtthídụquenthuộccủatìmkiếmmẫuvănb ảnlà họcôngcụgrept rongmôitrườngUnix.

Trang 34

ToántửOR:Xemxéthaithuậtngữđồngnghĩa.Thídụ,chotrướccâutruyvấn(t erm1ORterm2)thìhiệndiệncủamộttronghaithuậtngữtrongbảnghi(hayt r o n g tàiliệu)

ư vậyvớip h épa n d , c á c t à i l i ệ u t h ỏ a y ê u c ầ u c ủ a ngườidùnglà{d3,d5}

Phươngphápnàycómộtsốkhuyếtđiểmnhưsau:

 Cáctàiliệutrảvềkhôngđượcsắpxếp(ranking)

Trang 35

Môh ì n h t ì

miBooleanmởrộngr a đ ờ i n h ằ m h ỗ t r ợ việcsắpxếp

(ranking)kếtquảtrảvềdựatrênýtưởngcơbảnlàđánhtrọngsốchomỗitừtrongc âu hỏivàtrongtàiliệu.Giảsửmộtcâuhỏiyêucầu(t1ORt2)vàmộttàiliệuDcóchứat1vớitrọngsốw1vàt2vớitrọngsốw2.Nếuw1vàw2đ ề ubằng1thìtàiliệun ào cóchứacảhaitừnàysẽcóthứtựsắpxếpcaonhất.Tàiliệunàokhôngchứamộttrongh a i t ừ nàys ẽ c ó t h ứ t ự s ắ p x ế p thấ

SC(Qt1vt2,di)=

(w)2(w)22

Trang 36

tasẽtínhkhoảngcáchđếnđiểm(1,1).Câuhỏinàoc à ng gầnđếnđiểm(1,1)thìnócàngthoảyêucầucủatoántửAND:

Trang 38

Bấtkỳtàiliệunàocóchứaítnhấtmộttừtrongcâuhỏisẽđượcsắpthứtựvớimộtsốđiểmlớnhơn0.

Trang 39

c) Môhìnhkhônggianvector

KháiniệmmôhìnhtruytìmB o o l đơngiảnvàđượcsửdụngtronghầuhếtcáchệt h

ố ngt h ươngmại.T u y n h i ê n t ươngđ ố i khóh ì n h t h à n h c á c c â u t r u yấvnBoolvàkếtquảtruyvấnrấtnhạycảmvớicôngthứctruyvấn.Trọngsốthuậtngữtruyvấnthườngkhôngđượcsửdụngvìcáccâutruyvấnthườngrấtngắn.Đểtránhvấnđềnày,

cácmôhìnhtruytìmkhácnhưkhônggianvéctơ,thốngkêvàtrêncơsởcụm(cluster)đượcsửdụn

gthaythế

Môhìnhkhônggianvectortínhtoánđộtươngquangiữacâuhỏivàtàiliệubằngcáchđịnhnghĩamộtvectorbiễudiễnchomỗitàiliệu,vàmộtvectorbiểudiễnch o câuhỏi[Salton,1875].Môhìnhdựatrênýtưởngchínhlàýnghĩacủamộttàiliệuthìphụthuộcvàocáctừđượcsửdụngbêntrongnó.Vectortàiliệuvàvectorcâu hỏisauđósẽđượctínhtoánđểxácđịnhđộtươngquangiữachúng.Độtươngq u an cànglớnchứngtỏtàiliệuđócàngliênquanđếncâuhỏi

Đốivớimộtcâuhỏiđãcho,thayvìchỉcăncứsosánhcáctừtrongtàiliệuvớitậpcáctừtrongcâuhỏi,tanênxemxétđếntầmquantrọngcủamỗitừ

Ýtưởngc h í n h làmộttừxuấthiệntậptrungtrongmộtsốtàiliệuthìcótrọngsốcaohơns

o vớimộttừphânbốtrongnhiềutàiliệu.Trọngsốđượctínhdựatrêntầnsốtàiliệunghịchđảo(InverseDocumentFrequency)liênquanđếncáctừđượccho:

Trang 40

 

i

nếutừđóxuấthiệnthườngxuyêntrongmộttàiliệuvàgiảmnếutừđóxuấthiệnthườngxuyêntrongtấtcảcáctàiliệu Đểtínhtrọngsốcủatừthứtjtron gtàiliệuDi,dựavàocôngthức:

dij=tfij*idfjdij:làtrọngsốcủatừtjtrongtàiliệuDi

Đốivớihệthốngtìmkiếmthôngtintheomôhìnhvector,mỗitàiliệulàmộtvectorcódạng:Di(di1,di2,…,din) Tươngtự,câutruyvấnQcũnglàmộtvectorc ó dạng:Q(wq1,wq2,

…,wqn)

wqj:làtrọngsốcủatừtjtrongcâutruyvấnQ

Cáctrọngsốthuậtngữdijvàwqjcóthểlànhịphân(1hoặc0)hayi d f haytrọngsốcóđượctừcáccáchkhác

Độtươngquan(SC:similaritycoeficient)giữacâutruyvấnQvàtàiliệuDiđ ư ợ ctínhnhưsau:

SC(Q,Di)=

n

 wqj* dijj1

k 1

ĐâylàhệsốcosinequenthuộcgiữavéctơDivàQj.Khitruytìm,danhsách

xếphạngtheothứtựtínhtươngđồnggiảmdầnsẽđượccholại

Thídụ:có3tàiliệuvàcâutruyvấnnhưsau:

Ngày đăng: 19/08/2014, 17:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đặng Văn Đức (2004/05), “Multimedia Database Management System” Chương 1, Chương 4 Sách, tạp chí
Tiêu đề: Multimedia Database ManagementSystem”
2. Đặng Văn Đức (2007), “Nâng cao hiệu năng MMDMS (Multimedia Database Management System)”, Bài 8.Tiếng Anh Sách, tạp chí
Tiêu đề: Nâng cao hiệu năng MMDMS (MultimediaDatabase Management System)”
Tác giả: Đặng Văn Đức
Năm: 2007
1. C.J. van Rijsbergen, “Information Retrieval” Sách, tạp chí
Tiêu đề: “Information Retrieval
2. C.Ordonez, “Clustering binary data streams with k-means”. ACM DMKD Workshop, 2003 Sách, tạp chí
Tiêu đề: “Clustering binary data streams with k-means”
3. David Hand, Heikki Mannila and Padhraic Smyth: “Principles of Data Mining”, The MIT Press, 2001 Sách, tạp chí
Tiêu đề: “Principles ofData Mining”
4. Gerard Salton, Michael J.McGill, “Introduction to Modern Information Retrieval” Sách, tạp chí
Tiêu đề: “Introduction to ModernInformation Retrieval
5. K. Mali and S.Mitra, “Clustering of Symbolic Data and its validation”, AFSS 2002 Sách, tạp chí
Tiêu đề: “Clustering of Symbolic Data and itsvalidation”
6. Mark S. Aldenderfer, Roger K. Blashfield, “Cluster Analysis”Website Sách, tạp chí
Tiêu đề: “Cluster Analysis”
1. Từ điển bách khoa toàn thư http://vi.wikipedia.org Link

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Mô hình tìm kiếm thông tin tổng quát - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.1 Mô hình tìm kiếm thông tin tổng quát (Trang 21)
Hình 2.2: Tiến trình truy vấn tài liệu cơ sở - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.2 Tiến trình truy vấn tài liệu cơ sở (Trang 25)
Hình 2.4: Tổng quan về chức năng của một hệ tìm kiếm thông tin - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.4 Tổng quan về chức năng của một hệ tìm kiếm thông tin (Trang 27)
Hình 2.5: Kiến trúc hệ tìm kiếm thông tin cơ bản - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.5 Kiến trúc hệ tìm kiếm thông tin cơ bản (Trang 32)
Bảng 2.2: Cách tập tin nghịch đảo lưu trữ - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Bảng 2.2 Cách tập tin nghịch đảo lưu trữ (Trang 50)
Bảng 2.4: Thêm một tài liệu mới vào tập tin nghịch đảo - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Bảng 2.4 Thêm một tài liệu mới vào tập tin nghịch đảo (Trang 51)
Hình 2.7: Các từ được sắp theo thứ tự Phương pháp tính trọng số của từ - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.7 Các từ được sắp theo thứ tự Phương pháp tính trọng số của từ (Trang 54)
Hình 2.8. Mô hình xử lý cho hệ thống lập chỉ mục - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 2.8. Mô hình xử lý cho hệ thống lập chỉ mục (Trang 56)
Hình 3.1: Phân cụm các véctơ truy vấn - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.1 Phân cụm các véctơ truy vấn (Trang 65)
Hình 3.2: Hình thành cụm cha - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.2 Hình thành cụm cha (Trang 67)
Hình 3.3: Các tỉ lệ khác nhau có thể dẫn tới các cụm khác nhau - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.3 Các tỉ lệ khác nhau có thể dẫn tới các cụm khác nhau (Trang 73)
Hình 3.4: Khoảng cách Euclidean - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.4 Khoảng cách Euclidean (Trang 75)
Bảng 3.1: Bảng tham số - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Bảng 3.1 Bảng tham số (Trang 77)
Hình 3.5: Các thiết lập để xác định các ranh giới các cụm ban đầu - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.5 Các thiết lập để xác định các ranh giới các cụm ban đầu (Trang 83)
Hình 3.7: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi k-means - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.7 Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi k-means (Trang 86)
Hình 3.9: Cây CF được sử dụng bởi thuật toán BIRCH - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 3.9 Cây CF được sử dụng bởi thuật toán BIRCH (Trang 89)
Bảng trọng số của câu truy vấn: - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Bảng tr ọng số của câu truy vấn: (Trang 92)
Hình 4.1: Giao diện màn hình lập chỉ mục - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 4.1 Giao diện màn hình lập chỉ mục (Trang 98)
Hình 4.2: Giao diện màn hình cập nhập chỉ mục - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 4.2 Giao diện màn hình cập nhập chỉ mục (Trang 99)
Hình 4.2: Giao diện màn hình tìm kiếm - đồ án tốt nghiệp nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ li
Hình 4.2 Giao diện màn hình tìm kiếm (Trang 100)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w