báo cáo đề tài xây dựng thư viện số

44 277 0
báo cáo đề tài xây dựng thư viện số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 2 THƯ VIӊN SӔ QUÁCH TUҨN NGӐC ĐӚ QUANG VINH HÀ NӜI - 2008 3  Tính cҩp thiӃt  World Wide Web đã xâm nhұp vào cuӝc sӕng hàng ngày  Giao diӋn cho Web tiӃn triӇn tӯ duyӋt đӃn tìm kiӃm  DL là mӝt trong nhӳng hưӟng nghiên cӭu chính vӅ công nghӋ thông tin trên thӃ giӟi  Tәng quan hoҥt đӝng nghiên cӭu DL  Sӵ bùng nә vӅ nghiên cӭu DL, các dӵ án và chương trình DL ӣ Mӻ và trên thӃ giӟi  Trӑng tâm cӫa các dӵ án DL  VӅ công nghӋ: các phương pháp và công nghӋ mӟi vӅ lưu trӳ và tìm kiӃm thông tin 4 (tiӃp)  V͙ xã hͱi: khҧo sát CSDL tài liӋu và các vҩn đӅ xã hӝi liên quan tӟi DL  Hoҥt đӝng nghiên cӭu DL ӣ Mӻ  Có nhiӅu hoҥt đӝng và chương trình nghiên cӭu DL đang đưӧc tiӃn hành ӣ Mӻ và sӕ lưӧng tăng nhanh  2 dӵ án DL đưӧc tài trӧ bӣi chính phӫ Mӻ là Dӵ án thư viӋn sӕ - giai đoҥn 2 (DLI-2) và Dӵ án thư viӋn sӕ quӕc tӃ  Dӵ án thư viӋn sӕ DLI:  Dӵ án thư viӋn video sӕ Informedia cӫa Đҥi hӑc Carnegie Mellon CMU 5 (tiӃp)  Dӵ án dӏch vө thông tin sӕ cӫa Đҥi hӑc California ӣ Berkeley  Dӵ án Alexandria cӫa Đҥi hӑc California ӣ Santa Barbara  Dӵ án Interspace cӫa Đҥi hӑc Illinois ӣ Urbana- Champaign  Dӵ án UMDL cӫa Đҥi hӑc Michigan  Dӵ án InfoBus cӫa Đҥi hӑc Stanford  Các dӵ án DL chӫ yӃu khác ӣ Mӻ:  Thư viӋn quӕc hӝi (Library of Congress)  Dӵ án công nghӋ thư viӋn sӕ DLT cӫa NASA  Dӵ án FedStats cӫa hơn 70 cơ quan chính phӫ khác nhau cӫa Mӻ 6 (tiӃp)  Dӵ án thư viӋn sӕ cӫa IBM  Dӵ án thư viӋn sӕ California CDL  Chương trình thư viӋn sӕ D-Lib cӫa DARPA (the Defence Advanced Researh Project Agency)  Dӵ án MOA cӫa hai Đҥi hӑc Cornel và Michigan  Dӵ án Open Book cӫa Đҥi hӑc Yale  Dӵ án hӧp tác Red Sage cӫa Đҥi hӑc California ӣ San Francisco, Công ty AT&T Laboratories và Springer-Verlag  Dӵ án TULIP cӫa nhà xuҩt bҧn Elsevier Science Publisher 7 (tiӃp)  Hoҥt đӝng DL ӣ các nưӟc khác: Tұp trung vào các CSDL tài liӋu, nói riêng vào nâng cao truy cұp tӟi các CSDL tài liӋu vӅ lӏch sӱ, văn hoá và nghӋ thuұt: Canada, Anh, Pháp, Đӭc, Nhұt, Hàn quӕc, Singapore, Trung quӕc, Hӗng Kông, Đài loan, Australia, New Zealand 8 (tiӃp)  ViӋt Nam  Nhu cҫu nghiên cӭu DL bҳt đҫu tӯ khi hoҥch đӏnh chiӃn lưӧc phát triӇn thông tin - thư viӋn cho đӃn năm 2010, 2020, trưӟc xu thӃ cӫa sӵ chuyӇn hưӟng toàn cҫu sang xã hӝi thông tin  Xây dӵng DL lý tưӣng, đӝc lұp, vӟi vӕn tư liӋu hoàn toàn sӕ hoá, vӟi toàn bӝ dӏch vө chuyӇn sang phương thӭc điӋn tӱ, là không khҧ thi  Xu hưӟng sӁ xuҩt hiӋn nhiӅu thư viӋn điӋn tӱ là kӃt quҧ cӫa quá trình tin hӑc hoá, là các cәng vào thông tin và là mӝt bӝ phұn cӫa các thư viӋn lӟn truyӅn thӕng ӣ ViӋt Nam 9 (tiӃp)  Con đưӡng mà đҥi bӝ phұn thư viӋn sӁ đi là: kӃt hӧp các nguӗn tin truyӅn thӕng vӟi hiӋn đҥi, bә sung thêm các tҥp chí điӋn tӱ toàn văn trên CD-ROM, đһt mua các tҥp chí điӋn tӱ toàn văn trên mҥng, sӕ hoá mӝt phҫn vӕn tư liӋu, tӵ đӝng hoá các dӏch vө và tҥo điӅu kiӋn cho NSD chӫ đӝng khai thác thông tin  HiӋn nay, mӝt sӕ phҫn mӅm đưӧc cài đһt:  Giҧi pháp thư viӋn điӋn tӱ ILIB cӫa công ty CMC ӣ Thư viӋn Quӕc gia ViӋt Nam  Giҧi pháp thư viӋn điӋn tӱ LIBOL cӫa công ty Tinh vân ӣ Trung tâm Thông tin khoa hӑc và công nghӋ Quӕc gia  HӋ phҫn mӅm thư viӋn sӕ Greenstone cӫa dӵ án New Zealand Digital Library ӣ thư viӋn Đҥi hӑc Khoa hӑc tӵ nhiên TP Hӗ Chí Minh 10 I. TӘNG QUAN Vӄ THƯ VIӊN SӔ 1. ĐӎNH NGHĨA  Đ͓nh nghĩa 1.1 (Arms W.Y.): DL là mӝt kho thông tin có quҧn lý vӟi các dӏch vө liên kӃt, trong đó thông tin đưӧc lưu trӳ ӣ dҥng sӕ và có thӇ truy cұp qua mӝt mҥng.  Đ͓nh nghĩa 1.2 (Chen H., Houston A.L.): DL là mӝt thӵc thӇ liên quan tӟi sӵ tҥo ra các nguӗn tin và sӵ hoҥt đӝng thông tin qua các mҥng toàn cҫu.  Đ͓nh nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dӳ liӋu mҥng vӅ tài liӋu văn bҧn sӕ, ҧnh, âm thanh, dӳ liӋu khoa hӑc và phҫn mӅm là lõi cӫa Internet hiӋn nay và các kho dӳ liӋu sӕ có thӇ truy cұp phә biӃn vӅ tҩt cҧ tri thӭc cӫa loài ngưӡi trong tương lai. [...]... các tài nguyên NSD truy cұp trong thư viӋn truyӅn thӕng Đ͓nh nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đӕi tưӧng sӕ, bao gӗm văn bҧn, video và audio cùng vӟi các phương pháp truy cұp và tìm kiӃm, lӵa chӑn, tә chӭc và bҧo trì Tóm lҥi, thư viӋn sӕ là mӝt kho thông tin sӕ khәng lӗ có tә chӭc vӟi các dӏch vө liên kӃt qua mҥng LÝ DO CHÍNH XÂY DӴNG DL Thư viӋn sӕ phân phát thông tin tӕt hơn thư. .. viӋn sӕ  Quy lu̵t ch͑ mͭc tài li͏u trong DL: Ӣ hҫu hӃt các ӭng dөng, IF thӵc hiӋn tӕt hơn SF trong phҥm vi cӫa cҧ hai kích thư c chӍ mөc và tӕc đӝ truy vҩn IF nén là phương pháp chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn các tài liӋu văn bҧn có đӝ dài có thӇ thay đәi 2.5 CÁC MÔ HÌNH NÉN IFID 2.5.1 Đһt vҩn đӅ Khҧo sát các mô hình và phương pháp mã hoá đӇ nén IFID CSDL tài liӋu trong thư viӋn sӕ Chìa khoá cӫa... thuұt ngӳ 3 các tài liӋu dài vӟi nhiӅu thuұt ngӳ Đ͓nh nghĩa t̯n sṷt bên trong tài li͏u cӫa thuұt ngӳ fd,t : Sӕ đӃm chӍ thӏ sӕ lҫn thuұt ngӳ xuҩt hiӋn trong tài liӋu Ví dө: Tính đӝ tương tӵ đӕi vӟi truy vҩn mүu trӣ thành S(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) (1, 1, 1, 1, 0, 0, 0, 0) =2 30 (tiӃp) Tәng quát hơn, thuұt ngӳ t trong tài liӋu d có thӇ đưӧc gán mӝt tr͕ng s͙ tài li͏u - thu̵t... tác hoһc truyӅn thông giӳa các cá thӇ 16 (tiӃp) 7 Đӏnh nghĩa hình thӭc thư viӋn sӕ Đ͓nh nghĩa 1.41: Mӝt thư vi͏n s͙ là mӝt bӝ bӕn (R, MC, DV, XH) trong đó: R là mӝt kho; MC là mӝt mөc lөc siêu dӳ liӋu; DV là mӝt tұp dӏch vө chӭa tӕi thiӇu các dӏch vө chӍ mөc, tìm kiӃm và duyӋt; XH là mӝt cӝng dӗng NSD thư viӋn sӕ 17 II CHӌ MӨC TÀI LIӊU VĂN BҦN 2.1 MӢ ĐҪU  Đ͓nh nghĩa 2.1 (tͳ đӇ nhұn dҥng đӕi vӟi chӍ... bҧn Mӛi mӝt tài liӋu có mӝt ký sӕ liên kӃt, mӝt xâu bit bҳt nӝi dung tài liӋu theo mӝt nghĩa nào đó  TӋp ký sӕ bitslice: Sӵ truy cұp SF có thӇ đưӧc tăng nhanh hơn bҵng cách dùng kӻ thuұt bitslicing, tӭc là kӻ thuұt chuyӇn vӏ ma trұn bit 23 (tiӃp) 2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHӌ MӨC  Phương pháp chӍ mөc tӋp đҧo IFID và chӍ mөc tӋp ký sӕ SFID là hai phương pháp chӍ mөc chính tài liӋu trong thư viӋn sӕ... indexing) 28 (tiӃp) 3.3 TRUY VҨN XӂP HҤNG RQ 3.3.1 So khӟp toҥ đӝ ĐӃm sӕ thuұt ngӳ truy vҩn xuҩt hiӋn trong mӛi mӝt tài liӋu 3.3.2 Tích trong đӝ tương tӵ Quá trình đưӧc hình thӭc hoá bҵng mӝt tích trong cӫa mӝt vectơ truy vҩn vӟi mӝt tұp vectơ tài liӋu Đӝ tương tӵ cӫa truy vҩn Q vӟi tài liӋu Dd đưӧc biӇu diӉn như sau: S(Q, Dd) = Q Dd (3.1) trong đó: phép toán là phép tích trong Tích trong cӫa hai... bҧn chính, trong đó mӛi mӝt con trӓ trong thӵc tӃ là sӕ tài liӋu mà thuұt ngӳ đó xuҩt hiӋn IL đôi khi đưӧc coi là mӝt danh sách mөc lөc và các con trӓ là mөc lөc Đây là phương pháp chӍ mөc tӵ nhiên nhҩt, gҫn tương ӭng vӟi chӍ mөc cӫa mӝt cuӕn sách và vӟi cách dùng mөc lөc truyӅn thӕng 19 (tiӃp) Bҧng 2.2 - Văn bҧn mүu; mӛi dòng là mӝt tài liӋu TÀI LIӊU 1 2 3 4 VĂN BҦN Information retrieval is searching... thuұt ngӳ t đưӧc tính như sau: (3.5) εw ™w tγQ q,t d ,t trong đó: ft là sӕ tài liӋu chӭa thuұt ngӳ t w t ! 1 ft 31 (tiӃp) Nhân tӱ chu̱n hoá đӇ không kӇ đӃn phҫn đóng góp cӫa các tài liӋu dài Do đó, luұt tích trong đánh giá đӝ tương tӵ bҵng § tQ w q , t ™ w d, t (3.10) S(Q, D d ) ! Dd trong đó D d ! § i f d ,i là đӝ dài cӫa tài liӋu Dd 3.3.3 Mô hình không gian vectơ Đӝ tương tӵ đӕi vӟi mӝt cһp vectơ... dҥng đӕi vӟi chӍ mөc): là mӝt dãy cӵc đҥi cӫa các ký tӵ chӳ và sӕ, nhưng giӟi hҥn tӕi đa 256 ký tӵ và tӕi đa 4 ký tӵ sӕ  Bҧng 2.1 - CSDL TREC Sӕ tài liӋu N 741856 Sӕ thuұt ngӳ F 333338738 Sӕ thuұt ngӳ riêng biӋt n 535346 Sӕ con trӓ chӍ mөc f 134994414 Kích thư c tәng (MB) 2070.29 18 (tiӃp) 2.2 CHӌ MӨC TӊP ĐҦO IFID  Đ͓nh nghĩa 2.2 (Đӛ Trung Tuҩn): Ch͑ mͭc là bҧng dӳ liӋu hay cҩu trúc dӳ liӋu dùng đӇ... NSD 3 ChӍ mөc và Tìm kiӃm thông tin 4 Quҧn trӏ và bҧo trì CSDL 5 Tính liên tác CHӌ MӨC & TÌM KIӂM THÔNG TIN 1 Siêu dӳ liӋu mô tҧ 2 ChӍ mөc tӵ đӝng 3 Xӱ lý ngôn ngӳ tӵ nhiên 4 Tài liӋu phi văn bҧn 13 (tiӃp) Hình - Máy tính trong thư viӋn sӕ (W.Y.Arms) Kho lưu trӳ NSD HӋ thӕng đӏnh vӏ HӋ thӕng tìm kiӃm 14 (tiӃp) 2 Mô hình hình thӭc cho DL 1 Cơ sӣ toán hӑc 2 Dòng Đ͓nh nghĩa 1.14: Mӝt dòng là mӝt dãy có . lưӧng tăng nhanh  2 dӵ án DL đưӧc tài trӧ bӣi chính phӫ Mӻ là Dӵ án thư viӋn sӕ - giai đoҥn 2 (DLI-2) và Dӵ án thư viӋn sӕ quӕc tӃ  Dӵ án thư viӋn sӕ DLI:  Dӵ án thư viӋn video sӕ Informedia cӫa. thư viӋn điӋn tӱ ILIB cӫa công ty CMC ӣ Thư viӋn Quӕc gia ViӋt Nam  Giҧi pháp thư viӋn điӋn tӱ LIBOL cӫa công ty Tinh vân ӣ Trung tâm Thông tin khoa hӑc và công nghӋ Quӕc gia  HӋ phҫn mӅm thư. bҧo trì.  Tóm lҥi, thư viӋn sӕ là mӝt kho thông tin sӕ khәng lӗ có tә chӭc vӟi các dӏch vө liên kӃt qua mҥng.  LÝ DO CHÍNH XÂY DӴNG DL Thư viӋn sӕ phân phát thông tin tӕt hơn thư viӋn truyӅn

Ngày đăng: 12/04/2015, 14:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan