Nghiên cứu cấu trúc một số cơ sở dữ liệu thông tin khoa học và công nghệ quốc tế quan trọng để có thể cung cấp thông tin theo từng phân nhóm ngành sâu và tổ chức trên mạng

77 0 0
Nghiên cứu cấu trúc một số cơ sở dữ liệu thông tin khoa học và công nghệ quốc tế quan trọng để có thể cung cấp thông tin theo từng phân nhóm ngành sâu và tổ chức trên mạng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

SG KHOA HOC CONG NGHE VA MOI TRƯỜNG TRUNG TAM THONG TIN KHOA HQC CONG NGHE BAO CAO DE TAT NGHIÊN CỨU CẤU TRÚC MOT SO CSDL THONG TIN KH-CN QUOC TE QUAN TRONG DE CÓ THỂ CUNG CAP THONG TIN THEO TUNG PHAN NHOM NGANH SAU VA T6 CHUC TREN MANG Thành phố Hồ Chí Minh - 07/2003 MỤC LỤC PHẦN I : GIỚI THIỆU 1) ĐẶTVẤNBỂ MUCTIBUCUADETAL a) Lj để tiến hành nghiên cửu b) Mục tiêu ey thé PHAN Ii: - KHẢO SÁT NOI DUNG THONG TIN, CAU TRUC CSDL A CSDLCAC CONG TRINH NGHIEN cou CONG NGHE(COMPENDEX) KHAO SAT NOI DUNG THONG TIN, CAU TRUC CSDL T.1) Giới thiệu đĩa CD-ROM cơng trình nghiền cứu cơng nghé (COMPENDEX) 12) Khảo sát nội dung thông tin nghiên cứu, phần tích cấu trúc liệu ‘CD-ROM COMPENDEX 12.1) Cấu trúc mẫu tin mẫu Hàm m 1.2.2) Bảng d liu ca CĐDL Compendex gc 12.3) Ơ ngha nội dung trường liệu CŨ gốc _— 1i NGHIÊN CỨU PHƯƠNG PHÁP VÀ KỸ THUẬT TRÍCH DỮ LIỆU 1.1) Nguyễn tắc chung để phân trích liệu theo rừng chuyên ngành hẹp, 11.2) Các bước: tiến hành Uh TO CHUC THIET KE LAI CSDL BA pugertTRÍCH UL.) Nguyen he TIL2) Phân tích hệ thống 1II.3) Từ điển liệu 11.4) Huéng dn sif dung chương trình phân.ngành Compendex IILS) Hướng dẫn cách sử dụng chương tình tạo mục CSDL SANG CHE M¥ (U.S PATENT) L KHAO SAT NOI DUNG THONG TIV, CAU TRUC CSDL L1} Giới thigu dia CD-ROM U.S PATENT sáng chế Mỹ 1.2) Mö tả cấu trúc CSDL Sing ché My (U.S Patent) ” „ Il NỘI DŨNG PHƯƠNG PHÁP VÀ KỸ THUẬT PHẢN TRÍCH DỮ LIỆU „ Tỉ.) Nguyên tắc chung để phần trích đữ liệu theo chuyên ngành hợp 11.2) Các bước tiến hành 11.2.1) Xudi tiệu từ đĩa gốc sang Foxpro 1.2.2) Phản tích hệ thống, ° 11.3.3) Tự điển đữ liêu TH XÂY DỰNG CÔNG CU PHAN NGANH VÀ TẠO CHỈ MỤC TH.) Mặt tiêu THL2) Chỉ tiêu phân loại ‘sing che : THL31 Sơ đổ hoại động TE.) MO td đối tượng If1.5) Hoạt động mô tĩnh 1IL€) Sơ để chức hình TIL6.1) Màn hình 1IL6.3) Chức nẵng C-CSDL CÁC CƠNG TRÌNH NGHIÊN CỨU CƠNG NGHỆ TÌN HỌC, ĐIỆN, ĐIỆN TỬ VIỄN THÔNG (IEEE) KHAO SAT NOI DUNG THONG TIN, CAU TRUC CSDL 1.1) Gigi thigu CD-ROM IEL 12) Khảo sắt nội dung thơng tín nghiên cứu, a phần tích cấu trúc để liệu wren CD-ROM IEEE 11 NỘI DUNG PHƯƠNG PHÁP VÀ KỸ THUẬT PHAN TRICH DU LIỆU Wy Mod 12) Nguyen ede chung để phân tích đữ liệu theo chuyên ngành hẹp 11-3) Mơi trường ứng dụng để thực thí chương tình trch xuất CD TEEE oe ` v aL wd 4 cc AS 1H TỔ CHỨC THIẾT KẾ LẠI CSDL ĐÃ ĐƯỢC TRÍCH TÚ-1) Phân tích hệ thống T21 Tự điển liệu 113) Cách sử dụng, C.CSDL CAC NGANH KHOA HOC (SCIENCE CITATION INDEX) KHẢO SÁT NỘI DŨNG THONG TIN, CẤU TRÚC CSDL 1D Giới thiệu 1.) Cấu trúc đữ liệu CSDL Science Citation Index 11 NỘI DŨNG PHƯƠNG PHÁP VÀ KY THUAT PHÂN TRÍCH DŨ LIỆU 1.1) Chiến lược bước xuất liệu từ đĩa gốc tip tin dang text 1I.L.L) Chiến lược xuất tiệu ° — 1.1.2) Các bước thực xuất liệu từđa gốc ‘U.1.3} Tai chọn PlainText ? = Hang 1H) CÁCH TỔ CHỨC LẠI CƠ SG DU LIEU SCIENCE CITATION INDER ULL} Cau cote dt liệu file text UL2 TS chic lai a2 Liga cho CSDL Science Citation Index UOL2.L) PhS tích hệ thống, 83138 IIL-4) Chương trình phần ngành hẹp TTLã) Hướng dẫn sử dụng chương trình tạo mục TH.>.3\ Tự điển liệu 1.31 Xây dựng công cụ nhấp liệu tự động rữ File text vào CSDL SQL Server TỈL.3.1) Mục tiêu 1H1.3.3) Cách tẩy thông tintừ liệu thơ TH.3.3) Những khó khăn gặp phải phần tích liệu thỏ TỊ.3.3) Mơ hình xử lý „ TIL3 §) Mơ tả đối tượng IL} 6y Hoạt động ca mỗ hình, IIL3.7) Sơ đổ chúc hình THỊ 3.7.1) Màn hình 1H.3.7.2) Chức nắng THỊ Xây đựng công cụ phần ngành tạo mục TĩL.3.1) Mục tiêu 1.4.2) Chỉ tiếuphân ngành [M.4.3) Sơ đổ hoạt động, TỊL.4 4) Mô tả đổi tượng 1H45) Hoạt động mơ hình 1H.4.6) Sơ đổ chức hình HL.4.6.1) Màn hình, 01.4.6.2) Chue PHAN IIL KHAO SÁT VẢ XÂY DỰNG CHƯƠNG TRÌNH TÌM KIẾM CAC CSDL TREN CD A KHAO SÁT VÀ LỰA CHỌN CƠNG CỤ HỖ TRỢ TÌM KIẾM NHANH TRÊN CD LU Tres MS Access 1.2) Trén cong cu Textb - XÂY DỰNG CAC UNG DUNG TIM KIEM TREN CD fev XÂY DỰNG CƠNG CỤ TÌM KIẾM CSDL CÁC CƠNG TRÌNH NGHIÊN CỮU CƠNG NGHỆ TRÊN CD 1.D 16 7 T8 Tạo mục với TextDb 1.2) Thiết kế giao điện L3) Mô tả tiết hình 2) Man hình Tìm kiếm cheo từ điển bì Mãn hình Tim ang ca rey cl Maa hinh Ket d) Mao blah Két qua tiết TỊ XÂY DỰNG CƠNG CỤ TÌM KIẾM CSDL SÁNG CHẾ MỸ P TREN €D 8Ð) (.D Tạo mục với TesiDb, 89 1.2) Thiết kế giao diện (3) Mơ tả chi tiết hình 3) Mãn hình Từ kiếm theo từ điển bị Màn hình Tìm nàng caO ©) Màn hình Kết 92 92 92 % bì đ) Màn hình Kết tiết 1t, XÂY DỰNG CƠNG CỤ TÌM KIẾM TRÊN CSDE CÁC CƠNG TRÌNH NGHIÊN CỨU cone NGHỆ ĐIỆN, ĐIỆN TỬ, TÍN HỌC, VIỄN Y THƠNG — 101 TH.L) Tạo mục với TezrDb H3) Thiết kế giao diện ” 101 104 HH3) Mô tả tiết hình -.104 3) Màn hình Tim kiếm theo từ ios b) Man hinh Tim ndng cao ea MA g) Mân hình Kết " ` 108 3j Màn hình Kết đết os 109 TY, XAY DUNG CONG CU TM KIBM CSDL CAC NGANH KHOA HOC TREN CD Hồ TV 1) Tuo chi myc voi TextDb, mm 1V.) Thiết kế giao điện sn 13 TV 21) Sơ đổ liên kết hình : se see 113 1V.3.2) Mô tả ết hình ow ¬ -H3 31 Mân hình Tìm kiểm theo từ điền on 13 by Maa binb Tim nag cao “m1 H6 ey Maa hình Kết " a 118 dải Màn hình Kết tiết PHAN IV KHAO SAT VA XÂY DỰNG CHƯƠNG TRÌNH TÌM KIẾM CSDL TRÊN WEE A KHAO SAT CHỨC NẴNG CHÍNH KHI THUC HIỆN TÌM KIỂM TREN WEB 1i CÁCH CHỌN CƠNG CỤ HỖ TRỢ TÌM KIẾM NHANH 1.1) Sif dung Fulltext Index rên Microsoft SQL Server 2000 112) Sử dụng TextDB version 5.0 uy 113) Hướng giải sec 11.4) Phân tích khâ thí việc thiết kế + loại CSpL Compendex WEB us Patent Science Citation vàIEEE 114.1) Mỡ đầu TL.4.3) Hiện trang T+.31 Hướng giải B CSDL CÁC CƠNG TRÌNH NGHIÊN CỨU CƠNG NGHỆ (COMPENDEX) PHÁN TÍCH HỆ THỐNG LL} Tim kim thea wt điển 12) Tim kiếm nâng cao 11 ĐẶC TẢ YÊU CẬU 111) Yêu cầu chức 1L.) Đối tượng phục vụ THL1-3) Các chức của.hệ thơng 11.2) u cầu HL THIET KE a phí chức nắng TILU Tự điển liện ULL.) Bang đữ liệu 1II.1.3) Các bảng liệu xây dựng từ điển we 1H1.2) Cách xây dựng từ điển liệu ` TII.3) Cách tạo Fuiltext Search hỗ trợ tìm.Xiểm nbani THL3.1) Giới thiệu 1.3.2) Các bước tạo Fulltexi “Index T133) Các trường để liệu tạo index 1V, THIẾT KẾ GIÁO DIỆN = 1Y.1) Sơ đổ liên kết hình TY ?) Mơ tể tiết màu hành - V.2.1) Màn hình Tìm kiếm theo từ điển V.2.2) Màn hình tìm kiếm nâng cao TV.2.3) Màn hình kết V.3.3) Màn hình kết tiết c Y ĐÁNH GIÁ KẾT QUÁ THỦ NGHIỆM C.CSDL SÁNG CHẾ MỸ PHAN TICH HE THONG LU) Tâm kiếm theo từ điển 12) Tìm kiếm nắng cao ĐẶC TẢ YÊU CẦU 1-1) Yêu cầu chức năng, 1.1.1) Đối tượng phục vụ UL.L.3) Các chức thống, 11.2) Yéu cẩu phi chức Ud THIET KI MLA) Ty dién at liệu TILL) Bang liệu TL 1.3) Các bảng để liệu xây đựng từ điển TH.?) Cách xây dựng từ điển liệu TH.3) Cách tạo Ftlltext Search hỗ trợ tìm kiếm nhanh MUL3 1} Gidt thiệu T3.) Các bước tạo Futltext Index L3 3) Các trường liệu tạo index 1V, THIẾT KẾ GIÁO DIỆN TY.L) Sơ để liên kết Hình „ TV.3) Mơ tả chí tiết hình {V.2.1) Màn hình Tìm kiếm theo từ điển IV.2/2) Màn hình tìm kiểm nẵng cao v2 323) Màn hình kết -) Màn bình kết tiết Y ĐÁ NH GIÁ KẾT Q THỦ NGHIỆM Ð,.CSDL CÁC CƠNG TRÌNH NGHIÊN CỨU CÔNG NGHỆ TIN HỌC, ĐIỆN, ĐIỆN TỬ VIÊN THÔNG (IEEE) 15? PHAN TICH HE THONG AS? Lb Tin kid theo ti điển ST 1.2) Tìm kiếm nẵng €8g sáo nnn seinen ‘ST H, DAC TA YEU CAU 158 158 11.1) Yêu cầu chức TỊ.L1) Đối tượng phục vụ 1Ị.LL2) Các chức nắng hệ thông 11.2) Yêu cầu ghi chức THỊ THIẾT KE - 1L.) Tự điển dỡ liệu HLL.L) Bang dit ligu chénh TỊI.L.2) Các bảng liệu xây dựng từ điển TH) Cách xảy đựng từ điển liệu THL3) Cách tạo Fulltext Search hỗ trợ từa kiếm nhanh "- ee t58 158 158 ASD 139 ASD 160 162 162 TIL.3.L) Giới thiệu 1V.3.2) Các bước tạo Fulltext -ladex IIL3.3) Các trường liệu tao index, IV THIẾT KẾ GIÁO DIỆN V.1) Sơ đổ liên kết tác hình 1Y.2) Mơ tả chủ tiết hình « TV.2.1) Màn hình Tùm kiểm theo từ điển „ vs IV.3.2) Màn hình tìm kiếm nâng cao TV.2.3) Màn hình kết ÍV3.3) Min hình kết tết Y ĐÁNH GIÁ KẾT QUÁ THỦ NGHIỆM CSDL CÁC NGÀNH KHOA HỌC (SCIENCE CITATION INDEX) PHÂN TÍCH HỆ THỐNG L1) Tìm kiếm theo từ điển L2) Tìm kiếm nâng cao 11 ĐẶC TẢ YÊU CẬU 11.1) Yêu cẩu chức 11.1 1) Đối tượng phục vụ (L3) Các chức nâng cđa hệ dhống HL THIET ULI Ty điển dỡliệu THL.1.11 Bằng liệu H1.) Các bảng đữ liệu xây dựng tiễn 1IL.?) Cách xây dựng từ điển iiệu - 1IL.3) Cách tạo Fulltext Search hỗ trợ tìm kiếm nhanh TỊ.3 L) Giới thiệu HIL3.3} Các bước tạo Fulltext Index (113.3) CSc trường đữ liệu tạo index 1V Thiết kế giaa diện TY.1) §ø để liên kết hình V2) Mơ tả chí tiết hình 1V.3.1) Mãa hình Tim Kiếm theo tif V2.2) Manbinh tim kiém nâng cao V.23) Man hình kết dién 1.21) Màn hình kết tiếu ¿ V BANH GIA KET QUA THU NGHIEM PHAN V BAO CAO CAC SAN PHAM ĐÃ TẠO RA VÀ CÁC ĐƠN VỊ ĐÃ CHUYỂN GIÁO, DANH SÁCH CÁC DIA CD TAO RA — 11} CSDL cdc cong arinah nghién citu công nghệ điện, diện tử, tin học, ViỄn thơng 12) CSDL cơng trình nghiên cứu cơng nghệ 3) CSDL phát sáng chế Mỹ II DANH SÁCH CÁC BƠN VỊ CHUYỂN GIÁO 190 oe 190 PHAN I: GIGI THIEU 1) ĐẶT VẤN ĐỀ Việc tổ chức trích xuất CSDL theo lĩnh vực hẹp từ CSDL lớn tổ chức CD Trung tâm thông tin lớn Việt nam quan tâm từ khoảng năm trước như: - Trung tâm Thông tin Tư liệu Quốc gia thuộc Bộ KH-CN-MT - Trung tâm Thông tin Sở hữu Công nghiệp thuộc Bộ KH-CN-MT - Trung tâm Thông tin KH-CN TP.HCM Năm 1999 doàn cán Sở KH-CN-MT TP.HCM Ông Nguyễn Trọng đầu thăm Trung Quốc trở vẻ cho biết Ủy ban Khoa học-Kỹ thuật TP Thanh Đảo — Trung Quốc tổ chức thực để chuyển giao thông tin sáng chế để phục vụ doanh nghiệp, Tuy nhiên việc chuyển giao tiếp thu công nghệ không đơn giản cách trở vẻ địa lý ngôn ngữ vấn đề kinh phí cử cán ta sang tốn Từ năm 1999, Trung tâm Thông tin KH-CN TP.HCM tiến hành nghiên cứu vã thực trích xuất CSDL tóm tắt báo cáo cơng trình nghiên cứu cơng nghệ, nhiên kết cịn chưa sâu với loại CSDL Từ đến Trung tâm Thông tin KH-CN TP.HCM tiếp tục nghiên cứu giải vấn để Năm 2000 Trung tâm Thông tin KH-CN TP.HCM thu kết bước đầu, nghiên cứu trích xuất số loại CSDL khác Điều cho thấy có khả giải trọn vẹn vấn để bước đầu trích xuất trọn vẹn số lĩnh vực theo yêu cầu 2) MỤC TIỂU CỦA ĐỀ TÀI a) Lý để tiến hành nghiên cứu Trong q trình hoạt động cung cấp thơng tin phục vụ theo yêu cầu khách hàng Trung tâm Thông tín KH-CN, chúng tơi rút nhận xét sau: » Nhu cdu người dùng CSDL lĩnh vực hẹp : hầu hết đối tượng có nhụ cầu quan tâm đến thơng tin theo lĩnh vực sở liệu nhà sảa xuất cung cấp lại lớn, bao gồm nhiều lĩnh vực khác "_ Khó khăn việc chuyển giao: CSDL có dung lượng lớn nằm rải rác nhiều CD ROM Việc tra cứu sử dụng thông tin bắt buộc người dùng phải đến Trung tâm Thông tin KH-CN để tra cứu chỗ, điều chưa tạo thuận lợi cho người sử dụng "Các sở liệu CD ROM Trung tâm Thông tin KH-CN phép mua sở liệu dùng tra cứu máy đơn, giấy phép cấp cho nhiều người dùng có giá bán cao Hơn phiên bán cho việc cài đặt sở liệu lên mạng nhằm mục đích phục vụ rộng rãi tồn xã hội địi hỏi phí cao đến mức nằm ngồi khả cấp kinh phí Trung tâm Thông tin Khoa học ~ Công nghệ b) Mục tiêu cụ thể Nghiên cứu cấu trúc số CSDL thông tin khoa học, công nghệ quốc tế quan trọng để làm sở cho việc tổ chức, trích xuất nhằm khai thác cách hiệu qua, phục vụ công tác nghiên cứu, triển khai ứng dụng 1) Tạo cơng cụ quy trình trích xuất liệu theo lĩnh vực hẹp khác 2) “Tạo công cụ tra cứu CD cho CSDL trích xuất theo lĩnh vực hẹp 3) Trích xuất tạo 200 CD tra cứu 200 lĩnh vực khoa học công nghệ khác 4) Xây dựng Website tìm kiếm thơng tin loại CSDL quốc tế quan trong: “ CSDL tóm tắt báo cáo cơng trình nghiên cứu cơng nghệ (Compendex) 1.210.900 biểu ghi = CSDL tém tất sáng chế Mỹ (PatenD 2.135.753 biểu ghi *CSDL tóm tắt báo cáo cơng trình nghiên cứu tin học-điện-điện n théng (IEEE) 615.720 biểu ghí * C§DL tóm tắt báo cáo ngành khoa học (Science Citation) 3.402.577 biểu ghi “Thông tin tiết trường CSDL Science Citation Index Tên trường, : | | Authes | ji | Tite Full source L3 —— | Ị | | |IDS/BookNo No Related Biéu ghis Trường chứa tên tác giả | bai bdo, | bai bio có nhiều tíc giả Tên tác gid xác định bằng, Vi dụ: Ebel-H Svagera-R Ebet-MF bao gém tic gid Ebel-H,Svagera-R Ebel-ME † Tiêu để | bai báo Chứa thông tin tiêu để tạp chí, năm phát hành, số phát hành số trang, Ngôn ngữ sử dụng báo Loại tài liệu Í Mã số IDS sách “Tổng số biểu ghỉ liên quan đến báo No cited references | Téng sd cai liệu tham kbdo Nơi làm việc tác giả bao gồm tên quốc gia tên công ty |_ mã vùng Addresses C10 | Autherkeywerds - { Trường bao gốm từ khố báo | thường từ khố cho biết nội dung báo | ! Ui Í KeyWerds Plus | | 12 [ 13 tl thích khoảng trắng Ị Giải |AbsmatL | Cited references Ì nói Trường bao gồm từ khố tài liệu tham khảo |_ Nội dụng tóm tất cũa báo Những trích dẫn mà báo tham khảo đến Mơi trích dẫn bất đầu đồng mới, Sau trình nghiên cứu đữ liệu gốc từ CD nhà cung cấp, ta thấy việc lĩnh vực hẹp CSDL Scienee Ciaion dựa vào trường Journal Trường khơng có cấu trúc CSDL Science Citation, ly chọn trường Journal giải thích phần “7ổ chức lại đữ liệu cho CSDL Science Ciation Index” 61 II NỘI DUNG PHƯƠNG PHÁP VÀ KỸ THUẬT PHẦN TRÍCH ĐỮ LIỆU 1LL) Chiến lược bước xuất liệu từ đĩa gốc tập tin dang text 1.1.1) Chiến lược xuất đữ liệu Để có tất liệu đĩa Seience Citation Index ta tim kiếm theo trường Full Journal Title va sit dung I số ký hiệu đặc biệt Tìm kiếm theo bảng chữ từ A đến Z lấy hết liệu khơng sót l báo Ví dụ tìm kiếm tất báo bắt đầu ký tự A ta sử dụng cú pháp sau để tìm kiếm Cú pháp : A* Sau ta sử dụng cơng cụ nhà sẵn xuất cung cấp xuất { tập tin định đạng kiểu text Cứ tiếp tục thao tác ký tự Z Việc xuất đữ liệu tập tỉn dạng text xuất tất lĩnh vực lúc sau lưu vào CSDL SQL Server để lưu trữ 1L1.2) Các bước thực xuất dử liệu từ đĩa gốc Công cụ xuất liệu nhà sản xuất cho phép người sử dụng xuất đỡ liệu ầm kiếm nhiều kiểu trình bày khác kiểu : plain text, comma-delimited, procite, Dialog-Medline, NLM-Medline, EndNote, Reference Magic 3.0, Reference Magic 6.0 11.1.3) Tai chon PlainText ? Sau tiến hành khảo sắt va đưa vào thử nghiệm đĩa CD mẫu ta thấy cách chọn Plaint text để để nhận diện I báo thuận lợi cho việc phân trích sau này, Bởi xuất liệu theo kiểu PlainText cách trình bày biểu ghi theo dang thư mục có cấu trúc, cịn định dạng khác khó nhận diện nội dung thơng tin trường nhận diện tồn biểu ghi Bước : Tìm kiếm báo bất đầu bing ky uf A trường Full oucnal Tide Enter Madly Query Ree[faimunaids — T] [xI | _Dietionayy Units | | Fos Query [1 F2] of enter full journal names as: JAMAJGURNAL-OF -THE-AMERICAN-MEDICAL-ASSOCIATION Fo Lo Hm] =Inl x| Limits Bước | esults —- Fill journal tile uất liệu vừa tìm tập tin định dang text 63 File name: te Foldar: KiAcdeoin ec @ COEWIN = Hep Network Save le as type: [Test Files (.tat} ~ Save What Search Results for Set iti Hecort View Full Record Tagged Sil i) = Drives: ic WINK ~ i File Format [Plan Text 4) Cited Bet} Bibl + ed Tagg HD CÁCH TỔ CHỨC LẠI CƠ SỞ DỮ LIỆU SCIENCE CITATION INDEX HI.L) Cấu trúc đữ liệu file text Các báo sau xuất có định đạng text Tập tin đạng text loại liệu có cấu trúc Mỗi biểu ghỉ cách dòng trống, trường biểu ghỉ bao sôm tên trường sau dấu “2”, sau đấu “;" liệu trường Các trường khơng có liệu bỏ qua Ví dụ : Authors : Matswi-K Taniguchi-S Yoshimura-T Title : Correlation of the Intrinsic Clearance of Donepezil (Aricept(R)) Between in-Vivo and in-Vitro Studies in Rat, Dog and Human Full source : XENOBICTICA 1999, Vol 29, Iss 11, pp 1059-1072 Language : English Document type: Article IDS/Book Na.: 259RW No, Related: 20 64 No, cited references: 27 Addresses: EISAI-&-CO-LTD, LABS, CHOME, DRUG DRUG DYNAM SAFETY RES IBARAKI, OSAKA SECT, & DISPOSIT 1-3 RES TOKODAI 3002635, JAPAN Cited references: BAARNHIELM-C-1986-ACTA-PHARMACOL-TOX-V59-P I 13 BOXENBAUM-H- 1980-J-PHARMACOKINET-BIOP-V8-P 165 CHIBA-M-1990-BIOQCHEM-PHARMACOL-V39-P367 CHIBA-M-1990-J-PHARM-SCI-V79-P28| DEDRICK-RL-1973-J-PHARM-SCI-V62-P882 GILLETTE-JR-1984-PHARMACOKINETICS-MOD-P235 HANANO-M-L987-TOPICS-PHARM-SCI- (98-P63 HOUSTON-JB-1994-BIOCHEM-PHARMACOL-V47-P 1469 JOLY-JG-1975-DRUG-METAB-DISPOS-V3-P577 KAMATAKLT-1974-JAP-J-PHARM-V24-P 195 LIN-JH-1978-J-PHARMACOKINET-BIOP-V6-P327 LIN-JH-1982-J-PHARMACOKINET-BIOP-V 10-P649 LOWRY-OH-1951-J-BIOL-CHEM-V 193-P265 MATSUI-K-1999-UNPUB-A BSORPTION-DIS PANG-KS- 1994-HDB-EXPT-PHARM-P101 PANG-SK-1977-]-PHARMLACOKIN-BIOPHA-V5-P681 RHO-JP-1997-PFORMULARY-V32-PT ROBERTS-MS- 1986-]-PHARMACOKINET-BIOP-V L4-P227 ROBERTS-MS-1986-J-PHARMACOKINET-BIOP-V 14-P289 ROBINSON-PJ-1988-J-PHARMACOKINET-BIOP-V 16-P229 ROGERS-SL-1998-ARCH-INTERN-MED-V 158-P1021 ROWLAND-M- 1973-J-PHARMACOKIN-BIOPHA-V {-P123 SUGIYAMA-Y-1989-XENOBIOTIC-METABOLIS-P235 WILKINSON-GR-1975-CLIN-PHARMACOL-THER-V 18-P377 WILKINSON-GR-1987-PH ARMACOL-REV-V39-PL YAMANISHI- Y-1990-B ASIC-CLIN-THERAPEUT-V2-P409 YAMAOKA-K-1981-J-PHARMACOB{O-DYNAM-V4-P879 5- H12) Tổ chức lại liệu cho CSDL Science Citation Index Sau nắm rõ tiết loại, kích thước ! trường liệu tổng số trường liệu có đĩa gốc ta tiến hành xây dựng lại sở dược liệu để lưu trữ liệu trích Cơ sở liệu loại liệu quan hệ lưu trữ SQL Server, dược tổ chức dạng theo năm Bên bao gồm 14 trường thông tinbổ sung thêm l trường so với liệu gốc trường Journal Thông tin trường Joumal lấy từ trường Full Source bỏ bớt âm xuất bảng, số trang số phát hành TIL.2.1) Phân tích hệ thống Mơ tả thuộc tính: a) Bảng liệu : e_ Scienee: lưu trữ tồn thơng tin liệu ngành khoa học, bao gồm: Tác giả, Tiêu để, Nguồn tài liệu, Ngôn ngữ, Loại tài liệu, Số sách IDS, Số mẫu tin liên quan, Số tài liệu tham khảo có liên quan, Địa tác giả, Từ khóa tác giả, Từ khóa thêm vào, Tóm tắt Tài liệu tham khảo, Bài báo o b) Các bảng mục trường tìm kiếm theo từ điển: Author: lưu trữ tên toàn tác giả sở đữ liệu ngành khoa học, tên tác giả lập theo chi mục JTournal: lưu trữ tên toàn báo sở liệu ngành khoa học, © tên báo lập theo mục Keyword: lưu trữ tên tồn từ khóa ngành khoa học sở liệu ngành khoa học, tên từ khóa lập theo mục Dữ liệu lưu trữ SQL Server để phục vụ cho việc phân trích tìm kiếm Web Dữ liệu tìm kiếm CD lưu CSDL MS Access 66 !I.2.2) Tự điển liệu a) Bang đữ liệu Stt _ | Tên biến ( 3_ 4_ Š Điễn giải | Authors | Title | Full Souree | Language | Document Type [ID§ Book_No | No Related Kiểu cost Tác giả Tiêu để Nguồn tài liệu Ngôn ngữ Loại tài liệu Số sách IDS Số mẫu tín liên quan | No_cited_ References | $6 cac ti li¢u tham khdo cé lién quan | 10_[ U_| Anthor Addresses Author Keywords 12 | Keyword_Plụs | 13 | Địa chỉtác giả | Từ khóa tíc gii Ì Từ khóa thêm vào [Abstract su } L ]Tểnbiến Kiểu chuỗi Kiểu chuỗi Diễn giải | Name Tên họ đẩy đủ rừng Trường index bing S$ | Kiểu sở Kiểu chuỗi Kiểu số tăng tác giả c) Bang chi muc Journal: Í §ty— [ Tên biến L | Name ! |8 Diễn giải Tên báo cáo bảng | Trung index cba bang ¡ đữ liệu - d) Bang chi muc Keyword Su _| Tên biến 1| L Name |s Kiểu chuỗi Kiểu chuỗi Kiểu text Kiểu text Tài liệu tham khảo: Bài báo b) Bang mục Author chuỗi chuỗi text chuỗi chuỗi chuỗi chuỗi Kiểu text Tóm tắt [1a Cited Refernces Ơ 15 | Journal Kiểu Kiểu Kiểu Kiểu Kiểu Kiểu Kiểu Diễn giải Tên từ khóa bảng đữ liệu Trường index bảng tr { Kiểu sổ | Kiểu chuỗi lKiểu ting số trị | Kiểu sở Kiểu chuỗi Kiểu số ting tự 67 Ị 1.3) Xây dựng công cụ nhập liệu tự động từ File text vào CSDL SỢL Server 13.1) Mục tiêu Việc đưa liệu trường vào CSDL việc chấp nhận việc xây dựng cơng cụ tự động hố quy trình việc cần thiết Cơng cu xay dựng giải nhiều vấn để như: giảm thời gian cho nhập liệu, việc chuyển liệu cách tự động tránh sai sót nhập liệu Khi liệu lưu trữ dạng sở liệu quan hệ SQILL Server giúp người sử dụng dễ dàng di chuyển liệu, lọc trường mà ta xem quan trọng bồ bớt khơng cần thiết, 11.3.2) Cách lấy thông tin từ đữ liệu thô Nội dung đữ liệu thơ trình bày theo dạng thư mục, bắt đầu thông tin tác giả cuối thông tin báo tham khảo Chỉ tiết cấu trúc đữ liệu thô để cập phân Cấu trúc đữ liệu file text Cách lấy liệu đọc dòng dịng có từ khố thuộc tập từ khố định nghĩa trước 'đó sau từ khố liệu cần lấy tiếp tục bắt đầu biểu ghi Để phân biệt bắt đầu biểu ghí cách dịng liệu chứa từ khố tác giả xem bắt đầu biểu ghỉ mới, 1H1.3.3) Những khó khăn gặp phải phân tích liệu thơ Dữ liệu trường khơng có tên trường khơng xuất làm ta khó xác định địng thơng tỉn Ngoài số ký tự đặc biệt bị xung đột với sở liệu nên phải tìm cách thay mà không thay đổi ngữ nghĩa câu văn 68 I1.3.4) Mơ hình xử lý mm is | liệu Đưa vào, witty prin ch liệu thô Lưu vào Hệ quản trị IHL3.5)« Mơ tả_đối tượng CSDL SQL Server Đỡ liệu thô: Là loại liệu định dang kiểu text có sử dụng cơng cụ + xuất đữ liệu nhà sẵn xuất «_ Máy phân tích liệu: Có nhiệm vụ phâo tích liệu thô từ tập tin dang text cho thơng tín tiết trường, + Hệ quản trị CSDL SQU Server: Đây kho đữ liệu lưu lại tồa liệu từ máy phân tích liệu Kho đữ liệu tập hợp bảng phân theo nam dạng có cấu trúc thích hợp cho việc phân chia theo nhóm lĩnh vực, 1.3.6) Hoạt động mơ hình Dữ liệu thỏ chứa tập tìn đạng text Tất nội dung tập tín text đưa vào máy phân tích liệu Tiếp máy phân tích đữ liệu dựa vào luật định nghĩa trước ví dụ: Authors: trường tác giả, Tile: trường tiêu để báo để phân biệt đâu tên trường, đầu liệu trường Sau lấy hết thơng tín biểu gh, tất liệu biểu ghi đưa trực tiếp vào hệ quản trị CSDL để lưu trữ Quá trình tiến hành hết tập tin liệu thô 69 HL.3.7) Sơ đồ chức hình IIL3.7.1) Màn hình a)Mần hình nhập liệu tự động: Chọn Bi | Chọn tên Alias DB Import Ext b) Màn hình chọn hệ quản trị CSDL để lưu trữ “Chon Data base deh Beiences ~| Alias Name IIL3.7.2) Chức nãng -_ Chọn File nguồn: Cho phép người sử dụng chọn tên tập tin chứa liệt thơ Dữ liệu có - sử đụng công cụ xuất liệu nhà sẩn xuất Chon tén Alias DB: Sẽ xuất hình chọn tên sở liệu bảng liệu chứa dit iéu tính chế Hệ quản trị CSDL sử dụng SQL Server 2000 - _ Iaport: Tiến hành nhập liệu vào hệ quản tri CSDL 70 IH-4) Xây dựng cơng cụ phân trích tạo mục 1H.4 Mục tiêu Để đáp ứng nhu cầu người tra cứu thông tỉn quan tâm theo lĩnh vực não ví dụ chun ngành máy tính hay y học Người sử dụng sử dụng CSĐL liên quan đến lĩnh vực cần tra cứu, không cần phải sử đụng toan CSDL nhà sản xuất gây cho người dùng khó khăn trước thơng tín trần ngập, chưa chọn lọc Đứng trước tình hình chúng tơi xây dựng cơng cụ phân trích theo nhóm lĩnh vực Cơng cụ phân trích cho phép người dùng phân ta lĩnh vực cần quan tâm, nội dung thông rin liên quan đến [ lĩnh vực mà không bao hàm tất 1I1.4.2) Chỉ tiêu phân trích Sau tìm hiểu kỹ cấu trúc cuả biểu ghi CSDL Science Citation Index phần khảo sát đưa quy luật để phân trích sau: Cơ sở liệu bao gồm l6I lĩnh vực, lĩnh vực tập hợp đầu tạp chí khác Dựa sở ta lưu lại thơng tin lĩnh vực tap tin dang text có cấu trúc sau: 1, REHABILITATION AMERICAN JOURNAL OF PHYSICAL MEDICINE & REHABILITATION ARCHIVES OF PHYSICAL MEDICINE AND REHABILITATIONCLINICAL REHABILITATION EUROPEAN JOURNAL OF APPLIED PHYSIOLOGY AND OCCUPATIONAL PHYSIOLOGY PHYSICAL THERAPY SUPPORTIVE CARE IN CANCER 2.REMOTE SENSING EARTH OBSERVATION AND REMOTE SENSING IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING INTERNATIONAL JOURNAL OF REMOTE SENSING JOURNAL OF GEODESY PHOTOGRAMMETRIC ENGINEERING AND REMOTE SENSING RADIO SCIENCE ENVIRONMENT bebe nett eee REMOTE SENSING OF Giải thích: Lĩnh vực REHABILITATION bao gồm tạp chi AMERICAN JOURNAL OF PHYSICAL MEDICINE & REHABILITATION SUPPORTIVE CARE IN CANCER Từ tập tỉa dạng text ta lấy thơng tín tiêu để đầu tạp chí thuộc lĩnh vực mà ta cẩn phân tách Tên đầu tạp chí so khớp với trường Ioumal CSDL SQL Server giống đưa vào CSDL dạng Access thuộc lĩnh vực IHI.4.3) Sơ đồ hoạt động E tt Danh sách tên loại link vee F————— | Dữ liệu ngành | chuta lap ‘ mục Dữ liệu từ hệ quan tri CSDL Máyy chạy chạy CHÍ chỉmục Dữ liệu L ngành lập mục 72 IIL4.4) Mô tả đối tượng *_ Danh sách tên loại lĩnh vực: Chứa thông tin loại lĩnh vực, bao gồm 161 lĩnh vực khác » _ Dữ liệu từ hệ quấn trị CSDL: Dữ liệu gốc đĩa Science Citation Index da lưu vào CSDL " Máy phân trích: Mục đích tách ló1 lĩnh vực thành lĩnh vực nhỏ "_ Đữ liệu lĩnh vực chưa lập mục: Đây loại đữ liệu đạng Access bên sở liệu chứa bảng tên Science Bảng Science chứa thông tin ¡ lĩnh vực phân " Máy chạy mục: Có nhiệm vụ tạo bang 1a: Journal, Author, Keyword - Bang Jeurnal: Dữ liệu lấy tử trường Joumal Science - Bang Author: Dữ liệu lấy từ trường Authors cda bang Science - Bdng Keyword: Bao gém thông tin trường Author_Keywords va Keyword, Plus hỗ trợ cho việc tìm kiếm : Dữ liệu lĩnh vực lập mục: Dữ liệu cuối lĩnh vực lập mục, HI.4.5) Hoạt động mơ hình Máy phân trích lấy liệu từ hệ quản wi CSDL SQL Server kết hợp với danh sách tên loại lĩnh vực để tiến hành phân trích theo yêu cầu Sau phân trích Xong Ì lĩnh vực liệu lưu vào CSDL Access, liệu chưa lập mục Bước từ liệu lĩnh vực chuyển đến máy lập mục, máy chạy mục tạo bảng mục nội dung bảng 73 lấy từ trường Journal, Authors, Author_Keywords Keyword_ Plus Kết thúc trình xử lý cho I CSDL hoàn thiện | lĩnh vực II1.4.6) Sơ để chức hình IH.4.6.1) Màn hình a) Màn hình phân trích Science Citation Index le xJ Danh sách ngành Danh sách ngành chọn In AEROSPACE ENGINEERING & AGRICULTURAL ECONOMICS & AGRICULTURE AGRICULTURE DAIRY & ANIMA AGRICULTURE SOIL SCIENCE ? ALLERGY la ANATOMY& MORPHOLOGY 13 ANDROLOGY 10 ANESTHESIOLOGY, 11 ASTRONOMY & ASTROPHYSH 12 13 14 18 16 17 18 BEHAVIORAL SCIENCES: BIOCHEMICAL RESEARCH ME BIOCHEMISTRY & MOLECULAS BIOLOGY BIOLOGY MISCELLANEOUS BIOPHYSICS BIOTECHNOLOGY & APPLIED » « —— cog I3 CARDIAC & CARDIOVASCULAL~| Chon Database Thoát Thực b) Man hinh chon CSDL géc ‘Database Nguồn: [Sciences tem _~| AlinsName ¬ Tabie lj| 74 IiI.4.6.2) Chức Chọn lĩnh vực: Cho phép chọn LốL lĩnh vực cần phân cách click vào nút mũi tên Chọn Database: Sẽ xuất hình chọn tên sở liệu bảng liệu chứa liệu tinh chế Hệ quản trị CSDL, sử dụng SQL Server 2000 Thực hiện: Thi hành phân trích chạy mục cho lĩnh vực lựa chọn T§

Ngày đăng: 05/10/2023, 17:10

Tài liệu cùng người dùng

Tài liệu liên quan