Nội dung của đề tài tập trung vào giải pháp thứ 3, nhân mạnhđến lợi ích khi hình thành CSDL nội bộ và giải pháp kỹ thuật để tự mỗi nhóm nghiêncứu xây dựng CSDL phù hợp với nhu câu nghiên
Trang 1D ITH CQU CGIATP.H CH MINH
TRU NGD IH CB CHKHOA
NGUY NT ND CM_ SU) HỌC VIÊN: 12310726HƯỚNG NGHIEN C U: TINSINHH C
CHUYEN NG NH: CONG NGH_ SINH HOCM SO CHUYEN NG NH: 604280
LUẬN VAN TH CSNGU IHƯỚNGD NKHOAH CPGS TS NGUY NTH Y HUONG
TP HU CH MINH - tháng 08 nam 2014
Trang 4LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời tri ân sâu sắc những đóng góp quý báu về vật chất lẫntinh than từ Quý Thay Cô, Anh Chi Em đồng nghiệp, Bạn bè đồng môn và Cha Me,Anh Chị Em trong Gia đình xuyên suốt quá trình thực hiện Luận văn Thạc sĩ “Xâydựng Cơ sở dữ liệu vi sinh vật trên nền tảng Access 2013 phục vụ nghiên cứu và ứngdụng hướng đến đối tượng nhóm nghiên cứu nhỏ” Nhờ sự hỗ trợ thiết thực và liêntục từ bên ngoài cộng với việc đầu tư thời gian và công sức của bản thân, sản phẩmđề tài cũng đến lúc phải hoàn thành Đến lượt mình, sản phẩm sẵn sàng được đưa vàoứng dung dé hồ trợ cho những ai cần đên nó.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành đến PGS TS Nguyễn Thúy Hương,Chủ nhiệm Bộ môn Công nghệ Sinh học, Đại học Bách Khoa TP.HCM vì nhữngđóng góp quan trọng trong việc định hướng mục tiêu thực hiện đề tài cũng như độngviên tôi vượt qua những giai đoạn khó khăn nhất khi dé tài vấp phải
Tôi cũng xin gửi lời cảm ơn đến tập thể Anh Chị Em Phòng Công nghệ Vi sinh,Trung tâm Công nghệ Sinh học TP.HCM đã tạo điều kiện về thời gian và không giancho những thảo luận hữu ích xung quanh phương pháp thực hiện đề tài Thông quaviệc chia sẻ cách quản lý tài liệu tham khảo của từng thành viên, tôi đã có một cáinhìn bao quát hơn về những chức năng mà sản phẩm đề tài cần có để hỗ trợ cộngđồng nghiên cứu được tốt nhất
Bên cạnh đó, tôi xin gửi lời cảm ơn đến Anh Nguyễn Tan Khoa, anh ruột củatôi, đã hỗ trợ hệ thống máy tính mạnh mẽ và những lời khuyên về mặt công nghệnhằm giup dé tài thực hiện hiệu quả và vững chắc
Tôi luôn tâm niệm “Điều quan trọng là không ngừng cố gắng” Do vậy, tuy sảnphẩm bước dau có thé còn nhiều thiếu sót, nhưng qua những lần cố gắng tiếp theo,sản phẩm sẽ dan trở nên hoàn thiện đáp ứng được mục tiêu tổ chức và quản lý dữliệu Từ đó sản phẩm có thể phục vụ đắc lực cho công tác nghiên cứu và ứng dụngCông nghệ Sinh học nước nhà.
TP Hô Chí Minh, Thứ bảy ngày 28 tháng 06 năm 2014
Trang 5TÓM TẮT
Tổ chức và quản lý dữ liệu bài báo khoa học là một kỹ năng không thé thiếu củangười làm nghiên cứu Trong lĩnh vực Công nghệ Sinh học, với khối lượng tài liệucông bố ngày càng tăng, việc theo dõi và thống kê xu hướng nghiên cứu trong chuyênmôn của mình đang là đòi hỏi ngày càng cấp thiết Trên cơ sở này, đề tài hình thànhmột sản phẩm CSDL đáp ứng cho mục đích phân loại, quan lý và truy xuất dữ liệutrong phạm vi các tài liệu liên quan đến vi sinh vật Điểm nhấn của dé tài chính làphương tiện CSDL này được thiết kế sát với hoạt động nghiên cứu và ứng dụng trongcác nhóm nghiên cứu nhỏ Một CSDL mô hình được thành lập giúp minh họa ro nétsức mạnh của các phương pháp truy xuất dữ liệu thông thường nếu việc tổ chức dữliệu khoa hoc được tiến hành có hệ thống băng sản phẩm của dé tài đưa ra
SUMMARY
Organisation and management of scientific data is an indispensable skill toresearchers In the field of Biotechnology, volume published documents is increasing,studying trends and statistics to help researchers recognize new ideas is urgentdemands Therefore, the aim of thesis is create a database product to meet for thepurpose of classifying, managing and accessing data within documents related tomicroorganisms Highlights of this database which was designed closely withresearch and application in small study groups A model database was established tohelp illustrated the power of traditional methods of data access if the scientific datawas carried out systematically following the guidelines of thesis product.
Trang 6LOI CAM DOANTôi xin cam đoan toàn bộ kết qua nghiên cứu từ dé tài là do chínhtôi thực hiện Các phương tiện, phương pháp sử dụng trong đề tài đềuđược trích dẫn đây đủ và rõ ràng Tôi chịu trách nhiệm hoàn toàn chomọi sai sót néu có liên quan đến dữ liệu, phương pháp, phương tiệnvà hệ quả phát sinh từ việc triển khai kết quả đề tài vào thực tiễn Tôisan sàng thực hiện các giải pháp can thiết nhăm khắc phục nhữngthiêu sót dé sản pham của dé tài trở nên hữu ích trong nghiên cứu và
ứng dụng Cong nghệ Sinh học vào cuộc sông
Học viênNguyễn Tấn Đức
Trang 7MỤC LỤC
180/909 922 VDANH SÁCH THUAT NG Ữ - sEE 1E E9 569191 8 E9 E12 1v reered viiDANH SÁCH BANG woieecccccsccscsssscscsescsscscscscsesscscscscsssscscscsssssscsesesessssssscscsssssseesseens viiiDANH SÁCH HINH W ceeecccccccsscscsscscscsesssscscscscsscscscscsvsssscsessscsvsscsescssssecsessevssseescseesees ixMO ĐẦU 1n S111 11121111 111111 11111101101 111101 201111111 11.00101 1111111 1t ||S KO) 9 4LL Dat Vai dé vec ccececcscesecececescececscsceceessvecscecesesvevscsceeseevavaceceesavavacaeeeeesasaes 41.2 Cơ sở lý WAN cece cccccscscsscscscsscscscsscsescsscscscsscstsnssessssssssssssesssssesenseeees 51.3 Tinh hình nghiên cứu và công bố trong lĩnh vực CNSH 91.4 Nghiên cứu tình huống thuộc lĩnh vực Công nghệ Vi sinh 1215 Tiêu chí xây dựng CSŠDÌU, - - << 1 9000 ng ke 161.6 Phần mềm Microsoft Access 2013 cccccccssssssssesessesessescsseseeseseescseeseseeseseeseaees 182 WAT LIEU VA PHƯƠNG PHÁP - «+ xxx E332 gEgvsvsvccrxei 212.1 Quy trình thực hiỆn - - G999 990000 0v ke 213 VẬN HANH CƠ SỞ DU LLIỆU - + 66t ESE SE ESESEeEeEseEeeeseseree 503.1 Quy trình nhập dữ lIỆU 000000 01H ng ke 503.2 Chức năng tìm kiếm dit liệu << << SE SESE+E+E£kEEEEeEEESEEEEEErkrerereee 543.3 Vận hành CSDL trong nhóm nghiên CỨU « «5S £ess 6034 Xử lý sự cố liên quan đến CSIDL - - + 2 52+E+E+E+E£EE£E£E+EeErErkrerrree 62
3.5 _ Trích dẫn tài liệu tham Khao - =6 k2 EE E823 E#E33E#E 23 vs E£Esveeed 63
3.6 Chuyến giao dữ liỆU ¿c6 SE +93 SE2E9EE 1219112121111 2111123111 644 PHAN TÍCH CSDL MÔ HÌNH - ¿E52 S22 2EE£ESESEEEEEEEEEEEEEcerkrvee, 664.1 Thống kê khối lượng dữ liệu ool cs cscecsescecsesesessscsseseseseeeetees 66A2 Tóm tắt danh mục dữ liỆU - - - E353 1S E SE E3 gi 70
Trang 84.3 Phân tích dữ liệu theo cau hỏi nghiÊn CỨU - 555 5 << essssss 754.4 Tổng hợp hình ảnh theo đối tượng vi sinh vật - - 52 5+s+ssc5¿ 804.5 Mô hình vận hành CSDLi w.ccccecececesesesscsescscssesesescscsssssessssssessesesseeses 834.6 Dé xuất cải tiễn CSIDL -¿- 652522623 E9 5E 1231151151121 1115115 11111 2 865 KẾT LUẬN VÀ KIÊN NGHỊ - %1 SE E312 vs ng: 875.I Kết luận - Gv 11 11T 11T TT HT ng rkg 875.2 Kiến nghị - CS tt T311 1112111111 1111211 1101010121111 01 1111.1111111 87TÀI LIEU THAM KHẢO G-G G63 539191 3E 9191 1 1 111121 1E 1121 eo 88PHU LLỤC 5-5523 1 15 E121 151515151111 111511 111111151111 11 0110101110111 11 01111111 reg 91LY LICH TRÍCH NGAANG - s53 1198 1E 91919191 3 51111195 5111158 3E gxrxei 102
Trang 9DANH SÁCH THUẬT NGỮ
Thuật ngữ tiếng AnhFile
FolderRecordField Name
Data Type
DescriptionDatabaseTableTable.AreaOnline storageOffline storage
Thuật ngữ tiếng ViệtTài liệu
Thư mụcBản ghiTrường dữ liệuLoại dữ liệu
Diễn giải
Cơ sở dit liệu (CSDL)Bảng
Bang AreaLưu trữ trực tuyếnLưu trữ ngoại tuyến
Trang 10DANH SÁCH BANG
Bang 0.1 Phân tích ưu và nhược của giải pháp phụ thuộc nguén lực bên ngoài lBảng 0.2 Phân tích ưu và nhược của giải pháp chủ động nguồn lực bên trong 2Bảng 1.1 Tiêu chí lựa chọn phan mềm xây dựng CSDL - 2 + 25552: 16Bảng 1.2 Các thông số giới han của MS AcCeSS c.cscesesessssessssssessesesesessesesesseseseesesee 18Bang 2.1 Tổ hop từ khóa sử dung khi tim kiếm trong các CSDL ngoại Vi 22Bang 2.2 Phương pháp xây dựng chức năng tìm kiếm - + 5252552552 48Bang 3.1 Trinh tự nhập dữ liỆU G0000 HH ng 0 1v ke 51Bang 3.2 So sánh phương pháp tim theo từ khóa và theo chủ đề - 54Bang 3.3 Chức năng truy xuất dit liệu . ¿ - 52525223 + SE E2 EErkrkrkrree 55Bang 3.4 Cách khắc phục sự cô liên quan đến CSDL 5- - 2 52 2£s+sz5+2 63Bang 4.1 Thong kê số lượng bản ghi trong CSDL mô hình (29/06/2014) 67Bang 4.2 Danh mục các nghiên cứu về Bacillus spp theo thời gian, quốc gia vàphương pháp - - E1 09.00 nọ re 71Bang 4.3 Kết quả lọc thông tin theo Bacillus — Các chi nam — Nội dung 75Bang 4.4 Hình ảnh một số loài Colleotrichum spp dién hình - 5+: SĨBang 4.5 Những dé xuất cải tiến CSIDL - 5-5-5252 S2 2E‡ESEE2E£EEEcErkererrrrrvees 86
Trang 11DANH SÁCH HÌNH
Hình 0.1 Mối tương quan giữa dé tài Tin sinh học và dé tài Công nghệ Vi sinh 3Hình 1.1 Mô hình tập hợp dữ liệu bài báo khoa học S99 35111112 7Hình 1.2 Tốc độ tăng trưởng (%) bài báo từ năm 1996 đến 2012 -. 10Hình 1.3 Số lượng công trình liên quan đến vi sinh vật giai đoạn 2002-2012 10Hình 1.4 Số lượng bài báo theo chủ dé trong ngành Công nghệ Sinh hoc 1]Hình 1.5 Mô hình thực hiện một dé tài nghiÊn CỨU 55555112 12Hình 1.6 Đặc điểm vết bệnh thán thư trên ớt -5c-c+cxcerxerrerrrerrerrriee 14Hình 1.7 Đặc điểm vi thé Bacillus spp thường dùng trong đối kháng sinh học 15Hình 1.8 Các phương thức kết nối dữ liệu - + + 25 +£+££2£E+E+E+£z£zzszxreee 20Hình 2.1 Quy trình thực hiỆn Q90 kh 21Hình 2.2 Giao diện phan mềm FileCenter xem nhanh nội dung file PDE 23Hình 2.3 Tương quan giữa nội dung bên trong và bối cảnh bên ngoài bài báo 24Hình 2.4 Cau trúc cây thư mục của Folder lưu trữ trung tâm - +: 25Hình 2.5 Quản lý tài liệu theo mô hình quản lý vật fư 2552 26Hình 2.6 Minh họa tương tác giữa CSDL nội bộ và CSDL bên ngoài 27Hình 2.7 Danh sách các khóa phân loại và mối liên hệ giữa các bảng chức năng vàbang dữ liệu trung tam - - - - << <5 1399909300101 99.000 re 31Hình 2.8 Giao diện khung nhập dif liệu G G5 5G G9999 1 1 ke 45Hình 2.9 Khung nhập tạp chí, trường đại học, cơ quan, đơn vị nghiên cứu 46Hình 2.10 Giao diện nhập dữ liệu theo các nhóm từ khóa ««««««<<2 47Hình 2.11 Sử dụng chức nang Pivot Table dé phân tích CSDL mô hình 50Hình 3.1 Trang bi hai màn hình giúp nhập dữ liệu được thuận lợi 54Hình 3.2 Giao diện tìm nhanh theo tựa dé - ¿+ + xxx sEsESE+E+E£EsEseeeseseree 56Hình 3.3 Giao diện tìm theo nguồn sử dụng - ¿25552 +x+x++£x+xererxrseee 56Hình 3.4 Giao diện tìm theo loại tài lIỆUu -< << + S2 << EYSSSsexsssssss 57Hình 3.5 Giao diện tìm theo chủ dé - se E191 SE E11 SE vs ng: 57Hình 3.6 Giao diện tim bài báo theo tap Chí - - 5-5 G9999 3111111 kke 58Hình 3.7 Giao diện tìm theo tac 214 -G G00 re 58Hình 3.8 Giao diện tìm kiếm tổng hop o.cecccccscccscscssssssesssesesscsessscssssesesessssseseseseens 59
Trang 12Hình 3.9 Đề xuất mô hình vận hành CSDL trong thực tẾ - 2 55255555: 62Hình 3.10 Cách thức trích dẫn tài liệu bang phần mềm bên ngoài 64Hình 3.11 Sao chép dữ liệu theo đường dẫn băng phần mềm Copy Handler 65Hình 4.1 Cơ cau phân bồ tài liệu theo mục đích sử dụng -25-55+: 69Hình 4.2 Phân loại tài LIỆU - - <5 G1 E191 9 ng re 69Hình 4.3 Các bước khoanh vùng dữ lIỆU - - - 55G S1 1 ree 75Hình 4.4 Mối tương quan giữa Bacillus và các chi nam trong CSDL 77Hình 4.5 Số lượng công trình xuất bản theo thời gian và quốc gia 79Hình 4.6 Mối liên kết giữa CSDL trung tâm và nội dung khoa học của đề tài .85
Trang 13MO DAU* LY DO CHON DE TÀI
Theo báo cáo “An overview of scientific and scholarly journal publishing” trongnăm 2012 trên thé giới có khoảng 11.550 tạp chí được công bố từ 657 nhà xuất bản.50% trong số đó là các tạp chí có mức ảnh hưởng cao, nằm trong cơ sở dữ liệu (CSDL)
Scopus Trung bình có khoảng 1.8 triệu bài báo được đăng tải mỗi năm Nhà nghiên
cứu đọc khoảng 270 bài báo/năm, thời gian đọc bài báo được rút ngăn từ 45-50 phúttrong những năm 1990 xuống còn 30 phút như hiện nay [1] Trang SCImago Journaland Country Rank chuyên xếp hạng tạp chí khoa học, với từ khóa “mierobiology”trong tựa dé tạp chi, ta tìm được 85 tap chí có nội dung chuyên về vi sinh vật (VSV).Trong 3 năm (2010, 2011 và 2012) thì tổng số bài báo đăng tải là 41.676 bài báo,trung bình | tap chí đăng khoảng 163 bai/nam [2].
Như vậy với số lượng rất lớn về bài báo khoa học cần phải tìm hiểu thì nhànghiên cứu sẽ tốn nhiều thời gian tập hợp thông tin, phân loại và phân tích Đề vượtqua trở ngại này, ba nhóm giải pháp về quản lý CSDL đã được phát triển Trong đóhai nhóm giải pháp phụ thuộc vào nguồn lực bên ngoài là sử dụng phần mém dé quảnlý tài liệu tham khảo như Mendeley Desktop, Endnote, Papers và tham gia vào mạngxã hội để kết nối với các nhóm nghiên cứu cùng chủ đề nhăm hỗ trợ nhau nhưResearch Gate, Mendeley community.
Bang 0.1 Phân tích ưu và nhược của giải pháp phụ thuộc nguồn lực bên ngoài- Ưu điểm Nhược điểm
1/ Hô trợ quản lý tài liệu tham khảo | 1/ Không thê trích xuât thông tin đê lậpthuận tiện, nhanh chóng biêu đô, thông kê đặc điêm dữ liệu2/ Hỗ trợ công nghệ đồng bộ hóa 2/ Giới hạn dung lượng khi đông bộ hóa,đám mây, giúp nhà nghiên cứu làm | phụ thuộc đường truyén Internet Cóviệc ở nhiều vị trí khác nhau nguy cơ bị tan công dữ liệu rất cao3/ Kết nối các nhóm nghiên cứu vào | 3/ Các khóa phân loại không bám sát nhumạng xã hội để tăng mức độ phối cầu phân tích dữ liệu
hợp đa ngành, đa lĩnh vực4/ Trích dẫn tài liệu tham khảo tự 4/ Khi máy tính có sự cô cân cài đặt toàn
động theo các mẫu quy định bộ thì việc khôi phục hoạt động CSDL
gặp khó khăn, bị động
Trang 14Giải pháp thứ ba dựa trên việc chủ động nguồn lực bên trong dé t6 chức CSDLnội bộ tại đơn vị đang làm việc nhằm hỗ trợ hiệu quả cho việc tra cứu, tham khảo tàiliệu được nhanh nhất Nội dung của đề tài tập trung vào giải pháp thứ 3, nhân mạnhđến lợi ích khi hình thành CSDL nội bộ và giải pháp kỹ thuật để tự mỗi nhóm nghiêncứu xây dựng CSDL phù hợp với nhu câu nghiên cứu.
Bang 0.2 Phân tích ưu và nhược của giải pháp chú động nguồn lực bên trong
Ưu điểm Nhược điểm1/ Hỗ trợ quản lý tài liệu tham khảo thuận | 1/ Cân nhân sự am hiểu hoạt độngtiện, nhanh chóng Không phụ thuộc nghiên cứu sinh học và tin học đểđường truyền Internet, hạn chế nguy cơ bi | phối hợp xây dựng CSDL bám sáttan công dữ liệu nhu cầu quản lý dữ liệu khoa học2/ Trích xuất thông tin dé lập biểu do, 2/ Các chức năng nâng cao nhưthống kê đặc điểm dữ liệu đồng bộ hóa đám mây, trích dẫn tài
3/ Dung lượng dữ liệu bị giới hạn dựa trên | liệu tham khảo, tự động đôi tên tàidung lượng 6 đĩa, có thé nâng cap mở liệu sẽ cần phải nghiên cứu thêm
rộng tùy theo quy mô4/ Chủ động thiết kế các khóa phân loạibám sát nhu cầu phân tích dữ liệu5/ Khi máy tính có sự cô cân cài đặt toànbộ thì việc khôi phục hoạt động CSDL sẽnhanh chóng, chủ động
s* MỤC DICHMục đích của dé tài là hình thành một CSDL phục vụ việc quản lý tài liệu thamkhảo Một CSDL mô hình sẽ được xây dựng và phân tích nhằm minh hoa cách thứchình thành CSDL nay ở từng nhóm nghiên cứu cụ thé
* DOI TƯỢNG VA PHAM VI NGHIÊN CỨUĐề tài xây dựng một CSDL mô hình dùng làm phương tiện quản lý và truyxuất dữ liệu cho dé tài “Tuyển chon các dòng vi khuẩn Bacillus spp để phòng bệnhthan thư do nam Colletotrichum spp gây hại trên giỗng Ot sừng trâu thuộc loàiCapsicum annuum” (Mã số: VS01/14-15) ở phòng Công nghệ Vi sinh, Trung tâmCông nghệ Sinh học TP.HCM.
Trang 15Nhăm giới hạn phạm vi tìm kiếm dữ liệu để hình thành CSDL mô hình, dé tàisử dụng cụm từ khóa liên quan đến Bacillus subtilis và đối kháng sinh học để rà soátcác tài liệu có liên quan Từ đó đưa vào phân tích kết quả để chứng minh nhận địnhrang, dù lượng tài liệu hội tụ có thé không nhiều, nhưng khi được sắp xếp theo quytrình thì thông tin khoa học trích xuất từ đó cũng rất có giá trị Việc này hỗ trợ nhómnghiên cứu định hướng cách thực hiện dé tài sao cho sát với thực tiễn ứng dụng.
Đồ thị hóa dữ liệu
Đề tài theo hướng Tin sinh học:
Xây dựng cơ sở dữ liệu vi sinh vật trên nên tảng Access 2013 phục vụ
nghiên cứu và ing dụng hướng đền đối tượng nhóm nghiên cứu nhỏ
Hình 0.1 Mối tương quan giữa đề tài Tin sinh học và dé tài Công nghệ Vi sinhs* Y NGHĨA KHOA HỌC
Đề tài cung cấp một phương tiện và quy trình nhằm phân tích bài báo theo nhiềugóc độ khác nhau Trước đây các tham số như loại tài liệu, thời gian, quốc gia, nộidung, phương pháp, chủng VSV giữa các bài báo trong cùng chủ đề chưa được phântích nhiều do thiếu một công cụ phân tích toàn diện nhưng dễ sử dụng Do vậy, nếuta biết cách sắp xếp, so sánh, đồ thị hóa các tham số này sẽ làm sáng tỏ những độnglực xung quanh việc hình thành, phát triển và đưa vào thực tiễn kết quả nghiên cứu
+ Ý NGHĨA THỰC TIENViệc hình thành một dé tài nghiên cứu phụ thuộc nhiều vào giai đoạn phân tíchtài liệu Xuyên suốt trong quá trình thực hiện đề tài, ngoài việc thảo luận với cácchuyên gia trong lĩnh vực thì việc tìm hiểu và khai thác thông tin từ khối dữ liệu hiệncó cũng đóng góp đáng kế cho việc tìm ra những phương án thực hiện thông minh
Trang 16hơn Khi áp dụng mô hình quản lý bài báo như đề tài gợi ý, các nhóm nghiên cứu sẽchủ động trong việc thao tác, phân tích và trích xuất tài liệu hơn so với trước đây.
1 TONG QUAN
1.1 Dat van đềMột trong những câu hỏi quan trọng nhất quyết định đến việc hình thành nênđề tài luận văn thạc sĩ này chính là câu hỏi:
I Vì sao chúng ta phải tu xây dựng CSDL riêng cho nhóm nghiên cứu cua minh?Dé có thê trả lời trọn vẹn và thuyêt phục câu hỏi trên, tôi xin cat nghĩa cau hỏinày thành 2 câu hỏi nhỏ:
1.1 Vì sao chúng ta phải xây dựng CSDL nội bd?1.2 Vi sao người xây dựng CSDL nội bộ phải là chính nhóm nghiên cứu chứ khôngthể là người khác ?
Trong trường hợp câu trả lời là “Đồng ý”, thì câu hỏi tiếp theo sẽ là:2 Chúng ta sẽ xây dựng CSDL bằng phương tiện và cách thức như thé nào dé đápứng nhu cau nghiên cứu của mình?
Như vậy, van đề chính yếu ma dé tai đặt ra không phải là một giải pháp hoànhảo về mặt kỹ thuật mà có nguồn gốc từ việc đánh giá tam quan trọng của việc quanlý tài liệu tham khảo Nếu nhóm nghiên cứu nhỏ, quy mô từ 1 đến 5 người cảm thấycần phối hợp với nhau trong việc xây dựng và khai thác dữ liệu, thì việc tìm kiếmhoặc tự xây dựng một phương tiện đáp ứng được yêu cầu đó sẽ là cấp thiết Ngượclại, néu chúng ta đã thỏa mãn với những giải pháp kỹ thuật hiện có trong việc quanlý tài liệu tham khảo thì đương nhiên việc tìm kiếm một cách thức khác toàn diện hơnsẽ không còn quan trọng nữa.
Do đó, đề tài còn trả lời thêm một câu hỏi về sự khác biệt của giải pháp đượcđưa ra so với các giải pháp hiện có:
Trang 173 Phan mém CSDL của dé tài có đáp ứng tốt hơn các phan mém về quản lý tài liệutham khảo khác hay không ?
Qua những nét phác họa trên, chúng ta hình dung được những nội dung chínhtrong đề tài Động lực của tôi là mong muốn triển khai mô hình quản lý CSDL đượcdé xuất trong dé tài ra rộng rãi các nhóm nghiên cứu Từ đó làm thay đối căn bản cáchviết tong quan tài liệu chuyên nghiệp dựa trên một quy trình phân tích khách quan.Điều này sẽ đóng góp cho quá trình hình thành nên đề tài nghiên cứu được xác đángva hợp lý hơn, tránh việc bỏ qua những dé tài nghiên cứu đã thực hiện nhưng chưatriệt đê, vì mục đích cudi của nghiên cứu là phải đưa ra ứng dung trong thực tê.
1.2 Cơ sớ lý luậnMỗi tài liệu dù là bài báo, sách, sáng chế, luận văn hay thông tin kinh nghiệmđều mang trong đó ít nhiễu ý nghĩa Sở dĩ một tài liệu rơi vào lãng quên là do ngườita không tiếp cận được khi cần sử dụng Đây là một điều lãng phí rất lớn trong thựctiễn nghiên cứu Muốn giảm bớt tình trạng lãng phí này, điều kiện tiên quyết là nhóm
nghiên cứu phải có một bộ CSDL được phân loại rõ ràng và ở trạng thái sẵn sàng
phục vụ người sử dụng.Trong tình huống điển hình để làm minh họa cho việc thiết lập CSDL mô hìnhở đề tài “Tuyến chon các dòng vi khuẩn Bacillus spp dé phòng bệnh than thư do namColletotrichum spp gây hại trên giỗng Ot sừng trâu thuộc loài Capsicum annuum”có những câu hỏi quan trọng mà nhóm nghiên cứu sẽ khó trả lời nếu không dựa trênmột bộ CSDL có hệ thống:
1 Trước đây và hiện nay đã từng có nghiên cứu liên quan đến nội dung sử dụngBacillus phòng trừ bệnh thán thư trên Ớt? Nếu có xin chỉ ra tác giả, địa điểm,thời gian và thành tựu dé thiết lập mối liên hệ nhằm học hỏi kinh nghiệm vanghiên cứu những nội dung chưa được làm sáng tỏ.
2 Xu hướng nghiên cứu đối kháng sinh hoc ở những tài liệu cho thấy ngoàiBacillus ra thì còn đối tượng vi khuẩn có lợi nào nữa được dùng làm chế phẩmtrừ bệnh hại? Dé tăng tính thuyết phục có thể thiết lập dữ liệu theo biểu đồ cột
Trang 18với trục tung là số lượng bài báo, trục hoành là các quốc gia, trong mỗi quốcgia thì chia tiếp đôi tượng vi khuẩn đã được ứng dụng thành công.
3 Trinh bày đồ thị mạng nhện thé hiện mối tương quan giữa vi khuẩn Bacillusđối kháng với các loài nam gây bệnh khác nhau Việc này giúp củng cô tínhkhả thi trong chiến lược dùng vi khuẩn Bacillus cho từng tác nhân gây bệnh.Theo cách làm thông thường nhóm nghiên cứu sẽ mat nhiều thời gian dé tonghop, phân tích và thé hiện kết quả băng đồ thị Nhưng nếu ngay từ dau, dữ liệu đượcphân loại và quản lý trong một CSDL được thiết kế phù hợp, thì việc xuất ra các bảng,đồ thị sẽ nhanh chóng và chính xác
Do vậy, theo Andy Oppel (2009), CSDL là tập hợp các thành phan dữ liệu cóliên quan lẫn nhau, được quản lý dưới dạng một đơn vị duy nhất [3] Chính nhờ chỉtiết được quan lý dưới dang một don vị duy nhất mà thời gian tiếp cận tài liệu dé phântích và xử lý sẽ được giảm xuống mức tối thiêu Xét theo Hình 1.1 , ta nhận thay nếutoàn bộ tài liệu sau khi thu nhận từ nhiều nguồn được tập trung ở một CSDL, nhấtđịnh thì quá trình tiếp cận tài liệu sẽ được rút ngắn Day là câu trả lời về mặt tiết kiệmchi phí thời gian cho nhà nghiên cứu Vậy lợi thế của việc xây dựng CSDL nội bộ là:1 San sang đáp ứng nhu câu tìm kiếm tài liệu mà không phụ thuộc vào đườngtruyền Internet, tài khoản trực tuyến, giới hạn dụng lượng lưu trữ trực tuyếnvà nguy cơ bị tan công dữ liệu
2 Chủ động thiết kế, nâng cấp các tinh năng truy xuất, thong kê, khóa phân loạiphù hợp với đặc trưng dữ liệu chuyên môn nhằm rút ngăn giai đoạn phân tíchdữ liệu đầu vào
3 Hình thành một đơn vi lưu trữ tập trung mọi tài liệu trong nhóm nghiên cứuđể tránh tình trạng thất lạc kết quả nghiên cứu
Trang 19bao vé vi sinh, héa TH, TT - - DDE SDS x11sinh ALLS
CSDL ngoại tuyến: lưu trữ
Hiện tại các dịch vụ hỗ trợ tìm kiếm tài liệu đang dừng ở việc thực hiện lay tàiliệu theo thông tin cụ thé ma người sử dụng cung cấp hoặc sẽ tìm một phố rộng nhiềutài liệu có liên quan ít nhiều đến dé tài mà nhóm nghiên cứu quan tâm Tuy nhiên việcdựa vào bên thứ ba để hỗ trợ tìm kiếm tài liệu đích sẽ làm cho nội bộ trong nhómnghiên cứu trở nên thiếu găn kết ngay từ bước hội tụ tài liệu Đặc biệt là kỹ năng đánh
Trang 20giá kết quả bài báo của chúng ta sẽ bị kém tinh tế khi thao tác trong giới hạn nhữngtài liệu được cung cấp bởi dịch vụ tìm kiếm Ngoài ra, việc tra cứu thông tin ở cácthư viện chỉ mới dừng ở việc tìm kiếm theo tựa dé, tác giả, năm, môn học hay mộtvài khóa phân loại đặc trưng của ngành thư viện Người nhập dữ liệu do không cóchuyên môn sát với những lĩnh vực nghiên cứu khác nhau nên khi thiết lập từ khóakhông pho biến dẫn đến việc tìm tài liệu mất nhiễu thời gian.
Theo nhận định của tôi, muốn thành công trong lĩnh vực nghiên cứu thì 2 điềukiện tiên quyêt sau cân được đáp ứng:
1 Có đúng tài liệu về chủ đề dang quan tâm2 Có thời gian để phân tích nội dung các tài liệu thu nhận được
Do đặc thù của thông tin về vi sinh vật vừa đa dang lại vừa sâu rộng Cac trởngại chính của việc tìm kiêm thông tin được liệt kê như sau:
© Một đối tượng VSV có mặt trong nhiều lĩnh vực, với các mức độ thông tinnhiều ít khác nhau
e Mot đối tượng VSV năm trong một tổ hợp nhiều đối tượng có mặt trong nhiềulĩnh vực khác nhau.
e Một đối tượng VSV có những đặc điểm biểu hiện khác nhau của cùng mộthướng nghiên cứu, ứng dụng tương tự nhau.
e_ Một đối tượng VSV được nghiên cứu từ nhiều góc độ khác nhau, trải dài theothời gian, theo nhóm nghiên cứu, theo lĩnh vực liên quan.
Chính vì đặc trưng cua vi sinh vật là có mặt ở khap mọi nơi và tác động mạnhyêu khác nhau vào nhiêu lĩnh vực trong cuộc sông nên khi khoanh vùng một đôitượng nào đó thì thông tin thu được cũng dàn trải và khó tập trung.
Việc trang bị các kỹ nang, phương tiện tìm kiếm mạnh đã phan nào giảm tải quátrình hội tụ dữ liệu của các nhà nghiên cứu Nhưng sau khi dữ liệu được hội tụ, nếukhông có một phương pháp lưu trữ thông tin có hệ thống thì dữ liệu sẽ nhanh chóngbị phân tán hoặc lãng quên mà không đi vào thực tế thí nghiệm Mặt khác, mỗi một
Trang 21thành viên trong nhóm nghiên cứu lại có mức độ hội tụ dữ liệu khác nhau về cùngđối tượng VSV, nên dẫn đến tình trạng lặp lại dữ liệu thay vì tập trung tìm kiếmnhững thông tin khác dé b6 sung cho tông quan tài liệu được hoàn chỉnh.
Tổng hợp các trở ngại đã nêu thì giải pháp tốt nhất trong việc xây dựng CSDLnội bộ về đối tượng vi sinh vật nên là chính nhóm nghiên cứu đó Nếu quy mô CSDLtăng dan thì cần thiết phải có một thành viên quản trị dữ liệu trực thuộc nhóm nghiêncứu phụ trách Đến đây câu trả lời cho câu hỏi 1.2 trong phần 1.1.Đặt vẫn đề về nhântô con người hình thành và kiêm soát CSDL nội bộ đã trở nên rõ ràng.
Nhóm nghiên cứu nào làm về chủ đề gì cần thiết phải tự xây dựng CSDL nội bộvề chủ dé đó và người quản trị đữ liệu phải là một thành viên trong nhóm nghiên cứudé quá trình phối hợp, phân tích và trích xuất thông tin được hiệu quả Chi tiết này làví dụ minh họa cho việc kế thừa sức mạnh từ lĩnh vực Công nghệ Thông tin vào cácchuyên dé trong lĩnh vực Công nghệ Sinh học
1.3 Tinh hình nghiên cứu và công bố trong lĩnh vực CNSHCông nghệ Sinh học hiện nay là một lĩnh vực đang phát triển nhanh trên thégiới Chủ đề có nhiều biến chuyền sôi động là sinh hóa, di truyền, sinh học phân tửtăng đến 71%, kế đến là công nghệ sinh học nông nghiệp với tỷ lệ công trình đăngtải trước và sau năm 1996 là hơn 41% [4].
Theo Bernat Olle (2013), chỉ riêng lĩnh vực áp dụng vi sinh vật vào công nghiệpsản xuất thuốc thì sau năm 2000, các công trình liên quan đến nghiên cứu va ứngdụng vi sinh vat tăng đáng kể Từ 265 bài báo và 169 sáng chế ở năm 2002 đã nhảyvọt đến 2683 bài báo và 909 sáng chế ở năm 2012 [5] Từ Hình 1 4 Số lượng bài báotheo chủ dé trong ngành Công nghệ Sinh học, ta nhận thấy số lượng bài báo về visinh vật đã tăng gấp 7 lần chỉ trong vòng 10 năm, còn chủ đề ứng dụng trong nôngnghiệp thì tăng gấp 4 lần
Trang 22Khoa học vật liệu
Cơ khíSinh học phân tử
Y dượcĐịa lý
Sức khỏe
Kinh doanhMôi trườngVật lýNghệ thuậtKhoa học máy tínhNông nghiệp
Số lượng công trình/Năm
Hình 1.3 Số lượng công trình liên quan đến vi sinh vật giai đoạn 2002-2012 |5]
ESEL0:
0 20 40 60 80
2.883
2012
Trang 23Hình 1.4 Số lượng bài báo theo chú đề trong ngành Công nghệ Sinh học [5]Trong bối cảnh tài liệu về vi sinh vật tăng nhanh về mặt số lượng như vậy, việcxác lập một phương án tập hợp dữ liệu nhằm giữ cho nhóm nghiên cứu có bức tranhtoàn cảnh về đối tượng vi sinh mình đang thao tác là cần thiết Tuy nhiên, vì đặc thùngành Công nghệ sinh học có liên quan đến nhiều lĩnh vực khác nhau, như Hình 1.5Mô hình thực hiện một đề tài nghiên cứu đã chỉ ra Ta cần có một cách tiếp cận toàndiện cho vấn đề quản lý tài liệu tham khảo trước khi nói đến việc ứng dụng kiến thứctrong khối dữ liệu thu thập được
Cu thé khi nghiên cứu về chế phẩm vi sinh phòng bệnh than thư trên cây Ot, tacó thể kế thừa kiến thức từ những lĩnh vực như Nông nghiệp với chủ đề Bệnh hại câytrong, lĩnh vực Vi sinh với chủ dé đối tượng vi nam Colleotrichum spp và vi khuẩnBacillus spp Ngoài ra, các công trình về chế phẩm vi sinh ứng dụng trong nôngnghiệp cũng đã được xuất bản khá phong phú, đòi hỏi sự tập hợp, thống kê và biêntập theo hệ thông nhằm giúp nhóm thực hiện năm bắt được ưu va nhược của nhữngdé tài liên quan Tóm lại, để làm tốt một đề tài trong lĩnh vực Công nghệ VI sinh đòihỏi phải tập hợp tài liệu từ nhiều lĩnh vực sau đó thống kê, phân loại theo những cáchthức khác nhau thuận lợi cho việc so sánh, đối chiếu nội dung, phương pháp của
Trang 24những công trình đó Muốn thực hiện quá trình này một cách nhanh chóng thì ngaytừ đầu tài liệu cần được quản lý tập trung trong một bộ CSDL thống nhất để khi tìmkiếm, truy xuất và phân tích thông tin được chính xác, rõ ràng.
Nhóm nghiên cứu:1⁄Xác định mục tiêu2/ Thực hiện nghiên cứu
3/ Công bồ kết quả4/ Sản xuất thử nghiệmMÔN HỌC: CÔNG NGHỆ SINH HỌC NÔNG NGHIỆP
J Viết bài, đăng báo,
tham gia hội nghị|G x
Nghiên cứu cơ ban vê đặc
tính gây bệnh của nắm
Colletotrichum spp
CHU DE:KHAO NGHIEM HIEU
LỰC CHE PHAM
Nghiên cứu ứng dụng tạo chế
pham vi khuân Bacillus spp
cải tién sản pham
Hình 1.5 Mô hình thực hiện một đề tài nghiên cứu1.4 Nghiên cứu tình huống thuộc lĩnh vực Công nghệ Vi sinh
Thông qua chỉ tiết về bối cảnh nghiên cứu đề tài vi sinh, chúng tôi tập hợp dữliệu và xây dựng CSDL mô hình nhăm đôi chiêu, so sánh giữa các công trình được
Trang 25đầy đủ hơn Việc này hỗ trợ các bước viết Tổng quan tài liệu và quy trình thực hiệnđược cân thận, rõ ràng.
1.4.1 Bồi cánh đề tàiỚt là một trong những cây trồng quan trọng ở nhiều quốc gia nhiệt đới Theobáo cáo của FAO (2003), diện tích canh tác ớt trên toàn cầu để cung cấp quả tươi vàokhoảng 1,7 triệu ha, cung cấp cho sản xuất ớt bột khoảng 1,8 triệu ha Tong sản lượngđạt khoảng 20 triệu tan, trung bình | ha thu hoạch được 5,7 tan [7] Các quốc gia sản
xuất và xuất khâu hàng đầu thé giới bao gom Trung Quốc, Ấn Độ, Mexico, Morocco,
Pakistan, Thái Lan và Tho Nhĩ Kỳ Bệnh gây hại chính trên ớt chủ yếu do nam, vikhuẩn và virus gây ra Xét theo mức độ ảnh hưởng thì bệnh thán thư doColletotrichum spp là nghiêm trọng nhất, kế đó là bệnh héo xanh do vi khuẩnPseudomonas solanacearum, bệnh kham virus trên gân lá (CVMV) và bệnh khamvirus dưa chuột (CMV) [8] Ở các quốc gia đang phát triển bệnh thán thư gây thiệthai lớn về kinh tế cho người trồng ớt, từ 10% đến 80% [9] Bệnh gây hại không chi ởgiai đoạn cây trưởng thành đang cho quả, mà còn tác động mạnh làm giảm năng suấtở giai đoạn cây con và giai đoạn bao quản sau thu hoạch.
Xét ở TP HCM, hiện nay diện tích trồng rau ăn quả khoảng 1.123 ha, tập trungở Củ Chi, Bình Chánh và Hóc Môn [10] Trong số nhiều bệnh hại gây trên rau ăn quathì bệnh thán thư xuất hiện ở nhiễu khu vực và có xu hướng ngày càng lan rộng Theobáo cáo của chi cục BVTV TP.HCM trong năm 2013 thì diện tích canh tác rau bibệnh than thư là 178,76 ha, chiếm 15% trên tong diện tích [11]
Vì các giải pháp hóa học để ngăn ngừa bệnh thán thư tuy có hiệu quả nhưng đểlại nhiều ảnh hưởng đến môi trường và dễ làm nắm bệnh trở nên lờn thuốc Do vậyngày nay việc sử dụng thuốc sinh học phòng ngừa bệnh hại đang là một xu hướng lớncủa nên nông nghiệp hữu cơ, vì các lợi ích về môi trường và sinh thai.
1.4.2 Bệnh than thư trên ớtBệnh thán thư là một trong những nguyên nhân chính kiềm hãm sản lượng ớttrên toàn cầu [12] Day là bệnh rat phố biến ở nhiều nước trên thế giới, đặc biệt là các
Trang 26nước có khí hậu nhiệt đới Bệnh gây hại nặng trên hầu hết các vùng trồng ot Oo nướcta Ty lệ bệnh ở những ruộng nhiễm bệnh nặng có thể lên tới 70% [13] Bệnh có thểhại thân, lá, quả và hạt, nhưng hại chủ yếu trên quả vào giai đoạn chín Ở trên quả,vết bệnh ban dau là một đốm nhỏ, hơi lõm, ướt trên bề mặt vỏ quả, sau 2 - 3 ngàykích thước vết bệnh có thé lên tới 1 em đường kính Vết bệnh thường có hình thoi,vòng tròn đồng tâm, lõm, phân ranh giới giữa mô bệnh là một đường màu đen chạydọc theo vết bệnh Trên bề mặt vết bệnh có những cham nhỏ là đĩa cảnh của nắm gâybệnh Các vết bệnh có thé liên kết với nhau làm qua bị thối, vỏ khô có màu trắng vàngban Biểu hiện bệnh trên thân và lá ớt là những vết bệnh nhỏ màu nâu có viền nâuđậm xung quanh [13], [14].
Hình 1.6 Đặc điểm vết bệnh thán thư trên ớt1.4.3 Tac nhân gây bệnh
Nắm Colletotrichum spp được xác định là tác nhân chính gây bệnh than thưtrên ớt và một số loại cây trồng khác như ngũ cốc, các cây họ đậu, rau cải, cây lâunăm và cây ăn quả [15] Loài nam này xâm nhập vào tế bao chủ bang nhiều con đườngkhác nhau như sản xuất một số cau trúc gây nhiễm vào tế bào chủ: ống mam, đĩa áp
(tạo áp lực), sợi nắm nội bào, sợi nắm sơ cấp, SỢI nắm thứ cấp Chúng xâm nhiễm
dưới lớp biểu bì của tế bào chủ hoặc trong tế bao Dau tiên, chúng bám và nảy mamtrên bề mặt tế bào chủ, hình thành giác bám có vòi xâm nhiễm tạo áp lực xâm nhập
vào tế bào chủ Sau khi xâm nhập, hình thành nên sợi nắm nội bào và soi nam sơ cấp
Tu sợi nam sơ cap hình thành nên nhiều sợi nam thứ cap Các sợi nầm này dam xuyên
Trang 27hoặc len lỏi qua các tê bào, xâm chiêm khăp vùng dưới lớp biêu bì và nhanh chónglan rộng khắp các mô [12].
1.4.4 Tac nhân đối kháng sinh họcVi khuẩn Bacillus spp là tác nhân đối kháng trong đối kháng sinh học ở nhiềuloại cây trồng khác nhau Ngoài ra, vi khuẩn Bacillus spp còn có tác động kích thíchtăng trưởng cây trồng [16], [17] Các đặc tính chính giúp vi khuẩn Bacillus spp đượcsử dụng trong nhiều sản phẩm đối kháng sinh học là khả năng phân bồ rộng, tốc độphát triển nhanh, hình thành bào tử, tương đối an toàn với người và động vật cũngnhư được sản xuất được nhiều hoạt chất sinh học có giá trị [18] Cơ chế chính củatrong kiểm soát sinh học thực vật là tác nhân đối kháng sẽ tiết ra các chất phân hủythành tế bào tác nhân gây bệnh, cụ thể là enzyme thủy phân ngoại bảo để phân cắtcau trúc polymer trong vách tê bào nam bệnh.
Trong số các loài vi khuẩn Bacillus spp thi Bacillus subtilis đã được ứng dụngvào sản xuất chế phẩm sinh học bảo vệ cây trồng Một trong nhiều chế phẩm sinh họcđược đánh giá cao là Seranade® (công ty BASF — Đức) có tác dụng phòng ngừa nambệnh trên cây ăn quả và rau cải Thành phan chính trong chế phẩm là dòng Bacillussubtilis QST 713 bên cạnh đặc tính tiết enzyme ngoại bao phân hủy vách tế bào nambệnh, còn có khả năng tiết ra nhiều loại kháng sinh như surfactin, iturin A, agrastatin,plipastatin giúp đối kháng với nam va vi khuẩn gây bệnh [19]-[21]
(d) Bacillus licheniformis:té bao lién két thanh chudirõ rang, một số có dạnghình thoi, bào tử nam ởtâm hoặc ở gan cuc té bao
(g) Bacillus subtilis: té baodạng hình thoi, bao tử nămở tâm, cận tâm và ở cực tếbào
Hình 1.7 Đặc điểm vi thé Bacillus spp thường dùng trong đối khang sinh học
Thước đo = 2 pm [22]
Trang 281.5 Tiêu chí xây dựng CSDLTrong quá trình nghiên cứu, chúng tôi đã có cơ hội sử dụng nhiều phần mémkhác nhau để quản lý tài liệu tham khảo Nhìn chung, các phần mềm đều đáp ứng tốtnhững tinh năng cơ bản trong việc quản lý, kết nỗi, đồng bộ hóa dữ liệu ở nhiều cấpđộ khác nhau Tuy nhiên, khi đặt toàn bộ dữ liệu vào một phan mém duy nhất dé thựchiện CSDL nội bộ thì nhiều bất cập của các phần mềm này bắt đầu bộc lộ, dẫn đếntrong một thời gian dài chúng tôi phải duy trì phương án quản lý tài liệu thủ công.
Trước khi so sánh những mặt thuận tiện va hạn chê của các phan mém thôngdụng với phan mém do chúng tôi dé xuât cân rà soát những tiêu chí quan trọng làmtiền dé cho việc lựa chọn phương án xây dựng CSDL
Bang 1.1 Tiêu chí lựa chọn phan mềm xây dựng CSDLTiêu chí Diễn giải
CSDL được bảo vệ theo hình thức chặt chẽ nhất, tránh1 Về tính bảo mật sự xâm nhập không mong muôn dân đên xáo trộn hoặc
mât mát dữ liệu.Tài liệu dễ dàng tiếp cận, không phụ thuộc vào các yếutô khách quan bên ngoài như đường truyền Internet,
— ¬ các hệ điều hành máy tính khác nhau trình độ tin học
2 Về tính thuận tiện của người sử dụng.
Không giới han về mặt dung lượng lưu trữ tài liệu haycác hình thức trả phí phức tạp
Thời gian nhập dữ liệu tính trên một đơn vi tài liệucàng ngăn sẽ giúp người sử dụng ưu tiên giải pháp nàyhơn các giải pháp khác.
2.1 Thuận tiện trong thaotác nhập dữ liệu
Các yêu cau tìm kiếm của người sử dụng khá đa dạngnhư lọc dữ liệu theo từ khóa, sắp xêp theo thứ tự thờigian, tách riêng bài báo theo tạp chí.
Mỗi yêu cau tìm kiếm có thé xuất phát từ một phươngpháp tiếp cận van dé đang nghiên cứu Do vậy, khiCSDL có khả năng truy xuất chính xác, nhanh chóngvà kèm theo khả năng tiếp cận ngay dữ liệu tìm đượcsẽ đóng góp quan trọng cho việc tìm kiếm ý tưởng vàkhám phá thông tin mới từ bộ dữ liệu cũ.
2.2 Thuận tiện trong thaotác truy xuất dữ liệu
Trang 292.3quản ly tai liệu
Trong quá trình tong hợp dữ liệu, mot CSDL cho phépcung cấp các biéu đô và số liệu thong kê về các loại tàiliệu được lưu trữ sẽ giúp ích cho việc tổng hợp được
Thuận tiện trong đúng hướng và tránh trùng lắp với đữ liệu cũ
Người sử dụng hiểu được cách quản lý tài liệu gốc vàtruy xuât theo hình thức thủ công trong trường hợpkhông thê sử dụng được phân mêm.
3 Về tính khả thi
Khi CSDL càng lúc càng quy mô thì sự phối hợp khaithác thông tin giữa người sử dụng với nhau sẽ phát huytối đa hiệu quả của tài liệu
Do vậy, mô hình khai thác dữ liệu càng đơn giản, dễ
hiểu va dễ nhân rộng trong nhóm nghiên cứu sẽ giúptăng tính khả thi của CSDL.
[3]
Các phân mêm thương mại hiện nay đêu có những ưu diém và cai tiên liên tục.Nhưng các chi tiết cản trở người sử dụng quyết định chọn hắn một phần mềm làmxương song cho việc quản lý dữ liệu không thấy có nhiều đột phá:
Giới hạn dung lượng lưu trữ và kích thước tập tin khi đồng bộ hóa theo hìnhthức lưu trữ đám mây Dé nâng dung lượng thì chúng ta phải trả một mức phinhất định Xét về mặt kinh tế, với cùng chỉ phí đó ta có thể đầu tư vào mộtphương án khác Việc này can trở ý tưởng thành lập một CSDL nội bộ quy môlớn nhằm đáp ứng yêu câu phân tích dữ liệu cao hơn
Các khóa phân loại để quản lý tài liệu không linh hoạt với nhu cầu phân loạitài liệu của lĩnh vực nghiên cứu Chủ yếu người sử dụng chỉ được dùngkeyword, tag và folder để phân loại tài liệu với nhiều khía cạnh khác nhau.Khi máy tính có sự cô cần cài đặt lại hoặc chuyển đối máy tính thì hầu như cácphan mềm cần cài đặt lại Điều này dẫn đến quá trình quản lý dữ liệu bị bat6n, vì người sử dụng không hiểu hết cách kết nối giữa bộ dữ liệu gốc và cácđường dẫn lưu trong phan mềm Đối với giải pháp đồng bộ qua đám mây thìnhiều lúc xảy ra tình trạng lỗi kết nối làm cho việc thao tác dữ liệu rất bị động
Trang 30Như vậy, nếu có một phần mềm vừa đáp ứng tốt các tiêu chí ở Bảng 1.1 Tiêuchí lựa chọn phần mềm xây dựng CSDL, vừa giải quyết triệt để các trở ngại nêu trênthì đương nhiên việc áp dụng phần mềm đó vào thực tế sẽ khả thi.
1.6 Phần mềm Microsoft Access 2013Microsoft Access (MS) là một chương trình quản lý CSDL quan hệ trong bộchương trình ứng dụng văn phòng nổi tiếng do hãng Microsoft phát triển [23] Batđầu từ phiên ban Access 1.1 vào năm 1992, sau hơn 20 năm liên tục cải tiễn đến nàyMS Access 2013 có nhiều chức năng hữu ích trong việc xây dựng CSDL ở từ quy mônhỏ đến quy mồ lớn [24] Về cơ bản, MS Access đặt toàn bộ CSDL trong một file dữliệu có đuôi mở rộng là accdb Khi muốn thao tác với CSDL thì người dùng sẽ mởfile dit liệu này thông qua phan mềm MS Access Bảng (table) là đối tượng CSDLcốt lõi Mục đích của chúng là lưu trữ thông tin Khác với Excel, mỗi sheet là mộtbang don Access là một tập hợp nhiều bang đơn có quan hệ với nhau thông qua việcthiết lập mối quan hệ 1-1, 1-00 hay 00-00 bang các khóa chính [3], [23]
Bang 1.2 Các thông số giới hạn của MS AccessTT Thông số Giới hạn trên
I | Microsoft Access database file size (.mdb, accdb) 2 GB2 | Số lượng table, form, query, report 327683 | Số lượng ban ghi chứa trong một bảng 0,5 — 1 triệu4 | Số lượng trường dữ liệu trong một bang 2555 | Số lượng các bảng chức năng với bảng chính 32
[25]
Ở Bảng 1.2 Các thông số giới han của MS Access, ta nhận thay với nhu cau lưutrữ từ 0,5 đến 1 triệu tài liệu ở dạng bảng ghi (record) thi phân mềm hoản toàn đápứng được Trong trường hợp dữ liệu lớn hơn con số này, Access có chức năng táchCSDL thành các file nhỏ hơn để người sử dụng tiếp tục cập nhập thông tin mới
Trang 31e Ưu điễmTrước hết, việc xây dựng CSDL nội bộ trên nên tảng Access 2013 đã tận dụngưu thế về mức độ phô biến của phần mềm này trên thé giới với hon 80% máy tính caihệ điều hành Windows có kèm trong đó bộ Microsoft Office [26] Do vậy khi triểnkhai sử dụng CSDL này sẽ nhanh chóng.
Thứ hai, Access là một phần mềm được ứng dụng rộng rãi dé thiết kế các phầnmềm CSDL trong kế toán, bán hàng, quan lý thư viện, quản lý kho Khi gặp trở ngạivề van dé kỹ thuật, người sử dụng hoàn toàn yên tâm là các van dé này han nhiên đãđược giải quyết bởi các chuyên gia đi trước Đây là lợi thế rất lớn so với những phầnmềm tự xây dựng trên các ngôn ngữ lập trình hay trên các nền tảng khác
Thứ ba là chiến lược thiết kế CSDL trên nền tang Access được chúng tôi dựtrù bang cả hai phương án thủ công và phan mềm Điều này thé hiện qua Hình 1.8Các phương thức kết nối dữ liệu Cụ thé từ CSDL Access ta sẽ trích xuất thông tinra dạng file PDF hoặc file Excel trong đó có đường dẫn đến địa chỉ tài liệu, ví dụ:J:\DATABASE01\2014\04\18\01\209.pdf Ưu điểm của cách làm này là cho phéplinh hoạt truy cập dữ liệu bằng các phương pháp khác nhau Khi Access không khởiđộng được hoặc CSDL, chạy trên hệ điều hành chưa cài Access thì người sử dụng cóthé truy xuất dữ liệu thông qua các file PDF hoặc Excel lưu trữ đường dẫn va thông
tin của tài liệu đến thư mục lưu trữ sốc
e Nhược điềmVì CSDL được xây dựng trên nên tảng Access nên các chức năng nâng cao hoặclinh hoạt hơn ngoài khả năng cho phép của Access sẽ không thực hiện được Do vậy,việc lựa chọn phát triển CSDL trên nền tảng này hay nên tảng khác cũng đồng nghĩavới việc chấp nhận sự phát triển của CSDL phụ thuộc trong giới hạn cho phép ở phiênban phân mém hiện hữu.
Mối liên kết giữa các bảng trong CSDL chủ yếu là liên kết 1-œ Khi càng nhiềubảng thì các mối liên kết này càng nhiều và máy tinh sẽ mat nhiều thời gian dé thựchiện thao tác trên các bảng này Đối với máy tính có cầu hình không mạnh, một file
Trang 32Access có dung lượng lớn và chứa nhiêu dữ liệu công phu sẽ cân thời gian dài đê xửlý các lệnh cơ bản.
Đề tài chưa xây dung được tính năng nhập dữ liệu theo thời gian thực với nhiềungười dùng cùng lúc ở dạng website Do vậy, quá trình hội tụ dữ liệu bị chậm do chỉmột người thực hiện tại một thời điểm Ngoài ra, đối với các chức năng nâng cao, nếukhông thé lập trình để đưa vào Access nhằm thực hiện ý tưởng “tat cả chức năngtrong một phần mêm”, thì ta hoàn toàn có thé kết nối với những phần mềm chuyêndụng cho chức năng nâng cao đó.
PHAN MEM ACCESS 2013
J:\DATABASE01\2014
E] 04
; i 18 2 209 pdf
yi on | |S3208.pdta 02 Ee 104.pdf
J 03 | | 3 207.pat‹J 04 | | 55 206.paf
be 05 | | S3103.pdfA | S:20pdr
SDBP Fullfill Big
KET NÓI DU’ LIEU THEO PHAN
MEM HOẶC THEO ĐƯỜNG DAN
— _ VY - \ EXCEL, WORD
PHAN MEM PDF READER PHAN MEM EXCEL 2013
tảLibrary.pdf
Bacillus 3.0.xÌsx
File dữ liệu File dữ liệu
Hình 1.8 Các phương thức kết nối dữ liệu
Trang 332 VAT LIEU VÀ PHƯƠNG PHÁP
2.1 Quy trình thực hiệnViệc tiền hành xây dựng CSDL sẽ trải qua 9 giai đoạn Ở mỗi giai đoạn có cácphương pháp và phương tiện phù hợp nhằm thu được kết quả tốt nhất để chuyên tiếpvào giai đoạn tiếp theo
XÁC ĐỊNH ĐÓI TƯỢNG PHAN TICH ĐẶC DIEM XÂY DỰNG CHỨC
NGHIÊN CỨU > DỮ LIỆU > NANG TIM KIEM
my ae LUA CHON PHUONG PHAN TICH CSDL
TAP HỢP DỰ LIEU THUC LUU TRU’ MÔ HÌNH
DE XUAT CẢI TIEN
CSDLCHON LOC
THONG TIN XÂY DUNG CSDL -—
Phương pháp xây dựng:
+ Thiét kê bang quan hệ
+ Chức năng nhập dữ liệu
Hình 2.1 Quy trình thực hiện2.1.1 Xác định đối tượng nghiên cứu
Đề tài tập trung tìm kiếm các bài báo liên quan đến chủ dé đối kháng sinh học,bệnh than thu, vi khuẩn Bacillus spp., nam Colletotrichum spp Việc này giúp hìnhthành CSDL mô hình để làm ví dụ minh họa cho việc sử dụng CSDL vào các mụcđích tương tự Số lượng tài liệu cần thiết cho CSDL mô hình cần đạt trên 100 bản ghi.2.1.2 Tập hợp dữ liệu
Đề tài sử dụng danh sách từ khóa tiếng Anh để tìm tài liệu ở các CSDL bài báokhoa học như ScienceDirect, Springerlink, Wiley-Blackwell, Google Scholar,American Society of Microbiology Các từ khóa này sẽ được sử dụng riêng rẽ hoặckết hợp với nhau để kết quả thu được gần với mục tiêu tìm kiếm
Trang 34Bang 2.1 To hop từ khóa sử dụng khi tim kiếm trong các CSDL ngoại viTừ khóa 1 Từ khóa thứ 2 Từ khóa thứ 3Vi sinh vật doi khang Vi sinh vat bi doi khang Sự tương tác giữa hai
đôi tượng
Bacillus Colletotrichum Antagonism, Biocontrol
agent: tác nhân đối khángsinh học
Bacillus subtilis Colletotrichum capsici Chilli, Red pepper,
Chilli pepper: cây ớt
sporulation: nội bao tu,qua trinh san sinh bao tu
Bacillus licheniformis Colletotrichum acutatum | Pot experiment: thử
nghiém chau, vai
Bacillus Colletotrichum Field trail, Fieldamyloliquefaciens gloeosporioides condition: thử nghiệm
đồng ruộng
Endospore, _ Bacterial | Colletotrichum coccodes | Biofungicide: chế phẩm
sinh học phòng ngừa nắmbệnh
Spore survival test: thínghiệm kiểm tra sức sốngbào tử sau khi phun chếphẩm trên đồng ruộng
Colletotrichum musaeLiquid inoculant
carrier, Microbial
inoculant: phu gia danglong lam chat mang visinh vat trong san xuat chépham
Mycolytic: enzyme phânhuy vach té bao nam
Anthracnose: bénh thanthu
Dual culture: Đông nuôicay
2.1.3 Chon lọc thông tin
[27]}-[30]
Những kết qua được tập hợp sẽ trải qua bước sàng loc dựa trên việc xem tựa détài liệu có phản ánh những phương diện liên quan đến đối tượng nghiên cứu haykhông Phương pháp được sử dụng để chọn lọc tài liệu là mở file PDF bằng phầnmềm FileCenter 8.0.0.17 Trong trường hợp không cai đặt được phần mém này, ta cóthê dùng chức năng File Preview ở trình duyệt Explore đối với máy tính cài hệ điềuhành Windows 7.
Trang 35© fileCenterHC Professional
binels Op Em Form OCR Split Mơ | =| PDF ae Dimer User Settings Help
Vie m Actions đCombine | Guide
Main Tools PDF HelpCabinets ~ | my Documents Downtoad IDM | Decrease your needs End anjourney Fly with all wings |Tm ready, Dropbox (Desktop | DATABASEO1 New Rename Delete Favorites + Explorer
Drawers + Folders + Files + BA Search FE) dicptay ~ Preview « Restore Defaults x@ access
(® BAI BAO DOWNLOA
(B) BAC CAO TRUNG TA@ an
Generation of a novel polysaccharide by
BH HON HH inactivation of the aceP gene from the acetan
& Cang tac, biosynthetic pathway in Acetobacter xylinum@ DE TAI TRUI h
K 1 Edwards,t A J Jay, | J Colquhoun, V J Morris, M J Gasson
3) HO 5O LAM VIEC and A M Griffin
@ HOCHO¿
co dence: AM Griffin, Tel: 4 44 1605 255354 Fax: +44 1603 $07*31
@ HOITHAO nnet ak
(@) HOI TU TAI LiEU - = — = =
The acetan y pathway in b xylinum ìs an ideal model@) New toldet system for engineering novel bacterial poly To
manipulate this pathway, an Acetobacter strain (CKES), more susceptible to
@o te 201 UK gene-transfer hodol: was developed A new gene, aceP, involved in
& m a acetan biosy was i d and shown to have homology atia efit the amino acid level with f-D-glucosy! transferases from a number of different
@ seminar organisms Disruption of aceP in strain CKES confirmed the function assigned
above and was used to engineer a novel polysaccharide with a(Sj TU LIEU CA NHAN pentasaccharide repeat unit.
@ visio STENCIL For ¢
Keywords: Acetobacter xylinum, aceP gene, acetan, EPS biosynthesis, novel EPS8.00 x11 00 in
\® Options ~ 1 ff > HMO iL} Dos‘ Ready
Dropb BAO MOI NLOAD\1499 full pdf
Hình 2.2 Giao diện phan mềm FileCenter xem nhanh nội dung file PDF2.1.4 Phan tích đặc điểm dữ liệu
Các tài liệu của quá trình chọn lọc để đưa vào CSDL mô hình sẽ được phân tíchđặc điểm thông tin theo Hình 2.3 Tương quan giữa nội dung bên trong và bối cảnhbên ngoài bài báo Khi so sánh với Hình 1.5 Mô hình thực hiện một đề tài nghiên cứu,ta nhận thay 0 giai doan đầu thực hiện một dé tai nghiên cứu, góc nhìn của nhóm thựchiện sẽ trải dài trên nhiều chủ dé khác nhau Điểm khó khăn nhất chính là kiến thứcgiữa các chủ dé này đan xen và khó tách ra theo nhu cau nghiên cứu một khía cạnhhẹp mà nhóm đặt ra.
Moi việc dan sáng tỏ khi ở giai đoạn phan tích đặc điểm dữ liệu ta tách các yếutố cầu thành nên bài báo thành 8 mục nhỏ gồm: Nội dung, Phương pháp, Tác giả,Đơn vị làm việc, Năm xuất bản, Chủ đề, Đơn vị xuất bản, Quốc gia Từ đây, đề tài sẽxây dựng các nhóm từ khóa khách quan, từ khóa chủ quan để phân loại tài liệu đượcchính xác.
Nhờ việc tách bài báo theo các khóa phân loại rõ ràng, công tác phan tích bàibáo ở giai đoạn sau sẽ thuận lợi, giúp nhóm thực hiện có cái nhìn toàn cảnh về vanđề nghiên cứu của mình.
Trang 36Cac don vi co
lién quan
Quéc gia noi tac gia
thực hiện bai bao
Don vi lam viéc
cua tac gia bai bao
2)
Đơn vị xuất
bản bài báoTài liệu tham khảo
Trước đây M Sau này
<_—— Thời điểm bài báo xuất bản —>
Các bài báo cùng chủ đề nhưng khác hướng nghiên cứu,
xuât bản vào những moc thời gian khác nhau phan ánh
xu hướng nghiên cứu và cách tiêp cận vân đê
Hình 2.3 Tương quan giữa nội dung bên trong và bối cảnh bên ngoài bài báo
Trang 372.1.5 Lựa chọn phương thức lưu trữCách thức lưu dtr liệu được tham khảo theo ý tưởng quản lý vật tư ở Hình 2.5
Quản lý tài liệu theo mô hình quản lý vật tư Theo đó mỗi đơn vị tài liệu sẽ có một
Folder lưu trữ theo công thức: Năm — Tháng — Ngày — Thứ tự lưu trữ.
Ví dụ: Vào ngày 18/04/2014, ta nhập 6 tài liệu khác nhau vào hệ thống Thì ta
sẽ tạo Folder theo cau trúc D:: DATABASE01\2014\04\18\01, 02, 03
DATABA5E01 Files x AA Search Display +
= a 2014 Name
~ db 04 & Bacillus-Based Biological Control.pdf
= yb 18)) 01
es Co
03
)) 04)) 05)) 06)) 07
Hình 2.4 Cau trúc cây thư mục của Folder lưu trữ trung tamỞ mỗi Folder sẽ đưa vào đó các tài liệu lần lượt theo thứ tự Khi nhập liệu vàoForm, ở mục Ngày nhập vào CSDL, ta sẽ chọn là ngày 09/01/2014 Tên của tài liệusẽ là 3 đến 5 từ trong tựa dé ở phan nội dung Việc này giúp tìm nhanh dữ liệu dựatrên công cụ tìm kiêm có săn của Windows.
Phương thức lưu trữ này có ưu điểm là định vị tài liệu mới đưa vào theo thứ tựthời gian Điều này giúp cập nhập CSDL nhanh chóng khi cần chuyển giao dữ liệugiữa các thành viên trong nhóm nghiên cứu Đồng thời bảo mật được thông tin bởi 2yêu to:
+ Vị trí đường dẫn, thông tin tài liệu đều nam tập trung trong file Access, chỉngười trong nhóm mới có thể đăng nhập vào file này
+ VỊ trí các file trong CSDL được tập trung trong Folder trung tâm, việc mã hóa6 đĩa lưu trữ Folder trung tâm sẽ giúp ngăn chặn các hành động xâm nhập khôngmong muốn Khi can sao lưu dữ liệu thì người sử dụng chỉ cần chép Folder trung tâm
Trang 38vào các ô cứng dự phòng theo định kỳ Bênh cạnh đó, theo Hình 2.6 Minh họa tươngtác giữa CSDL nội bộ và CSDL bên ngoài, chúng tôi dé xuất thêm 2 phương án lưutrữ dữ liệu trực tuyến song song với phương án lưu trữ dữ liệu ngoại tuyến Chứcnăng này sẽ được hoàn thiện theo từng yêu cầu cụ thể Về cơ bản, chúng ta vẫn cầnmột máy chủ trung tâm được thiết kế trên nền tảng CSDL như đề tài để xuất Việckết nối và đồng bộ hóa theo phương thức lưu trữ đám mây hoặc trên website sẽ hoàntoàn phụ thuộc vào bộ CSDL ngoại tuyến như là một điểm tựa khi phát triển lên cao.
= THAO TÁC VỚI DU LIEU
1/ Trích xuất dữ liệu dựa
= a trên đường dẫn
‹ vào kho lưu trữNguôn: http:/Awww.directindustry.com/
Hình 2.5 Quan lý tài liệu theo mô hình quan lý vật tư
Trang 39„ để <$Áp dụng công nghệ lưu trữ
đám mây đề đồng bộ hóa
dữ liệu trong nội bộ nhóm
nghiên cứu ở các địa điểm
khác nhau
Giao diện website đề
truy cập, quản lý dữ liệu
Ó ĐĨA LƯU TRỮ:2ì + Dung lượng còn trống phải đủÁp dụng công nghộ nhiều dé chứa đựng những dữ
bảo mật dữ liệu: liệu sau này cập nhập thêm vào.
+ Sử dụng mật khau
+ Mã hóa dữ liệu DỮ LIỆU LƯU TRỮ:
+ Các phan mém + Dữ liệu được lưu đên dau sẽchuyên dụng được khai thác ngay đên đó.
Hình 2.6 Minh họa tương tác giữa CSDL nội bộ và CSDL bên ngoài
2.1.6 Xây dựng CSDLSau khi đã xác định đặc điểm tài liệu, phương thức lưu trữ, tiêu chí xây dựngCSDL Đề tài sẽ triển khai các công đoạn thiên về kỹ thuật vi tính để xác lập bộ khungphần mêm.
+ Thiết kế 21 Bang chức năng lưu trữ những đặc điểm thông tin mà tài liệu thunhận được phản ánh Trong đó bảng dữ liệu trung tâm Table.Library là nơi tập trungtoàn bộ các bản ghi và trường dữ liệu tương ứng Từ đây, khi cần truy xuất thông tin
Trang 40theo những mục đích khác nhau , người sử dung dé dàng áp dụng các tiêu chuẩn lọctheo từ khóa hoặc hàm tìm kiếm bằng Query.
+ Thiết kế 03 Biểu mẫu nhập dữ liệu để tương tác với 21 bảng chức năng ởtrên Trong đó form nhập dữ liệu chính là giao diện người sử dụng nhập thông tin vàoCSDL trung tâm.
+ Thiết kế 01 Biểu mẫu định hướng làm giao diện cho phần mềm Việc nàygiúp cho người sử dụng vốn không quen làm việc với Access dễ dàng thao tác vàquan ly dt liệu.
Trong phạm vi dé tài về hướng Tin Sinh học, dé tránh sa vào việc trình bàynhững thủ thuật vi tính căn bản, chúng tôi tập trung vào cách thực hiện những thủthuật vi tính là mẫu chốt hình thành CSDL
e Vai trò nhóm từ khóa1) Nhóm từ khóa khách quan giúp định vị tài liệu theo các khóa tìm kiếm thông
thường như: tìm thêm chủ đề nghiên cứu, tìm theo tên loài vi sinh vat, tìm theotên enzyme Cách tìm này giúp người sử dụng truy cập thông tin theo chủ dévà tạo điều kiện đào sâu hơn thông tin về chủ đề đó
2) Nhóm từ khóa chú quan giúp định vi tài liệu theo các khóa tim kiếm thôngdụng mà nhóm nghiên cứu đang tìm hiểu Ví dụ tìm các bài báo về chế phẩmvi sinh, tìm theo bệnh cây trong, tìm theo nhóm vi sinh dùng trong thực phẩm.Cách tìm này giúp người sử dụng truy cập thông tin theo nhiều chủ đề khácnhau nhưng có điểm chung là nói về nội dung mà mình đang nghiên cứu, giúptạo ra mối liên kết giữa các ngành chuyên môn để tìm ra giải pháp mới giảiquyết vẫn đề
3) Nhóm từ khóa về chú thể nghiên cứu giúp xác định các nhóm nghiên cứutheo trường Đại học, theo đơn vị nghiên cứu và theo quốc gia Cách tìm nàybộc lộ ra những tên tuổi thường gặp đối với một số chủ dé nhất định, từ đóđịnh hướng cho người nghiên cứu nên tham khảo cách giải quyết vẫn đề củanhững tác giả lớn trước khi bắt tay sáng tạo một cách tiếp cận mới