Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
1,67 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Văn Sáu
NGHIÊN CỨUSỰPHÁTTRIỂNCỦAVIRUT CÚM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: khoa học máy tính
HÀ NỘI – 2009
1
Mục lục
Mục lục 1
L
ời nói đầu 3
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học 4
1. Gi
ới thiệu về sinh học phân tử 4
2. Gi
ới thiệu về tin-sinh học 5
2.1. S
ắp hàng đa chuỗi 5
2.2. Cây ti
ến hóa 7
Chương II. Virutcúm 8
1.Sơ lược về virutcúm 8
2. Các lo
ại virutcúm 8
3. C
ấu trúc và tính chất 9
4. M
ột số thống kê và sự lây lan củavirutcúm 10
4.1. M
ột số thống kê về dịch cúm 10
4.2. S
ự lây lan củavirutcúm 12
Chương III. Ngân hàng gene virutcúm 13
1. Gi
ới thiệu tổng quan 13
2. Các ch
ức năng đã xây dựng 13
2.1. Quá trình xây d
ựng ngân hàng gene 14
2.1.1. Quá trình thu th
ập dữ liệu chi tiết cho Việt Nam 15
Nghiên cứusựpháttriểncủavirut cúm
2
2.1.2. Xây dựng cơ sở dữ liệu 16
2.2. Tìm ki
ếm các chuỗi 21
2.3. Ti
ện ích tải chuỗi 23
2.4.
Tiện ích sắp hàng đa chuỗi 23
2.5.
Tiện ích xây dựng cây tiến hóa 24
2.6. B
ản đồ phân bố củavirutcúm 25
2.6. Bi
ểu đồ thống kê về virutcúm 28
Tài li
ệu tham khảo 31
Các hình
ảnh tham khảo 33
Các b
ảng tham khảo 35
Nghiên cứusựpháttriểncủavirut cúm
3
Lời nói đầu
Tin-sinh học (Bioinformatics) là một lĩnh vực nghiêncứu đang pháttriển rất
m
ạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết
các bài toán trong sinh h
ọc phân tử. Với sựpháttriển mạnh mẽ của công nghệ sinh
h
ọc, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được
thu th
ập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National
Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng
ph
ổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm,
môi trường và kiểm soát bệnh.
Hi
ện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và
ki
ểm soát bệnh. Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các
d
ịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phần vào việc
cung c
ấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở
Việt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu về
cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm
ki
ếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virutcúm
chi ti
ết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán củavirut
cúm trên th
ế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê
virut cúm cho các vùng c
ủa Việt Nam, và trên thế giới”.
Đề tài hy vọng sẽ góp phần vào việc nghiêncứu và kiểm soát các dịch bệnh
liên quan đến virutcúm ở Việt Nam.
Nghiên cứusựpháttriểncủavirut cúm
4
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học
1. Giới thiệu về sinh học phân tử
Mọi cơ thể sống đều cấu tạo từ các tế bào.
T
ế bào có cấu tạo gồm vỏ và nhân, trong đó
nhân tế bào chứa ADN (hoặc ARN). Hình
1 mô t
ả cấu tạo của tế bào.
ADN (acid deoxyribo nucleic) mang
thông tin di truy
ền, được cấu tạo từ 4 thành
ph
ần cơ bản (gọi là các nucleotide –
Brown, 2000) Adenine (A), Cytosine (C),
Guanine (G), Thymine (T)
như hình 2.
Trong các chu
ỗi ADN, một số đoạn được
gọi là gene mang thông tin di truyền của các
loài sinh v
ật. Các nucleotide trong gene sẽ
kết hợp với nhau để tổng hợp ra protein. Cụ
thể là, một bộ ba nucleotide liên tiếp sẽ tạo
ra 1 axit amin. Có 20 lo
ại axit amin khác
nhau (Brown, 2002) là Phe (Phenylalanine),
Leu (Leucine), Ser (Serine), Tyr (Tyrosine),
Cys (Cysteine), Trp (Tryptophan), Pro (Pro-
line), His (Histidine), Gln (Glutamine), Arg
(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val
(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).
Hình 3 mô t
ả sự kết hợp của các ADN để tạo ra các axit amin. Từ các axit amin
này t
ạo nên các protein bằng cách liên kết với nhau. Sự sắp xếp khác nhau và số
lượ
ng khác nhau của các axit amin tạo thành vô số các protein khác nhau.
Nghiên cứusựpháttriểncủavirut cúm
5
ARN (Ribonucleic acid) cũng tương
tự như ADN nhưng trong thành phần cơ
bản của nó thì T được thay bằng U (Uracil).
2. Giới thiệu về tin-sinh học
Trong phần này chúng tôi sẽ trình bày một
số bài toán cơ bản trong tin
-sinh học như 1.
Sắp hàng đa chuỗi, 2. Cây tiến hóa.
2.1. Sắp hàng đa chuỗi
Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3
phép biến đổi chính là (Brown, 2002).
1.
Thay thế là một hoặc vài nucleotide bị thay thế bởi một hoặc vài nucleo-
tide
khác trong chuỗi.
2.
Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.
3.
Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi cũ.
Do 3
phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi. Vì
thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp
hàng đa chuỗi để tìm ra mối quan hệ này
.
Gióng hàng các chu
ỗi ADN, ARN hay protein là cách gióng sao cho chúng
gi
ống nhau nhất. Các chuỗi này sau khi gióng hàng sẽ có cùng chiều dài. Trường
hợp đơn giản nhất của gióng hàng là sắp hàng
2 chuỗi.
Nghiên cứusựpháttriểncủavirut cúm
6
Sắp hàng 2 chuỗi là trường hợp riêng của sắp hàng đa chuỗi. Ví dụ chúng ta
có hai chu
ỗi ADN của Human và Chimpanzee như bảng 1 dưới đây.
Sau khi gióng hàng hai chuỗi thì hai chuỗi sẽ có chiều dài bằng nhau như
bảng
2 bên dưới (Waterman, 2000).
Gióng hàng đa chuỗi là thực hiện tìm sự giống nhau của nhiều chuỗi thay
cho m
ột cặp như gióng hàng 2 chuỗi. Ví dụ, ta có gióng hàng đa chuỗi của 8 chuỗi
sau
ở bảng 3 (Waterman, 2000; Higgins, 2003).
Nghiên cứusựpháttriểncủavirut cúm
7
Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là
MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-
COFFEE (Notredame et al., 2000).
Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào
để cho ta tìm ra cây tiến hóa giữa các loài
. Cây tiến hóa chính là biểu diễn trực
quan của mối quan hệ giữa các loài
.
2.2. Cây tiến hóa
Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực
quan dưới dạng cây
. Dựa vào cây tiến hóa người ta có thể xác định được loài nào
có quan h
ệ nguồn gốc với loài nào.
Trong nghiên c
ứu về virut
cúm, thông qua cây ti
ến hóa người
ta xác định được loài virut nào có
quan h
ệ tiến hóa từ loài virut nào,
tức là xác định được sự lây lan virut
t
ừ nơi này qua nơi khác thông qua
quan hệ nguồn gốc giữa chúng. Từ
đó, người ta đề
ra các biện pháp
phòng, ch
ống lây lan dịch tốt hơn.
Trong hình 4 là ví dụ mô tả về cây
ti
ến hóa của các loài virutcúm ở
Việt Nam từ năm
2001 đến 2007
(Wan X-F, Nguyen T, Davis -CT,
Smith CB, Zhao Z-M, et al, 2008),
ta th
ấy virut HK79-like, GX22-like,
F1-like có chung m
ột gốc và nằm ở
2 nhánh nên chúng có quan hệ nguồn gốc với nhau. Hiện tại có phần mềm thông
dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP
(Joe Felsenstein, mid-1995)
và phần mềm xem cây tiến hóa như TreeView (Ro-
deric D. M. Page, 2000).
Nghiên cứusựpháttriểncủavirut cúm
8
Chương II. Virut cúm
1.Sơ lược về virut cúm
Virut cúm được biết đến từ một trận dịch cúm xuất phát từ chim ở Tây Ban Nha
vào năm 1918 đã giết chết khoảng 40-50 triệu người (khoảng một nửa dân số thế
giới vào thời điểm đó - Theo thống kê của tổ chức y tế thế giới WHO). Cho đến
ngày hôm nay, các nhà khoa h
ọc mới giải mã được cách mà loại virutcúm này
t
ừng làm kinh hoàng thế giới bằng cách lây từ vật sang người và gây bệnh, vượt
qua ranh gi
ới về loài.
Virut cúm tên khoa h
ọc là influenza virus, thường được gọi là cúm (flu), là
tác nhân gây b
ệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc
h
ọ Orthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính
thường gặp nhất
.
2. Các loại virut cúm
Virut cúm là virut ARN của họ Orthomyxoviridae (Voyles, 2002), gồm có 3 loại
chính
cúm A, cúm B, cúm C (CDC).
Cúm A là lo
ại virutcúm phổ biến thường gặp trong các trận dịch (hầu hết các
tr
ận dịch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15
(CDC)
. Cho đến nay tất cả các tuýp virutcúm được biết đều đã được tìm thấy ở
các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thể xâm
nh
ập mà không gây triệu chứng gì trong đường ruột, dạ dày của vật chủ.
Nghiên cứusựpháttriểncủavirut cúm
9
Cúm B là một loại virutcúm
thường gây bệnh ở người, thường
gây b
ệnh nhẹ và xảy ra ít hơn so
với cúm A. Người ta mới chỉ phát
hi
ện ra một loài vật khác bị
nhiễm cúm B là loài hải cẩu. Loại
cúm B này có t
ần số thay đổi 2-3
l
ần và ít hơn sự thay đổi củacúm
A.
Cúm C là m
ột loại virutcúm
gây b
ệnh chủ yếu ở người và lợn,
có th
ể gây ốm và lây lan cục bộ.
Cúm C g
ặp ít hơn hai loại cúm A, cúm B rất nhiều và thường gây ốm nhẹ ở trẻ
em. Tính chất dễ gây bệnh và lây lan củavirut chính là do đặc điểm về cấu trúc
genome củavirut gây nên
. Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất
này.
3. Cấu trúc và tính chất.
Cúm A, B và C có cấu trúc tương tự nhau. Chúng có chiều dài khoảng 80-120 na-
nomet và thường có hình cầu, mặc dù có cả hình sợi (NBCI GenBank).
Genome là thành ph
ần lõi của virut. Virutcúm có 8 đoạn (với cúm A và B)
và 7 đoạn (đối với cúm C) trong bộ genome của chúng (Nippon Rinsho, 1997).
Trong GenBank người ta lần lượt ký hiệu các đoạn này theo số từ 1 đến 8 là 1
(PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)
đối với cúm A và B. Đối với cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),
5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997). Genome c
ủa cúm A và B mã hóa
11 lo
ại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),
M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome c
ủa cúm C
[...]... 10 Nghiêncứusựpháttriểncủavirutcúm Các trận dịch cúm xảy ra gần đây (bảng 5) Theo thống kê của tổ chức y tế thế giới WHO “Cumulative Number of Confirmed Human Cases of A-vian Influenza A/(H5N) Reported to WHO 3 April 2008 ” Để hiểu rõ hơn virutcúm truyền bệnh như thế nào, chúng ta sẽ tìm hiểu trong phần sự lây lan củavirutcúm ở phần dưới đây 11 Nghiêncứusựpháttriểncủavirutcúm 4.2 Sự. .. “http://www.cdc.gov/flu/avian-/geninfo/flu-viruses.html” 12 Nghiêncứusựpháttriểncủavirutcúm Chương III Ngân hàng gene virutcúm 1 Giới thiệu tổng quan Luận án này nghiêncứu về sựpháttriểncủavirutcúm Công việc củaluận án là xây dựng một ngân hàng gene virutcúm cho tất cả các nước trên thế giới và chi tiết tới từng tỉnh thành/vùng miền của Việt Nam Phần mềm này lấy dữ liệu tự động từ ngân hàng... Hình 19 là trang web cho phép người dùng lựa chọn xem phân bố cúm 25 Nghiêncứusựpháttriểncủavirutcúm Từ trang này, người dùng có thể chọn xem phát tán virutcúm theo loại cúm A, cúm B hay cúm C hoặc bất kỳ loại cúm nào trong 3 loại cúm trên Người dùng có thể chọn cúm gia cầm (Avian) hay cúm “Blow fly”,…và có thể lựa chọn phát tán củavirut từ năm nào (ví dụ từ năm 2000) đến năm nào (ví dụ đến.. .Nghiên cứu sự pháttriển của virutcúm mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, GenBank) Hai protein quan trọng củavirutcúm là HA và NA Virutcúm có 2 protein lớn HA và NA (nhưng đơn giản) hầu như quy định tính độc hại củavirut HA là đoạn liên kết củavirut tới tế bào vật thể bị lây sang, trong khi NA là bao gồm thay đổi củavirut mới sinh ra từ những... bố cúm ở Việt Nam 27 Hình 22 Phân bố cúm ở các nước trên thế giới 27 Hình 23 Phóng to hình ảnh phân bố cúm ở các nước trên thế giới 27 Hình 24 Giao diện chương trình thống kê về virutcúm 28 Hình 25 Thống kê virutcúm cho các vùng của Việt Nam 29 Hình 26 Thống kê virutcúm cho Việt Nam 29 Hình 27 Thống kê virutcúm trên thế giới 30 34 Nghiêncứu sự pháttriển của virut. .. Xây dựng bản đồ phân tán củavirutcúm - Xây dựng biểu đồ thống kê virutcúm 13 Nghiêncứu sự pháttriển của virutcúm Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virutcúm như thế nào 2.1 Quá trình xây dựng ngân hàng gene Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virutcúm cho Việt Nam là thu thập... tree,… để xem Để làm trực quan về phân bố củavirutcúm thì trong phần tiếp theo chúng ta sẽ xây dựng “bản đồ phân bố củavirutcúm giúp người dùng dễ dàng có cái nhìn trực quan về phân bố virutcúm ở Việt Nam hay trên thế giới 2.6 Bản đồ phân bố củavirutcúm Người dùng có thể xem sự phân bố củavirutcúmcủa các nước trên thế giới hay của các tỉnh thành của Việt Nam trong phần “prediction” từ trang... 2009) trong hai trường “From year” và “To year” Trong phần “Country/Region” người dùng có thể chọn “Viet Nam” để xem sựphát tán ở Việt Nam hoặc “any” để xem sựphát tán củavirutcúm trên thế giới 26 Nghiêncứu sự pháttriển của virutcúm Kết quả minh họa khi người dùng xem phân bố cúm ở Việt Nam và trên thế giới như hình 20, 21, 22 và 23 bên dưới Phần này sử dụng kiến thức nền tảng về “google map... lây lan củavirutcúm Thông thường virutcúm không thể lây nhiễm trực tiếp sang người mà phải thông qua vật chủ trung gian như lợn, gà,… Khi ở trong vật thể trung gian này thì virut từ người và virutcúmcủa một loài khác sẽ kết hợp với nhau bằng cách trao đổi các thành phần trong tế bào của chúng để tạo nên loại virutcúm mới có khả năng gây bệnh ở người Có hai quá trình lây lan củavirutcúm là drift... 22 33 Nghiêncứu sự pháttriển của virutcúm Hình 15 Kết quả sau khi chọn download file FASTA 23 Hình 16 Sắp hàng đa chuỗi 24 Hình 17 Ví dụ về cây tiến hóa “http://coltech.vnu.edu.vn/courses/Bioinformatics/” 24 Hình 18 Download file tree.zip sau khi thực hiện build tree .25 Hình 19 Trang xem sự phân bố củavirutcúm 26 Hình 20 Phân bố cúmcủa các tỉnh/miền . “http://www.cdc.gov/flu/avian-/gen-
info/flu-viruses.html”.
Nghiên cứu sự phát triển của virut cúm
13
Chương III. Ngân hàng gene virut cúm
1. Giới thiệu tổng quan
Luận án này nghiên cứu về sự phát triển của virut. Page, 2000).
Nghiên cứu sự phát triển của virut cúm
8
Chương II. Virut cúm
1.Sơ lược về virut cúm
Virut cúm được biết đến từ một trận dịch cúm xuất phát từ