Xuất phát từnhững đòi hỏi cấp bách và thực tiễn của ngành Tin sinh học Việt Nam, với định hướng phát triển và ứng dụng công nghệTin sinh học trong nghiên cứu dịch tễhọc phân tử, nhiệm vụhợp tác quốc tếgiữa Viện Vệsinh Dịch tễTƯvà Viện Pasteur Paris, Pháp “Hợp tác nghiên cứu ứng dụng Tin sinh học trong dịch tễhọc phân tửmột sốvirút gây bệnh nguy hiểm ởngười” đã được triển khai nhằm đạt hai mục tiêu chính: 1. Hợp tác nghiên cứu và chuyển giao công nghệTin sinh học (Bioinformatic) ứng dụng trong Dịch tễhọc phân tửmột sốvirút gây bệnh ởngười. 2. Ứng dụng Tin sinh học trong nghiên cứu đặc điểm genotyp của một sốchủng virút (Rubella, sởi) lưu hành tại các vùng địa lý dân cưkhác nhau. Việc xây dựng các ứng dụng Tin sinh học hỗtrợtrong nghiên cứu và chuyển giao công nghệTin sinh học là vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hoà nhập với cộng đồng ngoài nước, mởra cơhội hợp tác nghiên cứu khoa học với các nước trong khu vực và trên thếgiới. Hơn thế, việc ứng dụng rộng rãi và thành công của Tin sinh học trong nhiều lĩnh vực Sinh học đóng góp phần thiết yếu trong việc thúc đẩy phát triển nền Sinh học của một Quốc gia MỤC LỤC MỞ ĐẦU 1 Chương 1. TỔNG QUAN 3 1.1. CÔNG NGHỆTIN SINH HỌC 3 1.1.1. Khái niệm vềTin sinh học 3 1.1.2. Lĩnh vực nghiên cứu chính của tin sinh học 4 1.1.2.1. Phân tích trình tự 4 1.1.2.2. Tìm kiếm gen 5 1.1.2.3. Dò tìm đột biến 5 1.1.2.4. So sánh trình tự 6 1.1.2.5. Bảo tồn đa dạng sinh học 6 1.1.3. Công cụphần mềm Tin sinh học 7 1.1.3.1. Phần mềm Tin sinh học miễn phí 7 1.1.3.2. Phần mềm Tin sinh học thương mại 8 1.1.3.3. Phần mềm Tin sinh học bản quyền BioNumerics 8 1.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄHỌC PHÂN TỬBỆNH ỞNGƯỜI 9 1.2.1. Khái niệm vềDịch tễhọc phân tử 9 1.2.2. Dịch tễhọc phân tửbệnh sởi 11 1.2.2.1. Virút sởi 11 1.2.2.2. Nghiên cứu dịch tễhọc phân tửbệnh sởi 11 1.2.3. Dịch tễhọc phân tửbệnh Rubella 14 1.2.3.1. Virút Rubella 14 1.2.3.2. Nghiên cứu dịch tễhọc phân tửbệnh Rubella 15 1.2.4. Ứng dụng Tin sinh học trong nghiên cứu Dịch tễhọc phân tử 16 Chương 2- PHƯƠNG PHÁP NGHIÊN CỨU 19 2.1. CHUYỂN GIAO CÔNG NGHỆTIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN CỨU DỊCH TỄHỌC PHÂN TỬVIRÚT GÂY BỆNH ỞNGƯỜI 19 2.1.1. Đào tạo và chuyển giao Công nghệTin sinh học tại Pháp 19 2.1.1.1. Đào tạo kiến thức vềCông nghệTin sinh học 19 2.1.1.2. Chuyển giao Công nghệTin sinh học trong chọn lựa phần mềm phù hợp 20 2.1.2. Đào tạo và chuyển giao Công nghệTin sinh học tại Việt Nam 21 2.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐỊA LÝ DÂN CƯ 22 2.2.1. Phương pháp Sinh học phân tử ứng dụng trong phân tích genotyp chủng virút sởi và Rubella 22 2.2.1.1. Vật liệu 22 2.2.1.2. Gây nhiễm chủng virút trên nuôi cấy tếbào 23 2.2.1.3. Tách chiết ARN virút 23 2.2.1.4. Phương pháp nhân gen bằng RT-PCR và Nested PCR 24 2.2.1.5. Phương pháp RFLP 25 2.2.1.6. Phương pháp multiplex realtime PCR 25 2.2.1.7. Phương pháp xác định trình tựnucleotit 27 2.2.2. Phân tích genotyp chủng virút sởi và Rubella bằng phần mềm Tin sinh học BioNumerics 28 2.2.2.1. Phân tích genotyp chủng virút bằng phần mềm “BioNumerics sequence” 28 2.2.2.2 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics fingerprint” 28 2.2.2.3. Dựng cây phảhệphát sinh loài bằng phần mềm “BioNumerics Tree and Netword Inference” 29 Chương 3. KẾT QUẢVÀ BÀN LUẬN 31 3.1. HỢP TÁC NGHIÊN CỨU VÀ CHUYỂN GIAO CÔNG NGHỆTIN SINH HỌC ỨNG DỤNG TRONG DỊCH TỄHỌC PHÂN TỬ 31 3.1.1. Kết quảnghiên cứu và chuyển giao Công nghệTin sinh học 31 3.1.2. Kết quảso sánh và chọn lựa các chương trình Tin sinh học phù hợp 31 3.2. KẾT QUẢ ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐịA LÝ DÂN CƯKHÁC NHAU 34 3.2.1. Giải trình tựnucleotit đoạn gen quan trọng của virút sởi 34 3.2.1.1. Tách chiết ARN virút sởi 34 3.2.1.2. Kết quảRT-PCR và Nested PCR nhân đoạn gen Nucleocapsit N virút sởi 35 3.2.1.3. Kết quảgiải trình tự đoạn ADN đặc hiệu nucleoprotein N virút sởi 37 3.2.1.4. Kết quảRFLP phân tích tính đa dạng đoạn ADN gen N virút sởi 40 3.2.2. Giải trình tựnucleotit đoạn gen glycoprotein E1 virút Rubella 43 3.2.2.1. Tách chiết ARN virút Rubella 43 3.2.2.2. Kết quảRT-PCR khuếch đại ADN gen E1 virút Rubella 43 3.2.2.3. Giải trình tựnucleotit gen E1 virút Rubella 45 3.2.3. Kết quảmultiplex realtime PCR xác định virút sởi và Rubella 47 3.2.3.1. Kết quảmutliplex PCR 47 3.2.3.2. Kết quảmutliplex realtime PCR 49 3.2.4. Ứng dụng phần mềm BioNumerics trong xác định genotyp chủng virút sởi & Rubella 52 3.2.4.1. Kết quảchọn lựa chương trình phần mềm Tin sinh học phù hợp 52 3.2.4.2. Kết quả ứng dụng phần mềm BioNumerics trong phân tích genotyp virút sởi và Rubella 54 3.2.4.3. Bản đồ dịch tễ phân bốcác genotyp virút sởi và Rubella 60 3.2.5. Đánh giá hiệu quả về khoa học công nghệ 62 Chương 4. KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 66 PHỤLỤC 70
Trang 1-***** -
BÁO CÁO TỔNG HỢP NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC
VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ
TÊN NHIỆM VỤ
HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ
MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI
Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG
Chủ nhiệm nhiệm vụ: TS LÊ THỊ KIM TUYẾN
8185
HÀ NỘI - 2010
Trang 2-***** -
SẢN PHẨM KHOA HỌC VÀ CÔNG NGHỆ
NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC
VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ
Tên nhiệm vụ
HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ
MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI
Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG
Chủ nhiệm nhiệm vụ: TS LÊ THỊ KIM TUYẾN
HÀ NỘI – 2010
Trang 3MỞ ĐẦU 1
1.1 CÔNG NGHỆ TIN SINH HỌC 3
1.1.2 Lĩnh vực nghiên cứu chính của tin sinh học 4
1.2 ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ BỆNH
1.2.4 Ứng dụng Tin sinh học trong nghiên cứu Dịch tễ học phân tử 16
2.1 CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN CỨU
DỊCH TỄ HỌC PHÂN TỬ VIRÚT GÂY BỆNH Ở NGƯỜI
19
Trang 42.1.1.2 Chuyển giao Công nghệ Tin sinh học trong chọn lựa phần mềm phù hợp 20 2.1.2 Đào tạo và chuyển giao Công nghệ Tin sinh học tại Việt Nam 21
2.2 ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG
VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐỊA LÝ DÂN CƯ
22
2.2.1 Phương pháp Sinh học phân tử ứng dụng trong phân tích genotyp chủng
virút sởi và Rubella
22
2.2.2.1 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics sequence” 28
2.2.2.2 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics fingerprint” 28
2.2.2.3 Dựng cây phả hệ phát sinh loài bằng phần mềm “BioNumerics Tree and
Netword Inference”
29
3.1 HỢP TÁC NGHIÊN CỨU VÀ CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG
DỤNG TRONG DỊCH TỄ HỌC PHÂN TỬ
31
3.1.1 Kết quả nghiên cứu và chuyển giao Công nghệ Tin sinh học 31 3.1.2 Kết quả so sánh và chọn lựa các chương trình Tin sinh học phù hợp 31
3.2 KẾT QUẢ ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM
GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐịA LÝ DÂN
CƯ KHÁC NHAU
34
3.2.1 Giải trình tự nucleotit đoạn gen quan trọng của virút sởi 34
Trang 53.2.1.4 Kết quả RFLP phân tích tính đa dạng đoạn ADN gen N virút sởi 40 3.2.2 Giải trình tự nucleotit đoạn gen glycoprotein E1 virút Rubella 43
3.2.3 Kết quả multiplex realtime PCR xác định virút sởi và Rubella 47
3.2.4 Ứng dụng phần mềm BioNumerics trong xác định genotyp chủng virút sởi & Rubella 52
3.2.4.2 Kết quả ứng dụng phần mềm BioNumerics trong phân tích genotyp virút
sởi và Rubella
54
Trang 6MỞ ĐẦU
Trong vài thập kỷ qua, Sinh học phân tử được đánh giá là một ngành khoa học với những bước phát triển mạnh mẽ Hàng loạt công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình phân tích và giải mã các dữ liệu thông tin thu được từ các nghiên cứu sinh học ở mức độ phân tử ADN Có thể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng như hiện nay Để giải mã khối luợng thông tin đồ sộ như vậy, Công nghệ thông tin đã được ứng dụng vào Sinh học một cách khá triệt để Tin sinh học ra đời, chính là sự kết hợp khoa học giữa Công nghệ thông tin và các thành tựu nghiên cứu sinh học ở mức độ phân tử ADN
Những thành tựu của Tin sinh học đã hỗ trợ mạnh mẽ trong việc đưa Sinh học,
Y học vào giải quyết những công việc thực tiễn, thúc đẩy nhanh quá trình chẩn đoán bệnh, tìm ra các y dược phẩm mới, vắcxin phòng dịch, kít chẩn đoán Tin sinh học còn là công cụ hữu ích trong việc xử lý các dữ liệu thông tin về trình tự ADN của các
bộ gen, lập bản đồ phát sinh và phân bố các genotyp của các loài vi sinh lưu hành theo vùng địa lý và theo thời gian Điều này là cần thiết trong nghiên cứu giám sát dịch tễ học phân tử nhằm ngăn chặn dịch bệnh nguy hiểm ở người
Lĩnh vực Tin sinh học vô cùng phát triển trên Thế giới Việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển Trong khu vực Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật Bản đã và đang có những đột phá trong lĩnh vực này Đối với Việt Nam, Tin sinh học là ngành khoa học non trẻ và cũng chỉ xuất hiện ở các Viện nghiên cứu và trong một vài trường Đại học lớn và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học Điều thiết yếu cần có trong Tin sinh học là những ngân hàng dữ liệu cho phép mọi người dễ dàng truy cập thông tin Thứ hai nữa là cần có những phần mềm tin học làm công cụ để phân tích những dữ liệu trong ngân hàng sinh học này Tuy nhiên, ở nước ta, việc tạo ra các sản phẩm phần mềm để đưa vào áp dụng vô cùng hiếm hoi Đội ngũ những người làm Tin sinh học còn hạn hẹp Để có được những ngân hàng dữ liệu đặc hiệu cho hoàn cảnh Việt Nam, cần có một môi trường nghiên cứu phát triển thuận lợi nhằm tạo ra nhu cầu cho Tin
Trang 7sinh học Việc đào tạo một đội ngũ chuyên gia về Tin sinh học là điều quyết định cho
sự thành công của việc phát triển Tin sinh học Đội ngũ này đòi hỏi không những chỉ nắm bắt được trình độ tư duy toán học của Tin học mà còn phải thông hiểu những vấn
đề hiện nay của Sinh học Việc đào tạo kỹ năng nghiên cứu độc lập và khả năng cộng tác với các đồng nghiệp trên Thế giới của đội ngũ khoa học này sẽ là điều kiện thiết
yếu trong quá trình phát triển của Tin sinh học Việt Nam
Xuất phát từ những đòi hỏi cấp bách và thực tiễn của ngành Tin sinh học Việt Nam, với định hướng phát triển và ứng dụng công nghệ Tin sinh học trong nghiên cứu dịch tễ học phân tử, nhiệm vụ hợp tác quốc tế giữa Viện Vệ sinh Dịch tễ TƯ và Viện
Pasteur Paris, Pháp “Hợp tác nghiên cứu ứng dụng Tin sinh học trong dịch tễ học
phân tử một số virút gây bệnh nguy hiểm ở người” đã được triển khai nhằm đạt hai
phát triển nền Sinh học của một Quốc gia
Trang 8Chương 1 TỔNG QUAN
1.1 CÔNG NGHỆ TIN SINH HỌC
1.1.1 Khái niệm về Tin sinh học
Tin sinh học (Bioinformatic) chính là sự kết hợp giữa Công nghệ thông tin và
các nghiên cứu Sinh học ở mức độ phân tử ADN Thuật ngữ Tin sinh học được đặt ra bởi Paulien Hogeweg vào năm 1978 khởi nguồn từ việc nghiên cứu các quá trình tin học trong hệ thống kháng sinh Nói rộng hơn, Tin sinh học còn được biết đến là một lĩnh vực khoa học sử dụng các ngành toán học ứng dụng, tin học thống kê, khoa học máy tính, trí tuệ nhân tạo, hoá học và hoá sinh để giải quyết các vấn đề sinh học Một
thuật ngữ thường được dùng cho Tin sinh học là Sinh học tính toán (computational
biology) Tuy nhiên Tin sinh học thiên về việc phát triển các giải thuật, lý thuyết và các
kỹ thuật thống kê và tính toán để giải quyết các bài toán bắt nguồn từ nhu cầu quản lý
và phân tích dữ liệu sinh học Trong khi đó Sinh học tính toán thiên về kiểm định các
giả thuyết (hypothesis) được đặt ra của một vấn đề trong sinh học nhờ máy tính thực nghiệm trên dữ liệu mô phỏng, với mục đích chính là phát hiện và nâng cao trí thức về
sinh học Thuật ngữ Tin sinh học và Sinh học tính toán thường được dùng để hoán đổi
cho nhau, mặc dù cái trước, nói một cách nghiêm túc, là tập con của cái sau Những mối quan tâm chính trong các dự án Tin sinh học và Sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn được thu thập từ các kỹ thuật sinh học với lưu lượng mức độ lớn [3], [4]
Tin sinh học ngày nay đòi hỏi sự sáng tạo và tiến bộ của cơ sở dữ liệu, thuật toán, kỹ thuật tính toán thống kê và lý thuyết để giải quyết các vấn để thực tế phát sinh
từ việc quản lý và phân tích dữ liệu sinh học Trong những thập kỷ qua, với sự kết hợp giữa sự phát triển nhanh chóng trong nghiên cứu công nghệ gen và các nghiên cứu phân tử cùng với sự phát triển công nghệ thông tin đã tạo ra một số lượng dữ liệu
khổng lồ của thông tin liên quan đến sinh học phân tử Có thể nói, “Tin sinh học chính
là tên đặt ra cho các ứng dụng toán học và vi tính để làm sáng tỏ các hiểu biết về các quá trình sinh học” Các hoạt động thường gặp trong tin sinh học gồm lập bản đồ phát
Trang 9sinh loài, phân tích ADN và các chuỗi protein, kéo dài ADN và các chuỗi protein khác nhau để so sánh chúng và tạo ra và xem các mô hình 3-D của cấu trúc protein [3], [31]
1.1.2 Lĩnh vực nghiên cứu chính của Tin sinh học
Thực chất Tin sinh học gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều lĩnh vực khác nhau, nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học Kết quả của những nghiên cứu này tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc tìm hiểu về gen, protein và một số vấn đề khác liên quan đến
Sinh học phân tử
1.1.2.1 Phân tích trình tự
Kể từ khi bộ gen của Phage Φ-X174 được xác định trình tự (1977) cho đến nay, trình tự ADN của rất nhiều loài sinh vật đã được lưu trữ trong các ngân hàng cơ sở dữ liệu gen Việc so sánh các gen trong cùng một loài hay giữa các loài khác nhau có thể cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng
loài giữa những loài này thể hiện trên cây phát sinh chủng loài (phylogenetic tree) Với
sự tăng trưởng khổng lồ của dữ liệu loại này, việc phân tích trình tự ADN một cách thủ công trở nên không thể thực hiện nổi
Ngày nay, các chương trình máy tính được sử dụng để giúp tìm các trình tự tương đồng trong bản đồ gen của hàng loạt sinh vật, với số lượng nucleotit trong trình
tự lên đến hàng tỷ Những chương trình này có thể tìm kiếm những trình tự ADN không giống nhau hoàn toàn do các đột biến nucleotit gây nên bởi sự thay thế, mất hay
thêm các gốc bazơ Thuật ngữ bắt cặp trình tự (sequence alignment) được áp dụng
ngay cả trong quá trình xác định trình tự ADN, là kỹ thuật xác định trình tự đoạn nhỏ
(shotgun sequencing) Kỹ thuật này đã được công ty Celera Genomics sử dụng để xác định trình tự genom của vi khuẩn Haemophilus influenza Kỹ thuật xác định trình tự
hiện nay không thể tiến hành với cả đoạn ADN lớn cỡ vài chục nghìn nucleotit trở lên nên cần phải xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước khoảng 600-800 nucleotit Sau đó, những đoạn trình tự nhỏ này được sắp xếp thứ tự và
nối lại với nhau thông qua việc bắt cặp trình tự ở những đầu gối lên nhau (overlap) tạo
Trang 10thành một trình tự genom hoàn chỉnh Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên sử dụng trong hầu hết các nghiên cứu giải mã genom hiện nay và giải thuật lắp ráp genom
(genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học
[2],[3] Hiện nay, nhiều phòng thí nghiệm tại các Viện nghiên cứu đầu ngành của VN cũng đang triển khai kỹ thuật lắp ráp genom trong việc xác định trình tự nucleotit hoàn chỉnh của các genom virút (cúm H5N1, SARS) và đã bước đầu thành công [9], [14]
1.1.2.2 Tìm kiếm gen
Trong nghiên cứu bản đồ gen (genomics), thuật ngữ annotation là quá trình đánh
dấu các gen và các đặc tính sinh học khác trong một chuỗi ADN Không phải tất cả các nucleotit bên trong một genom đều là gen Phần lớn các ADN bên trong genom của sinh vật bậc cao là các đoạn ADN không phục vụ cho một nhiệm vụ cụ thể nào được gọi là những đoạn ADN rác Tin sinh học giúp cho việc tìm kiếm tự động các gen và những trình tự điều khiển bên trong một genom Hệ thống phần mềm làm nhiệm vụ
“genome annotation” đầu tiên đã được thiết kế vào năm 1995 bởi Owen White cho giải
mã vi khuẩn Haemophilus influenza Tác giả White đã xây dựng hệ thống phần mềm
này để tìm kiếm các gen nằm trong chuỗi ADN làm nhiệm vụ mã hoá các protein, ARNt vận chuyển và các chức năng khác tạo nên chức năng đầu tiên của các gen đó Hiện nay, hầu hết các hệ thống genome annotation đều hoạt động tương tự nhưng các chương trình nhằm để phân tích lĩnh vực nghiên cứu bản đồ gen ADN thường xuyên được cải tiến [3]
1.1.2.3 Dò tìm đột biến
Rất nhiều các nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm
ra các đột biến điểm (point mutation) xảy ra trên các gen khác nhau Tập các dữ liệu được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (sequence
data) rồi so sánh trình tự kết quả với các trình tự đã biết trên genom Những hệ thống
oligonucleotit microarray cho phép nghiên cứu đồng thời hàng trăm ngàn vị trí trên toàn bản đồ gen đang được sử dụng để xác định những đột biến thêm và mất đoạn
nhiễm sắc thể Mô hình chuỗi Markov ẩn (Hidden Markov Model) và phương pháp
Trang 11phân tích điểm thay đổi đang được phát triển để có thể suy ra số lượng thực của những thay đổi từ các dữ liệu thu nhận hỗn độn [3]
1.1.2.4 So sánh trình tự
Khi so sánh trình tự sinh học, có hai vấn đề được đặt ra, đó là việc so sánh đối xứng toàn cục và so sánh đối xứng cục bộ So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ các phân tử của hai trình tự Mỗi một phân tử của một trình
tự sẽ được so sánh đối xứng với một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap) Khác với so sánh đối xứng toàn cục, so sánh đối xứng cục bộ chỉ thực hiện việc so sánh đối xứng trên một số phần của các trình tự được so sánh So sánh đối xứng cục bộ có ý nghĩa sinh học lớn hơn so sánh toàn cục vì thông thường không phải tất cả các phần tử trong trình tự tham gia vào việc xác định đặc tính sinh học của trình tự Một số chương trình Tin sinh học đóng vai trò công cụ hỗ trợ cho việc so sánh trình tự Giải thuật so sánh trình tự đối xứng hiện đang được sử dụng là Needleman-Wunsch và Smith-Waterman Chức năng so sánh này nằm trong mođun ClustalX Công dụng của chương trình cho phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng FASTA, phylip, v.v…[14], [31]
1.1.2.5 Bảo tồn đa dạng sinh học
Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học
(biodiversity) Tính đa dạng sinh học lớn nhất của Thế giới tập trung ở các nước thuộc
vùng khí hậu nhiệt đới Thông tin quan trọng nhất được thu thập chính là tên, miêu tả,
sự phân bố, trạng thái và kích thước dân số của các chủng loài (species), nhu cầu thói
quen và cách mà mỗi tổ chức tương tác với các chủng loài khác Thông tin này được lưu trữ vào trong cơ sở dữ liệu các máy tính, được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin đó một cách tự động, và quan trọng nhất, là để giao tiếp được với con người, đặc biệt qua internet Các chuỗi ADN của các loài sắp tuyệt chủng có thể được bảo quản, tên cùng miêu tả của mỗi loài được lưu lại
để có thể cho phép truy cập tối đa các thông tin cần cho việc bảo tồn đa dạng sinh học Một ví dụ của ứng dụng này là dự án Species 2000 Đây là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của
Trang 12cây, động vật, nấm (fungus) và vi khuẩn còn tồn tại để làm nền tảng cho việc nghiên
cứu đa dạng sinh học toàn cầu Bất cứ ai trên thế giới cũng có thể tìm thấy lượng lớn thông tin về bất kì chủng loài nào từ các cơ sở dữ liệu cung cấp [3], [15]
1.1.3 Công cụ phần mềm Tin sinh học
Tin sinh học có mục đích phải giải mã bí ẩn sinh học chứa trong vài tỷ nucleotit Trình tự các đoạn genom được lưu trữ tại các Ngân hàng gen trên Thế giới là nguồn dữ liệu khổng lồ để tra cứu Những số liệu cần lựa chọn và so sánh đòi hỏi các chương trình tin học Công cụ phần mềm giữ vị trí thiết yếu cần có trong Tin sinh học Thống
kê cho thấy, các phần mềm tin học đang được sử dụng có số lượng phong phú cùng với tính ứng dụng cao trong nhiều lĩnh vực khoa học
1.1.3.1 Phần mềm Tin sinh học miễn phí
Hàng trăm phần mềm đã được lập trình giúp cho việc chọn lựa, so sánh và xử lý
các thông tin về trình tự ADN và protein Nhiều phần mềm miễn phí hiện đang được sử
dụng rộng rãi trong các nghiên cứu phân tích trình tự gen như FASTA, BLAST, Mega
4, Cn3D, Phylip, Peptool, Genetool, ClustalX, BioEdit, SeqVISTA, SAGA, Primer3, T-coffee, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos v.v… Trong số đó, phần mềm BLAST được sử dụng rộng rãi nhất trong việc tìm kiếm những trình tự nucleic acid hoặc protein tương đồng lưu trữ trên các cơ sở dữ liệu từ Ngân hàng gen Phần mềm ClustalW được dùng để so sánh sắp xếp các trình tự (Multiple Alignment) Cho đến nay, phần mềm MEGA4 là một trong những phần mềm miễn phí được công nhận có tính ứng dụng cao trong tính toán và dựng cây phả hệ phân loại loài
Các ngôn ngữ lập trình của máy tính như Perl và Python thường được dùng để giao tiếp và ly trích dữ liệu từ các ngân hàng cơ sở dữ liệu sinh học thông qua những chương trình tin sinh học Cộng đồng những lập trình viên tin sinh học đã triển khai
nhiều dự án phần mềm mã nguồn mở (free/open source) như EMBOSS, Bioconductor,
BioPerl, BioRuby và BioJava Điều này giúp cho việc chia sẻ, phát triển và phổ biến các công cụ lập trình và tài nguyên lập trình giữa các nhà tin sinh học [2],[3],[24],[30]
Trang 13Tại Việt Nam, định hướng xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ sinh học để có thể xử lý và phân tích trình tự sinh học, qua đó nắm bắt được nguyên lý thiết kế cũng như bước đầu tạo ra sản phẩm phần mềm mang thương hiệu Việt Nam trong lĩnh vực Tin sinh học đang được các nhà khoa học quan tâm Sản phẩm phần mềm HiBio của Phân viện Công nghệ thông tin TP Hồ Chí Mình hợp tác với Viện Công nghệ sinh học Việt Nam ra đời là một minh chứng cho định hướng này Sản phẩm phàn mềm HiBio là tập hợp gồm các mođun chương trình độc lập, trong đó mỗi mođun thực hiện một chức năng riêng như: mođun nhập và soạn thảo dữ liệu trình
tự, mođun so sánh bắt cặp trình tự, mođun tạo vectơ cắt [31]
1.1.3.2 Phần mềm Tin sinh học thương mại
Dù có được những lợi thế về nguồn thông tin to lớn, hữu ích và miễn phí như hiện nay, việc sử dụng những phần mềm miễn phí rõ ràng vẫn chưa đáp ứng được việc truy cập và khai thác những thông tin có giá trị và cập nhật nhất trong nguồn dữ liệu khổng lồ của các Ngân hàng gen Do tính cạnh tranh rất cao trong quá trình nghiên cứu khoa học trên toàn cầu, một số chương trình phần mềm đã được nâng cấp và thương mại hoá nhằm tạo thuận lợi lớn nhất cho việc áp dụng phương pháp nghiên cứu dùng Tin sinh học Nhiều chương trình phần mềm thương mại được nâng cấp và sử dụng tại các Trung tâm nghiên cúu khoa học và bệnh viện trên Thế giới Có thể kể một số phần mền bản quyền điển hình như Paul*, BioNumerics, MacClade, Hennig86, TreeRot, WINCLADA … Các chương trình này cho phép phân loại phân tử nhanh chóng và tự động, hỗ trợ cho việc phân tích kết quả thử nghiệm Tuy nhiên để có được những chương trình này cần phải đặt mua Do vậy các chương trình thương được trang bị ở những cơ sở có điều kiện kinh phí cho phép
1.1.3.3 Phần mềm Tin sinh học bản quyền BioNumerics
Một trong danh mục các phần mềm thương mại được công nhận trên toàn thế giới và hiện được sử dụng thường nhật ở rất nhiều phòng nghiên cứu tại các trường đại học, bệnh viện, Viện nghiên cứu, ngành thực phẩm, y dược phẩm các ngành công nghiệp là phần mềm BioNumerics [4]
Trang 14BioNumerics là phần mềm tin học bản quyền của Hãng Applied Maths (Bỉ) Tính nổi trổi của BioNumerics là sự xuất hiện của các giải trình tự thông lượng cao, microarrays, Maldi, và phần lớn các kỹ thuật phân loại phân tử nhanh chóng và tự động
ưu việt này giúp cho nó có thể dễ dàng tạo ra một lượng lớn dữ liệu từ các kỹ thuật thử nghiệm khác nhau, hỗ trợ cho việc phân tích kết quả thử nghiệm
Phần mềm BioNumerics có 12 mođun (module), bao gồm 06 mođun ứng dụng
và 06 mođun phân tích:
• Mođun ứng dụng: Kiểu vân tay (Fingerprint types) , kiểu 2D gel (2D gel types) , kiểu đặc tính (Character types) , kiểu trình tự (Sequence types) , kiểu xu
hướng dữ liệu (Trend data types) và các kiểu ma trận (Matrix types)
• Mođun phân tích: Mođun Cây và mạng suy luận (Tree and network inference
module) , Mođun Nhận dạng (Indentification module) , Mođun kích thước và
thống kê (Dimensioning and Statistics module) , Mođun các công cụ chia sẻ cơ sở
dữ liệu (Database sharing tools module), Mođun Audit trails and Versioning ,
Mođun phân tích trình tự sinh học phân tử (Sequence Molecular analysis module)
1.2 ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ BỆNH Ở NGƯÒI
1.2.1 Khái niệm về Dịch tễ học phân tử
Trong Y học, các tác nhân gây bệnh phần lớn đều là vi sinh Căn nguyên gây nên dịch bệnh đã được biết đến Một dịch bệnh bùng nổ từ các đơn vị cơ thể (tế bào, vi rút) nhân lên từ một cơ thể gốc được gọi là tổ tiên, lan truyền ra ngoài, lây nhiễm từ cá thể này sang cá thể khác Tại các ổ dịch xảy ra không cùng một địa điểm và thời gian
sẽ xuất hiện nhiều dòng tế bào khác nhau Trong điều kiện kinh tế hội nhập và giao lưu
dễ dàng như hiện nay, mọi người có thể di chuyển khắp Thế giới, bất kỳ lúc nào và bất
kỳ nơi nào Cùng với sự giao lưu này, các ổ dịch cũng có thể di chuyển theo Mô hình dịch tễ học các bệnh dịch đã thay đổi [22], [28], [33]
Trang 15Trong những năm gần đây, sự xuất hiện và tái xuất hiện các bệnh dịch nguy hiểm đang là vấn đề đe dọa nghiêm trọng đến sức khoẻ cộng đồng Các dịch bệnh nguy hiểm lây lan một cách nhanh chóng từ vùng lãnh thổ địa lý của Quốc gia này sang Quốc gia khác Nguy cơ bùng nổ các đại dịch là vấn đề nổi cộm trong Y học Xác định tính đa dạng di truyền của các chủng vi sinh gây bệnh nguy hiểm ở người nhằm phát hiện và ngăn chặn kịp thời dịch bệnh là vấn đề cấp bách không chỉ ở Việt nam mà còn được đặt ra ở nhiều Quốc gia trên Thế giới Một hướng nghiên cứu mới “Dịch tễ học phân tử” được các nhà khoa học trên toàn thế giới quan tâm Khái niệm về ngành khoa
học này đã được công nhận “Dịch tễ học phân tử là phân tích so sánh các genom để
nghiên cứu quá trình lan truyền của một bệnh ở một quần thể” [WHO] Dịch tễ học
phân tử cho phép theo rõi riêng rẽ từng chủng vi sinh gây bệnh Có thể xác định bao nhiêu chủng đang lưu hành trên mỗi vùng địa lý khác nhau Việc xác định sự biến đổi trên trình tự ADN genom của các chủng cho phép so sánh tính chất của các dịch bệnh xảy ra tại các địa điểm và thời gian khác nhau [6], [10], [12], [21], [27], [28]
Dịch tễ học phân tử đã trở thành một công cụ chính xác và ngày càng đóng vai trò cần thiết bởi nó cho phép:
- Xác định nguồn gốc và đường lây truyền của mỗi tác nhân gây bệnh
- Quan sát genotyp các chủng gây bệnh theo thời gian và địa điểm
- Cho thông tin về khả năng ngăn chặn sự lây truyền của chủng gây bệnh
- Đánh giá hiệu quả của các chương trình tiêm chủng vắcxin
- Theo rõi sự tiến hoá và biến đổi của các chủng vi sinh gây bệnh
Ở Việt nam, Dịch tễ học phân tử là lĩnh vực khoa học hoàn toàn mới và bắt đầu được triển khai trong những năm gần đây Nhiệm vụ đặt ra cho công tác chăm sóc sức khoẻ cộng đồng của ngành Y tế dự phòng là phải giám sát dịch tễ học, phát hiện và ngăn chặn kịp thời các dịch bệnh nguy hiểm ở người Các phương pháp sinh học phân
tử phân tích đặc tính sinh học và sự biến đổi genotyp các chủng vi sinh gây bệnh ở mức
độ ADN là phần thiết yếu trong nghiên cứu giám sát dịch tễ học phân tử [5],[13],[22]
Theo công bố của WHO, đặc tính di truyền của virút hoang dã là một phần thiết yếu của các giám sát dựa trên phòng thí nghiệm Trong đó bao gồm cả việc xác định
Trang 16genotyp các chủng hiện đang lưu hành Việc giám sát bệnh cần phải được mở rộng trong mọi vùng lãnh thổ Thế giới và tiến hành liên tục trong tất cả các giai đoạn Các
dữ liệu gen có thể giúp xác nhận và ngăn chặn các nguồn lây lan của bệnh
1.2.2 Dịch tễ học phân tử bệnh sởi
1.2.2.1 Virút sởi
Hình 1.2.2.1a Cấu trúc phân tử virút sởi
Hình 1.2.2.1b Bản đồ genom virút sởi
Virút sởi thuộc gia đình Paramyxoviridae, chi Morbillivirus Genom virút sởi là một
sợi đơn thẳng âm tính có chiều dài khoảng 15.894 nucleotit mã hoá cho 06 cấu trúc protein: Nucleoprotein (N), Phosphoprotein (P), Hemagglutinin (H), Membran (M), Fusion (F), và Large (L) Virút sởi được cho là có đặc tính đơn loài, tuy nhiên sự biến đổi về đặc điểm di truyền đã được mô
tả với các chủng hoang dã (Hình 1.2.2.1a,b) [27], [33]
1.2.2.2 Nghiên cứu dịch tễ học phân tử bệnh sởi
+ Trên Thế giới: Bệnh sởi được biết đến từ thế kỷ thứ IX, nhưng cho đến nay
vẫn tồn tại và được xếp vào một trong những bệnh gây tỷ lệ tử vong cao cho trẻ em trên thế giới Theo công bố của Trung tâm Ngăn ngừa và Kiểm soát bệnh tật (CDC, Mỹ), trên thế giới, mỗi năm ước tính có khoảng 20 triệu ca mắc sởi, trong đó 164 nghìn
ca tử vong do sởi
Theo danh pháp tiêu chuẩn hoá của WHO, các genotyp virút sởi hoang dã được tách biệt thành 08 nhánh có tên A, B, C, D, E, F, G, và H, với 22 kiểu gen [WHO, 2001] Chủng sởi Edmonston (Edm-wt.USA/54) được làm gốc chuẩn cho nhánh A (Bảng 1.2.2.2) Sự khác biệt của kiểu gen virút sởi dựa trên kết quả phân tích trình tự
Trang 17ADN vùng biến đổi nhất của 500 nucleotit đầu cuối -COOH của gen N hoặc toàn bộ
gen H Tuy nhiên cùng với thời gian, nhiều trình tự genom ADN virút sởi mới đã được
bổ sung thêm trong danh mục dữ liệu của GenBank thế giới Điều này cho thấy có sự
biến đổi về trình tự ADN của các chủng virút hoang dã tại các vùng địa lý Việc kiểm
soát, ngăn chặn và khống chế sự lây lan nhằm tiến tới thanh toán bệnh sởi trên toàn cầu
được WHO đặt lên hàng đầu Điều này cần có sự hợp lực của tất cả các quốc gia trên
thế giới[10], [27]
Bảng 1.2.2.2 Danh mục chủng virút sởi chuẩn đại diện cho nhóm và dưới nhóm
Genotyp Trạng thái Tên chủng Số đăng ký trong
Genebank Gen H Gen N
B1 Hoạt động Yaounde.CAE/12.83 "Y14" AF079552 U01988
B2 Hoạt động Libreville.GAB/84 "R96" AF079551 U01994
D3 Hoạt động Illinois.USA/89/1"Chicago-1" M81895 U01977
Trang 18F Bất hoạt MVs/Madrid.SPA/94 PESS Z80830 X84865
+ Việt Nam: Từ năm 1983, bệnh sởi được xếp là 1 trong 6 bệnh được triển khai
tiêm phòng vắcxin trong Chương trình tiêm chủng mở rộng Quốc gia Đến năm 2005,
tỷ lệ mắc sởi chỉ còn 0,16 ca/100.000 dân (Bộ Y tế, 2005) Tuy nhiên, sự bùng nổ của các vụ dịch sởi ở mọi lứa tuổi, xảy ra tại nhiều địa phương trong những năm gần đây là vấn đề nổi cộm trong ngành Y tế Dự phòng Điển hình là các vụ dịch sởi xẩy ra ở Nghệ
An (1998), Nha Trang (2000), Gia Lai (2002), Lao Cai (2005), Lai Châu (2006) và Thái Nguyên (2006), Ninh Bình (2008), Tp HCM (2009) Theo báo cáo của Chương trình TCMRQG, tính đến tháng 03 năm 2009 đã có 7629 ca nghi mắc sởi Việc chẩn đoán nhanh, chính xác căn nguyên gây dịch sởi là vấn đề cấp bách được đặt ra cho công tác giám sát dịch tễ học Cho đến nay, để phục vụ công tác chẩn đoán giám sát dịch tễ học bệnh sởi, kỹ thuật IgM-ELISA vẫn đang được triển khai tại một số phòng thí nghiệm chuẩn thức Quốc gia
Nghiên cứu Dịch tễ học phân tử bệnh sởi bắt đầu được đề cập ở Việt Nam từ
năm 2002 với mục tiêu xác định sự phân bố các genotype virút sởi và nguồn gốc các chủng sởi du nhập từ bên ngoài Các kỹ thuật sinh học phân tử đóng vai trò quan trọng
và hỗ trợ đắc lực cho việc xác định và phân biệt sởi với các căn nguyên gây sốt phát ban khác Để triển khai định hướng nghiên cứu này, các kỹ thuật PCR, Đa dạng độ dài đoạn cắt hạn chế (RFLP) và giải trình tự ADN (sequencing) bắt đầu được thực hiện tại một số phòng thí nghiệm chuẩn thức quốc gia của các Viện đầu ngành như Viện Vệ sinh Dich tễ TƯ, Viện Pasteur TpHCM Bước đầu giải trình tự một đoạn gen dài 450 nucleotide ở đầu tận cùng -COOH của gen nucleocapsit (N) của một số chủng virút sởi phân lập tại Việt Nam cho thấy các chủng virút sởi lưu hành tại miền Bắc Việt Nam vào những năm 1997-2000 thuộc nhóm H2 Các chủng này có cấu trúc gen gần giống
Trang 19chủng Mvi/Beijing/CHN/94-1 chuẩn của WHO Tuy nhiên, nghiên cứu gần đây nhất đã
phát hiện genotyp H1 được xác định trong vụ dịch sởi ở Nha Trang vào tháng 03/2000
Genotyp này có cấu trúc tương tự như chủng chuẩn Mvi/Hunan.CHI/93 [23] Từ 2005,
bằng kỹ thuật Giải trình tự đã xác định các chủng sởi hoang dại lưu hành tại một số vùng địa lý Việt Nam đều thuộc genotyp H1 So với danh mục chủng virút sởi phân bố trên toàn thế giới, genotyp H1 và H2 có tỷ lệ biến đổi tương đối xa so với chủng gốc chuẩn A (Edmonston) Các genotyp này xuất hiện và chỉ lưu hành tại một số nước châu
Á như Nhật Bản, Trung quốc và Việt Nam [10], [21], [22]
1.2.3 Dịch tễ học phân tử bệnh Rubella
1.2.3.1 Virút Rubella
Hình 1.2.3.1a Cấu trúc phân tử virút Rubella
Hình 1.2.3.1b Bản đồ genom virút Rubella
Virút Rubella là thành viên duy nhất của chi
Rubivirus và gia đình của Togaviridae Các
hạt virion hình cầu có đường kính 50-70 nm, được bao phủ bởi một lớp màng lipid Bên trong màng lipid là một capsid có cấu trúc icosahedral với đường kính là 40 nm Genom virút Rubella là một sợi đơn ARN dương tính, được bao bọc bởi capsid Trên màng tế bào phân bố các "gai" glycoprotein E1 và E2 (Hình 1.2.3.1a)
Các gen ARN bên trong capsid có chiều dài khoảng 9.757 nucleotit và mã hóa cho 05 protein bao gồm 02 protein phi cấu trúc (P150
và RdRp) và 03 protein cấu trúc: protein capsid và 02 glycoprotein màng E1 và E2 (Hình 1.2.3.1b).[6]
Trang 20
1.2.3.2 Nghiên cứu dịch tễ học phân tử bệnhRubella
+ Trên Thế giới: Rubella là loại bệnh do virut Rubella gây ra, dễ lây lan qua
đường hô hấp Bệnh Rubella rất nguy hiểm cho phụ nữ mang thai đặc biệt là trong 3 tháng đầu của thai kỳ, sẽ ảnh hưởng xấu tới thai nhi, gây sảy thai hoặc sinh non 90% phụ nữ mang thai trong 3 tháng đầu của thai kỳ sẽ sinh ra em bé bị hội chứng Rubella bẩm sinh như: điếc, đục thủy tinh thể, tật mắt nhỏ, tăng nhãn áp bẩm sinh, tật đầu nhỏ, viêm não, màng não, chậm phát triển tâm thần, gan to, lách to Trẻ sinh ra có thể bị hội chứng Rubella bẩm sinh (CRS), mắc các chứng bệnh về tim, mắt, tai hoặc thiểu năng trí tụê
Theo báo cáo của tổ chức Y tế thế giới WHO thì mỗi năm, chỉ tính riêng ở các nước đang phát triển, khoảng 100.000 trường hợp CRS Thời điểm dịch bùng phát năm 1964-1965 ở các nước phương Tây, hơn 20.000 trẻ em sinh ra bị khuyết tật do ảnh hưởng của virus Tại VN, theo báo cáo tổng kết của chương trình Tiêm chủng mở rộng quốc gia, trong năm 2009 có 965 ca được chẩn đoán dương tính với Rubella
Theo các công bố khoa học, trình tự gen E1 đã được sử dụng cho các kiểu gen
và phân tích phát sinh loài của chủng virút Rubella Các genotyp Rubella hiện đang lưu hành trên Thế giới được phân bố thành 2 nhóm chính với 09 kiểu genotyp RGI (1A, 1B,1C,1D,1E,1G,1H,1i,1j) và 03 kiểu genotyp RGII (2A,2B,2C) (Bảng 1.2.3.2) [29] Bảng 1.2.3.2 Danh mục chủng chuẩn sử dụng trong phân tích genotyp virút Rubella
Trang 21+ Việt Nam: Phụ nữ mang thai mắc Rubella trong 3 tháng thai đầu tiên sẽ để lại dị
tật bẩm sinh cho trẻ Đây là vấn đề ảnh hưởng nghiêm trọng đến sức khoẻ cộng đồng Chương trình giám sát bệnh dịch ở Việt nam cho thấy, ngày càng có nhiều các ca sốt phát ban có biểu hiện lâm sàng tương tự sởi được xác định căn nguyên do virút Rubella Điển hình là các vụ dịch Rubella xẩy ra năm 2005 và 2006 tại nhiều địa phương trên cả nước với hàng nghìn ca mắc Tuy vậy, các nghiên cứu về Rubella mới chỉ dừng ở mức độ xây dựng kỹ thuật chẩn đoán lâm sàng và huyết thanh học Vì vậy việc cần thiết phải tiến hành nghiên cứu dịch tễ học phân tử để tìm hiểu đặc điểm di truyền, nguồn gốc và sự phân bố của virút Rubella lưu hành ở Việt Nam nhằm mục tiêu phát hiện và khống chế dịch bệnh
1.2.4 Ứng dụng Tin sinh học trong nghiên cứu Dịch tễ học phân tử
+ Trên Thế giới: Từ khi trình tự ADN tế bào con người được phân tích, Tin sinh
học có mục đích phải giải mã bí ẩn sinh học chứa trong vài tỷ nucleotit Tin sinh học cung cấp các công cụ tìm kiếm khai thác thông tin về hệ genome- transcriptome-proteotome của nhiều cơ thể sinh vật cũng như các công cụ phân tích thông tin sinh học ở mức độ phân tử Trình tự các đoạn genom virút được lưu trữ tại các Ngân hàng gen trên Thế giới là cơ sở cho việc so sánh kết quả phân tích và dựng cây phả hệ miêu
tả nguồn gốc và sự phân bố các genotyp chủng vi sinh
Cho đến nay, nguồn cơ sở dữ liệu công cộng lớn nhất, lưu trữ tới hàng tỷ dữ liệu
về trình tự gen và protein được cung cấp bởi ba Ngân hàng gen thế giới nổi tiếng:
- NCBI: Trung tâm Quốc gia về Công nghệ Sinh học (National Center for
Biotechnology Information) của Mỹ
- EMBL: Phòng thí nghiệm Sinh học phân tử của châu Âu (European Molecular
Biology Laboratory)
Trang 22- DDBJ: Ngân hàng dữ liệu ADN Nhật Bản (DNA data Bank of Japan [14], [35]
Những số liệu cần so sánh đòi hỏi các chương trình máy tính Vai trò của các thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng Kết quả của những nghiên cứu này tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc tìm hiểu về gen, protein và một số vấn đề khác liên quan đến Sinh học Điển hình như phần mềm Evolutionary Biology Group (Oxford) (http://ovolve.zoo.ox.ac.uk.) là một trong những công cụ hữu ích trong nghiên cứu Dịch tễ học phân tử các bệnh virút Các chưong trình phần mềm tin học giúp cho việc xác định vị trí và sự khác biệt trên trình tự ADN genom chính xác đến tỷ lệ dưới 1/1000 Tin sinh học đã trở nên một công
cụ không thể thiếu được trong phân tích đặc điểm di truyền (genotyping) của các genom virút Nhiều công trình nghiên cứu của các tác giả ngoài nước đều nhấn mạnh đến vai trò của Tin sinh học trong các nghiên cứu sinh học ở mức độ phân tử [1], [10], [19], [28], [34]
+ Tại Việt Nam: Trong những năm gần đây Tin sinh học bắt đầu được triển
khai ở nước ta trong việc phân tích và xác định trình tự ADN của các tác nhân vi sinh gây bệnh Các công trình khoa học ứng dụng các chương trình Tin sinh học được thực hiện tại một số Viện nghiên cứu khoa học và trường Đại học lớn trong nước như Viện
Vệ sinh Dịch tễ TƯ, Viện Pasteur TP HCM, Viện Công nghệ sinh học VN, Trường Đại học Khoa học tự nhiên TP HCM, Trường Đại học Y Dược Tp HCM… là những minh chứng [15], [22], [23], [30] Phòng Thí nghiệm chuẩn thức quốc gia bệnh Hô hấp Viện VSDTTƯ đã ứng dụng các chương trình phần mềm BioEdit, Mega4, MEGALIGN, DNASIS trong việc phân tích các trình tự genom ADN của virút cúm H5N1 và H1N1 Chương trình tin học BLAST, ClustalW, Phylip, pmimer3, DNAstar và Mega3 đã được các tác giả chọn lựa và sử dụng trong định nhánh (phylogenetic) virút Dengue và Viêm não Nhật Bản phân lập tại Việt Nam Bên cạnh các phần mềm miễn phí, một số chương trình Tin học thương mại bước đầu cũng đã được sử dụng trong phân tích xác định các genotyp vi sinh gây bệnh Trong số đó, Chương trình phần mềm bản quyền BioNumerics của Hãng Applied Maths (Bỉ) hiện được sử dụng trong các công trình
Trang 23nghiên cứu và chẩn đoán bệnh tại Bệnh viện Nhiệt đới Tp HCM, Bệnh viện Lao Phạm Ngọc Thạch Tp HCM, Viện Di truyền Nông nghiệp và Trường Đại học Cần Thơ
Các công bố cho thấy, việc xây dựng mối quan hệ phát sinh chủng loại của các chủng vi sinh ngày càng phổ biến trong các nghiên cứu về phân loại genotyp Tin sinh học đã trở thành yếu tố rất quan trọng góp phần cho sự thành công trong các nghiên cứu thuộc lĩnh vực Sinh học nói chung và Dịch tễ học phân tử nói riêng Để có cơ sở chính xác cho các chiến lược hoạch định công tác phòng chống bệnh dịch, các nghiên cứu dịch tễ học phân tử về các tác nhân gây bệnh cần phải triển khai một cách thống nhất có hệ thống Điều này đòi hỏi phải xây dựng được bộ số liệu về đặc điểm di truyền, sự tiến hoá, phân bố theo địa dư của các tác nhân gây bệnh Những bộ số liệu di truyền này không những chỉ được sử dụng tại Việt Nam mà còn góp phần xây dựng ngân hàng dữ liệu các tác nhân gây bệnh của thế giới Điều này cho thấy sự cần thiết
phải ứng dụng và phát triển Tin sinh học vào lĩnh vực nghiên cứu Dịch tễ học phân tử
Trang 24Chương 2 - PHƯƠNG PHÁP NGHIÊN CỨU
2.1 CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ VIRÚT GÂY BỆNH Ở NGƯỜI
Một trong những mục tiêu chính của hợp tác quốc tế nhằm nâng cao kiến thức
và kỹ năng về Công nghệ Tin sinh học cho đội ngũ cán bộ khoa học VN Phía đối tác Pháp giúp đào tạo, chuyển giao công nghệ mới trong lĩnh vực Tin sinh học Quy trình chuyển giao công nghệ được thực hiện thông qua các khoá đào tạo về lý thuyết và thực hành Tin sinh học cho đội ngũ cán bộ Việt Nam Chuyển giao công nghệ hướng chuyên sâu về lĩnh vực ứng dụng Tin sinh học trong phân tích đặc điểm di truyền của chủng vi sinh vật gây bệnh ở người trên mô hình bệnh sởi và Rubella
2.1.1 Đào tạo và chuyển giao Công nghệ Tin sinh học tại Pháp
2.1.1.1 Đào tạo kiến thức về Công nghệ Tin sinh học
Định hướng chính của đề tài là chọn lựa và ứng dụng chương trình phần mềm phù hợp với điều kiện của VN Các phần mềm được chọn lựa và kết nối với nhau để
tạo nên các quy trình phù hợp với việc phân tích dữ liệu và trình tự ADN của mỗi virút
Quy trình đào tạo lý thuyết và thực hành Tin sinh học cho 06 nghiên cứu viên Việt Nam được tiến hành tại Viện Pasteur Paris Pháp tập trung nghiên cứu các chức năng ứng dụng của các phần mềm Tin sinh học dựa trên hệ thống phần mềm đang được
sử dụng của Viện Pasteur Paris: Tools at Pasteur Paris, Evolutionary Biology Group (Oxford) và một số phần mềm bản quyền (BioNumerics):
- Hiển thị cặp trình tự chính và trình tự bắt cặp
- Tìm vị trí của một enzym giới hạn trong một trình tự
- Tìm kiếm đoạn mồi
- Phân tích, so sánh mức độ tương đồng giữa các trình tự
- Dựng cây phát sinh chủng loại
- Tìm kiếm các trình tự, các đoạn lặp, các enzym trong cơ sở dữ liệu
Trang 252.1.1.2 Chuyển giao Công nghệ Tin sinh học trong chọn lựa phần mềm phù hợp
Quy trình nghiên cứu lựa chọn phần mềm phù hợp trong phân tích xác định genotyp chủng virút Sởi và Rubella, dựa trên các chương trình phần mềm đang được được sử dụng rộng rãi trong nghiên cứu phân tích ADN genom như: Blast, DIALIGN, Phylip, Shibase, NEBcutter, Genomatix, BLOCKS, PRODOM, T-coffee Primer3, MEGA4, ClustalX
Quy trình chuyển giao công nghệ được thực hiện qua hợp tác quốc tế trong việc chọn lựa chương trình Tin sinh học phù hợp Danh mục hơn 300 chương trình phần mềm đang được sử dụng tại Viện Pasteur Paris được liệt kê trên website http://bioweb.pasteur.fr/intro-uk.html là nguồn thông tin phong phú và hữu ích cho việc chọn lựa chương trình phần mềm phù hợp nhất cho nghiên cứu Dịch tễ học phân
tử Chức năng chính của một số chương trình phần mềm hiện đang được sử dụng thường nhật tại Viện Pasteur Paris được miêu tả trong Bảng 2.1.1.2
Bảng 2.1.1.2 Chức năng chính của các chương trình phần mềm Tin sinh học
- Tìm kiếm trình tự tương đồng trên cơ sở dữ liệu
- So sánh trình tự
- Phân tích và hình ảnh hoá các tương tác dữ liệu mạng
- Cơ sở dữ liệu tương tác cho các so sánh đặc tính
di truyền của Shigella
2 Xử lý trình tự SQUIZZ
EMBOSS
-Chuyển đổi định dạng tập tin
- Trích dẫn, chỉ rõ và tìm kiếm các cặp lân cận của các tính năng trên trình tự
- Hiển thị tập tin ABI
- Điều chỉnh thẳng cột hàng các trình tự
- Điều chỉnh thẳng cột hàng DNA/Protein
- So sánh Protein và trình tự DNA (Bộ gen hoặc
Trang 26SMART BLOCKS
- Tính toán thông số vật lý và hóa lý khác nhau cho protein
- Mô tả sơ lược trình tự amino acid trên cấu trúc protein chọn lựa
- Lĩnh vực Protein
6 Phân tích trình tự
Nucleic
Primo Primer3
Tacg Rebase NEBcutter
In Silico Rnaga EMBOSS
- Tìm kiếm điểm khác nhau giữa các hình vạch băng ADN trên gel
- Dựng cây phát sinh chủng loại
2.1.2 Đào tạo và chuyển giao Công nghệ tin sinh học tại Việt Nam
Đào tạo và chuyển giao Công nghệ Tin sinh học được triển khai tại Việt Nam nhằm mục đích phát triển đội ngũ cán bộ Tin sinh học trẻ với sự giảng dạy của chuyên
Trang 27gia Pháp Quy trình chuyển giao công nghệ thông qua khoá đào tạo lý thuyết về sự phát triển và các lĩnh vực ứng dụng của Tin sinh học Quy trình ứng dụng phần mềm BioNumerics trong nghiên cứu dịch tễ học phân tử được hoàn thiện tại Viện Vệ sinh Dịch tễ TƯ với hệ thống máy vi tính được trang bị hoàn chỉnh Tổ chức Hội thảo quốc
tế giữa các nhà khoa học Việt Nam và Pháp nhằm trao đổi thông tin trong lĩnh vực ứng dụng Tin sinh học trong nghiên cứu dịch tễ học phân tử virút gây bệnh ở người
2.2 ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG VURÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐỊA LÝ DÂN CƯ
Nhiệm vụ Hợp tác quốc tế theo Nghị định thư với CH Pháp tập trung vào nghiên cứu xây dựng các quy trình ứng dụng Tin sinh học và Sinh học phân tử trong Dịch tễ học phân tử Các quy trình công nghệ này được ứng dụng cụ thể trên mô hình phân tích genotyp chủng virút sởi và Rubella Các phương pháp Sinh học phân tử được triển khai nhằm mục đích thu nhận các kết quả thực nghiệm (trình tự ADN và hình vạch RFLP) làm cơ sở dữ liệu cần thiết cho việc chọn lựa và xây dựng quy trình ứng dụng Tin sinh học Phương pháp nghiên cứu được trình bày theo nội dung nghiên cứu của thuyết minh đề tài
2.2.1 Phương pháp sinh học phân tử ứng dụng trong phân tích genotyp chủng sởi và Rubella
2.2.1.1 Vật liệu
• Đối tượng nghiên cứu được lựa chọn gồm một số chủng virút ARN: sởi và Rubella
• Mẫu bệnh phẩm: dịch họng hầu thu thập từ bệnh nhân có biểu hiện lâm sàng bệnh sởi/Rubella từ các vụ dịch tại một số địa phương VN trong năm 2006-2009 Bệnh phẩm được lấy vào ngày 1-7 sau phát ban và giữ 4°C trong môi trường vận chuyến
• Số lượng mẫu:
- 10 mẫu bệnh phẩm dịch họng hầu do Phòng Thí nghiệm Hô hấp, Khoa Virút, Viện VSDTTƯ thu thập tại các vụ dịch ở miền Bắc VN: Lai Châu (2/2006), Điện Biên (2/2006), Thái nguyên (4/2006) và Ninh Bình (5/2008)
Trang 28- 10 mẫu bệnh phẩm dịch họng hầu do Phòng Hô hấp, Viện Pasteur Tp HCM thu thập tại các vụ dịch sởi ở một số địa phương miền Nam VN năm 2008-2009
- 12 mẫu bệnh phẩm dịch họng hầu do Phòng Hô hấp Viện Pasteur Tp HCM thu thập tại các vụ dịch Rubella ở một số địa phương miền Nam VN 2007
- 04 mẫu chủng vắcxin sởi Ed-Vero, Ed-HA, AIK-C Vero, AIK-C FL do Trung tâm Khoa học và sản xuất vacxin Sabin cung cấp
- 02 mẫu chủng vắcxin sởi phân lập từ vắcxin sởi W6675/Rouvax-Aventis Pasteur (Pháp) và EME732 A/Bicken Cam (Osaka, Nhật Bản)
- 04 mẫu chủng virút sởi và Rubella chuẩn do Trung tâm chuẩn thức Quốc gia Pháp
về bệnh sởi và hô hấp Paramyxovirus (CHU, Caen) cung cấp
- 40 mẫu ARN chủng virút sởi được xác định genotyp D5 do Viện Pasteur Phnompenh, Campuchia cung cấp
2.2.1.2 Gây nhiễm chủng virút trên nuôi cấy tế bào
Chủng virút sởi và Rubella được gây nhiễm và tăng sinh trên các nuôi cấy tế bào thường trực Vero SLAM theo thường quy kỹ thuật của hai phòng thí nghiệm Hô hấp thuộc Viện Vệ sinh Dịch tễ TƯ và Viện Pasteur Tp HCM Chủng virút dương tính được chọn lựa từ các nuôi cấy tế bào gây nhiễm bị huỷ hoại Hình ảnh và kích thước điển hình của virút sởi được quan sát dưới kính hiển vi điện tử theo kỹ thuật chuẩn của
phòng Hiển vi điện tử, Viện VSDTTƯ
2.2.1.3 Tách chiết ARN virút
ARN virút được tách chiết từ 280 µl nước nổi nuôi cấy tế bào Vero Slam gây nhiễm chủng virút sởi hoặc Rubella, sử dụng Kit QIAamp Viral RNA Isolation (QIAgen, Mỹ) Quy trình tách chiết ARN theo đúng thường quy đi kèm của bộ kit Trong đề tài, quy trình này được cải tiến ở hai công đoạn Công đoạn đầu tiên với việc nạp vào cột sắc ký thể tích mẫu thí nghiệm tăng lên 280 µl so với thể tích thường đặt là 140µl Bằng cách này, sản phẩm ARN sau tinh sạch đạt hiệu xuất tách chiết cao, cho phép thực hiện nhiều thử nghiệm Công đoạn cuối, ARN được giữ nguyên trên cột và giữ ở -20°C, thay vì đẩy khỏi cột như thường quy hướng dẫn Cải tiến này giảm gây biến tính cho ARN trong điều kiện cần phải vận chuyển và bảo quản lâu dài
Trang 292.2.1.4 Phương pháp nhân gen bằng RT-PCR và Nested PCR
• RT-PCR: Genom virút sởi và Rubella đều là một chuỗi ARN đơn Phản ứng
RT-PCR gồm hai giai đoạn chính là phiên mã ARN virút thành ADNc nhờ enzym phiên mã ngược và tổng hợp ADN dưới tác dụng của DNA polymerase Đoạn ADN nucleoprotein N đặc hiệu virút sởi và glycoprotein E1 đặc hiệu virút Rubella được tổng hợp, sử dụng Kit Superscript One-step RT-PCR với enzym platinum Taq polymerase (Invitrogen) Kỹ thuật RT-PCR được tiến hành theo thường quy chuẩn của phòng Thí nghiệm Sinh học phân tử, Trung tâm Bệnh viện Trường Đại học (Caen, Pháp)
Trình tự cặp mồi cho RT-PCR khuếch đại đoạn ADN 587 bp đặc hiệu virút sởi:
- mồi xuôi (n1): 5’GCT ATG CCA TGG GAG TAG GA 3’,
- mồi ngược (n2R): 5’ GGC CTC TCG CAC CTA GTC TA 3’
Trình tự cặp mồi cho RT-PCR khuếch đại đoạn ADN 380 bp đặc hiệu Rubella:
- mồi xuôi (Ru 1TR) : 5’ CGT ATG TGG AGT CCG CAC TT 3’,
- mồi ngược (Rube 1F): 5’ CGT CTG GCA ACT CTC CGT 3’
RT-PCR được tiến hành với tổng thể tích 25 µl dung dịch: 2,5µl mẫu ARN virút sởi/Rubella; 6,5µl H2O; 12,5µl đệm 2X Invitrogen; 1,5µl mồi xuôi 10µM; 1,5µl mồi ngược 10µM; 0,5µl enzyme superscript II RT / Platinum Taq Invitrogen 5U/µl Chu kỳ phản ứng RT-PCR: 55°C/30’; 94°C/4’; [95°C/30’’, 57°C/30”, 72°/1’] x10; [95°C/30”, 57°C/30”, 72°C/1’] + 5’’/chu kỳ x 25; 72°C/10’; 4°C/∞ Sản phẩm RT-PCR được kiểm tra bằng điện di trên gel agarose 2%, nhuộm edithium brommit
• Nested PCR: Với các chủng virút không xác định được băng ADN sau
RT-PCR, cần tiến hành tiếp phản ứng Nested PCR Phản ứng Nested PCR làm tăng độ nhạy và tính đặc hiệu của phản ứng PCR thứ nhất bằng cách nhân lên đoạn ADN bên trong vùng khuếch đại Với các cặp mồi chọn lựa, đoạn ADN gen N virút sởi có kích thước khoảng 492-576 bp bên trong vùng khuếch đại đươc nhân lên Trình tự cặp mồi
cho phản ứng Nested PCR: mồi xuôi (n3): 5' CCA TGG GAG TAG GAG TGG 3', mồi ngược (n4R): 5' CTC TCG CAC CTA GTC TAG 3'
Phản ứng Nested PCR được tiến hành với tổng thể tích 25µl dung dịch mẫu:5µl mẫu ADN virút sởi; 11,6µl H2O; 2,5µl đệm 2X Invitrogen; 2,5µl dNTP 2mM; 0,75 µl
Trang 30MgCl250 mM; 1,25µl mồi xuôi 10µM; 1,25µl mồi ngược 10µM; 0,15µl platinum Taq polymerase Invitrogen 5U/µl Chu kỳ phản ứng Nested-PCR: 95°C/3’; [95°C/30’’; 57°C/30’’; 72°C/1’] x10; [95°C/30’’; 57°C/30’’; 72°C/1’] + 5’’/chu kỳ x 25; 72°C/10’
Sản phẩm thu được sau Nested PCR được kiểm tra bằng điện di trên gel agarose 2%, nhuộm với edithium brommit
2.2.1.5 Phương pháp RFLP
RFLP là tên gọi tắt của phương pháp Đa hình chiều dài các đoạn cắt enzym hạn
chế (Restriction enzym) Phương pháp RFLP cho khả năng phát hiện các thay đổi cấu
trúc ADN qua các hình vạch trên bản gel điện di Enzym cắt hạn chế là những endonucleaza do vi khuẩn sinh ra và có khả năng nhận biết những vị trí cắt hạn chế để cắt chuỗi ADN dài thành những phân đoạn có chiều dài khác nhau Nếu chọn được tổ hợp ADN/ loại enzym hạn chế, có thể thiết lập được “vân tay” (Fingerprint) đặc trưng cho cá thể có chứa loại phân tử ADN Những thay đổi trên ADN có thể nhận biết bằng
sự có mặt hoặc biến mất các vị trí cắt của enzym hạn chế Những sự khác nhau khi so sánh mẫu cắt hạn chế ADN toàn phần được sử dụng để đánh giá tính đa dạng di truyền
Quy trình kỹ thuật RFLP được hoàn chỉnh và ứng dụng để phân tích đoạn gen N genotyp chủng virút sởi Đoạn gen ADN này có khoảng 550-563 bp do vậy cần phải chọn các enzym hạn chế có khả năng cắt được 2-3 lần để tạo ra các hình có từ 3-4 vạch Dựa trên chương trình tin học NEBcutter (New England Biolabs, Mỹ) các enzym
HaeIII, MboI và ScrFI đã được chọn lựa để phân tích genotyp chủng virút sởi Dựa
trên sự biến đổi của các ví trí cắt hạn chế trên trình tự ADN gen N tính đa dạng của genotyp virút sởi được phân tích RFLP được tiến hành với tổng thể tích 20 µl mẫu: 7µl
mẫu ADN, 1µl enzym cắt hạn chế, 2µl đệm 10X, 10µl H20 Ủ ở nhiệt độ 37°C trong 1-3 giờ Sản phẩm RFLP kiểm tra trên gel agarose 3% nhuộm với edithium brommit
2.2.1.6 Phương pháp multiplex realtime PCR
+ Phương pháp multiplex PCR
Virút sởi và Rubella gây sốt phát ban ở người với bệnh cảnh lâm sàng khó phân biệt Phương pháp multiplex PCR đã được áp dụng nhằm chẩn đoán phân biệt căn nguyên gây bệnh Các cặp mồi đặc hiệu cho khuếch đại đoạn ADN gen N virút sởi và gen E1 virút Rubella được trộn chung với cùng một mẫu xét nghiệm và các thành phần
Trang 31tham gia phản ứng Trình tự cặp mồi nhân đoạn ADN gen N virút sởi và đoạn ADN gen E1 virút Rubella cho phản ứng được thiết kế như sau:
Trình tự cặp mồi nhân đoạn ADN gen N virút sởi:
- Mồi xuôi (Sar 1F): 5’ CGG AGC TAA GAA GGT GGA TAA 3’
- Mồi ngược (Sar 1R): 5’ CTC CCA TGG CAT AGC TCC A 3’
Trình tự cặp mồi nhân đoạn ADN gen E1 virút Rubella:
- Mồi xuôi (Ru 1TR): 5’ CGT ATG TGG AGT CCG CAC TT 3’
- Mồi ngược (Rube 1F): 5’ CGT CTG GCA ACT CTC CGT 3’
Phản ứng RT-PCR được tiến hành với tổng thể tích 25µl mẫu thành phần phản ứng, sử dụng Kit Qiagen One-step RT-PCR Trong đó, 2,5µl mẫu phân tích được trộn trong đệm phản ứng có chứa các thành phần: 5µl đệm 5X; 1µl dNTPm 10mM; 3µl Q solution 5X; 1,2µl mồi xuôi (Sar 1F) 10µM; 1,2µl mồi ngược (Sar 1R) 10 µM; 1,2µl mồi xuôi (Ru 1TR) 10µM; 1,2µl mồi ngược (Rube 1F) 10µM; 1µl Enzyme polymease1unit/µl; 7,7 µl H20
Chu kỳ phản ứng multiplex PCR: 50°C/30’; 94°C/15’; [94°C/30’’; 60°C /30’’ 72°C/1’] x 40; 72°C/10’ Sản phẩm thu được sau Nested PCR được kiểm tra bằng điện di trên gel agarose 2%, nhuộm với edithium brommit Các băng ADN với kích thước đặc hiệu của genom virút cho phép xác định sự có mặt của virút gây bệnh
+ Phương pháp multiplex realtime PCR
Hình 2.2.1.6 Nguyên lý multiplex realtime PCR
sử dụng Taqman probe
Quy trình multiplex PCR được cải tiến thêm để có thể định lượng ADN virút với sự hỗ trợ của máy realtime PCR Sản phẩm khuếch đại lúc này không phải phát hiện ở bước cuối cùng mà được phát hiện ở mỗi chu kỳ nhiệt bằng cách dùng máy realtime PCR đo tín hiệu huỳnh quang tức thời Sản phẩm ADN khuếch đại được phát hiện bằng cặp mồi có gắn Taqman probe
Trang 32Multiplex realtime PCR được tiến hành trong một ống phản ứng với cặp mồi Sar 1F + Sar 1R cho khuếch đại ADN gen N virút sởi và Ru 1TR + Rube 1F cho ADN gen E1 Rubella cùng với toàn bộ các thành phần tham gia phản ứng
Probe: RV323r: 5’JOE- GAT CAC CCA GCA CTC CAC GCAA –BHQ1 3’
MVTqrv: 5’ FAM- TCT TGC TCG CAA AGG CGG TTA CGG- BHQ1 3’
Bằng multiplex realtime PCR cho kết quả chẩn đoán xác định đồng thời bệnh phẩm nhiễm sởi và Rubella
2.2.1.7 Phương pháp xác định trình tự nucleotit
Phương pháp xác định trình tự nucleotit của ADN phổ biến nhất là phương pháp Sanger Phương pháp này dựa vào sự tổng hợp chuỗi ADN bổ sung cho trình tự chuỗi ADN cần xác định Đây là phương pháp enzym học tiến hành tổng hợp các phân tử ADN với một hàm lượng nhỏ dẫn xuất dideoxy của các nucleotit (ddNTP) Hiện nay, với sự phát triển mạnh mẽ của phương tiện kỹ thuật, việc xác định trình tự ADN được tiến hành tự động hoá bằng hệ thống máy giải trình tự Nguyên tắc hoạt động của máy
là trong suốt quá trình điện di, mỗi khi có 1 vạch điện di đi qua chùm tia laser thì vạch điện di sẽ phát sáng lên và sự phát sáng này sẽ được con mắt cảm quang ghi nhận và lưu lại thành một đỉnh cường độ ánh sáng trong biểu đồ Từ biểu đồ các đỉnh cường độ ánh sáng này, máy sẽ so dòng của các đỉnh tương ứng với các màu để cuối cùng phân tích thành trình tự của đoạn ADN Người ta có thể dùng 4 màu huỳnh quang khác nhau
để đánh dấu 4 loại ddNTP, nhờ vậy phản ứng giải trình tự được thực hiện chỉ trong một ống nghiệm và khi giải trình tự chỉ cần điện di trên một hàng
Dựa trên nguyên lý chung của phương pháp sequencing, trình tự các đoạn ADN genom virút sởi và Rubella được xác định Sản phẩm ADN virút sau phản ứng RT-PCR được tinh sạch theo phương pháp enzyme ExoSAP-IP của phòng Thí nghiệm Sinh học phân tử CHU Caen (Pháp) Đoạn gen ADN sau tinh sạch được kiểm tra trên gel agarose 2% Giải trình tự ADN gen N virút sởi được tiến hành với thể tích 1-2 µl mẫu ADN tinh sạch, sử dụng CEQ DTCS Quick start kit theo thường quy của Phòng thí nghiệm Chuẩn thức Quốc gia CNR Sởi Lyon (Pháp) Các cặp mồi đặc hiệu sử dụng
Trang 33cho phản ứng RT-PCR được sử dụng làm khuôn mẫu cho giải trình tự Trình tự đoạn gen ADN 552 bp đặc hiệu virút sởi và 380 bp đặc hiệu Rubella được xác định Trình tự đoạn gen ADN được sử dụng làm cơ sở dữ liệu cho việc phân tích genotyp chủng virút
2.2.2 Phân tích genotyp chủng virút sởi và Rubella bằng phần mềm Tin sinh học BioNumerics
2.2.2.1 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics sequence”
+ Xử lý kết quả giải trình tự
Quy trình ứng dụng phần mềm “BioNumerics sequence” khởi đầu bằng việc nhập dữ liệu trình tự các mẫu ADN cần phân tích vào thư mục chủ (home directory) Trình tự nucleotit thô ban đầu là đồ thị các sóng sắc ký với 4 mầu tương ứng với từng ddNTP (A,C,T.G) thu được từ kết quả giải trình tự Khi đồ thị sắc ký được nạp vào máy, trình tự cặp mồi xuôi và ngược hiển thị trên màn hình Chiều của các mồi xuôi và ngược được cân chỉnh cho phù hợp Điều cần thiết quyết định cho việc xác định đúng trình tự đoạn ADN là việc chỉnh sửa bằng tay những đỉnh sóng lỗi hoặc chồng lên nhau Công đoạn này cần sự phối hợp giữa người làm Tin học và người làm thực nghiệm Chương trình sẽ tự động chuyển các ký hiệu dạng đỉnh sóng sang trình tự nucleotit tương ứng Trình tự các nucleotit virút sởi và Rubella chỉnh sửa hoàn chỉnh được tự động nạp vào cơ sở dữ liệu của thư mục chủ
+ Nhập dữ liệu trình tự nucleotit
Dữ liệu cho việc so sánh sự tương đồng giữa các genotyp gồm các trình tự ADN mẫu virút xét nghiệm và trình tự ADN chuẩn Các trình tự nucleotit chuẩn chọn lựa từ Ngân hàng gen NCBI được nhập vào thư mục chủ dưới định dạng GenBank hoặc FASTA Các bước nhập dữ liệu thực hiện theo quy trình hướng dẫn do Hãng sản xuất cung cấp với sự hỗ trợ của các công cụ phần mềm Kết thúc quy trình, toàn bộ các trình
tự ADN genom chủng virút sởi và Rubella cần phân tích và trình tự chuẩn được nạp tự động vào cơ sở dữ liệu của thư mục chủ
2.2.2.2 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics fingerprint”
Điện di là một kỹ thuật quan trọng trong việc nghiên cứu các mối quan hệ trong
sinh học Phần mềm “BioNumerics fingerprint” được sử dụng như một công cụ toàn
Trang 34diện cho việc phân tích kết quả điện di trên gel Nó cho phép tự động định dạng tập tin (file) đồ họa và định lượng quang học từ các tập tin hình ảnh bitmap Dữ liệu Fingerprint cho phân tích chủng virút sởi và Rubella là bản điện di trên gel agarose Hình ảnh điện di đồ trên gel agarose định dạng đuôi TIFF được nhập vào thư
mục chủ của phần mềm “BioNumerics fingerprint” Ảnh gốc bitmap hai chiều hiển thị
ở dạng nền đen băng trắng sẽ được đảo chiều thành nền trắng băng đen Trên màn hình xác định trục và đường viền để điều chỉnh các dải băng dựa trên băng chuẩn Sử dụng
các công cụ của “BioNumerics fingerprint” để tìm kiếm, đánh dấu những băng chưa rõ
ràng Có thể nâng cao chất lượng hình ảnh bằng cách lược bớt các băng nhiễu, điều chỉnh phần ảnh nền, loại bỏ những chấm bẩn trên ảnh và làm mịn đường cong Phần mềm tự động phiên dịch hình ảnh các băng ADN thành các đường cong densitometric
và định lượng kích thước các băng Dữ liệu Fingerprint sau xử lí đuợc lưu vào cơ sở dữ liệu thư mục chủ của phần mềm BioNumerics
2.2.2.3 Dựng cây phả hệ phát sinh loài bằng phần mềm “BioNumerics Tree and Netword Inference”
Cây phả hệ phát sinh loài và phân loại genotyp chủng virút sởi và Rubella được thiết kế bằng phần mềm “BioNumerics Tree and Netword Inference” Phần mềm này
có chức năng phân tích các cơ sở dữ liệu được chọn lựa Các dữ liệu ở dạng trình tự nucleotit hoặc Fingerprint thu được từ thực nghiệm và từ cơ sở dữ liệu đăng ký trên Ngân hàng gen NCBI được sử dụng làm cơ sở dữ liệu cho phân tích, so sánh cặp nhóm
và dựng cây phả hệ phát sinh loài Trung tâm của chức năng phân tích là cửa sổ so sánh
“Comparison window” trong phần mềm “BioNumerics Tree and Netword Inference”
+ Dựng cây phả hệ từ dữ liệu trình tự nucleotit
Chọn lựa các dữ liệu trình tự nucleotit virút sởi hoặc Rubella xét nghiệm và trình tự chuẩn đã được nạp sẵn trong thư mục chủ Việc phân tích genotyp các chủng virút được tiến hành trong cửa sổ so sánh “Comparison window” Cây phả hệ được dựng bắt đầu từ việc sắp xếp trình tự bằng cặp nhóm Sử dụng các thuật toán để thực hiện quá trình sắp xếp các nucleotit Toàn bộ trình tự ADN virút sởi/Rubella cần phân tích được so sánh, gióng cột thẳng hàng với các trình tự chuẩn Tỉ lệ tương đồng giữa các trình tự được chương trình phần mềm tính toán Cây phả hệ được dựng tự động dựa
Trang 35trên việc sắp xếp các nhánh theo tỉ lệ đồng thuận giữa các trình tự cặp nhóm Mỗi giao điểm trong cây phả hệ đại diện cho trình tự tương ứng của nhóm đó Giao điểm gốc đại diện cho trình tự tương ứng của toàn bộ cây phả hệ Chỉnh sửa hoàn chỉnh cây phả hệ bằng các công cụ như hoán đổi vị trí nhánh, phóng to, thu nhỏ hình ảnh Thêm các ký hiệu hoặc tô màu cho các nhánh của cây phả hệ để tách biệt các nhóm
+ Dựng cây phả hệ từ dữ liệu Fingerprint
Chọn các dữ liệu Fingerprint của ADN virút sởi đã nạp sẵn trong thư mục chủ
Sử dụng công cụ “Comparison” của “BioNumerics Tree and Netword Inference” cho việc phân tích genotyp các chủng virút sởi và Rubella Cây phả hệ được dựng dựa trên
tỉ lệ tương đồng giữa kích thước các băng ADN virút bằng RFLP
(Ghi chú: Quy trình công nghệ chi tiết của phương pháp nghiên cứu được trình bày trong phần Phụ lục I - Sản phẩm Khoa học & Công nghệ)
Trang 36Chương 3 KẾT QUẢ VÀ BÀN LUẬN 3.1 HỢP TÁC NGHIÊN CỨU VÀ CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG DịCH TỄ HỌC PHÂN TỬ
3.1.1 Kết quả nghiên cứu và chuyển giao Công nghệ Tin sinh học
Đối tác phía Pháp trong dự án gồm nhóm các nhà khoa học hiện đang làm việc tại Khoa Nghiên cứu đặc điểm di truyền của các nhân gây bệnh và Y tế cộng đồng
(PF8-LaPlate-forme Génotypage des Pathogènes et Santé Publique) thuộc Trung tâm
chuẩn thức Quốc gia Pháp (CNR) của Viện Pasteur Paris là một trong những Khoa có
năng lực cao trong lĩnh vực Công nghệ Tin sinh học.Dựa trên năng lực chuyên môn và điều kiện cơ sở vật chất hiện đại của Viện Pasteur Paris, đội ngũ cán bộ Việt Nam được đào tạo lý thuyết và tiếp thu Công nghệ Tin sinh học tiên tiến nhất hiện nay
Năm 2008-2009, 06 nghiên cứu viên được đào tạo và trao đổi khoa học về lĩnh vực Công nghệ Tin sinh học tại viện Pasteur Paris Pháp Đây là đội ngũ cán bộ Tin sinh học được trang bị thêm những kiến thức cơ bản và thực hành thành thạo các
chương trình phần mềm Tin sinh học, nâng cao trình độ chuyên môn và kỹ năng
nghiên cứu độc lập
Năm 2009, khoá đào tạo “Ứng dụng phần mềm BioNumerics trong nghiên cứu Dịch tễ học phân tử” được tổ chức tại Viện Vệ sinh Dịch tễ Trung ương (21-25/9/2009) với tham gia giảng dạy của 03 chuyên gia Pháp đã giúp nâng cao trình độ chuyên môn Tin sinh học cho đội ngũ 37 nghiên cứu viên Viện Vệ sinh Dịch tễ Trung ương, Viện Pasteur Tp HCM, Poliovac… Hợp tác đào tạo và chuyển giao công nghệ Tin sinh học
từ phía đối tác Pháp nhằm giúp đội ngũ nghiên cứu viên Việt Nam nắm vững và sử dụng thành thạo chương trình Tin sinh học trong phân tích, khai thác và quản lý thông tin dữ liệu khoa học, đáp ứng nhiệm vụ triển khai Công nghệ Tin sinh học trong nghiên cứu Dịch tễ học phân tử
3.1.2 Kết quả so sánh và chọn lựa các chương trình phần mềm Tin sinh học phù hợp
Tính năng ưu việt của các phần mềm Tin sinh học được so sánh dựa trên chức năng phân tích và dựng cây phát sinh chủng loại
Trang 37Hình 3.1.2a Cây phát sinh chủng loại virút sởi Việt Nam (BioNumerics Version 6.0)
Hình 3.1.2b Cây phát sinh chủng loại virút sởi Việt Nam (Clustal W)
Trang 38Hình 3.1.2c Cây phát sinh chủng loại virút sởi Việt Nam (Mega 4) Trong nghiên cứu này, các phần mềm: BioNumerics (version 6.0), ClustalW và MEGA4 được chọn lựa từ danh mục các phần mềm hiện có và sử dụng trong việc dựng cây phát sinh chủng loại virút sởi lưu hành tại Việt Nam (2006-2009) Kết quả được biểu diễn trên các Hình 3.1.2.a, b,c
So sánh các phần mềm đã được ứng dụng, kết quả đã chọn lựa được 03 phần mềm Tin sinh học BioNumerics phù hợp điều kiện và kỹ năng nghiên cứu của cán bộ Tin sinh học Việt Nam Đó là:
1 BioNumerics Kiểu trình tự (BioNumerics Sequence types)
2 BioNumerics Kiểu vân tay (BioNumerics Fingerprint types)
3 BioNumerics Cây và mạng suy luận (BioNumerics Tree and Netword Inference) Phần mềm BioNumerics có các chức năng cơ bản đáp ứng được đòi hỏi trong trong nghiên cứu:
- Tính ứng dụng cao, cho phép nhập 20.000 dữ liệu và thực hiện so sánh với các hệ số tương đồng và khoảng cách khác nhau cho nhiều dạng số liệu
- Phân tích và dựng được đa dạng kiểu hình cây phát sinh chủng loại dendrogram, cladogram hoặc phenogram từ dữ liệu trình tự ADN từ kết quả giải trình tự và gel dữ
Trang 39liệu gel 1D, 2D từ các phương pháp đa hình (RFLP, AFLP, RAPD ) Khả năng xác định tỷ lệ sai khác giữa các genotyp < 0,01%
- Môi trường cơ sở dữ liệu rộng cho phép kết nối nhiều phòng thí nghiệm lưu trữ và xây dựng lại thử nghiệm
- Truy vấn, thăm dò và khai thác dữ liệu, phân tích, so sánh trực quan
- Tích hợp mạng, trao đổi dữ liệu với khả năng kết nối Internet cao
Các phần mềm chọn lựa được ứng dụng trong phân tích genotyp và dựng cây phả hệ phát sinh loài và phân loại genotyp chủng sởi và Rubella lưu hành tại các vùng địa lý khác nhau
Kết quả chọn lựa và xây dựng một chương trình Tin sinh học đơn giản, có thể thực hiện tại các phòng thí nghiệm của nước ta sẽ mở ra hướng phát triển ứng dụng trong nhiều nghiên cứu không chỉ thuộc lĩnh vực Y tế dự phòng và Sinh Y học mà còn nhiều lĩnh vực khác như Di truyền học, Nông nghiệp, Đa dạng sinh học và bảo tồn nguồn gen quý hiếm Đặc biệt trong các công trình khoa học phân tích tính đa dạng của trình tự và cấu trúc phân tử ở mức độ ADN
3.2 KẾT QUẢ ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐịA LÝ DÂN CƯ KHÁC NHAU
3.2.1 Giải trình tự nucleotit đoạn gen quan trọng của virút sởi
3.2.1.1 Tách chiết ARN virút sởi
Chủng virút sởi có nguồn gốc từ mẫu bệnh phẩm dịch họng hầu được gây nhiễm
và tăng sinh trên nuôi cấy tế bào thường trực Vero SLAM Virút sởi thông thường được phân lập từ bệnh phẩm ngay giai đoạn tiên phát đến vài ngày sau khi phát ban Sự nhân lên của virút trên tế bào gây nhiễm với việc tạo các đám tế bào liên hợp được quan sát dưới kính hiển vi quang học Hình ảnh các virút sởi giải phóng từ tế bào được kiểm tra bằng kính hiển vi điện tử cho thấy, các hạt virút có cấu trúc hình cầu kích thước 200-250 nm điển hình của virút sởi (Hình 3.2.1.1) Các mẫu tế bào dương tính sau gây nhiễm được chọn làm nguồn chủng cho tách chiết ARN virút Quy trình gây
Trang 40nhiễm và tăng sinh virút đóng vai trò quan trọng vì kết quả của các công đoạn tiếp theo của nghiên cứu phụ thuộc rất nhiều vào chất lượng của vật liệu virút ban đầu
Hình 3.2.1.1 Hạt virút sởi tách từ tế bào Vero SLAM
(Phòng Kính hiển vi điện tử Viện VSDTTƯ -2008)
Toàn bộ ARN virút sởi được tách chiết từ 280 µl dịch tế bào Vero SLAM gây nhiễm cho hiệu xuất tinh sạch cao Quy trình tách chiết ARN của chúng tôi có bước cải tiến mới Ở giai đoạn cuối cùng, ARN được giữ nguyên trên cột và bảo quản ở -200Ccho đến khi thực hiện các kỹ thuật tiếp theo Cách bảo quản ARN trên cột giữ cho sản phẩm không bị biến tính và an toàn cho việc vận chuyển mẫu ARN
Theo khuyến cáo của WHO cũng như các công bố khoa học của các tác giả trong và ngoài nước, nuôi cấy tế bào thường trực Vero SLAM được lựa chọn là dòng tế bào thích hợp nhất cho việc gây nhiễm và phân lập chủng virút sởi [11], [27], [28] Kết quả thu nhận của chúng tôi cũng cho thấy, so với dòng tế bào B95a, tế bào Vero SLAM
tỏ ra thuận tiện và đặc hiệu hơn cho việc gây nhiễm và tăng sinh chủng virút sởi
3.2.1.2 Kết quả RT-PCR và Nested PCR nhân đoạn gen Nucleocapsit N virút sởi + Kết quả RT-PCR
RT-PCR là một trong các phương pháp sinh học phân tử được áp dụng rộng rãi trong chẩn đoán bệnh sởi Các nghiên cứu đều tập trung phân tích đoạn ADN dài khoảng 500 nucleotit đầu tận cùng –COOH của genom Nucleocapsit N virút sởi Trong nghiên cứu này, 30 mẫu ARN virút sởi tinh sạch từ các nuôi cấy tế bào Vero SLAM gây nhiễm chủng sởi được sử dụng cho phản ứng RT-PCR Đoạn ADN đặc hiệu nucleocapsit N virút sởi được tổng hợp từ ARN bởi enzym phiên mã ngược Superscript