7 Những hạn chế và cách khắc phục

Đọc trình tự gen và phát hiện các đột biến luôn là những yêu cầu cấp thiết. Mặc dù Inverse Variant đã khắc phục đƣợc hạn chế về kích thƣớc các đoạn read, bằng cách sử dụng Single End Reads nhƣng phƣơng pháp tiếp

0 50 100 150 200 250

BreakDancer Inverse Variant

iá

trị Điểm dừng khả dĩ

Điểm dừng đúng Giá trị dƣơng tính giả Giá trị âm tính giả

0 10 20 30 40 50 60 70 80 90 100

BreakDancer Inverse Variant

Giá trị % Tính nhạy cảm PPV F-Score

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

cận này cũng có những hạn chế.

Inverse Variant đã tăng chiều dài của trình tự single end, nhƣng lại làm giảm khả năng phát hiện các đoạn bị đảo có độ dài ngắn hơn độ dài của đoạn trình tự.

Inverse Variant sử dụng hai bƣớc ánh xạ tới bản đồ hệ gen ngƣợc lại với hệ gen tham chiếu để đạt hiệu quả cao hơn thì Inverse Variant cũng mất nhiều giá trị đọc bƣớc ánh xạ đầu tiên. Điều này đƣợc gây ra do những vùng lặp đi lặp lại (lặp đi lặp lại bình thƣờng và lặp đi lặp lại đảo đoạn) trong hệ gen tham chiếu và tính chính xác của các thuật toán ánh xạ lập bản đồ bị giảm. Ngoài ra trong bƣớc ánh xạ thứ 2 có thể lấy tất cả sự gióng hàng trong một lần và đảm bảo rằng Inverse Variant không bỏ sót các cặp gióng hàng quan trọng để suy ra các điểm dừng. Nếu Inverse Variant chỉ chọn sự gióng hàng tốt nhất với chất lƣợng cao hơn trong ánh xạ thì quá trình sẽ mất nhiều cặp gióng hàng đúng vì gắn liền với điểm ánh xạ, do đó Inverse Variant sẽ mất điểm dừng đúng trong giai đoạn đầu tiên.

Mặc dù những hạn chế nhƣ vậy nhƣng cũng có một số cách để khắc phục những hạn chế đó nhƣ sau:

Inverse Variant có thể mở rộng khả năng để phát hiện đảo đoạn nhỏ hơn bằng cách xem xét ba phần của sự gióng hang (tức là sự gióng hàng đó đã căn cứ đƣợc cắt các cặp base trên cả hai mặt đối xứng), mặc dù điều này có khả năng làm tăng thêm giá trị dƣơng tính giả. Quá trình có thể sử dụng dữ liệu ở độ bao phủ cao (> 10X) để tìm những sự đảo đoạn di hợp tử, nhƣng độ bao phủ của trình tự quá cao có thể mang lại giá trị dƣơng tính giả nhiều hơn. Với Inverse Variant thì trong giai đoạn thứ hai sẽ tạo ra các vùng chọn, lập chỉ số và ánh xạ toàn bộ các trình tự để Inverse Variant có thể làm giảm bớt bằng cách tạo ra nhiều hơn sự giàng buộc trong giai đoạn đầu tiên, tức là bằng cách sử dụng số hỗ trợ lớn hơn dành cho trình tự cặp

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

điểm dừng nhƣng điều này rất có thể sẽ nguyên nhân để mất điểm dừng đúng. Tinh chỉnh các thông số khác nhau và làm cho chúng chính xác hơn có thể giúp làm giảm khó khăn này.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Trong luận văn này tôi đã thực hiện giải quyết đƣợc một số vấn đề đã đặt ra nhƣ sau:

- Tìm hiểu về gen, cấu trúc hệ gen, giải trình tự hệ gen, công nghệ đọc trình tự thế hệ mới.

- Tích hợp và thử nghiệm đƣợc chƣơng trình demo phát hiện ra các đột biến đảo đoạn trong hệ gen đƣợc giải mã từ các thiết bị đọc trình tự thế hệ mới có kết quả khá tốt và chính xác, đồng thời đây cũng là cơ sở để phát triển một phƣơng phát phát hiện tất cả những đột biến cấu trúc. Tuy nhiên để thực hiện đƣợc nhiệm vụ phát hiện ra tất cả các loại đột biến cấu trúc trong cơ thể sinh vật, có những khó khăn nhất định nhƣ việc đƣa ra cách thức xác định đột biến bằng các kiến thức thực nghiệm bằng công cụ sinh hóa, dựa vào đó đƣa ra ý tƣởng thuật toán và xây dựng chƣơng trình, tìm kiếm các công cụ hỗ trợ phù hợp… Những thách thức đó không hề nhỏ. Nhƣng tôi tin rằng trong thời gian tới sẽ có thể thực hiện đƣợc.

Với các nhà sinh học kết quả của Inverse Variant đáp ứng tốt các yêu cầu cần thiết và kết quả đó sẽ là cơ sở quan trọng trong việc chẩn đoán bệnh tật, dự đoán kiểu hình, phát triển đa dạng loài tạo sự đa dạng trong các thứ, các chi trong cùng một loài, tạo các giống cây trồng vật nuôi có năng xuất và chất lƣợng cao.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]. Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội. tr 30-49

[2]. Nguyễn Cƣờng (2013), Định dạng dữ liệu FastA và FastQ,

http://www.tinsinhhoc.org/genomics/104-fasta-fastq-formats, ngày 25/11/2013. [3]. Nguyễn Ngọc Tú, Trần Văn Lăng (2007), Giải thuật lai cho bài toán sắp hàng đa trình tự, Tạp chí phát triển KH&CN, tập 10.

Tiếng Anh

[4]. Hogeweg P, Hesper (1984). The alignment of sets of sequences and the construction of phylogenetic trees. An integrated method. J. Mol. E. vol. 20, p 175-186.

[5]. Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, Scherer SW, Lee C (2004 Sep). Detection of large-scale variation in the human genome. Nat Genet.

[6]. Lars Feuk, Andrew R. Carson and Stephen W. Scherer (2006):

Structural variation in the human genome, Nature Renew Gennetics, 7(2), p 85-97.

[7].Alkan C., Coe B.P. and Eichler E.E. (2011), Genome structural variation discovery and genotyping. Nat. Rev. Genet., vol. 12, p 363-376

[8]. Teague, B. et al. High-resolution human genome structure by single-molecule analysis (2010).. Proc. Natl Acad. Sci. USA 107, p 10848– 10853.

[9]. Poehlmann, A., D. Kuester, et al. (2007). "K-ras mutation detection in colorectal cancer using the Pyrosequencing technique." Pathology, research and practice203(7): 489-497.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

[10]. Li H.: Wgsim - Read simulator for next generation sequencing http://github.com/lh3/Wgsim

[11]. Homer, N, and Merriman, B. TMAP: the Torrent Mapping Alignment Program. In Preparation

[12]. Li H. and Durbin, R. (2010). Fast and accurate long-read alignment with Burrows-Wheeler transforms. Bioinformatics, 26, 589–595

[13]. Chen, K. et al. (2009) BreakDancer: an algorithm for high- resolution mapping of genomic structural variation. Nat Methods 6, 677-681.

[14]. R. Durbin, S. R. Eddy, A. Krogh, G. Mitchison (2001). Biological Sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.

[15]. Wang L, Jiang T (1994), On the complexity of multiple sequence alignment, J. Comput. Biol. T. 1, Vol. 4, p337 – 348

[16]. Warren J. Ewens, Gregory R. Grant, (2005) Statistical Methods in Bioinformatics – An Introduction, ISBN 0-387-40082-6

[17]. David Edwards, Jason Stajich, David Hansen (2009)

Bioinformatics: Tools and Applications, Springer Science & Business Media.

3 Bài toán đột biến đảo đoạn

Ánh xạ các đoạn trình tự