Hình 7.4: Kết quả tìm kiếm trình tự có độ tương đồng.
7.4. Kết luận
Ngành sinh tin học là một ngành mới và hấp dẫn rất nhiều nhà nghiên cứu trong và ngoài nước tham gia. Với các khám phá mới trong cấu trúc gen đã mở ra nhiều hướng nghiên cứu mới trong đó có y sinh học.
Mục tiêu chính của luận văn là sử dụng thuật toán kết hợp giữa DBSCAN với thuật toán BLAST trong bài tốn tìm kiếm sự tương đồng các trình tự virus cúm. Với tập dữ liệu các trình tự lớn, thực thi chương trình với thuật toán đệ quy tuần tự, thời gian thực thi thu được rất lâu. Để cải tiến về tốc độ thực thi, trước tiên sẽ thanh lọc dữ liệu bằng cách tính mức độ tương đồng giữa các trình tự trong thuật tốn gom nhóm, và loại bỏ những nhóm khơng có khả năng tương đồng. Với tập kết quả thu được từ thuật tốn gom nhóm, tiếp tục sử dụng thuật tốn BLAST để tìm kiếm trình tự tương đồng.
7.5. Hướng phát triển
Mở rộng chương trình cho phép so sánh nhiều dạng cấu trúc trong sinh tin học khác nhau
Nâng cao tốc độ xử lý bằng cách áp dụng các thuật toán tối ưu song song.
Q trình xử lý song song có thể chia nhỏ thực thi trong một số giai đoạn của chương trình như:
- Phân cụm dữ liệu
TÀ L Ệ TH M HẢO
Tiế việt
[1]. Trần Văn Lăng, Ứng dụng tin học trong việc giải một số bài toán của
sinh học Phân Tử, Nxb Giáo dục, 2008.
[2]. Lê Phước Lộc và cộng sự, Một số phương pháp chuẩn đốn cấu trúc
protein, Hội thảo Tính tốn Sinh học, Đại học KHTN, Tp.HCM, 2004
[3]. Phạm Mạnh Hùng, Các kỹ thuật toán học cho bài toán so sánh đa trình tự, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Bách khoa
TPHCM, 11/2007.
[4]. Hồ Huỳnh Thuỳ Dương (2002), Sinh Học Phân Tử, Nhà xuất bản
Giáo Dục.
[5]. Huỳnh Thị Mỹ Trang, Khai phá dữ liệu sinh học trong mơi trường tính tốn lưới, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Khoa
học tự nhiên TPHCM, 2005
[6]. Văn Đình Vỹ Phương, Cải tiến thuật toán so sánh cấu trúc protein,
Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Lạc Hồng, 2011. [7]. Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Hành, Chuẩn đoán cấu trúc bậc 3 cảu protein. Hội thảo quốc gia Một số vấn đề chọn lọc của công
nghệ thông tin và truyền thông, 2010
[8]. Võ Hồng Bảo Châu, Cải tiến CLUSTALW cho bài tốn sắp hàng đa trình tự, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Khoa học tự
nhiên TPHCM, 2009
Tiế h
[9]. Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu (1996), A
Density-Based Algorithm for Discovering Clusters in Large Spatial Data- bases with Noise, Proc KDD’96, 226-231
[10]. Ian Korf, Mark Yandell, Joseph Bedell, BLAST, O'Reilly Media, 2003 [11]. Jason T.L.Wang, Mohammed J.Zaki, Hannu T.T.Toivonen, Dennis Shasha (Eds) (2005), Data Mining on Bioinformatics, Springer, page 105- 126.
[12]. Kaufman L., Rousseeuw P.J (1990), Finding Groups in Data: an In- troduce to Cluster Analysis.
Trang Web [13]. http://knol.google.com/k/mining-the-ncbi-influenza-sequence- database-adaptive-grouping-of-blast-results#. [14]. http://www.maths.tcd.ie/~lily/pres2/sld009.htm [15]. http://www.uit.edu.vn/forum/index.php?act=Attach&type=post&id=2 1163 [16]. http://d.violet.vn/uploads/resources/211/366403/preview.swf