phần dẫn nhập luận án về nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu
Trang 1PHAN DAN NHAP 0.1 MG DAU
0.1.1 Khai thac dif liệu
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin (CNTT) và
Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật
đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ Có thể lấy một vài ví dụ tiêu biểu như CSDL siêu thị Walmart ( Mỹ) chứa hơn 20 triệu giao tác bán hàng
[55], CSDL nhân khẩu Tp Hồ Chí Minh với hơn 5 triệu nhân khẩu [$2] Để khai
thác hiệu quả nguồn thông tin từ các CSDL lớn hỗ trợ tiến trình ra quyết định,
bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu
đã phát triển các phương pháp, kỹ thuật và phân mềm mới hỗ trợ tiến trình khám
phá, phân tích tổng hợp thông tin
Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền
thống chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại bao gồm các thông tin mang tính khái quát, thông tin có tính qui luật vẫn đang còn tiềm ẩn
trong dữ liệu Lượng thông tin này tuy nhỏ nhưng là những thông tin cốt lõi và cần thiết cho tiến trình ra quyết định [55],[76]
Khai thác dữ liệu (data mining) được U Fayyad định nghĩa là tiến trình
tìm kiếm các mẫu mới, có ý nghĩa tiểm ẩn trong các khối dữ liệu lớn [67],[76]
Có thể chia khai thác dữ liệu thành hai dạng chính |67],[76]: khai thác
dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá Trong khai thác dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thuyết, hệ thống kiểm tra tính đúng đắn của giả thuyết Khai thác dữ liệu theo hướng kiểm tra bao
gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê Ngược lại, khai
Trang 2bằng cách tiến hành xem xét tất cả các giả thuyết khả dĩ Do không gian tìm
kiếm lớn, nên rất nhiều heuristic đã được để xuất nhằm nâng cao hiệu suất của
các thuật giải tìm kiếm Luận án tập trung nghiên cứu vào dạng khai thác dữ liệu thứ hai và trong luận án hướng này sẽ được gọi tắt là khai thác dữ liệu Khai thác dữ liệu có các bài toán chính sau đây [6 I],(67],[76]
a) Khai thác tập phổ biến và luật kết hợp: là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả
năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng [7],
{29],(34],[60],[65] Luật kết hợp X ->Y phản ánh sự xuất hiện của tập X dẫn
đến sự xuất hiện đồng thời tập Y
Các luật kết hợp, giúp các nhà hoạch định chiến lược nhận thức các mối
quan hệ giữa các yếu tố hỗ trợ tiến trình hoạch định đường lối, kế hoạch phát
triển
b) Khai thác mẫu tuần tự: là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian (55] Một luật mô tả mẫu tuần tự có dạng tiêu biểu X —> Y phẩn ánh sự xuất
hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y Nhờ mầu
tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng
c) Phân lớp dữ liệu: là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp [22],(55].37] Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học Phân lớp dữ liệu có vai
trò quan trọng trong tiến trình nhận diện đặc trưng của đối tượng, dự báo các
Trang 3d) Khai thác cụm và truy vấn tương tự: là tiến trình nhận diện các cụm tiểm ẩn trong tập các đối tượng chưa được xếp lớp Tiến trình khai thác cụm dựa
trên mức độ tương tự giữa các đối tượng Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ
tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất
{53],{55].70]1,71] Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết
nhanh chóng bản chất của khối dữ liệu lớn
Truy vấn tương tự có khả năng cung cấp tập các đối tượng có mức độ
tương tự lớn hơn một nguỡng xác định so với đối tượng chí định Câu truy vấn tương tự bao gồm đối tượng chỉ định, mức độ tương tự hay bán kính của vùng dữ liệu cần truy vấn [14],[47]
0.1.2 Khai thác dữ liệu trong các trình tự sinh học
Sinh học phân tử nghiên cứu các thành phần và các tương tác của các vật
thể sống bao gồm nhiều loại phân tử khác nhau như ADN , Protein, Lipid cấu
tạo nên sự sống Những nghiên cứu này đã và đang được thực hiện trong các
phòng thí nghiệm dùng các kỹ thuật hóa lý Tuy vậy, các tiến bộ vựơt bậc gân
đây trong công nghệ giải trình tự (sequencing) đã cho phép tích lũy nhanh chóng các dữ liệu trình tự sinh học ADN và protein Kết quả là có một khoảng cách
ngày càng được mở rộng giữa thu nhận nhanh dữ liệu trình tự sinh học và xử lý
không nhanh bằng các phương pháp truyền thống [44],[52]
Tháng 6 năm 2000, Craig Venter cơng bố đã hồn tất công việc giải trình
tự bộ gen người và hiện nay số lượng trình tự sinh học được giải trình tự đang gia tăng từng ngày từng giờ Anthony Kerlavage, 2001 {52] của công ty Celera,
Mỹ cho biết có thể dễ dàng giải trình tự sinh học trong thời gian vài giờ một số
Trang 4va tao lập xong bản đổ bộ gen người chỉ mới là bước đầu trong phân tích và nghiên cứu tổ chức ở mức độ tế bào của con người Bài toán thực sự nằm ở chỗ phát triển các phương pháp, công cụ mới để khám phá, giải mã các thông tin
tiềm ẩn trong khối dữ liệu trình tự sinh học [21],[44],[52]
Những năm gần đây tiếp cận “khai thác dữ liệu” đã được sử dụng để
phan tich dit liéu sinh hoc [18],[21],[44],[69] Cac nghiên cứu-phát triển các
phần mềm tin học nhằm tìm kiếm các đặc trưng cho các nhóm gen, các qui luật hỗ trợ phân lớp gen, tạo cây phân loài, truy vấn trình tự tương đồng, mô phỏng tế
bao sinh học đã đóng góp rất nhiều cho các nhà sinh học [44],[52] và thúc
đẩy ngành Sinh-Tin học phát triển mạnh mẽ
0.2 MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN
Các đối tượng thường có chung một số đặc trưng Trong phạm vi nghiên
cứu của luận án, đặc trưng này có thể là cặp <thuộc tính, giá trị> của các đối
tượng trong CSDL, các đoạn lặp phố biến trong khối trình tự sinh học, các dãy từ phổ biến trong khối ngữ liệu văn bản Các đặc trưng của đối tượng có các tính chất sau:
a)Tính phổ biến của tập đặc trưng: phan ánh số lượng đối tượng trong tập đối
tượng có chứa đặc trưng Trong CSDL nhân khẩu Tp Hồ Chí Minh, tập thuộc
tính-giá trị {NÑG_DAOTAO=Hóa, TTLDONG=ThấtNghiệp}, trong khối trình tự
sinh học ADN của E-Coli Promoter tập đoạn lặp phổ biến {AAA, ACGT)},
trong khối ngữ liệu truyện ngắn của nhà văn Nguyễn Công Hoan tập hợp từ (cũng, cứ} là các ví dụ về các tập đặc trưng xuất hiện phổ biến trong tập đối tượng khảo sát
Trang 5Trong CSDL nhân khẩu Tp Hồ Chí Minh có liên kết (NG_DAOTAO=Hóa} — {TTLDONG=ThatNghiép} Trong tập trình tự sinh học ADN của E-Coli Promoter, có liên kết các đoạn lặp phổ biến {AAA}—> (ACGT) Trong khối ngữ liệu truyện ngắn của nhà văn Nguyễn Công Hoan có liên kết dãy từ phổ biến
{cũng} > {ctf}
ce) Tổ hợp thứ tự các đặc trưng: phản ánh thứ tự xuất hiện của đặc trưng
Trong tập trình tự sinh học ADN của E-Coli Promoter có tổ hợp thứ tự các đặc trưng {TAT—>AAT—GCGC) phần ánh thứ tự xuất hiện của các đoạn lặp phổ biến TAT trước AAT và AAT trước GCGC trong tập trình tự sinh học
Luận án tập trung nghiên cứu phát triển các thuật giải hiệu quả để phát
hiện các tập đặc trưng xuất hiện phổ biến trong các đối tượng của CSDL, trình tự
sinh học, khối ngữ liệu các văn bản Trong tiến trình phát triển thuật giải, luận
án tập trung vào việc phát triển các heuristic nhằm giảm độ phức tạp tính toán
và thời gian truy cập CSDL, các thuật giải tăng cường là loại thuật giải hiệu quả trong khai thác dữ liệu vì khi bổ sung thêm dữ liệu, thuật giải tăng cường không phải xét lại toàn bộ tập dữ liệu gốc mà chỉ xét trên tập dữ liệu vừa mới được bổ sung và kết quả trước đó để điều chỉnh kết quả đang có
Bên cạnh việc phát triển thuật giải, luận án triển khai một số ứng dụng thuật giải đã phát triển trong nhiều lĩnh vực khác nhau như tìm tập phổ biến và
các luật kết hợp, luật phân lớp trong CSDL, tìm các đặc trưng của trình tự sinh
học, phân lớp đối tượng, gom cụm đối tượng nhằm khẳng định khả năng áp dụng
đa dạng của các thuật giải
0.3 CÁC CHƯƠNG MỤC CỦA LUẬN ÁN
Chương 1: Tập phổ biến, luật kết hợp
Trang 6một trong các bài toán chính của khai thác dữ liệu Một số công trình tiêu biểu trong các năm qua:
Trong [60] , R Agrawal, R Srikant, 1994 đã phát biểu bài toán tập phổ biến và luật kết hợp từ bài toán bán hàng trong siêu thị Nguyên lý Apriori đã
được để xuất và sử dụng trong thuật giải Apriori-TID Tuy vậy, tiếp cận này đòi hỏi truy cập đĩa nhiều lần khi tính độ phổ biến của các tập mặt hàng
Trong [34] H Toivonen, 1995 đã phân tích độ phức tạp tính toán của thuật giải Apriori-TID Trong [ 29], Dao - I- Lin, Zvi M.Kedau 1997 đã phối hợp
hai thuật giải tìm theo chiều rộng và theo chiều sâu trên đồ thị để duyệt dàn các
tập ứng viên cho các tập phổ biến tối đại
Trong [57], Pauray S.M., Chih-Chong Lee, 1999 đã dé xuất một thuật giải
tăng cường để tìm tập phổ biến trong các CSDL bị biến động do thao tác cập nhật đữ liệu Ngoài các ngưỡng về độ phổ biến, các tác giả còn dé xuất thêm hệ
số cho các tập phổ biến tiểm năng sẽ phát sinh khi bổ sung thêm dữ liệu
Chương này nghiên cứu tổng hợp các kết quả đã có và để xuất mô hình
thuật giải theo tiếp cận thuật giải tăng cường và thuật giải không tăng cường để
tìm tập phổ biến và luật kết hợp Trong tiếp cận thuật giấi không tăng cường, luận án phát triển mô hình vector biểu diễn, kết nối Galois và tính chất của bao đóng nhằm nâng cao hiệu suất tính toán độ phổ biến bằng cách giảm số lượng
tập phổ biến ứng viên nên sẽ giảm số lần truy cập đĩa [7],[10]
Trong tiếp cận thuật giải tăng cường, luận án đã sử dụng dàn các khái
niệm hình thức được Wiile, 1982 để xuất Khái niệm hình thức và dàn các khái niệm hình thức đã được ứng dụng rộng rãi để biểu diễn và tìm kiếm tri thức
trong CSDL Dựa trên các công trình [33],|63], luận án đã phát triển thuật giải
tăng cường dựa trên dàn khái niệm để tìm các tập phổ biến thông qua các tập bị
Trang 7truy cập CSDL một lần duy nhất là có thể tạo dàn khái niệm, khả năng tăng
cường khi bổ sung thêm dữ liệu, khả năng tìm các tập không phổ biến
Theo tiếp cận truyền thống được R Agrawal, 1994 dé xuất trong [60], bài
toán luật kết hợp chỉ xét trường hợp khách hàng có mua hay không mua mặt
hàng (dữ liệu nhị phân), luận án mở rộng kết quả trên theo hướng các luật kết hợp phú định và sử dụng tập mờ vào bài toán tìm kiếm các tập phổ biến theo số lượng mặt hàng ( dữ liệu số thực)[7]
Lý thuyết tập thô do Z Pawlak để xướng vào năm 1982 [79] và có nhiều
ứng dụng trong khai thác dữ liệu, đặc biệt trong rút gọn dữ liệu, xây dựng luật
phân lớp dữ liệu Lý thuyết tập thô dựa trên hệ thống thông tin, quan hệ bất khả phân (indescernibility relation), xấp xỉ trên và xấp xỉ dưới (upper/lower
approximation), phụ thuộc thuộc tính [9],[17],(33],[79] Tuy vậy hệ số phụ thuộc thuộc tính trong lý thuyết tập thô cần được mở rộng khi tiến hành các phân
lớp gần đúng [9],[33] Chương này để xuất khả năng mở rộng xấp xỉ dưới của lý
thuyết tập thô để xây dựng hệ số phụ thuộc thuộc tính mở rộng theo độ phổ biến và độ tin cậy của luật kết hợp Một thuật giải mới được để xuất trong đó có sử dụng hệ số phụ thuộc thuộc tính mở rộng [9]
Một phần chương này đã được công bố trong [7],[9],[ 10] va đã được ứng dụng trong để tài nghiên cứu khoa học [82]
Chương 2: Đoạn lặp phổ biến
Chương này phát triển các thuật giải để tìm đoạn lặp phổ biến trong tập trình tự sinh học Bài toán tìm đoạn lặp phổ biến trong tập trình tự sinh học là một trong các bài toán quan trọng của phân tích trình tự sinh học [51,[6],I21],(68] Từ các đoạn lặp phổ biến, có thể rút ra đặc trưng cho các nhóm
Trang 8giữa biểu hiện gen và tính trạng Một số công trình tiêu biểu về khai thác đoạn lặp phổ biến trong các năm qua:
Trong [68], Smith R.F., Smith T.F, 1990 đã so sánh tất cả các cặp trình tự bằng phép chỉnh thằng cột (alignment) va tim các đoạn lặp có mặt trong các cặp trình tự Sau nhiều lần lặp thuật giải sẽ tìm ra tập các đoạn lặp có mặt trong tất
cả các trình tự Kết quả của thuật giải là một biểu đổ dendogram dưới dạng cây nhị phân
Trong [69] Smith H.O., T.M Chandrasegams,I990 đã sử dụng cách tìm
kiếm vét cạn để tìm các đoạn lặp có mặt trong tất cả các trình tự nhập Tiếp cận tìm kiếm vét cạn không thích hợp với các khối dữ liệu trình tự sinh học lớn
Trong [39] Jonussen, I Collins, JF Higins, 1995 đã sử dụng phép duyệt theo chiểu sâu để phát hiện các đoạn lặp Thuật giải yêu cầu các tham sẽ về chiều dài lớn nhất của đoạn lặp và số ký tự bao quát tối đa trong đoạn lặp
Trong [51] N Manning, C Shethi, K.S.Wu, 1997 đã sử dụng phép chỉnh
thẳng cột sau đó duyệt qua từng cột và phát hiện các đoạn lặp có chung trong
tập trình tự sinh học Tiếp cận theo hướng chỉnh thẳng cột bằng qui hoạch đông
không thích hợp với tập các trình tự có chiều dài lớn (thực tế trong các Web Site
sinh học trên Internet có các trình tự có chiều dài hơn 10.000 nucleotide)
Trong [19] Aristidis Floratos, 1999 đã phát triển thuật giải TEIRESIAS để
tìm các đoạn lặp có dạng <L,W> với L < W Các chuỗi con của đoạn lặp có chiều dài W đều chứa ít nhất là L ký tự khác ký tự bao quát Thuật giải có hai giai đoạn: giai đoạn 1 sẽ tìm các đoạn lặp cơ sở có chiều dài L, sau đó là giai đoạn kết hợp các chuỗi con cơ sở để tìm các đoạn lặp có dạng <L,W> Theo
Trang 9sở Tuy vậy, thuật giải TEIRESIAS được thiết kế theo tiếp cận khai thác đữ liệu
nên có thể làm việc với các tập dữ liệu lớn các trình tự sinh học
Chương này nghiên cứu tổng hợp các kết quả đã có và phát triển mơ hình bài tốn khai phá các đoạn lặp trong tập trình tự sinh học nhằm nâng cao hiệu
suất Một thuật giải không tăng cường có tên là AprioriBioSequence [5|,[6]
được xây dung dựa trên nguyên lý Apriori đã được giới thiệu trong chương l1 Các đoạn lặp phổ biến được phát hiện từng bước, từ đoạn lặp có chiều dài 1, 2
k theo nguyên lý từng bước tăng dần Thuật giải tự động tìm tất cả đoạn lặp phổ biến mà không cần chỉ định trước tham số chiểu dài tối đa Do thuật giải
AprioriBioSequence được xây dựng dựa trên nguyên lý Apriori để tìm các tập
phổ biến trong các CSDL lớn, nên thuật giải có khả năng làm việc với tập dữ
liệu lớn
Đối với các CSDL trình tự sinh học có nhiều biến động, thuật giải tăng cường trên cây hậu tố được đề xuất và phân tích khả nang ting dung [11]
Bên cạnh đó, chương này phát triển thuật giải nhằm phân lớp dữ liệu
trình tự sinh học Trong [38], Janson, 1997 đã tổng kết các kỹ thuật phân lớp trình tự sinh hoc theo ba nhóm sau đây:
° Tạo mẫu liên ứng: tiếp cận này dựa trên các trình tự thuộc về một lớp C nào đó và tạo chuỗi liên ứng cho các trình tự trong lớp C Sau đó
dùng trình tự liên ứng để đặc trưng cho các trình tự trong lớp C và tạo bộ
phân lớp cho lớp C
° Dùng mạng nơron hoặc các thuật giải học: tiếp cận này dùng tập
các trình tự trong cùng một lớp và mạng nơron hoặc các thuật giải học để rút ra các luật phân lớp
Trang 1010
Luận án phát triển thuật giải tìm tập các đoạn lặp phổ biến dựa trên thuật giải tìm luật kết hợp và tìm tổ hợp các đoạn lặp phổ biến xuất hiện theo một trật tự nhất định (tổ hợp thứ tự) từ đồ thị đồng hiện các đoạn lặp phổ biến làm tiêu
chuẩn phân lớp họ trình tự sinh học
Một phần kết quả của chương này đã được công bố trong
{[Š],[6],[11],[12] và đã được ứng dung trong để tài khoa học [81] Chương 3: Gom cụm đữ liệu
Gom cụm dữ liệu (data clustering) là một bài toán kinh điển trong thống kê Với sự xuất hiện của các CSDL lớn và nhu cầu xử lý lượng thông tin khổng
lồ trên Internet đã dẫn đến việc phát triển nhiều thuật giải hiệu quả phục vụ
gom cụm phẳng và tạo kiến trúc phân cấp cụm đặc biệt là các thuật giải tăng cường để gom cụm cho các đối tượng trong các CSDL có nhiều biến động
Mạng Kohonen do T Kohonen phát triển vào những năm 1980 [41],[42],[66] Mang Kohonen hay còn gọi là SOM là một mạng nơron được học
theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học có số chiều lớn
thành các cụm có số chiéu thấp hơn Tuy nhiên thuật giải huấn luyện mạng
Kohonen không hiệu quả khi làm việc với khối dữ liệu lớn về số lượng và số chiều Chương này nghiên cứu và cải tiến thuật giải huấn luyện mạng Kohonen
nhằm ứng dụng mạng Kohonen vào bài toán gom cụm các tóm tắt báo cáo khoa
học Một số heuristic được đề xuất nhằm nâng cao hiệu suất của thuật giải huấn luyện mạng Kohonen dựa vào đặc tính của vùng lân cận nơron chiến thắng và số lượng bit một trong các thành phần của vector nhập duới dạng nhị phân Kế đó là các nghiên cứu nhằm rút trích đặc trưng cho cụm, truy vấn tương tự đối
tượng qua các cụm trên lớp ra Kohonen
Trang 11„ 11
xuất làm việc theo lối tăng cường và cho phép cập nhật kiến trúc phân cấp cụm
khi bổ sung thêm dữ liệu Cấu trúc cây M-Tree do Macro Pattela để xuất vào
năm 1998 [47] và ứng dụng vào việc gom cụm dữ liệu đa phương tiện Chương
này nghiên cứu cải tiến cấu trúc cây M-Tree cho dữ liệu trình tự sinh học ADN
{14] Ưu điểm của cấu trúc cây M-Tree là có thé làm việc với các khối dữ liệu
lớn dựa trên nguyên tắc tạo cây chỉ mục trong các CSDL lớn
Dựa trên cấu trúc cây M-Tree, luận án đã phát triển các thao tác tìm kiếm, truy vấn tương tự, tìm vùng bảo tổn gen qua các thế hệ tiến hóa từ dữ liệu
là các trình tự sinh học Đây là các thao tác thường được các nhà sinh học sử
dụng để phân tích dữ liệu sinh học
Một phần kết quả của chương này đã được công bố trong [1].{2],
(4],[14],[15] va đã được ứng dụng trong dé tài nghiên cứu khoa hoc [81],[83]
Chương 4: Một số ứng dụng
Chương này trình bày một số ứng dụng khai thác dữ liệu như :
e Tim luật kết hợp và luật phân lớp trong CSDL nhân khẩu TP Hồ Chí
Minh [82]
e Tìm đoạn lặp phổ biến trong tập dữ liệu các trinh tự sinh học ADN của
trực khuẩn E-Coli [81]
e Tạo kiến trúc phân cấp dữ liệu trình tự ADN và khảo sát trình tự tương
đồng của khuẩn xoắn Onchocerca [14]
« _ Tìm dãy từ phổ biến nhằm đặc trưng cho khối ngữ liệu văn ban [8] e _ Gom cụm tóm tắt báo cáo khoa học [83]
Trong phần tìm các luật kết hợp và các luật phân lớp trong CSDL nhân khẩu Tp Hồ Chí Minh, luận án trình bày các kết quả tìm kiếm các luật kết hựp
giá trị thuộc tính, các luật phân lớp trong CSDL nhân khẩu Nhờ các luật này,
Trang 12hỗ trợ công tác lập kế hoạch, dự báo tình hình phát triển dân số TP Hồ Chí Minh [82]
Trong phần tìm các đoạn lặp phổ biến, luật phân lớp và tạo kiến trúc
phân cấp cụm để khảo sát quá trình tiến hoá sinh vật, luận án tập trung nghiên
cứu hai tập dữ liệu trình tự sinh học ADN của trực khuẩn E-Coli Promoter và vi khuẩn Onchocerca gây ra bệnh lòa mắt bao gồm việc tìm kiếm các đoạn lặp phổ biến trong tập trinh tự sinh học, các luật phân lớp trình tự ADN E-Coli Promoter , tập các tổ hợp đoạn lặp phổ biến trong tập các trình tự sinh học, tổ
hợp thứ tự các đoạn lặp phổ biến hỗ trợ phân lớp trình tự, kiến trúc phân cấp dữ liệu trình tự sinh học của khuẩn xoắn Onchocerca, phát hiện vùng báo tồn
gen qua các thế hệ tiến hoá của khuẩn xoắn Onchocerca, truy vấn trình tự
tương đồng [14], [81]
Trong phần tìm dãy từ phổ biến và gom cụm dữ liệu văn bản, luận ấn
trình bày các tiến trình rút trích đặc trưng văn bản dựa trên dãy từ phổ biến và đồng hiện trong văn bản, gom cụm văn bản có sử dụng đồ thị đồng hiện các dãy từ phổ biến được khai thác từ khối ngữ liệu thuộc về một lĩnh vực xác định, truy
vấn tương tự văn bản qua lớp ra Kohonen
Một phần kết quả của chương này đã được công bố trong
(3],(8],[12],{14],[15] va tng dung trong cdc để tài khoa hoc (81 ],[82],[83]
0.4 CAC DONG GOP CUA LUAN AN
e _ Nghiên cứu đề xuất sử dụng tập phổ biến và luật kết hợp nhằm xây dựng
các luật nhân quả, luật phân lớp các đối tượng CSDL, luật đặc trưng và
luật phân lớp các trình tự sinh học thông qua các đoạn lặp phổ biến, vector đặc trưng văn bản thông qua dãy từ phổ biến và tổ hợp đồng hiện
Trang 1312
e Nghiên cứu sự tương đồng giữa các đối tượng dữ liệu thông qua khoảng
cách, khảo sát sự tương tự ngữ nghĩa của từ thông qua Wordnet và tổ hợp
đông hiện các dãy từ phổ biến nhằm điều chỉnh các vector đặc trưng trong
bài toán gom cụm dữ liệu và truy vấn đối tượng tương đồng
e Nghiên cứu để xuất ý tưởng bit hóa CSDL trong bộ nhớ máy tính thông qua ma trận ngữ cảnh khai thác dữ liệu và vector biểu diễn tập mặt hàng, vận dụng tính chất của bao đóng và dàn khái niệm để xây dựng các thuật
giải hiệu qủa về độ phức tạp tính toán và thời gian truy cập CSDL trên
đĩa, vận dụng tính chất của vector đặc trưng văn bản để nâng cao hiệu
suất huấn luyện mạng Kohonen Mở rộng ngữ nghĩa của tập phổ biến và luật kết hợp theo tiếp cận lý thuyết tập mờ, hệ số phụ thuộc thuộc tính của lý thuyết tập thô dựa trên tập phổ biến và luật kết hợp
e _ Phát triển thuật giải hiệu quả để tìm tập đặc trưng phố biến trong CSDL, tập các trình tự sinh học, khối ngữ liệu văn bản Nâng cao hiệu suất của thuật giải huấn luyện mạng Kohonen Cải tiến cấu trúc M-Tree để tạo kiến trúc phân cấp cụm dữ liệu trình tự sinh học
e_ Triển khai một số ứng dụng dựa trên các mô hình thuật giải đã phát triển
nhằm khẳng định tính đa dạng và phong phú của thuật giải như tìm các
luật kết hợp và luật phân lớp trong CSDL nhân khẩu Tp Hồ Chí Minh,
tìm đoạn lặp phổ biến và tổ hợp các đoạn lặp phổ biến nhằm đặc trưng và phân lớp trình tự sinh học, tạo kiến trúc phân cấp dữ liệu trình tự sinh học,
tìm vùng bảo tổn gen qua các thế hệ tiến hóa của khuẩn Onchocerca, tìm
dãy từ phổ biến trong khối ngữ liệu văn bản và gom cụm dữ liệu các :óm