phần dẫn nhập luận án nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

phần dẫn nhập luận án về nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

Trang 1

PHAN DAN NHAP 0.1 MG DAU

0.1.1 Khai thac dif liệu

Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin (CNTT) và

Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật

đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ Có thể lấy một vài ví dụ tiêu biểu như CSDL siêu thị Walmart ( Mỹ) chứa hơn 20 triệu giao tác bán hàng

[55], CSDL nhân khẩu Tp Hồ Chí Minh với hơn 5 triệu nhân khẩu [$2] Để khai

thác hiệu quả nguồn thông tin từ các CSDL lớn hỗ trợ tiến trình ra quyết định,

bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu

đã phát triển các phương pháp, kỹ thuật và phân mềm mới hỗ trợ tiến trình khám

phá, phân tích tổng hợp thông tin

Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền

thống chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại bao gồm các thông tin mang tính khái quát, thông tin có tính qui luật vẫn đang còn tiềm ẩn

trong dữ liệu Lượng thông tin này tuy nhỏ nhưng là những thông tin cốt lõi và cần thiết cho tiến trình ra quyết định [55],[76]

Khai thác dữ liệu (data mining) được U Fayyad định nghĩa là tiến trình

tìm kiếm các mẫu mới, có ý nghĩa tiểm ẩn trong các khối dữ liệu lớn [67],[76]

Có thể chia khai thác dữ liệu thành hai dạng chính |67],[76]: khai thác

dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá Trong khai thác dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thuyết, hệ thống kiểm tra tính đúng đắn của giả thuyết Khai thác dữ liệu theo hướng kiểm tra bao

gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê Ngược lại, khai

Trang 2

bằng cách tiến hành xem xét tất cả các giả thuyết khả dĩ Do không gian tìm

kiếm lớn, nên rất nhiều heuristic đã được để xuất nhằm nâng cao hiệu suất của

các thuật giải tìm kiếm Luận án tập trung nghiên cứu vào dạng khai thác dữ liệu thứ hai và trong luận án hướng này sẽ được gọi tắt là khai thác dữ liệu Khai thác dữ liệu có các bài toán chính sau đây [6 I],(67],[76]

a) Khai thác tập phổ biến và luật kết hợp: là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả

năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng [7],

{29],(34],[60],[65] Luật kết hợp X ->Y phản ánh sự xuất hiện của tập X dẫn

đến sự xuất hiện đồng thời tập Y

Các luật kết hợp, giúp các nhà hoạch định chiến lược nhận thức các mối

quan hệ giữa các yếu tố hỗ trợ tiến trình hoạch định đường lối, kế hoạch phát

triển

b) Khai thác mẫu tuần tự: là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian (55] Một luật mô tả mẫu tuần tự có dạng tiêu biểu X —> Y phẩn ánh sự xuất

hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y Nhờ mầu

tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng

c) Phân lớp dữ liệu: là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp [22],(55].37] Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học Phân lớp dữ liệu có vai

trò quan trọng trong tiến trình nhận diện đặc trưng của đối tượng, dự báo các

Trang 3

d) Khai thác cụm và truy vấn tương tự: là tiến trình nhận diện các cụm tiểm ẩn trong tập các đối tượng chưa được xếp lớp Tiến trình khai thác cụm dựa

trên mức độ tương tự giữa các đối tượng Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ

tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất

{53],{55].70]1,71] Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết

nhanh chóng bản chất của khối dữ liệu lớn

Truy vấn tương tự có khả năng cung cấp tập các đối tượng có mức độ

tương tự lớn hơn một nguỡng xác định so với đối tượng chí định Câu truy vấn tương tự bao gồm đối tượng chỉ định, mức độ tương tự hay bán kính của vùng dữ liệu cần truy vấn [14],[47]

0.1.2 Khai thác dữ liệu trong các trình tự sinh học

Sinh học phân tử nghiên cứu các thành phần và các tương tác của các vật

thể sống bao gồm nhiều loại phân tử khác nhau như ADN , Protein, Lipid cấu

tạo nên sự sống Những nghiên cứu này đã và đang được thực hiện trong các

phòng thí nghiệm dùng các kỹ thuật hóa lý Tuy vậy, các tiến bộ vựơt bậc gân

đây trong công nghệ giải trình tự (sequencing) đã cho phép tích lũy nhanh chóng các dữ liệu trình tự sinh học ADN và protein Kết quả là có một khoảng cách

ngày càng được mở rộng giữa thu nhận nhanh dữ liệu trình tự sinh học và xử lý

không nhanh bằng các phương pháp truyền thống [44],[52]

Tháng 6 năm 2000, Craig Venter cơng bố đã hồn tất công việc giải trình

tự bộ gen người và hiện nay số lượng trình tự sinh học được giải trình tự đang gia tăng từng ngày từng giờ Anthony Kerlavage, 2001 {52] của công ty Celera,

Mỹ cho biết có thể dễ dàng giải trình tự sinh học trong thời gian vài giờ một số

Trang 4

va tao lập xong bản đổ bộ gen người chỉ mới là bước đầu trong phân tích và nghiên cứu tổ chức ở mức độ tế bào của con người Bài toán thực sự nằm ở chỗ phát triển các phương pháp, công cụ mới để khám phá, giải mã các thông tin

tiềm ẩn trong khối dữ liệu trình tự sinh học [21],[44],[52]

Những năm gần đây tiếp cận “khai thác dữ liệu” đã được sử dụng để

phan tich dit liéu sinh hoc [18],[21],[44],[69] Cac nghiên cứu-phát triển các

phần mềm tin học nhằm tìm kiếm các đặc trưng cho các nhóm gen, các qui luật hỗ trợ phân lớp gen, tạo cây phân loài, truy vấn trình tự tương đồng, mô phỏng tế

bao sinh học đã đóng góp rất nhiều cho các nhà sinh học [44],[52] và thúc

đẩy ngành Sinh-Tin học phát triển mạnh mẽ

0.2 MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN

Các đối tượng thường có chung một số đặc trưng Trong phạm vi nghiên

cứu của luận án, đặc trưng này có thể là cặp <thuộc tính, giá trị> của các đối

tượng trong CSDL, các đoạn lặp phố biến trong khối trình tự sinh học, các dãy từ phổ biến trong khối ngữ liệu văn bản Các đặc trưng của đối tượng có các tính chất sau:

a)Tính phổ biến của tập đặc trưng: phan ánh số lượng đối tượng trong tập đối

tượng có chứa đặc trưng Trong CSDL nhân khẩu Tp Hồ Chí Minh, tập thuộc

tính-giá trị {NÑG_DAOTAO=Hóa, TTLDONG=ThấtNghiệp}, trong khối trình tự

sinh học ADN của E-Coli Promoter tập đoạn lặp phổ biến {AAA, ACGT)},

trong khối ngữ liệu truyện ngắn của nhà văn Nguyễn Công Hoan tập hợp từ (cũng, cứ} là các ví dụ về các tập đặc trưng xuất hiện phổ biến trong tập đối tượng khảo sát

Trang 5

Trong CSDL nhân khẩu Tp Hồ Chí Minh có liên kết (NG_DAOTAO=Hóa} — {TTLDONG=ThatNghiép} Trong tập trình tự sinh học ADN của E-Coli Promoter, có liên kết các đoạn lặp phổ biến {AAA}—> (ACGT) Trong khối ngữ liệu truyện ngắn của nhà văn Nguyễn Công Hoan có liên kết dãy từ phổ biến

{cũng} > {ctf}

ce) Tổ hợp thứ tự các đặc trưng: phản ánh thứ tự xuất hiện của đặc trưng

Trong tập trình tự sinh học ADN của E-Coli Promoter có tổ hợp thứ tự các đặc trưng {TAT—>AAT—GCGC) phần ánh thứ tự xuất hiện của các đoạn lặp phổ biến TAT trước AAT và AAT trước GCGC trong tập trình tự sinh học

Luận án tập trung nghiên cứu phát triển các thuật giải hiệu quả để phát

hiện các tập đặc trưng xuất hiện phổ biến trong các đối tượng của CSDL, trình tự

sinh học, khối ngữ liệu các văn bản Trong tiến trình phát triển thuật giải, luận

án tập trung vào việc phát triển các heuristic nhằm giảm độ phức tạp tính toán

và thời gian truy cập CSDL, các thuật giải tăng cường là loại thuật giải hiệu quả trong khai thác dữ liệu vì khi bổ sung thêm dữ liệu, thuật giải tăng cường không phải xét lại toàn bộ tập dữ liệu gốc mà chỉ xét trên tập dữ liệu vừa mới được bổ sung và kết quả trước đó để điều chỉnh kết quả đang có

Bên cạnh việc phát triển thuật giải, luận án triển khai một số ứng dụng thuật giải đã phát triển trong nhiều lĩnh vực khác nhau như tìm tập phổ biến và

các luật kết hợp, luật phân lớp trong CSDL, tìm các đặc trưng của trình tự sinh

học, phân lớp đối tượng, gom cụm đối tượng nhằm khẳng định khả năng áp dụng

đa dạng của các thuật giải

0.3 CÁC CHƯƠNG MỤC CỦA LUẬN ÁN

Chương 1: Tập phổ biến, luật kết hợp

Trang 6

một trong các bài toán chính của khai thác dữ liệu Một số công trình tiêu biểu trong các năm qua:

Trong [60] , R Agrawal, R Srikant, 1994 đã phát biểu bài toán tập phổ biến và luật kết hợp từ bài toán bán hàng trong siêu thị Nguyên lý Apriori đã

được để xuất và sử dụng trong thuật giải Apriori-TID Tuy vậy, tiếp cận này đòi hỏi truy cập đĩa nhiều lần khi tính độ phổ biến của các tập mặt hàng

Trong [34] H Toivonen, 1995 đã phân tích độ phức tạp tính toán của thuật giải Apriori-TID Trong [ 29], Dao - I- Lin, Zvi M.Kedau 1997 đã phối hợp

hai thuật giải tìm theo chiều rộng và theo chiều sâu trên đồ thị để duyệt dàn các

tập ứng viên cho các tập phổ biến tối đại

Trong [57], Pauray S.M., Chih-Chong Lee, 1999 đã dé xuất một thuật giải

tăng cường để tìm tập phổ biến trong các CSDL bị biến động do thao tác cập nhật đữ liệu Ngoài các ngưỡng về độ phổ biến, các tác giả còn dé xuất thêm hệ

số cho các tập phổ biến tiểm năng sẽ phát sinh khi bổ sung thêm dữ liệu

Chương này nghiên cứu tổng hợp các kết quả đã có và để xuất mô hình

thuật giải theo tiếp cận thuật giải tăng cường và thuật giải không tăng cường để

tìm tập phổ biến và luật kết hợp Trong tiếp cận thuật giấi không tăng cường, luận án phát triển mô hình vector biểu diễn, kết nối Galois và tính chất của bao đóng nhằm nâng cao hiệu suất tính toán độ phổ biến bằng cách giảm số lượng

tập phổ biến ứng viên nên sẽ giảm số lần truy cập đĩa [7],[10]

Trong tiếp cận thuật giải tăng cường, luận án đã sử dụng dàn các khái

niệm hình thức được Wiile, 1982 để xuất Khái niệm hình thức và dàn các khái niệm hình thức đã được ứng dụng rộng rãi để biểu diễn và tìm kiếm tri thức

trong CSDL Dựa trên các công trình [33],|63], luận án đã phát triển thuật giải

tăng cường dựa trên dàn khái niệm để tìm các tập phổ biến thông qua các tập bị

Trang 7

truy cập CSDL một lần duy nhất là có thể tạo dàn khái niệm, khả năng tăng

cường khi bổ sung thêm dữ liệu, khả năng tìm các tập không phổ biến

Theo tiếp cận truyền thống được R Agrawal, 1994 dé xuất trong [60], bài

toán luật kết hợp chỉ xét trường hợp khách hàng có mua hay không mua mặt

hàng (dữ liệu nhị phân), luận án mở rộng kết quả trên theo hướng các luật kết hợp phú định và sử dụng tập mờ vào bài toán tìm kiếm các tập phổ biến theo số lượng mặt hàng ( dữ liệu số thực)[7]

Lý thuyết tập thô do Z Pawlak để xướng vào năm 1982 [79] và có nhiều

ứng dụng trong khai thác dữ liệu, đặc biệt trong rút gọn dữ liệu, xây dựng luật

phân lớp dữ liệu Lý thuyết tập thô dựa trên hệ thống thông tin, quan hệ bất khả phân (indescernibility relation), xấp xỉ trên và xấp xỉ dưới (upper/lower

approximation), phụ thuộc thuộc tính [9],[17],(33],[79] Tuy vậy hệ số phụ thuộc thuộc tính trong lý thuyết tập thô cần được mở rộng khi tiến hành các phân

lớp gần đúng [9],[33] Chương này để xuất khả năng mở rộng xấp xỉ dưới của lý

thuyết tập thô để xây dựng hệ số phụ thuộc thuộc tính mở rộng theo độ phổ biến và độ tin cậy của luật kết hợp Một thuật giải mới được để xuất trong đó có sử dụng hệ số phụ thuộc thuộc tính mở rộng [9]

Một phần chương này đã được công bố trong [7],[9],[ 10] va đã được ứng dụng trong để tài nghiên cứu khoa học [82]

Chương 2: Đoạn lặp phổ biến

Chương này phát triển các thuật giải để tìm đoạn lặp phổ biến trong tập trình tự sinh học Bài toán tìm đoạn lặp phổ biến trong tập trình tự sinh học là một trong các bài toán quan trọng của phân tích trình tự sinh học [51,[6],I21],(68] Từ các đoạn lặp phổ biến, có thể rút ra đặc trưng cho các nhóm

Trang 8

giữa biểu hiện gen và tính trạng Một số công trình tiêu biểu về khai thác đoạn lặp phổ biến trong các năm qua:

Trong [68], Smith R.F., Smith T.F, 1990 đã so sánh tất cả các cặp trình tự bằng phép chỉnh thằng cột (alignment) va tim các đoạn lặp có mặt trong các cặp trình tự Sau nhiều lần lặp thuật giải sẽ tìm ra tập các đoạn lặp có mặt trong tất

cả các trình tự Kết quả của thuật giải là một biểu đổ dendogram dưới dạng cây nhị phân

Trong [69] Smith H.O., T.M Chandrasegams,I990 đã sử dụng cách tìm

kiếm vét cạn để tìm các đoạn lặp có mặt trong tất cả các trình tự nhập Tiếp cận tìm kiếm vét cạn không thích hợp với các khối dữ liệu trình tự sinh học lớn

Trong [39] Jonussen, I Collins, JF Higins, 1995 đã sử dụng phép duyệt theo chiểu sâu để phát hiện các đoạn lặp Thuật giải yêu cầu các tham sẽ về chiều dài lớn nhất của đoạn lặp và số ký tự bao quát tối đa trong đoạn lặp

Trong [51] N Manning, C Shethi, K.S.Wu, 1997 đã sử dụng phép chỉnh

thẳng cột sau đó duyệt qua từng cột và phát hiện các đoạn lặp có chung trong

tập trình tự sinh học Tiếp cận theo hướng chỉnh thẳng cột bằng qui hoạch đông

không thích hợp với tập các trình tự có chiều dài lớn (thực tế trong các Web Site

sinh học trên Internet có các trình tự có chiều dài hơn 10.000 nucleotide)

Trong [19] Aristidis Floratos, 1999 đã phát triển thuật giải TEIRESIAS để

tìm các đoạn lặp có dạng <L,W> với L < W Các chuỗi con của đoạn lặp có chiều dài W đều chứa ít nhất là L ký tự khác ký tự bao quát Thuật giải có hai giai đoạn: giai đoạn 1 sẽ tìm các đoạn lặp cơ sở có chiều dài L, sau đó là giai đoạn kết hợp các chuỗi con cơ sở để tìm các đoạn lặp có dạng <L,W> Theo

Trang 9

sở Tuy vậy, thuật giải TEIRESIAS được thiết kế theo tiếp cận khai thác đữ liệu

nên có thể làm việc với các tập dữ liệu lớn các trình tự sinh học

Chương này nghiên cứu tổng hợp các kết quả đã có và phát triển mơ hình bài tốn khai phá các đoạn lặp trong tập trình tự sinh học nhằm nâng cao hiệu

suất Một thuật giải không tăng cường có tên là AprioriBioSequence [5|,[6]

được xây dung dựa trên nguyên lý Apriori đã được giới thiệu trong chương l1 Các đoạn lặp phổ biến được phát hiện từng bước, từ đoạn lặp có chiều dài 1, 2

k theo nguyên lý từng bước tăng dần Thuật giải tự động tìm tất cả đoạn lặp phổ biến mà không cần chỉ định trước tham số chiểu dài tối đa Do thuật giải

AprioriBioSequence được xây dựng dựa trên nguyên lý Apriori để tìm các tập

phổ biến trong các CSDL lớn, nên thuật giải có khả năng làm việc với tập dữ

liệu lớn

Đối với các CSDL trình tự sinh học có nhiều biến động, thuật giải tăng cường trên cây hậu tố được đề xuất và phân tích khả nang ting dung [11]

Bên cạnh đó, chương này phát triển thuật giải nhằm phân lớp dữ liệu

trình tự sinh học Trong [38], Janson, 1997 đã tổng kết các kỹ thuật phân lớp trình tự sinh hoc theo ba nhóm sau đây:

° Tạo mẫu liên ứng: tiếp cận này dựa trên các trình tự thuộc về một lớp C nào đó và tạo chuỗi liên ứng cho các trình tự trong lớp C Sau đó

dùng trình tự liên ứng để đặc trưng cho các trình tự trong lớp C và tạo bộ

phân lớp cho lớp C

° Dùng mạng nơron hoặc các thuật giải học: tiếp cận này dùng tập

các trình tự trong cùng một lớp và mạng nơron hoặc các thuật giải học để rút ra các luật phân lớp

Trang 10

10

Luận án phát triển thuật giải tìm tập các đoạn lặp phổ biến dựa trên thuật giải tìm luật kết hợp và tìm tổ hợp các đoạn lặp phổ biến xuất hiện theo một trật tự nhất định (tổ hợp thứ tự) từ đồ thị đồng hiện các đoạn lặp phổ biến làm tiêu

chuẩn phân lớp họ trình tự sinh học

Một phần kết quả của chương này đã được công bố trong

{[Š],[6],[11],[12] và đã được ứng dung trong để tài khoa học [81] Chương 3: Gom cụm đữ liệu

Gom cụm dữ liệu (data clustering) là một bài toán kinh điển trong thống kê Với sự xuất hiện của các CSDL lớn và nhu cầu xử lý lượng thông tin khổng

lồ trên Internet đã dẫn đến việc phát triển nhiều thuật giải hiệu quả phục vụ

gom cụm phẳng và tạo kiến trúc phân cấp cụm đặc biệt là các thuật giải tăng cường để gom cụm cho các đối tượng trong các CSDL có nhiều biến động

Mạng Kohonen do T Kohonen phát triển vào những năm 1980 [41],[42],[66] Mang Kohonen hay còn gọi là SOM là một mạng nơron được học

theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học có số chiều lớn

thành các cụm có số chiéu thấp hơn Tuy nhiên thuật giải huấn luyện mạng

Kohonen không hiệu quả khi làm việc với khối dữ liệu lớn về số lượng và số chiều Chương này nghiên cứu và cải tiến thuật giải huấn luyện mạng Kohonen

nhằm ứng dụng mạng Kohonen vào bài toán gom cụm các tóm tắt báo cáo khoa

học Một số heuristic được đề xuất nhằm nâng cao hiệu suất của thuật giải huấn luyện mạng Kohonen dựa vào đặc tính của vùng lân cận nơron chiến thắng và số lượng bit một trong các thành phần của vector nhập duới dạng nhị phân Kế đó là các nghiên cứu nhằm rút trích đặc trưng cho cụm, truy vấn tương tự đối

tượng qua các cụm trên lớp ra Kohonen

Trang 11

„ 11

xuất làm việc theo lối tăng cường và cho phép cập nhật kiến trúc phân cấp cụm

khi bổ sung thêm dữ liệu Cấu trúc cây M-Tree do Macro Pattela để xuất vào

năm 1998 [47] và ứng dụng vào việc gom cụm dữ liệu đa phương tiện Chương

này nghiên cứu cải tiến cấu trúc cây M-Tree cho dữ liệu trình tự sinh học ADN

{14] Ưu điểm của cấu trúc cây M-Tree là có thé làm việc với các khối dữ liệu

lớn dựa trên nguyên tắc tạo cây chỉ mục trong các CSDL lớn

Dựa trên cấu trúc cây M-Tree, luận án đã phát triển các thao tác tìm kiếm, truy vấn tương tự, tìm vùng bảo tổn gen qua các thế hệ tiến hóa từ dữ liệu

là các trình tự sinh học Đây là các thao tác thường được các nhà sinh học sử

dụng để phân tích dữ liệu sinh học

Một phần kết quả của chương này đã được công bố trong [1].{2],

(4],[14],[15] va đã được ứng dụng trong dé tài nghiên cứu khoa hoc [81],[83]

Chương 4: Một số ứng dụng

Chương này trình bày một số ứng dụng khai thác dữ liệu như :

e Tim luật kết hợp và luật phân lớp trong CSDL nhân khẩu TP Hồ Chí

Minh [82]

e Tìm đoạn lặp phổ biến trong tập dữ liệu các trinh tự sinh học ADN của

trực khuẩn E-Coli [81]

e Tạo kiến trúc phân cấp dữ liệu trình tự ADN và khảo sát trình tự tương

đồng của khuẩn xoắn Onchocerca [14]

« _ Tìm dãy từ phổ biến nhằm đặc trưng cho khối ngữ liệu văn ban [8] e _ Gom cụm tóm tắt báo cáo khoa học [83]

Trong phần tìm các luật kết hợp và các luật phân lớp trong CSDL nhân khẩu Tp Hồ Chí Minh, luận án trình bày các kết quả tìm kiếm các luật kết hựp

giá trị thuộc tính, các luật phân lớp trong CSDL nhân khẩu Nhờ các luật này,

Trang 12

hỗ trợ công tác lập kế hoạch, dự báo tình hình phát triển dân số TP Hồ Chí Minh [82]

Trong phần tìm các đoạn lặp phổ biến, luật phân lớp và tạo kiến trúc

phân cấp cụm để khảo sát quá trình tiến hoá sinh vật, luận án tập trung nghiên

cứu hai tập dữ liệu trình tự sinh học ADN của trực khuẩn E-Coli Promoter và vi khuẩn Onchocerca gây ra bệnh lòa mắt bao gồm việc tìm kiếm các đoạn lặp phổ biến trong tập trinh tự sinh học, các luật phân lớp trình tự ADN E-Coli Promoter , tập các tổ hợp đoạn lặp phổ biến trong tập các trình tự sinh học, tổ

hợp thứ tự các đoạn lặp phổ biến hỗ trợ phân lớp trình tự, kiến trúc phân cấp dữ liệu trình tự sinh học của khuẩn xoắn Onchocerca, phát hiện vùng báo tồn

gen qua các thế hệ tiến hoá của khuẩn xoắn Onchocerca, truy vấn trình tự

tương đồng [14], [81]

Trong phần tìm dãy từ phổ biến và gom cụm dữ liệu văn bản, luận ấn

trình bày các tiến trình rút trích đặc trưng văn bản dựa trên dãy từ phổ biến và đồng hiện trong văn bản, gom cụm văn bản có sử dụng đồ thị đồng hiện các dãy từ phổ biến được khai thác từ khối ngữ liệu thuộc về một lĩnh vực xác định, truy

vấn tương tự văn bản qua lớp ra Kohonen

Một phần kết quả của chương này đã được công bố trong

(3],(8],[12],{14],[15] va tng dung trong cdc để tài khoa hoc (81 ],[82],[83]

0.4 CAC DONG GOP CUA LUAN AN

e _ Nghiên cứu đề xuất sử dụng tập phổ biến và luật kết hợp nhằm xây dựng

các luật nhân quả, luật phân lớp các đối tượng CSDL, luật đặc trưng và

luật phân lớp các trình tự sinh học thông qua các đoạn lặp phổ biến, vector đặc trưng văn bản thông qua dãy từ phổ biến và tổ hợp đồng hiện

Trang 13

12

e Nghiên cứu sự tương đồng giữa các đối tượng dữ liệu thông qua khoảng

cách, khảo sát sự tương tự ngữ nghĩa của từ thông qua Wordnet và tổ hợp

đông hiện các dãy từ phổ biến nhằm điều chỉnh các vector đặc trưng trong

bài toán gom cụm dữ liệu và truy vấn đối tượng tương đồng

e Nghiên cứu để xuất ý tưởng bit hóa CSDL trong bộ nhớ máy tính thông qua ma trận ngữ cảnh khai thác dữ liệu và vector biểu diễn tập mặt hàng, vận dụng tính chất của bao đóng và dàn khái niệm để xây dựng các thuật

giải hiệu qủa về độ phức tạp tính toán và thời gian truy cập CSDL trên

đĩa, vận dụng tính chất của vector đặc trưng văn bản để nâng cao hiệu

suất huấn luyện mạng Kohonen Mở rộng ngữ nghĩa của tập phổ biến và luật kết hợp theo tiếp cận lý thuyết tập mờ, hệ số phụ thuộc thuộc tính của lý thuyết tập thô dựa trên tập phổ biến và luật kết hợp

e _ Phát triển thuật giải hiệu quả để tìm tập đặc trưng phố biến trong CSDL, tập các trình tự sinh học, khối ngữ liệu văn bản Nâng cao hiệu suất của thuật giải huấn luyện mạng Kohonen Cải tiến cấu trúc M-Tree để tạo kiến trúc phân cấp cụm dữ liệu trình tự sinh học

e_ Triển khai một số ứng dụng dựa trên các mô hình thuật giải đã phát triển

nhằm khẳng định tính đa dạng và phong phú của thuật giải như tìm các

luật kết hợp và luật phân lớp trong CSDL nhân khẩu Tp Hồ Chí Minh,

tìm đoạn lặp phổ biến và tổ hợp các đoạn lặp phổ biến nhằm đặc trưng và phân lớp trình tự sinh học, tạo kiến trúc phân cấp dữ liệu trình tự sinh học,

tìm vùng bảo tổn gen qua các thế hệ tiến hóa của khuẩn Onchocerca, tìm

dãy từ phổ biến trong khối ngữ liệu văn bản và gom cụm dữ liệu các :óm

Định dạng
Số trang	13
Dung lượng	4,19 MB