phần dẫn nhập luận án nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

13 554 0
phần dẫn nhập luận án nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

phần dẫn nhập luận án về nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

PHAN DAN NHAP 0.1 MG DAU 0.1.1 Khai thac dif liệu Sự phát triển nhanh chóng ứng dụng cơng nghệ thông tin (CNTT) Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật tạo nhiều sở liệu (CSDL) biểu CSDL siêu thị Walmart khổng lồ Có thể lấy vài ví dụ tiêu ( Mỹ) chứa 20 triệu giao tác bán hàng [55], CSDL nhân Tp Hồ Chí Minh với triệu nhân [$2] Để khai thác hiệu nguồn thông tin từ CSDL lớn hỗ trợ tiến trình định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phân mềm hỗ trợ tiến trình khám phá, phân tích tổng hợp thơng tin Theo đánh giá IBM, phương pháp khai thác thông tin truyền thống thu khoảng 80% thơng tin từ CSDL, phần cịn lại bao gồm thơng tin mang tính khái qt, thơng tin có tính qui luật tiềm ẩn liệu Lượng thông tin nhỏ thông tin cốt lõi cần thiết cho tiến trình định [55],[76] Khai thác liệu (data mining) U Fayyad định nghĩa tiến trình tìm kiếm mẫu mới, có ý nghĩa tiểm ẩn khối liệu lớn [67],[76] Có thể chia khai thác liệu thành hai dạng |67],[76]: khai thác liệu theo hướng kiểm tra khai thác liệu theo hướng khám phá Trong khai thác liệu theo hướng kiểm tra, người dùng đề xuất giả thuyết, hệ thống kiểm tra tính đắn giả thuyết Khai thác liệu theo hướng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê Ngược lại, khai thác liệu theo hướng khám phá tìm kiếm tri thức tiểm ẩn CSDL cách tiến hành xem xét tất giả thuyết Do khơng gian tìm kiếm lớn, nên nhiều heuristic để xuất nhằm nâng cao hiệu suất thuật giải tìm kiếm Luận án tập trung nghiên cứu liệu thứ hai vào dạng khai thác luận án hướng gọi tắt khai thác liệu Khai thác liệu có tốn sau [6 I],(67],[76] a) Khai thác tập phổ biến luật kết hợp: tiến trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu Từ tập phổ biến tạo luật kết hợp giá trị thuộc tính nhằm phản ánh khả xuất đồng thời giá trị thuộc tính tập đối tượng [7], {29],(34],[60],[65] Luật kết hợp X ->Y phản ánh xuất tập X dẫn đến xuất đồng thời tập Y Các luật kết hợp, giúp nhà hoạch định chiến lược nhận thức mối quan hệ yếu tố hỗ trợ tiến trình hoạch định đường lối, kế hoạch phát triển b) Khai thác mẫu tuần tự: tiến trình khám phá mẫu phổ biến phản ánh mối quan hệ biến cố CSDL hướng thời gian (55] Một luật mơ tả mẫu có dạng tiêu biểu X —> Y phẩn ánh xuất biến cố X dẫn đến việc xuất biến cố Y Nhờ mầu tuần tự, khám phá xu phát triển hành vi đối tượng c) Phân lớp liệu: tiến trình khám phá luật phân loại hay đặc trưng cho tập liệu xếp lớp [22],(55].37] Tập liệu học bao gồm tập đối tượng xác định lớp dùng để tạo mơ hình phân lớp dựa đặc trưng đối tượng tập liệu học Phân lớp liệu có vai trị quan trọng tiến trình nhận diện đặc trưng đối tượng, dự báo khuynh hướng, qui luật phát triển d) Khai thác cụm truy vấn tương tự: tiến trình nhận diện cụm tiểm ẩn tập đối tượng chưa xếp lớp Tiến trình khai thác cụm dựa mức độ tương tự đối tượng Các đối tượng gom cụm cho mức độ tương tự đối tượng cụm lớn tương tự đối tượng nằm cụm khác mức độ nhỏ {53],{55].70]1,71] Các cụm đặc trưng tính chất chung tất đối tượng cụm Do vậy, khảo sát cụm giúp khái quát, tổng kết nhanh chóng chất khối liệu lớn Truy vấn tương tự có khả cung cấp tập đối tượng có mức độ tương tự lớn nguỡng xác định so với đối tượng chí định Câu truy vấn tương tự bao gồm đối tượng định, mức độ tương tự hay bán kính vùng liệu cần truy vấn [14],[47] 0.1.2 Khai thác liệu trình tự sinh học Sinh học phân tử nghiên cứu thành phần tương tác vật thể sống bao gồm nhiều loại phân tử khác ADN , Protein, Lipid cấu tạo nên sống Những nghiên cứu thực phịng thí nghiệm dùng kỹ thuật hóa lý Tuy vậy, tiến vựơt bậc gân công nghệ giải trình tự (sequencing) cho phép tích lũy nhanh chóng liệu trình tự sinh học ADN protein Kết có khoảng cách ngày mở rộng thu nhận nhanh liệu trình tự sinh học xử lý khơng nhanh phương pháp truyền thống [44],[52] Tháng năm 2000, Craig Venter cơng bố hồn tất cơng việc giải trình tự gen người số lượng trình tự sinh học giải trình tự gia tăng ngày Anthony Kerlavage, 2001 {52] cơng ty Celera, Mỹ cho biết dễ dàng giải trình tự sinh học thời gian vài số lượng lên đến hàng gigabyte nucleotide Tuy vậy, tiến trình giải trình tự sinh học va tao lập xong đổ gen người bước đầu phân tích nghiên cứu tổ chức mức độ tế bào người Bài toán thực nằm chỗ phát triển phương pháp, công cụ để khám phá, giải mã thông tin tiềm ẩn khối liệu trình tự sinh học [21],[44],[52] Những năm gần tiếp cận “khai thác liệu” sử dụng để phan tich dit liéu sinh hoc [18],[21],[44],[69] Cac nghiên cứu-phát triển phần mềm tin học nhằm tìm kiếm đặc trưng cho nhóm gen, qui luật hỗ trợ phân lớp gen, tạo phân lồi, truy vấn trình tự tương đồng, mơ tế bao sinh học đóng góp nhiều cho nhà sinh học [44],[52] thúc đẩy ngành Sinh-Tin học phát triển mạnh mẽ 0.2 MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN Các đối tượng thường có chung số đặc trưng Trong phạm vi nghiên cứu luận án, đặc trưng cặp đối tượng CSDL, đoạn lặp phố biến khối trình tự sinh học, dãy từ phổ biến khối ngữ liệu văn Các đặc trưng đối tượng có tính chất sau: a)Tính phổ biến tập đặc trưng: phan ánh số lượng đối tượng tập đối tượng có chứa đặc trưng Trong CSDL nhân Tp Hồ Chí Minh, tập thuộc tính-giá trị {NĐG_DAOTAO=Hóa, TTLDONG=ThấtNghiệp}, khối trình tự sinh học ADN E-Coli Promoter tập đoạn khối ngữ liệu truyện ngắn lặp phổ biến nhà văn Nguyễn {AAA, Công Hoan ACGT)}, tập hợp từ (cũng, cứ} ví dụ tập đặc trưng xuất phổ biến tập đối tượng khảo sát b) Tính liên kết đặc trưng tập đặc trưng: phản ảnh mức độ xuất tập đặc trưng kéo theo việc xuất tập đặc trưng Trong CSDL nhân Tp Hồ Chí Minh có liên kết (NG_DAOTAO=Hóa} {TTLDONG=ThatNghiép} Trong tập trình tự sinh học ADN — E-Coli Promoter, có liên kết đoạn lặp phổ biến {AAA}—> (ACGT) Trong khối ngữ liệu truyện ngắn nhà văn Nguyễn Công Hoan có liên kết dãy từ phổ biến {cũng} > {ctf} ce) Tổ hợp thứ tự đặc trưng: phản ánh thứ tự xuất đặc trưng Trong tập trình tự sinh học ADN trưng {TAT—>AAT—GCGC) E-Coli Promoter có tổ hợp thứ tự đặc phần ánh thứ tự xuất đoạn lặp phổ biến TAT trước AAT AAT trước GCGC tập trình tự sinh học Luận án tập trung nghiên cứu phát triển thuật giải hiệu để phát tập đặc trưng xuất phổ biến đối tượng CSDL, trình tự sinh học, khối ngữ liệu văn Trong tiến trình phát triển thuật giải, luận án tập trung vào việc phát triển heuristic nhằm giảm độ phức tạp tính tốn thời gian truy cập CSDL, thuật giải tăng cường loại thuật giải hiệu khai thác liệu bổ sung thêm liệu, thuật giải tăng cường xét lại toàn tập liệu gốc mà xét tập liệu vừa bổ sung kết trước để điều chỉnh kết có Bên cạnh việc phát triển thuật giải, luận án triển khai số ứng dụng thuật giải phát triển nhiều lĩnh vực khác tìm tập phổ biến luật kết hợp, luật phân lớp CSDL, tìm đặc trưng trình tự sinh học, phân lớp đối tượng, gom cụm đối tượng nhằm khẳng định khả áp dụng đa dạng thuật giải 0.3 CÁC CHƯƠNG MỤC CỦA LUẬN ÁN Chương 1: Tập phổ biến, luật kết hợp Chương nghiên cứu phát triển thuật giải để tìm tập phổ biến luật kết hợp CSDL Bài tốn tìm tập phổ biến luật kết hợp tốn khai thác liệu Một số cơng trình tiêu biểu năm qua: Trong [60] , R Agrawal, R Srikant, 1994 phát biểu toán tập phổ biến luật kết hợp từ toán bán hàng siêu thị Nguyên lý Apriori để xuất sử dụng thuật giải Apriori-TID Tuy vậy, tiếp cận đòi hỏi truy cập đĩa nhiều lần tính độ phổ biến tập mặt hàng Trong [34] H Toivonen, 1995 phân tích độ phức tạp tính tốn thuật giải Apriori-TID Trong [ 29], Dao - I- Lin, Zvi M.Kedau 1997 phối hợp hai thuật giải tìm theo chiều rộng theo chiều sâu đồ thị để duyệt dàn tập ứng viên cho tập phổ biến tối đại Trong [57], Pauray S.M., Chih-Chong Lee, 1999 dé xuất thuật giải tăng cường để tìm tập phổ biến CSDL bị biến động thao tác cập nhật đữ liệu Ngoài ngưỡng độ phổ biến, tác giả dé xuất thêm hệ số cho tập phổ biến tiểm phát sinh bổ sung thêm liệu Chương nghiên cứu tổng hợp kết có để xuất mơ hình thuật giải theo tiếp cận thuật giải tăng cường thuật giải không tăng cường để tìm tập phổ biến luật kết hợp Trong tiếp cận thuật giấi không tăng cường, luận án phát triển mơ hình vector biểu diễn, kết nối Galois tính chất bao đóng nhằm nâng cao hiệu suất tính tốn độ phổ biến cách giảm số lượng tập phổ biến ứng viên nên giảm số lần truy cập đĩa [7],[10] Trong tiếp cận thuật giải tăng cường, luận án sử dụng dàn khái niệm hình thức Wiile, 1982 để xuất Khái niệm hình thức dàn khái niệm hình thức ứng dụng rộng rãi để biểu CSDL diễn tìm kiếm tri thức Dựa cơng trình [33],|63], luận án phát triển thuật giải tăng cường dựa dàn khái niệm để tìm tập phổ biến thơng qua tập bị đóng [10] Một số tính thuật giải dàn khái niệm : cần truy cập CSDL lần tạo dàn khái niệm, khả tăng cường bổ sung thêm liệu, khả tìm tập không phổ biến Theo tiếp cận truyền thống R Agrawal, 1994 dé xuất [60], toán luật kết hợp xét trường hợp khách hàng có mua hay không mua mặt hàng (dữ liệu nhị phân), luận án mở rộng kết theo hướng luật kết hợp phú định sử dụng tập mờ vào tốn tìm kiếm tập phổ biến theo số lượng mặt hàng ( liệu số thực)[7] Lý thuyết tập thô Z Pawlak để xướng vào năm 1982 [79] có nhiều ứng dụng khai thác liệu, đặc biệt rút gọn liệu, xây dựng luật phân lớp liệu Lý thuyết tập thô dựa hệ thống thông tin, quan hệ bất khả phân (indescernibility relation), xấp xỉ xấp xỉ approximation), phụ thuộc thuộc tính [9],[17],(33],[79] Tuy (upper/lower hệ số phụ thuộc thuộc tính lý thuyết tập thô cần mở rộng tiến hành phân lớp gần [9],[33] Chương để xuất khả mở rộng xấp xỉ lý thuyết tập thô để xây dựng hệ số phụ thuộc thuộc tính mở rộng theo độ phổ biến độ tin cậy luật kết hợp Một thuật giải để xuất có sử dụng hệ số phụ thuộc thuộc tính mở rộng [9] Một phần chương công bố [7],[9],[ 10] va ứng dụng để tài nghiên cứu khoa học [82] Chương 2: Đoạn lặp phổ biến Chương phát triển thuật giải để tìm đoạn lặp phổ biến tập trình tự sinh học Bài tốn tìm đoạn lặp phổ biến tập trình tự sinh học tốn quan trọng phân tích trình tự sinh học [51,[6],I21],(68] Từ đoạn lặp phổ biến, rút đặc trưng cho nhóm gen tính trạng, vùng bảo tổn gen qua hệ tiến hóa, quan hệ biểu gen tính trạng Một số cơng trình tiêu biểu khai thác đoạn lặp phổ biến năm qua: Trong [68], Smith R.F., Smith T.F, 1990 so sánh tất cặp trình tự phép chỉnh thằng cột (alignment) va tim đoạn lặp có mặt cặp trình tự Sau nhiều lần lặp thuật giải tìm tập đoạn lặp có mặt tất trình tự Kết thuật giải biểu đổ dendogram dạng nhị phân Trong [69] Smith H.O., T.M Chandrasegams,I990 sử dụng cách tìm kiếm vét cạn để tìm đoạn lặp có mặt tất trình tự nhập Tiếp cận tìm kiếm vét cạn khơng thích hợp với khối liệu trình tự sinh học lớn Trong [39] Jonussen, I Collins, JF Higins, 1995 sử dụng phép duyệt theo chiểu sâu để phát đoạn lặp Thuật giải yêu cầu tham chiều dài lớn đoạn lặp số ký tự bao quát tối đa đoạn lặp Trong [51] N Manning, C Shethi, K.S.Wu, 1997 sử dụng phép chỉnh thẳng cột sau duyệt qua cột phát đoạn lặp có chung tập trình tự sinh học Tiếp cận theo hướng chỉnh thẳng cột qui hoạch đông khơng thích hợp với tập trình tự có chiều dài lớn (thực tế Web Site sinh học Internet có trình tự có chiều dài 10.000 nucleotide) Trong [19] Aristidis Floratos, 1999 phát triển thuật giải TEIRESIAS để tìm đoạn lặp có dạng với L < W Các chuỗi đoạn lặp có chiều dài W chứa L ký tự khác ký tự bao quát Thuật giải có hai giai đoạn: giai đoạn tìm đoạn lặp sở có chiều dài L, sau giai đoạn kết hợp chuỗi sở để tìm đoạn lặp có dạng Theo thử nghiệm Brovia Brejova [23], thuật giải TEIRESIAS ẩn chứa nguy bùng nổ tổ hợp đoạn lặp tiềm giai đoạn kết hợp mẫu sở Tuy vậy, thuật giải TEIRESIAS thiết kế theo tiếp cận khai thác đữ liệu nên làm việc với tập liệu lớn trình tự sinh học Chương nghiên cứu tổng hợp kết có phát triển mơ hình tốn khai phá đoạn lặp tập trình tự sinh học nhằm suất Một thuật giải nâng cao hiệu khơng tăng cường có tên AprioriBioSequence [5|,[6] xây dung dựa nguyên lý Apriori giới thiệu chương l1 Các đoạn lặp phổ biến phát bước, từ đoạn lặp có chiều dài 1, k theo nguyên lý bước tăng dần Thuật giải tự động tìm tất đoạn lặp phổ biến mà không cần định trước tham số chiểu dài tối đa Do thuật giải AprioriBioSequence xây dựng dựa nguyên lý Apriori để tìm tập phổ biến CSDL lớn, nên thuật giải có khả làm việc với tập liệu lớn Đối với CSDL trình tự sinh học có nhiều biến động, thuật giải tăng cường hậu tố đề xuất phân tích khả nang ting dung [11] Bên cạnh đó, chương phát triển thuật giải nhằm trình tự sinh học Trong [38], Janson, 1997 phân lớp liệu tổng kết kỹ thuật phân lớp trình tự sinh hoc theo ba nhóm sau đây: ° Tạo mẫu liên ứng: tiếp cận dựa trình tự thuộc lớp C tạo chuỗi liên ứng cho trình tự lớp C Sau dùng trình tự liên ứng để đặc trưng cho trình tự lớp C tạo phân lớp cho lớp C ° Dùng mạng nơron thuật giải học: tiếp cận dùng tập trình tự lớp mạng nơron thuật giải học để rút luật phân lớp ° Đối sánh trình tự: tiếp cận yêu cầu chỉnh thẳng cột trình tự sau rút trích vùng chung 10 Luận án phát triển thuật giải tìm tập đoạn lặp phổ biến dựa thuật giải tìm luật kết hợp tìm tổ hợp đoạn lặp phổ biến xuất theo trật tự định (tổ hợp thứ tự) từ đồ thị đồng đoạn lặp phổ biến làm tiêu chuẩn phân lớp họ trình tự sinh học Một phần kết chương công bố {[Š],[6],[11],[12] ứng dung để tài khoa học [81] Chương 3: Gom cụm đữ liệu Gom cụm liệu (data clustering) toán kinh điển thống kê Với xuất CSDL lớn nhu cầu xử lý lượng thông tin khổng lồ Internet dẫn đến việc phát triển nhiều thuật giải hiệu phục vụ gom cụm phẳng tạo kiến trúc phân cấp cụm đặc biệt thuật giải tăng cường để gom cụm cho đối tượng CSDL có nhiều biến động Mạng Kohonen T Kohonen phát triển vào [41],[42],[66] Mang Kohonen hay gọi SOM mạng nơron năm 1980 học theo lối tự tổ chức nhằm tạo ánh xạ từ tập mẫu học có số chiều lớn thành cụm có số chiéu thấp Tuy nhiên thuật giải huấn luyện mạng Kohonen không hiệu làm việc với khối liệu lớn số lượng số chiều Chương nghiên cứu cải tiến thuật giải huấn luyện mạng Kohonen nhằm ứng dụng mạng Kohonen vào tốn gom cụm tóm tắt báo cáo khoa học Một số heuristic đề xuất nhằm nâng cao hiệu suất thuật giải huấn luyện mạng Kohonen dựa vào đặc tính vùng lân cận nơron chiến thắng số lượng bit thành phần vector nhập duới dạng nhị phân Kế nghiên cứu nhằm rút trích đặc trưng cho cụm, truy vấn tương tự đối tượng qua cụm lớp Kohonen Bên cạnh chương phát triển thuật giải tạo kiến trúc phân cấp cụm nhằm khảo sát tiến trình tiến hố sinh vật [4],[62| Các thuật giải để „ 11 xuất làm việc theo lối tăng cường cho phép cập nhật kiến trúc phân cấp cụm bổ sung thêm liệu Cấu trúc M-Tree Macro Pattela để xuất vào năm 1998 [47] ứng dụng vào việc gom cụm liệu đa phương tiện Chương nghiên cứu cải tiến cấu trúc M-Tree cho liệu trình tự sinh học ADN {14] Ưu điểm cấu trúc M-Tree có thé làm việc với khối liệu lớn dựa nguyên tắc tạo mục CSDL lớn Dựa cấu trúc M-Tree, luận án phát triển thao tác tìm kiếm, truy vấn tương tự, tìm vùng bảo tổn gen qua hệ tiến hóa từ liệu trình tự sinh học Đây thao tác thường nhà sinh học sử dụng để phân tích liệu sinh học Một phần kết chương công bố [1].{2], (4],[14],[15] va ứng dụng dé tài nghiên cứu khoa hoc [81],[83] Chương 4: Một số ứng dụng Chương trình bày số ứng dụng khai thác liệu như: e Tim luật kết hợp luật phân lớp CSDL nhân TP Hồ Chí Minh [82] e Tìm đoạn lặp phổ biến tập liệu trinh tự sinh học ADN trực khuẩn E-Coli [81] e Tạo kiến trúc phân cấp liệu trình tự ADN khảo sát trình tự tương đồng khuẩn xoắn Onchocerca [14] « _ Tìm dãy từ phổ biến nhằm đặc trưng cho khối ngữ liệu văn ban [8] e _ Gom cụm tóm tắt báo cáo khoa học [83] Trong phần tìm luật kết hợp luật phân lớp CSDL nhân Tp Hồ Chí Minh, luận án trình bày kết tìm kiếm luật kết hựp giá trị thuộc tính, luật phân lớp CSDL nhân Nhờ luật này, nhà phân tích số liệu điều tra dân số tìm kiếm cdc thong tin hữu ích hỗ trợ cơng tác lập kế hoạch, dự báo tình hình phát triển dân số TP Hồ Chí Minh [82] Trong phần tìm đoạn lặp phổ biến, luật phân lớp tạo kiến trúc phân cấp cụm để khảo sát q trình tiến hố sinh vật, luận án tập trung nghiên cứu hai tập liệu trình tự sinh học ADN trực khuẩn E-Coli Promoter vi khuẩn Onchocerca gây bệnh mắt bao gồm việc tìm kiếm đoạn lặp phổ biến tập trinh tự sinh học, luật phân lớp trình tự ADN Promoter , tập tổ hợp đoạn lặp phổ biến E-Coli tập trình tự sinh học, tổ hợp thứ tự đoạn lặp phổ biến hỗ trợ phân lớp trình tự, kiến trúc phân cấp liệu trình tự sinh học khuẩn xoắn Onchocerca, phát vùng báo tồn gen qua hệ tiến hoá khuẩn xoắn Onchocerca, truy vấn trình tự tương đồng [14], [81] Trong phần tìm dãy từ phổ biến gom cụm liệu văn bản, luận ấn trình bày tiến trình rút trích đặc trưng văn dựa dãy từ phổ biến đồng văn bản, gom cụm văn có sử dụng đồ thị đồng dãy từ phổ biến khai thác từ khối ngữ liệu thuộc lĩnh vực xác định, truy vấn tương tự văn qua lớp Kohonen Một phần kết chương công bố (3],(8],[12],{14],[15] va tng dung cdc để tài khoa hoc (81 ],[82],[83] 0.4 CAC DONG GOP CUA LUAN AN e _ Nghiên cứu đề xuất sử dụng tập phổ biến luật kết hợp nhằm xây dựng luật nhân quả, luật phân lớp đối tượng CSDL, luật đặc trưng luật phân lớp trình tự sinh học thông qua đoạn lặp phổ biến, vector đặc trưng văn thông qua dãy từ phổ biến tổ hợp đồng dãy từ phổ biến 12 e Nghiên cứu tương đồng đối tượng liệu thông qua khoảng cách, khảo sát tương tự ngữ nghĩa từ thông qua Wordnet tổ hợp đông dãy từ phổ biến nhằm điều chỉnh vector đặc trưng toán gom cụm liệu truy vấn đối tượng tương đồng e Nghiên cứu để xuất ý tưởng bit hóa CSDL nhớ máy tính thơng qua ma trận ngữ cảnh khai thác liệu vector biểu diễn tập mặt hàng, vận dụng tính chất bao đóng dàn khái niệm để xây dựng thuật giải hiệu qủa độ phức tạp tính tốn thời gian truy cập CSDL đĩa, vận dụng tính chất vector đặc trưng văn để nâng cao hiệu suất huấn luyện mạng Kohonen Mở rộng ngữ nghĩa tập phổ biến luật kết hợp theo tiếp cận lý thuyết tập mờ, hệ số phụ thuộc thuộc tính lý thuyết tập thô dựa tập phổ biến luật kết hợp e _ Phát triển thuật giải hiệu để tìm tập đặc trưng phố biến CSDL, tập trình tự sinh học, khối ngữ liệu văn Nâng cao hiệu suất thuật giải huấn luyện mạng Kohonen Cải tiến cấu trúc M-Tree để tạo kiến trúc phân cấp cụm liệu trình tự sinh học e_ Triển khai số ứng dụng dựa mô hình thuật giải phát triển nhằm khẳng định tính đa dạng phong phú thuật giải tìm luật kết hợp luật phân lớp CSDL nhân Tp Hồ Chí Minh, tìm đoạn lặp phổ biến tổ hợp đoạn lặp phổ biến nhằm đặc trưng phân lớp trình tự sinh học, tạo kiến trúc phân cấp liệu trình tự sinh học, tìm vùng bảo tổn gen qua hệ tiến hóa khuẩn Onchocerca, tìm dãy từ phổ biến khối ngữ liệu văn gom cụm liệu :óm tắt báo cáo khoa học, truy vấn tương tự văn ... cao hiệu suất thuật giải tìm kiếm Luận án tập trung nghiên cứu liệu thứ hai vào dạng khai thác luận án hướng gọi tắt khai thác liệu Khai thác liệu có tốn sau [6 I],(67],[76] a) Khai thác tập phổ... sử dụng để phân tích liệu sinh học Một phần kết chương công bố [1].{2], (4],[14],[15] va ứng dụng dé tài nghiên cứu khoa hoc [81],[83] Chương 4: Một số ứng dụng Chương trình bày số ứng dụng khai. .. hiệu khai thác liệu bổ sung thêm liệu, thuật giải tăng cường xét lại toàn tập liệu gốc mà xét tập liệu vừa bổ sung kết trước để điều chỉnh kết có Bên cạnh việc phát triển thuật giải, luận án triển

Ngày đăng: 17/04/2013, 14:05

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan