Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,8 MB
Nội dung
MỤC LỤC Trang Trang phụ bìa LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MụC Từ VIếT TắT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1 Lý chọn đề tài Lịch sử nghiên cứu Mục đích, đối tượng phạm vi nghiên cứu Tóm tắt luận điểm tác giả Phương pháp nghiên cứu CHƯƠNG 1.TổNG QUAN KHAI PHA Dữ LIệU, PHAN LớP Dữ LIệU 1.1 Khai phá liệu 1.1.1 Khái niệm 1.1.2 Quá trình phát tri thức 1.1.3 Kiến trúc hệ thống khai phá liệu 1.2 Các chức khai phá liệu 1.3 Trích chọn đặc trưng 1.4 Nhu cầu giảm số chiều liệu 1.5 Các kỹ thuật giảm số chiều liệu 10 1.5.1 Phân tích giá trị đơn 10 1.5.2 Kỹ thuật tạo mục tự động 10 iii 1.5.3 Phân tích thành phần độc lập 11 1.5.4 Bản đồ tự tổ chức 11 1.5.5 Phân tích khác biệt tuyến tính 11 1.5.6 Phân tích khác biệt tuyến tính có sử dụng hàm nhân 12 1.6 Kêt luận chương 12 CHƯƠNG KỸ THUẬT PHÂN TÍCH SỰ KHÁC BIỆT TUYẾN TÍNH DỰA TRÊN HÀM NHÂN 24 2.1 Phân tích khác biệt tuyến tính 24 2.1.1 Giới thiệu phân tích khác biệt tuyến tính 24 2.1.2 Phương pháp sở toán học 25 2.1.3 Phương sai Error! Bookmark not defined 2.1.4 Ma trận hiệp phương sai 27 2.1.5 Hiệp phương sai 26 2.2 Thuật toán phân lớp liệu sử dụng phân tích khác biệt tuyến tính 27 2.3 Giới thiệu hàm nhân số hàm nhân phổ biến 35 2.4 Điều kiện hàm thông thường trở thành hàm nhân 36 2.5 Xây dựng hàm nhân 37 2.6 Tóm tắt ví dụ 40 2.7 Phân tích khác biệt tuyến tính dựa hàm nhân 41 2.7.1 Giới thiệu phân tích khác biệt tuyến tính dựa hàm nhân 41 2.7.2 Các bước thực tốn Phân tích khác biệt tuyến tính có sử dụng hàm nhân 42 2.7 Phương pháp sở toán học Phân tích khác biệt tuyến tính có sử dụng hàm nhân 43 2.7.4 Thuật toán phân lớp liệu 45 2.8 Một số toán phân lớp liệu Error! Bookmark not defined iv 2.8.1 Giới thiệu Error! Bookmark not defined 2.8.2 Phương pháp máy học véc tơ hỗ trợ phân lớp liệu Error! Bookmark not defined 2.9 So sánh phân tích khác biệt tuyến tính với phân tích khác biệt tuyến tính có sử dụng hàm nhân 47 2.9.1 Mục đích so sánh 47 2.9.2 So sánh 47 2.10 Minh họa phân tích khác biệt tuyến tính với phân tích khác biệt tuyến tính có sử dụng hàm nhân 48 2.10.1 Minh họa phân tích khác biệt tuyến tính 48 2.10.2 Minh họa phân tích khác biệt tuyến tính có sử dụng hàm nhân 51 2.11 Kết luận chương 53 CHƯƠNG CÀI ĐặT THựC NGHIệM VÀ KếT QUả 54 3.1 Thực nhiệm 54 3.1.1 Ngơn ngữ lập trình 54 3.1.1.1 Đặc điểm ngôn ngữ 54 3.1.1.2 Đặc điểm C# 3.0 55 3.1.1.3 NET Framework 55 3.1.2 Bộ liệu thực nghiệm 56 3.1.3 Thuật toán Error! Bookmark not defined 3.1.4 Chương trình thực nghiệm 59 3.1.5 Kết luận chương 61 3.1.6 Kết luận thực nghiệm 61 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO v DANH MụC Từ VIếT TắT Từ viết tắt Tiếng Anh Tiếng Việt LDA Linear Discriminant Analysis Phân tích khác biệt tuyến tính KLDA KERNEL Linear Discriminant Analysis Phân tích sựsự khác biệt tuyến tính có sử dụng hàm nhân Support vecto machine Máy véc tơ hỗ trợ FE Feature Extraction Trích chọn đặc trưng FS Feature Selection Lựa chọn đặc trưng TEC Total error of classification Phân lớp để tối thiểu lỗi DM Data Mining Khai phá liệu PCA Principal Component Analysis Phân tích thành phần LSI Latent Semantic Indexing Phương pháp tạo mục tự động SVD Singular Value Decomposition Phân tích giá trị đơn SOM Self Organizing Map Bản đồ tự tổ chức CSDL Data base Cơ sở liệu SVM ICA KPCA Independent Component Analysis Phân tích thành phần độc lập Kernel Principal Component Analysis vi Phân tích thành phần có sử dụng hàm nhân DANH MỤC CÁC BẢNG Bảng 2.1: Danh sách đặc trưng sản phẩm 29 Bảng 2.2: Bảng tính phân lớp phân tích khác biệt tuyến tính 33 Bảng 2.3: Bảng liệu minh hoạ phân tích khác biệt tuyến tính 48 Bảng 2.4: Bảng liệu minh hoạ phân tích khác biệt tuyến tính có sử dụng hàm nhân 51 Bảng 3.1: Bảng liệu Lindsay 56 Bảng 3.2: Bảng Linear 56 Bảng 3.3: Bảng Wikipedia 57 vii DANH MỤC CÁC HÌNH Hình 1.1: Q trình phát tri thức Hình 1.2: Kiến trúc hệt hống khai thác liệu Hình 2.1: Biểu đồ đặc trưng sản phẩm 30 Hình 2.2: Biểu đồ đặc trưng sau tính giá trị hàm Discriminant 33 Hình 2.3: Biểu đồ phân lớp sản phẩm 34 Hình 2.4: Đồ thị biểu diễn Query Point 35 Hình 2.5: Mẫu huấn luyện từ hai lớp 38 Hình 2.6: Một ví dụ phân loại không gian chiều 39 Hình 2.7: Ánh xạ liệu sang khơng gian có số chiều cao cho ta phân loại tốt 41 Hình 2.8: Mơ hình ba chiều phân lớp liệu 15 Hình 2.9: Mơ hình phân lớp biên rộng hàm kernel 16 Hình 2.10: Mơ hình phân lớp đường thẳng tuyến tính 17 Hình 2.11: Ảnh hưởng số biên mềm C ranh giới định 19 Hình 2.12 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính 50 Hình 2.13 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhân Gaussian 50 Hình 2.14 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính 52 Hình 2.15 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhânGaussian với tham số sigma 0.2236 52 Hình 2.16 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhân Gaussian với tham số sigma 5.2236 53 Hình 3.1 Giao diện hình 59 Hình 3.2 Màn hình sau chọn liệu huấn luyện để phân lớp 59 Hình 3.3 Đặc trưng liệu đầu vào 60 Hình 3.4 Dữ liệu sau phân lớp 60 viii MỞ ĐẦU Lý chọn đề tài Trong lĩnh vực khai phá liệu nói chung phân lớp liệu nói riêng ta thấy vấn đề xử lý liệu đóng vai trò quan trọng việc giải toán đặt Lượng liệu mà thu thập phục vụ cho toán đặt phong phú đa dạng từ nhiều nguồn thông tin khác nhờ phát triển mạnh mẽ công nghệ hầu hết kỹ thuật phân lớp liệu cho kết tối ưu số kiểu liệu cụ thể Lúc kỹ thuật trích chọn đặc tính đóng vai trò quan trọng việc tiền xử lý liệu Kỹ thuật trích chọn đặc tính giúp giảm kích cỡ khơng gian liệu, loại bỏ đặc tính dư thừa, đặc tính gây nhiễu Nhờ chất lượng liệu tốt hơn, hiệu khai phá liệu cải thiện rõ rệt Một kỹ thuật trích chọn hiệu việc làm giảm kích cỡ khơng gian liệu, loại bỏ đặc tính dư thừa, đặc tính gây nhiễu liệu đầu vào kỹ thuật Phân tích khác biệt tuyến tính (Linear Discriminant Analysis - LDA) LDA kỹ thuật tìm tập thuộc tính tốt để mơ tả đối tượng Vấn đề gọi trích chọn đặc trưng (Feature Extraction) hay lựa chọn đặc trưng (Feature Selection) Mục đích từ tập thuộc tính mơ tả đối tượng ban đầu (thường lớn hàng trăm, nghìn thuộc tính ) tìm tập thuộc tính tốt để biểu diễn cho đối tượng nhằm làm giảm số chiều biểu diễn đối tượng từ làm giảm chi phí tính tốn mơ hình khai phá liệu chất lượng mơ hình khơng giảm đồng thời tìm mơ hình tốt để phân lớp liệu Kỹ thuật phân tích khác biệt tuyến tính dựa hàm nhân đưa giúp ta chọn đặc tính tốt mang lại hiệu cao cho toán phân lớp liệu Lịch sử nghiên cứu Phân tích khác biệt tuyến tính dạng tổng quát phân tích phương sai ANOVA phát minh bới Ronald Aylmer Fisher(17/2 /1890 – 29/7/1962) sở phân tích kho liệu nghiên cứu trồng Viện nghiên cứuRothamsted 14 năm từ năm 1919 Kỹ thuật sử dụng rộng rãi phương pháp phân tích giảm số chiều liệu Mục đích, đối tượng phạm vi nghiên cứu Khảo sát, tìm hiểu trình bày Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân - Kỹ Thuật phân tích khác biệt tuyến tính - Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân - Các hàm nhân thông dụng - So sánh Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhânvới phân tích khác biệt tuyến tính - Một số ví dụ minh họa Tóm tắt luận điểm tácgiả Phân tích khác biệt tuyến tính có sử dụng hàm nhân kỹ thuật bật dựa phương pháp phân tích thành phần kết hợp việc xây dựng, lựa chọn hàm nhân phù hợp Đây kỹ thuật có tính hiệu xác cao Các tốn phi tuyến tính có độ phức tạp cao xử lý lĩnh vực khai phá liệu Luận văn đề cập đến vấn đề sau: - Nghiên cứu phương pháp giảm bớt số chiều liệu - Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tính - Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tính có sử dụng hàm nhân, hàm nhân thông dụng - So sánh Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân với phân tích khác biệt tuyến tính + Một số ví dụ minh họa + Thực phương pháp phân lớp liệu không gian liệu: Dữ liệu gốc, liệu giảm số chiều Kỹ thuật phân tích khác biệt tuyến tính, liệu giảm số chiều kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân Phương pháp nghiên cứu -Khảo sát, tìm hiểu thu thập tài liệu Kỹ thuật phân tích khác biệt tuyến tính, liệu giảm số chiều kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân đề tài khoa học nghiên cứu công bố trước Nghiên cứu, tìm hiểu tài liệu liên quan sách, báo, tạp chí khoa học, giảng, giáo trình nhà trường Đọc tìm hiểu nguồn tài liệu internet Thảo luận, trao đổi với giáo viên hướng dẫn Tham gia hội thảo khoa học, Seminar thuyết trình đề tài nghiên cứu Thực nghiệm thường xuyên máy tính Bố cục luận văn Bố cục luận văn bao gồm: Lời cam đoan Lời cảm ơn Mục lục Danh mục ký hiệu, chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Lý chọn đề tài Lịch sử nghiên cứu Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu Các luận điểm tác giả Phương pháp nghiên cứu Chương 1: Tổng quan khai phá liệu, phân lớp liệu Chương 2: Kỹ thuật Phân tích khác biệt tuyến tính dựa hàm nhân ứng dụng số toán phân lớp liệu Chương 3: Cài đặt chương trình thử nghiệm kết CHƯƠNG TổNG QUAN KHAI PHÁ Dữ LIệU,PHÂN LớP Dữ LIệU 1.1.Khai phá liệu 1.1.1.Khái niệm Trong vài thập kỷ nay, khả tạo sinh lưu trữ liệu ngườiđã tăng lên vơ nhanh chóng Lượng liệu khổng lồ lưu trữđã dẫn đến mộtđòi hỏi cấp bách kỹ thuật mới, công cụ tự động trợ giúp người cách thông minh việc chuyển đổi lượng lớn liệu thành thơng tin hữch tri thức Khai phá liệu việc trích rút tri thức cách tự động hiệu từ khối lượng liệu lớn Tri thứcđó thườngở dạng mẫucó tính chất không tầm thường, không tường minh (ẩn), chưa biết đến có tiềm mang lạiích lợi Có số nhà nghiên cứu gọi khai phá liệu phát tri thức CSDL 1.1.2 Quátrìnhphát tri thức Hình 1.1:Quátrìnhphát tri thức Hình 2.8 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính - Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân thể trực quan hóa liệu khơng gian chiều Dữ liệu phân cụm Hình 2.9 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhân Gaussian 50 Bằng ngơn ngữ lập trình C#, kết trực quan cho ta thấy phân cụm liệu sử dụng phân tích thành phần có sử dụng hàm nhân thể rõ nét độ biến thiên liệu có tốt nhiều so với sử dụng kỹ thuật phân tích thành phần Dữ liệu huấn luyện sau phân tích thành phần có sử dụng hàm nhân Gaussian có số điểm liệu trùng ít, phân bố liệu, đa dạng liệu mát thông tin tốt hẳn so với phân tích thành phần 2.9.2 Minh họa phân tích khác biệt tuyến tính có sử dụng hàm nhân Tập liệu huấn luyện gốc gồm 11 điểm liệu phân lớp biểu diễn trực quan hóa không gian chiều Dữ liệu biểu diễn dạng bảng sau: Bảng 2.4: Bảng liệu minh hoạ phân tích khác biệt tuyến tính có sử dụng hàm nhân X Y 4 3 4 10 10 Chúng ta dùng chung liệu cho phương pháp Bảng liệu đưa cách khác thể liệu - Kỹ thuật phân tíchsự khác biệt tuyến tính thể trực quan hóa liệu khơng gian chiều Dữ liệu phân cụm: 51 Hình 2.10.Dữ liệu trực quan hóa phân tích khác biệt tuyến tính Kỹ thuật phân tích sựkhác biệttuyến tính có sử dụng hàm nhân thể trực quan hóa liệu khơng gian chiều.Dữ liệu phân cụm: Hình 2.11 Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhânGaussianvới tham số sigma 0.2236 52 Hình 2.12.Dữ liệu trực quan hóa phân tích khác biệt tuyến tính có sử dụng hàm nhân Gaussian với tham số sigma 5.2236 Kết luận:Dữ liệu huấn luyện sau phân tích khác biệt tuyến tính có sử dụng hàm nhân có sốđiểm liệu trùng ít, phân bố liệu, sựđa dạng liệu tốt hết so với phân tích khác biệt tuyến tính Dữ liệu huấn luyện sau phân tích khác biệt tuyến tính có sử dụng hàm nhân Gaussion với tham số sigma khác cho ta kết khác biệt, việc lựa chọn tham số cho hàm nhân đóng vai trò quan trọng việc xây dựng hàm nhân, ảnh hưởng lớn đến trình khai phá liệu 2.10.Kết luận chương Chương luận văn tập đề cập vấn đề phương sai, ma trận hiệp phương sai, véctơ riêng, giá trị riêng, số hàm nhân thôngdụng, điều kiện hàm thông thường trở thành hàm nhân, xây dựng hàm nhân, , trình bày chi tiết kỹ thuật phân tích khác biệt tuyến tính, phân tích khác biệt tuyến tính có sử dụng hàm nhân Đề cập đến vấn đề so sánh hai kỹ thuật phân tích khác biệt tuyến tính phân tích khác biệt tuyến tính có sử dụng hàm nhân để làm rõ hiệu việc kết hợp sử dụng hàm nhân phương pháp phân tích khác biệt tuyến tính 53 CHƯƠNG CÀI ĐặT THựC NGHIệM VÀ KếT QUả 3.1 Thực nhiệm 3.1.1 Ngơn ngữ lập trình Ngơn ngữ lập trìnhC# ngơn ngữ lập trình hướng đối tượng phát triển Microsoft, phần khởi đầu cho kế hoạch NET họ Tên ngôn ngữ bao gồm ký tự thăng theo Microsoft theo ECMA C#, bao gồm dấu số thường Microsoft phát triển C# dựa C++ Java C# miêu tả ngôn ngữ có cân C++, Visual Basic, Delphi Java C# thiết kế chủ yếu Anders Hejlsberg kiến trúc sư phần mềm tiếng với sản phẩm Turbo Pascal, Delphi, J++, WFC 3.1.1.1 Đặc điểm ngơn ngữ C#, theo hướng đó, ngơn ngữ lập trình phản ánh trực tiếp đến.NET Framework mà tất chương trình.NET chạy, phụ thuộc mạnh mẽ vào Framework Mọi liệu sở đối tượng, cấp phát hủy bỏ trình dọn rác Garbage-Collector (GC), nhiều kiểu trừu tượng khác chẳng hạn class, delegate, interface, exception, v.v, phản ánh rõ ràng đặc trưng của.NET runtime So sánh với C C++, ngôn ngữ bị giới hạn nâng cao vài đặc điểm đó, khơng bao gồm giới hạn sau đây: • Các trỏ sử dụng chế độ khơng an tồn Hầu hết đối tượng tham chiếu an toàn, phép tính kiểm tra tràn đệm Các trỏ sử dụng để gọi loại kiểu giá trị; đối tượng thuộc thu rác (garbage-collector) gọi cách tham chiếu • Các đối tượng khơng thể giải phóng tường minh • Chỉ có đơn kế thừa, cài đặt nhiều interface trừu tượng (abstract interfaces) Chức làm đơn giản hóa thực thi thời gian thực thi • C# an-tồn-kiểu (typesafe) C++ 54 • Cú pháp khai báo mảng khác nhau("int[] a = new int[5]" thay "int a[5]") • Kiểu thứ tự thay tên miền không gian (namespace) • C# khơng có tiêu • Có thêm Properties, phương pháp gọi Properties để truy cập liệu • Có reflection 3.1.1.2 Đặc điểm mớiC# 3.0 Trong C# 3.0, có vài bổ sung sau: • Các từ khóa "select, from, where" cho phép truy vấn từ tập, từ SQL, v.v (hay gọi LINQ - viết tắt Language INtergrated Query) • Khởi tạo đối tượng: Customer c = new Customer(); c.Name="James"; trở thành Customer c = new Customer { Name="James" }; • Các biểu thức lambda: listOfFoo.Where(delegate(Foo x) { return x.size>10;}) trở thành listOfFoo.Where(x => x.size>10); • var x = "hello"; hốn đổi với string x = "hello"; • Các phương thức mở rộng 3.1.1.3 NET Framework NET Framework thư viện class sử dụng với ngôn ngữ.NET để thực thi việc từ thao tác chuỗi phát sinh trang web động (ASP.NET), phân tích XML reflection NET Framework tổ chức thành tập hợp namespace, nhóm class có chức lại với nhau, ví dụ System.Drawing cho đồ hoạ, System.Collections cho cấu trúc liệu System.Windows.Forms cho hệ thống Windows Forms Cấp cao cung cấp khái niệm assembly Một assembly file nhiều file liên kết với (thông qua file al.exe), chứa đựng nhiều namespace object Các chương trình cần lớp để thực thi chức đặc biệt tham chiếu assembly chẳng hạn System.Drawing.dll System.Windows.Forms.dll core library (lưu file mscorlib.dll) 55 3.1.2 Bộ liệu thực nghiệm Bộ liệu file excel bao gồm nhiều sheet: Lindsay Bảng 3.1: Bảng liệu Lindsay x Y G 2.5 2.4 0.5 0.7 2.2 2.9 1.9 2.2 3.1 2.3 2.7 1.6 1 1.1 1.5 1.6 1.1 0.9 Linear Bảng 3.2: Bảng Linear Gaussian x1 Gaussian x G -0.196890721 -0.393781443 1.484984418 2.969968837 0.434355847 0.868711695 0.437877604 0.875755209 -1.163395807 -2.326791613 0.790095332 1.580190665 0.044635525 0.08927105 0.344716132 0.689432263 -0.687167179 -1.374334357 56 0.172287253 0.344574505 -0.178420485 -0.35684097 0.357863793 0.715727587 1.421852954 2.843705908 0.787981171 1.575962342 1.388856035 2.777712071 2.142093769 4.284187539 -0.231942789 -0.463885577 1.264238551 2.528477103 1.928003158 3.856006315 -0.178857473 -0.357714947 -1.106555502 -2.213111005 0.499633481 0.999266961 Wikipedia Bảng 3.3: Bảng Wikipedia X Y G -1.18 1.17 0.72 1.2 0.09 1.08 -0.25 0.38 -0.74 -0.59 1.11 -0.96 -1.25 -0.9 1.26 -1.4 0.27 0.16 0.83 1.25 0.42 -0.75 -0.69 -1.33 57 0.53 -0.18 1.47 0.98 1.3 -0.53 0.77 1.37 0.18 0.4 1.31 0.25 0.18 1.06 0.8 -0.69 0.21 0.6 1.44 -0.59 -1.34 0.97 0.93 0.58 -0.32 1.29 -1.05 -0.03 -0.59 -0.06 0.67 -0.2 0.42 0.92 0.31 0.29 Và sheet:Curve, Scholkopf, Yin Yang, Cigars, Gutierrez Osuna, Yin Yang 58 3.1.4 Chương trình thực nghiệm Hình 3.1.Giao diện hình Hình 3.2.Màn hình sau chọn liệu huấn luyện để phân lớp 59 Hình 3.3.Đặc trưng liệu đầu vào Hình 3.4.Dữ liệu sau phân lớp 60 3.1.5 Kết luận chương Chương luận văn giới thiệu ngơn ngữ lập trình C#,bộ liệu thực nghiệm,thuật tốn sử dụng, chương trình thực nghiệm, giao diện hình 3.1.6 Kết luận thực nghiệm Bằng ngơn ngữ lập trình C#, kết thực nghiệm cho ta thấy phân lớp liệu sử dụng kỹ thuật phân tích khác biệt tuyến tính (LDA) dựa hàm nhân (KLDA)thể rõ nét độ biến thiên liệu có tốt nhiều so với sử dụng kỹ thuật phân tích khác biệt tuyến tính Dữ liệu huấn luyện sau phân tích khác biệt tuyến tínhcó sử dụng hàm nhân có số điểm liệu trùng ít, phân bố liệu, đa dạng liệu mát thơng tin tốt so với phân tích khác biệt tuyến tính Dữ liệu huấn luyện sau phân tích khác biệt tuyến tínhcó sử dụng hàm nhân Gaussian với tham số (sigma) khác cho ta kết khác biệt, việc lựa chọn tham số cho hàm nhân đóng vai trò quan trọng việc xây dựng hàm nhân, ảnh hưởng rấtnhiều tới kết khai phá liệu 61 KẾT LUẬN Phân tích khác biệt tuyến tính dựa hàm nhân với nhiều tính vượt trội hiệu quả, độ xác cao, khả xử lý tốn phi tuyến tính phức tạp lựa chọn tối ưu hàng đầu việc giải toán khai phá liệu Luận văn giới thiệu trình bày vấn đề Kỹ thuật Phân tích khác biệt tuyến tínhcó sử dụng hàm nhân: -Nghiên cứu Kỹ thuật giảm bớt số chiều liệu -Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tính -Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tínhcó sử dụng hàm nhân, hàm nhân phổ biến -So sánh Kỹ thuật Phân tích khác biệt tuyến tínhcó sử dụng hàm nhân so với Kỹ thuật Phân tích khác biệt tuyến tínhnhằm khẳng định hiệu việc kết hợp sử dụng hàm nhân với phân tích khác biệt tuyến tính khai phá liệu HƯớNG PHÁT TRIểN CủA Đề TÀI Phân tích khác biệt tuyến tínhdựa hàm nhân có nhiều ý nghĩa mặt lý thuyết ứng dụng thực tiễn phân tích liệu nói riêng khai phá liệu nói chung, việc thực nghiệm mơ hình lĩnh vực Tin-Sinh học tác giả thực thời gian tới 62 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013),Giáo trình Khai phá liệu, Nxb ĐHQGHN, Hà Nội [2] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT tháng năm 2006 Tài liệu tiếng Anh: [3] Ashok N Srivastava, Mehran Sahami: Classification, Clustering, and Applications.2009 [4] B Scholkopf, A Smola, and K Muller Kernel Principal component Analysis In B Scholkopf, C Burges, and A Smola, editors, Advances in Kernel Methods - Support Véc tơ Learning, MIT Press, Cambridge, MA, 1999, pages 327 - 352 [5] B Scholkopf, A Smola, and K Muller, vol 10, 1998, Nonlinear Component Analysis as a Kernel Eigenvalue Problem, Neural Computation, pages 1299-1319 [6] B Scholkopf, A Smola [7] B Scholkopf, S Mika, C Burges, P Knirsch, K Muller, G Ratsch, and A Smola Input space versus feature space in kernel-based methods IEEE Transactions on Neural Networks, 1999, pages 1000-1017 [8] C Park and H Park, “Fingerprint Classification Using Nonlinear Discriminant Analysis,” Technical Report, TR 03-034, University of Minnesota, USA, Sep 2003 [9] Ian H Witten Eibe Frank Mark A Hall :Data Mining Practical Machine Learning Tools and Techniques Third Edition, 2011 [10] S Mika, B Scholkopf, A Smola, K Muller, R Scholz, G Ratsch, Kernel PCA and de-noising in feature spaces In: Advances in Neural Information Processing Systems 11 MIT Press, 1999, pages 536-542 [11] S Wold, Cross validatory estimation of the number of components in factor and principal component analysis, Technometrics,1987 pages 397-406 [12] S Taylor and Cristianini: Kernel Methods for Pattern Analysis Cambridge University Press, 2004 [13] P.N Belhumeour, J.P Hespanha, and D.J Kriegman, “Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection,” IEEE Trans Pattern Analysis and Machine Intell., vol.19, pp 711–720, 1997 [14] Zhu, Mu, Kernels and Ensembles: Perspectives on Statistical Learning, The American Statistician May 1, 2008, pages 97-109 Tài liệu Internet [15]https://en.wikipedia.org/wiki/Singular_value_decomposition ... - Kỹ Thuật phân tích khác biệt tuyến tính - Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm nhân - Các hàm nhân thơng dụng - So sánh Kỹ thuật phân tích khác biệt tuyến tính có sử dụng hàm. .. 2.7 Phân tích khác biệt tuyến tính dựa hàm nhân 41 2.7.1 Giới thiệu phân tích khác biệt tuyến tính dựa hàm nhân 41 2.7.2 Các bước thực toán Phân tích khác biệt tuyến tính có sử dụng hàm nhân. .. chiều liệu - Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tính - Nghiên cứu Kỹ thuật Phân tích khác biệt tuyến tính có sử dụng hàm nhân, hàm nhân thông dụng - So sánh Kỹ thuật phân tích khác biệt