1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

62 1,2K 5
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,09 MB

Nội dung

Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Trang 1

Lời cảm ơn

“ðể hoàn thành khóa luận này, tôi xin gửi lời cảm ơn chân thành tới quý thầy cô trong trường ðại học Công Nghệ - ðHQGHN ñã tận tình chỉ bảo tôi trong suốt bốn năm học ñại học Tôi cũng xin cảm ơn sự hướng dẫn nhiệt tình của thầy Nguyễn Hà Nam, cùng sự giúp ñỡ của anh ðặng Tất ðạt – nghiên cứu sinh khoa Toán Tin trường ðại học

Trang 2

Tĩm tắt khĩa luận

Trong khĩa luận này tơi áp dụng thuật tốn di truyền (Genetic Algorithm) để bước đầu cải tiến hiệu quả phân lớp của phương pháp minimax probability machine (MPM) Phần đầu tơi xin giới thiệu tổng quan về khái niệm khai phá dữ liệu Tiếp đĩ, tơi sẽ trình bày về cơ sở lý thuyết của thuật tốn di truyền và phương pháp phân lớp minimax probability machine Cuối cùng, tơi sẽ mơ tả chi tiết về quá trình xây dựng hệ thống cĩ ứng dụng thuật tốn di truyền trong phân lớp minimax probability machine để chuẩn đốn bệnh ung thư Mơ hình phân lớp mới này sẽ được chạy thử trên một số cơ sở dữ liệu lớn và đưa ra những số liệu thống kê để cĩ thể thấy được hiệu quả của hệ thống so với phương pháp phân lớp chỉ sử dụng MPM

Trang 3

Mục lục

Chương 1: Giới thiệu về khai phá dữ liệu 10

1.1 Khai phá dữ liệu là gì? 10

1.2 Tại sao phải tiến hành khai phá dữ liệu? 10

1.3 Quá trình khai phá dữ liệu 11

1.4 Kiến trúc ựiển hình của một hệ khai phá dữ liệu 13

1.5 Các bài toán khai phá dữ liệu ựiển hình 14

1.6 Các lĩnh vực liên quan ựến khai phá dữ liệu 16

1.7 Các ứng dụng ựiển hình của khai phá dữ liệu 17

1.8 Các thách thức với khai phá dữ liệu 17

1.9 Kết luận 18

Chương 2: Trắch chọn thuộc tắnh phù hợp 19

2.1 Giới thiệu 19

2.2 Mô hình trong bài toán trắch chọn 20

2.2.1 Các mô hình trong trắch chọn 20

2.2.2 đánh giá hai mô hình Filter và Wrapper 22

2.2.2.1 Filter 22

2.2.2.2 Mô hình Wrapper 22

2.3 Một số kỹ thuật xử lý 23

2.3.1 Bộ sinh tập con (Feature Subset Generator) 23

2.3.2 Bộ ựánh giá tập con ựặc trưng (Feature Subset Evaluator) 24

2.3.3 Thuật toán học ựiều khiển (Central Machine learning Algorithm) 25

2.4 Kết luận 25

Chương 3: Genetic Algorithms 27

3.1 Giới thiệu 27

3.2 động lực 27

3.3 Thuật giải di truyền 28

3.3.1 Nội dung thuật toán 28

3.3.2 Thể hiện các giả thuyết 30

3.3.3 Các toán tử di truyền 32

3.3.4 Hàm thắch nghi và sự chọn lọc 34

Chương 4: Minimax Probability Machine 36

Trang 4

4.1 Giới thiệu 36

4.2 Nội dung 36

4.3 Ưu ñiểm và nhược ñiểm của minimax probability machine 37

4.4 Các phiên bản cải tiến của thuật toán minimax probability machine 38

4.4.1 Minimum error minimax probability machine (MEMPM) 38

4.4.2 Biased minimax probability machine (BMPM) 39

Chương 5: Phương pháp ñề nghị 41

Trang 5

Danh sách các hình

Trang 6

Danh sách các bảng

Trang 8

Giới thiệu

Những năm gần đây, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vơ cùng to lớn cho con người Song hành cùng sự phát triển nhanh chĩng của cơng nghệ thơng tin và những ứng dụng của nĩ trong đời sống, kinh tế và xã hội, lượng dữ liệu thu thập ngày càng nhiều theo thời gian, dẫn đến việc xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu cĩ kích thước lớn Trong xã hội hiện đại, thơng tin được coi như sức mạnh và là yếu

tố quyết định thành cơng trong mọi lĩnh vực, do đĩ việc tìm ra thơng tin hữu ích trong khối dữ liệu khổng lồ được xem như mục tiêu hàng đầu của mọi tổ chức và cá nhân Trong khĩa luận này, tơi sẽ ứng dụng kỹ thuật giảm chiều trong bài tốn trích chọn để nhằm cải thiện hiệu quả phân lớp dữ liệu, nền tảng cho hệ thống chuẩn đốn bệnh ung thư Hệ thống này sẽ được huấn luyện với tập dữ liệu về các bệnh nhân cĩ từ trước và khi

cĩ dữ liệu của bệnh nhân mới, hệ thống sẽ tự động đưa ra chuẩn đốn người đĩ cĩ bị bệnh hay khơng? Tơi sử dụng phương pháp phân lớp Minimax Probability Machine (MPM) kết hợp cùng thuật tốn di truyền (Genetic Algorithm) để xây dựng hệ thống chuẩn đốn này Với mục đích làm tăng độ chính xác của quá trình phân lớp dữ liệu và giảm thời gian huấn luyện của bộ phân lớp, tơi sử dụng thuật tốn di truyền để giảm chiều của tập dữ liệu ban đầu nhằm tối ưu tập thuộc tính đầu vào cho bộ phân lớp MPM Kết quả thực nghiệm đã chứng minh rằng phương pháp phân lớp sử dụng thuật tốn di truyền để tối ưu tập thuộc tính cho kết quả tốt hơn phương pháp truyền thống

Nội dung chính của khĩa luận bao gồm sáu chương, với nội dung cụ thể như sau:

Chương 1: Giới thiệu về khai phá dữ liệu Chương này tập trung mơ tả về khai phá dữ liệu (data mining), giới thiệu những bài tốn điển hình trong khai phá dữ liệu cũng như những ứng dụng rộng rãi của lĩnh vực này Cuối cùng là những thách thức đặt ra cho quá trình khai phá dữ liệu

Trang 9

Chương 2: Trích chọn thuộc tính phù hợp Nội dung chính của chương nhừm giúp người ñọc hiểu về khái niệm trích chọn thuộc tính, những mô hình trích chọn ñiển hình

và một số kỹ thuật xử lý trong quá trình trích chọn

Chương 3: Genetic Algorithm Ở chương này, người ñọc sẽ ñược giới thiệu về nội dung

và những bước thực hiện của thuật toán di truyền

Chương 4: Minimax Probability Machine Chương này sẽ mô tả phương pháp phân lớp minimax probability machine Phân tích những mặt mạnh và yếu của phương pháp này

ñể ñề ra những cải tiến nhằm nâng cao hiệu quả phân lớp của minimax probability machine

Chương 5: Phương pháp ñề nghị Chương này sẽ mô tả chi tiết quá trình xây dựng mô hình phân lớp minimax probability machine kết hợp với thuật toán di truyền ðồng thời

mô tả quá trình ñánh giá chất lượng, từ ñó ñưa ra những phân tích kỹ thuật và kết luận về hiệu quả của mô hình

Chương 6: Kết luận Chương này là phần tổng kết khóa luận, ñồng thời nêu ra những mặt còn hạn chế trong phương pháp ñề nghị và những công việc trong tương lai nhằm cải tiến hiệu quả của phương pháp này

Trang 10

Chương 1: Giới thiệu về khai phá dữ liệu

1.1 Khai phá dữ liệu là gì?

Có khá nhiều ñịnh nghĩa về khai phá dữ liệu (Data mining), nhưng ñịnh nghĩa ñơn

giản nhất thì khai phá dữ liệu là việc trích rút thông tin hay tri thức mới và có ích từ

nguồn dữ liệu khổng lồ

Ngoài ra, khai phá dữ liệu còn có thể hiểu là trích rút các thông tin có ích từ những dữ liệu không tường minh, hoặc trích rút lấy những thông tin không biết trước và tiềm tàng trong dữ liệu Cũng có thể hiểu, khai phá dữ liệu là việc phân tích khảo sát một cách tỉ mỉ

số lượng lớn dữ liệu bằng các phương pháp tự ñộng hoặc bán tự ñộng nhằm tìm ra các mẫu có ích

Có thể nhận xét rằng, khái niệm khai phá dữ liệu là khá rộng lớn, nhưng không phải tất cả mọi công việc liên quan ñến dữ liệu ñều ñược coi là khai phá dữ liệu, chẳng hạn như những việc xử lý truy vấn ñơn giản như tra cứu một số ñiện thoại, hay thống kê ra những học sinh giỏi của một lớp, thì không thể coi ñó là khai phá dữ liệu Nhưng những công việc như gom nhóm các tài liệu trả về từ máy tìm kiếm theo từng ngữ cảnh thì lại ñược xem là khai phá dữ liệu

1.2 Tại sao phải tiến hành khai phá dữ liệu?

Trong những năm gần ñây, khai phá dữ liệu trở thành một lĩnh vực nghiên cứu rộng rãi trong ngành công nghiệp thông tin, nguyên nhân chủ yếu là do khối lượng khổng lồ của dữ liệu mà con người tạo ra, ñi kèm với nó là sự cần thiết biến ñổi những dữ liệu ñó thành tri thức Thông tin và tri thức có thể ñược áp dụng vào nhiều lĩnh vực từ phân tích thị trường tài chính, phát hiện giả mạo, cho ñến ñiều khiển sản xuất và nghiên cứu khoa học

Trang 11

Nhìn vào hai lĩnh vực sinh ra nhiều dữ liệu nhất ñó là thương mại và khoa học Trong lĩnh vực thương mại, hàng ngày hàng giờ con người ñang tạo ra, thu thập và lưu trữ lại rất nhiều dữ liệu, như dữ liệu web, dữ liệu về thương mại ñiện tử, dữ liệu về việc thanh toán tại các cửa hàng và các dữ liệu thanh toán trong các tài khoản… Tính cạnh tranh trong kinh doanh là rất cao, cho nên việc phân tích dữ liệu ñể cung cấp dịch vụ tốt hơn, có nhiều tiện ích cho khách hàng, và ñón bắt chính xác nhu cầu của khách hàng rất quan trọng Trong lĩnh vực khoa học, dường như lượng dữ liệu sinh ra và thu thập lại còn lớn hơn nhiều, lên tới hàng GB/giờ, chẳng hạn như dữ liệu từ vệ tinh, từ các ảnh chụp vũ trụ

và từ các mô phỏng thử nghiệm khoa học Khai phá dữ liệu giúp các nhà khoa học trong việc phân lớp dữ liệu và hỗ trợ trong việc ñưa ra các quyết ñịnh

Cùng với sự phát triển của khoa học, của ngành cơ sở dữ liệu không thể không kể ñến

là sự phát triển của ngành công nghiệp máy tính, người ta ñã tạo ra những phương tiện lưu trữ lớn hơn, những máy tính rẻ hơn, tốc ñộ cao hơn, trợ giúp cho quá trình thu thập

dữ liệu cũng như khai phá chúng

Trong quá trình tác nghiệp, người ta thường phải ñưa ra các quyết ñịnh, tuy nhiên, với lượng dữ liệu khổng lồ như thế, người ta không thể sử dụng hết, hoặc nếu muốn sử dụng thì phải mất thời gian quá nhiều, như vậy có nguy cơ ñánh mất cơ hội Do ñó, việc sử dụng máy tính ñể khai phá dữ liệu nhằm giúp ñỡ con người trong công việc càng ñược thúc ñẩy mạnh mẽ, làm sao với các dữ liệu ñã thu thập ñược có thể ñưa ra một hành ñộng mang lại lợi ích tối ña

1.3 Quá trình khai phá dữ liệu

Ở một góc ñộ nào ñó, khái niệm khai phá dữ liệu và khai phá tri thức nhiều khi ñược coi là một Tuy nhiên, nếu xét kỹ thì khai phá dữ liệu là một bước quan trọng trong khai phá tri thức Một quá trình phát hiện tri thức trong cơ sở dữ liệu bao gồm các giai ñoạn chính sau:

(1) Làm sạch dữ liệu (Data Cleaning): Khử nhiều và các dữ liệu mâu thuẫn

Trang 12

(2) Tắch hợp dữ liệu (Data Integration): Kết hợp nhiều nguồn dữ liệu khác nhau (3) Lựa chọn dữ liệu (Data Selection): Chắt lọc lấy những dữ liệu liên quan ựến

nhiệm vụ phân tắch sau này

(4) Biến ựổi dữ liệu (Data Transformation): Biến ựổi dữ liệu thu ựược về dạng thắch

hợp cho quá trình khai phá

(5) Khai phá dữ liệu (Data Mining): Sử dụng những phương pháp thông minh ựể khai

thác dữ liệu nhằm thu ựược các mẫu mong muốn

(6) đánh giá kết quả (Pattern Evaluation): Sử dụng các ựộ ựo ựể ựánh giá kết quả thu

ựược

(7) Biểu diễn tri thức (Knowledge Presentation): Sử dụng các công cụ biểu diễn trực

quan ựể biểu diễn những tri thức khai phá ựược cho người dùng

Khai phá

dữ liệu

Dữ liệu chuyển dạng

Mẫu

Làm sạch &

Tắch hợp

Trang 13

Hình 1.1 Quá trình phát hiện tri thức trong cơ sở dữ liệu

Quá trình này có thể ñược lặp lại nhiều lần một hay nhiều giai ñoạn dựa trên phản hồi

từ kết quả của các giai ñoạn sau

1.4 Kiến trúc ñiển hình của một hệ khai phá dữ liệu

Trong kiến trúc ñiển hình của một hệ khai phá dữ liệu (hình 1.2), các nguồn dữ liệu cho hệ thống khai phá dữ liệu bao gồm cơ sở dữ liệu, hoặc kho dữ liệu, hoặc World Wide Web, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu dữ liệu nói trên

Cơ sở tri thức bao chứa các tri thức hiện có về miền ứng dụng, ñược sử dụng trong thành phần khai phá dữ liệu ñể tăng tính hiệu quả của thành phần này Một số tham số của thuật toán khai phá dữ liệu tương ứng sẽ tinh chỉnh theo tri thức miền sẵn có từ cơ sở tri thức trong hệ thống Cơ sở tri thức còn ñược sử dụng trong việc ñánh giá các mẫu ñã khai phá ñược xem chúng có thật sự hấp dẫn hay không, trong ñó có ñối chứng với các tri thức ñã có trong cơ sở tri thức Nếu mẫu khai phá ñược thực sự là hấp dẫn thì ñược bổ sung vào cơ sở tri thức ñể phục vụ cho hoạt ñộng tiếp theo của hệ thống

Trang 14

Hình 1.2 Kiến trúc ựiển hình của hệ thống khai phá dữ liệu

1.5 Các bài toán khai phá dữ liệu ựiển hình

Hai mục tiêu chủ yếu của khai phá dữ liệu là dự báo (prediction) và mô tả

(description) Dự báo dùng một số biến hoặc trường trong trong cơ sở dữ liệu ựể dự ựoán

về giá trị chưa biết hoặc về giá trị sẽ có trong tương lai của các biến Mô tả hướng tới

việc tìm ra các mẫu mô tả dữ liệu

Dự báo và mô tả ựược thể hiện thông qua các bài toán cụ thể sau:

Ớ Mô tả khái niệm (Summarization)

Mục ựắch của bài toán là tìm ra các ựặc trưng và tắnh chất của các khái niệm điển hình cho bài toán này là các bài toán như tổng quát hóa, tóm tắt, các ựặc trưng dữ liệu ràng buộc

Giao diện người dùng đánh giá mẫu khai phá ựược Thành phần khai phá dữ liệu Phục vụ Cơ sở dữ liệu/ Kho dữ

Cơ sở dữ liệu

Kho dữ liệu

World Wide

Kiểu kho chứa thông tin

Cơ sở tri thức

Làm sạch, tắch hợp và chọn lựa dữ

Trang 15

• Quan hệ kết hợp (Dependency relationship)

Một trong những vấn ñề của phát hiện mối quan hệ là làm rõ ràng và nguyên nhân Bài toán tìm luật kết hợp là một ñại diện ñiển hình, thực hiện việc phát hiện ra mối quan hệ giữa các thuộc tính (các biến), có dạng ở phụ thuộc hàm trong cơ sở dữ liệu quan hệ

• Phân lớp (Classification)

Phân lớp còn ñược gọi là học máy có giám sát (supervised learning) Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng ñể phân dữ liệu mới vào trong những lớp (còn gọi là loại) ñã ñược ñịnh trước Một số phương pháp ñiển hình là cây quyết ñịnh, luật phân lớp, mạng neuron

• Phân cụm (Clustering)

Phân cụm còn ñược gọi là học máy không giám sát (unsupervised learning), thực hiện việc nhóm dữ liệu thành các lớp mới ñể có thể phát hiện các mẫu phân bố Phân cụm chỉ là bái toán mô tả hướng tới việc nhận biết một tập hữu hạn các loại hoặc các cụm ñể mô tả dữ liệu Các loại (cụm) có thể rời nhau và toàn phần (tạo nên phân hoạch) hoặc chồng chéo lên nhau

• Phân ñoạn (Segmentation)

Về bản chất phân ñoạn là tổ hợp của phân cụm và phân lớp, trong ñó phân cụm ñược tiến hành trước và sau ñó là phân lớp

• Hồi quy (Regression)

Hồi quy là học một hàm ánh xạ dữ liệu nhằm tìm và xác ñịnh giá trị thực của một biến

• Mô hình phụ thuộc (Dependency modeling)

Trang 16

Bài toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến Mô hình phụ thuộc gồm hai mức: mức cấu trúc của mô hình mô tả (thường dưới dạng ñồ thị) và mức ñịnh lượng

• Phát hiện biến ñổi và ñộ lệch (Change and Deviation Detection)

Tập trung vào việc phát hiện hầu hết sự thay ñổi có ý nghĩa dưới dạng ñộ ño ñã biết trước hoặc giá trị chuẩn

1.6 Các lĩnh vực liên quan ñến khai phá dữ liệu

Khai phá dữ liệu liên quan ñến nhiều ngành, nhiều lĩnh vực như thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc ñộ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu ðặc biệt khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê ñể mô hình dữ liệu và phát hiện các mẫu, luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP – On line Analytical Processing) cũng liên quan chặt chẽ với khai phá dữ liệu

Hình 1.3 Tính ña/ liên ngành của khai phá dữ liệu

Trang 17

Các kỹ thuật truyền thống không còn thích hợp với các loại dữ liệu bị lỗi, bị nhiễu hay

dữ liệu nhiều chiều và các hệ dữ liệu tự nhiên phân tán hay hỗn tạp Do ñó khi kết hợp với nhau, hình thành lĩnh vực mới, ñó là khai phá dữ liệu

1.7 Các ứng dụng ñiển hình của khai phá dữ liệu

Ứng dụng của khai phá dữ liệu ñược chia thành hai lớp chính bao gồm các ứng dụng phân tích – hỗ trợ ra quyết ñịnh và lớp các lĩnh vực ứng dụng khác

• Lớp các ứng dụng trong phân tích dữ liệu và hỗ trợ ra quyết ñịnh bao gồm các ứng dụng trong:

- Thông tin thương mại: Phân tích dữ liệu Marketing, khách hàng; Phân tích ñầu tư; Phê duyệt cho vay vốn hay phát hiện gian lận

- Thông tin kỹ thuật: ðiều khiển và lập trình lịch; Quản trị mạng

Trang 18

• Quan hệ giữa các trường phức tạp

• Giao tiếp với người sử dụng và kết hợp với các tri thức ñã có

• Tích hợp với các hệ thống khác …

1.9 Kết luận

Qua các vấn ñề ñã trình bày, chúng ta nhận thấy với một lượng dữ liệu thực tế nhỏ và với mục ñích bài toán cụ thể nhưng ta có thể tiếp cận theo nhiều hướng khác nhau của cùng một phương pháp khai phá dữ liệu và ñạt ñược kết quả khác nhau, ñiều ñó càng làm sáng tỏ khả năng ứng dụng thực tế to lớn ñồng thời với những thách thức ñối với kỹ thuật khai phá dữ liệu trong các bài toán kinh tế - xã hội và trong nhiều lĩnh vực khác

Trang 19

Chương 2: Trích chọn thuộc tính phù hợp

2.1 Giới thiệu

Trích chọn đặc trưng (Feature Selection) là phương pháp chọn ra một tập con tốt nhất

từ tập các đặc trưng đầu vào bằng cách lọai bỏ những đặc trưng cĩ rất ít hoặc khơng cĩ thơng tin dự đốn

Trích chọn đặc trưng cĩ vai trị quan trọng trong việc chuẩn bị và lựa chọn dữ liệu cho quá trình khai phá dữ liệu Nĩ sẽ làm giảm kích cỡ của khơng gian đặc trưng, loại bỏ dư thừa hay nhiễu của dữ liệu Phương pháp này cĩ thể tìm chính xác những tập con đặc trưng cĩ khả năng dự đốn, do đĩ giúp cải thiện đáng kể kết quả thu được trong các mơ hình phân lớp

Về cơ bản, quá trình trích chọn đặc trưng bao gồm bốn bước cơ bản: sinh tập con (subset generation), đánh giá tập con (subset evaluation), điều kiện dừng quá trình trích chọn (stopping criterion) và kết quả (result validation)

Hình 2.1 Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp Subset generation là một thủ tục tìm kiếm Về cơ bản, nĩ sinh ra một tập con của tập các đặc trưng để đánh giá Giả sử cĩ N đặc trưng trong tập dữ liệu gốc, thì số lượng các

Subset Generation

Subset Evaluation

Result Validation

Stopping Criterion

Trang 20

tập con tiềm năng là 2n Vì một tập con tối ưu các ñiểm ñặc trưng không phải là duy nhất nên số lượng các tập con có thể thỏa mãn là rất lớn, do ñó quá trình tìm kiếm trong trích chọn ñặc trưng sẽ tốn nhiều thời gian và công sức Mỗi tập con ñược sinh ra cần phải ñược ñánh giá và so sánh với những tập con tốt nhất ñã ñược tìm thấy trước Nếu tập con tìm thấy sau là tốt hơn thì nó sẽ ñược thay thế cho tập con tốt nhất trước ñây Nếu không

có một ñiều kiện dừng hợp lý thì quá trình tìm kiếm các tập con tốt nhất sẽ ñược xem như

là vô hạn Một quá trình trích chọn ñặc trưng có thể dừng khi thỏa mãn một trong những ñiều kiện ñánh giá sau: (a) chọn ñủ số lượng ñã ñược xác ñịnh trước của tập ñặc trưng, (b) thỏa mãn số lần ñã ñược xác ñịnh trước của quá trình lặp lại (c) ở một khía cạnh (ñiều kiện) nào ñó tập con mới ñược ñánh giá là không tốt hơn tập con trước, (d) tập con ñược bộ ñánh giá cho là tốt nhất

2.2 Mô hình trong bài toán trích chọn

2.2.1 Các mô hình trong trích chọn

Trích chọn ñặc trưng thật sự là lý tưởng trong lựa chọn tập con ñặc trưng tối ưu từ một tập ứng cử ñể mô tả khái niệm mục tiêu trong hệ thống học ðộ tốt của một tập con ñặc trưng có thể ñược ñánh giá qua nhiều cách khác nhau, nhờ ñó mà có nhiều mô hình khác nhau ñược ñưa ra trong phương pháp trích chọn ðiển hình là hai mô hình: Filter và Wrapper

Trang 21

Hình 2.3 Mô hình Wrapper Giải thích hình vẽ:

A: Tập ñặc trưng ñầu vào

1: Bộ sinh tập con (Feature Subset Generator)

2: Bộ ñánh giá (Feature Subset Evaluator)

3: Các thuật toán học máy (Followed Machine learning Algorithm) 4: Thuật toán học máy ñiều khiển (Central Machine learning Algorithm)

Mô hình Filter ñánh giá mỗi cá thể bằng một vài tiêu chuẩn, rồi chọn ra tập con các thuộc tính có ñộ ñánh giá cao nhất Nhìn chung, Filter coi tiến trình của trích chọn thuộc tính như tiến trình thực thi trước, sau ñó mới sử dụng thuật toán ñể phân lớp

Wrapper sử dụng một thuật toán tìm kiếm ñể ñánh giá tập con các thuộc tính coi như

là một nhóm hơn là một cá thể riêng lẻ Mô hình Wrapper ñược ñặt vào trung tâm của một thuật toán máy học cụ thể Nó ñánh giá ñộ tốt của những tập con ñặc trưng tùy theo

ñộ chính xác học của tập con, ñiều này xác ñịnh thông qua tỷ lệ Những thuật toán tìm kiếm cũng sử dụng hàm ñánh giá kinh nghiệm (heuristics) ñể hướng dẫn việc tìm kiếm tập trung vào các ñối tượng có triển vọng

Trang 22

2.2.2 đánh giá hai mô hình Filter và Wrapper

2.2.2.1 Filter

Ớ Ưu ựiểm:

- Không có xử lý học máy trong quá trình lựa chọn các ựặc trưng

- Dễ dàng nhận diện và thời gian tiêu thụ ắt hơn mô hình Wrapper

Ớ Nhược ựiểm:

- Hiệu suất sản sinh các tập con ựặc trưng là không ựảm bảo vì nó thường ựánh giá một tập con ựặc trưng chỉ dựa trên ựặc trưng nhỏ thiên về nguyên lý mà không tắnh tới ựộ chắnh xác của kết quả học máy

- Kết quả thu ựược bị giảm sút về ựộ chắnh xác học ở những giai ựoạn sau vì các hàm ựánh giá hiện thời ựược sử dụng thường thiên về giá trị ở một vài phạm vi,

do ựó sẽ không ựánh giá một cách khách quan tầm quan trọng của các ựặc trưng

2.2.2.2 Mô hình Wrapper

Ớ Ưu ựiểm:

- đảm bảo hiệu suất của kết quả học hơn mô hình Filter

Ớ Nhược ựiểm:

- Ít ựược sử dụng hơn môt hình Filter trên thực tế vì:

 Tiến trình học tốn kém về thời gian ựến mức thời gian thực hiện ựưa ra bởi một thuật toán sử dụng mô hình Wrapper là không chấp nhận ựược

 Với một hệ thống kắch thước cực lớn, mô hình này không thực tế do phạm

vi của nó buộc phải thu nhỏ lại trước khi thuật toán học máy ựược áp dụng

Trang 23

 Kết quả ñánh giá của mô hình phụ thuộc nhiều vào thuật toán học máy ñiều khiển

2.3 Một số kỹ thuật xử lý

2.3.1 Bộ sinh tập con (Feature Subset Generator)

Tùy từng chiến lược cụ thể, bộ sinh tập con sẽ tạo ra những tập con ñặc trưng từ một tập ñầu vào tương ứng ðầu ra của bộ sinh sẽ xác ñịnh thuật toán trích chọn ñặc trưng của việc tìm ñường và tìm kiếm phạm vi trong một không gian ñặc trưng tương ứng Nói chung, bộ sinh có hai chiến lược ñể sản sinh ra những tập con ñặc trưng:

• ðầy ñủ (Completely): Một bộ khởi tạo ñầy ñủ có thể sản sinh ra tất cả các tập con

từ một tập ñặc trưng ñầu vào, do vậy phạm vi tìm kiếm của chiến lược này là NP ñầy ñủ, tuy nhiên ñiều này không phải lúc nào cũng chứng tỏ tìm kiếm vét cạn là cần thiết trong thực tế, bởi vì một số công nghệ như: ñường biên và rẽ nhánh có thể ñược áp dụng ñể lược bớt phạm vi tìm kiếm tốt nhất Bởi vậy nếu là thuật toán trích chọn với bộ khởi tạo ñầy ñủ, thực nghiệm chỉ ra rằng không gian tìm kiếm lớn nhất là O(2k) Mà ñối với hầu hết những hệ thống học máy thực, ñiều này là không cần thiết phải ñánh giá tất cả những tập con từ một tập ñặc trưng tương ứng Thường thì, thuật toán trích chọn với bộ khởi tạo ñầy ñủ có thể tìm ra một tập con ñặc trưng tối ưu của hệ thống học máy nhưng ñòi hỏi thời gian thực thi phức tạp Liu H [12] ñã ñưa ra bộ khởi tạo ñầy ñủ ñặc biệt mà sản sinh một cách ngẫu nhiên

ra những tập con ñặc trưng dựa vào thuật toán Las Vegas (LV) Thuật toán LV có thể tìm kiếm trên toàn bộ không gian ñáp án rồi sau ñó ñưa ra kết quả tối ưu ñảm bảo Tuy nhiên khác với những bộ khởi tạo ñầy ñủ khác, ñối với một ứng dụng thực tế, khả năng thực thi của bộ khởi tạo Liu là hoàn toàn thay ñổi, nó phụ thuộc nhiều vào quá trình phân chia dữ liệu ngẫu nhiên trong toàn bộ hệ thống học máy

• Kinh nghiệm (Heuristically): ðể lược bớt không gian tìm kiếm, bộ khởi tạo kinh

nghiệm sản sinh ra các tập con ñặc trưng dựa vào những kinh nghiệm chiến lược nào ñó Có ba kỹ thuật tìm kiếm tập con ñiển hình là:

Trang 24

- Lựa chọn tiến (Forward Selection): các tập con ñặc trưng ñược khởi tạo

trước hết là rỗng (null), sau ñó liên tục gán những tính năng tốt nhất hiện thời cho tập con ñó cho ñến khi không còn tính năng nào nữa hay các ñiều kiện thực thi ñưa ra ñã ñược tiếp nhận hết

- Lược bỏ lùi (Backward Elimination): Các tập con ñặc trưng ñược khởi tạo

trước hết là ñầy ñủ các ñặc trưng, sau ñó loại bỏ lần lượt những ñặc trưng kém nhất hiện thời từ các tập con ñó, cho ñến khi không còn ñặc trưng nào hoặc các ñiều kiện thực thi ñưa ra ñã ñược triệt tiêu hết

- Lựa chọn hai hướng (Bi – direction Selection): các tập con ñặc trưng ñược

khởi tạo trước hết là rỗng, ñầy, hoặc sản sinh ngẫu nhiên một tập con ñặc trưng, sau ñó liên tục hoặc là gán tính năng tốt nhất hiện thời cho tập con ñó hoặc là triệt tiêu tính năng kém nhất từ các tập con ñó ðể từ ñó ñưa ra những giá trị ñịnh hướng tốt nhất ở mỗi lần lặp lại ñó Quá trình tiếp tục cho tới khi tất cả ñiều kiện ñược ñưa ra từ trước ñã ñược tiếp nhận hết

Bộ phận khởi tạo kinh nghiệm giảm thiểu phạm vi tìm kiếm ña thức số mũ, do ñó giảm thời gian thực hiện thuật toán phức tạp trong phương pháp trích chọn Tuy nhiên, thuật toán chỉ ñưa ra một lượng nhỏ kết quả tối ưu, khi thực hiện tìm ñường và tìm kiếm phạm vi của bộ phận khởi tạo, kết quả này ñược ñảm bảo thông qua những thuật toán này

2.3.2 Bộ ñánh giá tập con ñặc trưng (Feature Subset Evaluator)

Hiệu suất của một tập con ñặc trưng ñược ñánh giá dựa trên cơ sở nào ñó mà bộ ñánh giá ñạt ñược Bộ ñánh giá của những mô hình thuật toán khác nhau là khác nhau Bộ ñánh giá của mô hình Filter thường là các hàm ñánh giá, trong khi của mô hình Wrapper là ñộ học chính xác ñạt ñược bởi quá trình thực thi thuật toán học máy ñiều khiển trên hệ thống học

• Hàm ñánh giá

Trang 25

Những hàm ñánh giá ñiển hình dùng ñể ño ñạc và phân biệt khả năng phân lớp của những ñặc ñiểm khác nhau trên các mẫu Thực tế, các hàm ñánh giá khác nhau thường ñược dùng hiện nay như: xấp xỉ chất lượng (Approximation Quality), ñộ quan trọng của thuộc tính (Feature Importance), trọng số của thuộc tính (Feature Weight) …

• Học chính xác

Trong mô hình Wrapper, ñể ước lượng ñộ học máy chính xác, trước hết, các mẫu của hệ thống học phải ñược chia ngẫu nhiên làm hai hệ thống con, chẳng hạn như:

hệ thống huấn luyện và hệ thống kiểm tra, trong ñó, cấu trúc của hai hệ thống con

có cùng ñặc ñiểm và ñược tạo ra bởi bộ sinh; sau ñó thuật toán học máy ñiều khiển

sẽ thực hiện trên hệ thống con huấn luyện (training) và tiếp thu ñộ học chính xác ñược xác ñịnh nhờ quá trình kiểm tra kết quả học ñược với hệ thống kiểm tra (testing) Hiển nhiên, ñộ chính xác ñạt ñược trong trường hợp này là giá trị ngẫu nhiên, nó phụ thuộc lớn vào kết quả của việc chia mẫu ðể giảm thiểu mức ñộ ngẫu nhiên của việc ước lượng ñộ chính xác học máy, bộ ñánh giá của mô hình Wrapper thường xuyên tính toán ñộ chính xác học máy thông qua thuật toán ñánh giá chéo k – lần

2.3.3 Thuật toán học ñiều khiển (Central Machine learning Algorithm)

Trong mô hình Wrapper, thuật toán học máy ñiều khiển có ảnh hưởng lớn tới ước lượng ñộ chính xác học của một tập con ñặc trưng Do vậy, thuật toán ñóng vài trò quyết ñịnh trong mô hình Wrapper Thuật toán thường ñược chọn ở ví trí trung tâm mô hình thường là: ID3, CN2, C4.5 …

2.4 Kết luận

Trích chọn ñược xem như bước tiền xử lý dữ liệu Phương pháp này lọc ra những ñặc trưng tốt nhất, ñồng thời loại bỏ nhiễu, giảm bớt chiều trong dữ liệu Hai mô hình phổ biến trong phương pháp trích chọn thuộc tính ñặc trưng là Filter và Wrapper Mỗi mô hình ñều có những ưu ñiểm và nhược ñiểm riêng Tùy từng yêu cầu và trường hợp cụ thể

Trang 26

http://etrithuc.vn

Trang 27

Chương 3: Genetic Algorithms

3.1 Giới thiệu

Thuật toán di truyền là thuật toán tối ưu ngẫu nhiên dựa trên cơ chế chọn lọc tự nhiên

và tiến hóa di truyền Thuật toán di truyền ñược ứng dụng ñầu tiên trong hai lĩnh vực chính: tối ưu hóa và học tập của máy Trong lĩnh vực tối ưu hóa thuật toán di truyền ñược phát triển nhanh chóng và ứng dụng trong nhiều lĩnh vực khác nhau như tối ưu hàm, xử

lý ảnh, bài toán hành trình người bán hàng, nhận dạng hệ thống và ñiều khiển Thuật toán

di truyền cũng như các thuật toán tiến hóa nói chung, hình thành dựa trên quan niệm cho rằng, quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó ñã mang tính tối ưu Quan niệm này có thể xem như một tiên ñề dúng, không chứng minh ñược, nhưng phù hợp với thực tế khách quan Quá trình tiến hóa thể hiện tính tối ưu ở chỗ, thế

hệ sau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệ trước bởi tính kế thừa

và ñấu tranh sinh tồn

3.2 ðộng lực

Thuật giải di truyền cung cấp một phương pháp học ñược thúc ñẩy bởi sự tương tự với sự tiến hóa sinh học Thay vì tìm kiếm các giả thuyết từ tổng quát ñến cụ thể hoặc từ ñơn giản ñến phức tạp, GAs tạo ra các giả thuyết kế tiếp bằng cách lặp việc ñột biến và việc tái hợp các phần của giả thuyết ñược biết hiện tại là tốt nhất Ở mỗi bước, một tập các giả thuyết ñược gọi là quần thể hiện tại ñược cập nhật bằng cách thay thế vài phần nhỏ quần thể bởi cá thể con của các giả thuyết tốt nhất ở thời ñiểm hiện tại Sự phổ biến của GAs ñược thúc ñẩy bởi các yếu tố sau:

• Tiến hóa là một phương pháp mạnh và thành công cho sự thích nghi bên trong các

hệ thống sinh học

Trang 28

• GA có thể tìm kiếm trên các không gian giả thuyết có các phần tương tác phức tạp,

ở ñó ảnh hưởng của mỗi phần lên toàn thể ñộ thích nghi giả thuyết khó có thể mô hình hóa

• Thuật giải GA có thể ñược thực hiện song song và có thể tận dụng thành tựu của phần cứng máy tính

3.3 Thuật giải di truyền

3.3.1 Nội dung thuật toán

Bài toán dành cho GAs là tìm kiếm trên không gian các giả thuyết ứng cử ñể xác ñịnh giả thuyết tốt nhất Trong GAs “giả thuyết tốt nhất” ñược ñịnh nghĩa như là một giả thuyết tối ưu hóa một ñại lượng số ñược ñịnh nghĩa trước cho bài toán sắp tới, ñược gọi

là ñộ thích nghi của giả thuyết Ví dụ, nếu tác vụ học hỏi là bài toán xấp xỉ một hàm chưa

biết cho tập mẫu huấn luyện gồm dữ liệu ñầu vào và dữ liệu ñầu ra, thì ñộ thích nghi có thể ñược ñịnh nghĩa như là ñộ chính xác của giả thuyết trên dữ liệu huấn luyện này Nếu tác vụ là học chiến lược chơi cờ, ñộ thích nghi có thể là số ván thắng của chiến lược này khi ñấu với các chiến lược khác trong quần thể hiện tại

Mặc dù các thuật giải di truyền ñược thực hiện thay ñổi theo bài toán cụ thể, nhưng chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt ñộng bằng cách cập nhật liên tục tập giả thuyết – ñược gọi là quần thể Ở mỗi lần lặp, tất cả các cá thể trong quần thể ñược ước lượng tương ứng với hàm thích nghi Rồi quần thể mới ñược tạo ra bằng cách lựa chọn có xác suất các cá thể thích nghi tốt nhất từ quần thể hiện tại Một số trong những cá thể ñược chọn ñược ñưa nguyên vẹn vào quần thể kế tiếp Những cá thể khác ñược dùng làm cơ sở ñể tạo ra các cá thể con bằng cách áp dụng các tác ñộng di truyền:

lai ghép và ñột biến

GA( Fitness, Fitness_threshold, p, r, m)

// p: Số cá thể trong quần thể giả thuyết

Trang 29

// r: Phân số cá thể trong quần thể ñược áp dụng toán tử lai ghép ở mỗi bước

// m: Tỉ lệ cá thể bị ñột biến

Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

while [max Fitness(h)] < Fitness_threshold do

Tạo thế hệ mới, P S

1 Chọn cá thể : chọn theo xác suất (1 – r)p cá thể trong quần thể P thêm vào P S Xác

suất Pr(h i ) của giả thuyết h i thuộc P ñược tính bởi công thức:

2 Lai ghép: chọn lọc theo xác suất

2

r×p

cặp giả thuyết từ quần thể P, theo Pr(h i ) ñã

tính ở bước trên Ứng với mỗi cặp <h 1 , h 2 >, tạo ra hai con bằng cách áp dụng toán tử

lai ghép Thêm tất các các con vào P S

3 ðột biến : Chọn m% cá thể của P S với xác suất cho mỗi cá thể là như nhau Ứng với mỗi cá thể biến ñổi một bit ñược chọn ngẫu nhiên trong cách thể hiện của nó

4 Cập nhật : P  P S.

5 Ước lượng: Ứng với mỗi h trong P, tính Fitness (h)

• Trả về giả thuyết trong P có ñộ thích nghi cao nhất

}

Bảng 3.1 Thuật giải di truyền mẫu

Quần thể gồm p cá thể Ở mỗi lần lặp, quần thể kế tiếp P S ñược hình thành từ việc lựa chọn theo xác suất các giả thuyết hiện tại theo ñộ thích nghi của chúng và bằng cách thêm vào các giả thuyết mới Các giả thuyết mới ñược tạo ra bằng cách áp dụng toán tử lai ghép cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các ñột biến ñiểm ñơn trong thế hệ giả thuyết kết quả Quá trình này ñược lặp cho ñến khi các giả thuyết thích hợp ñược phát hiện Các toán tử lai ghép và ñột biến tiêu biểu ñược ñịnh nghĩa trong bảng kế tiếp

Một thuật giải di truyền mẫu ñược mô tả trong bảng 3.1 Các ñầu vào cho thuật giải này bao gồm hàm tính ñộ thích nghi ñể tính hạng cho các giả thuyết ứng cử, một giá trị ngưỡng ñược ñịnh nghĩa cấp ñộ thích nghi có thể chấp nhận ñể kết thúc thuật giải, kích thước quần thể, và các tham số quyết ñịnh các quần thể kế tiếp ñược tạo ra như thế nào: phần quần thể bị thay thế ở mỗi thế hệ và tỉ lệ ñột biến

Trang 30

Lưu ý trong thuật giải này, ở mỗi bước lặp qua vòng lặp chính tạo ra một thế hệ mới các giả thuyết dựa vào quần thế hệ hiện tại Trước tiên, một số giả thuyết ñược chọn từ quần thể hiện tại ñể ñưa vào thế hệ kế tiếp Những giả thuyết này ñược chọn theo xác suất,

ở ñây xác suất của giả thuyết ñược tính bởi:

Vì vậy, xác suất ñể giả thuyết ñược chọn tỉ lệ với ñộ thích nghi của nó và tỉ lệ nghịch với ñộ thích nghi của các giả thuyết cạnh tranh khác trong quần thể hiện tại

Một khi các cá thể này của thế hệ hiện tại ñã ñược chọn ñể ñưa vào quần thể thế hệ kế tiếp, các cá thể thêm vào ñược tạo ra dùng toán tử lai ghép Lai ghép, ñược ñịnh nghĩa chi tiết trong phần kế tiếp, lấy hai giả thuyết từ thế hệ hiện tại và tạo ra hai giả thuyết con bằng cách kết hợp các phần của hai giả thuyết cha Các giả thuyết cha ñược chọn theo xác suất từ quần thể hiện tại, sử dụng hàm xác suất ñược cho bởi phương trình (2.1) Sau khi các cá thể mới ñược tạo ra từ hoạt ñộng lai ghép này, quần thế thế hệ mới bây giờ có

ñủ số lượng thành viên mong muốn Lúc này, một phân số m nào ñó các cá thể này ñược chọn một cách ngẫu nhiên, và tất cả các ñột biến ngẫu nhiên ñược thực hiện ñể thay ñổi các cá thể này

3.3.2 Thể hiện các giả thuyết

Các giả thuyết trong GAs thường ñược thể hiện dưới dạng chuỗi các bit, ñể chúng có

thể dễ dàng ñược thực hiện bởi các toán tử di truyền là ñột biến và lai ghép Các giả

thuyết ñược thể hiện bởi chuỗi bit này có thể khá phức tạp Ví dụ, tập các luật if-then có

thể dễ dàng ñược thể hiện theo cách này, bằng cách chọn một cách thức mã hóa các luật

ñể phân bố các chuỗi con riêng cho mỗi ñiều kiện trước và ñiều kiện sau của luật

ðể thấy các luật if-then có thể ñược mã hóa bằng các chuỗi bit như thế nào, trước tiên hãy xem chúng ta có thể sử dụng chuỗi bit như thế nào ñể mô tả ràng buộc trên giá trị của

thuộc tính ñơn Lấy một ví dụ, hãy xem xét thuộc tính Outlook, thuộc tính này có thể lấy bất kì giá trị nào trong ba giá trị: Sunny, Overcast hoặc Rain Một cách rõ ràng ñể thể

Trang 31

hiện ràng buộc cho Outlook là dùng một chuỗi bit có chiều dài 3, mỗi vị trí bit tương ứng

với một trong ba giá trị có thể của nó ðặt giá trị 1 ở một vài vị trí ñể chỉ ra rằng thuộc

tính ñược phép lấy giá trị tương ứng Ví dụ, chuỗi 010 thể hiện ràng buộc Outlook phải lấy giá trị thứ hai trong các giá trị này, hay là Outlook = Overcast Một cách tương tự, chuỗi 011 thể hiện ràng buộc tổng quát hơn là cho phép hai giá trị có thể, hay là Outlook

= Overcast Rain Chú ý 111 thể hiện ràng buộc có thể tổng quát nhất, chỉ ra rằng

chúng ta không quan tâm giá trị nào trong các giá trị có thể của nó mà thuộc tính giữ ðưa ra phương pháp này ñể thể hiện các ràng buộc trên thuộc tính ñơn, các liên kết của các ràng buộc trên nhiều thuộc tính có thể dễ dàng ñược thể hiện bằng cách nối các

chuỗi bit tương ứng Ví dụ, xem xét thuộc tính thứ hai, Wind có thể lấy giá trị Strong hoặc Weak ðiều kiện trước của luật chẳng hạn như:

Có thể ñược biểu diễn bởi chuỗi bit có chiều dài là 5 sau:

Các ñiều kiện sau của luật (chẳng hạn như PlayTennis = yes) có thể ñược thể hiện theo kiểu tương tự Vì vậy, toàn bộ luật có thể ñược mô tả bởi móc nối các chuỗi bit mô

tả các ñiều kiện ñầu, cùng với chuỗi bit mô tả ñiều kiện sau của luật Ví dụ, luật

IF Wind = Strong THEN PlayTennis = yes

sẽ ñược thể hiện bởi chuỗi:

ở ñây 3 bit ñầu tiên mô tả ràng buộc “không quan tâm” trên Outlook , hai bit kế tiếp

mô tả ràng buộc trên Wind, và hai bit cuối cùng mô tả ñiều kiện sau của luật (ở ñây chúng

ta giả sử PlayTennis có thể lấy giá trị Yes hoặc No) Chú ý chuỗi bit thể hiện luật chứa

một chuỗi con cho mỗi thuộc tính trong không gian giả thuyết, thậm chí thuộc tính không

Ngày đăng: 25/01/2013, 15:54

HÌNH ẢNH LIÊN QUAN

ñ oán bệnh ung thư. Mô hình phân lớp mới này sẽ ñượ c chạy thử trên một số cơ sở dữ liệu lớn và ñưa ra những số liệu thống kê ñể có thể thấy ñược hiệu quả của hệ thống so với  phương pháp phân lớp chỉ sử dụng MPM - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
o án bệnh ung thư. Mô hình phân lớp mới này sẽ ñượ c chạy thử trên một số cơ sở dữ liệu lớn và ñưa ra những số liệu thống kê ñể có thể thấy ñược hiệu quả của hệ thống so với phương pháp phân lớp chỉ sử dụng MPM (Trang 2)
Danh sách các hình - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
anh sách các hình (Trang 5)
Danh sách các bảng - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
anh sách các bảng (Trang 6)
Bảng các từ viết tắt - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng c ác từ viết tắt (Trang 7)
Bảng các từ viết tắt - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng c ác từ viết tắt (Trang 7)
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu (Trang 13)
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu (Trang 13)
Hình 1.2. Kiến trúc ñ iển hình của hệ thống khai phá dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 1.2. Kiến trúc ñ iển hình của hệ thống khai phá dữ liệu (Trang 14)
Hỡnh 1.2. Kiến trỳc ủiển hỡnh của hệ thống khai phỏ dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
nh 1.2. Kiến trỳc ủiển hỡnh của hệ thống khai phỏ dữ liệu (Trang 14)
Bài toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
i toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự (Trang 16)
Hỡnh 1.3. Tớnh ủa/ liờn ngành của khai phỏ dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
nh 1.3. Tớnh ủa/ liờn ngành của khai phỏ dữ liệu (Trang 16)
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp. Subset generation là một thủ tục tìm kiếm - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp. Subset generation là một thủ tục tìm kiếm (Trang 19)
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp (Trang 19)
Hình 2.3. Mô hình Wrapper Giải thích hình vẽ:  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 2.3. Mô hình Wrapper Giải thích hình vẽ: (Trang 21)
Hình 2.3. Mô hình Wrapper  Giải thích hình vẽ: - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 2.3. Mô hình Wrapper Giải thích hình vẽ: (Trang 21)
2.2.2. ð ánh giá hai mô hình Filter và Wrapper - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
2.2.2. ð ánh giá hai mô hình Filter và Wrapper (Trang 22)
mà ta có thể áp dụng một trong hai mô hình này. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
m à ta có thể áp dụng một trong hai mô hình này (Trang 26)
Bảng 3.1. Thuật giải di truyền mẫu - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 3.1. Thuật giải di truyền mẫu (Trang 29)
Bảng 3.1. Thuật giải di truyền mẫu - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 3.1. Thuật giải di truyền mẫu (Trang 29)
Bảng 3.2. Các toán tử chung cho thuật giải di truyền. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 3.2. Các toán tử chung cho thuật giải di truyền (Trang 33)
Bảng 3.2. Các toán tử chung cho thuật giải di truyền. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 3.2. Các toán tử chung cho thuật giải di truyền (Trang 33)
Hình 4.1. Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng xác suất tiên nghiệm cho 2 lớp - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 4.1. Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng xác suất tiên nghiệm cho 2 lớp (Trang 39)
Hình 4.1. Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng  xỏc suất tiờn nghiệm cho 2 lớp - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 4.1. Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng xỏc suất tiờn nghiệm cho 2 lớp (Trang 39)
5.1.2. Mô hình bài toán - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
5.1.2. Mô hình bài toán (Trang 43)
Hình 5.1: Mô hình kết hợp thuật toán di truyền và phương pháp phân lớp minimax - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.1 Mô hình kết hợp thuật toán di truyền và phương pháp phân lớp minimax (Trang 43)
Bảng 5.2. Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 5.2. Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) (Trang 44)
Bảng 5.2. Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Bảng 5.2. Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) (Trang 44)
Hình 5.3. Giao diện của Genetic Algorithm Tool. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.3. Giao diện của Genetic Algorithm Tool (Trang 45)
Hình 5.3. Giao diện của Genetic Algorithm Tool. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.3. Giao diện của Genetic Algorithm Tool (Trang 45)
Hình 5.4: Giá trị của hàm ñ ánh giá tại mỗi thế hệ. Giải thích các thông tin trên màn hình như  f-count, best…  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.4 Giá trị của hàm ñ ánh giá tại mỗi thế hệ. Giải thích các thông tin trên màn hình như f-count, best… (Trang 47)
Hỡnh 5.4: Giỏ trị của hàm ủỏnh giỏ tại mỗi thế hệ. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
nh 5.4: Giỏ trị của hàm ủỏnh giỏ tại mỗi thế hệ (Trang 47)
Hình 5.5: Hình ảnh biểu diễn hàm ñ ánh giá của GA tại mỗi thế hệ. Giải thích hình 5.5  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.5 Hình ảnh biểu diễn hàm ñ ánh giá của GA tại mỗi thế hệ. Giải thích hình 5.5 (Trang 48)
Hỡnh 5.5: Hỡnh ảnh biểu diễn hàm ủỏnh giỏ của GA tại mỗi thế hệ. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
nh 5.5: Hỡnh ảnh biểu diễn hàm ủỏnh giỏ của GA tại mỗi thế hệ (Trang 48)
5.2.2. Chi tiết các module của minimax probability machine - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
5.2.2. Chi tiết các module của minimax probability machine (Trang 49)
Hình 5.6. Kết quả quá trình tối ưu tập thuộc tính của DL ban ñầ u Giải thích  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.6. Kết quả quá trình tối ưu tập thuộc tính của DL ban ñầ u Giải thích (Trang 49)
Hỡnh 5.6. Kết quả quỏ trỡnh tối ưu tập thuộc tớnh của DL ban ủầu - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
nh 5.6. Kết quả quỏ trỡnh tối ưu tập thuộc tớnh của DL ban ủầu (Trang 49)
Hình 5.7. Giao diện của bộ phân lớp minimax probability machine. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.7. Giao diện của bộ phân lớp minimax probability machine (Trang 50)
Các bước thực hiện quá trình ñ ánh giá mô hình xây dựng: - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
c bước thực hiện quá trình ñ ánh giá mô hình xây dựng: (Trang 50)
Hình 5.7. Giao diện của bộ phân lớp minimax probability machine. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.7. Giao diện của bộ phân lớp minimax probability machine (Trang 50)
Hình 5.xx- Nhận xét:  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.xx Nhận xét: (Trang 54)
Hình 5.xx- - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Hình 5.xx (Trang 54)
hiệu quả với tập dữ liệu phi tuyến chúng ta sử dụng ñể ñ ánh giá mô hình. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
hi ệu quả với tập dữ liệu phi tuyến chúng ta sử dụng ñể ñ ánh giá mô hình (Trang 59)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w