.5 Mơ hình chọn lựa đặc trƣng đĩng gĩi

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 29)

Để đánh giá chất lƣợng của tập đặc trƣng, chúng sử dụng phản hồi (feedback) từ mơ hình dự đốn. Sở dĩ mơ hình này đƣợc gọi là đĩng gĩi bởi nĩ luơn „bao quanh‟ bộ phân lớp. Mơ hình đĩng gĩi cĩ thể sử dụng các chiến lƣợc tìm kiếm

Tất cả đặc trƣng Bộ sinh tập con Thuật tốn học Tập con đặc trƣng Kết quả đánh giá Wrapper Tập con đặc trƣng tốt nhất

khác nhau chẳng hạn nhƣ tìm kiếm tuần tự, hoặc ngẫu nhiên. Ƣu nhƣợc điểm của mơ hình đĩng gĩi đƣợc mơ tả trong Bảng 1.3

Bảng 1.3 Ƣu nhƣợc điểm của mơ hình Đĩng gĩi[8]

Ƣu điểm Nhƣợc điểm Ví dụ

Thuật tốn lựa chọn tuần tự

Cĩ tƣơng tác với bộ phân lớp

Chi phí tính tốn thấp

Dễ bị quá khớp Thực hiện dễ dàng

Dễ gặp tối ƣu địa phƣơng

Lựa chọn tiến tuần tự (SFS)

Loại bỏ lùi tuần tự (SBE) Beam Search

Thuật tốn lựa chọn tiến hĩa

Tìm đƣợc tập con tối ƣu Tƣơng tác với bộ phân lớp

Hiệu năng cao hơn mơ hình lọc Tính tốn phức tạp Dễ bị quá khớp hơn SA GA PSO ACO Mơ hình nhúng (Embedded)

Mơ hình nhúng giúp cải tiến hiệu năng phân lớp và tăng tốc độ của quá trình lựa chọn. Mơ hình nhúng là sự tích hợp, nhúng kỹ thuật lựa chọn đặc trƣng vào mơ hình học. Mơ hình này kết hợp ƣu điểm của mơ hình Lọc và Đĩng gĩi bằng cách sử dụng đồng thời tiêu chí đánh giá độc lập và các thuật tốn học để đánh giá tập con các đặc trƣng. Mơ hình Lọc cĩ thể cung cấp một chỉ dẫn thơng minh cho mơ hình Đĩng gĩi, chẳng hạn nhƣ: giảm khơng gian tìm kiếm, một điểm khởi đầu tốt, đƣờng tìm kiếm ngắn và thơng minh hơn. Để thực hiện đƣợc mơ hình Nhúng ngƣời phát triển cần tìm hiểu cấu trúc của thuật tốn học, xác định các tham số cĩ thể sử dụng cho việc đánh giá mức độ quan trọng của đặc trƣng. Nĩi cách khác, các đặc trƣng đƣợc xếp hạng ngay trong quá trình thực thi của việc học, khơng phải sau khi việc

học hồn thành nhƣ trong mơ hình Đĩng gĩi. Bảng 1.4 dƣới đây so sánh ba mơ hình lựa chọn đặc trƣng dựa theo ba hƣớng tiếp cận:

Bảng 1.4 So sánh ba mơ hình[33] Mơ hình Lọc Mơ hình Đĩng

gĩi

Mơ hình Nhúng Tiêu chuẩn Đo lƣờng độ phù

hợp đặc trƣng/ tập con đặc trƣng Đo lƣờng tính cĩ ích của tập con đặc trƣng Đo lƣờng tính cĩ ích của tập con đặc trƣng Chiến lƣợc tìm kiếm Thƣờng là thứ tự của các đặc trƣng Tìm kiếm khơng gian tồn bộ đặc trƣng Tìm kiếm đƣợc hƣớng dẫn bởi quá trình học Đánh giá Sử dụng các kiểm định thống kê Sử dụng kiểm chứng chéo Sử dụng kiểm chứng chéo

Ƣu điểm Nhanh, khơng phụ thuộc mơ hình học Cĩ thể lựa chọn đƣợc các đặc trƣng “tối ƣu” nhất Chi phí tính tốn thấp

Nhƣợc điểm Cĩ thể khơng lựa chọn đƣợc các đặc trƣng “hữu ích” nhất

Dễ bị “quá khớp” Ít bị “quá khớp”

1.3 Trích xuất đặc trƣng

- Trích xuất đặc trưng (Feature extraction): biến đổi khơng gian đặc trƣng ban đầu sang một khơng gian khác mà cĩ thể dễ dàng phân tích hơn. Hay nĩi cách khác là nĩ xây dựng một tập đặc trƣng mới từ tập đặc trƣng ban đầu với số đặc trƣng nhỏ hơn. x1 x2 ⋮ xN 𝑡𝑟í𝑐𝑕𝑥𝑢 ấ𝑡đặ𝑐𝑡𝑟ư𝑛𝑔 y1 y2 ⋮ yM =𝑓 x1 x2 ⋮ xN Hình 1.6 Trích xuất đặc trƣng.

Trích xuất đặc trƣng liên quan tới việc tạo ra tập đặc trƣng “mới” từ tập đặc trƣng ban đầu, thơng qua việc áp dụng một hàm hoặc một quá trình chuyển đổi. Trích xuất đặc trƣng thực hiện một số phép biến đổi từ đặc trƣng ban đầu để tạo ra các đặc trƣng mới (tập đặc trƣng đích) để cĩ thể dễ dàng phân tích hơn.

1.3.1 Mục tiêu của trích xuất đặc trưng

- Tăng hiệu năng của thuật tốn học do dữ liệu sau khi trích xuất cĩ thể dễ dàng phân tích hơn so với dữ liệu ban đầu.

- Trực quan hĩa dữ liệu đƣợc thực hiện dễ dàng hơn do dữ liệu sau phép biến đổi cĩ thể dễ dàng biểu diễn hơn so với dữ liệu gốc

- Giảm nhiễu và dƣ thừa.

1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng

Cách thức phân loại của các kỹ thuật trích xuất đặc trƣng thƣờng khác so với cách phân loại của các kỹ thuật lựa chọn đặc trƣng. Cĩ nhiều cách phân loại dựa trên các đặc điểm của kỹ thuật trích xuất. Trong khuơn khổ luận án này, chúng tơi tập trung phân loại các kỹ thuật trích xuất đặc trƣng thành hai loại là các phƣơng pháp cĩ giám sát và các phƣơng pháp khơng cĩ giám sát. Ngồi ra, cịn cĩ thể phân loại theo các mơ hình tuyến tính và mơ hình phi tuyến.

Các phương pháp khơng giám sát gồm: Phân tích thành phần chính (PCA), Phân tích giá trị riêng (SVD), Phân tích yếu tố (FA)…

Các phương pháp cĩ giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích thành phần độc lập (ICA)…

Các kỹ thuật khơng cĩ giám sát

Phân tích thành phần chính

Phân tích thành phần chính (Principal Component Analysis-PCA) là kỹ thuật rút gọn chiều đƣợc sử dụng rộng rãi trong các lĩnh vực nhƣ học máy, nén dữ liệu, phân tích hình ảnh, nhận dạng mẫu, dự đốn thời gian thực và trực quan hĩa dữ liệu. Giả sử các phần tử dữ liệu đƣợc biểu diễn bằng vector n chiều, phƣơng pháp phân tích thành phần chính sẽ tìm k vector trực giao n chiều cĩ thể dùng để biểu diễn dữ

liệu, với k ≤ n. Khi đĩ, phép chiếu trên khơng gian k chiều cho phép biểu diễn dữ liệu ban đầu bằng một khơng gian nhỏ hơn. Phƣơng pháp phân tích thành phần chính sẽ kết hợp các đặc trƣng ban đầu với nhau để tạo ra các đặc trƣng mới. Các đặc trƣng mới đƣợc gọi là thành phần chính và chúng cĩ số lƣợng ít hơn hoặc bằng các đặc trƣng ban đầu. PCA là một trong các kỹ thuật khơng cĩ giám sát bởi dữ liệu ban đầu khơng cĩ sẵn thơng tin về tin nhãn. PCA cĩ thể sử dụng để trích xuất các thơng tin liên quan nhiều nhất từ một tập dữ liệu cĩ chứa thơng tin dƣ thừa hoặc nhiễu.

Phân tích giá trị riêng (SVD)

Phân tích giá trị riêng[6] của một ma trận X cỡ n×d đƣợc thực hiện bằng tích của ba ma trận 𝐗=𝐔𝐒𝐕𝐓 (1.1) Trong đĩ: 𝐔 là ma trận trực giao cỡ n×n 𝐒 là ma trận cỡ n×d 𝐕𝐓 là ma trận nghịch đảo của 𝐕

SVD thƣờng đƣợc dùng để giảm chiều của ma trận bằng cách loại bỏ các cột khơng tiêu biểu hoặc khơng quan trọng.

Phân tích yếu tố

Phân tích yếu tố (Factor Analysis-FA) cũng là một mơ hình tuyến tính, nhƣng là mơ hình xác suất chứa biến ẩn. FA đƣợc đề xuất lần đầu tiên bởi các nhà tâm lý. FA giả sử rằng các biến đƣợc đo phụ thuộc vào một số yếu tố chung, khơng rõ và thƣờng khơng đo đạc đƣợc. Ví dụ điểm thi của sinh viên thƣờng liên quan, phụ thuộc vào yếu tố “thơng minh” của mỗi sinh viên. Mục tiêu của FA là khai thác các mối quan hệ nhƣ thế và cĩ thể đƣợc sử dụng để giảm chiều của tập dữ liệu theo một mơ hình yếu tố. Phân tích yếu tố là mơ hình dữ liệu cĩ nhiều ƣu điểm, cụ thể trong trƣờng hợp tập dữ liệu ban đầu cĩ chiều cao, thì phân tích yếu tố cho phép mơ hình hĩa dữ liệu trực tiếp bởi phân phối Gauss với ít tham biến hơn.

Các kỹ thuật cĩ giám sát

Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA) là một kỹ thuật cĩ giám sát; trong đĩ LDA tối đa hĩa độ tin cậy tuyến tính giữa dữ liệu của các lớp khác nhau. Tƣơng tự nhƣ PCA, LDA tìm kiếm một kết hợp tuyến tính của các đặc trƣng để dựng hàm phân lớp của các đối tƣợng. LDA mơ hình hĩa sự khác biệt giữa các lớp trong khi PCA khơng quan tâm tới những khác biệt này. LDA thƣờng đƣợc sử dụng với dạng dữ liệu cĩ kiểu số.

Phân tích thành phần độc lập

Phân tích thành phần độc lập (Independent Component Analysis-ICA) là một phƣơng pháp biến đổi tuyến tính, trong đĩ các đại diện mong muốn là một trong các thành phần phụ thuộc ít nhất vào các thành phần đại diện. Việc sử dụng các đặc trƣng trích xuất đƣợc phát triển theo lý thuyết về giảm sự dƣ thừa. Các thuật tốn ICA đƣợc chia thành hai loại: một là các thuật tốn đƣợc phát triển từ việc giảm thiểu thơng tin tƣơng hỗ; và loại thứ hai những thuật tốn khác đƣợc phát triển từ việc tối đa hĩa phân phối chuẩn.

1.4 Một số nghiên cứu về rút gọn đặc trƣng

1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng

Trong nghiên cứu [53], các tác giảphân chia các hƣớng nghiên cứu thành bốn nhĩm là hƣớng nghiên cứu dựa trên sự tƣơng quan, hƣớng nghiên cứu dựa trên thống kê, hƣớng nghiên cứu dựa trên lý thuyết thơng tin và hƣớng nghiên cứu dựa trên học thƣa.

1.4.1.1Hướng nghiên cứu dựa trên sự tương quan

Các thuật tốn lựa chọn đặc trƣng khác nhau sử dụng các tiêu chí khác nhau để xác định các đặc trƣng liên quan. Một số độ đo đƣợc sử dụng để đánh giá mức độ quan trọng của đặc trƣng là điểm số Laplace (Laplacian Score), điểm số Fisher, Relief-F…

Thuật tốn cứu trợ (Relief-F) là một trong những thuật tốn lựa chọn đặc trƣng phổ biến nhất do nĩ đơn giản và hoạt động hiệu quả. Tính chất của dữ liệu ảnh hƣởng tới việc thực hiện thuật tốn cứu trợ. Cụ thể, nếu dữ liệu cĩ nhiều nhiễu

thì Relief-F cĩ thể cho kết quả kém chính xác. Nếu trong tập dữ liệu cĩ giá trị ngoại lai (outlier) thì độ chính xác sẽ giảm nhiều hơn nữa. Vì vậy, cần phải hết sức cẩn thận khi chọn mẫu cho tập dữ liệu. Ngồi ra,Relief-F chỉ xếp hạng các đặc trƣng dựa trên mức độ quan trọng của từng đặc trƣng.Do đĩ, trong nghiên cứu [102], các tác giả đã lai ghép Relief-F với một thuật tốn di truyền nhằm lựa chọn các đặc trƣng tối ƣu. Các tham số của thuật tốn di truyền đƣợc xác định một cách phù hợp dựa vào số đặc trƣng đƣợc lựa chọn từ Relief-F.

Nhận xét:Ƣu điểm của các phƣơng pháp lựa chọn đặc trƣng dựa trên sự tƣơng quan là tƣơng đối đơn giản và dễ hiểubởi cơng việc tính tốn chỉ tập trung vào xây dựng ma trận tƣơng quan sau đĩ tính điểm số cho từng đặc trƣng. Do cĩ hiệu suất cao nên chúng thƣờng đƣợc sử dụng cho các bài tốn phân lớp. Các phƣơng pháp này cũng độc lớp với các thuật tốn học khi lựa chọn các đặc trƣng. Tuy nhiên, nhƣợc điểm của các phƣơng pháp này là khơng thể xác định đƣợc các đặc trƣng dƣ thừa bởi chúng cĩ thể lặp lại việc tìm kiếm các đặc trƣng cĩ độ tƣơng quan cao trong suốt quá trình lựa chọn.

1.4.1.2Hướng nghiên cứu dựa trên thống kê

Các độ đo thống kê cũng đƣợc sử dụng để làm tiêu chuẩn lựa chọn đặc trƣng. Các phƣơng pháp lựa chọn đặc trƣng sử dụng độ đo thống kê đƣợc xếp vào nhĩm các phƣơng pháp lọc do chúng khơng phụ thuộc vào thuật tốn học mà chỉ đánh giá đặc trƣng dựa trên các độ đo thống kê. Các phƣơng pháp này cĩ thể khơng loại bỏ đƣợc các đặc trƣng dƣ thừa trong pha lựa chọn do chúng chỉ đánh giá các đặc trƣng một cách độc lập. Một số độ đo hay đƣợc sử dụng là: phƣơng sai thấp (Low Variance), điểm số T (T-score), điểm số F (F-score), X2, chỉ số Gini.

Nhận xét: Các phƣơng pháp lựa chọn đặc trƣng dựa trên thống kê sử dụng các độ đo để loại bỏ các đặc trƣng khơng mong muốn. Với ƣu điểm đơn giản, dễ hiểu và chi phí tính tốn thấp, chúng thƣờng đƣợc sử dụng trong bƣớc tiền xử lý sau đĩ mới áp dụng cho các phƣơng pháp lựa chọn đặc trƣng phức tạp khác. Giống nhƣ các phƣơng pháp lựa chọn đặc trƣng dựa trên sự tƣơng quan, các phƣơng pháp này đánh giá độ quan trọng của các đặc trƣng một cách độc lập nên khơng thể loại bỏ

đƣợc các đặc trƣng dƣ thừa. Một nhƣợc điểm khác của các phƣơng pháp này là chúng chỉ cĩ thể làm việc với dữ liệu rời rạc. Các biến kiểu số hay liên tục cần phải xử lý rời rạc hĩa trƣớc khi đƣợc áp dụng.

1.4.1.3Hướng nghiên cứu trên lý thuyết thơng tin

Phần lớn các thuật tốn lựa chọn đặc trƣng hiện cĩ là dựa trên lý thuyết thơng tin. Các thuật tốn này sử dụng điều kiện lọc theo kinh nghiệmđể đánh giá độ quan trọng của đặc trƣng. Hầu hết các thuật tốn dựa trên khái niệm entropy để đo sự khơng chắc chắn của một biến ngẫu nhiên rời rạc. Độ lợi thơng tin (Information Gain) giữa hai biến X và Y đƣợc sử dụng để đo lƣợng thơng tin dùng chung của X và Y. Một số thuật tốn lựa chọn đặc trƣng dựa trên lý thuyết thơng tin:

- Độ lợi thơng tin (Information Gain): đo sự quan trọng của đặc trƣng bằng mối tƣơng quan của nĩ với nhãn lớp. Giả sử rằng một đặc trƣng cĩ độ tƣơng quan cao với nhãn lớp thì nĩ cĩ thể giúp đạt hiệu suất phân lớp tốt. Cơng việc đánh giá độ quan trọng của từng đặc trƣng đƣợc thực hiện riêng biệt, do đĩ nĩ cĩ thể bỏ qua các đặc trƣng dƣ thừa. Sau khi cĩ đƣợc điểm số của các đặc trƣng, cĩ thể lựa chọn ra các đặc trƣng cĩ điểm số cao nhất.

- Lựa chọn đặc trƣng dựa trên thơng tin tƣơng hỗ (Mutual Information): nhƣợc điểm của phƣơng pháp độ lợi thơng tin là việc giả thiết các đặc trƣng là độc lập với nhau. Trong thực tế, một đặc trƣng đƣợc gọi là tốt nếu nĩ liên quan cao với nhãn lớp và khơng liên quan tới các đặc trƣng khác. Nĩi cách khác cần làm giảm mối liên quan giữa các đặc trƣng. Phƣơng pháp này xem xét cả các đặc trƣng liên quan và các đặc trƣng dƣ thừa trong pha lựa chọn đặc trƣng.

- Liên quan nhiều nhất-dƣ thừa ít nhất (Minimum Redundancy Maximum Relevance-mRMR): Peng và cộng sự [76] đề xuất điều kiện liên quan nhiều nhất- dƣ thừa ít nhất để lựa chọn số đặc trƣng cần chọn. Thuật tốn giúp cho việc lựa chọn càng nhiều đặc trƣng, ảnh hƣởng của các đặc trƣng dƣ thừa càng giảm.

- Thơng tin tƣơng hỗ chung (Joint Mutual Information): Meyer và cộng sự [64] đề xuất điều kiện thơng tin tƣơng hỗ chung nhằm tăng cƣờng thơng tin bổ sung đƣợc chia sẻ giữa các đặc trƣng chƣa đƣợc chọn và đặc trƣng đã đƣợc chọn.

Nhận xét:khác với các phƣơng pháp lựa chọn đặc trƣng dựa trên sự tƣơng quan, hầu hết các phƣơng pháp lựa chọn đặc trƣng dựa trên lý thuyết thơng tin cĩ thể xác định đƣợc các đặc trƣng liên quan và các đặc trƣng dƣ thừa. Cũng giống nhƣ các phƣơng pháp dựa trên sự tƣơng quan, các phƣơng pháp dựa trên lý thuyết thơng tin là độc lập với thuật tốn học. Do đĩ, các phƣơng pháp này thƣờng chỉ phù hợp với bài tốn phân lớp. Do khơng cĩ sự hƣớng dẫn của nhãn lớp nên khơng thể xác định rõ ràng việc đánh giá mức quan trọng của các đặc trƣng. Ngồi ra, các phƣơng pháp này chỉ cĩ thể áp dụng cho dữ liệu rời rạc do đĩ các biến số liên tục cần phải đƣợc xử lý rời rạc hĩa.

1.4.1.4Hướng nghiên cứu dựa trên học thưa (Sparse learning)

Trong những năm gần đây, các phƣơng pháp lựa chọn đặc trƣng dựa trên học thƣa đã đƣợc nhiều nhà nghiên cứu quan tâm do hiệu suất tốt và dễ hiểu. Hƣớng nghiên cứu dựa trên học thƣa cĩ mục tiêu là giảm thiểu lỗi với một số qui tắc thƣa. Các qui tắc thƣa làm chocác hệ số của đặc trƣngthu nhỏ dần (hoặc chính xác bằng 0) và sau đĩ các đặc trƣng tƣơng ứng cĩ thể đƣợc loại bỏ một cách dễ dàng. Một số phƣơng pháp lựa chọn đặc trƣng dựa trên học thƣa:

Lựa chọn đặc trƣng với qui tắc chuẩn ℓ𝑝: phƣơng pháp này đƣợc áp dụng cho bài tốn phân lớp nhị phân hoặc hồi qui đa biến. Để lựa chọn đặc trƣng điều kiện giới hạn thƣa ℓ𝑝𝑛𝑜𝑟𝑚 đƣợc đƣa vào mơ hình, trong đĩ 0≤ 𝑝 ≤ 1. Cĩ thể lựa chọn đặc trƣng bằng cách lựa chọn các đặc trƣng cĩ trọng số lớn. Thơng thƣờng trọng số càng cao thì độ quan trọng của đặc trƣng càng lớn. Các phƣơng pháp lựa chọn đặc trƣng theo ℓ1-norm gồm cĩ [98][96][36].

Lựa chọn đặc trƣng với qui tắc chuẩn ℓ𝑝,𝑞 : phƣơng pháp này đƣợc áp dụng cho bài tốn phân lớp đa nhãn hoặc hồi qui đa biến. Các bài tốn này tƣơng đối khĩ

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 29)

Tải bản đầy đủ (PDF)

(120 trang)