Cơ sở lí luận của phƣơng pháp đề xuất

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 39)

Chƣơng 1 đã trình bày: “Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tƣợng thành n-hữu hạn lớp đã biết trƣớc. Tập đối tƣợng cần phân lớp đƣợc đặc trƣng bởi một tập các thuộc tính chứa các thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính đƣợc đại diện bởi một tập các thuộc tính – giá trị. Các thuộc tính không liên quan hoặc thừa có thể có những ảnh hƣởng tiêu cực đối với các giải thuật phân lớp.” Vì vậy, để tăng hiệu quả của thuật toán phân lớp chúng ta cần phải thực hiện việc lựa chọn các thuộc tính hữu ích, loại bỏ các thuộc tính nhiễu, thuộc tính dƣ thừa. Có nhiều thuật toán để chọn ra đƣợc tập con các thuộc tính tốt nhất từ tập các thuộc tính ban đầu nhƣ leo đồi, tham lam, giải thuật di truyền,…Nếu trong trƣờng hợp không gian tìm kiếm nhỏ, các phƣơng pháp tìm kiếm cổ điển cũng đủ thích hợp, nhƣng khi không gian lớn cần phải dùng đến những kỹ thuật Trí Tuệ Nhân Tạo

đặc biệt. Thuật giải di truyền là một trong những kỹ thuật đó.

Từ nội dung của thuật giải di truyền đƣợc trình bày ở chƣơng 2, ta thấy việc khởi tạo thế hệ ban đầu P mang tính ngẫu nhiên, thế hệ mới sinh ra thông qua toán tử chọn lọc, lai ghép, và đột biến đều tuân theo một xác suất nào đó. Xác suất đột biến cần là xác suất thấp. Để khắc phục các hạn chế của vấn đề chọn ngẫu nhiên, luận văn đề xuất phƣơng án dựa trên thuật giải di truyền nhƣ sau:

- Tạo ra các bộ thuộc tính con từ tập thuộc tính ban đầu bằng phƣơng pháp kết hợp việc chọn ngẫu nhiên với việc phân bố đều các thuộc tính của tập dữ liệu ban đầu.

- Không thực hiện việc lai ghép, đột biến để tạo ra các bộ thuộc tính mới mà thực hiện việc đánh giá các bộ thuộc tính vừa tạo ra ở trên, dựa vào đó đánh giá các thuộc tính để chọn ra các thuộc tính có độ phù hợp cao.

- Dùng thuật toán học máy để đánh giá các bộ thuộc tính. Cụ thể, phƣơng pháp đề xuất đƣợc trình bày chi tiết ở phần tiếp theo.

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 39)