KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.4.1. Dữ liệu thử nghiệm

Cơ sở dữ liệu điện tim MIT-BIH [5] được sử dụng đểđánh giá hiệu năng của mô hình phân lớp. Cơ sở dữ liệu này là kết quả của một dự án hợp tác giữa học viện kỹ thuật Massachusetts và bệnh viện Boston's Beth Israel. Kết quả dự án là hình thành một cơ sở dữ liệu về điện tim đầy đủ, phong phú, được thu từ nhiều đối tượng bệnh nhân khác nhau. CSDL MIT-BIH đã được sử dụng rộng rãi trong nghiên cứu và học tập trên thế giới.

Cơ sở dữ liệu này gồm 48 bản ghi, mỗi bản ghi lưu trữ một điện tâm đồ trong khoảng thời gian 30 phút. Tần số lấy mẫu của tín hiệu điện tim là 250Hz. Với thử nghiệm này dùng 180 mẫu dữ liệu được chọn ngẫu nhiên từ cơ sở dữ liệu được trích ra làm dữ liệu huấn luyện. Trong đó 60 bản ghi kiểu NSR, 60 bản ghi kiểu VF và 60 bản ghi kiểu VT.

3.4.2. Kết quả thử nghiệm và đánh giá

Mô hình mờ loại 2 khoảng được thử nghiệm cùng mô hình mờ loại 1 nhằm đánh giá hiệu năng của hệ mờ loại 2 khoảng so với hệ mờ loại một. Tập mờ loại 1 cơ sở khi thiết kế FOU được sử dụng để xây dựng mô hình mờ loại một. Trong quá trình thử nghiệm, hệ số b trong hàm thuộc hình chuông tổng quát được điều chỉnh đểđánh giá sựảnh hưởng của hình dạng tập mờ tới hiệu năng của mô hình. Các tập mờ loại hai khoảng xây dựng từ dữ liệu được mô tả trong hình 3.8, 3.9 và 3.10

Hình 3.8. Các tập mờ loại hai khoảng với b= 0.6

Hình 3.10. Các tập mờ loại hai khoảng với b= 3

Kết quả thực nghiệm được trình bày trong bảng 2. Kết quả cho thấy mô hình mờ loại hai khoảng có hiệu năng tốt hơn và ổn định hơn so với hệ mờ loại 1 khi giải quyết bài toán phân lớp mà dữ liệu có nhiễu. Kết quả này cũng chỉ ra hiệu năng của mô hình mờ loại 1 không ổn định khi điều chỉnh dạng của tập mờ giả thiết. Trong khi mô hình phân lớp mờ loại 2 khoảng có hiệu năng gần như không đổi với các dạng tập mờ khác nhau. Cả hai mô hình mờ loại 1 và loại 2 đều đạt được độ chính xác cao nhất với tập mờ có hàm thuộc dạng Gaussian chuẩn (b = 1) và độ chính xác thấp nhất với b>3.

Bảng 2: Kết quả phân lớp tập dữ liệu (%) của hệ mờ loại một và hệ

mờ loại hai

Type-1 Fuzzy Classifier Type-2 khoảng Fuzzy

Classifier b=0.6 b=1 b=3 b=0.6 b =1 b =3 VF 80 86.6 73.3 93.3 93.3 93.3 VT 80 84 76 92 92 88 NSR 100 100 100 100 100 100

CHƯƠNG 4. SỬ DỤNG GIẢI THUẬT DI TRUYỀN (GA) ĐỂ TỐI ƯU

THAM SỐ HỆ MỜ

4.1. GIỚI THIỆU

Với mô hình mờ sử dụng logic mờ loại 2 khoảng đơn trị thì khả năng làm việc với nhiễu hiệu quả chưa cao. Do đó, hệ mờ không đơn trị được chọn vì nó thích hợp hơn hệ mờ đơn trị khi làm việc với nhiễu. Giải thuật di truyền được dùng để tối ưu hóa đồng thời hàm thuộc và cơ sở luật.Chương này trình bày khả năng của hệ mờ ko đơn trị và giải thuật di truyền để xử lý nhiễu trong các bài toán phân loại mẫu. Hiệu năng của các hệ thống đơn trị và ko đơn trị được so sánh với nhau trong bài toán phân lớp điện tim. Các kết quả chỉ ra rằng hệ mờ không đơn trị làm việc với nhiễu hiệu quả hơn, vì vậy cho phép phân loại dựa trên các đặc trưng được trích chọn.

Các thành phần của một bộ phân loại và trình tự thiết kế bộ phân loại được chỉ ra trên hình 4.1. Bước trích chọn đặc trưng biến đổi dữ liệu đầu vào (trong không gian quan sát) thành các véc tơ đặc trưng (trong không gian đặc trưng). Không gian đặc trưng có số chiều ít hơn nhiều so với không gian quan sát. Bước tiếp theo là biến đổi từ không gian đặc trưng sang không gian quyết định được định nghĩa bởi tập các lớp (xác định). Một bộ phân loại, hay một thuật toán, sẽ sinh ra một phân hoạch của không gian đặc trưng bởi các miền quyết định. Sau khi thiết kế bộ phân loại với hiệu năng mong muốn, ta có thể sử dụng nó để phân loại các đối tượng mới. Điều này có nghĩa là bộ phân loại sẽ gán từng véc tơ đặc trưng trong không gian đặc trưng với một lớp trong không gian quyết định.

Hình 4.1. Các thành phần và trình tự thiết kế bộ phân loại sử dụng GA

Việc lựa chọn chính xác các đặc trưng có lẽ là nhiệm vụ khó khăn nhất trong bài toán phân loại mẫu. Những đặc trưng thừa hay không thích hợp ảnh hưởng đến hiệu năng của hầu hết các thuật toán học máy hay phân loại mẫu. Việc lựa chọn tập các đặc trưng hữu ích từ một tập khổng lồ các đặc trưng giúp ích trong việc tìm ra thuật toán học hiệu quả cho bài toán phân loại mẫu cũng như bài toán học máy nhằm hiểu rõ hơn về dữ liệu khi khai phá tri thức. Do có nhiều cách lựa chọn thuật toán nên độ khó khi trích chọn đặc trưng cũng rất đa dạng. Chi phí tính toán có thểđược giảm đi bằng cách sử dụng các đặc trưng dễ trích chọn. Tuy nhiên, những đặc trưng này lại ẩn chứa nhiều

thông tin không cần thiết có thể dẫn tới việc phân loại sai. Hơn nữa, trong các ứng dụng ta luôn phải đối mặt với nhiễu. Nguyên nhân của chúng là do nhiễu điện trong các thiết bị trích chọn hoặc thao tác các thiết bị không đúng.

Chương này chỉ ra rằng giải thuật di truyền tốt hơn hệ mờ đơn trị khi có nhiễu trong các đặc trưng được trích chọn. Điều này rất hữu ích khi không thể tránh khỏi sự nhập nhằng trong dữ liệu đầu vào.

4.2. TỔNG QUAN VỀ GIẢI THUẬT DI TRUYỀN 4.2.1. Giải thuật di truyền 4.2.1. Giải thuật di truyền

Giải thuật di truyền do D.E. Goldberg đề xuất, được L. Davis và Z. Michalevicz phát triển. Giải thuật di truyền là giải thuật bắt chước sự chọn lọc tự nhiên và di truyền. Trong tự nhiên, các cá thể khoẻ, có khả năng thích nghi tốt với môi trường sẽ được tái sinh và nhân bản ở các thế hệ sau. Mỗi cá thể có cấu trúc gien đặc trưng cho phẩm chất của cá thểđó. Trong quá trình sinh sản, các cá thể con có thể thừa hưởng các phẩm chất của cả cha và mẹ, cấu trúc gien của nó mang một phần cấu trúc gien của cha và mẹ. ngoài ra, trong quá trình tiến hoá, có thể xảy ra hiện tượng đột biến, cấu trúc gien của cá thể con có thể chứa các gien mà cả cha và mẹ đều không có. Giải thuật di truyền là giải thuật tìm kiếm dựa trên các cơ chế của chọn lọc tự nhiên, di truyền học và tiến hoá. Giải thuật di truyền khác các giải thuật tìm kiếm ngẫu nhiên khác ở chỗ chúng sử dụng lựa chọn ngẫu nhiên như một công cụđể chỉ đường khai thác các thông tin trong quá khứ để dự báo các điểm tìm kiếm mới, với hy vọng cải thiện sự thể hiện của các cấu trúc chuỗi. Giải thuật di truyền đã được chứng minh bằng lý thuyết và thực nghiệm là các giải thuật tìm kiếm toàn cục mạnh và hiệu quả trong không gian phức tạp. Giải thuật này tuy mạnh song việc thực thi của chúng trong máy tính rất đơn giản. Ngoài ra việc sử dụng giải thuật di truyền cho việc tìm kiếm như tính liên tục, sự tồn tại của các đạo hàm và các vấn đề khác.

Giải thuật di truyền khác các giải thuật tìm kiếm truyền thống ở bốn điểm cơ bản là:

− Giải thuật di truyền làm việc với mã của tập thông số chứ không làm việc với các thông số.

− Giải thuật di truyền tìm kiếm từ một quần thể các điểm chứ không phải từ một điểm.

− Giải thuật di truyền chỉ sử dụng thông tin của hàm mục tiêu mà không dùng bất kỳ thông tin nào khác.

− Giải thuật di truyền sử dụng các luật chuyển đổi mang tính xác suất chứ không phải là các luật chuyển đổi mang tính tiền định.

Mỗi cá thểđược mã hoá bởi một cấu trúc dữ liệu gien của cá thểđó, ta sẽ gọi nó là nhiễm sắc thể (chroniosome). Mỗi nhiễm sắc thểđược tạo thành từ các đơn vị được gọi là gien. Giải thuật di truyền yêu cầu các thông số của bài toán tìm kiếm phải được mã hoá thành một chuỗi hữu hạn các ký tự trên một tập hữu hạn các ký tự. Chuỗi này tương tự như các chuỗi gen của các cơ thể sinh vật. Có rất nhiều cách để mã hoá tập thông số. Một cách đơn giản là chúng ta có thể mã hoá thành các chuỗi bit trên tập ký tự {0,1}. Mỗi một chuỗi đại diện cho một điểm tìm kiếm trong không gian. Giải thuật di truyền khởi tạo một quần thể các chuỗi một cách ngẫu nhiên sau đó sẽ sản sinh các quần thể tiếp theo thông qua việc sử dụng lựa chọn ngẫu nhiên như một công cụ. Nhờ đó giải thuật tìm kiếm trên nhiều điểm song song có khả năng leo lên nhiều cực trị cùng một lúc. Thông qua các toán tử, giải thuật di truyền trao đổi thông tin giữa các cực trị đó với nhau, từ đó làm giảm thiểu khả năng giải thuật kết thúc tại các cực trị địa phương. Điều này giải thích vì sao giải thuật di truyền mang tính tìm kiếm toàn cục.

Giải thuật di truyền (GA) kinh điển sử dụng sơ đồ mã hoá nhị phân và các toán tử di truyền truyền thống. Ngày nay đã có nhiều biến thể của nó:

− Giải thuật di truyền mã hoá số thực: Mỗi cá thể được mã hoá là một vectơ thực. Một quần thể có thể xem như một mảng 2 chiều mà mỗi dòng là một cá thể. Với cách mã hoá này các toán tử di truyền cũng được đề xuất rất đa dạng.

− Chiến lược tiến hoá (ES- Evolutionary Stratyegies) được phát triển từ những năm 60 bởi I. Rechenberg. Giống như GA mã hoá số thực, ES sử dụng trong các bài toán tối ưu giá trị thực. Trong ES mỗi cá thể được biểu diễn như một vectơ số thực mà thực chất gồm 2 phần: ) ,..., , ,..., (x1 xn 1 n b= δ δ

Nửa thứ nhất của vectơ tương ứng như mã hoá số thực của GA. Nửa thứ hai gồm các σi xác định độ lệch chuẩn tương ứng cho toán tửđột biến. Trong ES, các toán tử di truyền cũng sử dụng tương tự như GA, song ở đây toán tử đột biến đóng vai trò trung tâm.

Giải thuật di truyền hình thành dựa trên quan niệm cho rằng: quá trình tiến hoá tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó đã mang tính tối ưu.

4.2.2. Biểu diễn các cá thể và các toán tử di truyền

4.2.2.1. Biểu diễn các cá thể

Giải thuật di truyền sử dụng các mã hoá nhị phân, mỗi cá thể là một chuỗi bit, thông qua các toán tử di truyền, các chuỗi bit này được biến đổi và tiến hoá. Mỗi chuỗi bit sau đó được giải mã để tính lại tập thông số và qua đó tính được giá trị của hàm mục tiêu tại từng điểm riêng biệt trong không gian tìm kiếm. Giá trị của hàm mục tiêu này, tuỳ từng bài toán là cực tiểu hay cực đại, sau đó được biến đổi thành giá trị độ phù hợp cho từng chuỗi. Quần thể chuỗi ban đầu được khởi tạo một cách ngẫu nhiên sau đó tiến hoá từ thế hệ này sang thế hệ khác, song tổng số chuỗi trong mỗi quần thể được giữ nguyên.

4.2.2.2. Biểu diễn các toán tử di truyền

Giải thuật di truyền sẽ làm việc trên các quần thể gồm nhiều cá thể. Một quần thểứng với một giai đoạn phát triển sẽđược gọi là một thế hệ. Từ thế hệ ban đầu được tạo ra. Giải thuật di truyền bắt chước chọn lọc tự nhiên và di truyền để biến đổi các thế hệ. Giải thuật di truyền sử dụng có 4 toán tử là:

− Chọn lọc − Lai ghép − Đột biến − Tái tạo

Mặc dù toán tử chọn lọc và lai ghép tạo ra các chuỗi mới song chúng không đưa vào quần thể những thông tin mới ở mức gen. Toán tử đột biến duyệt lần lượt các gen của các cá thể con và tiến hành biến đổi gen từ 1 sang 0 hoặc từ 0 sang 1 với xác suất pm. Xác suất đột biến phải nhỏ vì thực tế toán tử đột biến là toán tử tìm kiếm ngẫu nhiên. Với xác suất pm lớn giải thuật di truyền trở thành giải thuật tìm kiếm ngẫu nhiên.

procedure Genetic_Algorithm;

begin

t ← 0;

Khởi tạo thế hệ ban đầuP(t);

Đánh giáP(t) (theo hàm thích nghi);

repeat t ← t + 1; Sinh ra thế hệ mới P(t) từ P(t-1) bởi • Chọn lọc • Lai ghép • Đột biến Đánh giá P(t);

until Điều kiện kết thúc được thoả mãn;

end;

Trong thủ tục trên, điều kiện kết thúc vòng lặp có thể là một số thế hệđủ lớn nào đó, hoặc độ thích nghi của cá thể tốt nhất trong các thế hệ kế tiếp nhau khác nhau không đáng kể. Khi thuật toán dừng, cá thể tốt nhất trong thế hệ cuối cùng được chọn làm nghiệm cần tìm.

4.2.3. Nền tảng toán học của giải thuật di truyền

4.2.3.1. Một số khái niệm

Không mất tính tổng quát chúng ta xét các chuỗi trên tập ký tự V={0,1}. Để thuận tiện chúng ta ký hiệu chuỗi là những ký tự hoa còn các ký tự của chuỗi chúng ta dùng các ký tự thường. Ví dụ chuỗi 7 bit A=0111000 có thể được biểu diễn một cách tượng trưng như sau: A=a1a2a3a4a5a6a7 ở đây ai đại diện cho gen thứ I của chuỗi. Tại mỗi thế hệ t chúng ta có quần thể A(t) và các chuỗi được đánh số thứ tự là Aj, j=1,2,…,n. Chúng ta đưa thêm ký tự *, hay còn gọi là ký tự không quan trọng. Nó có thể đại diện cho bất kỳ ký tự nào. Ví dụ giản đồi *0000 đại diện cho hai chuỗi là {10000,00000} trong tập ký tự {0,1}. Lúc này chúng ta có tập ký tự mở rộng là V+ ={0,1,*}. Chúng ta dễ nhận thấy ngay là với tập ký tự mở rộng này chúng ta có 3l giản đồ có độ dài là l, và có n.2l giản đồ có trong quần thể n chuỗi nhị phân độ dài l.

Bậc của giản đồ H, ký hiệu là o(H), là số các vị trí cốđịnh trong giản đồ. Ví dụ với giản đồ 011*1**có bậc là 4, ký pháp o(011*1**)=4. Độ dài của giản đồ H, ký hiệu là δ(H), là khoảng cách giữa vị trí cốđịnh đầu tiên và vị trí cố định cuối cùng. Ví dụ giản đồ 011*1** có độ dài là 4 và giản đồ 0****** có độ dài là 0. 4.2.3.2. Định lý giản đồ Giả sử tại một thời điểm t có m mẫu của giản đồ H, m=m(H,t), trong thế hệ A(t). Trong quá trình chọn lọc, một chuỗi được sao chép theo độ phù hợp

của nó hay chính xác hơn chuỗi Ai sẽ được chọn với xác suất là ∑ = j i i f f P .

Sau khi thay thế quần thể A(t) bằng quần thể tiếp theo A(t+1) số mẫu của giản đồ H có trong quần thể mới là ∑× × = + j f H f n t H m t H m( , 1) ( , ) ( ), ở đây f(H) là giá trị độ phù hợp trung bình của các chuỗi chứa giản đồ H tại thời điểm t. Vì giá trị độ phù hợp trung bình của toàn quần thể là:

n f f = ∑ j

Nên chúng ta có thể viết phương trình phát triển giản đồ như sau:

f H f t H m t H m( , +1)= ( , )× ( ) (4.1) Bằng lời chúng ta có thể phát biểu là mẫu của các giản đồ phát triển theo tỷ số của giá trị độ phù hợp trung bình của giản đồ và giá trị độ phù hợp của toàn bộ quần thể. Như vậy đối với những giản đồ có giá trị độ phù hợp trung bình lớn hơn giá trị độ phù hợp trung bình của toàn quần thể sẽ có số mẫu tăng trong thế hệ tiếp theo và ngược lại đối với các giản đồ có giá trị độ phù

BÀI TOÁN PHÂN LỚP TÍN HIỆU ĐIỆN TIM

Kết quả thử nghiệm và đánh giá