Vùng dữ liệu

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình phối hợp các mạng Nơrôn nhận dạng tín hiệu điện tim (ECG) (Trang 50 - 54)

Hình A (bên trái) trình bày một tập dữ liệu đơn giản với hai đặc tính (tọa độ x và y) được gán thành hai nhóm (hình tam giác và hình chữ thập) và tách thành hai vùng riêng biệt, có thể đại diện cho các cổ phiếu có lợi nhuận dương và âm trong một năm nhất định.

Hai vùng này có thể dễ dàng phân tách bằng nhiều đường thẳng; ba trong số chúng được hiển thị trong hình B (bên phải). Dữ liệu được phân tách tuyến tính và bất kỳ đường thẳng nào được hiển thị sẽ được gọi là phân loại tuyến tính - một phân loại nhị phân dựa trên sự kết hợp tuyến tính đặc trưng của từng điểm dữ liệu.

Ý tưởng đằng sau thuật toán SVM là tối đa hóa xác suất đưa ra dự đốn chính xác bằng cách xác định đường biên cách các quan sát xa nhất.

Hình 2.17. SVM phân tách dữ liệu bằng dải bóng mờ chia các quan sát thành hai

nhóm. Đường thẳng ở giữa dải bóng mờ là đường biên (boundary).

* Ứng dụng

SVM có nhiều ứng dụng trong quản lý đầu tư. Nó đặc biệt phù hợp với các tập dữ liệu có qui mơ từ nhỏ đến trung bình nhưng phức tạp, chẳng hạn như báo cáo tài chính doanh nghiệp hoặc cơ sở dữ liệu phá sản. Các nhà đầu tư tìm cách dự đốn các cơng ty hoạt động kém hiệu quả để xác định cổ phiếu để tránh đầu tư hoặc bán khống.

SVM có thể tạo ra một phân loại nhị phân (ví dụ: có khả năng phá sản so với khó có khả năng phá sản) bằng cách sử dụng nhiều biến số cơ bản và kĩ thuật. SVM có thể nhanh chóng nắm bắt các đặc điểm của dữ liệu đó với nhiều tính năng trong khi vẫn linh hoạt với các điểm dữ liệu bất thường và các đặc tính tương quan.

SVM cũng có thể được sử dụng để phân loại văn bản từ các tài liệu (ví dụ: tin tức, thông báo của các công ty và báo cáo thường niên của cơng ty) thành các nhóm hữu ích cho các nhà đầu tư (ví dụ: tâm lí tích cực và tâm lí tiêu cực).

2.6.4. Rừng ngẫu nhiên RF

Random Forest (rừng ngẫu nhiên) [10] là phương pháp học tập thể (ensemble) để phân loại, hồi quy được phát triển bởi Leo Breiman tại đại học California, Berkeley. Breiman cũng đồng thời là đồng tác giả của phương pháp CART [12].

Random Forest (RF) là phương pháp cải tiến của phương pháp tổng hợp bootstrap (bagging). RF sử dụng 2 bước ngẫu nhiên, một là ngẫu nhiên theo mẫu (sample) dùng phương pháp bootstrap có hồn lại (with replacement), hai là lấy ngẫu nhiên một lượng thuộc tính từ tập thuộc tính ban đầu. Các tập dữ liệu con (sub-dataset) được tạo ra từ 2 lần ngẫu nhiên này có tính đa dạng cao, ít liên quan đến nhau, giúp

giảm lỗi phương sai (variance). Các cây CART được xây dựng từ tập các tập dữ liệu con này tạo thành rừng. Khi tổng hợp kết quả, RF dùng phương pháp bỏ phiếu (voting) cho bài tốn phân loại và lấy giá trị trung bình (average) cho bài toán hồi quy. Việc kết hợp các mơ hình CART này để cho kết quả cuối cùng nên RF được gọi là phương pháp học tập thể.

Đối với bài toán phân loại, cây CART sử dụng công thức Gini như là một hàm điều kiện để tính tốn điểm tách nút của cây. Số lượng cây là không hạn chế, các cây trong RF được xây dựng với chiều cao tối đa.

Trong những năm gần đây, RF được sử dụng khá phổ biến bởi những điểm vượt trội của nó so với các thuật tốn khác: xử lý được với dữ liệu có số lượng các thuộc tính lớn, có khả năng ước lượng được độ quan trọng của các thuộc tính, thường có độ chính xác cao trong phân loại (hoặc hồi quy), quá trình học nhanh.

Trong RF, mỗi cây chỉ chọn một tập nhỏ các thuộc tính trong quá trình xây dựng (bước ngẫu nhiên thứ 2), cơ chế này làm cho RF thực thi với tập dữ liệu có số lượng thuộc tính lớn trong thời gian chấp nhận được khi tính tốn. Người dùng có thể đặt mặc định số lượng các thuộc tính để xây dựng cây trong rừng, thơng thường giá trị mặc định tối ưu là √𝑝 cho bài toán phân loại và 𝑝⁄3 với các bài toán hồi quy (p là số lượng tất cả các thuộc tính của tập dữ liệu ban đầu). Số lượng các cây trong rừng cần được đặt đủ lớn để đảm bảo tất cả các thuộc tính đều được sử dụng một số lần. Thơng thường là 500 cây cho bài tốn phân loại, 1000 cây cho bài toán hồi quy. Do sử dụng phương pháp bootstrap lấy mẫu ngẫu nhiên có hồn lại nên các tập dữ liệu con có khoảng 2/3 các mẫu khơng trùng nhau dùng để xây dựng cây, các mẫu ngày được gọi là in-bag. Khoảng 1/3 số mẫu còn lại gọi là out-of-bag, do không tham gia vào việc xây dựng cây nên RF dùng luôn các mẫu out-of-bag này để kiểm thử và tính tốn độ quan trọng thuộc tính của các cây CART trong rừng.

2.7. Kết luận chương 2

Trong chương này đã trình bày tổng quan về mạng nơ-rôn và một số ứng dụng của nó. So với các phương pháp truyền thống thì mạng nơ-rơn có một khả năng vượt trội, tuy nhiên để ứng dụng nó thành cơng cũng cần nghiên cứu nhiều khía cạnh về đào tạo mạng nơ-rôn, như lựa chọn cấu trúc mạng nơ-rôn, thiết kế tập mẫu học (nếu sử dụng phương pháp học có giám sát), và sau q trình học phải tạo ra mạng nơ-rơn có tính tổng qt cao để có thể đem ứng dụng thực tế được tốt.

Mạng nơ-rôn nhân tạo là hướng tiếp cận mới trong công tác nhận dạng và dự báo đã nhận được sự quan tâm đặc biệt của một số nhóm nghiên cứu trên thế giới. ANN được coi là công cụ mạnh để giải quyết các bài tốn có tính phi tuyến, phức tạp.

Trên cơ sở nghiên cứu, tìm hiểu về mạng nơ-rơn và một số ứng dụng của nó. Chương tiếp theo là ứng dụng, phối hợp một số mạng nơ-rôn để nhận dạng tín hiệu điện tim nhằm nâng cao độ chính xác.

Chương 3. XÂY DỰNG MƠ HÌNH PHỐI HỢP CÁC MẠNG NƠ-RƠN NHẬN DẠNG TÍN HIỆU ĐIỆN TIM

Định hướng của luận văn là xây dựng giải pháp kết hợp nhiều mạng nơ-rơn nhằm tăng độ chính xác so với các mơ hình nhận dạng đơn ban đầu. Luận văn sử dụng cây quyết định để thực hiện việc kết hợp này. Để kiểm nghiệm chất lượng của đề xuất, luận văn sử dụng kết quả các mơ hình nhận dạng đơn MLP, TSK, SVM và RF để tạo ra các mơ hình kết hợp khác nhau. Như đã trình bày ở trên, các mơ hình đơn này được lựa chọn làm các mơ hình nhận dạng cơ sở vì đây là các mơ hình đã có các kết quả đã được cơng bố trên các tạp chí và hội thảo quốc tế nên đảm bảo được sự khách quan và tính chính xác, đồng thời cũng là những kết quả đươc thực hiện trên cùng một bộ số liệu đầu vào nên việc so sánh sẽ thuận tiện và có tính thuyết phục. Nội dung chính của chương 3 gồm:

- Đầu tiên, tác giả trình bày phương pháp trích chọn đặc tính tín hiệu điện tim ECG để phục vụ cho quá trình nhận dạng;

- Tiếp theo, tác giả trình bày ngắn gọn về mặt lý thuyết, quy trình xây dựng các mơ hình nhận dạng đơn MLP, TSK, SVM và RF, vì những mơ hình này khá kinh điển và đã được nhiều tài liệu khác trình bày rất đầy đủ;

- Tiếp nữa, trình bày về giải pháp nâng cao chất lượng (độ chính xác) nhận dạng tín hiệu điện tim ECG dựa trên việc sử dụng cây quyết định DT để kết hợp nhiều mơ hình nhận dạng đơn.

3.1. Trích chọn đặc tính tín hiệu điện tim ECG

Trích chọn đặc tính là q trình tìm các giá trị đặc trưng của tín hiệu đầu vào gốc, lượng thơng tin của đặc tính tín hiệu tinh giản hơn nhiều so với tín hiệu gốc, nên khối lượng tính tốn của khối nhận dạng sẽ giảm. Việc lựa chọn loại đặc tính thường dựa trên độ phân tách đối tượng của nó. Do đó, khâu phân tích và trích chọn đặc tính đóng vai trị quan trọng, cho phép hỗ trợ việc đưa ra kết quả nhận dạng được dễ dàng và chính xác hơn. Cụ thể thực hiện các công việc sau:

- Đầu tiên, phải lựa chọn giải pháp trích chọn đặc tính, trong luận văn lựa chọn sử dụng các hàm Hermite để phân tích các tín hiệu ECG, do sự phù hợp về hình dạng biến thiên tín hiệu của chúng đối với tín hiệu điện tim, và có chứa các thành phần tần số khác nhau nên phù hợp cho việc mô tả các thành phần biến thiên khác nhau của tín hiệu điện tim (chi tiết sẽ trình bày ở mục 3.1.2);

- Tiếp theo, cần khảo số lượng đặc tính, nếu sử dụng quá ít đặc tính sẽ khiến cho mơ hình nhận dạng bị thiếu hụt thơng tin nên kết quả khơng chính xác, nhưng nếu sử dụng q nhiều đặc tính sẽ khiến cho mơ hình trở nên cồng kềnh, khó huấn luyện (lựa

chọn được các tham số tối ưu cho bộ số liệu mẫu) và cịn có thể ảnh hưởng xấu đến kết

cao. Để khảo sát và đánh giá, có thể này sử dụng cây quyết định DT (Decision Tree) hay phân tích thành phần chính PCA (Principle Component Analysis ) [3].

Giải pháp trích chọn đặc tính của luận văn thể hiện trong hình 2.4 sau đây:

Phát hiện đỉnh R, tách QRS với độ dài 250ms Phân tích QRS bằng 16 hàm Hermite cơ sở Khoản cách 2 đỉnh R-R liên tiếp Trung bình của 10 khoảng cách R-R cuối cùng. in x x 1 8

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình phối hợp các mạng Nơrôn nhận dạng tín hiệu điện tim (ECG) (Trang 50 - 54)

Tải bản đầy đủ (PDF)

(94 trang)