Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm đồ

Một phần của tài liệu Luận văn thạc sĩ UEB một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 62)

hiện trong khoảng 4 phút. Điều đó có nghĩa, nó bao gồm 256 khoảng RR. Khoảng RR giữa 300ms và 1700ms được đưa vào cùng với t = 50ms, do vậy không gian đồ thị Poincaré được chia thành 784 ô.

Để đánh giá hiệu năng của phân lớp, tập dữ liệu huấn luyện và tập dữ liệu kiểm tra được tạo ra. Tập dữ liệu huấn luyện được sử dụng để xây dựng mơ hình phân lớp và tập dữ liệu kiểm tra được sử dụng để kiểm tra sự chính xác của mơ hình. Vấn đề ở đây là tập dữ liệu tạo ra phải đáp ứng được u cầu mơ hình có thể huấn luyện liên tục. Ngồi ra, hiệu năng của phân lớp thì bị ảnh hưởng nhiều bởi cấu trúc tập dữ liệu. Nên, chúng tôi sẽ xem xét hai trường hợp là tập dữ liệu mà tồn tại vùng giao nhau giữa các vùng quyết định và tập dữ liệu mà không tồn tại vùng giao nhau giữa các vùng quyết định. Tập huấn luyến được ký hiệu là D(O) trong đó O biểu diễn mức độ giao nhau giữa các lớp. Tập huấn luyện được ghi lại từ 7 kịch bản. Mỗi kịch bản cho ra một tập các mẫu Di. Vì vậy, chúng ta có D(O) = [7i=1Di. Tập dữ liệu được xây dựng cho những người có độ tuổi trên 46 kết hợp với 3 hoạt động và 2 trạng thái tim mạch. Do đó, trong nghiên cứu này, chúng tôi chỉ phân biệt 5 lớp dựa trên sự kết hợp của các hoạt động và trạng thái tim mạch khác nhau. Một kịch bản được xây dựng từ các hoạt động và trạng thái khác nhau, trong đó lựa chọn ngẫu nhiên nhịp tim trong khoảng tương ứng đối với một hoạt động cụ thể và tần suất thở. Những giá trị này được mô tả trong Bảng 4.2. Nhịp tim tương ứng với các hoạt động và trạng thái tim

Tình trạng tim Sự thay đổi nhịp O=0% tim Nhịp tim bình Độ lệch nhịp tim Sự thay đổi nhịp O=1% tim Nhịp tim bình Độ lệch nhịp tim Sự thay đổi nhịp O=2% tim Nhịp tim bình Độ lệch nhịp tim HF(Hz) LF/HF tỷ lệ

Bảng 4.2: Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất bình thường)

khác nhau được mơ tả bởi giá trị trung bình. Ví dụ như nhịp tim trung bình khi bệnh nhân đang nghỉ ngơi và tình trạng tim mạch là bất bình thường sẽ là 62. Mỗi tập dữ liệu Di chứa 4:500 mẫu. Nên, tất cả 7 kịch bản chứa 31:500 mẫu được sinh ngẫu nhiên (D(O) = 31:500) và tương ứng với 5 lớp và không gian đầu vào hai chiều. Ngoài ra, số lượng các mẫu trong mỗi lớp là bằng nhau.

Các tập mẫu Di được đưa vào mạng lần lượt. Để tạo ra môi trường thay đổi liên tục, 2 tập dữ liệu Di và Di+1 hoặc là có ít nhất một lớp khác nhau hoặc một số các mẫu của chúng cùng thuộc về một lớp, nhưng được tạo ra với nhịp tim khác nhau trong một khoảng cố định. Cho ví dụ, chúng ta có một tập dữ liệu thu được từ hai hoạt động (ngủ và làm việc) và hai trạng thái tương ứng (bình thường và bất bình thường). Nhịp tim tương ứng với một hành động và một trạng thái được lựa chọn ngẫu nhiên. Nhịp tim đã được lưa chọn thì bị bỏ đi trong các lần biểu diễn sau.

ta thấy ngay rằng huấn luyện trong một mơi trường thì có ưu điểm hơn trong nhiều mơi trường, bởi vì khi huấn luyện trong nhiều mơi trường sẽ dễ xảy ra tình trạng giao nhau giữa các vùng quyết định. Từ Bảng 4.2, các lớp

giao nhau trong những trường hợp sau:

Đối tượng đang ngủ, nhịp tim tự tăng và đối tượng có thể bị nguy hiểm, nhưng có thể nhầm lẫn rằng đối tượng vẫn bình thường và đang làm việc. Đối tượng đang làm việc, nhịp tim tăng cao hơn bình thường. Nhưng có thể bị nhầm lẫn rằng đối tượng vẫn tốt và đang tập thể dục.

Ký hiệu D(O) t lb lc lo a max Bảng 4.3: Tổng hợp các tham số sử dụng trong GNG

Bảng 4.3 mô tả các tham số chính với giá trị mặc định được sử dụng trong thực nghiệm với thuật tốn GNG. Trong một thực nghiệm, nếu khơng chỉ ra giá trị của tham số thì giá trị mặc định được sử dụng. Để đánh giá được chính xác hiệu năng của thuật tốn, chúng tơi sử dụng một giá trị lỗi của phân lớp. Giá trị lỗi phân lớp được tính như tỷ lệ giữa số lượng các mẫu mà phân lớp sai trên toàn bộ mẫu của tập kiểm tra. Đánh giá này và tập kiểm tra được mô tả ở trên giúp chúng ta kiểm tra được tính ổn định, mềm dẻo của GNG cũng như sự hội tụ của thuật toán tới một ngưỡng chấp

nhận được. Gọi số lượng mẫu bị phân lớp sai là m. Gọi n là số mẫu trong tập kiểm tra.

Giá trị lỗi =

Ngồi ra, chất lượng phân lớp cịn được đánh giá dựa trên giá trị lỗi bình phương trung bình M SE. Mục đích của MSE là để xem các lớp sẽ được tách biệt thế nào sau khi huấn luyện.

1 MSE =

trong đó, Oi là giá trị đầu ra được dự đốn bởi chương trình cho mẫu i trong n mẫu và Ti là giá trị đầu ra mong muốn của i. MSE dao động từ 0 tới vơ tận, trong đó 0 tương ứng với trường hợp lý tưởng nhất. Dựa vào MSE ta biết lỗi sẽ thay đổi thế nào khi mơ hình mạng thay đổi( trong q trình huấn luyện). Kết thúc quá trình huấn luyện nếu MSE đạt giá trị 0 là trường hợp lý tưởng nhưng rất khó xảy ra, cho nên khi huấn luyện nếu MSE đạt xấp xỉ 0:01 thì quá trình huấn luyện dừng lại. Khi đó ta có thể coi mơ hình mạng đạt được sự hội tụ.

4.2 Kết quả thực nghiệm

4.2.1 Kết quả và đánh giá hiệu quả của thuật toán Apriori

Để đánh giá hiệu quả của thuật toán Apriori trong khai phá luật kết hợp cho bệnh nhân tim mạch dựa vào thông tin lâm sàng, chúng tôi thực hiện một số đánh giá kiểm tra dưới đây.

4.2.1.1 Đánh giá sự thay đổi số lượng các tập mục phổ biến theo sự thay đổi của

độ hỗ trợ minsup

Trong thực nghiệm này chúng tôi đánh giá sự thay đổi số lượng các tập mục phổ biến được sinh ra theo sự thay đổi của độ hỗ trợ minsup, trong khi độ tin tưởng minconf = 0:9. Bảng mô tả sự biến thiên của số lượng các4.4

tập mục phổ biến được quan sát theo sự thay đổi của độ hỗ trợ.

Từ kết quả quan sát được ở bảng trên, chúng ta có thể thấy số lượng các tập mục phổ biến giảm xuống khi mà độ hỗ trợ tăng lên. Điều này giúp giảm bớt các tập mục

Độ hỗ trợ minsup 10 15 20 30 40

Bảng 4.4: Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợphổ biến không cần thiết được tạo ra khi ở một độ hỗ trợ cố định. Khi số phổ biến không cần thiết được tạo ra khi ở một độ hỗ trợ cố định. Khi số lượng các tập mục phổ biến khơng q nhiều thì sẽ giúp tiết kiệm được thời gian chạy và bộ nhớ của thuật tốn.

Hình 4.2: Sự thay đổi itemset theo minsup

4.2.1.2 Đánh giá số lượng các luật sinh ra theo sự thay đổi của độ hỗ trợ minsup

Trong thực nghiệm này, chúng tôi tiến hành đánh giá số lượng các luật được tạo ra theo sự thay đổi của độ hỗ trợ minsup với giá trị độ tin cậy được cố định minconf = 0:9.

Bảng dữ liệu 4.5 thu được sau các lần chạy thuật toán Apriori trên Weka khi cố

định giá trị của độ tin cậy cực tiểu và thay đổi độ hỗ trợ cực tiểu. Hình 4.3 mơ tả

sự thay đổi số lượng luật sinh. Ta sẽ thấy rằng số lượng các luật sinh ra giảm dần khi độ hỗ trợ tăng. Điều này là hiển nhiên vì khi độ hỗ trợ tăng thì số lượng các tập mục phổ biến sẽ giảm, dẫn đến số lượng các luật sinh ra sẽ giảm. Với cách tính tốn này, chỉ những luật nào được coi là phổ biến và tin cậy nhất mới được giữ lại, điều này giúp tiết kiệm thời gian chạy và bộ nhớ lưu trữ các luật được tạo ra.

Độ hỗ trợ minsup 10 15 20 25 30 35

Bảng 4.5: Sự thay đổi số lượng luật sinh ra theo độ hỗ trợ

Hình 4.3: Số lượng luật theo minsup

4.2.1.3 Đánh giá số lượng các luật tạo ra khi độ tin cậy minconf thay đổi

Trong thực nghiệm này, chúng tôi lại đánh giá số lượng các luật được tạo ra theo sự thay đổi của độ tin cậy. Trong khi, độ hỗ trợ được cố định minsup = 0:1. Từ kết quả quan sát được, ta có Bảng 4.6 mô tả sự thay đổi số lượng luật sinh ra.

Độ tin cậy 100 95 90 85 80 75

Bảng 4.6: Sự thay đổi số lượng luật sinh ra theo độ tin câyHình 4.4, chúng ta quan sát được sự biến thiên của số lượng luật theo độ tin cậy. Hình 4.4, chúng ta quan sát được sự biến thiên của số lượng luật theo độ tin cậy. Số lượng các luật sẽ tỉ lệ nghịch với giá trị độ tin cậy. Khi độ tin cậy càng cao thì số

Hình 4.4: Số lượng luật theo minconf

lượng luật sẽ giảm. Thực nghiệm này cho ta thấy luật được tạo ra với độ tin cậy càng cao thì mức độ chẩn đốn bệnh chính xác hơn.

Qua một số thực nghiệm, chúng ta thấy rằng độ hỗ trợ cực tiểu minsup và độ tin cậy cực tiểu minconf ảnh hưởng rất nhiều đến hiệu quả của thuật toán. Sự thay đổi của hai giá trị này dẫn đến sự thay đổi của số lượng các tập mục phổ biến, số lượng luật sinh ra và độ chính xác của thuật tốn. Theo kết quả thực nghiệm của 3 đánh giá trên, chúng tôi thấy rằng giá trị của độ hỗ trợ minsup = 0:2 và độ tin cậy minconf = 0:95 là hợp lý khi khai phá luật kết hợp dựa trên thuật toán Apriori với bộ dữ liệu thu được này. Với giá trị độ hỗ trợ và độ tin cậy như trên, chúng tôi thu được một số luật như Hình 4.5 dưới đây.

Hình 4.5: Tập luật sinh ra với minsup=0.1 và minconf=0.97Từ tập luật kết hợp thu được, chúng ta thấy rằng trường hợp bệnh nhân có tuổi Từ tập luật kết hợp thu được, chúng ta thấy rằng trường hợp bệnh nhân có tuổi

từ 46 đến 55, bị đau ngực ở mức độ 2 (cp=C2), khi tập thể dục không gây đau thắt ngực (exang=0) hay kết quả điện tâm đồ bình thường (restecg=R0) thì khơng có nguy cơ mắc bệnh tim. Những luật này có độ tin cậy là 1. Các trường hợp như luật số 10, bệnh nhân là nam (sex=S1), có cơn đau mức độ 4 (cp =C4), điện tâm đồ bình thương (restecg = R0), tập thể dục gây đau thắt ngực (exang = E1) và độ dốc của đoạn sóng ST khi tập thể dục là bằng phẳn (slope = S2) thì bệnh nhân có nguy cơ mắc bệnh tim mạch đến 97%. Dựa trên tập luật kết hợp sinh ra, hệ thống sẽ cung cấp các thơng tin hữu ích cho bệnh nhân cũng như hỗ trợ các bác sĩ trong việc ra quyết định chẩn đốn. Tuy nhiên, chúng tơi thấy rằng kết quả chẩn đốn cịn thấp trong trường hợp này. Điều này do việc thu thập dữ liệu chưa đầy đủ. Việc đánh giá sẽ chính xác và khách quan hơn với bộ dữ liệu lớn hơn.

4.2.2 Kết quả và đánh giá hiệu quả của thuật toán GNG 4.2.2.1 Đánh giá lỗi phân lớp trên tập dữ liệu D(O)

Trong thực nghiệm đầu tiên, chúng tôi sẽ xem xét giá trị lỗi phân lớp trên tập dữ liệu D(O) như đã mơ tả ở trên.

Hình 4.6: Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O)Hình 4.6 mơ tả giá trị lỗi thu được từ mơ hình mạng đã được huấn luyện trên tập Hình 4.6 mơ tả giá trị lỗi thu được từ mơ hình mạng đã được huấn luyện trên tập dữ liệu D(O)với O = 0%; 1%; 2%. Qua quan sát, chúng ta thấy rằng giá trị lỗi của 3 trường hợp giống nhau ở các bước đầu tiên (tại bước 4500) sau đó, giá trị lỗi giảm nhanh chóng như tiến trình huấn luyện cho tất cả các trường hợp. Chất lượng

của mơ hình mạng trở nên tốt hơn sau khi kết thúc huấn luyện ở môi trường thứ 4 (bước 18000). Đặc biệt, đối với trường hợp mức độ giao nhau giữa các vùng quyết định O = 0% thì mạng đã ổn định và chỉ có các mẫu của các lớp giao nhau xuất hiện. Do đó, việc đưa thêm mẫu mới vào không ảnh hưởng đến độ chính xác và ổn định của mạng. Trong trường hợp này ta có thể xem như việc phân lớp đã hồn hảo. Chúng ta cũng quan sát thấy rằng, mặc dù có chung sự thay đổi giá trị lỗi nhưng chất lượng của mơ hình mạng đã kém hơn khi tăng mức độ giao nhau giữa các vùng quyết định. Trường hợp O = 1%, mạng trở nên ổn định khi kết thúc huấn luyện ở môi trường thứ 6 (bước 27000). Trường hợp O = 2% là trường hợp xấu nhất trong số ba trường hợp kiểm tra. Tuy nhiên, chúng ta thấy rằng sự chênh lệch giữa các hệ số lỗi của ba trường hợp thì khơng đáng kể khi mức độ giao nhau giữa các vùng quyết định thấp.

4.2.2.2 Đánh giá số lượng nút và cạnh của thuật toán GNG trên tập dữ liệu

D(O)

Trong thực nghiệm thứ hai, chúng tôi đánh giá số lượng nút và cạnh của thuật toán GNG khi huấn luyện trên các tập dữ liệu với mức độ giao nhau giữa các vùng quyết định khác nhau.

Hình 4.7: Số nút và cạnh của GNG trên tập dữ liệu với O=0%Hình 4.7, 4.8, 4.9 biểu diễn số nút và cạnh của GNG, cũng như các bước huấn luyện. Hình 4.7, 4.8, 4.9 biểu diễn số nút và cạnh của GNG, cũng như các bước huấn luyện.

Ta thấy rằng số lượng nút và cạnh trong 3 trường hợp đều tăng khi số bước huấn luyện tăng. Trong cùng một môi trường, sau một số bước huấn luyện thì số lượng các nút sẽ hội tụ đến một hằng số. Điều này xảy ra bởi vì khi đó việc chèn thêm các nút mới không làm giảm đi giá trị lỗi thêm được nữa. Ngồi ra, trong q trình huấn luyện, thì thuật tốn cũng thực hiện xóa các nút hay các cạnh. Nên, chúng ta thấy có một sự dao động nhỏ số lượng các nút, đặc biệt trong Hình 4.8. Ngồi ra, chúng

Hình 4.8: Số nút và cạnh của GNG trên tập dữ liệu với O=1%

Hình 4.9: Số nút và cạnh của GNG trên tập dữ liệu với O=2%ta cũng thấy số lượng nút và cạnh thu được bởi mơ hình mạng khi được huấn luyện ta cũng thấy số lượng nút và cạnh thu được bởi mơ hình mạng khi được huấn luyện trong trường hợp khơng có giao giữa các vùng quyết định và có giao giữa các vùng quyết định là gần như nhau. Tuy nhiên, trường hợp có giao giữa các vùng quyết định sẽ có số lượng nút nhiều hơn trường hợp cịn lại vì theo cơ chế của thuật tốn GNG thì nút mới sẽ được chèn vào vị trí có giá trị lỗi cao. Trong khi trường hợp có giao nhau giữa các vùng quyết định sẽ dẫn đến giá trị lỗi cao hơn. Việc chèn có thể thực hiện mãi mãi tại các vùng giao nhau giữa các vùng quyết định.

4.2.2.3 Đánh giá lỗi bình phương trung bình MSE trên D(O)

Thực nghiệm tiếp theo, chúng tôi sẽ xem xét giá trị lỗi bình phương trung bình M SE trên tập dữ liệu D(O), với O có giá trị lần lượt là 0%; 2%.

Hình 4.10 mơ tả giá trị lỗi bình phương trung bình khi thực hiện trên tập dữ liệu D(O);

O = 0%; 2% với tốc độ huấn luyện của nút khớp nhất là 0:1. Thực nghiệm này giúp chúng ta có thể thấy được các lớp sẽ được tách biệt thế nào sau khi huấn luyện. Chúng ta thấy rằng MSE giảm xuống cả hai tập huấn luyện từ bước 1 đến bước 21000. Đặc biệt giá trị lỗi MSE xuống thấp và thay đổi ít thừ bước 18000 đến 21000. Nếu giá trị MSE tại bước này xấp xỉ 0:01 thì quá trình huấn luyện dừng lại. Khi đó ta có

Hình 4.10: MSE và Mức độ giao giữa các lớp

thể coi mơ hình mạng đạt được sự hội tụ. Tuy nhiên, tại bước 24000, khi mẫu đầu vào chứa lớp mới được đưa vào mơ hình huấn luyện sẽ dẫn đến

Một phần của tài liệu Luận văn thạc sĩ UEB một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 62)

Tải bản đầy đủ (DOCX)

(81 trang)
w