Khai phá dữ liệu virus cúm Việt Nam

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam (Trang 51 - 52)

4. Ý nghĩa khoa học và thực tiễn của đề tài

4.2 Khai phá dữ liệu virus cúm Việt Nam

Luật kết hợp là một hướng quan trọng trong khai phá dữ liệu. Luật kết hợp giúp chúng

ta tìm ra các mối liện hệ giữa các mục dữ liệu (items) của CSDL. Luật kết hợp thu

rời nhau). A là tiền đề, B là mệnh đề kết quả. Luật kết hợp tuy khá đơn giản nhưng

những thông tin mà dạng luật này mang lại là rất đáng kể, hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm kiếm được các luật hữu ích từ CSDL tác nghiệp.

Để chiết xuất được các thông tin hữu ích từ CSDL virus cúm Việt Nam. Chúng ta sử

dụng luật kết hợp để khai phá dữ liệu. Việc khai phá luật kết được thực hiện gồm hai bước.

Bước 1: Tìm các tập phổ biến. Tập phổ biến là tập các phần tử có độ hỗ trợ tối thiểu

(Minsupport).

Bước 2: Dùng các tập phổ biến để tạo các luật kết hợp, chỉ lấy các luật kết hợp thỏa độ

tin cậy tối thiểu (Minconfidence).

Có khá nhiều phương pháp để tìm tập phổ biến. Luận văn này dùng phương pháp IT- Tree (Itemset Tidset – Tree) để tìm tập phổ biến. Phương pháp này đạt hiệu suất cao hơn so với họ các phương pháp của Apriori [9][10]. Trong quá trình tìm các tập phổ

biến, phương pháp IT-Tree chỉ quét CSDL có một lần để tìm ra các tập phổ biến thỏa ngưỡng hỗ trợ tối thiểu. Hơn nữa, việc tạo các tập phổ biến bằng phương pháp IT-Tree không phát sinh các tập ứng cử viên. Những đặc điểm này là rất quan trọng khi ta phát triển các chức năng này trên nền ứng dụng web.

Nhằm tạo thuận tiện cho người sử dụng có thể khai phá dữ liệu virus của các quốc gia.

Chức năng khai phá dữ liệu đã được xây dựng, đặc biệt hơn là người dùng có thể thực hiện nó trên nền giao diện web khá thân thiện.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam (Trang 51 - 52)

Tải bản đầy đủ (PDF)

(79 trang)