Khái niệm phân lớp

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 28 - 30)

Phân lớp dữ liệu là kỹ thuật dựa trên tập huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nĩ trong việc phân lớp dữ liệu mới. Phân lớp cũng là tiên đốn loại lớp của nhãn. Bên cạnh kỹ thuật phân lớp cĩ một hình thức tƣơng tự là kỹ thuật tiên đốn, kỹ thuật tiên đốn khác với phân lớp ở chỗ phân lớp chỉ liên quan đến tiên đốn loại lớp của nhãn cịn kỹ thuật tiên đốn mơ hình những hàm đánh giá liên tục.

Kỹ thuật phân lớp đƣợc tiến hành bao gồm 2 bƣớc: Xây dựng mơ hình và sử dụng mơ hình .

Xây dựng mơ hình: là mơ tả một tập những lớp đƣợc định nghĩa trƣớc trong đĩ: mỗi bộ hoặc mẫu đƣợc gán thuộc về một lớp đƣợc định nghĩa trƣớc nhƣ là đƣợc xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ đƣợc sử dụng trong việc sử dụng mơ hình đƣợc gọi là tập huấn luyện. Mơ hình đƣợc biểu diễn là những luật phân lớp, cây quyết định và những cơng thức tốn học .

Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp dữ liệu trong tƣơng lai hoặc phân lớp cho những đối tƣợng chƣa biết đến. Trƣớc khi sử dụng mơ hình ngƣời ta thƣờng phải đánh giá tính chính xác của mơ hình trong đĩ nhãn đƣợc biết của mẫu kiểm tra đƣợc so sánh với kết quả phân lớp của mơ hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mơ hình, tập kiểm tra là độc lập với tập huấn luyện.

Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thơng tin ẩn, con ngƣời cĩ thể trích rút ra các quyết định nghiệp vụ thơng minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu nhằm trích rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đốn xu hƣớng dữ liệu tƣơng lai. Phân lớp dự đốn giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), cĩ nghĩa là phân lớp thao tác với những đối tƣợng dữ liệu mà cĩ bộ giá trị mà biết trƣớc. Trong khi đĩ, dự đốn thì xây dựng lại mơ hình với các hàm nhận giá trị liên tục. Ví dụ mơ hình phân lớp dự báo thời tiết cĩ thể cho biết thời tiết ngày mai là mƣa hay nắng dựa vào những thơng số độ ẩm, sức giĩ, nhiệt độ,… của ngày hơm nay và ngày trƣớc đĩ. Hay nhờ vào các luật về xu hƣớng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh cĩ thể ra những quyết sách đúng đắn về lƣợng mặt hàng cũng nhƣ chủng loại bày bán. Một mơ hình dự đốn cĩ thể dự đốn đƣợc lƣợng tiền tiêu dùng của khách hàng tiềm năng dựa trên những thơng tin về thu nhập và nghề nghiệp của khách hàng. Trong những năm qua phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau nhƣ học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics)… Cơng nghệ này cũng đã ứng dụng trong nhiều lĩnh vực khác nhau nhƣ: thƣơng mại, nhà băng, kinh doanh, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục …. Phần lớn các thuật tốn ra đời trƣớc đều sử dụng cơ chế dữ liệu cƣ trú trong bộ nhớ (memory resident), thƣờng thao tác với lƣợng dữ liệu nhỏ. Một số thuật tốn ra đời sau này đã sử dụng kỹ thuật cƣ trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật tốn với tập dữ liệu lớn lên tới hàng tỉ bản ghi.

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 28 - 30)