Điểm biên bà ứng dụng trong xử lý dữ liệu lớn

Một phần của tài liệu ĐẠI QUY NHƠN (Trang 33 - 38)

2.2.3.1. Định nghĩa điểm biên

Điểm biên của một tập hợp X trong một không gian tô pô là điểm x mà trong mọi lân cận của nó vừa có điểm thuộc tập hợp X, vừa có điểm không thuộc tập hợp X.

Đối với dữ liệu lớn, khi số lƣợng và mật độ phân bố của các điểm là lớn và dạy đặc. Các điểm dữ liệu gọi là điểm biên "ngụ ý" là các điểm dữ liệu gần với các điểm biên thuần túy bị cắt bớt bởi đƣờng biên.

2.2.3.2. Ứng dụng điểm biên trong xử lý dữ liệu lớn

Để xử lý xử liệu lớn, trong phần này chúng tôi tập trung xem xét trƣờng hợp ƣớc lƣợng mật độ, lân cận của các điểm dữ liệu cho thuật toán KNN. Bởi vì các điểm biên dữ liệu thuần túy trong các bộ dữ liệu lớn xác định ranh giới, điều này nghĩa là các điểm biên đƣợc ngụ ý nhƣ đã trình bày ở trên phải có một hoặc nhiều điểm biên thuần túy trong số KNN của chúng. Điểm ranh giới

là các điểm dữ liệu nằm ở lề của (hoặc cụm) dữ liệu đƣợc phân phối dày đặc. Các điểm ranh giới rất hữu ích trong các ứng dụng khai thác dữ liệu lớn vì chúng đại diện cho một tập hợp con của tập hợp có thể nằm giữa hai hoặc nhiều lớp.

Hình 2.1. Ví dụ về điểm ranh giới là các điểm dữ liệu nằm ở lề của (hoặc cụm) dữ liệu đƣợc phân phối dày đặc.

Ví dụ: Tập hợp các điểm này có thể biểu thị một tập con dân số lẽ ra đã mắc bệnh Covid19, nhƣng bằng cách nào đó lại không. Sự chú ý đặc biệt chắc chắn đƣợc đảm bảo cho nhóm ngƣời này vì họ có thể tiết lộ một số đặc điểm thú vị của bệnh.

Kiến thức về những điểm này cũng hữu ích cho các nhiệm vụ khai thác dữ liệu nhƣ phân loại vì những điểm này có thể bị phân loại sai. K-bộ phân loại láng giềng gần nhất đƣa ra quyết định của họ trên cơ sở thông tin cục bộ. Thay vì cố gắng vẽ ranh giới quyết định trên toàn bộ không gian nhƣ trong Hình 2.2

Hình 2.2. Không thể vẽ một đƣờng thẳng để phân tách các lớp trong không gian đặc trƣng này một cách hoàn hảo. Ba dòng có thể đƣợc vẽ, nhƣng mỗi dòng dẫn đến một

số phân loại sai.

2.2.3.3. Thuật toán KNN và bài toán điểm biên cho dữ liệu lớn

Thuật toán K-láng giềng gần nhất đƣa ra quyết định dựa trên một vài điểm cục bộ. Do đó, chúng có thể khá dễ bị nhiễu, đặc biệt nếu K nhỏ: Một sự thay đổi nhỏ về vị trí của điểm kiểm tra có thể dẫn đến sự phân loại khác vì một điểm mới từ tập dữ liệu huấn luyện trở thành láng giềng gần nhất. Khi K trở nên lớn hơn, ranh giới quyết định phân loại trở nên mƣợt mà hơn vì một số điểm huấn luyện góp phần vào quyết định phân loại.

Các ranh giới quyết định trông nhƣ thế nào đối với phân loại láng giềng gần nhất? Hãy xem xét một trƣờng hợp đặc biệt của phân loại láng giềng gần nhất trong đó mỗi điểm dữ liệu huấn luyện thuộc về một lớp khác biệt với các điểm khác. Trong trƣờng hợp đó, mỗi điểm dữ liệu huấn luyện xác định một vùng xung quanh nó; điểm kiểm tra trong khu vực này sẽ đƣợc xếp cùng hạng với điểm dữ liệu huấn luyện. Các vùng này đƣợc minh họa cho một trƣờng hợp đơn giản trong Hình 2.3, trong đó ranh giới của các vùng đƣợc thể hiện dƣới dạng các đƣờng chấm. Nhƣ bạn có thể hiểu bây giờ, mỗi ranh giới đƣợc

cho là đƣờng phân giác vuông góc của đoạn thẳng giữa hai điểm dữ liệu tƣơng ứng. Sự phân vùng này đƣợc hình thành bởi một tập hợp các điểm dữ liệu đôi khi đƣợc gọi là sơ đồ Voronoi

Hình 2.3. Quyết định ranh giới theo 1-NN cho các điểm dữ liệu của các lớp khác biệt với nhau

Bây giờ, chúng ta giả định rằng mỗi điểm dữ liệu thuộc về một trong hai lớp, chẳng hạn, các lớp đƣợc hiển thị màu đỏ hoặc xanh lam nhƣ thể hiện trong Hình 2.4.

Hình 2.4. Các vùng lân cận gần nhất cho tập dữ liệu huấn luyện gồm hai lớp, trong đó các mẫu huấn luyện của một lớp đƣợc hiển thị với dấu ‘*’ màu đỏ, các vùng của lớp

Để có đƣợc ranh giới quyết định, chúng tôi kết hợp các ranh giới đó giữa các vùng của các lớp khác nhau, nhƣ đƣợc minh họa trong Hình 2.5.

Hình 2.5. Ranh giới quyết định và các vùng quyết định cho bộ phân 1-NN cho hai lớp.

Ranh giới kết quả đƣợc coi là tuyến tính từng mảnh. Hình 2.6 và 2.7 cho thấy trƣờng hợp của ba lớp.

Hình 2.7. Ranh giới quyết định và các vùng quyết định cho bộ phân loại hàng xóm 1- NN cho ba lớp.

Một phần của tài liệu ĐẠI QUY NHƠN (Trang 33 - 38)

Tải bản đầy đủ (PDF)

(57 trang)