1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài phân tích phần tử ngoại lai

30 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 664,58 KB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Toán ứng dụng Tin học HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài: Phân tích phần tử ngoại lai Giảng viên hướng dẫn: TS Lê Chí Ngọc Nhóm sinh viên thực hiện: MSSV Lớp Mục lục 5.1 Khái niệm 5.1.1 Phần tử ngoại lai gì? 5.1.2: Phân loại điểm ngoại lai .3 5.2 Tiếp cận dựa thống kê .7 5.2.1 Các phương pháp tham số 5.2.2 Các phương pháp không tham số .11 5.3 Tiếp cận dựa phân cụm (clustering-based Approaches) 14 5.3.1 Phát phần tử ngoại lai đối tượng không thuộc cụm 15 5.3.2 Phát phần tử ngoại dựa phân cụm sử dụng khoảng cách đến cụm gần .15 5.3.3 Phát xâm nhập phương pháp xác định phần tử ngoại lai dựa phân cụm .16 5.3.4 Phát phần tử ngoại lai cụm nhỏ .17 5.4 Tiếp cận dựa phân lớp (classification-based Approaches) 19 5.4.1 Phân tích ngoại lai sử dụng mơ hình lớp 19 5.4.2 Xác định phần tử ngoại lai cách học bán giám sát 20 5.5 Học bán giám sát 21 5.5.1 Khái niệm 21 5.5.2 Sơ lược lịch sử phát triển học bán giám sát 22 5.5.3 Một số thuật toán học bán giám sát 23 Thuật toán Self-training: 24 Thuật toán Co-training: .24 5.5.4 Các ứng dụng thực tế Học bán giám sát .25 5.6 Học Kết hợp (Ensemble Learning) 26 * Các thuật toán mà học kết hợp thường sử dụng 26 5.1 Khái niệm 5.1.1 Phần tử ngoại lai gì? Giả sử quy trình thống sử dụng để tạo tập hợp liệu Một cách hình thức người ta định nghĩa phần tử ngoại lai tập liệu phần tử mà theo cách nhìn có đặc tính khơng giống với tập hợp đa số cịn lại tập liệu Ví dụ hình cho thấy phần tử ngoại lai theo vị trí hình học Hình 1: Phần tử ngoại lai tập điểm có tọa độ (x,y) mặt phẳng có giá trị tung độ y nhỏ hẳn phần tử khác tập hợp Các khái niệm ngoại lai có nguồn gốc từ lĩnh vực thống kê, Barnett Lewis định nghĩa: Phần tử ngoại lai quan trắc tập quan trắc mà xuất chúng trái ngược với quan trắc lại Phần tử ngoại lai hiểu quan trắc mà giá trị khác biệt nhiều so với quan trắc khác gây cho người ta nghi ngờ thực kỹ thuật khác Nói cách khách, quan trắc khơng tn theo mơ hình thống kê quan trắc lại gọi phần tử ngoại lai Dư liệu ngoại lai khác với liệu nhiễu Ví dụ: khách hàng tạo số giao dịch nhiễu sai lệch ví dụ bữa trưa lớn ngày uống thêm ly caffe so với bình thường, giao dịch không nên coi giao dịch bất thường, điều ảnh hưởng nhiều cảnh báo khách hàng cảm thấy phiền tối cơng ty khách hàng báo động sai lệch Vì việc loại bỏ nhiễu trước phát điểm ngoại lai vô cần thiết Điểm ngoại lai thường tạo chế khơng giống phần cịn lại liệu Vì việc phát ngoại lai điều quan trọng phải chứng minh ngoại lai phát tạo chế khác Để thực phải đưa giả định khác phần lại liệu cho thấy ngoại lai phát vi phạm giả định cách đáng kể Phát ngoại lai liên quan đến phát liệu phát triển Ví dụ: cách giám sát trang web truyền thơng xã hội nơi có nội dung mới, phát tính xác định kịp thời chủ đề xu hướng Chủ đề ban đầu xuất ngoại lai Trong phạm vi này, phát ngoại lai phát tính có số điểm tương đồng phương pháp mơ hình hóa phát Tuy nhiên, điểm khác biệt quan trọng hai loại phát tính mới, chủ đề xác định, chúng thường đưa vào mơ hình hành vi thông thường để trường hợp theo dõi không coi ngoại lai 5.1.2: Phân loại điểm ngoại lai Nói chung, ngoại lai phân loại thành ba loại, ngoại lai toàn cầu, ngoại lai bối cảnh (hoặc có điều kiện) ngoại lai tập thể Hãy kiểm tra loại * Ngoại lai toàn cục: Trong tập liệu định, đối tượng liệu ngoại lai toàn cục lệch đáng kể so với phần cịn lại tập liệu Các ngoại lai tồn cầu đơi gọi điểm dị thường loại ngoại lai đơn giản Hầu hết phương pháp phát ngoại lai nhằm mục đích phát triển ngoại lai tồn cục Ví dụ : Các ngoại lai tồn cầu Hãy xem xét điểm Hình sau: Ta thấy điểm khu vực R thường xuyên chệch khỏi phần lại tập liệu ví dụ ngoại lai toàn cầu Để phát ngoại lai toàn cầu, vấn đề quan trọng tìm phép đo độ lệch thích hợp ứng dụng đề cập Các phép đo khác cung cấp dựa phương pháp phát ngoại lai phân chia thành loại khác Phát ngoại lai toàn cầu quan trọng nhiều ứng dụng Ví dụ, xem xét phát xâm nhập mạng máy tính Nếu hành vi giao tiếp máy tính khác so với mẫu thơng thường (ví dụ: số lượng lớn gói phát hành thời gian ngắn), hành vi coi ngoại lai tồn cục máy tính tương ứng nạn nhân bị nghi ngờ hack Một ví dụ khác, hệ thống kiểm toán giao dịch truyền thống, giao dịch không tuân theo quy định coi ngoại lai toàn cầu cần tổ chức để kiểm tra thêm * Ngoại lai bối cảnh: Nhiệt độ hơm 28◦C Có phải đặc biệt (tức là, ngoại lai) khơng? Nhưng phụ thuộc vào mùa, vào thời gian địa điểm! Nếu vào mùa đơng Toronto, ngoại lai Nếu ngày hè Toronto, chuyện bình thường Khơng giống phát ngoại lai toàn cục, trường hợp này, giá trị nhiệt độ ngày hơm có phải ngoại lai hay không phụ thuộc vào bối cảnh, ngày, địa điểm số yếu tố khác Trong tập liệu định, đối tượng liệu ngoại lai theo ngữ cảnh làm sai lệch đáng kể bối cảnh cụ thể đối tượng.Các ngoại lai theo ngữ cảnh gọi ngoại lai có điều kiện chúng có điều kiện bối cảnh chọn Do đó, phát ngoại lai theo ngữ cảnh, bối cảnh phải xác định cụ thể phần vấn đề Nói chung, phát ngoại lai theo ngữ cảnh, thuộc tính đối tượng liệu đề cập chia thành hai nhóm: - Thuộc tính bối cảnh: Các thuộc tính theo ngữ cảnh đối tượng liệu định nghĩa bối cảnh đối tượng Trong ví dụ nhiệt độ, thuộc tính theo ngữ cảnh ngày vị trí  - Các thuộc tính hành vi: Đây đặc điểm đối tượng, sử dụng để đánh giá xem đối tượng có phải ngoại lai bối cảnh mà thuộc Trong ví dụ nhiệt độ, thuộc tính hành vi nhiệt độ, độ ẩm áp suất Khơng giống phát ngoại lai tồn cục, phát ngoại lai theo ngữ cảnh, việc đối tượng liệu có phải ngoại lai hay khơng phụ thuộc vào khơng thuộc tính hành vi mà cịn thuộc tính theo ngữ cảnh Sự kết hợp giá trị thuộc tính hành vi coi ngoại lai bối cảnh (ví dụ: 28◦C ngoại lai cho mùa đông Toronto), ngoại lai bối cảnh khác (ví dụ: 28◦C khơng phải ngoại lai cho mùa hè Toronto ) Phát ngoại lai tồn cầu coi trường hợp đặc biệt phát ngoại cảnh theo ngữ cảnh tập hợp thuộc tính theo ngữ cảnh trống Nói cách khác, phát ngoại lai tồn cầu sử dụng toàn tập liệu làm bối cảnh Ví dụ : Các ngoại lai theo ngữ cảnh Trong phát gian lận thẻ tín dụng, ngồi ngoại lai tồn cầu, nhà phân tích xem xét ngoại lai bối cảnh khác Hãy xem xét khách hàng sử dụng 90% hạn mức tín dụng họ Nếu khách hàng xem làthuộc nhóm khách hàng có giới hạn tín dụng thấp, hành vi khơng coi ngoại lai Tuy nhiên, hành vi tương tự khách hàng từ nhóm thu nhập cao coi ngoại lai số dư họ thường vượt giới hạn tín dụng Những ngoại lai dẫn đến hội kinh doanh mà việc tăng giới hạn tín dụng cho khách hàng mang lại doanh thu Chất lượng phát ngoại lai theo ngữ cảnh ứng dụng phụ thuộc vào ý nghĩa thuộc tính theo ngữ cảnh, việc đo lường độ lệch đối tượng với đa số khơng gian thuộc tính hành vi Các thuộc tính theo ngữ cảnh nên xác định chuyên gia tên miền, coi phần kiến thức đầu vào Trong nhiều ứng dụng, việc thu thập thông tin cần thiết để xác định thuộc tính theo ngữ cảnh khơng thu thập liệu thuộc tính theo ngữ cảnh chất lượng cao dễ dàng Làm hình thành bối cảnh có ý nghĩa phát ngoại lai theo ngữ cảnh? Một phương pháp đơn giản sử dụng nhóm thuộc tính theo ngữ cảnh làm bối cảnh Tuy nhiên, điều khơng hiệu nhiều nhóm có liệu / nhiễu không cần thiết Một phương thức tổng quát sử dụng liên quan mật thiết đối tượng liệu không gian thuộc tính theo ngữ cảnh * Ngoại lai tập thể: Trong Hình sau, đối tượng màu đen nói chung tạo thành tập thể ngoại lai mật độ đối tượng cao nhiều so với phần lại tập liệu Tuy nhiên, đối tượng màu đen riêng lẻ ngoại lai toàn tập liệu Phát ngoại lai tập thể có nhiều ứng dụng quan trọng Ví dụ, phát xâm nhập, gói từ chối dịch vụ từ máy tính sang máy tính khác coi bình thường hồn tồn ngoại lai nhiên, số máy tính tiếp tục gửi gói từ chối dịch vụ cho nhau, tồn chúng nên coi ngoại lai phổ biến Các máy tính liên quan bị nghi ngờ bị xâm phạm cơng Một ví dụ khác, giao dịch chứng khoán hai bên coi bình thường Tuy nhiên, tập hợp lớn giao dịch cổ phiếu giữ bên nhỏ thời gian ngắn ngoại lai tập thể chúng chứng số người thao túng thị trường Không giống phát ngoại lai toàn cầu theo ngữ cảnh, phát ngoại lai tập thể, phải xem xét không hành vi đối tượng, mà đối tượng nhóm đối tượng Do đó, để phát ngoại lai tập thể, cần có kiến thức tảng mối quan hệ đối tượng liệu khoảngcách phép đo tương tự đối tượng Tóm lại, tập liệu có nhiều loại ngoại lai Hơn nữa, đối tượng cóthể thuộc nhiều loại ngoại lai Trong kinh doanh, ngoại lai khác sử dụng ứng dụng khác cho mục đích khác Phát ngoại lai toàn cầu đơn giản Phát ngoại cảnh bối cảnh địi hỏi thơng tin để xác định thuộc tính bối cảnh theo ngữ cảnh Phát ngoại lai tập thể đòi hỏi thơng tin để mơ hình hóa mối quan hệ đối tượng với nhóm ngoại lai 5.2 Tiếp cận dựa thống kê Các phương pháp thống kê (còn gọi phương pháp dựa mơ hình) đưa giả định tính quy tắc liệu Họ cho đối tượng liệu bình thường tạo mơ hình thống kê (ngẫu nhiên) liệu khơng theo mơ hình ngoại lai Ví dụ : Phát ngoại lai mơ hình thống kê (Gaussian) Trong Hình 2,các điểm liệu ngoại trừ điểm vùng R phân phối Gaussian gD, vị trí x khơng gian liệu, gD (x) cho mật độ xác suất x Do đó, gD phân phối Gaussian sử dụng để mơ hình hóa liệu thơng thường, nghĩa là, hầu hết điểm liệu tập liệu Đối với đối tượng y trongvùng, R, ước tính gD (y), xác suất mà điểm phân phối Gaussian Vì gD (y) thấp, nên y khơng thể tạo mơ hình Gaussian ngoại lai Hiệu phương pháp thống kê phụ thuộc nhiều vào việc giả định đưa cho mơ hình thống kê có với liệu cho hay khơng Có nhiều loại mơ hình thống kê Ví dụ, mơ hình thống kê sử dụng phương pháp số liệu khơng tham số Hình * Ý tưởng : Ý tưởng chung đằng sau phương pháp thống kê để phát ngoại lai tìm hiểu mơ hình tổng qt, kết hợp tập liệu cho sau xác định đối tượng vùng có xác suất thấp mơ hình ngoại lai Tuy nhiên, có nhiều cách khác để tìm hiểu mơ hình tổng quát Nói chung, phương pháp thống kê để phát ngoại lai chia thành hai loại chính: phương pháp tham số phương pháp khơng tham số, theo cách mơ hình xác địnhvà học hỏi Phương pháp tham số giả định đối tượng liệu bình thường tạo phân phối số liệu với tham số y Hàm mật độ xác suất phân phối tham số f(x,y) đưa xác suất mà đối tượng x tạo phân phối Giá trị nhỏ, x có khả ngoại lai 5.2.1 Các phương pháp tham số Phát ngoại lai đơn biến dựa phân phối chuẩn Dữ liệu liên quan đến thuộc tính biến gọi liệu đơn biến Để đơn giản, thường chọn giả định liệu tạo từ phân phối bình thường Sau tìm hiểu tham số phân phối bình thường từ liệu đầu vào xác định điểm có xác suất thấp ngoại lai Hãy bắt đầu với liệu đơn biến Chúng cố gắng phát ngoại lai cách giả sử liệu tuân theo phân phối bình thường Ví dụ : Phát ngoại lai đơn lẻ maximun likelihood Giả sử giá trị nhiệt độ trung bình thành phố tháng 10 năm qua, theo thứ tự tăng dần giá trị, 24,0◦C, 28,9◦C, 28,9◦C, 29,0◦C, 29,1◦C, 29,1◦C, 29,2◦C , 29,2◦C, 29,3◦C 29,4◦C Hãy giả sử nhiệt độ trung bình tuân theo phân phối bình thường, xác định hai tham số: giá trị trung bình, độ lệch chuẩn, Chúng ta sử dụng phương pháp maximun likelihood để ước tính tham số μ Đó là, chúng tơi tối đa hóa chức hàm log likelihood: ln(μ, = ) = (1.1) Trong n tổng số mẫu, 10 ví dụ Lấy công cụ phái sinh liên quan đến σ giải hệ thống kết điều kiện dẫn đến ước tính khả tối đa sau đây: Theo ta có Giá trị sai lệch nhất, 24,0◦C, cách 4,61◦C so với giá trị trung bình ước tính Chúng tơi biết vùng μ ± 3σ chứa 99,7% liệu theo giả định bình thường Hình 3: Sử dụng boxplot để mơ hình hóa điểm ngoại lai Vì 3.04 ≥ 3, xác suất giá trị 24.0◦C tạo phân phối chuẩn nhỏ 0,15% xác định ngoại lai 5.3.1 Phát phần tử ngoại lai đối tượng khơng thuộc cụm Hình 5.3.1 Lấy ví dụ , dê hươu sống di chuyển theo bầy Bằng cách phát phần tử ngoại lai xác định phần tử ngoại lai không thuộc phần đàn Những lạc mất, bị thương Trong hình 5.3.1 điểm đại diện cho cho động vật sống bầy Sử dụng phương pháp phân tích cụm theo mật độ , chẳng hạn DBSCAN (Density-based spatial clustering of applications with noise) Những điểm đen thuộc cụm Điểm trắng a, khơng thuộc cụm , khẳng định phần tử ngoại lai 5.3.2 Phát phần tử ngoại dựa phân cụm sử dụng khoảng cách đến cụm gần Cách tiếp cận phát ngoại lai dựa phân cụm xem xét khoảng cách đối tượng cụm mà gần Nếu khoảng cách lớn, đối tượng có khả ngoại lệ cụm Do đó, phương pháp phát ngoại lệ riêng lẻ cụm Hình 5.3.2 15 Sử dụng phương pháp phân cụm K-mean, ta phân cụm điểm liệu hình 5.3.2 thành ba cụm Tâm cụm đánh dấu + Với đối tượng o , gán biến ngoại lệ cho đối tượng theo khoảng cách đối tượng tâm gần với đối tượng.Giả sử tâm gần với o c0 khoảng cách o c0 dist(o, co) Khoảng cách trung bình c0 đối tượng gán cho o lco Tỉ lệ dist(o, co)/ lco đo cách dist(o, co) trội so với mức trung bình Tỉ lệ lớn, o xa tâm , nhiều khả o phần tử ngoại lai Trong hình 5.3.2 điểm a,b,c tương đối xa tâm tương ứng chúng bị nghi ngờ ngoại lai 5.3.3 Phát xâm nhập phương pháp xác định phần tử ngoại lai dựa phân cụm Phương pháp bootstrap phát triển để phát xâm nhập vào liệu kết nối TCP cách xem xét giống điểm liệu cụm tập liệu huấn luyện(training data set) Phương pháp bao gồm ba bước Một tập liệu huấn luyện sử dụng để tìm mẫu liệu thơng thường Cụ thể, liệu kết nối TCP phân đoạn theo ngày tháng Các mục thường xuyên tìm thấy phân đoạn Các mục thường xuyên nằm phần lớn phân khúc xem xét mẫu liệu thông thường gọi kết nối sở Các kết nối liệu huấn luyện có chứa kết nối sở coi không công Các kết nối nhóm lại thành nhóm Các điểm liệu tập liệu gốc so sánh với cụm khai thác bước Bất kỳ điểm coi ngoại lai cụm thông báo công xảy Lưu ý cách tiếp cận thấy phát đối tượng riêng lẻ ngoại lai chúng so sánh đối tượng lúc với cụm tập liệu Tuy nhiên, tập liệu lớn, số ngoại lai giống tạo thành cụm nhỏ Ví dụ, phát xâm nhập, tin tặc sử dụng chiến thuật tương tự để công hệ thống tạo thành cụm Các cách tiếp cận thảo luận bị đánh lừa ngoại lệ Để khắc phục vấn đề này, cách tiếp cận thứ ba để phát ngoại lai dựa cụm xác định cụm nhỏ thưa thớt tuyên bố đối tượng 16 cụm ngoại lai Một ví dụ phương pháp thuật tốn FindCBLOF, hoạt động sau 1.Tìm cụm tập liệu xếp chúng theo kích thước giảm dần Thuật toán giả định hầu hết điểm liệu khơng phải ngoại lai Nó sử dụng tham số α (0 ≤ α ≤ ) để phân biệt lớn với cụm nhỏ Bất kỳ cụm chứa tỷ lệ tập liệu (ví dụ: α = 90%) coi cụm lớn Các cụm lại gọi cụm nhỏ Đối với điểm liệu, định yếu tố ngoại lai cục dựa cụm (CBLOF) Đối với điểm thuộc cụm lớn, CBLOF sản phẩm kích thước cụm tương đồng điểm cụm Đối với điểm thuộc cụm nhỏ, CBLOF tính tích kích thước cụm nhỏ tương đồng điểm cụm lớn gần CBLOF định nghĩa giống điểm cụm theo cách thống kê đại diện cho xác suất điểm thuộc cụm Giá trị lớn, điểm cụm giống Điểm CBLOF phát điểm ngoại lai nằm xa cụm Ngoài ra, cụm nhỏ cách xa cụm lớn coi bao gồm ngoại lai Các điểm có điểm số CBLOF thấp bị nghi ngờ ngoại lai 5.3.4 Phát phần tử ngoại lai cụm nhỏ Các điểm liệu Hình 5.3.4 tạo thành ba cụm: Cụm lớn, C1 C2, cụm nhỏ, C3 Đối tượng o không thuộc cụm Sử dụng CBLOF, FindCBLOF xác định o điểm cụm C3 ngoại lai Đối với o, cụm lớn gần C CBLOF đơn giản tương đồng o C1,và nhỏ Đối với điểm C3, cụm lớn gần C2 Mặc dù có ba điểm cụm C3, tương đồng điểm cụm C thấp | C3|=3 nhỏ , giá trị CBLOF điểm C3 nhỏ Phương pháp tiếp cận dựa cụm phải chịu chi phí tính tốn cao họ phải tìm cụm trước phát ngoại lai Một số kỹ thuật phát triển để cải thiện hiệu Ví dụ, phân cụm độ rộng cố định kỹ thuật thời gian tuyến tính sử dụng số phương pháp phát ngoại lai Ý tưởng đơn giản hiệu Một điểm gán cho cụm tâm cụm nằm ngưỡng khoảng cách xác định trước từ điểm Nếu điểm định cho 17 cụm có, cụm tạo Ngưỡng khoảng cách học từ liệu huấn luyện(training set) điều kiện định Các phương pháp phát ngoại lệ dựa cụm có ưu điểm sau Đầu tiên, họ phát ngoại lai mà không yêu cầu liệu gắn nhãn nào, nghĩa theo cách không giám sát Họ làm việc cho nhiều loại liệu Các cụm coi tóm tắt liệu Một thu cụm, phương thức dựa cụm cần so sánh đối tượng với cụm để xác định xem đối tượng có phải ngoại lai hay khơng Quá trình thường nhanh số lượng cụm thường nhỏ so với tổng số đối tượng Hình 5.3.4 Một điểm yếu phát ngoại lai dựa phân cụm hiệu nó, phụ thuộc nhiều vào phương pháp phân cụm sử dụng Các phương pháp khơng tối ưu hóa để phát ngoại lai Các phương pháp phân cụm thường tốn cho tập liệu lớn 5.4 Tiếp cận dựa phân lớp (classification-based Approaches) 18 Phân tích phần tử ngoại lai coi vấn đề phân lớp (classification problem) có sẵn dựa phân lớp đào tạo mơ hình phân loại liệu bình thường với phần tử ngoại lai Hãy xem xét tập huấn luyện(training set) có chứa mẫu gán nhãn “bình thường” số khác gán “ngoại lai ” Một phân lớp xây dựng dựa training set Bất kỳ phương pháp phân lớp sử dụng.Tuy nhiên cách tiếp cận không hiệu để phát phần tử ngoại lai training set thường thiên vị nặng nề.Đó số lượng mẫu bình thường có khả vượt xa số lượng mẫu ngoại lai Sự cân khiến số lượng mẫu ngoại lai không đủ, ngăn việc xây dựng phân lớp xác Xem xét việc phát xâm nhập hệ thống chẳng hạn.Vì hầu hết hệ thống truy cập bình thường, dễ dàng để có trường hợp tốt kiện bình thường Tuy nhiên , lại liệt kê tất xâm nhập tiềm tàng,vì ln có cố bất ngờ xảy , theo thời gian.Do ,chúng ta cịn lại trường hợp, đại diện khơng đầy đủ mẫu ngoại lai Để vượt qua chướng ngại này, phương pháp phân tích phần tử ngoại lai dựa phân lớp thường sử dụng mơ hình lớp(one-class model) Đó ,một phân loại xây dựng để mơ tả lớp bình thường Bất kỳ mẫu khơng thuộc vào lớp bình thường coi ngoại lai 5.4.1 Phân tích ngoại lai sử dụng mơ hình lớp Hãy xem xét training set biểu diễn hình dưới: Hình 5.4.1 Những điểm trắng mẫu gán nhãn bình thường điểm đen mẫu gán nhãn ngoại lai Để xây dựng mơ 19 hình để phát phần tử ngoại lai ,chúng ta tìm hiểu ranh giới định lớp bình thường phương thức phân loại máy véc tơ hỗ trợ(Support vector machine).Cho đối tượng , đối tượng nằm ranh giới định lớp thường Nếu đối tượng nằm ngồi ranh giới định,nó xác định ngoại lai Một lợi việc sử dụng mơ hình lớp bình thường để phát ngoại lai mơ hình xác định ngoại lai mà ngoại lai không xuất gần với ngoại lai training set Điều xảy , miễn ngoại lai nằm ranh giới định lớp bình thường Ý tưởng sử dụng ranh giới định lớp bình thường mở rộng để xử lí tình đối tượng bình thường thuộc nhiều lớp cụm mờ Để xác định xem trường hợp có phải ngoại lai hay khơng, chạy mơ hình trường hợp Nếu trường hợp không phù hợp với mơ hình nào, tun bố ngoại lai Phương pháp dựa phân loại phương pháp phân cụm kết hợp để phát ngoại lai cách học bán giám sát 5.4.2 Xác định phần tử ngoại lai cách học bán giám sát Hình 5.5.2.Xác định phần tử ngoại lai cách học bán giám sát 20 Xem xét hình Trong , đối tượng gán nhãn bình thường ngoại lai ,hoặc chẳng có nhãn Sử dụng phương pháp phân cụm , tìm hai cụm , cụm to C, cụm nhỏ C1.Vì số đối tượng C có nhãn bình thường nên coi tất đối tượng cụm (bao gồm đối tượng khơng có nhãn ) đối tượng bình thường Chúng ta sử dụng mơ hình lớp cụm để nhằm xác định đối tượng bình thường việc xác định đối tượng ngoại lai Tương tự, số đối tượng cụm C1 có nhãn ngoại lai, nên coi tất đối tượng C1 ngoại lai Bất kỳ đối tượng không thuộc mơ hình cho C coi ngoại lai Các phương pháp dựa phân lớp kết hợp kiến thức người vào trình phát cách học hỏi từ mẫu dán nhãn.Một mơ hình phân loại xây dựng, trình phát đối tượng ngoại lai nhanh chóng Nó cần so sánh đối tượng để kiểm tra mơ hình học từ liệu đào tạo Chất lượng phương pháp dựa phân lớp phụ thuộc nhiều vào sẵn có chất lượng tập huấn luyện Trong nhiều ứng dụng, khó để có liệu đào tạo chất lượng cao, điều hạn chế khả áp dụng phương pháp dựa phân lớp 5.5 Học bán giám sát 5.5.1 Khái niệm Học bán giám sát phương thức ngành học máy (Mechine learning) sử dụng liệu gán nhãn chưa gán nhãn Công việc thu kết liệu gán nhãn thường địi hỏi trình độ khả người, công việc tốn nhiều thời gian chi phí, liệu gán nhãn thường đắt, dữu liệu chưa gán nhãn lại phong phú Trong trường hợp đó, ta sử dụng học bán giám sát để thi hành công việc quy mô lớn Phương pháp bán giám sát phát phần tử ngoại lai coi ứng dụng phương pháp học bán giám sát Trong nhiều ứng dụng, có số liệu gán nhãn khả thi số lượng liệu thường nhỏ Chúng ta gặp trường hợp có nhỏ đối tượng bình thường phần tử ngoại lai gán nhãn, hầu hết liệu không gán nhãn Các phương pháp phát phần tử ngoại lai phát triển để giải tình hướng 21 Ví dụ, có sẵn số phần tử bình thường gán nhãn sử dụng chúng với phần tử không gán nhãn gần để huấn luyện mơ hình cho phần tử bình thường Mơ hình sử dụng để phát phần tử ngoại lai, đối tượng khơng phù hợp với mơ hình đối tượng bình thường phân ngoại lai Nếu có sẵn số phần tử ngoại lai gán nhãn, việc phát phần tử ngoại lai phương pháp bán giám sát khó khăn Một số lượng nhỏ phần tử ngoại lai gán nhãn khơng có khả đại diện cho tất phần tử ngoại lai có Do đó, việc xây dựng mơ hình có phần tử ngoại lai dựa vài ngoại lai gán nhãn không hiệu Để cải thiện khả phát ngoại lai, dùng mơ hình cho đối tượng bình thường học từ phương pháp học không giám sát Tuỳ vào mục đích cụ thể, học bán giám sát áp dụng cho toán phân lớp phân cụm Mục tiêu học bán giám sát huấn luyện phân lớp tốt học có giám sát từ liệu gán nhãn chưa gán nhãn 5.5.2 Sơ lược lịch sử phát triển học bán giám sát Quá trình học bán giám sát nghiên cứu phát triển thập kỷ gần đây, từ xuất trang Web với số lượng thông tin ngày lớn, chủ đề ngày phong phú Chúng ta nêu lên q trình phát triển học bán giám sát trải qua thuật toán nghiên cứu sau: Cùng với số liệu lớn liệu chưa gán nhãn, thành phần hỗn hợp nhận với thuật toán Cực đại kỳ vọng EM (expectation-maximization) Chỉ cần mẫu đơn gán nhãn cho thành phần để xác định hồn tồn mơ hình hỗn hợp Mơ hình áp dụng thành cơng vào việc phân lớp văn Một biến thể khác mô hình self-training Cả phương pháp sử dụng cách thời gian dài Chúng sử dụng phổ biến dựa khái niệm đơn giản chúng dễ hiểu thuật toán Co-training thuật toán học bán giám sát điển hình mà nhà khoa học đầu tư nghiên cứu Trong self-training thuật toán mà có phân lớp lỗi tăng cường thêm cho nó, co-training giảm bớt lỗi tăng cường xảy có trình phân lớp bị lỗi Cùng với trình phát triển việc áp dụng phổ biến tăng lên chất lượng thuật toán SVM (Máy hỗ trợ vector - Support Vector Machine), SVM truyền dẫn (Transductive Support Vector Machine 22 – TSVM) bật lên SVM chuẩn mở rộng cho phương pháp học bán giám sát Gần phương pháp học bán giám sát dựa đồ thị (graphbased) thu hút nhiều quan tâm nhà khoa học người quan tâm đến lĩnh vực khai phá liệu Các phương pháp Graphbased bắt đầu với đồ thị mà nút điểm liệu gán nhãn chưa gán nhãn, điểm nối phản ánh giống nút Có thể thấy học bán giám sát trình hồn thiện dần thuật tốn để áp dụng vào vấn đề đời sống người Sau giới thiệu sơ qua số thuật tốn học bán giám sát điển hình xem áp dụng nhiều 5.5.3 Một số thuật toán học bán giám sát Một số thuật toán thường sử dụng gồm có: thuật tốn Cực đại kỳ vọng (EM - Expectation Maximization), SVM truyền dẫn (TSVM Transductive Support Vector Machine), Self-training, Co-training phương pháp dựa đồ thị (graph-based) Việc lựa chọn thuật toán dựa số định hướng: lớp liệu có tính phân cụm cao nên dùng EM với mơ hình hỗn hợp sinh; sử dụng SVM mở rộng thành TSVM; khó nâng cấp mơ hình học có giám sát có, nên dùng self-training; đặc trưng liệu phân chia tự nhiên thành hai phần riêng rẽ nên dùng Co-training; cịn hai mẫu liệu có đặc trưng tương tự hướng tới lớp sử dụng phương pháp dựa đồ thị Nội dung học bán giám sát hệ thống sử dụng tập liệu huấn luyện (training set) gồm phần: liệu đầu vào, thường với số lượng ít, ví dụ học khơng có nhãn, thường với số lượng nhiều Đặt tập liệu gắn nhãn là: Và tập liệu không gắn nhãn là: Thực tế cho thấy sử dụng kết hợp liệu khơng có nhãn với lượng định liệu có nhãn tăng độ xác đáng kể Nội dung sơ thuật tốn học bán giám sát điển hình: 23 Thuật toán Self-training: Self-training phương pháp sử dụng phổ biến học bán giám sát Ban đầu, tập phân lớp huấn luyện với số lượng nhỏ liệu gán nhãn (tập thường nhỏ so với tập liệu chưa gán nhãn) Tập phân lớp sau dùng để gán nhãn cho liệu chưa gán nhãn Trong số liệu gán nhãn, chọn liệu có độ tin cậy cao (lớn ngưỡng đó) kèm với nhãn dự đoán trước chúng, đem bổ sung vào tập liệu huấn luyện ban đầu Sau đó, phân lớp huấn luyện lại tập huấn luyện (gồm liệu gán nhãn ban đầu liệu phân lớp gán nhãn) thuật toán lặp lại Áp dụng phương pháp kiểm thử (có thể kết hợp với tập liệu biết trước nhãn) để đánh giá hiệu năng/độ xác mơ hình Chú ý, tập phân lớp sử dụng dự đốn để huấn luyện Quy trình gọi self-teaching bootstrapping, tên gọi phương pháp bắt nguồn từ trình Self-training áp dụng để xử lý tốn số ngơn ngữ tự nhiên Ngồi ra, self-training cịn áp dụng để phân tách máy dịch máy Mặc dù phương pháp dễ hiểu nhược điểm có phân lớp lỗi tăng cường thêm cho Thuật tốn Self-training thực sau: Bước 1: Chọn phương thức huấn luyện Xây dựng phân lớp sử dụng liệu gán nhãn Xl Bước 2: Sử dụng phân lớp liệu gán nhãn để phân lớp liệu chưa gán nhãn Xu Bước 3: Chọn liệu vừa gán nhãn xꞓXu có độ tin cậy cao Thêm nhãn dự đốn vào Xl Bước 4: Lặp lại huấn luyện phân lớp cách sử dụng liệu gán nhãn Thuật tốn Co-training: Co-training hình thức học bán giám sát khác, đó, giả thiết đặc trưng (features) chia thành hai tập Mỗi tập đặc trưng có khả huấn luyện tập phân lớp tốt Hai tập thỏa mãn điều kiện độc lập (conditonally independent) cho lớp Ví dụ, xem xét liệu trang web, thuộc tính liên quan đến hình ảnh trang sử dụng tập con, thuộc tính liên quan đến văn tạo thành tập khác cho liệu 24 Giả sử, đặc trưng tập liệu huấn luyện chia thành hai tập f1 f2 (trường hợp lý tưởng hai tập thỏa mãn điều kiện độc lập nhau) Tiếp theo, tập phân lớp lại phân lớp liệu chưa gán nhãn “dạy” tập phân lớp khác với vài liệu chưa gán nhãn Trong tập kết liệu f 1, chọn mẫu liệu kèm nhãn dự đốn có độ tin cậy cao bổ sung vào tập liệu huấn luyện phân lớp f2 ngược lại Mỗi phân lớp huấn luyện lại tập liệu huấn luyện (gồm liệu gán nhãn ban đầu liệu gán nhãn bổ sung từ kết phân lớp kia) Quá trình lặp lại tập liệu chưa gán nhãn rỗng số vòng lặp đạt tới ngưỡng xác định trước Phương pháp làm giảm bớt lỗi tăng cườngcó thể xảy có trình phân lớp bị lỗi Khó khăn phương pháp giả định cho việc sử dụng khơng giữ Thuật tốn Co-training: Bước 1: Xác định hai tập độc lập f1 f2 liệu gán nhãn, Xl Bước 2: Huấn luyện hai phân lớp f1 f2, liệu gán nhãn, f1 huấn luyện đặc trưng f2 huấn luyện đặc trưng khác Bước 3: Phân lớp Xu với hai f1 f2 độc lập Bước 4: Thêm phân tử có độ tin cậy cao (x,f 1(x)) vào tập liệu gán nhãn f2 với xX u Tương tự, thêm phần tử có độ tin cậy cao (x,f2(x)) vào tập liệu gán nhãn f1 Bước 5: Lặp lại trình 5.5.4 Các ứng dụng thực tế Học bán giám sát  Phân tích lời nói: Vì việc dán nhãn tệp âm nhiệm vụ chuyên sâu, học bán giám sát cách tiếp cận tự nhiên để giải vấn đề  Phân loại nội dung Internet: Dán nhãn cho trang web q trình khơng thực tế khơng khả thi sử dụng thuật toán học bán giám sát Ngay thuật tốn tìm kiếm Google sử dụng biến thể việc học bán giám sát để xếp hạng mức độ liên quan trang web cho truy vấn định  Phân loại trình tự protein: Do chuỗi DNA thường có kích thước lớn, gia tăng việc học bán giám sát xảy lĩnh vực 25 5.6 Học Kết hợp (Ensemble Learning) Khơng có thuật tốn ln tốt cho hiệu suất cao cho ứng dụng tập liệu, thuật tốn học khác thường dựa tập tham số (hyperparameter) dựa giả thiết phân bố liệu Vì để tìm thuật tốn máy học tốt cho tập dataset cần nhiều thời gian để thử thuật toán khác Sau mà bạn có danh sách số mơ hình xác, bạn sử hiệu chỉnh (tuning) thuật tốn để thu độ xác cao cho thuật tốn Một cách khác sử dụng để tăng độ xác tập dataset bạn kết hợp (combine) số mơ hình với Phương pháp gọi esemble learning Ý tưởng việc kết hợp mơ hình khác xuất phát từ suy nghĩ hợp lý là: mơ hình khác có khả khác nhau, thực tốt loại công việc khác (subtasks), kết hợp mơ hình với cách hợp lý tạo thành mơ hình kết hợp (combined model) mạnh cải thiện hiệu suất tổng thể so với việc dùng mô hình cách đơn lẻ Ít lỗi ,tránh việc bị mức giảm thiểu thiên vị phương pháp lỗi biến * Các thuật toán mà học kết hợp thường sử dụng Bagging(BootstrapAGGregatING ) Bao đóng sử dụng mục tiêu giảm phương sai trình phân loại định Ở đây, mục tiêu tạo số tập hợp liệu từ mẫu đào tạo chọn ngẫu nhiên với thay Mỗi tập hợp liệu tập hợp sử dụng để huấn luyện định chúng Kết là, nhận nhóm gồm mơ hình khác Trung bình tất dự đoán từ khác sử dụng mạnh trình phân loại định Các bước đóng bao: Giả sử có N quan sát M đặc điểm tập liệu huấn luyện Một mẫu từ tập liệu huấn luyện lấy ngẫu nhiên với thay Một tập hợp M đặc điểm chọn ngẫu nhiên tính phân chia tốt sử dụng để phân chia nút lặp Cây phát triển lớn Các bước lặp lại n lần dự đoán đưa dựa tổng hợp dự đoán từ số n Ưu điểm: 26 Giảm mức mơ hình Xử lý liệu nhiều chiều tốt Duy trì độ xác cho liệu bị thiếu Nhược điểm: Do dự đoán cuối dựa dự đốn trung bình từ con, nên khơng đưa giá trị xác cho mơ hình phân loại hồi quy Boosting Phương pháp boosting sử dụng để tạo sưu tập dự đoán Trong kỹ thuật này, người học học với máy học sớm phù hợp với mơ hình đơn giản với liệu sau phân tích liệu cho lỗi Cây liên tiếp (mẫu ngẫu nhiên) phù hợp bước, mục tiêu cải thiện độ xác từ trước Khi đầu vào bị phân loại sai giả thuyết, trọng lượng tăng lên để giả thuyết có nhiều khả phân loại xác Q trình chuyển đổi máy học yếu thành mơ hình hoạt động tốt Các bước boosting : 27 Lấy tập hợp ngẫu nhiên mẫu đào tạo d1 mà không thay từ tập huấn luyện D để đào tạo máy học yếu C1 Vẽ tập đào tạo ngẫu nhiên thứ hai d2 mà không thay từ tập huấn luyện thêm 50 phần trăm mẫu trước phân loại sai / phân loại sai để đào tạo máy học yếu C2 Tìm mẫu đào tạo d3 tập huấn luyện D mà C1 C2 không đồng ý đào tạo máy học yếu thứ ba C3 Kết hợp tất máy học yếu thông qua bỏ phiếu đa số Ưu điểm: Hoạt động tốt với tương tác Nhược điểm: Dễ dàng phù hợp mức Yêu cầu điều chỉnh nhiều siêu tham số 28 Sử dụng học kết hợp việc xác định phần tử ngoại lai dùng phương pháp có (ví dụ KNN , hồi quy tuyến tính, định, SVM,….) để xác định chúng Đối với mơ hình tính tốn cho kết quả, ta xem xét kết bắt đầu biểu Việc làm giảm thiểu lỗi nhiều sử dụng phương pháp để xác định 29 ... cụm phần tử ngoại lai 14 5.3.1 Phát phần tử ngoại lai đối tượng khơng thuộc cụm Hình 5.3.1 Lấy ví dụ , dê hươu sống di chuyển theo bầy Bằng cách phát phần tử ngoại lai xác định phần tử ngoại lai. .. sẵn số phần tử ngoại lai gán nhãn, việc phát phần tử ngoại lai phương pháp bán giám sát khó khăn Một số lượng nhỏ phần tử ngoại lai gán nhãn khơng có khả đại diện cho tất phần tử ngoại lai có... định phần tử ngoại lai dựa phân cụm .16 5.3.4 Phát phần tử ngoại lai cụm nhỏ .17 5.4 Tiếp cận dựa phân lớp (classification-based Approaches) 19 5.4.1 Phân tích ngoại lai sử

Ngày đăng: 04/08/2020, 00:40

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w