1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự đoán lỗi phần mềm sử dụng kỹ thuật học máy

18 638 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 352,42 KB

Nội dung

Mặc dù biết chính xác thành phần nào có lỗi là vấn đề khó, một số nghiên cứu gần đây chó thấy, dựa trên những thông tin về hệ thống cũng như quá trình phát triển phần mềm, ta có thể dự đ

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN THỊ MAI

DỰ ĐOÁN LỖI PHẦN MỀM SỬ DỤNG

KỸ THUẬT HỌC MÁY Chuyên ngành: Truyền dữ liệu và mạng máy tính

Mã số: 60.48.15 - 0009 TÓM TẮT LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS TS TỪ MINH PHƯƠNG

HÀ NỘI - 2010

Trang 2

Mở đầu Giới thiệu

Xây dựng các dự án phần mềm thành công luôn là mối quan tâm hàng đầu đối với mọi tổ chức doanh nghiệp, nhất là doanh nghiệp công nghiệp công nghệ thông tin Đặc biệt quan trọng là quá trình quản lý, kiểm soát tiến độ và đảm bảo chất lượng dự án Các vấn đề thường xảy ra đối với một dự án phần mềm:

 Thời gian thực hiện dự án vượt mức dự kiến

 Nguồn lực thực hiện dự án vượt mức kiểm soát

 Kết quả của dự án không như mong muốn

 Phát sinh rủi ro

Đảm bảo chất lượng sản phẩm là đảm bảo các sản phẩm phần mềm đến tay khách hàng không còn lỗi, các yêu cầu của khách hàng được thỏa mãn, tối ưu nguồn lực thực hiện dự án Do đó việc kiểm tra để phát hiện lỗi nên được thực hiện xuyên suốt quá trình thực hiện dự án phần mềm, ngay từ khi thu thập, phân tích yêu cầu, đến giai đoạn lập trình, giai đoạn kiểm thử, hoặc đến khi nghiệm thu với khách hàng [4] Phát hiện lỗi càng sớm nguồn lực và rủi ro của dự án phần mềm càng giảm Trên thực tế các công ty phần mềm thường chờ đến khi kết thúc giai đoạn lập trình mới tiến hành kiểm tra lỗi của chương trinh, do đó các lỗi nghiêm trọng của dự án sẽ được phát hiện muộn, tốn rất nhiều nguồn lực để quay lại thực hiện lập trình từ đầu Việc kiểm tra chương trình ngay trong giai đoạn lập trình giúp phát hiện ra các sai sót kịp thời: các vấn đề tiềm ẩn, các lỗi thời gian thực hoặc có thể sửa lỗi ngay từ ý tưởng thiết kế trước khi đóng gói bàn giao toàn bộ chương trình cho nhóm kiểm thử thực hiện

Để giúp quá trình sửa lỗi được thực hiện hiệu quả, người quản lý dự án cần có thông tin càng chính xác càng tốt về khả năng có lỗi của từng thành phần cụ thể trong hệ thống Mặc dù biết chính xác thành phần nào có lỗi là vấn đề khó, một số nghiên cứu gần đây chó thấy, dựa trên những thông tin về hệ thống cũng như quá trình phát triển phần mềm,

ta có thể dự đoán với một độ chính xác nhất định khả năng có lỗi hay số lượng lỗi trong các thành phần của hệ thống phần mềm được xây dựng ra Có nhiều phương pháp và cách tiếp cận khác nhau trong việc dự đoán lỗi phần mềm Các nội dung của luận văn này sẽ tập trung vào kỹ thuật dự đoán lỗi phần mềm sử dụng phương pháp kỹ học máy

Trang 3

Mục đích của luận văn

Mặc dù trên thế giới có khá nhiều phương pháp dự đoán lỗi phần mềm, thông thường mỗi phương pháp dựa trên một số đặc trưng nhất định của phần mềm hoặc lịch

sử phát triển phần mềm Hơn nữa mô hình học máy dùng cho dự đoán thường tập trung vào mô hình hồi quy tuyến tính (linear regression) Trong phạm vi luận văn tôi tập trung vào nghiên cứu các ảnh hưởng tới độ chính xác khi dự đoán lỗi khi kết hợp các dạng đặc trưng phần mềm khác nhau (gồm: OO, Delta, Process) Mục đích quan trọng là nghiên

cứu và áp dụng phương pháp rừng ngẫu nhiên (Random Forest) cho bài toán dự đoán

lỗi, đây là một mô hình phân loại/ hồi quy với nhiều ưu điểm sẽ được trình bày chi tiết trong chương 2 của luận văn Luận văn cũng đưa ra các kết quả khi thử nghiệm cho một

hệ thống ứng dụng Java có khả năng chứa lỗi dựa trên bộ dữ liệu có sẵn và đánh giá theo các tiêu chí đánh giá hiệu quả khác nhau (gồm: CE, ROC) [3] Chương trình sử dụng dữ liệu theo nguồn: http://bug.inf.usi.ch

Chương 1 TỔNG QUAN VỀ DỰ ĐOÁN LỖI PHÂN MỀM

Chương này trình bày tổng quan về dự đoán lỗi trong phần mềm và đặc biệt áp

dụng cho một hệ thống Java có khả năng chứa nhiều lỗi Trong phạm vi quản lý dự

án lợi ích đem lại từ việc dự đoán lỗi phần mềm đó là làm giảm nguồn lực của dự

án, thay vì việc phải kiểm tra lỗi cho tất cả các lớp trong hệ thống bao gồm các lớp chứa lỗi và không chứa lỗi thì sẽ dự đoán các lớp nào có khả năng chứa lỗi sau đó tập trung nguồn lực kiểm tra trên các lớp được dự đoán là chứa lỗi đó Hiện trên thế giới đã có một số kỹ thuật xây dựng mô hình dự đoán lỗi phần mềm tuy nhiên với mỗi kỹ thuật lại có các ưu nhược điểm khác nhau, trong chương này cũng sẽ trình bày các ưu nhược điểm của các kỹ thuật này Cuối chương sẽ trình bày một

số dạng đặc trưng của phần mềm đó chính là các tham số được sử dụng trong quá trình dự đoán lỗi

1.1 DỰ ĐOÁN LỖI PHẦN MỀM

1.1.1 Giới thiệu

Trong thuật ngữ của chuyên ngành kỹ nghệ phần mềm, Quản lý dự án phần mềm là các hoạt động trong lập kế hoạch, giám sát và kiểm soát tài nguyên dự án (ví dụ như chi phí, con người), thời gian thực hiện, các rủi ro trong dự án và cả quy trình thực hiện dự

Trang 4

án; nhằm đảm bảo thành công cho dự án Trong đó đảm bảo chất lượng dự án phần mềm

là cân bằng giữa ba yếu tố: thời gian, tài nguyên và chất lượng Ba yếu tố này được gọi

là tam giác dự án [15]:

Các vấn đề thường xảy ra đối với một dự án phần mềm:

 Thời gian thực hiện dự án vượt mức dự kiến

 Chi phí thực hiện dự án vượt mức dự kiến

 Kết quả của dự án không như dự kiến

Vấn đề không thực hiện kiểm thử xuyên suốt và kịp thời dẫn đến quá muộn để phát hiện các lỗ hổng từ khâu thu thập yêu cầu, phân tích, thiết kế và trong quá trình lập trình, khi

đó cán bộ thực hiện dự án sẽ phải quay lại khảo sát từ đầu dẫn đến nguồn lực dự án vượt qua dự kiến, quản trị dự án không thể thể kiểm soát Trong khi đó nếu các lập trình viên thực hiện kiểm tra lỗi ngay trong giai đoạn lập trình sẽ mang lại lợi ích đáng kể trong lĩnh vực quản lý dự án

1.1.2 Dự đoán lỗi của phần mềm

Dự đoán lỗi phần mềm là phương pháp đánh giá các lớp trong hệ thống phần mềm

để xác định những lớp có khả năng có lỗi dựa vào các dữ liệu lịch sử qua các lần thay đổi của hệ thống Đánh giá lỗi cho hệ thống phần mềm bằng cách dựa vào những thay đổi trong các phiên bản khác nhau qua các lần chuyển giao cho khách hàng [3] Trong phạm vi luận văn không đề cập đến việc dự đoán vị trí của lỗi, lỗi như thế nào trong một lớp mà chỉ dự đoán những lớp nào có khả năng có lỗi, lớp nào chứa nhiều lỗi, lớp nào chưa ít lỗi hơn Luận văn tập trung vào việc đưa ra kỹ thuật dự đoán lỗi phần mềm áp

dụng cho một hệ thống Java có khả năng có nhiều lỗi Để xây dựng mô hình dự đoán lỗi phần mềm hầu hết sử dụng kỹ thuật học máy để dự đoán bằng cách sử dụng các phép đo cấu trúc mã nguồn trong các lớp, tuy nhiên một số nghiên cứu cũng có thể sử dụng thêm các thông tin khác ví dụ lịch sử các thay đổi trong các phiên bản trước đó: đo cấu trúc

mã nguồn trong các lớp, đo xem sự thay đổi các phương thức của các lớp đươc gọi như thế nào, hoặc dựa trên chính dữ liệu lịch sử của các lập trình viên tác động vào các lớp ví dụ: có bao nhiêu lập trình viên cập nhật trên lớp, số dòng code hay số lỗi mà các lập trình viên gây trong các lớp đó

Trong công việc quản lý và kiểm soát nguồn lực dự án thì việc kiểm soát nguồn lực trong giai đoạn phát triển phần mềm đóng vai trò quan trọng Như vậy thay vì tốn rất nhiều nguồn lực để kiểm tra và sửa lỗi cho toàn bộ các lớp được sinh ra trong hệ thông thì sẽ sử dụng kỹ thuật dự đoán lỗi để xác định những lớp nào có lỗi từ đó tập trung sửa lỗi cho lớp đó sẽ giảm được 50% chi phí thực hiện cho việc phát triển và kiểm tra lỗi

Trang 5

ngay trong giai đoạn lập trình Hiện nay có khá nhiều kỹ thuật được sử dụng để dự đoán lỗi nhưng chưa có đánh giá cụ thể nào về kỹ thuật dự đoán nào là hiệu quả nhất mà sẽ tùy thuộc vào các tiêu chí được áp dụng để đánh giá cho mô hình dự đoán Luận văn cũng sẽ tập trung vào một kỹ thuật dự đoán dựa trên học máy để xây dựng và thử nghiệm cho mô hình dự đoán lỗi của một hệ thống phần mềm

1.2 CÁC PHƯƠNG PHÁP DỰ ĐOÁN LỖI PHẦN MỀM

Có một số cách tiếp cận khác nhau trong việc dự đoán một thành phần nào có của

hệ thống phần mềm có lỗi hay không Do luận văn chỉ tập trung vào cách tiếp cận dựa trên học máy nên trong phần này sẽ giới thiệu ngắn gọn về một số phương pháp học máy

có thể sử dụng để dự đoán số lỗi trong phần mềm

1.2.1 Thuật toán cây quyết định

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự đoán (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định

Cây quyết định là cây mà những nút bên trong của nó bao gồm việc kiểm tra một thuộc tính xác định và những nút lá của nó đưa ra sự phân lớp mà được áp dụng cho tất cả các mẫu đạt đến nút lá, hoặc một tập của sự phân lớp, hoặc một xác xuất phân tán qua tất cả các lớp có thể Để phân lớp cho một mẫu chưa biết, nó được định tuyến xuống dưới cây dựa theo giá trị của thuộc tính được kiểm tra lần luợt theo các nút, và khi một nút lá được tìm thấy một mẫu được phân lớp dựa theo lớp mà được gán cho nút lá [9]

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện

Thuật toán cây quyết định là một trong các thuật toán mà được sử dụng rộng rãi nhất trong các thuật toán học máy trong việc xây dựng các mẫu phân lớp từ các nguồn

dữ liệu Nó có thể được chọn cho việc thu thập những tri thức và tạo những quy tắc quyết định từ kho lưu trữ dữ liệu dựa trên một vài đặc điểm sau:

 Cây quyết định có thể được chọn để tạo các quy tắc dễ hiểu

 Đạt đến sự phân lớp mà không cần những tính toán chuyên sâu

 Có thể được chọn để làm việc với cả những biến liên tục và biến phân loại, cung cấp sự định hướng rõ ràng, và phạm vi nào là quan trọng nhất cho việc dự đoán hoặc phân lớp

Trang 6

 Tự động lựa chọn thuộc tính tương ứng

 Có thể sử dụng truy vấn SQL để truy cập cơ sở dữ liệu

 Khi thực hiện phân lớp thì độ chính xác cũng có thể được so sánh với các phương pháp khác

1.2.2 Kỹ thuật hồi quy logistic (logistic regression)

Trong thống kê, hồi quy logistic (mô hình logit ) được sử dụng cho dự đoán khả năng xuất hiện lỗi của một hệ thống bằng một hàm logit Kỹ thuật hồi quy logit được phát triển trong những năm 1970 mô hình tuyến tính tổng quát hóa sử dụng cho hồi quy nhị phân (chỉ có 2 giá trị) Giống như các dạng của phân tích hồi quy, hồi quy tuyến tính tạo ra vài biến dự đoán mà có thể là số hoặc tên thể loại

Hồi quy logit là một kiểu hồi quy mà các biến phụ thuộc là nhị phân hoặc số.Ví dụ một người bị đau tim trong một khoảng thời gian thời gian cụ thể có thể được dự đoán dựa trên những hiểu biết về tuổi, giới tính, chỉ số cơ thể Thuật toán hồi quy logit được

sử dụng rộng rãi trong các ngành y tế, xã hội hoặc các ứng dụng kinh doanh tiếp thị, ví

dụ như dự đoán xu hướng khách hàng sẽ mua sản phẩm nào hoặc không mua sản phẩm nào trong năm Hàm logit f(z) có dạng:

f(z)= z 1 1 1e z

z

1.2.3 Kỹ thuật mạng nơ ron (neural net works)

Mạng nơ ron nhân tạo (Artificial neural network – ANN) là một mô phỏng xử lý thông tin, được nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống như bộ não để

xử lý thông tin Nó bao gồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng [13] Thuật toán máy tính mô phỏng các kiến trúc sinh học này thường được gọi là mạng nơron nhân tạo để phân biệt với các phần mềm trong cơ thể động vật ANNs hoạt động giống như bộ não con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp Đầu tiên ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits Nhưng với những kỹ thuật trong thời gian này chưa cho phép họ nghiên cứu được nhiều

Mạng nơron hoạt động dựa trên nguyên lý học máy Thông qua các mẫu có sẵn và tập mục tiêu (với phương pháp học có thầy) để đưa ra kết luận khi có một mẫu mới được đưa vào Mạng nơron nhân tạo là một kỹ thuật mô phỏng lại bộ não và hệ thần kinh của con người.Nó cũng có khả năng học từ các kinh nghiệm trong quá khứ, tổng quát hóa

Trang 7

các kinh nghiệm này để đưa ra một nhận định mới nhờ rút ra được các đặc trưng cơ bản của tập mẫu Các việc này được thực hiện thông qua việc xử lý tín hiệu giữa các nơron cùng với các trọng số của chúng

1.3 CÁC ĐẶC TRƯNG

1.3.1 Độ đo Object Oriented

Đơn vị đo OO (Object - Oriented) là phép đo bằng cách phân tích các thuộc tính cấu trúc được đưa ra từ mã nguồn Phép đo OO là phép đo trong các hệ thống hướng đối tượng, để xác định sự thành công hay thất bại của một quy trình, để xác định có định lượng sự cải tiến trong một quy trình phần mềm Phép đo này được sử dụng để cải tiến

kỹ thuật lập trình hướng đối tượng tăng tính tin cậy của mã nguồn Phép đo OO được thu thập từ các đoạn mã nguồn đơn giản để xác định: số lượng hàm trong một lớp, số lượng package được import trong một lớp, số lượng phương thức của các lớp kế thừa được gọi… Đây là một phép đo được sử dụng để ước lượng và dự đoán chất lượng phần mềm

1.3.2 Độ đo Delta

Là phép đo lượng thay đổi trong một lớp qua 2 lần phiên bản thành công Độ đo Delta yêu cầu các phiên bản khác nhau của hệ thống có sẵn Độ đo Delta được xác định

để so sánh sự thay đổi trong một lớp của phiên bản này với phiên bản mới hơn, nó được xác định dựa trên độ đo OO Với độ đo OO chỉ phân tích cấu trúc mã nguồn để xác định

số lượng hàm trong một lớp thì độ đo Delta sẽ xác định sự thay đổi giữa số lượng hàm trong một lớp giữa 2 phiên bản nghĩa là xác định số lượng hàm trong một lớp trong phiên bản 1 tăng hay giảm và là bao nhiêu so với phiên bản 2, hoặc số lượng package trong 1 lớp được thay đổi giữa 2 phiên bản như thế nào hoặc các phương thức của các lớp kế thừa được gọi trong một lớp thay đổi như thế nào trong phiên bản 1 với phiên bản

2

1.3.3 Độ đo Process

Độ đo này được thu thập từ hệ thống quản lý cấu hình, bao gồm một phép đo dựa trên kinh nghiệm của nhân viên phát triển thực hiện mỗi thay đổi, số lượng nhân viên phát triển tạo ra các thay đổi trên một tập tin, số lượng lỗi trong phiên bản trước, phép

đo này đơn giản như là xác định số dòng được thêm vào hoặc xóa đi trong một tập tin của một lập trình viên Phép đo Process yêu cầu các bản ghi thông tin chi tiết của lập trình viên gồm: các thay đổi, các phương pháp hiệu chỉnh lỗi, thời gian thay đổi, thông tin nhân viên, liệu các thay đổi đã được kiểm tra chưa,…theo phương pháp thống nhất

và có hệ thống trong hệ thống quản lý cấu hình hoặc quản lý thay đổi

Trang 8

Chương 2

DỰ ĐOÁN LỖI PHẦN MỀM SỬ DỤNG

KỸ THUẬT HỌC MÁY

Trong chương này sẽ trình bày về thuật toán được áp dụng để xây dựng mô hình dự đoán phần mềm, trước đó sẽ trình bày tổng quan về kỹ thuật cây quyết định trong học máy, các nhược điểm của thuật toán này và cách khắc phục bằng cách

sử dụng thuật toán Random Forest (thuật toán rừng ngẫu nhiên) Trình bày chi tiết lịch sử ra đời, ưu điểm của thuật toán này trong kỹ thuật dự đoán lỗi phần mềm Phần tiếp sẽ trình bày các phương pháp đánh giá hiệu quả mô hình dự đoán lỗi Với các phương pháp đánh giá này vẫn chưa có tài liệu hoặc nghiên cứu nào khẳng định phương pháp nào là tốt nhất mà còn phụ thuộc vào thực tế của một hệ thống quản lý chất lượng của một tổ chức

2.1 NGUỒN GỐC RA ĐỜI CỦA THUẬT TOÁN

2.1.1 Nhược điểm của cây quyết định

Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chung cũng như trong nghiên cứu

về các thuật toán phân lớp nói riêng, vấn đề xử lý dữ liệu lớn ngày càng trở thành vấn đề cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán thực tế Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết với một số lượng dữ liệu có hạn cũng như với một độ phức tạp dữ liệu giới hạn được Trong khi đó dữ liệu thu được càng trở nên đa dạng phong phú nhờ sự phát triển mạnh mẽ của khoa học

Mặc dù kỹ thuật cây quyết định là công cụ khai phá dữ liệu mạnh trong lĩnh vực học máy tuy nhiên kỹ thuật này không hoàn toàn hoàn hảo và thích hợp với một số loại vấn

đề Các cây phân loại dữ liệu có thể ổn định và có sự biên đổi nhỏ (các biến đổi này được tạo ra một cách ngẫu nhiên) có thể là cơ sở cho sự khác nhau của các cây tìm kiếm được sinh ra Đây là đặc điểm đặc biệt trong các trường hợp mà các chia tách tối ưu cho các biến khác nhau gần với các biến khác về mặt giá trị Trong tường hợp này, một biến đổi nhỏ về mặt dữ liệu cũng đủ gây ảnh hưởng tới việc lựa chọn trong việc phân tách các giá trị khác

2.2 THUẬT TOÁN RANDOM FOREST

2.2.1 Giới thiệu thuật toán Random Forest

Thuật toán RF - Random Forest là một thuật toán đặc biệt dựa trên kỹ thuật lắp

ghép, Về bản chất thuật toán RF được xây dựng dựa trên nền tảng thuật toán phân lớp

Trang 9

cây phân loại và hồi quy, sử dụng kỹ thuật có tên gọi là “bagging” [5] Thuật toán này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho mức tiếp theo của cây phân lớp Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng cho dù không gian thuộc tính rất lớn Các tham số đầu vào của thuật toán khá đơn giản bao gồm các thuộc tính được chọn trong mỗi lần phân chia Giá trị mặc định của tham số này là căn bậc hai của p với p là số lượng các thuộc tính Số lượng cây được tạo ra là không hạn chế và cũng không sử dụng bất kỳ kỹ thuật nào để hạn chế mở rộng cây Phải lựa chọn tham số cho biết số lượng cây sẽ được sinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần Thuật toán sử dụng kỹ thuật “out of bag” để xây dựng tập huấn luyện và phương pháp kiểm tra trên nó [5]

2.2.2 Lịch sử của thuật toán Random Forest

Thuật toán tạo một rừng ngẫu nhiên được phát triển bởi Leo Breiman và Adele Cutler [5], thuật ngữ Random Forest được lấy làm tên phổ biến cho thuật toán này

Thuật ngữ RF được xuất lần đầu tiên năm 1995, sau đó kết hợp với phương pháp

“bagging” trong lựa chọn các thuộc tính ngẫu nhiên của Leo Breiman năm 1996 để xây dựng phương pháp chọn các cây quyết theo các thay đổi có thể kiểm soát được Năm

2001 Breiman xây dựng thuật toán RF có bổ sung thêm một lớp ngẫu nhiên để phân lớp Ngoài việc xây dựng mỗi cây sử dụng các mẫu dữ liệu khác nhau, các rừng ngẫu nhiên được thay đổi để xây dựng các cây phân loại và hồi quy khác nhau Các gói thư viện cài đặt thuẩt toán RF được xây dựng bằng ngôn ngữ Fortran bởi Leo Breiman và Cutler có thể tham khảo tại đường dẫn: (http://www.stat.berkeley.edu/)

2.2.3 Thuật toán Random Forest

Về cơ bản thuật toán Random Forest (RF) – rừng ngẫu nhiên dựa trên kỹ thuật cây

quyết định Ý tưởng của RF chúng ta có thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ có 1 người bỏ phiếu Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận Việc áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn

rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe đi bầu cử) Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác, gần với thực tế hơn

Trang 10

Định nghĩa: Một RF là một bộ phân loại gồm một tập các bộ phân loại có câu hình cây

{ h(x, ⊖ ), k=1,…} trong đó { ⊖ } là các vecto ngẫu nhiên, độc lập, có cùng phân bố

xác suất, mỗi cây bầu cử một phiếu cho lớp phổ biến nhất tại đầu vào x [5]

2.2.4 Đặc tính của thuật toán Random Forest

Đối với rừng ngẫu nhiên, cận trên sẽ bắt nguồn cho các lỗi phát sinh dưới dạng hai

tham số, là cách xác định tính chính xác (Strength - Accuracy) và tính tương quan

(hay còn gọi là độ nhạy - Correlation) của các bộ phân loại riêng lẻ có trong rừng ngẫu

nhiên

Hàm tương quan như sau:

mr(X, Y) = Ө (h(X, Ө) = Y) – Ө (h(X, Ө) = j)

Hàm tính độ chính xác như sau: s = , mr(X, Y)

Giả sử s ≥0 ta có bất đẳng thức sau:

∗ ≤ var (mr)/

Công thức thể hiện sự dao động của mr như sau:

Nếu:

j (X, Y) = arg Ө (h(X, Ө) = j) Thì:

mr(X, Y)= Ө (h(X, Ө) = Y) – Ө (h(X, Ө) = j(X, Y))

= Ө [ I(h(X, Ө)= Y) – I( h (X, Ө)= j (X, Y))]

Như vậy: trong rừng ngẫu nhiên, hai tiêu chí đánh giá phương pháp phân loại là: tính

chính xác của từng cây và tính tương quan giữa các cây trong rừng tỷ lệ nghịch với

nhau Nếu tính tương quan giữa các cây trong rừng càng cao thì độ chính xác sẽ giảm

Độ chính xác và độ nhạy nếu đứng tách nhau thì không có ý nghĩa Hai độ đo này có sự tương quan nghịch: độ chính xác càng cao thì độ nhạy càng thấp và ngược lại Khi độ chính xác hoặc độ nhạy đạt giá trị tối thiểu thì cũng là lúc hệ thống mất khả năng phân loại Vì vậy người ta phải kết hợp hai độ đo trên trong một độ đo thống nhất, vấn đề đặt

ra là làm sao để có thể cân bằng hai tham số này khi thực hiện phân loại để đạt hiệu quả cao nhất Theo công thức độ chính xác là tỷ lệ phần trăm các lớp phân loại đúng hoặc các lớp phân loại không lỗi: (TP/ (TP + FP)) Độ nhạy là tỷ lệ phần trăm các lớp phân

Ngày đăng: 13/02/2014, 12:43

HÌNH ẢNH LIÊN QUAN

Bảng 3.1. Tổng hợp kết quả ROC theo các biến - Dự đoán lỗi phần mềm sử dụng kỹ thuật học máy
Bảng 3.1. Tổng hợp kết quả ROC theo các biến (Trang 17)
Bảng 3.2. Tổng hợp kết quả CE - Dự đoán lỗi phần mềm sử dụng kỹ thuật học máy
Bảng 3.2. Tổng hợp kết quả CE (Trang 17)
Bảng 3.1. Tổng hợp kết quả ROC theo các biến - Dự đoán lỗi phần mềm sử dụng kỹ thuật học máy
Bảng 3.1. Tổng hợp kết quả ROC theo các biến (Trang 17)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w