Xây dựng các bộ dữ liệu chung cho dự án nguồn và đích

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp dự đoán lỗi phần mềm liên dự án (Trang 43 - 46)

phục sự khác nhau về dữ liệu giữa dự án nguồn và dự án đích, trong bối cảnh các phương pháp dự đoán lỗi trong cùng dự án không áp dụng được hoặc áp dụng nhưng không mang lại hiệu quả đối với các dự án khác nhau. Để sử dụng có hiệu quả các dữ liệu không đồng nhất giữa hai miền, Li et al giới thiệu không gian chung cho dữ liệu nguồn và đích, đó là nơi mà các dữ liệu không đồng nhất có thể so sánh được với nhau.

Cụ thể, với bất kì mẫu nguồn Qv và mẫu đích Qw , các hàm mapping chức năng

xv và xw được định nghĩa như sau:

xv (Qv) = [ yQv; Qv; 0{| ] xw (Qw) = [ }Qw; 0{~; Qw ]

trong đó P và Q là các ma trận chiếu, v, w lần lượt là chiều của dữ liệu nguồn và đích. Kết quả mong muốn đã được chứng minh bởi kết hợp các tính năng ban đầu vào tính năng tăng thêm để tăng cường những điểm tương đồng giữa các dữ liệu từ cùng một tên miền. Từ kết quả mong muốn đó, em giới thiệu cách biểu diễn thống nhất cho dữ liệu lỗi không đồng nhất của dự án nguồn và đích.

Giả sử rằng dữ liệu nguồn và đích được biểu diễn như sau:

2v = Qv/, Qv4, . . . , QvÄ

2$ = Q$/, Q$4, . . . , Q$Å

trong đó Q": biểu diễn module thứ i trong 2", Q$D biểu diễn module thứ j trong 2$, N, M lần lượt là số module của 2" và 2$. Mỗi module trong dữ liệu nguồn và đích được biểu diễn tương ứng như sau:

Q$: = 1$:/, 1$:4, . . . , 1$:{|

trong đó 1":D biểu diễn giá trị của số liệu thứ j của Q":, 1:D$ biểu diễn giá trị của số liệu thứ j của Q$: , v, w lần lượt là số các số liệu trong dữ liệu nguồn và đích, thường thì hai giá trị này là khác nhau v ≠w.

Xem xét sự khác biệt lớn trong giá trị của các số liệu khác nhau, trước hết chúng ta sử dụng chuẩn hóa z-score (không sử dụng độ lệch chuẩn) để tiền dữ liệu, phương thức chuẩn hóa được biết đến với tên chuẩn hóa Ç4, việc chuẩn hóa được áp dụng cho cả dữ liệu nguồn và dữ liệu đích. Sau đó tiến hành tìm kiếm các số liệu chung từ các số liệu được sử dụng trong 2" và 2$. Chọn các vector hàng có liên quan đến các số liệu chung từ 2" và 2$ để xây dựng nên 2"i ℝ{Ñ ∗ Ä và 2$i ℝ{Ñ ∗ Å. Lưu ý rằng hàng thứ k trong 2"i và 2$i tương ứng với cùng một số liệu chung. Để làm cho dữ liệu không đồng nhất từ các công ty nguồn và đích có thể so sánh được với nhau, chúng ta định nghĩa cách biểu diễn thống nhất như sau:

− 2" = 2"i 2"" 0({| t ÖÑ) ∗ Ä − 2$ = 2$i 0({~ t ÖÑ) ∗ Å 2$"

trong đó 2"" là các dữ liệu trong 2" chứa các số liệu riêng (không phải các số liệu chung) của công ty nguồn và 2$" là các dữ liệu trong 2$ chứa các số liệu riêng (không phải các số liệu chung) của công ty đích.

Sau khi xây dựng cách biểu diễn thống nhất, dữ liệu lỗi từ hai công ty có thể dễ dàng so sánh. Hình 9 minh họa việc xây dựng cách biểu diễn thống nhất cho nguồn và đích dữ liệu không đồng nhất. Cần lưu ý rằng khi không tồn tại số liệu chung giữa các dữ liệu từ hai công ty, cách biểu diễn thống nhất có thể được định nghĩa là:

2" = 0{2| ∗ Ä" −

2$ = 0{2~ ∗ Å$

Hình 9. Xây dựng cách biểu diễn thống nhất

Như vậy, cách biểu diễn thống nhất được xây dựng dựa trên việc tận dụng những dữ liệu chung của hai dự án nguồn và đích, trong phần tiếp theo, em sẽ trình bày việc sử dụng cách biểu diễn thống nhất kết hợp với phương pháp CCA để tạo ra không gian mà trong đó, dữ liệu từ hai dự án có thể so sánh được.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp dự đoán lỗi phần mềm liên dự án (Trang 43 - 46)