Ví dụ minh họa

Một phần của tài liệu 249776 (Trang 29 - 31)

Chương 4 Đánh giá tính hữu ích của đặc trưng và tinh chỉnh miền giá trịđặc trư ng

4.1.2. Ví dụ minh họa

Xét bảng thông tin về các đặc trưng giới tính, ca học và tình trạng hôn nhân được khảo sát trên 100 sinh viên (bảng 4.1).

Bảng 4.1.Bảng kết quả khảo sát các đặc trưng.

Thống kê trên 100 mẫu của hệ thống, các giá trị của đặc trưng ‘tình trạng hôn nhân’ như ‘độc thân’, ‘kết hôn’, ‘ly dị’, ‘ở góa’ lần lượt nhận giá trị 98, 2, 0, 0. Trong cột thứ 4 của bảng 4.1 hầu như tất cả các mẫu đều nhận cùng một giá trị ‘độc thân’. Từ đó cho thấy đặc trưng ‘tình trạng hôn nhân’ tỏ ra không hữu ích vì nó không tạo ra sự khác biệt giữa các user. Trong cột thứ 2 và 3 của bảng 4.1, đặc

User Giới tính (nam, nữ)

Ca học

(Sáng, trưa, chiều, tối)

Tình trạng hôn nhân (độc thân, kết hôn, ly dị, ở góa)

u1 Nam Sáng Độc thân u2 Nữ Sáng Độc thân u3 Nữ Tối Độc thân u4 Nam Trưa Độc thân u5 Nam Tối Độc thân u6 Nam Sáng Kết hôn u7 Nữ Tối Độc thân u8 Nữ Sáng Độc thân u9 Nữ Tối Độc thân u10 Nữ Chiều Độc thân …

trưng giới tính và ca học tỏ ra hữu ích vì nó tạo ra sự khác biệt giữa các user từ đó giúp hệ thống phân biệt được các user và phục vụ tốt hơn, phù hợp hơn.

Đặc trưng không hữu ích rất dễ nhận ra vì trong miền giá trị của nó có chứa một giá trị chiếm ưu thế một cách vượt trội dẫn đến tần suất của giá trị này là rất lớn so với các giá trị còn lại. Trong luận văn, giá trị này được gọi là extra value. Giá trị này dễ nhận diện khi biểu diễn dưới dạng biểu đồ như hình 4.1

0 0 2 98 0 20 40 60 80 100

độc thân kết hôn ly dị ở góa

Hình 4.1.Biểu đồ phân bố miền giá trị của đặc trưng ‘tình trạng hôn nhân’ Đến đây, ý tưởng giải quyết bài toán con (a) nêu trong chương 3 đã rõ ràng là chúng tôi sẽ tìm các đặc trưng không hữu ích-đặc trưng có chứa extra value- và xem xét loại ra khỏi profile thay vì tìm cách chọn lọc các đặc trưng hữu ích.

Sau khi đã có được profile gồm các đặc trưng tốt thì công việc kế tiếp là tinh chỉnh miền giá trị của các đặc trưng này. Miền giá trị của đặc trưng được phân thành hai tập con: một tập gồm các giá trị bắt buộc và tập kia gồm các giá trị tùy chọn, có thể có hoặc không. Với những giá trị bắt buộc thì sự cần thiết của chúng trong profile là điều hiển nhiên. Do vậy, tiếp cận của luận văn chỉđánh giá tính hữu ích của các giá trị tùy chọn và tinh chỉnh chúng. Phần còn lại của luận văn khi đề cập đến việc tinh chỉnh miền giá trị của đặc trưng thì ngầm hiểu đó là các giá trị tùy chọn.

Trong ví dụ ở bảng 4.1, DOM(ca học) ={sáng, trưa, chiều, tối}. Kết quả thống kê trên 100 mẫu về các giá trị sáng, trưa, chiều, tối lần lượt nhận giá trị 47, 3,

28, 22. Xét trong ngữ cảnh của ứng dụng là hệ đào tạo từ xa có 3 buổi học online vào các sáng thứ 3, 5, 7, nghĩa là các học viên bắt buộc phải tham gia các buổi học này. Khi đó, giá trị ‘sáng’ là giá trị bắt buộc và việc đánh giá tính hữu ích chỉ xét trên các giá trị trưa, chiều, tối.

Giá trị không hữu ích rất dễ nhìn thấy khi biểu diễn miền giá trị dưới dạng biểu đồ (hình 4.2). Trong ví dụ này, đó chính là giá trị ‘trưa’ vì tần suất của giá trị ‘trưa’ rất thấp so với các giá trị còn lại. Trong phạm vi luận văn, giá trị này được gọi là rare value 47 3 28 22 0 20 40 60 80 100 sáng trưa chiều tối

Hình 4.2.Biểu đồ phân bố miền giá trị của đặc trưng ‘ca học’

Đến đây, ý tưởng giải quyết bài toán con (b) nêu trong chương 3 đã rõ ràng là chúng tôi sẽ tìm ra giá trị không hữu ích (rare value) và tinh chỉnh lại miền giá trị. Có hai cách xử lý: loại bỏ hẳn giá trị không hữu ích hoặc ghép giá trị đó vào một giá trị khác trong miền.

Một phần của tài liệu 249776 (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(73 trang)