Khuynh hướng nghiên cứu về luật hiếm

Việc sinh ra tất cả các luật hiếm hữu ích vẫn là một vấn đề khó. Quá trình này vẫn bị giới hạn bởi tính chất tự nhiên của dữ liệu. Các luật hiếm thường là sự kết hợp của: (1) các mục dữ liệu hiếm; (2) các mục dữ liệu hiếm và các mục dữ liệu phổ

biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao khi xét riêng từng mục dữ liệu, nhưng khi kết hợp lại tạo thành các tập mục có độ hỗ trợ nhỏ. Chính vì vậy không thể dùng các kỹ thuật phát hiện tập phổ biến thông thường để phát hiện các luật kết hợp hiếm. Độ hỗ trợ thấp của các tập mục gây trở ngại lớn cho quá trình phát hiện luật hiếm.

Trong [51], Y.S. Koh và cộng sự đã chỉ ra rằng: Phát hiện luật kết hợp hiếm yêu cầu kỹ thuật tiền xử lý khác so với việc phát hiện luật phổ biến. Mặc dù bắt đầu trong cùng vùng dữ liệu, nhưng tính chất của các luật là khác nhau. Các kỹ thuật tiền xử lý hiện nay nhằm hỗ trợ cho việc phát hiện luật phổ biến được thiết kế chỉ

phù hợp với đặc tính của các luật phổ biến. Việc phát triển các kỹ thuật tương ứng dành cho phát hiện luật kết hợp hiếm hiện vẫn là vấn đề mở theo một vài hướng tiếp cận có ý nghĩa khác nhau.

Hướng thứ nhất là tìm ra cách phù hợp nhằm phát hiện ra các tập hiếm. Theo cách này, kỹ thuật phát hiện luật kết hợp hiếm hiện tại đã sử dụng nhiều ngưỡng tuỳ

ý (arbitrary thresholds) nhằm tìm ra các tập hiếm. Tuy nhiên kỹ thuật này lại không

đưa ra được cách phát hiện nhiễu. Một vấn đề quan trọng trong tìm các tập hiếm là phân biệt được các tập mục giá trị từ các tập nhiễu. Cũng giống như phát hiện tập phổ biến có thểđưa vào các hình thức như: tập đóng, tập sinh,...

Hướng tiếp cận thứ hai là chỉđi tìm các luật hiếm cụ thể. Phương pháp này trở

thành cách tiếp cận phổ biến, đặc biệt với các CSDL y tế, ở đó các mục dữ liệu có thể là phổ biến khi xét độc lập nhưng là không phổ biến khi xét kết hợp cùng nhau. Chẳng hạn, hai triệu chứng thông thường kết hợp lại có thể tạo căn bệnh hiếm. Trong tình huống này, có một số luật hiếm nhưng chỉ có một luật được sinh. Những kỹ thuật gần đây chỉ cho phép chúng ta sinh ra luật con của những luật này. Tuy nhiên, không phải tất cả các luật hiếm đều có giá trị. Hiện vẫn chưa có kỹ thuật cho phép sinh ra tất cả các luật hiếm có giá trị. Một trở ngại trong việc phát hiện luật kết hợp hiếm là sẽ sinh ra rất nhiều luật và trong đó lại có nhiều luật không có ý nghĩa. CSDL thực chứa nhiều nhiễu. Một phần rất tự nhiên của các luật hiếm là chúng dễ

bị che khuất bởi nhiễu, hoặc có thể chúng ta sẽ coi những luật nhiễu như là những luật có giá trị.

Hướng thứ ba dựa trên việc phát triển các thuật toán tiền xử lý, tức là dựa trên các độ đo giá trị để xác định các luật hiếm. Các độ đo giá trị hiện tại áp dụng cho các luật phổ biến [20] thường không phù hợp khi xét kết hợp với những luật có độ

hỗ trợ thấp (tức là các luật hiếm). Các kỹ thuật hiện tại được thiết kế dùng trong phát hiện luật kết hợp phổ biến không phù hợp khi áp dụng phát hiện các luật kết hợp hiếm.

Kết luận chương 1:

Nội dung chương 1 đã giới thiệu tổng quan các hướng nghiên cứu về phát hiện luật kết hợp từ CSDL tác vụ, phát hiện luật kết hợp từ CSDL định lượng và phát hiện luật kết hợp hiếm. Các kết quả nghiên cứu tiêu biểu của các tác giả liên quan trong từng phần nội dung đã được trình bày một cách tóm tắt. Từ phần nghiên cứu tổng quan này đã giúp nghiên cứu sinh có kiến thức và căn cứ cơ sở để lựa chọn và thực hiện hướng nghiên cứu của mình.

Khuynh hướng nghiên cứu về luật hiếm

Phát hiện luật kết hợp định lượng

Khuynh hướng nghiên cứu về luật hiếm