Việc sinh ra tất cả các luật hiếm hữu ích vẫn là một vấn đề khó. Q trình này vẫn bị giới hạn bởi tính chất tự nhiên của dữ liệu. Các luật hiếm thường là sự kết hợp của: (1) các mục dữ liệu hiếm; (2) các mục dữ liệu hiếm và các mục dữ liệu phổ biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao khi xét riêng từng mục dữ liệu, nhưng khi kết hợp lại tạo thành các tập mục có độ hỗ trợ nhỏ. Chính vì vậy khơng thể dùng các kỹ thuật phát hiện tập phổ biến thông thường để phát hiện các luật kết hợp hiếm. Độ hỗ trợ thấp của các tập mục gây trở ngại lớn cho quá trình phát hiện luật hiếm.
Trong [51], Y.S. Koh và cộng sự đã chỉ ra rằng: Phát hiện luật kết hợp hiếm yêu cầu kỹ thuật tiền xử lý khác so với việc phát hiện luật phổ biến. Mặc dù bắt đầu trong cùng vùng dữ liệu, nhưng tính chất của các luật là khác nhau. Các kỹ thuật tiền xử lý hiện nay nhằm hỗ trợ cho việc phát hiện luật phổ biến được thiết kế chỉ phù hợp với đặc tính của các luật phổ biến. Việc phát triển các kỹ thuật tương ứng
dành cho phát hiện luật kết hợp hiếm hiện vẫn là vấn đề mở theo một vài hướng tiếp cận có ý nghĩa khác nhau.
Hướng thứ nhất là tìm ra cách phù hợp nhằm phát hiện ra các tập hiếm. Theo cách này, kỹ thuật phát hiện luật kết hợp hiếm hiện tại đã sử dụng nhiều ngưỡng tuỳ ý (arbitrary thresholds) nhằm tìm ra các tập hiếm. Tuy nhiên kỹ thuật này lại không
đưa ra được cách phát hiện nhiễu. Một vấn đề quan trọng trong tìm các tập hiếm là
phân biệt được các tập mục giá trị từ các tập nhiễu. Cũng giống như phát hiện tập phổ biến có thể đưa vào các hình thức như: tập đóng, tập sinh,...
48
Hướng tiếp cận thứ hai là chỉ đi tìm các luật hiếm cụ thể. Phương pháp này trở thành cách tiếp cận phổ biến, đặc biệt với các CSDL y tế, ở đó các mục dữ liệu có thể là phổ biến khi xét độc lập nhưng là không phổ biến khi xét kết hợp cùng nhau. Chẳng hạn, hai triệu chứng thông thường kết hợp lại có thể tạo căn bệnh hiếm. Trong tình huống này, có một số luật hiếm nhưng chỉ có một luật được sinh. Những kỹ thuật gần đây chỉ cho phép chúng ta sinh ra luật con của những luật này. Tuy
nhiên, khơng phải tất cả các luật hiếm đều có giá trị. Hiện vẫn chưa có kỹ thuật cho phép sinh ra tất cả các luật hiếm có giá trị. Một trở ngại trong việc phát hiện luật kết hợp hiếm là sẽ sinh ra rất nhiều luật và trong đó lại có nhiều luật khơng có ý nghĩa. CSDL thực chứa nhiều nhiễu. Một phần rất tự nhiên của các luật hiếm là chúng dễ bị che khuất bởi nhiễu, hoặc có thể chúng ta sẽ coi những luật nhiễu như là những luật có giá trị.
Hướng thứ ba dựa trên việc phát triển các thuật toán tiền xử lý, tức là dựa trên các độ đo giá trị để xác định các luật hiếm. Các độ đo giá trị hiện tại áp dụng cho các luật phổ biến [20] thường không phù hợp khi xét kết hợp với những luật có độ hỗ trợ thấp (tức là các luật hiếm). Các kỹ thuật hiện tại được thiết kế dùng trong
phát hiện luật kết hợp phổ biến không phù hợp khi áp dụng phát hiện các luật kết hợp hiếm.
Kết luận chương 1:
Nội dung chương 1 đã giới thiệu tổng quan các hướng nghiên cứu về phát hiện luật kết hợp từ CSDL tác vụ, phát hiện luật kết hợp từ CSDL định lượng và phát
hiện luật kết hợp hiếm. Các kết quả nghiên cứu tiêu biểu của các tác giả liên quan trong từng phần nội dung đã được trình bày một cách tóm tắt. Từ phần nghiên cứu tổng quan này đã giúp nghiên cứu sinh có kiến thức và căn cứ cơ sở để lựa chọn và thực hiện hướng nghiên cứu của mình.
49