Bộ công cụ ROSETTA

2.1.1. Giới thiệu bộ công cụ [16]

Bộ công cụ ROSETTA do Aleksander 0 h m và cộng sựthuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trường đại học Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng. Đây là một bộ phần mềm gồm có các hàm và thư viện được cài đặt trên ngôn ngữ c*+ hỗ trợ việc phân tích dữ liệu và khai phá tri thức theo tiếp cận tập thô.

Các lĩnh vực liên quan với mô hình kinh nghiệm cần bao gói nội dung ứng dụng cao. Điều quan trọng đưa ra một tập các cồng cụ sẵn có đảm bảo sự thử nghiệm mềm dẻo. Hơn nữa, việc xây dựng mô hình hoàn hảo và công cụ thử nghiệm phải cho phép lựa chọn từ nhiều thuật toán hữu ích. Điều đó là cần thiết để đặt các công cụ trong thử nghiệm mà ngay lập tức các kết quả có thể được quan sát và phân tích, và việc quyết định đối với quá trình xử lý được thực hiện. Về cơ bản, đòi hỏi một môi trường tương tác quản lý và xử lý dữ liệu.

Hệ phần mềm ROSETTA một bộ công cụ cho phép nhận dạng mẫu khai phá dữ liệu trong khuôn khổ lý thuyết tập thô. ROSETTA bao gồm một nhân tính toán và một giao diện người dùng đồ hoạ đầu cuối. Giao diện người dùng đổ hoạ ROSETTA phản ánh nội dung của nhân và chạy trên hệ điều hành Window NT hoặc Window 95 của PC.

ROSETTA đảm bảo tất cả các bước trong quá trình khai phá tri thức; từ tiền xử lý (duyệt ban đầu, lựa chọn dữ liệu mục tiêu và rời rạc hoá), qua các

thủ tục khai phá dữ liệu thực sự (tính toán nít gọn và sinh luật), để xử lý sau (lọc), ước lượng (tính hợp lệ và phân tích các luật được trích) và biểu diễn các kết quả.

2.1.2. Các thành phần cơ bản của ROSETTA [2]

2.1.2.1. H ổ trợ phương pháp luận

Phần này mô tả một số hỗ trợ của ROSETTA đối với mỗi giai đoạn trong quy trình KDD đặc trưng. Hệ thống ROSETTA được thiết kế để hỗ trợ các mô hình suy luận dựa trên tri thức đã biết, cả với khía cạnh các đặc trưng thuật toán lẫn khía cạnh dựa trên kinh nghiệm; hệ thống là đủ mềm dẻo để hỗ trợ chuyên môn và sát cánh với người sử dụng.

2.1.2.2. Giai đoạn lựa chọn

Giai đoạn này có tác dụng nghiên cứu thiết kế. Một tập các đặc trưng được xác định và mô hình mục tiêu được lựa chọn. Tương ứng, một hệ quyết định tA được thu thập từ một nguồn dữ liệu.

Rosetta cho phép hỗ trợ phần lớn các loại nguồn dữ liệu thông qua giao diện Kết nối cơ sở dữ liệu mở (ODBC).

Rosetta cho phép nhập trực tiếp dữ liệu đã được sắp xếp thành bảng từ đa dạng các nguồn dữ liệu, ví dụ, Excel, các file text và các cơ sở dữ liệu từ các hệ thống như Oracle, dBase, Access hoặc SAS.

Trong suốt quá trình nhập (import) dữ liệu, các từ điển dữ liệu được tự động cấu trúc. Từ điển là thông tin chứa đựng dữ liệu cấu trúc(siêu dữ liệu) về các thuộc tính, ví dụ, tên, các kiểu và các đơn vị. Mọi liên lạc giữa nhân và đầu ra được thực hiện thông qua các từ điển dữ liệu này, do đó mà thông tin tới người dùng được hiển thị trong giới hạn của mô hình miền. Các từ điển dữ liệu cũng có thể được nhập và được kết xuất trực tiếp.

Che dấu thuộc tính cũng có thể được thực hiện từ bên trong các khung nhìn dữ liệu. Bằng cách che đi một hoặc nhiều cột khung lưới, các thuộc tính được lựa chọn có thể được làm “vô hình” theo bất kỳ tính toán tiếp sau. Một ví

dụ sử dụng đặc trưng này điển hình là tồn tại các cột gán duy nhất các định dạng cho mỗi hàng, ví dụ, tên bệnh nhân hoặc các số thẻ bảo hiểm xã hội.

2.1.2.3.Tiền x ử lý

Giai đoạn này bao gồm kết quả của việc làm sạch dữ liệu, là đặc trưng ứng dụng phổ dụng. Bỏ đi các phần tử ngoại lai là một nhiệm vụ tiền xử lý thông thường. Nói cách khác, nhiệm vụ tiền xử lý là hoàn thiện. Ví dụ, việc chuyển đổi quy trình một hệ thống A với các giá trị thiếu thành một hệ thống A ’ mới không có bất cứ “thiếu sót” nào.

Tồn tại một số chiến lược hoàn thiện, cả tập các đối tượng và tập các thuộc tính có thể bị thay đổi, trong khi một số chiến lược khác chỉ thay đổi một trong những đối tượng và thuộc tính này. Rosetta cho phép một số hàm hoàn chỉnh, và lựa chọn bao gồm các biến thiên (variation) hiện thời của đối tượng loại bỏ, giá trị thay thế và giá trị khai triển. Giá trị thay thế và khai triển được biết đến như sự quy cho dữ liệu (data imputation).

Hơn nữa, đưa ra một hệ thống thông tin hoàn chỉnh để làm việc, người dùng có thể dùng khái niệm "không phân biệt được" để vận dụng trực tiếp tới các giá trị thiếu. Việc chuẩn bị các bảng cho mục đích tién xử lý cũng có thể được thực hiện phía trong các khung nhìn dữ liệu.

2.1.2.4. Giai đoạn biến đổi dữ liệu

Giai đoạn biến đổi dữ liệu có thể thực hiện theo nhiều cách, và mỗi phép biến đổi là phù hợp với việc áp dụng cho các ứng dụng. Khả năng để thực hiện một phép biến đổi chung trong hệ thống điều phối (coordinate) đã mở rộng theo các thuộc tính điều kiện, ví dụ, một số loại phép chiếu của dữ liệu vào một tập các trục quay quanh hoặc đối xứng lệch. Như vậy, các phép biến đổi có thể bị huỷ hoặc làm méo ngữ nghĩa của các thuộc tính, do đó lấy đi một số yêu cầu của việc tận dụng các mô hình dựa trên luật đã biết. Hiện tại, ta chỉ quan tâm tới các phép biến đổi dữ liệu bảo toàn ngữ nghĩa.

Nói chung thủ tục biến đổi trong KDD dựa trên tính phân biệt được đó là việc rời rạc hoá các thuộc tính số; ta có thể biểu diễn các khoảng mà tương ứng có thể được gán các nhãn ngôn ngữ và được coi như chất lượng hơn các thực thể số lượng. Đối với các thuộc tính biểu tượng, ta có thể lựa chọn phương pháp biến đổi trộn.

Một số hàm rời rạc hoá được cài đặt trong Rosetta, bao gồm các phương pháp dựa trên sự duy trì phân biệt được, cực tiểu entropy, các cách tiếp cận ngây thơ (tự nhiên) khác. Các thuộc tính cũng có thể được rời rạc hoá thủ công, nếu điều đó cho phép.

2.1.2.5. Khai phá dữ liệu

Mục đích của bước khai phá dữ liệu là để đưa ra một mô hình từ cơ sở dữ liệu đã được tiền xử lý và biến đổi. Trong ngữ cảnh này, chúng ta phân tích bước khai phá dữ liệu thành một quy trình đa bước, mà trong thực tế thường thêm vào do các lý do về không gian và hiệu quả tính toán. Đầu tiên, phép rút gọn hoặc phép tính xấp xỉ được thực hiện thông qua một quy trình rút gọn. Tập rút gọn có thể được lọc theo một vài tiêu chuẩn, và sau đó phủ cơ sở dữ liệu đã biến đổi theo thứ tự để sinh ra một tập các luật quyết định.

Hiện tại Rosetta lựa chọn việc rút gọn bao gồm các thuật toán di truyền (genetic), tập heuristic phủ, các tiếp cận đơn, các rút gọn động và các cách tiếp cận tập xấp xỉ.

Rosetta cũng cho phép lựa chọn đối với việc lọc các phép rút gọn riêng hoặc các luật từ sự thu thập. Thêm vào các đặc tính cơ bản như mức độ, tính đúng đắn, tiêu chuẩn lọc bao gồm các chi phí thuộc tính, các đơn vị đo lường chất lượng tiên tiến và việc thi hành phân lớp trên các cơ sở dữ liệu đưa ra.

Một số thuật toán khai phá dữ liệu trong Rosetta cho phép tận dụng dữ liệu biến đổi. Một số thuật toán có thể sử dụng thông tin chi phí thuộc tính, ví dụ thông tin về các chi phí được kết hợp với chứa đựng các giá trị đối với mỗi thuộc tính. Loại thông tin này có thể được dùng để các thuật toán được hướng

tới các giải pháp mà sẽ là “rẻ” để thực hiện trong thực tế, ví dụ, cho phép các thuật toán tính toán rút gọn có xu hướng lựa chọn các tập con thuộc tính với các chi phí thấp hơn là các tập con thuộc tính với số các yếu tố trong một tập hợp thấp.

2.1.2.6. Giải thích và Đ ịnh giá

Một cách tiếp cận để trợ giúp trong việc kiểm tra mô hình là giới thiệu các mô hình nhỏ và đảm bảo thông qua việc ứng dụng một số kiểu lọc trong từng bước khai phá dữ liệu. Một cách tiếp cận bổ sung chấp nhận các mô hình lớn và làm thuận tiện cho việc kiểm tra các luật hoặc các mẫu “mạnh” riêng. Rosetta GUI cho phép các thành phần mô hình riêng được sắp xếp theo các thuộc tính khác nhau theo các khung nhìn dữ liệu.

Một ấn tượng chung về các luật quyết định có thể được đánh giá theo sự phân lớp các đối tượng như thế nào. Các thủ tục phân lớp hiện tại được cung cấp bởi Rosetta bao gồm một vài cách tiếp cận khác nhau dựa trên sự tích cực, ví dụ, sự tích cực chuẩn, vết đối tượng. Sự ưu tiên theo đặc trưng luật cũng được cài đặt. Sự phân lớp sử dụng Naive Bayes cũng có sẵn.

Kết quả của việc phân lớp một khối các đối tượng trong Rosetta là một ma trận hỗn độn. Ngoài ra, hộ thống có thể sinh ra các nhật ký chi tiết và phạm vi các độ đo thực hiện.

Rosetta cho phép hỗ trợ tự động hoá một phần về độ dài và các dãy câu lệnh lặp đi lặp lại. Thông qua một ngôn ngữ kịch bản đon giản, lưu lượng liên tiếp và song song của dữ liệu có thể được định nghĩa và thực hiện.

2.1.2.7. S ự triển khai

Phân lớp có thể được kết xuất từ Rosetta như mã nguồn, tính sẵn sàng cho việc triển khai tiếp sau. Các hộ thống thông tin có thể được kết xuất như các tập sự kiện Prolog, trong khi các luật quyết định có thể được kết xuất như tập các luật Prolog. Thiết lập một liên kết từ Rosetta tới các phương tiện suy luận tiên tiến, ở đây các luật có thể được tận dụng cùng với bất kỳ lý thuyết

miền sẵn có như một phần của hệ chuyên gia. Một tập các luật quyết định thực hiện phân lóp có thể được xuất như mã thực hiện hoàn chỉnh, phù hợp được gắn vào các ứng dụng bên ngoài.

2.1.2.8. H ổn hợp

Dù y học đã là lĩnh vực ứng dụng chính trong suốt quá trình phát triển hệ thống, Rosetta tự nó đã là một hệ thống chung có kết quả hướng mục đích phục vụ cho bất kỳ lĩnh vực ứng dụng riêng nào. Bằng việc thiết kế, hộ thống đã hỗ trợ cho một vài đặc trưng có liên quan đối với việc phân tích dữ liệu y học, mà những đặc trưng này có thể được tận dụng trong các lĩnh vực khác.

Rosetta không được mong đợi như một DSS theo nghĩa là một công cụ cho sự tra cứu thuốc đặc hiệu cho bệnh nhân, mặc dù điều này là có thể, hệ thống làm việc với sự lựa chọn về dữ liệu từ tập các bệnh nhân và sự biểu diễn

đầu ra mà có thể thiết lập để sử dụng trong các chương trình đặc biệt hoàn

toàn thích hợp cho việc hỗ trợ quyết định.

Một vvebsite đã được tạo nơi mà các tài nguyên điện tử khác nhau có liên quan tới hệ thống Rosetta có thể được tìm thấy. Thêm vào đó là sự cung cấp một vị trí tải hệ thống, vị trí bao gồm các tài liệu, các tiện ích, cách sử dụng chương trình và các tiện ích kết hợp của nó.

2.1.3. Các đặc trưng của ROSETTA [16]

- Sự hoàn thành các bảng quyết định với các giá trị thiếu theo các chiến lược hoàn chỉnh khác nhau.

- Tính toán sự phân chia các xấp xỉ tập thô, cũng như trong hướng chuẩn hoặc trong mô hình chính xác biến.

- Sự lấy mẫu của các bảng con đối với các mục đích hợp lệ.

- Sự rời rạc hoá các thuộc tính số với các thuật toán rời rạc hoá khác nhau.

- Tính toán các rút gọn. Các thuật toán xấp xỉ khác nhau (ví dụ thuật toán Johnson, thuật toán di truyền cho phép tính toán hết mọi khía cạnh thông qua các ma trận phân biệt được).

- Sinh ra các luật định đề.

- Lọc (sự thu ngắn lại và sự lược bớt) các tập các rút gọn và các luật. - Xuất khẩu các luật, các rút gọn và các bảng. Nhập khẩu các bảng từ các nguồn dữ liệu bên ngoài (ví dụ các cơ sở dữ liệu quan hộ) thông qua ODBC.

- Úng dụng các luật kết hợp với các ví dụ bởi ý nghĩa của các chiến lược phân lớp khác nhau. Sinh ra các ma trận hỗn độn.

Giao diện người dùng đồ hoạ ROSETTA đã được thiết kế thân thiện với người sử dụng. Một số đặc trưng về giao diện người dùng đổ hoạ bao gồm:

- Cấu tạo giao diện người dùng đồ hoạ Window đầy đủ.

- Tổ chức các mục chủ đề trong một cây - cấu trúc theo thứ tự các tiện ích điều hướng dữ liệu.

- Khung nhìn của tất cả các cấu trúc trong các môi trường lưới theo trực giác, dùng các giới hạn từ mô hình miền.

- Các menu ngữ cảnh và chức năng kéo - thả.

- Che dấu các thuộc tính, có thể làm việc với các bảng ảo.

- Tự động sinh ra các chú thích, dẫn chứng bằng tài liệu mô hình phiên làm việc.

- Một môi trường mẫu đối với sự phân lớp tương tác và sự hướng dẫn trên cơ sở của các thông tin không hoàn hảo sử dụng một tập các luật kết hợp được lựa chọn.

2.2. TÌM TẬP RÚT GỌN THEO TIÊP CẬN TẬP THÔ

2.2.1. Tiêu chuẩn cho rút gọn tốt nhất [22]

Một hệ thống thông tin có nhiều hơn một rút gọn. Mỗi rút gọn có thể được sử dụng thay vì toàn bộ nhóm các thuộc tính trong hệ thống gốc trong việc quyết định thực hiện quy trình mà không cần thay đổi mối quan hệ phụ thuộc trong hệ thống gốc. Do đó một câu hỏi tự nhiên rút gọn nào là tốt nhất. Sự lựa chọn phụ thuộc vào tiêu chuẩn tối ưu được kết hợp với các thuộc tính. Nếu có thể gán một hàm chi phí cho các thuộc tính, thì sự lựa chọn có thể là tự nhiên dựa trên tiêu chuẩn chi phí tối thiểu được kết hợp. Ví dụ, trong lĩnh vực y học, một vài quy trình chẩn đoán đắt hơn những quy trình khác. Bằng việc lựa chọn các chuỗi ít đắt nhất của các thử nghiệm được biểu diễn bởi rút gọn chi phí tối thiểu, việc lưu giữ số lượng lớn có thể được hoàn thành mà không làm giảm chất lượng của việc chẩn đoán. Hai cách tiếp cận có thể trong trường hợp này. Trong cách thứ nhất, rút gọn với số các thuộc tính tối thiểu được lựa chọn. Trong cách tiếp cận thứ hai, rút gọn có sự kết hợp của các giá trị các thuộc tính được lựa chọn là ít nhất.

2.2.2. Tập thuộc tính rút gọn

Trong giai đoạn thu thập dữ liệu của các ứng dụng thực tế, chẳng hạn như chẩn đoán một căn bệnh chưa biết của một bệnh nhân, thường khó để biết được chính xác những đặc trưng nào là liên quan hay quan trọng, và chúng sẽ được mô tả như thế nào. Do đó tất cả các đặc trưng được cho là có ích sẽ được thu thập vào trong cơ sở dữ liệu. Các cơ sở dữ liệu thường chứa nhiều thuộc tính và giá trị thuộc tính dư thừa, không cần thiết trong việc phát hiện luật. Nếu những thuộc tính và giá trị thuộc tính dư thừa này không được loại bỏ thì nó không chỉ làm tăng độ phức tạp về mặt thời gian của việc phát hiện luật mà còn cả chất lượng của những luật được phát hiện có thể bị suy giảm một cách đáng kể. Vấn đề đặt ra là tìm một tập con tốt nhất của các thuộc tính trong cơ

sở dữ liệu theo một vài tiêu chuẩn và loại bỏ các giá trị thuộc tính dư thừa có trong các thuộc tính.

Xem xét các thuộc tính có thể rút gọn được và không thể rút gọn được trong bảng quyết định.

Giả sử với bảng quyết định C7Ỉ=(U,A,D) với thuộc tính a s A tập các

Mẫu trong hệ thống thông tin

Các đặc trưng của ROSETTA