1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát hiện luật theo tiếp cận tập thô

88 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 619,84 KB

Nội dung

 Luận văn tốt nghiệp Phát luật theo tiếp cận tập thô LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -1Mục lục Phần mở đầu Ch−¬ng I Tỉng quan vỊ kh¸m ph¸ tri thøc theo tiÕp cËn tËp th« I.1 HÖ thông tin tập thô I.1.1 Mét sè kh¸i niƯm I.1.1.1 Khái niệm hệ thông tin I.1.1.2 Khái niệm bảng định 10 I.1.1.3 Quan hƯ kh«ng phân biệt đợc hệ thông tin 11 I.1.1.4 Tập mô tả đợc ngôn ngữ mô tả tập 13 I.1.2 TËp th« kh«ng gian xÊp xØ 14 I.1.2.1 TËp xÊp xØ trên, xấp xỉ dới miền biên 14 I.1.2.2 Hàm thô số ®é ®o phơ thc cã thc tÝnh liªn quan 19 I.2 Kh¸m ph¸ tri thøc theo tiÕp cËn tËp th« 20 I.2.1 TÝnh phơ thc thc tÝnh hƯ th«ng tin 20 I.2.1.1 TÝnh phô thuéc thuéc tÝnh 20 I.2.1.2 TËp thc tÝnh rót gän vµ tËp thc tÝnh nh©n 21 I.2.1.3 Ma trận phân biệt đợc hàm phân biệt đợc 23 I.2.2 Quá trình khám phá tri thức theo tiếp cận tập thô 24 I.2.2.1 Sự rời rạc hoá dựa tập thô lập luận logic 25 I.2.2.2 Lùa chän thuéc tÝnh dùa trªn tËp thô với phơng pháp đánh giá kinh nghiệm 25 I.2.2.3 Khám phá luật bảng phân bố tổng quát dựa tập thô 27 I.2.3 Khám phá mẫu hệ thông tin 27 I.3 KÕt luËn ch−¬ng I 29 Chơng II Khám phá luật theo tiếp cận tập thô đối Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -2s¸nh víi kh¸m ph¸ lt kÕt hỵp 30 II.1 Khám phá luật kết hợp, nội dung khám phá tri thức sở liệu 30 II.1.1 Lt kÕt hỵp 30 II.1.2 Một số sở toán học khai phá luật kết hỵp 32 II.1.2.1 TËp phỉ biÕn 32 II.1.2.2 Khai phá luật kết hợp dựa trªn tËp phỉ biÕn 33 II.2 Quá trình khám phá tri thức theo tiếp cận tâp thô 35 II.2.1 Quá trình khám phá luật bảng định 35 II.2.1.1 Luật bảng định 35 II.2.1.2 Hai đặc trng luật: Độ mạnh độ nhiễu luật 35 II.2.1.3 Quá trình kh¸m ph¸ luËt 36 II.2.1.4 ThuËt to¸n tèi −u ho¸ c¸c luËt 45 II.2.1.5 Thuật toán giải pháp gần tối u hoá luËt 45 II.2.1.6 Tiªu chuÈn lùa chän luËt tËp th« 46 II.2.2 Quá trình khám phá mẫu bảng định 46 II.2.2.1 Kh¸i niƯm mÉu 46 II.2.2.2 Hai toán mẫu 47 II.2.2.3 Các phơng pháp sinh mẫu 51 II.2.3 Mèi liên hệ mẫu luật theo tiếp cận tập thô 58 II.3 So sánh luật theo tiếp cận tập thô luật kết hợp 60 II.4 KÕt luËn ch−¬ng II 62 Chơng III ứng dụng mẫu thử nghiệm trình khám phá luật theo tiếp cận tập thô 63 III.1 øng dơng cđa mÉu 63 III.1.1 Mẫu trình phân loại ban đầu 63 Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -3III.1.2 Mô tả lớp định 65 III.1.3 Mẫu toán phân tách bảng liệu lớn 66 III.1.4 Mẫu toán phân lớp 67 III.2 Thư nghiƯm trình khám phá luật theo tiếp cận tập thô toán quản lý thông tin khách Xuất nhập cảnh qua cửa 69 III.2.1 Bài toán quản lý thông tin khách Xuất nhập cảnh qua cửa 69 III.2.1.1 Mô tả toán XNC 69 III.2.1.2 Tập thô toán quản lý thông tin khách Xuất nhập cảnh 71 III.2.2 Đề xuất giải tập thô toán 71 III.2.2.1 Mô tả liệu 71 III.2.2.2 Quá trình phát luật 74 III.2.2.3 §Ị xuất ứng dụng luật tìm đợc toán thực tÕ 81 III.3 KÕt luËn ch−¬ng III 82 KÕt luËn 84 Tµi liƯu tham kh¶o 86 Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -4- Các ký hiệu cụm từ viết tắt sử dụng luận văn Ký hiệu Mô tả A Hệ thông tin hay bảng định A, B Tập thuộc tính hệ thông tin D Tập thuộc tính định hệ thông tin a Một thuộc tÝnh ®iỊu kiƯn tËp thc tÝnh ®iỊu kiƯn cđa hệ thông tin Va Tập giá trị thuộc tính ®iỊu kiƯn U TËp ®èi t−ỵng (tËp tỉng thĨ) hệ thông tin RED Tập rút gọn Rỗng Bị chứa Thuộc (là phần tử của) Lớn Nhỏ Khác , Phép hợp, giao tập hợp Viết tắt Mô tả CSDL Cơ sở liệu KDD Knowledge Discovery in Database RS Rough Set GDT Generalization Distribution Table ILP Inductive Logic Programming GrC Granular Computing Khai ph¸ luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -5- PhÇn më đầu Lý thuyết tập thô Z.Pawlak đề xuất vào đầu năm 80 thập kỉ XX đà đợc ¸p dơng ngµy cµng réng r·i lÜnh vùc kh¸m phá tri thức sở liệu Trong năm gần đây, lý thuyết tập thô đợc nhiều nhóm nghiên cứu hoạt động lĩnh vực tin học nói chung khai phá tri thức từ sở liệu nói riêng nghiên cứu áp dụng thực tế [1,4,6,9,10] Lý thuyết tập thô đợc phát triển tảng sở toán học vững giúp cung cấp công cụ hữu ích để giải toán phân lớp liệu, phát luật Những phơng pháp dựa lý thuyết tập thô đặc biệt hữu ích toán với liệu mơ hồ, không chắn Ngoài ra, lý thuyết tập thô cho phép trình diễn mô hình hình thức tri thức Mô hình đợc xác định nh họ mối quan hệ "không phân biệt đợc", nhờ tri thức đợc định nghĩa cách rõ ràng theo nghĩa toán học đợc phân tích xử lý công cụ toán học Trong lý thuyết tập thô, liệu đợc biểu diễn thông qua hệ thông tin, hay bảng định; ý tởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hệ "không phân biệt đợc" Từ bảng liệu lớn với liệu d thừa, không hoàn hảo, liệu liên tục, hay liệu biểu diễn dới dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức từ loại liệu nh nhằm phát quy luật tiềm ẩn từ khối liệu Tri thức đợc biểu diễn dới dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lợng thông tin đợc đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Nhằm thu hẹp nhiều xác thông tin, ý tởng rút gọn đợc sử dụng phép loại bỏ thông tin d thừa, không cần thiết mà giữ đợc ý Khai phá luật theo tiếp cận tập thô Tiêu ThÞ Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -6- nghĩa Sau tìm đợc quy luật chung nhÊt biĨu diƠn d÷ liƯu, ng−êi ta cã thĨ tÝnh toán độ mạnh, độ phụ thuộc thuộc tính hệ thông tin Theo Skowron NingZong [9], cách tiếp cận lý thuyết tập thô để phân tích liệu có nhiều lợi điểm quan trọng nh: - Cho phép xử lý hiệu bảng liệu lớn, loại bỏ liệu d thừa, liệu không hoàn hảo, liệu liên tục, - Hiệu việc tìm kiếm mẫu tiềm ẩn liệu, - Sử dụng đợc tri thức kinh nghiệm, - Nhận mối quan hệ mà sử dụng phơng pháp thống kê khác không phát đợc, - Sử dụng quan hệ thứ lỗi trình phát mẫu, - Làm việc hiệu tập liệu rút gọn, - Cách giải thích rõ ràng dễ hiểu Với lợi điểm quan trọng lý thuyết tập thô, đà giành thời gian để nghiên cứu tìm hiểu lý thuyết ý tởng Phát luật theo tiếp cận tập thô đợc chọn làm đề tài nghiên cứu khoa học để làm luận văn thạc sĩ Luận văn sâu tìm hiểu ý tởng cở sở toán học lý thuyết tập thô, từ hiểu biết lý thuyết nh− øng dơng thùc tÕ cđa tËp th« lÜnh vực khai phá liệu, đa nhận xét đối sánh phát luật theo tiếp cận tập thô phát luật kết hợp Thông qua tìm hiểu khai thác công cụ ROSETTA (do Aleksander hrn cộng thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính thông tin trờng đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn ®−a mét sè ®Ị xt øng dơng thư nghiƯm lý thuyết tập thô vào việc hỗ trợ định toán xuất nhập cảnh sân bay Nội Bài Khai phá luật theo tiếp cận tập thô Tiêu Thị Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -7- Phơng pháp nghiên cứu chủ yếu luận văn khảo sát, phân tích nội dung báo khoa học lý thuyết tập thô ứng dụng đợc công bố vào năm gần Từ kết nghiên cứu lý thuyết kết hợp với vấn đề đặt toán thực tế, luận văn đề xuất phơng pháp thử nghiệm giải vấn đề khám phá luật thực tế Luận văn đợc trình bày gồm có phần mở đầu, ba chơng phần kết luận Trong chơng một, tập trung chủ yếu vào giới thiệu tổng quan trình khám phá tri thức theo tiếp cận tập thô Các khái niệm lý thuyết tập thô nh: hệ thông tin, bảng định, khái niệm không phân biệt đợc, tập xỉ tập xỉ dới miền biên đợc trình bày Nội dung chơng đợc tổng hợp từ tài liệu [1,4,9,10] Trong chơng hai, luận văn tập trung giới thiệu khám phá luật kết hợp theo cách tiếp cận thông thờng khám phá luật theo tiếp cận tập thô để từ đa nhận xét đối sánh tơng đồng khác biệt tính chất hai cách tiếp cận Mục II.2.3 đa mối liên hệ mẫu luật theo tiếp cận tập thô [5], dựa mối quan hệ ®ã, chóng t«i ®−a mét sè nhËn xÐt ®èi sánh khám phá luật kết hợp khám phá luật theo tiếp cận tập thô Kết đáng ý mối tơng đồng độ mạnh luật theo tiếp cận tập thô độ hỗ trợ luật kết hợp Trong chơng ba, luận văn đa số mô hình ứng dụng mẫu đợc phát từ liệu theo tiếp cận tập thô [5] Từ kết nghiên cứu trình bày chơng chơng hai, thông qua công cụ ROSETTA, ®Ị xt viƯc øng dơng lt kÕt hỵp theo tiÕp cận tập thô vào thực tế toán quản lý thông tin khách xuất nhập cảnh cửa nhận đợc số luật tơng đối hợp lý Khai phá luật theo tiếp cận tập thô Tiêu Thị Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -8- Luận văn đợc thực dới hớng dẫn Tiến sĩ Hà Quang Thuỵ Bộ môn Các Hệ thống Thông tin, Khoa Công nghệ Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy đà hớng dẫn có ý kiến dẫn quý báu trình em làm luận văn Em xin chân thành cảm ơn PGS Nguyễn Quốc Toản, PGS TS Hồ Thuần đà cho nhiều ý kiến quý báu để luận văn đợc hoàn thiện Em xin cảm ơn thầy giáo môn Các Hệ thống Thông tin, nhóm seminar Data mining KDD Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Khoa Công nghệ đà tạo điều kiện trình học tập nghiên cứu Khoa Cuối xin bày tỏ lòng cảm ơn tới ngời thân gia đình, bạn bè đà động viên giúp đỡ để hoàn thành luận văn Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -9- Ch−¬ng Tỉng quan vỊ khám phá tri thức theo tiếp cận tập thô I.1 Hệ thông tin tập thô I.1.1 Một số khái niệm I.1.1.1 Khái niệm hệ thông tin Trong hoạt động hàng ngày, đặc biệt thu thập liệu vào kho liệu (datawarehousing), ta thờng gặp tập hợp liệu đợc miêu tả bảng, hàng biểu diễn "bản ghi" (một phần tử, trờng hợp, kiện hay đơn giản biểu diễn đối tợng), cột biểu diễn mét thuéc tÝnh (mét biÕn, mét quan s¸t, mét tÝnh chất ) Từ năm đầu thập kỷ 1980, Pawlak hình thức hóa bảng kiểu thành khái niệm hệ thông tin (information system) [1,5, 9, 10] Định nghĩa 1.1 Hệ thông tin cặp A = (U,A) U tập hữu hạn khác rỗng đối tợng A tập hữu hạn khác rỗng thuộc tính, a: U Va với a A Tập Va đợc gọi tập giá trị a ã Ví dụ: Có hệ thông tin thể nh bảng Có đối tợng (Mỗi đối tợng khách Xuất Nhập Cảnh) thuộc tính: Tới nớc, Nơi sinh, Tôn giáo x1 x2 x3 x4 x5 x6 x7 Tới nớc Mỹ Mỹ Pháp Pháp Đức Mỹ Pháp Nơi sinh Hà nội Hải phòng Sài gòn Sài gòn Đà nẵng Đà nẵng Đà nẵng Tôn giáo Có Có Không Không Có Không Không Bảng Một ví dụ hệ thông tin Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -73- "TW" 54 "cao dai" "Cong nhan" 103 "CHINA" 51 "cao dai" "Cong nhan" 103 "CHINA" 51 "cao dai" "Cong nhan" 103 "VN" 54 "khong" "Cong nhan" 103 "KR" 54 "khong" "Cong nhan" 103 "HAI PHONG" 54 "cao dai" "Cong nhan" 101 "SA DEC" 54 "khong" "Cong nhan" 103 "HAI HUNG" 52 "khong" "Cong nhan" 101 "TQ" 54 "khong" "Cong nhan" 101 "DL" 54 "khong" "Cong nhan" 101 “CHINA" 45 "khong" "Cong nhan" 101 "DL" 224 "Dao Phat" "Giam muc" 260 "NHAT" 145 "Dao Phat" "Giam muc" 260 "NHAT" 145 "Dao Phat" "Giam muc" 260 "TW" 224 "Dao Phat" "Giam muc" 260 "DL" 224 "Dao Phat" “Giam muc" 260 "Q.BINH" 48 "Dao Hoa "Cong nhan" 260 260 260 hao" USA 54 "Thien chua "KÜ s−" giao" CHN 79 Phat "Kĩ s" b) Định nghĩa tập liệu biểu diễn trờng XEM_XET (xem khách XNC thuộc diện đợc phép hay không đợc phép xuất/nhập cảnh) XEM_XET Giá trị Cấm không đợc phép xuất nhập cảnh qua cửa Đợc phép xuất nhập cảnh qua cửa Khai phá luật theo tiếp cận tập thô Tiêu ThÞ Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -74- c) Định nghĩa tập liệu tên quốc gia biểu diễn trờng liệu QT_HNAY (Quốc tịch nay), DEN_TOI (nhập, xuất cảnh đến nớc nào) khách xuất nhập cảnh (Bảng QUOCGIA phụ lục) III.2.2.2 Quá trình phát luật Bảng định xnc = (U, A {d}) với U tập khách xuất nhập cảnh, A tập thuộc tính điều kiện bao gồm NOI_SINH (Nơi sinh), QT_HNAY (Quốc tịch), TON_GIAO (Tôn giáo), NGHE_NGHIEP (Nghề nghiệp), DEN_TOI (Xuất/nhập cảnh đến nớc nào) thuộc tính định XEM_XET (Kết đối chiếu khách xuất nhập cảnh đợc phép hay không đợc phép xuất/nhập cảnh) Quá trình phát luật sử dụng bé c«ng (ROSETTA - Rough sets Toolkit for Analysis of Data) [3] để thử nghiệm bảng định với liệu bao gồm 1000 ghi Bộ công ROSETTA Aleksander ∅hrn vµ céng sù lµ nhãm nghiên cứu tri thức thuộc khoa Khoa học máy tính thông tin trờng đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng Đây phần mềm gồm có hàm th viện đợc cài đặt ngôn ngữ C++ hỗ trợ việc phân tích liệu khai phá tri thức theo tiếp cận tập thô Các hàm th viện cài đặt thuật toán sử dụng trình khám phá luật ví dụ: thuật toán lập luận logic, tht to¸n NAIVE, tht to¸n Semi - NAIVE (sư dụng việc rời rạc hoá liệu); Thuật toán di truyền, thuật toán Johnson (sử dụng việc tìm tập rút gọn) Các bớc thực trình phát luật kết hợp theo tiếp cận tập thô bảng liệu xuất nhập cảnh đợc tiến hành nh− sau: - B−íc 1: TiỊn xư lý b¶ng qut định Khai phá luật theo tiếp cận tập thô Tiêu ThÞ Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -75- Thông thờng từ sở liệu chứa thông tin không hoàn chỉnh Vì cần có bớc làm liệu để biến bảng định ban đầu thành bảng định có đầy đủ giá trị tất thuộc tính Một số phơng pháp làm liệu làm thay đổi tập đối tợng hay tập thuộc tính, có phơng pháp bổ sung thêm giá trị cho thuộc tính có giá trị thiếu Có thể kể số cách làm liệu Toolkit nh sau: + Xoá bỏ ghi thiếu giá trị thuộc tính + Bổ sung giá trị vào ghi có thuộc tính có giá trị thiếu + Tổ hợp hoá liệu: Mở rộng giá trị thiếu cho ghi (đối tợng) thành tập giá trị Một đối tợng đợc mở rộng thành vài đối tợng bao phủ tất trờng hợp xảy (tổ hợp giá giá trị thiếu đối tợng) Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -76- Bảng định ban đầu XNC Xoá bỏ bả n ghi thiếu giá trị Bớc 1: Tiền xử lý :Bổ sung giá trị thiếu Tổ hợp hoá Bảng định sau xử lý XNC' Bảng định sau rời rạc hoá XNC'' Thuật toán lập ln logic ⎪Ng−êi dïng dÞnh nghÜa ⎪⎪ B−íc 2: Rêi rạc hoá liệu: Thuật toán NAVIVE Thuật toán Semi - NAIVE Từ file chứa tin nhát cắt Thuật toán di truyền Bớc 3: Tạo tập rút gọn Thuật toán Johnson Ngời dùng tự dịnh nghĩa TËp rót gän TËp rót gän B−íc 4: Sinh lt Tập luật Tập luật Sơ đồ mô tả trình sinh luật từ bảng định XNC Trong toán kiểm soát thông tin xuất nhập cảnh chọn phơng pháp bổ sung giá trị vào ghi có thuộc tính có giá trị thiếu Với thuộc tính có giá trị kiểu xâu giá trị thiếu đợc thay giá trị xuất nhiều tập giá trị thuộc tính đó, với thuộc tính giá trị kiểu số Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -77- thuộc tính không hoàn hảo đợc thay giá trị trung bình tất tập giá trị thuộc tính Bảng định ban đầu giá trị thuộc tính DEN_TOI ghi số 668 bị thiếu giá trị Bảng định đầy đủ sau bổ sung liệu Khai phá luật theo tiếp cận tập thô Tiêu ThÞ Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -78- - Bớc 2: Rời rạc hoá liệu Mỗi phơng pháp xử lý khác cho kết khác nhau, kể số phơng pháp rời rạc hoá Toolkit nh sau: + Sư dơng tht to¸n lËp ln logic + Rêi rạc hoá theo cách ngời sử dụng tự định nghĩa + Sư dơng tht to¸n Naive + Sư dơng tht toán Semi-naive + Từ file chứa thông tin nhát cắt Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -79- Trong bớc chọn phơng pháp sư dơng tht to¸n lËp ln logic theo tiÕp cËn tập thô để rời rạc hoá liệu Quá trình rời rạc hoá phân chia tập giá trị thuộc tính điều kiện thành khoảng Bảng định sau đợc rời rạc hoá nh sau: - Bớc 3: Tạo tập rút gọn Các phơng pháp tính toán tập rút gọn hay tập xấp xỉ từ bảng định Toolkit là: + Sử dụng thuật to¸n di trun Khai ph¸ lt theo tiÕp cËn tËp thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -80- + Sư dơng tht to¸n Johnson + Do ngời sử dụng tự định nghĩa Trong bớc sử dụng thuật toán di truyền để tạo tập rút gọn Kết tập rút đợc thể nh− sau: - B−íc 4: Sinh lt Sinh c¸c luật kết hợp từ tập rút gọn Kết tập lt sinh thĨ hiƯn nh− sau: Khai ph¸ lt theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -81- III.2.2.3 §Ị xt ứng dụng luật kết hợp tìm đợc toán thực tế Dựa kết tập luật kết hợp tìm đợc từ sở liệu khách xuất nhập cảnh xây dựng công cụ hỗ trợ giúp kiểm soát viên đa định việc cho phép khách xuất/nhập cảnh qua cửa công tác hàng ngày (gọi hệ hỗ trợ định xuất nhập cảnh) Trong thực tế kiểm soát viên gặp phải trờng hợp kết kiểm tra đối chiếu khách xuất nhập cảnh KT=[0.56,0.99] (bớc mục III.2.1.1) kiểm soát viên phải sử dụng nghiệp vụ an ninh để giải Qua lần khảo sát làm việc thực tế trạm công an cửa Nội Bài, thấy trờng hợp kiểm soát viên hay gặp (20% tổng số khách xuất nhập cảnh làm thủ tục bị rơi vào trờng hợp cần xem xét) Khi gặp phải trờng Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -82- hỵp nh− vËy thờng thời gian để đa định (5->7 phút), thời gian để giải khách xuất nhập cảnh nh lâu dẫn đến tợng ùn tắc khách bục kiểm soát Chúng đề xuất sử dụng công cụ Hỗ trợ định xuất nhập cảnh bục kiểm soát để kiểm soát viên sử dụng kèm với chơng trình Quản lý thông tin khách xuất nhập cảnh nêu (hai hệ thống có khả trao đổi liệu với nhau) Ví dụ kiểm soát viên sử dụng Hệ hỗ trợ định xuất nhập cảnh đặt câu hỏi dạng Khách có nơi sinh Sài gòn, quốc tịch Việt Nam, tôn giáo Đạo thiên chúa, xuất cảnh đến Mỹ kết nhận đợc khách xuất nhập cảnh với thông tin nh bị cấm không đợc phép xuất/nhập cảnh đợc phép xuất/nhập cảnh Khi dựa vào kết trả lời từ công cụ Hỗ trợ định xuất nhập cảnh kinh nghiệm nghiệp vụ mình, kiểm soát viên hoàn toàn đa định nhanh chóng nh làm giảm đợc thời gian xử lý khách xuất nhập cảnh, lợng khách đợc giải toả nhanh Bài toán quản lý thông tin xuất nhập cảnh (công tác thực tế nghành công an cửa khẩu) đợc cải tiến rõ rệt III.3 Kết luận chơng III Dựa lý thuyết tập thô ngời ta đà xây dựng công cụ toán học để phát mẫu, lt tiỊm Èn d÷ liƯu Cã nhiỊu øng dơng đợc xây dựng từ mẫu tìm đợc Các mẫu tìm đợc sử dụng để phân lớp, phân cụm, phân tách bảng liệu lớn, mô tả lớp định (mục III.1) Có nhiều ứng dụng đà đợc phát triển dựa lý thuyết tập thô nhiều lĩnh vực nh [6]: Y tế (Hỗ trợ định chữa bệnh, Chuẩn đoán bệnh viêm phổi ); tài (Phân tích thói quen mua bán khách hàng siêu thị, phân tích rủi ro kinh doanh ngân hàng ); môi trờng (Lập trình hệ thống cung cấp Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -83- nớc sạch, Phân tích tính ổn định nhiệt độ ); kỹ nghệ (Nhận dạng âm nhạc, tiếng nói, phân tích chữ viết ); thông tin khoa học; phân tích định; khoa học xà hội; sinh học; hoá học Bộ công cụ ROSETTA [3] ví dụ hệ phần mềm hỗ trợ giải toán Bài toán quản lý thông tin khách xuất nhập cảnh đợc đa vào thử nghiệm công cụ nhằm tìm phơng pháp giải tính thô toán Nó tỏ hữu ích việc giải trờng hợp không phân biệt đợc sở liệu Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -84- KÕt luận Thông qua việc tìm hiểu nghiên cứu số tài liệu khoa học phát tri thức, luận văn với đề tài Khai phá luật theo tiếp cận tập thô tập trung nghiên cứu lý thuyết tập thô ứng dụng từ đa so sánh hình thức hai cách tiếp cận (khai phá luật kết hợp theo cách tiếp cận truyền thống khai phá luật theo tiếp cận tập thô) Trong luận văn đề xuất số ứng dụng việc khai phá luật theo tiếp cận tập thô toán cụ thể (bài toán Quản lý thông tin khách xuất nhập cảnh cửa Nội Bài) thông qua việc khảo sát khai thác công ROSETTA Aleksander ∅hrn vµ céng sù lµ nhãm nghiên cứu tri thức thuộc khoa Khoa học máy tính thông tin trờng đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng Luận văn đà thực đợc kết sau đây: - Trình bày cách tổng quan lý thuyết tập thô bớc trình khám phá luật theo cách tiếp cận tập thô, ứng dụng từ mẫu luật phát đợc theo tiếp cận tập thô, - Từ số sở lý thuyết: khái niệm mẫu luật, trình phát mẫu luật theo tiếp cận tập thô luận văn đà đa đợc mối liên hệ mẫu luật để từ thấy đợc luật bảng định trờng hợp đặc biệt mẫu (mục II.2.3) - Khảo sát toán khám phá luật theo tập thô dựa số toán mẫu bảng định Luận văn đa số nhận xét bớc đầu đối sánh hình thức mét sè néi dung kh¸m ph¸ luËt theo tiÕp cËn tập thô với khám phá luật kết hợp Rakesh Agrawal, Tomasz Imielinski, Arun Swami ®Ị xt Tõ ®Êy, ln văn cho thông qua cách tiếp cận khác song số khái niệm chúng có ý nghĩa tơng đồng (mục II.3), Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -85- - Luận văn trình bày sơ toán quản lý thông tin khách xuất nhập cảnh cửa Nội Bài Phân tích tính chất thô toán trình xử lý thông tin (mục III.2.1) để từ đa mô hình thử nghiệm trình phát luật dựa công cụ ROSETTA - Luận văn đà đề xuất xây dựng công cụ Hỗ trợ định xuất nhập cảnh từ luật tìm đợc theo tiếp cận tập thô toán để giải tính thô toán quản lý thông tin khách xuất nhập cảnh (mục III.2.2) Từ đề xuất việc kết hợp toán Quản lý thông tin khách xuất nhập cảnh với hệ công cụ Hỗ trợ định xuất nhập cảnh nhằm cải thiện thời gian làm thủ tục cho khách xuất nhập cảnh cán công an cửa Lĩnh vực khám phá tri thức sở liệu đợc ứng dụng rộng rÃi nhiều nớc công nghiệp tiên tiến nội dung trọng tâm công nghệ tri thức Tiếp cận tập thô lĩnh vực tỏ công cụ hữu hiệu Việc khai thác công cụ (chẳng hạn, ROSETTA) toán thực tế cho thấy khả ứng dụng rộng rÃi nhiều lĩnh vực Đây hớng mà tác giả luận văn định hớng nghiên cứu triĨn khai thêi gian tíi Khai ph¸ lt theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -86- Tài liệu tham khảo Tài liệu tiếng Việt [1] Hà Quang Thuỵ (1996) Một số vấn đề không gian xấp xỉ, tập thô hệ thông tin Luận án Phó Tiến sĩ Khoa học Toán Lý ĐHKHTN, 1996 Tài liệu tiếng Anh [2] R.Agrawal and R Srikant (1993) Fast algorithms for association rules in large databases In Proceedings of the 20th International Conference on Very Large Data Basese, pages 478-499 [3] Aleksander Discernibility and Rough Sets in Medicine: Tools and Applications Knowledge Systems Group, Dept of Computer and Information Science, Norwegian University of Science and Technology, Trondheim, Norway [4] Ho Tu Bao (1996) Introduction to Knowledge Discovery and Data mining Institute of Information Technology National Center for Natural Science and Technology [5] Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998) Discovery of Data Patterns with Application to Decomposition and Classification Problems [6] Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (2000) Rough sets: A tutorial [7] Elena Marchiori Data Minning Free University Amsterdam Faculty of Sciences, Departement of Mathematics and Computer Science, Amsterdam, The Netherlands [8] Quinlan, J.R (1993) C4.5: Programs for machine learning Morgan Kaufmann, San Mateo, CA Khai ph¸ luËt theo tiếp cận tập thô Tiêu Thị Dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -87- [9] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes [10] Wojciech P Ziarko (Ed., 1994) Rough Sets, Fuzzy Sets and Knowledge Discovery Proceedings of the International Workshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993 SpringerVerlag Khai phá luật theo tiếp cận tập thô Tiêu ThÞ Dù LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... luật theo tiếp cận tập thô [5], dựa mối quan hệ đó, đa số nhận xét đối sánh khám phá luật kết hợp khám phá luật theo tiếp cận tập thô Kết đáng ý mối tơng đồng độ mạnh luật theo tiếp cận tập thô. .. luận văn tập trung giới thiệu khám phá luật kết hợp theo cách tiếp cận thông thờng khám phá luật theo tiếp cận tập thô để từ đa nhận xét đối sánh tơng đồng khác biệt tính chất hai cách tiếp cận Mục... mẫu luật theo tiếp cận tập thô 58 II.3 So s¸nh luËt theo tiếp cận tập thô luật kết hợp 60 II.4 KÕt luËn ch−¬ng II 62 Ch−¬ng III ứng dụng mẫu thử nghiệm trình khám phá luật theo

Ngày đăng: 01/11/2022, 19:42

w