Giới thiệu các phương pháp tiền xử lý được chọn

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 79 - 91)

Do thông tin về nhân thân của khách và đối tượng xuất nhập cảnh thường không đầy đủ do đó cần phải có một bước tiền xử lý dữ liệu nhằm đưa đến một kết quả mong muốn. Chúng tôi giả sử trường hợp một khách trùng với 234 đối tượng nghi ngờ như sau:

MSIMH QT_HHAY MD_XIJC MGHEIIGHIEP DEII_TU XXET

218 DL Irdonexia Phong vien Tu si Hong Kong Nghi ngo

219 TW Indonexia Ki su llg h ĩ ngo

220 DL Indonexia Hũi nghi Giao su Indonexia Nghi ngo

221 TW Dan mach Lao dong Ki su Indonexia Nghi ngo

222 A GIANG AUS Tham than Ki su llg h i ngo

223 DL Dan mach Lao dong Tu si Dan mach llg h i ngo

224 Dan rrach Thuong mai Ki su llg h i ngo

225 L XUYEN Uc Lao dong Thucng nhan Dan mach llg h i ngo

226 Uc Ki su llg h i ngo

227 SAI GON ■■ Uc Lao dong Cong nhan Dan mach Nghi ngo

226 BEN TRE Uc Vientro Ki su Nghi ngo

229 AUS Vien tro Thuong nhan Dan mach llg lũ ngo

230 DL Dan mach Ki su lig h i ngo

231 TQ Dan mach Vien tro Tu si Nhat Ban Nghi ngo

232 JAPAN Vien tro Thuong nhan Nhat Ban llg h i ngo

233 DL Ki su Nghi ngo

234 DL DL Dau tu I I Nhai Ban Nghi ngo Mil

ROSETTA đưa ra một số phương pháp tiền xử lý dữ liệu trong bộ Toolkit như: - Xoá bỏ những bản ghi thiếu giá trị của các thuộc tính.

Xoa_bghi

IISIIIH QT_HIIAY M D X IIC HGHE_IIGfllE

p DEIỈ_TU XXET ấ<

165 SAI GON AUS Tiep thi Lam cong My llg h i ngo

1G6 JP Japan Tiep thi Lam cong My llgh i nao

167 TW Hong Kong Tiep thi Lam cong My —- - llg h ĩ ngo" —

168 DL Hong Kong Tiep thi Lam cong My Nghĩ nga

169 DL Hong Kong Tiep thi Lam cong My Nghĩ ngo

170 TW Ma cao Tiep Ihi Lam cong Trung Quac lig h i nga

171 TW Ma cao Phong vien Lam cong Ma cao llg h i ngo

172 DL Ma cao Phong vien Ki su Trung Quoc Nghi ngo (adsbygoogle = window.adsbygoogle || []).push({});

173 TW Ma cao Phong vien Ki su Trung Quoc Nghi ngo

174 TW Ma cao Phong vien Ki su Trung Quoc Mghi ngo

175 DL Indcnexia Phong vien Tu si Hong Kong llg h i ngo

176 DL Indcnexia Hoi nghi ỡiao su Indonexia Nghi ngo

177 TW Danmach Lao dong Ki su Indonexia llg h i ngo

178 DL Dan mach Lao dong Tu si Dan mach Nghi ngo

179 LXUYEN Uc Lao dong Thuong nhan Dan mach llg h i ngo

180 SAI ỠON Uc Lao dong Cong nhan Dan mach Nghi ngo -

181 TQ Dan mach Vien tro Tu si Nhat Ban Mghĩ ngo M I

LÚC này tập đối tượng chỉ còn lại 181 bản ghi, những bản ghi thiếu giá trị bị loại bỏ.

- Bổ sung giá trị vào những bản ghi có thuộc tính có giá trị thiếu. Bosung_gtri

NSIIIH QT._HIIAY MD_XHC IIGHE_IIGHIE

p DEII_TU XXET

218 DL Indonexia Phong vien Tu si Hong Kong Nghi ngo

219 TW Indonexia Du lích Ki su Nhat Ban Nghi ngo

220 DL Irdonexia Hoi nghi Giao su Indonexia llg h ĩ ngo

221 TW Dan mach Lao dong Ki su Indonexia Nghi ngo

222 A GIANG AUS Tham than Ki su Nhai Ban llg h i ngo

223 DL Dan mach Lao dong Tu si Dan mech llg h i ngo

224 DL Dan mach Thuong mai Ki su Nhat Ban tlg h i ngo

225 L XUVEN Uc Lao dong Thuong nhan Dan mach llg h i ngo

226 DL Uc Du lích Ki su Nhai Ban Nghi ngo

227 SAI GON Uc Lao dong Cong nhan Dan mach Nghĩ ngo

228 BEN TRE Uc Vien tro Ki su Nhat Ban Nghi ngo

229 DL AUS Vien tro Thuong nhan Dan mach Nghi ngo

23Ũ DL Dan mach Du lich Ki su Nhst Ban llg h ĩ ngo

231 TQ Dan mach Vien tro Tu si Ntiat Ban llg h i ngo

232 JAPAN Trung Quoc Vien tro Thuong nhan Nhsrt Ban llg h ĩ ngo

233 DL Trung Quoc Du lích Ki su Nhait Ban Nghi ngo 1

234 DL DL Dau tu Cong nhan Nhat Ban Nghi ngo ¥ i (adsbygoogle = window.adsbygoogle || []).push({});

Ở phương pháp này với thuộc tính có giá trị kiểu xâu thì giá trị thiếu sẽ được thay thế bằng giá trị xuất hiện nhiều nhất trong tập giá trị của thuộc tính

đó, với thuộc tính kiểu số thì giá trị thiếu sẽ được thay thế bằng giá trị trung bình của tập tất cả tập giá trị của thuộc tính đó.

- TỔ hợp hoá dữ liệu: Mở rộng mỗi giá trị thiếu cho mỗi bản ghi (đối tượng) thành tập các giá trị có thể. Một đối tượng được mở rộng thành vài đối

tượng bao phu tất cả các trường hợp có thể xảy ra (tổ hợp giá của các giá trị thiếu của đối tượng.

HSINH QT_HNAY MDXNC NGHENGHIEP DEN_TU XXET T

18494 DL DL Tham than Ki su Nga Nghi ngo

18495 DL DL Tham than Ki su Viet Nam Nghi ngo

19496 DL DL Tham than Ki su Trung Quoc Nghi ngo

18497 DL DL Tham than Ki su Hong kong Nghi ngo

18498 DL ! dl Tham than Ki su Ucraina Nghi nga

18499 DL DL Tham than Ki su Han quoc Nghi nga

18500 DL DL Tham than Ki su Macao Nghi nga

18501 DL DL Tham than Ki su An da Nghi nga

18502 DL

- ■ DL Tham than Ki su Phap Nghi nga

18503 DL DL Tham than Ki su ' EN Nghi nga

18504 DL _ DL Tham than Ki su Indonexia Nghi ngo

18505 DL DL Tham than Ki su Dai Loan Nghi nga

18506 DL DL Tham than Ki su Uc Nghi ngo

18507 DL ...Di Tham than Ki su Canada Nghi ngo

18508 DL DL Tham than Ki su Hong Kong Nghi ngo _2'

18509 DL

--- DL Tham than Ki su I Ma cao

--- --- Nghi nga Ịấ

Sau khi dùng phương pháp này thì số lượng bản ghi tăng lên 18.509 bản ghi.

Ưu và nhược điểm của từng phương pháp theo góc độ nghiệp vụ:

- Phương pháp xoá bỏ những bản ghi thiếu giá trị của các thuộc tính:

Ưu điểm : Loại bỏ được những bản ghi không có khả năng xem xét, không tốn thời gian và công sức.

Nhươc điểm : Dễ bị lọt đối tượng.

- Phương pháp bổ sung giá trị vào bản ghi có thuộc tính có giá trị thiếu Ưu điểm : Có thêm thông tin để xem xét (adsbygoogle = window.adsbygoogle || []).push({});

Nhươc điểm : Khó phân biệt đối tượng, không phù hợp với thực tế vì chẳng hạn có một đối tượng người nước ngoài thì không thể bổ sung thông tin nơi sinh là Hà Nội vào bản ghi của đối tượng được.

- Phương pháp tổ hợp hoá dữ liệu:

Ưu điểm ; Có thể phát hiện được đối tượng.

Nhươc điểm: Tốn nhiều thời gian và công sức để xem xét. 3.2.2.Thực nghiệm tiền xử lý

Trong thực tẽ môi khi xử lý đối tượng nghi ngờ thường phải thực hiện thủ công xoá bỏ từng bản ghi có thuộc tính có giá trị thiếu, hầu hết những thuộc tính này bị thiếu thông tin rất nhiều, thậm chí có những thông tin bị viết tắt do quá trình thu thập thông tin không được đầy đủ.

Từ bước thử nghiệm ở trên và nhu cầu cần thiết của công việc thực tế, chúng tôi đã xây dựng một modul cài đặt vào hệ thống xử lý dữ liệu đang vận hành theo phương pháp loại bỏ các bản ghi có thuộc tính bị thiếu giá trị. Tuy nhiên, modul đã xây dựng chỉ loại bỏ những bản ghi có nhiều thuộc tính thiếu giá trị (ví dụ: 3/5 thuộc tính). Vì thực tế những thuộc tính còn lại không đủ căn cứ để quyết định có phải là đối tượng thực sự hay không.

3.2.3. Đ ánh giá thực nghiệm

Qua một thời gian vận hành thử nghiệm modul này chúng tôi nhận thấy việc xây dựng một công cụ phục vụ cho việc xử lý đối tượng là hết sức cần thiết và hiệu quả không những giảm được công sức và thời gian của cán bộ xử lý mà còn đưa vào thử nghiệm có hiệu quả ý tưởng của một phương pháp tiền xử lý dữ liệu trong bộ Toolkit của ROSETTA.

3.3. TÌM TẬP RÚT GỌN

Để xác định một khách xuất nhập cảnh có phải là đối tượng hay không cần dựa vào nhiều yếu tố, hệ thống đang vận hành sử dụng một số yếu tố để đối chiếu thông tin giữa khách xuất nhập cảnh và đối tượng thông qua một phần mềm máy tính và kết quả đối chiếu trả về một giá trị kiểm tra kiểu số ỉà tỷ lệ trùng lặp các thông tin cơ bản của khách với đối tượng, nếu kết quả kiểm tra là [1,1] thì đó là đối tượng còn kết quả kiểm tra nằm trong khoảng [0.56,0.99] thì đó là đối tượng nghi ngờ cần phải xem xét, trong phần này

chúng tôi chỉ xét đến những đối tượng thuộc khoảng [0.56,0.99] để tìm tập thuộc tính cốt yếu, nhưng vấn đề đặt ra là những thuộc tính đó có thực sự là côt yêu không ? cần phải bổ sung những thuộc tính nào ? những thuộc tính nao la không cân thiêt ? vân đê này đã được đưa ra nghiên cứu từ nhiều năm nay nhưng vẫn chưa có một giải pháp hữu hiệu nào được thực hiện. Trong luận van nay chung tôi đê xuất giải pháp tìm tập rút gọn nghía là tìm tập các thuộc tính cân thiết dùng để xác định đối tượng trong số khách xuất nhập cảnh thuộc diện nghi ngờ sử dụng thuật toán Johnson của bộ công cụ ROSETTA. 3.3.1. T hử nghiệm

Trong thực tẽ có rất nhiều trường hợp các thông tin cơ bản của khách rất giống nhau nhưng có kết quả đôi chiếu khác nhau, ta xét bảng quyết định sau: KQ_DOICHIEU NSINH 1003 1ŨŨ4 1ŨŨ5 1006 TW JP TW HCM

QT_HNAY MD_XHC NGHE_NGHIEP DENTU

ỉ - l í n l í x l

KET.QUA HCM Japan Thuong mai Thuong nhan My Phũ thong [0.58.0.97]

Japan Hong Kong Hang Kang Hong Kong Tiep thi Tiep thi Tiep thi Tiep thi Lam cong Lam cong Lam cong Lam cong My My My My Pho thong (0.68,0.78] Pho thong [0.58,0.87] Pho thong [0.58,0.17] Pho thong [0.68,0.97]

1007 SEL Ma cao Tiep thi Lam cong Trung Quoc Pho thũng [0.68,0.97]

1008 HCM Ma cao Thuong mai Lam cong Ma cao Pho thong [0.68,0.97]

1009 1010 1012 1013 SG TQ 1011 HCM TW

Ma cao Tham Ihsn Ki su Trung Quoc Pho thong [0.78,0.93]

Ma cao Thuong mai Ki su Trung Quoc Pho thong [0.78,0.93]

Japan Thuong mai Thuong nhan My Cong vu [0.58,0.83] Ma cao

CHINA Hong Kong

Tham than Du lích Ki su Tu si Trung Quoc Hong Kong Pho thong [0.64,0.951 Pho thong [0.64,0.951 1014 1015 1016 1017 CHINA NHAT JP

Ma cao Bao chi Phong vien

Hong Kong Tham than Ki su

Hong Keng Hong Keng

Cong vu [0.59,0.95]

Pho thong [0.59,0.95]

HCM Japan Thuong mai Thuong nhan My Ngoai giao [0.58,0.76] (adsbygoogle = window.adsbygoogle || []).push({});

Dai Loan Bao chi Phong vien Dai Loan Cong vu [0.59,0.95]

1018 1019 NHAT KR Indonexia Indonexia Hoi nghi Thuong mai

Nhan vien Hong Keng Cong vu [0.59,0.95]

Ki SU Indonexia Pho thang [0.59,0.95] V

Ta giả sử 5 thuộc tính cơ bản để xem xét là {Noi_sinh, Qt_hnay, Md_xnc, Nghe_nghiep, Den_tu}, nếu xem xét giá trị của 5 thuộc tính này và chưa xem xét đến giá trị của thuộc tính { Loai_hc} và {Ket_qua} thì ta thấy

các đối tượng 1002, 1011 và 1016 là hoàn toàn giống nhau và khó có thể phân biệt được, chính vì vậy ta phải xem xét thêm một số thuộc tính khác, trong trương hợp nay ta xem xét thêm thuộc tính Loai_hc và giá trị của thuôc tính này giúp cho việc phân biệt đối tượng được dễ dàng. Như vậy việc cố định 5 thuộc tính đê đôi chiếu có phải là một giải pháp tốt cho việc phát hiện đối tượng, khi gặp phải trường hợp trên thì cần phải có 6 thuộc tính thì mới có thể xác định được chính xác đối tượng. Sau đó ta xét đến kết quả đối chiếu thông tin giữa khách xuất nhập cảnh và đối tượng thì thấy ở bản ghi thứ 1002 có kết quả đối chiếu rất cao: [0.58, 0.97], bản ghi 1011 có kết quả đối chiếu: [0.58, 0.83], bản ghi 1016 có kết quả đối chiếu: [0.58, 0.76]; như vậy bản ghi thứ 1002 là đối tượng cần được xử lý. Tất nhiên trong thực tế công tác xử lý dữ liệu xuất nhập cảnh còn có nhiều yếu tố khác nữa để xác định được đối tượng mà chúng tôi không tiện nêu ở đây.

Sau khi đã xem xét kết quả đối chiếu trong bảng quyết định được biểu diễn ở trên ta sẽ thử nghiệm bằng công cụ của ROSETTA tìm tập rút gọn các thuộc tính tối thiểu được dùng để xác định một đối tượng. Chúng tôi tiến hành thử nghiệm trên 1019 bản ghi và thu được kết quả như sau:

■ REDUCT E D E x

Reduct

1 {NSINH, QT_HNAY, MD_XNC, NGHE_NGHIEP, DEN_TU, LOAI_HC}

|t< J ẩ - _ _ * I

3.3.2. Đánh giá

Như vậy, ta thấy việc thử nghiệm đạt kết quả rất tốt vì kết quả của thử nghiệm bằng công cụ của ROSETTA và kết quả của kinh nghiệm là như nhau, việc xác định đối tượng rõ ràng cần phải xem xét thêm các thuộc tính liên

quan khác như ví dụ ở trên là cần phải thêm thuộc tính LOAI_HC để xác định đối tượng. Với kết quả thử nghiệm ở trên, chúng tôi mạnh dạn đề xuất áp dụng ROSETTA vào công việc phân tích dữ liệu trong thực tế đồng thời đưa ra các luận cứ quan trọng trong việc tìm ra tập thuộc tính cốt yếu giúp cho việc phát hiện đối tượng trong số khách xuất nhập cảnh ngày một tốt hơn.

3.4. Sinh luật

Sinh ra các luật kết hợp từ tập rút gọn. Kết quả tập luật sinh ra thể hiện như sau:

■ S in tI . l u a t U 0 ®

Rule I á

243 NSINH(NIUZILAN) AND QT_HINJA Y(Thai land) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND ŨẼN_TLXDSA) AND LOAJ_HC(Ptio 1h 244 NSINH(ANH) AND QT_HNAY(Thai land) AND MD_XN(Ou lích) AND NGHE_NGHIEP(Noi tro) AND DEN_TU(USA) AND LOAI_HC(Pho thcng) -» K 245 NSINH(NHAT) AND QT_HNAY(My) AND MD_XN(Tham than) AND NGHE_NGHIEP(Cnng nhan) AND DEN_TU(USA) AMD LOAI_HC(Ptw Ihong) - 246 JAY(TL) AND MD_XN(Du lich) AND NGHE NGHIEP(Cong nhan) AND DEN_TU(Undefined) AND LOAI_HC(Pho thong) -» KET_QUA([Ũ.58,0.98|) 247 NSINH(NHAT) AND QT_HNAY(TL"J AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngaỉ AND LOAI_HC(Pho thang) -» KE 246 NSINHỆAN GIANG] AND QT_HNAY(TL) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngs) AND LOAI_HC(PHo Ihorg] - 245 NSINH(JP) AND QT_HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TIJ(Nga) AND LOAI HC(Ptio Ihong) -> KE1 250 NSINH(VN) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhari) AND DEN_TU(Ngâ) AND LOAI_HC(Phoiriong) -» KET_ 251 NSINH(NHAT) AND Q Ĩ HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Corg nhan] AND DEN_TU(Viet Nam) AND LO AI_HC(PtTO thong) ■ 252 NSINH(TH) AND QT HNAY(TL) AND MD_XN(Thflm than) AND NGHE _NGHEP(Cong nhar) AND DEN_TU(Viet Nam) AND LOAI_HC(Pho Itiorg) 253 NSINH(JP) AND QT_HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_7U(Thaỉ Lan) AND LOAI_HC(Phn thong) K 254 NSINH(JP) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Undefined) AND DEN_TU(Trung Quoc) AND LQAI_HC(Phc thong) -» 255 NSINH(JP) AND QĩIhNAV(Hong Kongl AND MD_XN(Du lích) AND NGHE_NGHIEP(Ccng nhen) AND DEN_TU(Hong toong) AND LOAI_HC(Pho 1 256 NSINH(JP) AND QT_HNAY(Bi] AND MD_XN(Du lichỊ AND NOHE_NGHIEP(Cong nhan) AND DEN TU(Bi) AND LOAI_HC(Pho thong) -» KET^QU 257 NSINH(JP) AND QT HNAY(Bi) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhar) AND DEN_[U(Viet Nam) AND LOAI_HC(Ftio thcrg) -> K 258 NSINH(TVV) AND QT HNAY(Bi) AND MD XN(Du lích] AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Viet Nam) AND LOAI_HC(Pho thong) -» V

<

Trong thực tế khi cán bộ xử lý gặp phải những trường hợp có kết quả kiểm tra đối chiếu giữa khách và đối tượng vi phạm nằm trong khoảng [0.56,0.99] khi đó cán bộ xử lý sẽ phải sử dụng các biện pháp nghiệp vụ để quyết định. Kết quả tập luật kết hợp tìm được ở trên tương đối chính xác và khá phù hợp với nghiệp vụ thực tế, từ đó chúng tôi để xuất việc xây dựng một công cụ hỗ trợ giúp cán bộ nghiệp vụ ra những quyết định xác định đối tượng (gọi là hệ hỗ trợ quyết định xử lý dữ liệu). Ví dụ cán bộ nghiệp vụ có thể sử dụng “Hệ hỗ trợ quyết định xử lý dữ liệu” và đặt ra câu hỏi dạng “Khách có nơi sinh là Bỉ, mục đích xuất nhập cảnh là Du lịch, nghề nghiệp là công nhân, đến từ Hồng Kông, loại hộ chiếu là Phổ thông” và kết quả nhận được có the là khách xuất nhập cảnh với thông tin như vậy được xác định là đối tượng vi phạm quy định xuất nhập cảnh, lúc đó khách sẽ không được cấp hộ chiêu, thị

thực hoặc không được xuất cảnh hoặc nhập cảnh Việt Nam. Khi đó dựa vào kết quả trả lời từ công cụ “Hỗ trợ quyết định xử lý dữ liệu” và kinh nghiêm nghiệp vụ của mình, cán bộ nghiệp vụ hoàn toàn có thể đưa ra quyết định nhanh chóng.

3.5. KẾT LUẬN CHƯƠNG 3:

Trong chương này, chúng tôi đã tiến hành thử nghiệm các phương pháp tiền xử lý dữ liệu, thuật toán Johnson tìm tập rút gọn của bộ công cụ ROSETTA trên bài toán thực tế tại cơ quan công tác. Từ những thử nghiệm trên cho thấy việc áp dụng các phương pháp và thuật toán của ROSETTA vào các bài toán thực tế là rất quan trọng và hữu ích, đối với bài toán xử lý đối tượng xuất nhập cảnh thì việc áp dụng các thuật toán này không những làm giảm thời gian và công sức của cán bộ xử lý dữ liệu mà còn áp dụng những tiến bộ khoa học kỹ thuật mới vào công tác quản lý xuất nhập cảnh và đấu tranh với các loại tội phạm của cơ quan công an.

KẾT LUẬN

Thông qua việc tìm hiểu nghiên cứu một số tài liệu khoa học về phát hiện tri thức, luận văn với đề tài “Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng ROSETTA phát hiện luật trong bài toán xử lý dữ liệu xuất nhập cảnh” đã tập trung nghiên cứu về lý thuyết tập thô và ứng dụng, khảo sát và khai thác bộ cổng cụ ROSETTA do Aleksander 0 h m và cộng sự

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 79 - 91)