Trong thực tế để phát hiện đối tượng trong số khách tham gia hoạt động xuất nhập cảnh đòi hỏi phải hết sức thận trọng, nếu quyết định sai sẽ ảnh hưởng trực tiếp đến quyền lợi chính trị của người dân và ảnh hưởng tới quan hộ đối ngoại của nhà nước nếu khách là người Nước ngoài, Việt kiều.
Trong khi đó thông tin về nhân thân của đối tượng cũng như khách xuất nhập cảnh thường không đầy đủ và giống hệt nhau, nhiều trường hợp không thể phân biệt được, gặp những trường hợp này các cán bộ nghiệp vụ thường phải sử dụng các biện pháp nghiệp vụ để xác định đối tượng.
Vì vậy, việc nghiên cứu xây dựng một hệ thống tiền xử lý dữ liệu và trợ giúp quyết định là một việc cần thiết và cấp bách, trong khuôn khổ luận văn này chúng tôi đưa ra các luận cứ quan trọng hướng tới một giải pháp tổng thể ứng dụng các thuật toán của ROSETTA vào xây dựng hệ thống thực tế.
3.1.3. Một sô đặc trưng
Trong thực tê cơ sơ dữ liệu lưu trữ thông tin về khách xuất nhập cảnh được lưu trữ và mô tả dưới dạng một bảng quyết định bao gồm nhiều thuộc tính điêu kiện mô tả về khách xuất nhập cảnh và một sô thuộc tính quyết định là kết quả đối chiếu khách xuất nhập cảnh đó với đối tượng quản lý. Như vậy khi xem xét các thuộc tính mô tả về một khách xuất nhập cảnh rất có thể ta sẽ thấy các thông tin này giống hệt nhau nhưng lại có kết quả kiểm tra đối chiếu khác nhau (đây là trường hợp không phân biệt được). Bài toán đặt ra là tìm ra mối quan hệ tiềm ẩn giữa các thuộc tính điều kiện và thuộc tính quyết định trong bảng quyết định này.
- Cấu trúc và dữ liệu mô phỏng thông tin khách xuất nhập cảnh sử dụng trong bài toán.
Cấu trúc bảng Xuất nhập cảnh
Tên trường Mô tả Kiểu dư liêu
MUC DICH Mục đích xuất nhập cảnh V ARCHAR2(40)
QT_HNAY Quốc tịch hiện nay NUMBER(4)
NGHE NGHIEP Nghề nghiệp VARCHAR2(40)
NOLSIN H Thông tin nơi sinh của khách xuất
nhập cảnh VARCHAR2(60)
DĨA CHI Đia chỉ ở Viêt Nam V ARCHAR2( 100) DEN TU Xuất nhập cảnh đến nước nào NUMBER(4)
XEM_XET Xem xét xem khách có phải là đối
tượng hay không NUMBER(l)
Trong bảng thông tin lưu trữ thông tin về khách xuất nhập cảnh. Các thông tin mô tả về một khách được lưu trữ bằng một bản ghi với nhiều thuộc tính trong bảng quyết định. Các thuộc tính trong mỗi bản ghi có đặc thù và độ quan trọng khác nhau.
3.2. TIỀN XỬ LÝ DỮ LIỆU
3.2.1. Giới thiệu các phương pháp tiền xử lý được chọn
Do thông tin về nhân thân của khách và đối tượng xuất nhập cảnh thường không đầy đủ do đó cần phải có một bước tiền xử lý dữ liệu nhằm đưa đến một kết quả mong muốn. Chúng tôi giả sử trường hợp một khách trùng với 234 đối tượng nghi ngờ như sau:
MSIMH QT_HHAY MD_XIJC MGHEIIGHIEP DEII_TU XXET
218 DL Irdonexia Phong vien Tu si Hong Kong Nghi ngo
219 TW Indonexia Ki su llg h ĩ ngo
220 DL Indonexia Hũi nghi Giao su Indonexia Nghi ngo
221 TW Dan mach Lao dong Ki su Indonexia Nghi ngo
222 A GIANG AUS Tham than Ki su llg h i ngo
223 DL Dan mach Lao dong Tu si Dan mach llg h i ngo
224 Dan rrach Thuong mai Ki su llg h i ngo
225 L XUYEN Uc Lao dong Thucng nhan Dan mach llg h i ngo
226 Uc Ki su llg h i ngo
227 SAI GON ■■ Uc Lao dong Cong nhan Dan mach Nghi ngo
226 BEN TRE Uc Vientro Ki su Nghi ngo
229 AUS Vien tro Thuong nhan Dan mach llg lũ ngo
230 DL Dan mach Ki su lig h i ngo
231 TQ Dan mach Vien tro Tu si Nhat Ban Nghi ngo
232 JAPAN Vien tro Thuong nhan Nhat Ban llg h i ngo
233 DL Ki su Nghi ngo
234 DL DL Dau tu I I Nhai Ban Nghi ngo Mil
ROSETTA đưa ra một số phương pháp tiền xử lý dữ liệu trong bộ Toolkit như: - Xoá bỏ những bản ghi thiếu giá trị của các thuộc tính.
Xoa_bghi
IISIIIH QT_HIIAY M D X IIC HGHE_IIGfllE
p DEIỈ_TU XXET ấ<
165 SAI GON AUS Tiep thi Lam cong My llg h i ngo
1G6 JP Japan Tiep thi Lam cong My llgh i nao
167 TW Hong Kong Tiep thi Lam cong My —- - llg h ĩ ngo" —
168 DL Hong Kong Tiep thi Lam cong My Nghĩ nga
169 DL Hong Kong Tiep thi Lam cong My Nghĩ ngo
170 TW Ma cao Tiep Ihi Lam cong Trung Quac lig h i nga
171 TW Ma cao Phong vien Lam cong Ma cao llg h i ngo
172 DL Ma cao Phong vien Ki su Trung Quoc Nghi ngo
173 TW Ma cao Phong vien Ki su Trung Quoc Nghi ngo
174 TW Ma cao Phong vien Ki su Trung Quoc Mghi ngo
175 DL Indcnexia Phong vien Tu si Hong Kong llg h i ngo
176 DL Indcnexia Hoi nghi ỡiao su Indonexia Nghi ngo
177 TW Danmach Lao dong Ki su Indonexia llg h i ngo
178 DL Dan mach Lao dong Tu si Dan mach Nghi ngo
179 LXUYEN Uc Lao dong Thuong nhan Dan mach llg h i ngo
180 SAI ỠON Uc Lao dong Cong nhan Dan mach Nghi ngo -
181 TQ Dan mach Vien tro Tu si Nhat Ban Mghĩ ngo M I
LÚC này tập đối tượng chỉ còn lại 181 bản ghi, những bản ghi thiếu giá trị bị loại bỏ.
- Bổ sung giá trị vào những bản ghi có thuộc tính có giá trị thiếu. Bosung_gtri
NSIIIH QT._HIIAY MD_XHC IIGHE_IIGHIE
p DEII_TU XXET ầ
218 DL Indonexia Phong vien Tu si Hong Kong Nghi ngo
219 TW Indonexia Du lích Ki su Nhat Ban Nghi ngo
220 DL Irdonexia Hoi nghi Giao su Indonexia llg h ĩ ngo
221 TW Dan mach Lao dong Ki su Indonexia Nghi ngo
222 A GIANG AUS Tham than Ki su Nhai Ban llg h i ngo
223 DL Dan mach Lao dong Tu si Dan mech llg h i ngo
224 DL Dan mach Thuong mai Ki su Nhat Ban tlg h i ngo
225 L XUVEN Uc Lao dong Thuong nhan Dan mach llg h i ngo
226 DL Uc Du lích Ki su Nhai Ban Nghi ngo
227 SAI GON Uc Lao dong Cong nhan Dan mach Nghĩ ngo
228 BEN TRE Uc Vien tro Ki su Nhat Ban Nghi ngo
229 DL AUS Vien tro Thuong nhan Dan mach Nghi ngo
23Ũ DL Dan mach Du lich Ki su Nhst Ban llg h ĩ ngo
231 TQ Dan mach Vien tro Tu si Ntiat Ban llg h i ngo
232 JAPAN Trung Quoc Vien tro Thuong nhan Nhsrt Ban llg h ĩ ngo
233 DL Trung Quoc Du lích Ki su Nhait Ban Nghi ngo 1
234 DL DL Dau tu Cong nhan Nhat Ban Nghi ngo ¥ i
Ở phương pháp này với thuộc tính có giá trị kiểu xâu thì giá trị thiếu sẽ được thay thế bằng giá trị xuất hiện nhiều nhất trong tập giá trị của thuộc tính
đó, với thuộc tính kiểu số thì giá trị thiếu sẽ được thay thế bằng giá trị trung bình của tập tất cả tập giá trị của thuộc tính đó.
- TỔ hợp hoá dữ liệu: Mở rộng mỗi giá trị thiếu cho mỗi bản ghi (đối tượng) thành tập các giá trị có thể. Một đối tượng được mở rộng thành vài đối
tượng bao phu tất cả các trường hợp có thể xảy ra (tổ hợp giá của các giá trị thiếu của đối tượng.
HSINH QT_HNAY MDXNC NGHENGHIEP DEN_TU XXET T
18494 DL DL Tham than Ki su Nga Nghi ngo
18495 DL DL Tham than Ki su Viet Nam Nghi ngo
19496 DL DL Tham than Ki su Trung Quoc Nghi ngo
18497 DL DL Tham than Ki su Hong kong Nghi ngo
18498 DL ! dl Tham than Ki su Ucraina Nghi nga
18499 DL DL Tham than Ki su Han quoc Nghi nga
18500 DL DL Tham than Ki su Macao Nghi nga
18501 DL DL Tham than Ki su An da Nghi nga
18502 DL
- ■ DL Tham than Ki su Phap Nghi nga
18503 DL DL Tham than Ki su ' EN Nghi nga
18504 DL _ DL Tham than Ki su Indonexia Nghi ngo
18505 DL DL Tham than Ki su Dai Loan Nghi nga
18506 DL DL Tham than Ki su Uc Nghi ngo
18507 DL ...Di ■ Tham than Ki su Canada Nghi ngo
18508 DL DL Tham than Ki su Hong Kong Nghi ngo _2'
18509 DL
--- DL Tham than Ki su I Ma cao
--- --- Nghi nga Ịấ
Sau khi dùng phương pháp này thì số lượng bản ghi tăng lên 18.509 bản ghi.
Ưu và nhược điểm của từng phương pháp theo góc độ nghiệp vụ:
- Phương pháp xoá bỏ những bản ghi thiếu giá trị của các thuộc tính:
Ưu điểm : Loại bỏ được những bản ghi không có khả năng xem xét, không tốn thời gian và công sức.
Nhươc điểm : Dễ bị lọt đối tượng.
- Phương pháp bổ sung giá trị vào bản ghi có thuộc tính có giá trị thiếu Ưu điểm : Có thêm thông tin để xem xét
Nhươc điểm : Khó phân biệt đối tượng, không phù hợp với thực tế vì chẳng hạn có một đối tượng người nước ngoài thì không thể bổ sung thông tin nơi sinh là Hà Nội vào bản ghi của đối tượng được.
- Phương pháp tổ hợp hoá dữ liệu:
Ưu điểm ; Có thể phát hiện được đối tượng.
Nhươc điểm: Tốn nhiều thời gian và công sức để xem xét. 3.2.2.Thực nghiệm tiền xử lý
Trong thực tẽ môi khi xử lý đối tượng nghi ngờ thường phải thực hiện thủ công xoá bỏ từng bản ghi có thuộc tính có giá trị thiếu, hầu hết những thuộc tính này bị thiếu thông tin rất nhiều, thậm chí có những thông tin bị viết tắt do quá trình thu thập thông tin không được đầy đủ.
Từ bước thử nghiệm ở trên và nhu cầu cần thiết của công việc thực tế, chúng tôi đã xây dựng một modul cài đặt vào hệ thống xử lý dữ liệu đang vận hành theo phương pháp loại bỏ các bản ghi có thuộc tính bị thiếu giá trị. Tuy nhiên, modul đã xây dựng chỉ loại bỏ những bản ghi có nhiều thuộc tính thiếu giá trị (ví dụ: 3/5 thuộc tính). Vì thực tế những thuộc tính còn lại không đủ căn cứ để quyết định có phải là đối tượng thực sự hay không.
3.2.3. Đ ánh giá thực nghiệm
Qua một thời gian vận hành thử nghiệm modul này chúng tôi nhận thấy việc xây dựng một công cụ phục vụ cho việc xử lý đối tượng là hết sức cần thiết và hiệu quả không những giảm được công sức và thời gian của cán bộ xử lý mà còn đưa vào thử nghiệm có hiệu quả ý tưởng của một phương pháp tiền xử lý dữ liệu trong bộ Toolkit của ROSETTA.
3.3. TÌM TẬP RÚT GỌN
Để xác định một khách xuất nhập cảnh có phải là đối tượng hay không cần dựa vào nhiều yếu tố, hệ thống đang vận hành sử dụng một số yếu tố để đối chiếu thông tin giữa khách xuất nhập cảnh và đối tượng thông qua một phần mềm máy tính và kết quả đối chiếu trả về một giá trị kiểm tra kiểu số ỉà tỷ lệ trùng lặp các thông tin cơ bản của khách với đối tượng, nếu kết quả kiểm tra là [1,1] thì đó là đối tượng còn kết quả kiểm tra nằm trong khoảng [0.56,0.99] thì đó là đối tượng nghi ngờ cần phải xem xét, trong phần này
chúng tôi chỉ xét đến những đối tượng thuộc khoảng [0.56,0.99] để tìm tập thuộc tính cốt yếu, nhưng vấn đề đặt ra là những thuộc tính đó có thực sự là côt yêu không ? cần phải bổ sung những thuộc tính nào ? những thuộc tính nao la không cân thiêt ? vân đê này đã được đưa ra nghiên cứu từ nhiều năm nay nhưng vẫn chưa có một giải pháp hữu hiệu nào được thực hiện. Trong luận van nay chung tôi đê xuất giải pháp tìm tập rút gọn nghía là tìm tập các thuộc tính cân thiết dùng để xác định đối tượng trong số khách xuất nhập cảnh thuộc diện nghi ngờ sử dụng thuật toán Johnson của bộ công cụ ROSETTA. 3.3.1. T hử nghiệm
Trong thực tẽ có rất nhiều trường hợp các thông tin cơ bản của khách rất giống nhau nhưng có kết quả đôi chiếu khác nhau, ta xét bảng quyết định sau: KQ_DOICHIEU NSINH 1003 1ŨŨ4 1ŨŨ5 1006 TW JP TW HCM
QT_HNAY MD_XHC NGHE_NGHIEP DENTU
ỉ - l í n l í x l
KET.QUA HCM Japan Thuong mai Thuong nhan My Phũ thong [0.58.0.97]
Japan Hong Kong Hang Kang Hong Kong Tiep thi Tiep thi Tiep thi Tiep thi Lam cong Lam cong Lam cong Lam cong My My My My Pho thong (0.68,0.78] Pho thong [0.58,0.87] Pho thong [0.58,0.17] Pho thong [0.68,0.97]
1007 SEL Ma cao Tiep thi Lam cong Trung Quoc Pho thũng [0.68,0.97]
1008 HCM Ma cao Thuong mai Lam cong Ma cao Pho thong [0.68,0.97]
1009 1010 1012 1013 SG TQ 1011 HCM TW
Ma cao Tham Ihsn Ki su Trung Quoc Pho thong [0.78,0.93]
Ma cao Thuong mai Ki su Trung Quoc Pho thong [0.78,0.93]
Japan Thuong mai Thuong nhan My Cong vu [0.58,0.83] Ma cao
CHINA Hong Kong
Tham than Du lích Ki su Tu si Trung Quoc Hong Kong Pho thong [0.64,0.951 Pho thong [0.64,0.951 1014 1015 1016 1017 CHINA NHAT JP
Ma cao Bao chi Phong vien
Hong Kong Tham than Ki su
Hong Keng Hong Keng
Cong vu [0.59,0.95]
Pho thong [0.59,0.95]
HCM Japan Thuong mai Thuong nhan My Ngoai giao [0.58,0.76]
Dai Loan Bao chi Phong vien Dai Loan Cong vu [0.59,0.95]
1018 1019 NHAT KR Indonexia Indonexia Hoi nghi Thuong mai
Nhan vien Hong Keng Cong vu [0.59,0.95]
Ki SU Indonexia Pho thang [0.59,0.95] V
Ta giả sử 5 thuộc tính cơ bản để xem xét là {Noi_sinh, Qt_hnay, Md_xnc, Nghe_nghiep, Den_tu}, nếu xem xét giá trị của 5 thuộc tính này và chưa xem xét đến giá trị của thuộc tính { Loai_hc} và {Ket_qua} thì ta thấy
các đối tượng 1002, 1011 và 1016 là hoàn toàn giống nhau và khó có thể phân biệt được, chính vì vậy ta phải xem xét thêm một số thuộc tính khác, trong trương hợp nay ta xem xét thêm thuộc tính Loai_hc và giá trị của thuôc tính này giúp cho việc phân biệt đối tượng được dễ dàng. Như vậy việc cố định 5 thuộc tính đê đôi chiếu có phải là một giải pháp tốt cho việc phát hiện đối tượng, khi gặp phải trường hợp trên thì cần phải có 6 thuộc tính thì mới có thể xác định được chính xác đối tượng. Sau đó ta xét đến kết quả đối chiếu thông tin giữa khách xuất nhập cảnh và đối tượng thì thấy ở bản ghi thứ 1002 có kết quả đối chiếu rất cao: [0.58, 0.97], bản ghi 1011 có kết quả đối chiếu: [0.58, 0.83], bản ghi 1016 có kết quả đối chiếu: [0.58, 0.76]; như vậy bản ghi thứ 1002 là đối tượng cần được xử lý. Tất nhiên trong thực tế công tác xử lý dữ liệu xuất nhập cảnh còn có nhiều yếu tố khác nữa để xác định được đối tượng mà chúng tôi không tiện nêu ở đây.
Sau khi đã xem xét kết quả đối chiếu trong bảng quyết định được biểu diễn ở trên ta sẽ thử nghiệm bằng công cụ của ROSETTA tìm tập rút gọn các thuộc tính tối thiểu được dùng để xác định một đối tượng. Chúng tôi tiến hành thử nghiệm trên 1019 bản ghi và thu được kết quả như sau:
■ REDUCT E D E x
Reduct
1 {NSINH, QT_HNAY, MD_XNC, NGHE_NGHIEP, DEN_TU, LOAI_HC}
|t< J ẩ - _ _ * I
3.3.2. Đánh giá
Như vậy, ta thấy việc thử nghiệm đạt kết quả rất tốt vì kết quả của thử nghiệm bằng công cụ của ROSETTA và kết quả của kinh nghiệm là như nhau, việc xác định đối tượng rõ ràng cần phải xem xét thêm các thuộc tính liên
quan khác như ví dụ ở trên là cần phải thêm thuộc tính LOAI_HC để xác định đối tượng. Với kết quả thử nghiệm ở trên, chúng tôi mạnh dạn đề xuất áp dụng ROSETTA vào công việc phân tích dữ liệu trong thực tế đồng thời đưa ra các luận cứ quan trọng trong việc tìm ra tập thuộc tính cốt yếu giúp cho việc phát hiện đối tượng trong số khách xuất nhập cảnh ngày một tốt hơn.
3.4. Sinh luật
Sinh ra các luật kết hợp từ tập rút gọn. Kết quả tập luật sinh ra thể hiện như sau:
■ S in tI . l u a t U 0 ®
Rule I á
243 NSINH(NIUZILAN) AND QT_HINJA Y(Thai land) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND ŨẼN_TLXDSA) AND LOAJ_HC(Ptio 1h 244 NSINH(ANH) AND QT_HNAY(Thai land) AND MD_XN(Ou lích) AND NGHE_NGHIEP(Noi tro) AND DEN_TU(USA) AND LOAI_HC(Pho thcng) -» K 245 NSINH(NHAT) AND QT_HNAY(My) AND MD_XN(Tham than) AND NGHE_NGHIEP(Cnng nhan) AND DEN_TU(USA) AMD LOAI_HC(Ptw Ihong) - 246 JAY(TL) AND MD_XN(Du lich) AND NGHE NGHIEP(Cong nhan) AND DEN_TU(Undefined) AND LOAI_HC(Pho thong) -» KET_QUA([Ũ.58,0.98|) 247 NSINH(NHAT) AND QT_HNAY(TL"J AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngaỉ AND LOAI_HC(Pho thang) -» KE 246 NSINHỆAN GIANG] AND QT_HNAY(TL) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngs) AND LOAI_HC(PHo Ihorg] - 245 NSINH(JP) AND QT_HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TIJ(Nga) AND LOAI HC(Ptio Ihong) -> KE1 250 NSINH(VN) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhari) AND DEN_TU(Ngâ) AND LOAI_HC(Phoiriong) -» KET_ 251 NSINH(NHAT) AND Q Ĩ HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Corg nhan] AND DEN_TU(Viet Nam) AND LO AI_HC(PtTO thong) ■ 252 NSINH(TH) AND QT HNAY(TL) AND MD_XN(Thflm than) AND NGHE _NGHEP(Cong nhar) AND DEN_TU(Viet Nam) AND LOAI_HC(Pho Itiorg) 253 NSINH(JP) AND QT_HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_7U(Thaỉ Lan) AND LOAI_HC(Phn thong) K 254 NSINH(JP) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Undefined) AND DEN_TU(Trung Quoc) AND LQAI_HC(Phc thong) -» 255 NSINH(JP) AND QĩIhNAV(Hong Kongl AND MD_XN(Du lích) AND NGHE_NGHIEP(Ccng nhen) AND DEN_TU(Hong toong) AND LOAI_HC(Pho 1 256 NSINH(JP) AND QT_HNAY(Bi] AND MD_XN(Du lichỊ AND NOHE_NGHIEP(Cong nhan) AND DEN TU(Bi) AND LOAI_HC(Pho thong) -» KET^QU