Đề cương Luận văn Cao Học Graph Database: Tối ưu hóa và lưu trữ dấu vân tay với cơ sở dữ liệu đồ thịHọc viên thực hiện: Dương Hoàng Thanh, lớp Cao học Khoá 4, ĐHCNTT 2011Giảng viên hướng dẫn: Phó Giáo sư – Tiến sĩ Đỗ Phúc
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc oOo Tp Hồ Chí Minh ngày 10 tháng 03 năm 2011 ĐỀ CƯƠNG LUẬN VĂN CAO HỌC PHƯƠNG THỨC ĐĂNG KÝ: III SỐ TC: 30 Tên đề tài: Tối ưu hoá Lưu trữ Nhận dạng Dấu vân tay với Cơ sở liệu đồ thị Học viên thực hiện: Dương Hoàng Thanh, mã số 0901050, lớp Cao học Khố Giảng viên hướng dẫn: Phó Giáo sư – Tiến sĩ Đỗ Phúc Cơ quan công tác: Trường Đại học Công nghệ thông tin – Đại học Quốc gia Tp Hồ Chí Minh Đt liên lạc: 0908169593 Tóm tắt mục tiêu & nội dung thực hiện: Trong q trình cơng tác cơng ty Tâm Việt, tơi gặp phải khó khăn sử dụng dấu vân tay phương pháp đăng nhập cho hệ thống thương mại điện tử Lúc đó, hệ thống vân tay công ty hỗ trợ lưu trữ hình ảnh so khớp ảnh cần xác minh danh tính Điều làm cho thiết kế trở nên bất khả thi số lượng khách hàng tăng cao thời gian cần để xử lý tác vụ chấp nhận Vì thế, thầy Đỗ Phúc giới thiệu sở liệu đồ thị môn học sở liệu nâng cao, nảy ý tưởng tìm hiểu nghiên cứu ứng dụng sở liệu đồ thị vào việc lưu trữ so khớp, xác minh dấu vân tay Mục tiêu đề tài xây dựng lý thuyết sở liệu đồ thị ứng dụng lĩnh vực sinh trắc học vân tay nhằm tìm giải lưu trữ thuật toán nhận dạng dấu vân tay hiệu mặt thời gian độ xác khơng gian tìm kiếm lớn Ngồi ra, đề tài cịn hướng tới thực hố giải pháp tìm việc xây dựng hệ thống lưu trữ nhận dạng dấu vân tay bao gồm phần cứng lẫn phần mềm, đồng thời thử nghiệm hiệu suất sở liệu giả định thực tế Sau nội dung chủ yếu: PHẦN A: CƠ SỞ LÝ THUYẾT Dấu vân tay đặc điểm nhận dạng 1.1 Sinh trắc học dấu vân tay 1.2 Các thành phần dấu vân tay 1.2.1 Đường vân rãnh 1.2.3 Điểm trung tâm 1.2.4 Các tiểu tiết 1.3 Ứng dụng dấu vân tay Các phương pháp lưu trữ nhận dạng dấu vân tay 2.1 Các phương pháp thu thập liệu vân tay 2.1.1 Lăn tay 2.1.2 Thiết bị cảm ứng điện tử 2.1.3 Các phương pháp khác 2.2 Các phương pháp nhận dạng 2.2.1 Nhận dạng dựa tiểu tiết 2.2.2 Nhận dạng dựa hình ảnh tồn cục 2.3 Các phương pháp lưu trữ truyền thống 2.3.1 2.3.2 Lưu trữ hình ảnh Lưu trữ thơng số Khái qt sở liệu đồ thị 3.1 Khái quát đồ thị 3.1.1 Đồ thị vô hướng 3.1.2 Đồ thị có hướng 3.1.3 Đơn đồ thị Đa đồ thị 3.1.4 Đồ thị hỗn hợp 3.1.5 Đồ thị có trọng số 3.1.6 Các dạng đồ thị quan trọng 3.1.7 Ứng dụng đồ thị 3.2 Cơ sở liệu đồ thị 3.2.1 Đồ thị có nhãn 3.2.2 Cơ sở liệu đồ thị 3.2.3 Đồ thị 3.2.4 Đẳng cấu đồ thị 3.2.5 Đẳng cấu đồ thị 3.3 Đại số đồ thị 3.3.1 Phép chọn đồ thị 3.3.2 Phép chiếu đồ thị 3.3.3 Phép hợp đồ thị 3.3.4 Phép lấy tổng đồ thị 3.3.5 Phép giao đồ thị 3.3.6 Phép hiệu đồ thị 3.3.7 Phép kết đồ thị 3.4 Truy vấn sở liệu đồ thị 3.4.1 Mơ hình truy vấn 3.4.2 Ngơn ngữ truy vấn 3.4.3 Tối ưu hoá truy vấn 3.5 Ứng dụng sở liệu đồ thị 3.5.1 Hệ thống thông tin địa lý 3.5.2 Mạng xã hội 3.5.3 Mạng ngữ nghĩa biểu diễn tri thức 3.5.4 Các dự án xây dựng sở liệu đồ thị Khai phá liệu đồ thị 4.1 Tìm kiếm đồ thị phổ biến 4.1.1 Phát biểu toán 4.1.2 Thuật toán tìm đồ thị phổ biến (FSG) 4.1.3 Tìm kiếm sở liệu lớn 4.2 Phân lớp liệu đồ thị 4.2.1 Phát biểu toán 4.2.2 Các thuật tốn xây dựng mơ hình phân lớp 4.2.3 Phân lớp sở liệu lớn 4.3 Gom cụm liệu đồ thị 4.3.1 Phát biểu toán 4.3.2 4.3.3 Các thuật toán gom cụm đồ thị Phân lớp sở liệu lớn PHẦN B: XÂY DỰNG GIẢI PHÁP VÀ TỐI ƯU HỐ Rút trích đặc điểm dấu vân tay 5.1 Tiền xử lý ảnh 5.1.1 Tăng cường chất lượng hình ảnh 5.1.2 Lọc nhiễu 5.2 Rút trích tiểu tiết 5.2.1 Xác định đường vân 5.2.2 Lập đồ hướng 5.2.3 5.2.4 Xác định điểm trung tâm Xác định tiểu tiết khác Lưu trữ dấu vân tay sở liệu đồ thị 6.1 Thêm vào số đặc điểm dấu vân tay 6.2 Đồ thị ràng buộc kép liên tiểu tiết 6.3 Đồ thị hóa hình ảnh dấu vân tay 6.4 Tổ chức không gian lưu trữ sở liệu Phân lớp liệu đồ thị vân tay 7.1 Xác định tiêu chí phân lớp 7.2 Thuật toán phân lớp đồ thị vân tay 7.3 Phân lớp tiến hoá theo thời gian So khớp xác minh dấu vân tay 8.1 So khớp dấu vân tay dựa đồ thị 8.1.1 Thuật toán 8.1.2 Các tiêu chí đánh giá 8.2 Xác minh dấu vân tay dựa đồ thị 8.2.1 Thuật toán 8.2.2 Các tiêu chí đánh giá Các giải pháp tối ưu hố 9.1 Các chiến lược tìm kiếm 9.2 Cây tìm kiếm dựa mơ hình phân lớp 9.3 Tái cấu trúc sở liệu 9.4 Phân tán sở liệu 9.5 Các giải pháp khác PHẦN C: HIỆN THỰC HỆ THỐNG LƯU TRỮ VÀ NHẬN DẠNG VÂN TAY 10 HIỆN THỰC HỆ THỐNG 8.1 Thiết kế hệ thống 8.2 Lắp đặt phần cứng cho hệ thống 8.3 Xây dựng phần mềm cho hệ thống 8.4 Kết thử nghiệm 11 HƯỚNG DẪN CÀI ĐẶT VÀ SỬ DỤNG 9.1 Hướng dẫn cài đặt 9.1.1 Cài đặt phần mềm 9.1.2 Cài đặt sở liệu 9.2 Hướng dẫn sử dụng 9.2.1 Nhập liệu vào database 9.2.2 Thực tối ưu hoá sở liệu 9.2.3 Tiến hành nhận dạng dấu vân tay Cơ sở lý thuyết: Đề tài triển khai dựa hai lý thuyết sinh trắc học dấu vân tay sở liệu đồ thị Một dấu vân tay mẫu đặc điểm ngón tay Vân tay chứng minh cá thể người Vì thế, dấu vân tay sử dụng cho việc nhận dạng điều tra pháp lý thời gian dài Một dấu vân tay cấu thành nhiều đường vân rãnh Những đường vân rãnh in cửa sổ thể đặc điểm giống song song bề rộng trung bình Mặc dù vậy, nghiên cứu chuyên sâu nhận dạng vân tay dấu vân tay phân biệt vân rãnh, mà tiểu tiết, vài điểm khác thường đường vân [24] Trong số nhiều loại tiểu tiết ghi nhận tài liệu, có hai loại tối quan trọng sử dụng nhiều nhất: loại gọi điểm đứt gãy, nơi kết thúc đột ngột vân tay; loại lại gọi điểm rẽ nhánh, nơi mà từ đường vân bị chia thành hai nhánh Vấn đề nhận dạng dấu vân tay chia làm hai lĩnh vực con: so khớp dấu vân tay (verification), hai xác minh dấu vân tay (indentification) [24] So khớp nghĩa so sánh hai dấu vân tay cho trước kết luận xem có phải in từ ngón tay hay khơng Xác minh vân tay việc tìm xem dấu vân tay đưa thuộc người số hồ sơ lưu trữ Hai dạng thể dấu vân tay dẫn đến hai hướng tiếp cận vấn đề nhận dạng dấu vân tay khác [6][24]: Cách tiếp cận thứ dựa tiểu tiết, thể dấu vân tay đặc điểm cục Cách tiếp cận nghiên cứu sâu rộng, xương sống sản phẩm nhận dạng vân tay có thị trường Cách tiếp cận thứ hai sử dụng phương pháp dựa hình ảnh, cố gắng so khớp đặc điểm tồn cục tồn phần hình ảnh dấu vân tay Cách tiếp cận phương pháp tiên tiến trội nhận dạng vân tay Nhận dạng dựa hình ảnh hữu dụng giải vấn đề mà cách thứ khắc phục Để khắc phục nhược điểm hai cách tiếp cận truyền thống (dựa tiểu tiết dựa hình ảnh), tác giả F Benhammadi, H Hentous K.Bey Beghdad báo “Phương pháp nhận dạng dựa đồ thị ràng buộc liên tiểu tiết” [6] đề xuất giải pháp nhận dạng hoàn toàn mới, sử dụng đồ thị liên tiểu tiết hai trọng số Kết hợp cách tiếp cận với sở liệu đồ thị thực thành giải pháp cụ thể mục tiêu đề tài Bài báo viết Leonhard Euler “Bảy cầu Königsberg” xuất năm 1736 xem báo lịch sử lý thuyết đồ thị [23] Từ đến nay, lý thuyết đồ thị phát triển không ngừng trở thành phần quan trọng toán học đại Cùng với phát triển vượt bậc khoa học máy tính cơng nghệ thơng tin, lý thuyết đồ thị đem đến ứng dụng ấn tượng, giải nhiều toán lĩnh vực khác sinh học phân tử, sở liệu DNA, sở liệu protein, sở liệu video, liệu cấu trúc hoá học, CAD/CAM, điều khiển luồng giao thông, tài liệu XML, Web phân tích mạng xã hội, mạng thơng tin, mạng ngữ nghĩa,… Trong lý thuyết đồ thị, quan hệ đối tượng quan trọng đối tượng thể hiện, lý tưởng để giải việc so khớp mơ dấu vân tay, nhận diện khn mặt, xử lý ảnh, tìm kiếm motif protein sở liệu protein [13], tìm kiếm hợp chất hoá học dược phẩm… Cho đến tại, nghiên cứu truy vấn liệu đồ thị cịn tiếp tục mang tính thời [4] [7] [8] [18] Mơ hình sở liệu đồ thị hình thành nhằm tăng cường cơng cụ tìm kiếm, cho phép truy vấn thao tác liệu đồ thị với thuộc tính cấu trúc tương tự Một số hệ thống sở liệu đồ thị có liên quan bao gồm hệ thống GRACE [18], hệ thống GOQL [10], hệ thống SBGE [3] Một sở liệu đồ thị tập hợp đồ thị thành viên G = {G1, G2, G3,…, Gn} đồ thị Gi đồ thị có nhãn [13] Đồ thị có nhãn sáu G = (V, E, VL, λ, VI, δ), V tập đỉnh E tập cạnh VL tập nhãn đỉnh VN tập định danh đỉnh λ: V → VL hàm gán nhãn đỉnh δ: V → VN hàm đặt tên đỉnh Dù cho loại sở liệu cài đặt sở liệu quan hệ, đối tượng lưu trữ khơng phải quan hệ mà đồ thị, đại số quan hệ hệ truy vấn khơng cịn phù hợp phải định nghĩa lại cho đầu vào đầu đồ thị đồ thị Đồng thời, thuật toán cài đặt phép đại số biến đổi dựa lý thuyết đồ thị cho phù hợp với đối tượng liệu Từ đời đại số đồ thị để phân biệt với đại số quan hệ Sự khác biệt lớn đến mức có nhiều dự án xây dựng lại sở liệu đồ thị mà không dựa SQL truyền thống Gremlin[21], Bigdata [20], HyperGraphDB [9], InfiniteGraph [14], InfoGrid [12], Neo4j [11], AllegroGraph, sones, DEX [17], Graphd, Filament, FlockDB, OrientDB [15], VertexDB [19], Blueprints… Theo F Benhammadi, H Hentous K.Bey Beghdad [6], giai đoạn thu thập dấu vân tay, mạng tương quan cho tiểu tiết mi tính tốn từ đặc điểm (khoảng cách Euclide, số đường vân góc tương quan liên tiểu tiết) tiểu tiết tiểu tiết mj khác, j i mẫu dấu vân tay sinh từ đồ thị liên tiểu tiết tổng thể, thể mạng quan hệ tiểu tiết hình sau: Mạng quan hệ liên tiểu tiết thực chất đồ thị thích hợp để lưu trữ sở liệu đồ thị Một ý tưởng thêm vào đề tài thay lưu nhiều đồ thị cho dấu vân tay, ta lưu đồ thị với trung tâm điểm trung tâm dấu vân tay Điều hứa hẹn giảm lượng thông tin cần lưu trữ xử lý đảm bảo tính xác Bên cạnh đó, kỹ thuật khai phá liệu nghiên cứu phục vụ cho tối ưu hoá truy vấn Khai phá liệu đồ thị q trình rút trích tri thức (mẫu, ngoại lệ…) từ liệu có cấu trúc trình bày dạng đồ thị [5] Việc phân tích khai phá liệu đồ thị thường nhằm mục đích sau: Tìm kiếm mẫu đồ thị, bao gồm mẫu đồ thị phổ biến, tổng kết mẫu, mẫu tối ưu, mẫu đồ thị có ràng buộc, mẫu đồ thị xấp xỉ… Gom cụm đồ thị, tìm kiếm nhóm đồ thị tương đồng Phân lớp đồ thị nhằm xây dựng mơ hình dự báo, xây dựng định Khai phá liệu đồ thị mang đến nhiều ứng dụng thực tế, bao gồm khám phá motif có cấu trúc thành phần hoá học, kiến trúc phân tử, protein, nhận dạng từ dự đốn tính chất thơng qua cấu trúc đặc trưng, tìm kiếm, sàng lọc tốc độ cao, nghiên cứu mơ hình hành vi mạng xã hội… Khi áp dụng sở liệu vân tay, kỹ thuật mày có khả cải thiện đáng kể tốc độ truy vấn, tìm kiếm Phạm vi ứng dụng: Đề tài chủ yếu nhắm đến ứng dụng lĩnh vực bảo mật, nhận dạng danh tính sinh trắc học Đây xu hướng kỳ vọng có ứng dụng rộng rãi giao dịch thương mại điện tử, bảo mật thông tin, chấm công, an ninh… Những lĩnh vực yêu cầu độ xác nghiêm ngặt tốc độ xử lý gần tức thời sở liệu quy mơ lớn Do đó, phần mềm thử nghiệm đạt kết tốt hồn tồn đưa vào thương mại hố Khơng thế, kết đạt trình nghiên lý thuyết sở liệu đồ thị, việc tổ chức liệu tối ưu hoá truy vấn sở liệu đồ thị có quy mơ lớn cịn mở rộng ứng dụng nhiều lĩnh vực khác sở liệu sinh trắc học (nhận dạng mắt, khuôn mặt…), sở liệu đa phương tiện (hình ảnh, âm thanh…), mạng ngữ nghĩa, mạng xã hội… Tuy nhiên, khoảng thời gian nguồn lực có hạn, đề tài tập trung vào giải toán tổ chức, truy vấn tối ưu hoá sở liệu vân tay, đặc biệt sở liệu có quy mơ lớn, thơng qua việc đồ thị hố sở liệu Do đó, trọng tâm đề tài xoay quanh lý thuyết sở liệu đồ thị ứng dụng sinh trắc học công nghệ phần cứng phần mềm sử dụng Dự kiến kết đạt được: Kỳ vọng trước hết đề tài xây dựng giải pháp hiệu cho việc tổ chức lưu trữ nhận dạng dấu vân tay sở liệu đồ thị Tính hiệu giải pháp đánh giá thông qua tiêu chí độ xác thời gian nhận dạng, khơng gian chi phí lưu trữ quy mô liệu lớn Hệ thống thử nghiệm ban đầu phải cho khả tìm kiếm sở liệu tối thiểu 1000 dấu vân tay với thời gian phút độ xác gần 100% (có thể từ chối nhầm tần suất thấp không xảy chấp nhận nhầm) Tiếp đến, đề tài cịn hứa hẹn đóng góp thêm kiến thức tảng lý luận cho sở liệu đồ thị, việc tối ưu hố tổ chức lưu trữ tìm kiếm không gian liệu lớn Đây kết có giá trị, giúp củng cố lý thuyết mở rộng thêm nhiều lĩnh vực ứng dụng sở liệu đồ thị nói chung Khơng thế, đề cập trên, bên cạnh việc nghiên cứu lý thuyết, đề tài thực hoá kết hệ thống nhận dạng vân tay tương đối hoàn chỉnh, bao gồm phần cứng phần mềm, khơng có giá trị thực nghiệm mà đem lại khả thương mại hoá ứng dụng vào thực tế Hướng phát triển: Phạm vi đề tài tập trung vào phần lưu trữ nhận dạng, quy trình tiền xử lý liệu mà cụ thể xử lý ảnh vân tay bị bỏ ngỏ Tập trung nâng cao hiệu suất tiền xử lý liệu, tăng cường chất lượng hình ảnh, loại bỏ nhiễu… yêu cầu cần thiết để đạt giải pháp hồn thiện Bên cạnh đó, mục tiêu nhắm đếm sở liệu quy mô lớn, hướng nghiên cứu chuyển từ sở liệu tập trung sử dụng đề tài sang sở liệu phân tán cần xem xét Đây thực tốn khó lại mang tính thực cao Những kết đạt đề tài cịn nghiên cứu mở rộng áp dụng cho lĩnh vực sinh trắc học tương tự nhận dạng mắt, khuôn mặt,… Không dừng lại đó, hướng nghiên cứu sở liệu đồ thị có quy mơ lớn hướng mở nhiều thử thách 9.Tài liệu tham khảo Tiếng Việt: [1] Nguyễn Hoàng Huy, Nhận dạng vân tay, Luận văn Thạc sĩ chuyên ngành Kỹ thuật điện tử, Đại học Bách khoa, Đại học Quốc gia Tp Hồ Chí Minh, 2007 [2] Wikipedia tiếng Việt, Đồ thị (lý thuyết đồ thị), [Online] địa http://vi.wikipedia.org/wiki/%C4%90%E1%BB%93_th%E1%BB%8B_(to%C3%A 1n_h%E1%BB%8Dc) Tiếng Anh: [1] Adam Wiggins, Graph Databases, 2010, [Online] available at http://adam.heroku.com/past/2010/3/15/graph_databases/ [2] Anil Jain, Sharath Pankanti, Fingerprint Classification and Matching, Handbook for Image and Video Processing, 2000 [3] B A Eckman, P G Brown, Graph data management for molecular and cell biology, Source, IBM Journal of Research and Development archive, Volume 50, Issue 6, 2006 [4] Dennis Shasha, J T L Wang, and R Giugno, Algorithmics and Applications of Tree and Graph Searching, In Proc PODS’02 Proceeding of the International Conference in Pattern recoginition (ICPR), Quebec, Canada, 2002 [5] Do Phuc, Mining, Indexing and Searching Graph Data base, Lectures, University of Information Technology, Vietnam, 2010 [6] F.Benhammadi, H.Hentous, and K.BeyBeghdad, A fingerprint recognizer using interminutiae binary constraint graph, EURASIP Journal on Advances in Signal Processing, Volume 2008, Hindawi Publishing Corporation, 2008 [7] Haoliang Jiang, Haixun Wang, Philip S Yu, Shuigeng Zhou, Gstring: A novel approach for efficient search in graph databases, IEEE 23rd International Conference on Data Engineering, 2007 [8] Huahai He and Ambuj K Singh, Graphs-at-a-time: Query Language and Access Methods for Graph Databases, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD’08), Vancouver, Canada, 2008 [9] Kobrix Software, Hyper Graph DB Project, 2010, [Online] available at http://www.hypergraphdb.org/index [10] Lei Sheng, Z M Ӧzsoyoglu, G Ӧzsoyoglu, A Graph Query Language and Its Query Processing, 15th International Conference on Data Engineering (ICDE’99), 1999 [11] Neo Technology, Neo4j Project – The graph database, 2010, [Online] available at http://neo4j.org/ [12] NetMesh Inc, InfoGrid Project – The Web Graph Database, 2010, [Online] available at http://infogrid.org/ [13] Nguyen Thi Kim Phung and Do Ha Loc, Graph database and application to protein structure database, Proceedings of the Sixth International Conference on Information Technology for Education Research (IT@EDU2010), 2010 [14] Objectivity Inc., Infinite Graph Project – The distributed Graph database, 2010, [Online] available at http://www.infinitegraph.com/ [15] Orient Technologies, Orient DB Project, 2010, [Online] available at http://www.orientechnologies.com/ [16] Saraswathi Vishveshwara et al, Protein Structure insights from graph theory, Journal of Theoretical and Computational Chemistry, Vol 1, No 1, 2002 10 [17] Sparsity Technologies, Dex Project, 2010, [Online] available at http://www.sparsitytechnologies.com/dex [18] Srinath Srinivasa and Mistry Harjinder Singh, GRACE: A Graph Database System, Proceedings of COMAD 2005b, Hyderabad, India, 2005 [19] Steve Dekorte and Rich Collins, Vertex DB Project – A graph database, 2010, [Online] available at http://www.dekorte.com/projects/opensource/vertexdb/ [20] SYSTAB LLC., Bigdata® Project, 2010, [Online] available at http://www.systap.com/bigdata.htm [21] TinkerPop, Gremlin Project, 2010, GitHub Social Coding, [Online] available at https://github.com/tinkerpop/gremlin/wiki [22] Wikipedia, Graph Database, [Online] available at http://en.wikipedia.org/ wiki/Graph_database [23] Wikipedia, Graph Theory, [Online] available at http://en.wikipedia.org/ wiki/Graph_theory [24] Wu Zhi Li, Fingerprint Recognition, A thesis submitted in partial fulfillment of the requirements for the degree of Bachelor of Science (Honors) in Computer Science, Hong Kong Baptist University, 2002 Giảng viên hướng dẫn Học viên cao học (ký ghi rõ họ tên) (ký ghi rõ họ tên) 11 ... [22] Wikipedia, Graph Database, [Online] available at http://en.wikipedia.org/ wiki /Graph_ database [23] Wikipedia, Graph Theory, [Online] available at http://en.wikipedia.org/ wiki /Graph_ theory... search in graph databases, IEEE 23rd International Conference on Data Engineering, 2007 [8] Huahai He and Ambuj K Singh, Graphs-at-a-time: Query Language and Access Methods for Graph Databases,... tham khảo Tiếng Việt: [1] Nguyễn Hoàng Huy, Nhận dạng vân tay, Luận văn Thạc sĩ chuyên ngành Kỹ thuật điện tử, Đại học Bách khoa, Đại học Quốc gia Tp Hồ Chí Minh, 2007 [2] Wikipedia tiếng Việt,