1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khéo tay hay làm Khéo tay hay làm Khéo tay hay làmkl ha nhat minh

69 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,23 MB

Nội dung

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN & TỐN ỨNG DỤNG LUẬN VĂN TỐT NGHIỆP PHÁT TRIỂN HỆ THỐNG TỰ ĐỘNG GOM CỤM CÁC XUẤT BẢN CỦA CÙNG MỘT TÁC GIẢ GVHD: Ts NGUYỄN THANH HIÊN SVTH: HÀ MINH NHẬT - 080070T LÂM MINH KHÁNH HÙNG - 083003T Lớp: 08TH1D Khố: 12 TP Hồ Chí Minh năm 2012 TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN & TỐN ỨNG DỤNG LUẬN VĂN TỐT NGHIỆP PHÁT TRIỂN HỆ THỐNG TỰ ĐỘNG GOM CỤM CÁC XUẤT BẢN CỦA CÙNG MỘT TÁC GIẢ GVHD: Ts NGUYỄN THANH HIÊN SVTH: HÀ MINH NHẬT - 080070T LÂM MINH KHÁNH HÙNG - 083003T Lớp: 08TH1D Khố: 12 TP Hồ Chí Minh năm 2012 LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp này, xin gởi lời cảm ơn sâu sắc đến Tiến sĩ Nguyễn Thanh Hiên dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu động viên nhóm chúng tơi suốt thời gian nghiên cứu qua Chúng tin rằng, lời lẽ thông thường khơng đủ để chuyển tải hết lịng biết ơn với công sức tâm huyết Thầy bỏ để giúp chúng tơi hồn thành luận văn tốt nghiệp Dù vậy, muốn viết đây, gởi đến Thầy, lời cảm ơn chân thành Chúng em cảm ơn thầy! Bên cạnh đó, cảm ơn giảng viên Khoa công nghệ thông tin, Trường đại học Tôn Đức Thắng, tận tình giảng dạy trang bị cho chúng tơi thật nhiều kiến thức bổ ích năm học qua, góp phần lớn vào việc nghiên cứu luận văn tốt nghiệp Cuối xin gởi lòng biết ơn sâu sắc đến người thân, bạn bè bên cạnh động viên, hỗ trợ mặt tinh thần để chúng tơi vượt qua khó khăn hồn thành luận văn tốt nghiệp Mặc dù chúng tơi có nhiều cố gắng hồn thiện luận văn tất nhiệt tình lực than, nhiên, khơng thể tránh khỏi thiếu xót Chúng tơi mong nhận đóng góp q báu q thầy bạn TP Hồ Chí Minh, tháng năm 2012 Nhóm sinh viên thực Hà Minh Nhật Lâm Minh Khánh Hùng i NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ii NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN iii LỜI MỞ ĐẦU Ngày nay, tìm kiếm thông tin nhu cầu thiết yếu sống người Con người có thơng tin mong muốn từ nhiều nguồn tài liệu khác sách, vở, báo, tạp chí, hệ thống sở liệu khoa học Internet Nhưng Internet hệ thống sở liệu khoa học kho liệu đồ sộ nên việc khai thác thách thức lớn liệu lưu trữ q đa dạng khơng có cấu trúc Con người mong muốn có thơng tin dạng thực thể, ghi trích dẫn đọc lướt trang internet ngồi tìm trích dẫn sở liệu khoa học để tìm thơng tin mong muốn Một đối tượng tìm kiếm quan tâm tìm kiếm Con người Cụ thể tìm kiếm thơng tin người tìm kiếm trích dẫn tác giả mà họ quan tâm Tuy nhiên, thực thu thập thông tin người muốn tìm kiếm tác giả xuất tác phẩm nào, vấp phải thách thức người khác có tên, tên viết tắt thông tin lưu trữ vào sở liệu khơng đầy đủ dẫn đến việc tìm kiếm khơng theo ý muốn Vì vậy, hệ thống sở liệu khoa học DBLP việc phân cụm xuất trích dẫn tác giả có ý nghĩa quan trọng Chính mà chúng tơi chọn đề tài: “Phát triển hệ thống tự đồng gom cụm xuất tác giả” Mục tiêu đề tài phát triển ứng dụng tự động gom cụm xuất tác giả ứng dụng cho sở liệu khoa học DBLP, tập trung vào việc xác định thuộc tính để phân cụm tập trung giải vấn đề việc phân cụm trích dẫn sở liệu lớn iv MỤC LỤC LỜI CẢM ƠN i NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN .ii NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN iii LỜI MỞ ĐẦU iv MỤC LỤC v DANH MỤC THUẬT NGỮ VIẾT TẮT .xi Chương 1: TỔNG QUAN 1.1 1.2 Phát biểu vấn đề 1.1.1 Động nghiên cứu 1.1.2 Mục đích luận văn 1.1.3 Đối tượng luận văn Các cơng trình liên quan 1.2.1 CiteSeer 1.2.2 DBLP 1.2.3 ACM Portal 1.3 Phạm vi nội dung nghiên cứu luận văn 1.4 Kế hoạch thực 1.5 Cấu trúc luận văn Chương 2: CƠ SỞ KIẾN THỨC 2.1 Giới thiệu 2.2 Phương pháp học có giám sát học khơng giám sát 2.4 2.3.1 Chuẩn đo 2.3.2 Đo khoảng cách hai điểm liệu 2.3.3 Đo khoảng cách hai cụm 12 Các giải thuật phân cụm liệu 13 2.4.1 Thuật toán phân cụm phân hoạch: K-means 13 2.4.2 Thuật toán phân cụm dựa vào mật độ: DBSCAN 15 v 2.4.3 Thuật toán phân cụm phân cấp – HAC 21 Chương 3: 26 PHÂN CỤM CÁC XUẤT BẢN 26 CỦA CÙNG MỘT TÁC GIẢ 26 3.1 Giới thiệu 26 3.2 Lựa chọn thuộc tính 27 3.3 Độ tương tự Cosine 27 3.4 Giải thuật phân cụm HAC 31 3.5 Kết luận 37 Chương 4: 39 PHẦN MỀM THỰC NGHIỆM 39 VÀ ĐÁNH GIÁ 39 4.1 Giới thiệu 39 4.2 Cấu trúc sở liệu 39 4.3 Chương trình thử nghiệm 41 4.4 Kết thực nghiêm 44 4.5 Kết luận 54 TÀI LIỆU THAM KHẢO 55 vi DANH MỤC CÁC BẢNG Bảng 1.1: Kế hoạch thực luận văn Bảng 3.1: Danh sách từ có hai văn 28 Bảng 3.2: Ma trận khoảng cách hai tài liệu văn 28 Bảng 3.3: Danh sách từ có hai tên tác giả 29 Bảng 3.4: Ma trận khoảng cách hai tên tác giả 29 Bảng 3.5: Ma trận khoảng cách danh sách tên có từ Ricardo 32 Bảng 3.6: Ma trận khoảng cách cập nhật sau gom cụm thành cụm 34 Bảng 3.7: Ma trận khoảng cách cập nhật lại sau gom cụm cụm thành cụm 35 Bảng 3.8: Ma trận khoảng cách cập nhật lại sau gom cụm thành cụm 36 Bảng 4.1: Cấu trúc ghi sở liệu khoa học DBLP 40 Bảng 4.2: Danh sách tên tác giả độ tương tự 42 Bảng 4.3: Kết tính F-measure gom cụm tay gom cụm hệ thống 48 Bảng 4.4: Giao tên cụm hệ thống gom với tất cụm gom tay 49 Bảng 4.5: Giao tên cụm hệ thống gom với tất cụm gom tay 50 Bảng 4.6: Giao tên cụm hệ thống gom với tất cụm gom tay 50 vii Bảng 4.7: Giao tên cụm hệ thống gom với tất cụm gom tay 51 Bảng 4.8: Giao tên cụm hệ thống gom với tất cụm gom tay 52 Bảng 4.9: Kết tính F-measure gom cụm tay gom cụm hệ thống 53 viii Lớp Cluster.java: lớp định nghĩa cụm, nhằm mục đích khởi tạo cụm định cụm nằm bên trái hay bên phải Lớp Hierarchical.java: lớp nhằm mục đích khởi tạo mảng vector loại phân cụm HAC Trong lớp cịn có hàm Partition nhằm mục đích gom tất cụm nằm rải rác lại thành cụm Gói Test Gói dùng để chạy với sở liệu DBLP với tên tác giả, tên đồng tác giả tác phẩm tạo file test.csv với giá trị cosinesimilarity nhỏ theo tên tác giả so với tác giả cịn lại File test.csv có dạng sau: Bảng 4.2: Danh sách tên tác giả độ tương tự Tên tác giả Độ tương tự Tor Gunnar Houeland 0.367777778 Heiko Stoermer 0.367777778 Ingyu Lee 0.5 Sven Teresniak 0.367777778 Seong No Yoon 0.367777778 …… … Gói default package Trong gói bao gồm lớp như: Lớp Book.java: lớp cha Lý chọn lớp làm lớp cha sở liệu DBLP lớp có thuộc tính tương đối nhiều có ghi Các thuộc tính lớp bao gồm: Name (tên tác giả), title (tên tác phẩm), key (loại tác phẩm book hay article), publish (tên nhà xuất bản), yea (năm sang tác), vol (khối lượng tạp chí hay sách, add (địa chỉ), mon (tháng), note (ghi chú) Ngoài ra, cịn có hàm khởi tạo liệu, hàm in tác giả, gom cụm tác giả Lớp Person.java: tương tự book kế thừa từ book có thuộc tính riêng lớp dùng cho kiểu liệu article, phdthesis, mastersthesis, 42 incollection Lớp Inproceedings.java: lớp tương tự lớp Person Lớp Proceedings.java: tương tự lớp Inproceedings lớp kế thừa từ lớp Inproceedings Lớp Cosine_similarity.java: lớp dùng để tính toán độ tương tự hai chuỗi Trong lớp định nghĩa kiểu Map giống kiểu Dictionary c# Lớp Parser.java: lớp dùng để xử lý việc đọc liệu từ file XML vào nhớ Lớp xử lý liệu cách lấy tất thuộc tích ghi siêu liệu, sau gán thuộc tính vào biến hàm get_att() Ngồi ra, gói cịn có lớp Guid.java Lớp sau chạy lên giai diện để người dùng nhập vào tên mà họ muốn tìm kiếm Sau đó, hệ thống gom cụm thị tác phẩm cụm tác giả theo yêu cầu người dùng Hệ thống có giao diện sau: Hình 4.1: Giao diện hệ thống Trong giao diện này, người tìm kiếm nhập vào từ tên tác giả 43 tên tác giả đầy đủ vào Enter text Sau nhấn Enter chọn append Hệ thống tự động tính tốn thị kết gom cụm cho người dùng hình theo dạng trích dẫn tên tác giả 4.4 Kết thực nghiêm Thông thường, nhà nghiên cứu đánh giá vấn đề chất lượng phân cụm theo số tiêu chuẩn chất lượng Điển tiêu chuẩn chất lượng tiêu chuẩn chất lượng Để đo “độ tốt” theo tiêu chuẩn chất lượng trong, họ thường sử dụng độ đo Overall Similarity, tiêu chuẩn sử dụng khơng có thơng tin từ bên ngồi Cịn đo “độ tốt” theo tiêu chuẩn chất lượng ngoài, họ thường sử dụng tiêu chuẩn Entropy F-measure Tiêu chuẩn Entropy cho biết tương tự phân cụm Một phân cụm giống Entropy giảm ngược lại Entropy phân cụm mà chứa đối tượng Và tiêu chuẩn F-measure18 dùng để đo độ xác (precision) độ đầy đủ (recall) việc phân cụm Trong khuôn khổ luận văn này, chọn tiêu chuẩn chất lượng Fmeasure để đánh giá kết gom cụm hệ thống [12] Chúng so sánh kết gom cụm thống so với kết gom cụm tay (do người làm) Kết gom cụm tay dựa giải thuật gom cụm HAC chúng tơi trình bày Phần 3.4 Xét tập có n tên, sau gom cụm tay ta có m cụm, sau gom cụm hệ thống có k cụm Trong q trình thử nghiệm ta có m k Để đánh giá kết hệ thống, ta tiến hành xác định ba giá trị: độ xác, độ đầy đủ tiêu chuẩn F-measure hai cụm hệ thống Hình 4.2: Quan hệ hai cụm Gọi a = |A|, b=|B| c=|C| Trong hình 4,2, cụm mi người tạo gồm có a + b tên, cụm ki hệ thống gom có a + c tên Hai cụm có phần chung A có a tên Độ xác hai cụm ký hiệu P (Precision) phản ảnh độ xác việc gom cụm Độ đo cho biết tỉ lệ số tên gom cụm tính cơng thức (4.1) Nếu P = tên cụm ki nằm cụm mi (4.1) 18 http://en.wikipedia.org/wiki/Precision_and_recall 44 Độ đầy đủ hai cụm mi ki ký hiệu R (recall) tính cơng thức (4.2) Nếu R = tên cụm mi nằm cụm ki (4.2) Độ đo tiêu chuẩn chất lượng F-measure tính cơng thức (4.3) sau: (4.3) ( ) Giá trị cao tác động mạnh đến hệ số Recall, ngược lại giá trị thấp tác động mạnh đến độ xác Thơng thường hệ số cơng thức (4.3) chọn 0.5 Khi cơng thức (4.3) viết lại: (4.4) Sau đây, áp dụng công thức (4.1),(4.2), (4.4) để đánh giá chất lượng gom cum hệ thống sau: cho tên với tên có sở liệu có từ David Sáu tên sau David W Etherington, David Chapman, David Culler, David J Chapman, David V James, David H Ackley Sau gom cụm tay tạo cụm là: 45 [[[David W Etherington, David Culler], David H Ackley], [[David Chapman, David J Chapman], David V James]] CỤM CỤM [[David Chapman, David J Chapman], David V James] CỤM [David Chapman, David J Chapman] CỤM [[David W Etherington, David Culler], David H Ackley] CỤM [David W Etherington], [David Culler] David W Ethering ton David Culler David H Ackley David Chapma n David J Chapma n David V James 46 Hình 4.3: phân cụm thực tay Và với từ David, hệ thống gom cụm với tên cho sau: CỤM [[[[David H Ackley, David V James], David J Chapman], [David Culler, David Chapman]], David W Etherington] CỤM [[[David H Ackley, David V James], David J Chapman], [David Culler, David Chapman]] CỤM [David Culler, David Chapman] [[David H Ackley, David V James], David J Chapman] CỤM CỤM [David H Ackley, David V James] David H Ackley David V James David J Chapman David Culler David Chapman David W Etheringt on 47 Hình 4.4: phân cụm thực hệ thống Áp dụng công thức (4.2), (4.2), (4.4) chúng tơi tính giá trị F-measure bảng 4.3 sau: Bảng 4.3: Kết tính F-measure gom cụm tay gom cụm hệ thống Người Cụm Cụm Cụm Cụm Cụm Max người Cụm 0.39 0.39 0.49 0.49 Cụm 0.33 0.39 0.66 0.66 0.66 Cụm 0.5 0.39 0.5 0.39 0.49 0.5 Cụm 0.28 0.39 0.57 0.75 0.90 0.9 Cụm 0.49 0.66 0.49 0.66 1 Max hệ thống 0.5 0.66 0.57 0.75 Hệ thống Tổng Max hệ thống sau gom cụm 0.49 + 0.66 + 0.57 + 0.75 + = 3.47 Tổng Max người sau gom cụm 0.49 + 0.66 + 0.5 + 0.9 + = 3.55 Giá trị tổng Max lớn nghĩa chất lượng gom cụm hệ thống cao ngược lại Với giá trị tổng Max thấy gom cụm hệ thống có giá trị gần gom cụm tay Do cho thầy gom cụm học không giám sát cho giá trị tương đối Sau đây, chúng tơi trình bày chi tiết cách tính tiêu chuẩn chất lương F-measure sau: Trước tính tốn tiêu chuẩn F-measure, chúng tơi phải xác định hai giá trị độ xác độ đầy đủ cụm hệ thống gom với cụm gom tay Việc xác định hai giá trị thực sau Đầu tiên, xác định giao cụm cụm hệ thống gom với tất cụm gom tay Sự giao mô tả bảng 4.4 48 Bảng 4.4: Giao tên cụm hệ thống gom với cụm gom tay David Culler David H David W David J David Ackley Etherington Chapman Chapman David V James Cụm hệ thống 1 0 Cụm người 1 0 Cụm người 1 0 Cụm người 0 1 Cụm người 0 1 Cụm người 1 1 1 Sau xác định giao cặp cụm cụm hệ thống gom với tất năm cụm gom tay Chúng áp dụng công thức (4.1), (4.2), (4.4) tính tốn kết sau: 0.39 0.39 0.49 Sau tính tiêu chuẩn F-measure cụm hệ thống gom với 49 năm cụm gom tay Chúng tơi tiếp tục tính tốn tương tự cho cụm lại hệ thống gom với cụm gom tay kết trình bày Bảng 4.5: Giao tên cụm hệ thống gom với cụm gom tay David Culler David H David W David J David Ackley Etherington Chapman Chapman David V James Cụm hệ thống 1 Cụm người 1 0 Cụm người 1 0 Cụm người 0 1 Cụm người 0 1 Cụm người 1 1 1 0.39 66 0.66 Bảng 4.6: Giao tên cụm hệ thống gom với cụm gom tay David Culler Cụm hệ David H David W David J David Ackley Etherington Chapman Chapman 0 David V James 50 thống Cụm người Cụm người Cụm người Cụm người Cụm người 1 0 1 0 0 0 1 0 0 1 1 1 1 0.39 0.39 0.49 Bảng 4.7: Giao tên cụm hệ thống gom với cụm gom tay David Culler David H David W David J David Ackley Etherington Chapman Chapman David V James Cụm hệ thống 1 1 Cụm người 1 0 Cụm người 1 0 Cụm người 0 1 51 Cụm người Cụm người 0 1 1 1 1 0.28 0.49 0.57 0.75 0.90 Bảng 4.8: Giao tên cụm hệ thống gom với cụm gom tay David Culler David H David W David J David Ackley Etherington Chapman Chapman David V James Cụm hệ thống 1 1 1 Cụm người 1 0 Cụm người 1 0 Cụm người 0 1 Cụm người 0 1 Cụm người 1 1 1 66 52 Tiếp theo, chúng tơi trình bày thêm kết đánh giá thấy kết gom cụm hệ thống Lần này, chọn tên Ricardo, trình bày phần 3.4 với tên Ricardo sau ghi gom cụm tay kết hình 3.5 Chúng tơi chuyển cụm hình 3.5 dạng cụm sau Cụm 1: [ Ricardo G C., Ricardo C ] Cụm 2: [ [ Ricardo G C., Ricardo C ], Ricardo G Cota ] Cụm 3: [ Ricardo Costa, Rocardo Cruz ] Cụm 4: [ [ [ Ricardo G C., Ricardo C ], Ricardo G Cota ], [ Ricardo Costa, Rocardo Cruz ] ] Cũng với tên này, hệ thống gom cụm sau: Cụm 1: [ Ricardo Costa , Ricardo G C ] Cụm 2: [ [ Ricardo Costa , Ricardo G C ] , Ricardo Cruz ] Cụm 3: [ Ricardo G Cota, [ [ Ricardo Costa, Ricardo G C ], Ricardo Cruz ] ] Cụm 4: [ Ricardo G Cota, [ [ Ricardo Costa, Ricardo G C ], Ricardo Cruz ] ], Ricardo C ] Độ xác độ đầy đủ thực tương tự kết đánh giá với tên “David” trình bày kết F-measure tên có từ “Ricardo” xác định bảng 4.3 Bảng 4.3: Kết tính F-measure gom cụm tay gom hệ thống Người Cụm Cụm Cụm Cụm Max người Cụm 0.50 0.40 0.50 0.57 0.57 Cụm 0.40 0.33 0.80 0.75 0.80 Cụm 0.33 0.57 0.66 0.88 0.88 Cụm 0.57 0.75 0.57 1 Max hệ thống 0.57 0.75 0.80 Hệ thống 53 Tổng Max hệ thống sau gom cụm 0.57 + 0.75 + 0.80 + = 3.12 Tổng Max người sau gom cụm 0.57 + 0.80 + 0.88 + = 3.25 Vậy với giá trị tổng Max trên, thấy gom cụm hệ thống có giá trị gần gom cụm tay Nghĩa hệ thống chất lượng gom cụm đạt tương đối cao 4.5 Kết luận Trong chương này, chúng tơi trình bày cấu trúc ghi lưu trữ sở liệu khoa học DBLP Trong phần 4.3 trình bày cách xây dựng hệ thống ngơn ngữ lập trình Java Và chúng tơi trình bày kết cài đặt thử nghiệm thuật toán phân cụm sử dụng kỹ thuật phân cụm HAC trình bày chương Và cuối cùng, sử dụng tiêu chuẩn đánh giá chất lượng phân cụm F-measure để đánh giá chất lượng phân cụm hệ thống nhận kết tương đối xác đầy đủ 54 TÀI LIỆU THAM KHẢO [1] Lê Diệu Thu, 2010 Named Entity Disambiguation in Digital Libraries Thesis Submission for a Master of Science in Computer Science [2] Jack Y Yang, Okan K Ersoy, 2003 Combined Supervised and Unsupervised Learning in Genomic Data Mining ECE Technical Reports [3] Gideon S Mann, David Yarowsky, 2003 Unsupervised Personal Name Disambiguation Proceeding CONLL '03 Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003, Volume 4, Pages 33-40 [4] Hui Han, Lee Giles, Hongyuan Zha, Cheng Li and Kostas Tsioutsiouliklis, 2004 Two supervised learning approaches for name disambiguation in author citations In JCDL ’04: Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries, pages 296–305, New York, NY, USA, 2004 ACM 6, 7, 11 [5] Hui Han, Hongyuan Zha and C Lee Giles Name disambiguation in author citations using a K-way spectral clustering method In JCDL ’05: Proceedings of the 5th ACM/IEEE-CS joint conference on Digital libraries, pages 334–343, New York, NY, USA, 2005 ACM 6, 7, 9, 11, 15 [6] Vetle I Torvik and Neil R Smalheiser Author name disambiguation in MEDLINE ACM Trans Knowl Discov Data, vol 3, no 3, pages 1–29, 2009 6, 7, 8, 9, 11, 15, 23, 49 [7] Zoubin Ghahramani Unsupervised Learning Gatsby Computational Neuroscience Unit University College London, UK 2004 [8] Jian Huang, Seyda Ertekin and C Lee Giles Efficient Name Disambiguation for Large-Scale Databases In PKDD, pages 536–544, 2006 6, 7, 8, 9, 11, 15, 20, 21, 22, 49, 50 [9] José M Soler Separating the articles of authors with the same name CoRR, vol abs/cs/0608004, 2006 [10] Becker, S & Plumbley, M (1996) Unsupervised neural network learning procedures for feature extraction and classification International Journal 55 of Applied Intelligence, 6, 185-203 [11] Anna Huang Similarity measures for text document clustering Proceedings of the Sixth New Zealand Computer Science Research Student Conference (NZCSRSC2008), Christchurch, New Zealand 2008 p 49-56 [12] D.Blei and J,Lafferty, 2009 Text mining: Theory and applications Taylor and Francis [13] Sarah Elliott, 2010 Survey of Author Name Disambiguation: 2004 to 2010 Library Philosophy and Practice 2010 ISSN 1522-0222 p.1-11 [14] Neil R Smalheiser, Vetle I Torvik, 2009 Author Name Disambiguation Annual Review of Information Science and Technology Vol 43 [15] Ricardo G Cota, Marcos Andrộ Gonỗalves, Alberto H F Laender, 2007 A Heuristic-based Hierarchical Clustering Method for Author Name Disambiguation in Digital Libraries Simpósio Brasileiro de Banco de Dados [16] Martin Ester, Hans-Peter Kriegel, Jorg Sander, Xiaowei Xu A DensityBased Algorithm for Discovering Clusters in Large Spatial Databases with Noise Published in Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96) [17] Yutaka Sasaki The truth of the F-measure Research Fellow School of Computer Science, University of Manchester MIB, 131 Princess Street, Manchester, M1 7DN 2007 [18] Mikhail Bilenko, Raymond Mooney, William Cohen, Pradeep Ravikumar and Stephen Fienberg Adaptive Name Matching in Information Integration Published by the IEEE Computer Society 2003 [19] Pang-Ning Tan, Michael Steinbach, Vipin Kumar Introduction to Data Mining Instructor’s Solution Manual 2006 56 ... CỦA CÙNG MỘT TÁC GIẢ GVHD: Ts NGUYỄN THANH HIÊN SVTH: HÀ MINH NHẬT - 080070T LÂM MINH KHÁNH HÙNG - 083003T Lớp: 08TH1D Khố: 12 TP Hồ Chí Minh năm 2012 LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp... thiếu xót Chúng tơi mong nhận đóng góp q báu quý thầy cô bạn TP Hồ Chí Minh, tháng năm 2012 Nhóm sinh viên thực Hà Minh Nhật Lâm Minh Khánh Hùng i NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ... nhiên, khoảng cách chỉnh sửa khơng nhận tên người mà viết theo hai kiểu khác (ví dụ, “Hà Minh Nhật” với ? ?Minh Nhật Hà”) Để xử lý vấn đề này, khoảng cách hoán vị khác tên tác giả tính tốn giá trị

Ngày đăng: 30/10/2022, 02:26