Nghiên cứu, xây dựng giải thuật tìm đoạn văn bản con giống nhau lớn nhất trong 2 đoạn văn bản, đánh giá thuật toán

44 3 0
Nghiên cứu, xây dựng giải thuật tìm đoạn văn bản con giống nhau lớn nhất trong 2 đoạn văn bản, đánh giá thuật toán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI TẬP LỚN MÔN HỌC PHÂN TÍCH VÀ THIẾT KẾ THUẬT TOÁN Đề tài Nghiên cứu, xây dựng giải thuật tìm đoạn văn bản con giống nhau lớn nhất trong 2 đoạn văn bản, đánh giá thuật toán MỤC LỤC LỜI MỞ ĐẦU 1 NỘI.

BÀI TẬP LỚN MƠN HỌC PHÂN TÍCH VÀ THIẾT KẾ THUẬT TOÁN           Đề tài: Nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán MỤC LỤC LỜI MỞ ĐẦU .1 NỘI DUNG PHẦN TỔNG QUAN ĐỀ TÀI .2 1.1 Tính cấp thiết đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu PHẦN GIỚI THIỆU BÀI TOÁN VÀ ỨNG DỤNG THỰC TẾ 2.1 Giới thiệu toán 2.2 Ứng dụng thực tế .4 2.2.1 Search Engine 2.2.2 Kiểm tra đạo văn PHẦN CÁC THUẬT TOÁN 10 3.1 Thuật toán tham lam đánh giá 10 3.1.1 Khái quát chung .10 3.1.1.1 Khái niệm: .10 3.1.1.2 Các bước giải toán thuật toán tham lam: 10 3.1.1.3 Ưu điểm thuật toán: 10 3.1.1.4 Nhược điểm thuật toán: 10 3.1.2 Bài tốn ví dụ điển hình (đếm số đồng tiền) 11 3.1.2.1 Yêu cầu toán: .11 3.1.3 Áp dụng vào toán .11 3.1.3.1 Hai chuỗi minh hoạ toán: 11 3.1.3.2 Xây dựng hàm lấy tất chuỗi chuỗi xếp theo độ dài 12 3.2 Thuật toán Brute Force 13 3.2.1 Khái quát chung thuật toán Brute Force 13 3.2.2 Các tốn điển hình áp dụng thuật tốn Brute Force 15 3.2.3 Ưu nhược điểm thuật toán 16 3.2.4 Áp dụng 16 3.3 Giải thuật Đệ quy Recursion 19 3.3.1 Khái quát chung giải thuật 19 3.3.2 Các toán điển hình áp dụng đệ quy 21 3.3.3 Ưu nhược điểm giải thuật đệ quy 22 3.3.4 Áp dụng 22 3.4 Thuật toán quy hoạch động đánh giá .24 3.4.1 Tổng quan 24 3.4.2 Các phương pháp quy hoạch động 25 3.4.2.1 Phương pháp tiếp cận từ xuống hay phương pháp ghi nhớ (Top-Down) 25 3.4.2.2 Phương pháp từ lên hay phương pháp lập bảng (BottomUp) .26 3.4.3 Áp dụng vào toán .26 3.4.4 Kết luận & Đánh giá độ phức tạp 30 PHẦN CÀI ĐẶT VÀ THỬ NGHIỆM 32 4.1 Bài toán 32 4.2 Cài đặt 32 4.3 Mẫu thử nghiệm 35 4.4 Đánh giá kết 36 4.4.1 Trường hợp 1: hai đoạn văn có đoạn giống 36 4.4.2 Trường hợp 2: hai đoạn văn có nhiều đoạn giống nhau, có độ dài khác 37 4.4.3 Trường hợp 3: hai đoạn văn có nhiều đoạn giống nhau, nội dung giống nhau, có độ dài giống 37 4.4.4 Trường hợp 4: hai đoạn văn có nhiều đoạn giống nhau, nội dung khác nhau, có độ dài giống 37 4.4.5 Trường hợp 5: hai đoạn văn khơng có đoạn trùng 38 PHẦN KẾT LUẬN .39 5.1 Tổng kết trình nghiên cứu .39 5.2 Ý nghĩa đóng góp nghiên cứu 39 5.3 Hướng phát triển 39 TÀI LIỆU THAM KHẢO 40 LỜI MỞ ĐẦU Ngày nay, mạng Internet mang lại nhiều lợi ích cho người Chúng cung cấp khối lượng lớn thông tin dịch vụ Các dịch vụ phổ biến Interne như: hệ thống điện tử, mạng xã hội, công cụ tìm kiếm, dịch vụ thương mại, y tế, học tập, giải trí Internet cịn chức đựng kho kiến thức khổng lồ Chúng ta tìm kiếm thông tin tất lĩnh vực nước quốc tế, báo khoa học, luận văn tốt nghiệp, cơng trình nghiên cứu…đều đươc chia sẻ cho người tồn cầu Do đó, việc đo lường mức độ giống tài liệu đóng vai trị quan trọng lĩnh vực như: tìm kiếm thơng tin dựa nội dung tài liệu, phân nhóm tài liệu dựa vào tương đồng nội dung, phát chép luận văn, báo… Vì vậy, xây dựng cơng cụ để so sánh mức độ giống văn cần thiết Hiện nay, giới thường sử dụng hệ thống Turnitin, CheckforPlagiarism hay PlagScan…để kiểm tra trùng lặp văn Trong phạm vi tiểu luận, với mục đích nghiên cứu vấn đề “Nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán”, tiểu luận đặt vấn đề nghiên cứu lý thuyết thuật toán tham lam, thuật toán quy hoạch động, Thuật toán Brute Force, Giải thuật Đệ quy Recursion, toán N quân hậu, toán xử lý chuỗi, toán đếm số đồng tiền, tốn dị mật khẩu,… Với kiến thức cịn hạn chế, tiểu luận chúng em có nhiều sai sót chưa tồn diện, chúng em mong nhận lời nhận xét góp ý từ phía thầy để hồn thiện nghiên cứu tốt sau Chúng em xin chân thành cảm ơn! NỘI DUNG 1PHẦN TỔNG QUAN ĐỀ TÀI 1.1 Tính cấp thiết đề tài Ngày nay, với phát triển Internet, hoạt động trao đổi, chia sẻ tài liệu diễn phổ biến, tài liệu báo, sách, luận văn tốt nghiệp, báo cáo, đồ án, số hóa phổ biến mạng Internet ngày nhiều Người sử dụng tìm thấy thơng tin cần thiết cách nhanh chóng dễ dàng Tuy nhiên, bên cạnh ưu điểm cung cấp nguồn tài liệu tham khảo phong phú tình trạng “sao chép” trở thành vấn nạn Để góp phần giải toán này, vấn đề đặt làm để đánh giá mức độ giống văn nội dung chép văn Trên giới, nghiên cứu ứng dụng xử lý ngôn ngữ tự nhiên có lịch sử phát triển lâu dài đạt thành tựu định Trong năm gần đây, trở thành lĩnh vực khoa học công nghệ mũi nhọn, ngày phát triển với nhiều ứng dụng phổ biến đem lại hiệu lớn cho xã hội như: tìm kiếm, dịch tự động, trích chọn thơng tin, tóm tắt văn bản, khai phá văn bản, web ngữ nghĩa, trí tuệ nhân tạo, có toản so sánh, đánh giá độ tương tự văn Hiện có nhiều kết nghiên cứu đánh giá độ tương tự văn tiếng Anh, có nhiều cơng trình nghiên cứu ứng dụng hữu ích, đặc biệt việc phát “sao chép” hay phát “đạo văn” Trong bối cảnh lĩnh vực ngày có nhiều nhà khoa học giới quan tâm Việt Nam, việc nghiên cứu xử lý ngôn ngữ tiếng Việt chưa đạt kết khả quan, cơng trình nghiên cứu cịn hạn chế, nên cần có đóng góp nhà khoa học, nhóm nghiên cứu để góp phần đem lại hiệu lĩnh vực xử lý tiếng Việt 1.2 Mục tiêu đề tài Mục tiêu tiểu luận là: Tìm hiểu thuật tốn tham lam Tìm hiểu Thuật tốn Brute Force Tìm hiểu Giải thuật Đệ quy Recursion Tìm hiểu thuật toán quy hoạch động Chỉ thuật toán tối ưu cho đề tài nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán 1.3 Đối tượng phạm vi nghiên cứu Đối tượng phạm vi nghiên cứu tiểu luận: Đối tượng: thuật toán tham lam, Thuật toán Brute Force, Giải thuật Đệ quy Recursion, thuật toán quy hoạch động Phạm vi nghiên cứu: Bài toán N quân hậu, toán xử lý chuỗi, toán đếm số đồng tiền, tốn dị mật khẩu, Nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán… 2PHẦN GIỚI THIỆU BÀI TOÁN VÀ ỨNG DỤNG THỰC TẾ 2.1 Giới thiệu toán Vấn đề chuỗi chung dài (tiếng anh: Longest common subsequence – LCS) vấn đề việc tìm kiếm chuỗi chung dài chuỗi Bài toán chuỗi chung dài toán khoa học máy tính cổ điển, sở chương trình so sánh liệu diff, có ứng dụng ngơn ngữ học tính tốn tin sinh học Nó sử dụng rộng rãi hệ thống quản lý phiên Git để điều chỉnh nhiều thay đổi thực cho sưu tập tệp kiểm soát sửa đổi Ví dụ, xem xét chuỗi (ABCD) (ACBAD) Chúng có chuỗi chung có độ dài 2: (AB), (AC), (AD), (BD) (CD); chuỗi chung có độ dài 3: (ABD) (ACD); khơng cịn chuỗi chung khác có độ dài lớn Vì (ABD) (ACD) hai dãy chung dài hai chuỗi ban đầu 2.2 Ứng dụng thực tế 2.2.1 Search Engine a Khái niệm Search Engine Search Engine (tên đầy đủ Web Search Engine) – Cơng cụ tìm kiếm phần mềm thiết kế với chức tìm kiếm thông tin mạng World Wide Web Khi người dùng sử dụng cơng cụ tìm kiếm, họ cần phải nhập từ khóa (keyword) chủ đề cần tìm hiểu để nhận bảng kết có chứa trang web, hình ảnh video, địa đồ (đối với tên địa danh) loại files tài liệu,… có liên quan đến chủ đề tìm kiếm đó.  b Cấu tạo Search Engine  Về cấu tạo chung Search Engine chia làm phận là:  Bộ thu thập thơng tin – Robot (Google Bot): Để trích xuất liệu cho người dùng, Search Engine phải thu thập thông tin thông qua bot (spider, crawler, robot) lập trình sẵn Những bot có nhiệm vụ quét nội dung website Từ thu thập thơng tin để xây dựng thành database (cơ sở liệu)  Bộ phận lập mục – Index: Quá trình Index diễn song song lúc với việc thu thập liệu bao gồm bước phân tích, lựa chọn sau lưu trữ thơng tin vào database (cơ sở liệu) – siêu nhớ với dung lượng đến đến hàng petabyte  Bộ phận xử lý tính tốn: Truy xuất thơng tin từ liệu index, trả kết c Search Engine hoạt động Hiện nay, Search Engine thường cấu tạo phận chính, nhằm giảm thiểu tối đa thời gian tìm kiếm thơng tin cho người dùng Cụ thể:  Spider ( hay gọi “Crawler” hay “Bot“): Là công cụ giúp Search Engine thu thập liệu trang web đó, bao gồm liệu thơng tin nội dung trang, số lượng tần suất liên kết trang web khác đến trang Việc thu thập liệu Spider thực không ngừng từ website kết thúc tất liên kết có liên quan thu thập liệu hết  Các thông tin liên kết đến khỏi website (internal link & external link) gắn liền với website, để giúp cơng cụ tìm kiếm đánh giá độ phổ biến uy tín website (Domain authority & Domain popularity) Như vậy, từ trang ban đầu, Spider thu thập liệu hàng triệu website khác, đảm bảo tất website thu thập liệu đánh giá cách xác  Công cụ lập mục – Index: Là công cụ thực việc lưu cách tối ưu toàn liệu thu thập trang web, bao gồm nội dung liên kết đến trang Các liệu mã hóa dạng file text (văn bản) để lưu lại với dung lượng thấp trích xuất kết tìm kiếm nhanh Dữ liệu sau mã hóa phân tích lập mục lưu lại sở liệu gốc, giúp cho Search Engine khơng phải tìm thơng tin website có người dùng tìm kiếm từ khóa, giảm thiểu tối đa thời gian trả kết tìm kiếm cho người dùng  Phân tích (Analysis): Khi người gõ từ khóa lên trang tìm kiếm Lúc cơng cụ tìm kiếm qt hệ thống máy chủ để tìm website có độ liên quan tới từ khóa gõ vào Việc phân tích dựa độ liên quan từ khóa, vị trí địa lý, thói quen… người sử dụng  Bảng kết tìm kiếm(SERP): Kết tìm kiếm Google sau Cơng cụ trích xuất kết tìm kiếm xử lý xếp hạng kết tìm kiếm, hiển thị bảng kết thấy sử dụng Google Một số Search Engine phổ biến giới  Google – search engine gì: Google cơng cụ tìm kiếm dẫn đầu Theo báo cáo netmarketshare vào tháng 01 năm 2018 có 74,52% tìm kiếm máy tính cung cấp Google Trong bảng xếp hạng cơng cụ tìm kiếm cho thiết bị di động Google chiếm ưu cao với 93%  Baidu: Baidu thành lập năm 2000 công cụ tìm kiếm phổ biến Trung Quốc Chính lợi dân số đơng nên Baidu chiếm 10.49% thị phần toàn giới   Bing: Bing – sản phẩm Microsoft – xem đối thủ Google lĩnh vực cơng cụ tìm kiếm Cũng theo netmarketshare, Bing chiếm 7.98%  Yahoo – search engine gì: Kể từ tháng 10 năm 2011, cơng cụ tìm kiếm Yahoo cung cấp Bing Tính đến thời điểm tại, Yahoo nhà cung cấp email phổ biến Riêng Search Engine Yahoo đứng vị trí thứ với 5.41% thị phần d Ưu điểm Search Engine   Tối ưu tỷ lệ lợi nhuận thu so với chi phí đầu tư Một ưu điểm bật SEO giúp tối ưu ROI (Return On Investment – tỷ lệ lợi nhuận thu so với chi phí đầu tư) Theo đó, việc xác định xác từ khóa tìm kiếm có ý nghĩa quan trọng việc gia tăng số lượng người dùng truy cập website Điều giúp doanh nghiệp thu thập thông tin chi tiết số lượng khách tiềm liên lạc Hành vi khách hàng từ lúc lựa chọn mua hàng thu nhập Đồng thời biết từ khóa mang tỉ lệ khách hàng hồn tất tốn cao Từ đó, góp phần gia tăng lượng truy cập website tỷ lệ chuyển đổi Nó góp phần làm tăng tỷ lệ lợi nhuận doanh nghiệp  Tiết kiệm chi phí SEO hình thức Marketing dựa sáng tạo nội dung hấp dẫn, lôi kéo quan tâm khách hàng Theo nghiên cứu, SEO tiết kiệm 61% chi phí so với bán hàng qua điện thoại  Cải thiện trải nghiệm người dùng Trong trình tối ưu SEO, doanh nghiệp không ngừng cải thiện cấu trúc trang web Họ làm nội dung mình, nhằm mang đến cho khách hàng trải nghiệm tốt ... trùng lặp văn Trong phạm vi tiểu luận, với mục đích nghiên cứu vấn đề ? ?Nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán? ??, tiểu luận đặt vấn đề nghiên cứu... đề tài nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật toán 1.3 Đối tượng phạm vi nghiên cứu Đối tượng phạm vi nghiên cứu tiểu luận: Đối tượng: thuật toán tham... tốn dị mật khẩu, Nghiên cứu, xây dựng giải thuật tìm đoạn văn giống lớn đoạn văn bản, đánh giá thuật tốn… 2PHẦN GIỚI THIỆU BÀI TỐN VÀ ỨNG DỤNG THỰC TẾ 2. 1 Giới thiệu toán Vấn đề chuỗi chung dài

Ngày đăng: 11/02/2023, 09:27

Tài liệu cùng người dùng

Tài liệu liên quan