1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo bài tập lớn khai thác thông tin đa phương tiện tìm kiếm và thay thế trong văn bản tiếng việt

13 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 787,71 KB

Nội dung

Việc giải quyết bài toán này đòi hỏisự kết hợp giữa việc tìm hiểu về bài toán chuẩn hóa văn bản, tìm hiểu các hàm và thư viện hỗ trợ thay thế và tìm kiếm chuỗi ký tự trong ngôn ngữ lập t

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN SƯ PHẠM KỸ THUẬT

BÁO CÁO BÀI TẬP LỚN

KHAI THÁC THÔNG TIN ĐA PHƯƠNG TIỆN

Đề tài:

“Tìm kiếm và thay thế trong văn bản tiếng Việt.”

Giảng viên hướng dẫn: Đỗ Thị Ngọc Diệp & Lê Thị Lan

Nhóm sinh viên:

Nguyễn Thị Hà Phương 20212334

Trang 2

PHÂN CÔNG CÔNG VIỆC

Trang 3

I TÌM KIẾM VÀ THAY THẾ VĂN BẢN TRONG TIẾNG VIỆT

1 Đặt vấn đề

Trong thời đại công nghệ thông tin ngày càng phát triển, việc xử lý và tối ưu thông tin văn bản là một vấn đề quan trọng để đảm bảo tính chính xác, rõ ràng và dễ hiểu của

dữ liệu Bài toán chuẩn hóa văn bản và xử lý từ viết tắt là một trong những thách thức mà nhiều ứng dụng và hệ thống phải đối mặt hàng ngày

Đối với các văn bản chứa từ viết tắt, thông điệp có thể bị mất đi hoặc dẫn đến hiểu nhầm nếu không thực hiện đúng quy trình chuẩn hóa Việc giải quyết bài toán này đòi hỏi

sự kết hợp giữa việc tìm hiểu về bài toán chuẩn hóa văn bản, tìm hiểu các hàm và thư viện hỗ trợ thay thế và tìm kiếm chuỗi ký tự trong ngôn ngữ lập trình Python

độ hoàn thành

1 Nguyễn Thị Hà

Phương 20212334 - Tìm hiểu bài toán chuẩn hóa vănbản

- Tạo file các từ viết tắt, từ đầy đủ

và file văn bản

- Viết chương trình tạo giao diện phần mềm với thư viện Tkinter

- Viết báo cáo, nhận xét

100%

2 Phan Tuyết Ngân 20212327 - Tìm hiểu các hàm/thư viện hỗ trợ

việc thay thế và tìm kiếm chuỗi ký tự

- Tìm hiểu việc sử dụng các hàm thay thế từ viết tắt

- Viết chương trình

- Viết báo cáo, powerpoint

100%

Trang 4

Để giải quyết vấn đề này, đề tài được đề xuất tập trung vào ba mục tiêu chính: a/ Tìm hiểu bài toán chuẩn hóa văn bản: Nghiên cứu cơ bản về bài toán chuẩn hóa văn bản, tìm hiểu các phương pháp, nguyên tắc và quy trình để biến đổi văn bản từ dạng viết tắt thành dạng viết đầy đủ và rõ ràng hơn

b/ Tìm hiểu các hàm/thư viện hỗ trợ việc thay thế và tìm kiếm chuỗi ký tự: Khám phá các hàm và thư viện có sẵn trong Python hỗ trợ việc thay thế và tìm kiếm chuỗi ký

tự, đồng thời tìm hiểu cách sử dụng chúng để thực hiện việc chuẩn hóa văn bản c/ Xây dựng phần mềm đọc file văn bản txt, thay thế các từ viết tắt: Xây dựng một ứng dụng sử dụng Tkinter trong Python để đọc và xử lý các văn bản dạng txt Ứng dụng

Trang 5

này sẽ thay thế các từ viết tắt tìm thấy trong văn bản bằng dạng viết đầy đủ, sử dụng một

từ điển từ viết tắt cụ thể đã được xây dựng

Đối với phần xây dựng phần mềm, từ điển từ viết tắt sẽ được định dạng sao cho mỗi dòng chứa một từ viết tắt và dạng viết đầy đủ tương ứng, được phân cách bằng dấu tab Quá trình chuẩn hóa sẽ được thực hiện thông qua việc đọc văn bản, tìm kiếm các từ viết tắt trong từ điển và thay thế chúng bằng dạng viết đầy đủ

Với việc hoàn thành đề tài, ứng dụng chuẩn hóa văn bản này sẽ hỗ trợ trong việc xử

lý dữ liệu văn bản, tăng tính rõ ràng và hiểu biết của thông tin, đồng thời cải thiện chất lượng và hiệu quả giao tiếp trong các ứng dụng sử dụng dữ liệu văn bản

2 Yêu cầu của đề tài

a/ Tìm hiểu bài toán chuẩn hóa văn bản (1đ)

b/ Tìm hiểu các hàm/thư viện hỗ trợ việc thay thế và tìm kiếm chuỗi ký tự (1đ)

c/ Xây dựng một phần mềm đọc file văn bản dạng txt, thay thế các từ viết tắt tìm thấy trong văn bản bằng dạng viết đầy đủ của nó sử dụng một từ điển từ viết tắt Định dạng từ điển như sau: từ điển từ viết tắt gồm nhiều dòng, mỗi dòng có dạng “DHBK dấu_tab Đại Học Bách Khoa”, (8đ)

3.Văn bản

"Văn bản" là một tập hợp các ký tự, từ và câu được viết thành một đoạn văn hoặc một đoạn dài hơn, có thể là một đoạn văn, một đoạn trích từ tài liệu, hay một đoạn văn bản độc lập Văn bản thường là một cấu trúc ngôn ngữ có ý nghĩa đầy đủ và thể hiện ý kiến, thông tin hoặc suy nghĩ của người viết

Văn bản có thể bao gồm các yếu tố như từ ngữ, câu hỏi, câu trả lời, đoạn văn, đoạn thơ, bài viết, trích dẫn từ sách, báo cáo, thư tín, email, và nhiều hình thức khác của ghi chép hoặc giao tiếp bằng ngôn ngữ

Văn bản không đơn giản chỉ là sự mã hóa của ngôn ngữ tự nhiên Thay vào đó, văn bản là một tín hiệu vật lý phổ biến được sử dụng để mã hóa nhiều hệ thống ký hiệu khác nhau, trong đó ngôn ngữ tự nhiên chỉ là một trường hợp phổ biến

Trang 6

4 Chuẩn hóa văn bản

Chuẩn hóa văn bản là một bước quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên

và tiếng nói, đặc biệt là trong ứng dụng chuyển văn bản thành tiếng nói Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt và từ ngữ nước ngoài Để chuẩn hóa văn bản, chúng ta cần phải chuyển tất cả các từ chưa được chuẩn hoá thành dạng chuẩn là ngôn ngữ tự nhiên Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế

Bài toán chuẩn hóa văn bản là quá trình chuyển đổi một đoạn văn bản không chuẩn sang dạng chuẩn hoặc định dạng cụ thể Chuẩn hoá văn bản có thể áp dụng cho nhiều mục đích khác nhau, bao gồm:

Chuẩn hoá từ ngữ: Điều này bao gồm việc sửa chính tả, sử dụng từ ngữ đúng, kiểm tra ngữ pháp và cú pháp Ví dụ, viết hoa chữ cái đầu câu, sửa lỗi chính tả, sử dụng các từ đồng nghĩa thích hợp

Chuẩn hoá định dạng: Điều này liên quan đến việc định dạng lại văn bản để nó tuân theo một tiêu chuẩn nhất định Ví dụ, căn chỉnh các đoạn văn, đánh số các mục, áp dụng các định dạng chữ in đậm, nghiêng, hoặc gạch chân

Chuẩn hoá mã hóa: Đối với các văn bản có sử dụng mã hóa đặc biệt như Unicode, bài toán chuẩn hoá văn bản có thể bao gồm việc chuyển đổi mã hóa thành các định dạng phù hợp hoặc chuyển đổi giữa các mã hóa khác nhau

Chuẩn hoá ngôn ngữ: Nếu văn bản được viết bằng một ngôn ngữ không chuẩn hoặc không chính thức, bài toán chuẩn hoá có thể liên quan đến việc biến đổi ngôn ngữ đó thành ngôn ngữ chuẩn Ví dụ, chuyển đổi một văn bản viết bằng ngôn ngữ hẹp thành ngôn ngữ rộng rãi và tiêu chuẩn

Trang 7

Cách thức chuẩn hoá văn bản phụ thuộc vào mục đích cụ thể và đặc điểm của từng ngôn ngữ hoặc định dạng Có thể sử dụng các thuật toán xử lý ngôn ngữ tự nhiên, quy tắc ngữ pháp, các tập luật và bộ từ điển để thực hiện quá trình chuẩn hoá văn bản

5. Tìm hiểu các hàm/thư viện hỗ trợ việc thay thế và tìm kiếm chuỗi ký tự

Trong lập trình Python, việc tìm kiếm và thay thế chuỗi ký tự là một công việc phổ biến Có nhiều hàm và thư viện hỗ trợ cho việc này trong Python Trong bài luận này, chúng ta sẽ tìm hiểu về các hàm và thư viện này và cách chúng ta có thể sử dụng chúng để tìm kiếm và thay thế chuỗi ký tự trong Python

Các hàm/thư viện hỗ trợ việc tìm kiếm chuỗi ký tự

Có rất nhiều hàm và thư viện hỗ trợ tìm kiếm và thay thế chuỗi ký tự trong Python Một số thư viện phổ biến bao gồm re, string và pandas

Thư viện re cung cấp các hàm để tìm kiếm và thay thế chuỗi ký tự bằng cách sử dụng các biểu thức chính quy Biểu thức chính quy là một chuỗi các

ký tự đặc biệt được sử dụng để mô tả một mẫu chuỗi ký tự

Thư viện string cung cấp các hàm để xử lý chuỗi ký tự, bao gồm tìm kiếm

và thay thế chuỗi ký tự Một số hàm phổ biến trong thư viện này bao gồm find(), replace(), và split()

Thư viện pandas cung cấp các hàm để xử lý dữ liệu, bao gồm tìm kiếm và thay thế chuỗi ký tự trong các khung dữ liệu Một số hàm phổ biến trong thư viện này bao gồm str.contains(), str.replace(), và str.extract()

6 Thư viện Tkinter

Tkinter là một thư viện trong Python được sử dụng để tạo giao diện đồ họa (GUI - Graphical User Interface) đơn giản Tkinter được tích hợp sẵn trong các phiên bản Python, do đó bạn không cần phải cài đặt thêm bất kỳ gói nào để sử dụng nó

Tkinter dựa trên Tk, một toolkit GUI đã từng được phát triển cho ngôn ngữ Tcl Nó cung cấp các thành phần giao diện như cửa sổ, nút, nhãn, ô văn bản, hộp chọn, v.v Bạn có thể sử dụng Tkinter để xây dựng các ứng dụng desktop đơn giản

và trực quan

Trang 8

Dưới đây là một số khái niệm và ví dụ cơ bản về cách sử dụng Tkinter:

Các khái niệm cơ bản:

- Cửa sổ (Window): Đây là cửa sổ chương trình, giao diện chính để hiển thị các thành phần khác nhau

- Widget: Là thành phần cơ bản của giao diện, như nút, nhãn, ô văn bản, hộp chọn,

- Frame: Là một container (bên trong cửa sổ) dùng để chứa các widget khác

- Event: Là các sự kiện như nhấn nút, nhấn chuột, nhập liệu, v.v

- Đối tượng Stepmaster: Đối tượng của Stepmaster là cái gì?

7 Viết phần mềm đọc file văn bản dạng txt

Chúng ta sẽ xây dựng một phần mềm sử dụng ngôn ngữ Python để đọc một file văn bản txt và thực hiện việc thay thế từ viết tắt bằng dạng viết đầy đủ, sử dụng một từ điển từ viết tắt đã cho

Sơ đồ khối:

Trang 9

Các bước thực hiện:

1 Lựa chọn ngôn ngữ lập trình: Python là một lựa chọn phổ biến và thích hợp cho công việc này do tính dễ đọc, dễ viết và nhiều thư viện hỗ trợ xử lý văn bản

2 Xây dựng từ điển từ viết tắt: Tạo một file văn bản chứa các cặp từ viết tắt

và từ viết đầy đủ tương ứng

3 Đọc và xử lý văn bản: Viết mã để đọc nội dung từ file văn bản txt Sử dụng Python để đọc toàn bộ nội dung và sau đó tách thành các từ hoặc cụm từ

4 Thay thế từ viết tắt: Sử dụng từ điển từ bước 2 để thay thế các từ viết tắt bằng dạng viết đầy đủ Xử lý các trường hợp phức tạp hơn nếu cần thiết

5 Ghi kết quả vào file mới: Sau khi thay thế, ghi kết quả vào một file mới để lưu trữ văn bản đã được xử lý

6 Xây dựng giao diện người dùng : Xây dựng giao diện người dùng cho phần mềm bằng cách sử dụng các thư viện Tkinter trong Python, giúp người dùng dễ dàng nhập file văn bản đầu vào và xem kết quả thay thế trực tiếp

7.Kiểm thử và sửa lỗi: Thực hiện các bước kiểm thử để đảm bảo phần mềm hoạt động đúng và sửa lỗi nếu có

Trang 10

II HƯỚNG DẪN CÀI ĐẶT

Bước 1: Cài đặt Python: tại https://www.python.org/

Bước 2: Tạo dự án trên VS Code: Mở Visual Studio Code và tạo một thư mục mới

để làm việc Đặt tên tập tin là abbreviations_replacer.py

Bước 3: Tạo file văn bản và từ điển từ viết tắt: Tạo hai file trong cùng thư mục với

tập tin abbreviations_replacer.py, một file có tên là input.txt để chứa nội dung văn bản cần xử lý và một file có tên là abbreviations.txt để chứa danh sách từ viết tắt và

từ đầy đủ tương ứng

Bước 4: Chạy chương trình: Trong terminal, hãy chuyển đến thư mục chứa các tập

tin (abbreviations_replacer.py, input.txt, và abbreviations.txt) Sử dụng lệnh và sau

đó chạy chương trình bằng lệnh:

“python abbreviations_replacer.py”

Bước 5: Tải lên tệp và cho ra kết quả

Trang 11

III KẾT QUẢ KIỂM NGHIỆM Bước 1: Xây dựng từ điển từ viết tắt

Bước 2: Xây dựng đoạn văn bản

Trang 12

Bước 3: Chạy chương trình

Bước 4: Chọn tệp

Bước 5: Cho ra kết quả

Trang 13

III NHẬN XÉT

Ưu điểm:

1 Giao diện người dùng dễ sử dụng: Ứng dụng có giao diện người dùng đơn giản

và dễ hiểu Người dùng có thể dễ dàng chọn file văn bản cần xử lý và xem kết quả thay thế trực tiếp trên cửa sổ giao diện

2 Tích hợp thư viện ‘tkinter’:Sử dụng thư viện ‘tkinter’ để xây dựng giao diện giúp việc tạo các thành phần như cửa sổ chọn file, nhãn, nút và hộp văn bản trở nên dễ dàng

3 Tách biệt việc xử lý văn bản và hiển thị kết quả: Code được tổ chức hợp lý với việc tách biệt chức năng xử lý từ viết tắt và hiển thị kết quả lên giao diện Điều này giúp mã code dễ đọc và dễ bảo trì

Nhược điểm:

1 Chỉ hỗ trợ thay thế từ viết tắt cụ thể trong từ điển: Hiện tại chỉ hỗ trợ thay thế từ viết tắt cụ thể đã định nghĩa trong file ‘abbreviations.txt’ Nếu có từ viết tắt mới hoặc nhu cầu mở rộng từ điển cần phải chỉnh sửa file từ điển thủ công

2 Không hỗ trợ việc tạo mới từ điển từ giao diện: Không cho phép người dùng thêm từ viết tắt mới vào từ điển trực tiếp từ giao diện, điều này có thể khiến việc quản lý và cập nhật từ điển trở nên khó khăn

3 Giao diện với diện tích nhỏ: Kích thước cửa sổ giao diện và hộp văn bản khá lớn, gây khó khăn khi sử dụng với màn hình có diện tích nhỏ hoặc độ phân giải thấp

Ngày đăng: 17/06/2024, 17:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w