1. Trang chủ
  2. » Cao đẳng - Đại học

báo cáo thực tập xây dựng phần mềm chỉnh sửa lỗi chính tả cho tiếng việt

17 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 318,76 KB

Nội dung

[1] TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO THỰC TẬP Xây dựng phần mềm chỉnh sửa lỗi tả cho Tiếng Việt TS Huỳnh Ngọc Tín Cơng ty thực tập : VCCorp Người phụ trách : TS Huỳnh Ngọc Tín Thực tập sinh : Ngô Trung Hiếu Ngô Trung Hiếu [2] TP Hồ Chí Minh, tháng năm 2020 TS Huỳnh Ngọc Tín Ngô Trung Hiếu [3] LỜI MỞ ĐẦU Ngày nay, lĩnh vực AI lên với nhu cầu cấp bách đầy thiết yếu Các ứng dụng AI gây nên phần tác động lớn trải nghiệm người dùng tính chất thương mại hóa cơng ty Đặc biệt hơn, thuật toán AI ứng dụng Deep learning phát triển cách vơ mạnh mẽ chóng mặt, nhánh Computer Vision Natural Language Processing từ mà phát triển lên Sau bốn năm học tập trường có may mắn gặp thầy Tín Thầy truyền cảm hứng cho em lĩnh vực CNTT AI Chính muốn tiếp cận quy trình làm việc tốn AI gặp tình hình tại, VCCorp công ty lý tưởng em thực dự định có thêm kinh nghiêm để rèn giũa thân thật tốt trước trường TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [4] LỜI CẢM ƠN Trân trọng gửi lời cảm ơn Công ty VCCorp nói chung thầy Huỳnh Ngọc Tín nói riêng tạo điều kiện cho em có hội thực tập công ty Chỉ thời gian ngắn, nhờ dẫn nhiệt tình anh chị công ty, buổi seminar hàng tuần Em học hỏi nhiều điều kỹ cứng mềm Đồng thời hịa nhập với văn hóa cơng ty hoạt động ngoại khóa nói riêng Đặc biệt cảm ơn anh Tuyên người hỗ trợ em từ lúc em vào công ty, từ quy trình tới setup mơi trường, thủ tục cần thiết Cảm ơn anh Tùng hỗ trợ vấn đề kỹ thuật chia sẻ cách làm việc, phong cách cơng ty để giúp em hịa nhập cách nhanh Cũng xin cảm ơn thầy cô khoa Công nghệ phần mềm nhiệt tình hỗ trợ, tạo điều kiện em làm báo cáo Ngô Trung Hiếu TpHCM, ngày 14 tháng năm 2020 TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [5] NHẬN XÉT CỦA KHOA TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [6] MỤC LỤC MỤC LỤC Chương 1: Giới thiệu công ty thực tập Giới thiệu công ty VCCorp Sản phẩm công ty 7 Chương 2: Nội dung thực tập Tìm hiểu cơng ty kỹ công ty Nghiên cứu kỹ thuật Thực project Lịch làm việc 9 12 12 Chương 3: Chi tiết project Giới thiệu toán Thực Kế hoạch 14 14 14 15 TÀI LIỆU THAM KHẢO TỔNG KẾT 16 17 TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [7] Chương 1: Giới thiêu công ty thực tập Giới thiệu công ty VCCorp Được thành lập vào năm 2006, Công ty CP VCCorp (VCCorp) công ty tiên phong lĩnh vực công nghệ nội dung số Với 10 năm hình thành phát triển, VCCorp xây dựng hệ sinh thái Internet rộng lớn với nhiều sản phẩm sáng tạo, hữu ích nhiều lĩnh vực (quảng cáo trực tuyến, thương mại điện tử, trò chơi trực tuyến ) phủ sóng 90% người sử dụng Internet mobile, có giá trị đóng góp lớn vào phát triển Internet Việt Nam thập kỷ qua Với việc chia thành nhiều phận, phân mà em thực tập Admicro VCCorp sở hữu thương hiệu quảng cáo trực tuyến Admicro đơn vị quảng cáo trực tuyến lớn với hệ thống quảng cáo 200 website uy tín hàng đầu, gần 30 website số thuộc sở hữu VCCorp VCCorp đơn vị độc quyền khai thác quảng cáo Với độ phủ tới 50 triệu độc giả, tương đương 90% người dùng Internet mobile Việt Nam, với sức mạnh công nghệ, sáng tạo không ngừng, Admicro vị dẫn đầu thị trường, giúp trang báo trang thông tin điện tử Việt Nam có nguồn thu tốt để cung cấp thơng tin cho người dân cạnh tranh website dịch vụ nước ngồi Sản phẩm cơng ty #1 Adnetwork Tiếp cận 97.6% người dùng Internet, với nhóm chuyên mục lớn, 1000+ publishers, 30 đối tác độc quyền, 10000+ nhà mua quảng cáo #1 Mobile Adnetwork TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [8] Tiếp cận 95% người dùng Mobile, hệ thống Mobile Adnetwork tiếp cận người dùng mobile web & mobile app #1 AdTech Sở hữu 45 tỉ view/tháng, AdTech áp dụng hầu hết công nghệ tân tiến vào Adnetwork #1 Product Innovation Dẫn đầu thị trường cung cấp tính đột phá, sở hữu 22 sản phẩm & giải pháp, bật với: quảng cáo hiển thị, truyền thông, mua tự động, mobile TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [9] Chương 2: Nội dung thực tập Đợt thực tập với chủ đề "Xây dựng phần mềm sửa lỗi Tiếng Việt" nhằm giúp cho sinh viên tiếp cận phương pháp học máy, nắm quy trình toán AI áp dụng vào thực tế Tìm hiểu cơng ty kỹ công ty Thời gian : ngày Nội dung : Giới thiệu công ty, cách tổ chức công ty Được nghe người phụ trách giới thiệu cơng ty, q trình thành lập phát triên (như nhắc đến trên), quy trình làm việc từ cao xuống thấp, cách thức tổ chức cơng ty Ngồi ra, thực tập sinh cịn giới thiệu cách thức làm việc công ty thời gian làm, quy định cần phải tuân thủ, cách sử dụng email công việc… Kết : Hiểu thêm phận Adtech, trình thành lập phát triển Có thêm kỹ việc sử dụng email công việc, làm việc có kế hoạch, có kỷ luật, có trách nhiệm Nghiên cứu kỹ thuật 2.1 2.2 Các công cụ làm việc Thời gian : ngày Nội dung : Tìm hiểu cơng cụ sử dụng trình làm việc Trong thời gian này, supervisor hướng dẫn thực tập sinh tìm hiểu cơng cụ giúp ích cho cơng việc sau Một số phần mềm số OpenVPN - sử dụng làm việc với server, Redmine – sử dụng để làm việc nhóm Hệ điều hành Linux để làm việc dễ dàng Thực : Thực hành sử dụng phần mềm nêu Kết : Lập trình sử dụng cơng cụ miễn phí, giúp dễ dàng kết hợp cơng cụ với nhau, so với việc dùng IDE Tìm hiểu AI Thời gian : ngày (1 tuần) Nội dung : Được training kiến thức,toán bản, thuật toán AI - Thuật toán AI Các kiến thức AI khái niệm Linear Regression, Logistic Regression, Gradient Descent Thực : - Tham gia đầy đủ buổi training công ty - Kiểm tra kiến thức học TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [10] Kết : 2.3 Nắm rõ kiến thức AI Có kiến thức quan trọng cho việc lập trình AI Tìm hiểu Deep Learning thư viện kèm Nội dung: Các kiến thức Neural Network, CNN, RNN thư viện keras, tensorflow, xử lý liệu numpy, pandas kèm - Khái niệm Neural Network Còn gọi mạng thần kinh nhân tạo, thể loại giải thuật học máy — machine learning, lấy cảm hứng từ não người Nó giải thuật phổ biến sử dụng giới học máy Mục đích để giải vấn đề tương tự cách người thực - - - Khái niệm CNN: Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) mơ hình Deep Learning tiên tiến Nó giúp cho xây dựng hệ thống thông minh với độ xác cao Như hệ thống xử lý ảnh lớn Facebook, Google hay Amazon đưa vào sản phẩm chức thông minh nhận diện khuôn mặt người dùng, phát triển xe tự lái hay drone giao hàng tự động Khái niệm RNN Ý tưởng RNN (Recurrent Neural Network) sử dụng chuỗi thông tin Trong mạng nơ-ron truyền thống tất đầu vào đầu độc lập với Tức chúng không liên kết thành chuỗi với Nhưng mơ hình khơng phù hợp nhiều tốn Ví dụ, muốn đốn từ xuất câu ta cần biết từ trước xuất nhỉ? RNN gọi hồi quy (Recurrent) lẽ chúng thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Nói cách khác, RNN có khả nhớ thơng tin tính tốn trước Trên lý thuyết, RNN sử dụng thông tin văn dài Tensorflow - Keras Tensorflow thư viện mã nguồn mở cung cấp khả xử lí tính tốn số học dựa biểu đồ mô tả thay đổi liệu Tensor sử dụng bạn cần giải tốn supervised learning TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [11] - - Keras open source cho Neural Network viết ngơn ngữ Python Nó library phát triển vào năm 205 Francois Chollet, kỹ sư nghiên cứu Deep Learning Keras sử dụng chung với thư viện tiếng Tensorflow, CNTK, Theano Numpy Numpy thư viện lõi phục vụ cho khoa học máy tính Python, hỗ trợ cho việc tính tốn mảng nhiều chiều, có kích thước lớn với hàm tối ưu áp dụng lên mảng nhiều chiều Numpy đặc biệt hữu ích thực hàm liên quan tới Đại Số Tuyến Tính Pandas Pandas là thư viện mã nguồn mở với hiệu cao cho phân tích liệu Python phát triển Wes McKinney năm 2008 Chỉ với năm phát triển trở thành thư viện chuẩn cho việc phân tích liệu dùng Python, số tính bật pandas: ● Có thể xử lý tập liệu khác định dạng: chuỗi thời gian, bảng không đồng nhất, ma trận liệu ● Khả import liệu từ nhiều nguồn khác CSV, DB/SQL ● Có thể xử lý vơ số phép tốn cho tập liệu: subsetting, slicing, filtering, merging, groupBy, re-ordering, and re-shaping, ● Xử lý liệu mát theo ý người dùng mong muốn: bỏ qua chuyển sang ● Xử lý, phân tích liệu tốt mơ hình hố thống kê ● Tích hợp tốt với thư viện khác python ● Cung cấp hiệu suất tốt tăng tốc chí sử dụng Cython ( extension C cho python) Thực : - Tham gia đầy đủ buổi training Tìm kiếm tài liệu mạng để tìm hiểu thêm Kết : 2.4 Hiểu khái niệm lập trình Deep Learning Sử dụng thư viện cho tốn Thực project TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [12] Sau tháng training thực hành, thực tập sinh nắm kiến thức AI, Deep Learning thư viện kèm Trong tháng thứ hai, trainer hướng dẫn thực tập sinh áp dụng kiến thức học để thực project Chi tiết đồ án nói phần sau Lịch làm việc Tuần Công việc - - - Tìm hiểu Deep Learning Tìm hiểu paper toán Sửa lỗi tiếng việt - Lên kế hoạch Lập plan - Nhận xét người hướng dẫn Tìm hiểu công Anh Nguyễn ty, cách tổ chức Thanh Anh Tuyên công ty Làm quen với công cụ làm việc công ty Học cách trao đổi, làm việc qua email Tìm hiểu AI Anh Nguyễn Thanh Anh Tuyên Người hướng dẫn Mức độ hoàn thành Thầy Huỳnh Ngọc Tín Thầy Huỳnh Ngọc Viết Model Tín theo paper Thực nghiệm đánh giá Tiếp tục cải thiện model - Thực nghiệm đánh giá - Tìm hiểu cách tối ưu, phát triển model nhiều phương pháp khác thơng qua kết trước TS Huỳnh Ngọc Tín Anh Nguyễn Thanh Anh Tuyên Thầy Huỳnh Ngọc Tín Thầy Huỳnh Ngọc Tín Thầy Huỳnh Ngọc Tín Ngơ Trung Hiếu [13] TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [14] Chương 3: Chi tiết project Giới thiệu toán Tự động phát sửa lỗi tả (Auto Correction) tốn xử lý ngơn ngữ tự nhiên Tính có ứng dụng soạn thảo văn bản, nhập liệu, nhận dạng… Với việc viết văn điện thoại di động dễ sinh lỗi, tính tự động sửa lỗi tả thành phần thiếu bàn phím Các kỹ thuật auto correction phát triển hoạt động tốt với nhiều ngôn ngữ, tiếng Anh Nhưng với tiếng Việt sao? 1.1 Paper tham khảo ● Using Large N-gram for Vietnamese Spell Checking 2015 1.2 Thuật tốn Mơ tả - Training model n-gram: Unigram, Bigram, Trigram cách đếm tần số xuất sau tính xác suất n-gram - Tính xác suất từ mà cho từ láng giềng công thức geometric mean function gợi ý paper - Sử dụng xác suất có từ model cơng thức để tiến hành sửa lỗi Thực Ngô Trung Hiếu Kế hoạch Giai đoạn tìm hiểu paper liên quan: - Paper Using large n-gram - Paper word2vec Giai đoạn training model Giai đoạn thử nghiệm Giai đoạn đánh giá TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [15] Giai đoạn cải tiến Kết : - Đạt ~60% kết tập test TS Huỳnh Ngọc Tín Ngô Trung Hiếu [16] TÀI LIỆU THAM KHẢO For Paper https://www.researchgate.net/publication/282937386_Using_Large_Ngram_for_Vietnamese_Spell_Checking For AI https://machinelearningcoban.com/ Các báo NLP có liên quan tới tốn https://towardsdatascience.com/embedding-for-spelling-correction-92c93f835d79 https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-language-modelnlp-python-code/ TS Huỳnh Ngọc Tín Ngô Trung Hiếu [17] TỔNG KẾT Như vậy, vòng thời gian thực tập, em build base model để hồn thành mục tiêu cơng việc, đồng thời từ tiếp tục xây dựng phát triển nghiên cứu để cải thiện model tương lai Chân thành cảm ơn giúp đỡ anh công ty Cảm ơn thầy Huỳnh Ngọc Tín giúp em hồn thành báo cáo TS Huỳnh Ngọc Tín Ngơ Trung Hiếu ... quảng cáo hiển thị, truyền thông, mua tự động, mobile TS Huỳnh Ngọc Tín Ngơ Trung Hiếu [9] Chương 2: Nội dung thực tập Đợt thực tập với chủ đề "Xây dựng phần mềm sửa lỗi Tiếng Việt" nhằm giúp cho. .. training thực hành, thực tập sinh nắm kiến thức AI, Deep Learning thư viện kèm Trong tháng thứ hai, trainer hướng dẫn thực tập sinh áp dụng kiến thức học để thực project Chi tiết đồ án nói phần sau... phát sửa lỗi tả (Auto Correction) toán xử lý ngơn ngữ tự nhiên Tính có ứng dụng soạn thảo văn bản, nhập liệu, nhận dạng… Với việc viết văn điện thoại di động dễ sinh lỗi, tính tự động sửa lỗi tả

Ngày đăng: 05/09/2021, 21:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w