28
Ngô Hoàng Phúc
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
BÁO CÁO THỰC TẬP
NATURAL LANGUAGE
PROCESSING
Công ty thực tập : AdMicro
Người phụ trách : Thầy Huỳnh Ngọc Tín
Trần Văn Tùng
Thực tập sinh : Ngô Hoàng Phúc - 16520948
TP. Hồ Chí Minh, tháng 6 năm 2020
LỜI MỞ ĐẦU
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp.
Các bài toán phổ biến trong NLP bao gồm:
- Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác. Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử).
- Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều.
- Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người.
- Ngoài ra còn có dịch tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu
Với tiếng Việt, các bài toán phổ biến có phân tách câu, tách từ, tự động thêm dấu từ.
Sau ba năm học tập trên trường, do mong muốn có thêm kinh nghiệm thực tế, cũng như muốn được tham gia nghiên cứu và làm việc trong môi trường tốt, em có dự định là sẽ đi thực tập về Artificial Intelligence (Trí tuệ nhân tạo) đặc biệt là về NLP. Vì vậy, em quyết định chọn AdMicro – Một môi trường học tập, làm việc, hiện đại – là nơi sẽ giúp em thực hiện dự định này.
LỜI CẢM ƠN
Trân trọng gửi lời cảm ơn AdTech HCM đã tạo điều kiện cho em có cơ hội được thực tập tại công ty.
Chỉ trong một thời gian ngắn, nhưng nhờ sự chỉ dẫn nhiệt tình của anh, chị trong team, thực tập chúng em đã tiếp thu được những kiến thức quan trọng để có thể làm và học tập. Chân thành cảm ơn các anh chị trong team đã bỏ ra nhiều thời gian, công sức để hướng dẫn chúng em hoàn thành đợt thực tập này.
Đặc biệt cảm ơn thầy Tín anh Tùng đã training, hướng dẫn, giúp đỡ cho chúng em tận tình cả những khó khăn trong công việc, đến những khó khăn việc làm quen với môi trường mới, đã chỉ dẫn chúng em về cách làm báo cáo, lên kế hoạch, những kỹ năng không thể thiếu.
Cũng xin cảm ơn thầy cô trong khoa Công nghệ phần mềm đã nhiệt tình hỗ trợ, tạo điều kiện em làm bài báo cáo này.
Ngô Hoàng Phúc
TP.HCM, ngày 19 tháng 6 năm 2020
NHẬN XÉT CỦA KHOA
…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………...…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………...…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
CHƯƠNG 1: GIỚI THIỆU CÔNG TY THỰC TẬP
Được thành lập vào năm 2006, Công ty CP VCCorp (VCCorp) là công ty tiên phong trong lĩnh vực công nghệ và nội dung số. Với hơn 10 năm hình thành và phát triển, VCCorp đã xây dựng được một hệ sinh thái Internet rộng lớn với rất nhiều sản phẩm sáng tạo, hữu ích trong nhiều lĩnh vực (quảng cáo trực tuyến, thương mại điện tử, trò chơi trực tuyến...) phủ sóng trên 90% người sử dụng Internet và mobile, có giá trị đóng góp lớn vào sự phát triển của Internet Việt Nam trong một thập kỷ qua.
Admicro thuộc Công ty cổ phần truyền thông Việt Nam VCcorp
Admicro hiện đang là mạng lưới kinh doanh quảng cáo trực tuyến hàng đầu tại thị trường Việt Nam
VCCorp hiện đang sở hữu thương hiệu quảng cáo trực tuyến Admicro là đơn vị quảng cáo trực tuyến lớn nhất hiện nay với hệ thống quảng cáo trên 200 website uy tín hàng đầu, gần 30 website trong số đó thuộc sở hữu của VCCorp hoặc VCCorp là đơn vị độc quyền khai thác quảng cáo. Với độ phủ tới trên 50 triệu độc giả, tương đương 90% người dùng Internet và mobile tại Việt Nam, cùng với sức mạnh về công nghệ, và sự sáng tạo không ngừng, Admicro luôn ở vị thế dẫn đầu thị trường, giúp các trang báo và trang thông tin điện tử Việt Nam có nguồn thu tốt để cung cấp thông tin cho người dân và cạnh tranh được các website dịch vụ nước ngoài.
Các sản phẩm quảng cáo sáng tạo, ứng dụng nền tảng công nghệ cloud computing, hệ thống xử lý dữ liệu lớn hàng tỷ bản ghi của Admicro giúp các doanh nghiệp tối ưu hóa hiệu quả marketing và tiếp cận nhanh nhất đến độc giả Internet. Thông qua hệ thống Admicro, khách hàng có thể kiểm soát và đo lường số liệu theo thời gian thực, nhắm tới đúng đối tượng độc giả, khu vực, vùng miền, theo độ tuổi, giới tính...
Adtech HCM là một bộ phận trong Adtech đảm nhiệm tìm hiểu và nghiên cứu, triển khai và phát triển các lĩnh vực như Big Data, Computer Vision, NLP, …
CHƯƠNG 2: NỘI DUNG THỰC TẬP
Đợt thực tập với lĩnh vực NLP nhằm mục đích giúp sinh viên thực tập được đào tạo kiến thức về xử lý ảnh, đồng thời rèn luyện những kỹ năng mềm như làm việc nhóm, thuyết trình, giao tiếp. Tại công ty, sinh viên có cơ hội được học tập, khám phá và làm việc trong một môi trường phát triển chuyên nghiệp.
Công việc đã thực hiện
STT
Apache Hadoop
17/02/2020 - 27/02/2020
Hoàn thành mô tả công việc.
Apache Spark
Git
Spring và Spring Boot
Machine Learning
27/03/2020 - 02/04/2020
Deep Learning
NLP
Tìm hiểu phương pháp Neural Language Model
16/04/2020 - 10/05/2020
Hỗ trợ tìm các video và gán nhãn dữ liệu cho bài toán phát hiện video 16/18+
17/02/2020 - 17/05/2020
Hoàn thành phần mô tả công việc.
CHƯƠNG 3: CHI TIẾT VỀ PROJECT
3.4.2 Nâng cấp của Skipgram
3.4.3 Mô hình Glove
CHƯƠNG 4: TỔNG KẾT
Như vậy, trong ba tháng thực tập em đã học được các kiến thức về NLP đã học, đồng thời có thêm những kiến thức, kinh nghiệm mới về cách làm việc, các kỹ năng mềm ,... Môi trường làm việc trẻ trung, vui vẻ, thoải mái cho việc học tập, nghiên cứu phát triển. Được học hỏi, đào tạo về các công nghệ mới nhất, đặc biệt trong lĩnh vực ML/Deeplearning đang vô cùng hot hiện nay. Có cơ hội tham gia vào các bài toán đang triển khai thực tế, Có hệ thống máy tính mạnh cho việc chạy thử nghiệm các thuật toán ML.
Chân thành cảm ơn sự giúp đỡ của các anh chị trong nhóm/ Cảm ơn thầy Huỳnh Ngọc Tín và anh Trần Văn Tùng đã giúp em hoàn thành bài báo cáo này.