[CHÚC MỪNG] Hai nhóm sinh viên ngành Khoa học Dữ liệu đăng bài báo tại Hội nghị Quốc tế về Xử lý Ngôn ngữ Tự nhiên PACLIC (Hạng B theo CORE2021)

on 01 Tháng 10 2021.

Khoa Khoa học và Kỹ thuật Thông tin xin được chúc mừng 02 nhóm sinh viên thuộc ngành Khoa học dữ liệu, Khóa 2018, Khoa Khoa học và Kỹ thuật Thông tin đã có bài báo được chấp nhận tại Hội nghị Quốc tế về Xử lý Ngôn ngữ Tự nhiên PACLIC 2021.

Xin được chúc mừng:

Nhóm sinh viên: Nguyễn Thị Thanh Kim, Huỳnh Khải Siếu, Phan Lực Lượng, Phạm Huỳnh Phúc

GVHD: ThS. Nguyễn Văn Kiệt, ThS. Nguyễn Đức Vũ

Bài báo: "Span Detection for Aspect-Based Sentiment Analysis in Vietnamese"

Mô tả bài báo: Phân tích cảm xúc dựa trên khía cạnh (aspect-based sentiment analysis) đóng một vai trò thiết yếu trong xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Tuy nhiên, các nhà nghiên cứu chỉ tập trung vào phát hiện khía cạnh và phân loại tình cảm mà bỏ qua nhiệm vụ quan trọng là nhận dạng chuỗi ý kiến người dùng, vốn có tiềm năng ứng dụng thực tế rất lớn. Trong bài báo này, chúng tôi trình bày một tập dữ liệu tiếng Việt mới bao gồm 35,396 chuỗi ý kiến được gán nhãn hoàn toàn thủ công với hơn 11,122 bình luận của người dùng nhằm phục vụ cho nhiệm vụ nhận dạng chuỗi ý kiến trong phân tích cảm tính dựa trên khía cạnh. Bên cạnh đó, chúng tôi cũng đề xuất một hệ thống sử dụng BiLSTM-CRF cho nhiệm vụ nhận dạng chuỗi ý kiến. Kết quả tốt nhất là 62.76 điểm F1 macro cho phát hiện ý kiến khía cạnh bằng cách sử dụng BiLSTM-CRF với đặc trưng được trích xuất từ nhúng kết hợp âm tiết, nhúng ký tự và nhúng theo ngữ cảnh XLM-RoBERTa. Bộ dữ liệu của chúng tôi được cung cấp miễn phí phục vụ cho các mục đích nghiên cứu.

Nhóm sinh viên: Trần Quốc Khánh, Nguyễn Trọng Ân, Lê Trần Hoài Ân

GVHD: ThS. Nguyễn Văn Kiệt

Bài báo: "ViVQA: Vietnamese Visual Question Answering"

Mô tả bài báo: Hỏi đáp dựa trên hình ảnh (VisualQA) là một lĩnh vực khá mới mẻ, dần trở nên sôi nổi và đạt được những tiến bộ lớn trong thời gian qua. Đây cũng là một trong những lĩnh vực nghiên cứu tiềm năng với sự kết hợp của xử lý ngôn ngữ tự nhiên và thị giác máy tính. Việc đưa ra một hình ảnh cùng với câu hỏi về nó, một hệ thống hỏi đáp có thể trích xuất được các thông tin cơ bản về ảnh và trả lời các câu hỏi liên quan, công việc tưởng chừng là điều đơn giản đối với con người chúng ta nhưng lại là một thách thức lớn đối với máy tính. Từ đó, chúng tôi nắm bắt được tầm quan trọng của các hệ thống máy hỏi đáp trên ảnh đối với con người. Tuy nhiên, các công trình nghiên cứu hiện nay đã có trên tiếng Anh, tiếng Nhật và một vài ngôn ngữ khác, nhưng trên tiếng Việt hiện nay vẫn chưa có công trình nghiên cứu nào vì hạn chế về dữ liệu cho việc nghiên cứu. Chính vì lý do đó, chúng tôi quyết định thực hiện đề tài này với mục tiêu xây dựng một bộ dữ liệu để góp phần phát triển các hệ thống hỏi đáp trên ảnh tự động cho tiếng Việt. Bộ dữ liệu này được chúng tôi xây dựng trên miền dữ liệu các hình ảnh từ MS COCO, cùng với đó là việc triển khai mô hình VisualQA sử dụng các phương pháp khác nhau như LSTM, CNN và Hierarchical Co-Attention để đánh giá hiệu suất trên bộ dữ liệu cũng như trình bày về các tinh chỉnh trong các mô hình mà chúng tôi triển khai nhằm tìm ra mô hình cho kết quả tốt nhất với bộ dữ liệu này.

Các nhóm sinh viên xin gửi lời cảm ơn chân thành nhất đến các Thầy GVHD đã tận tình hướng dẫn trong suốt quá trình học tập, nghiên cứu và công bố bài báo khoa học. Nhóm tác giả cũng xin gửi lời cảm ơn đến Khoa Khoa học và Kỹ thuật thông tin và Nhóm nghiên cứu Xử lý Ngôn ngữ Tự nhiên UIT (NLP@UIT) đã tạo điều kiện cho chúng em hoàn thành nghiên cứu này.

Hội nghị Châu Á Thái Bình Dương lần thứ 35 về Ngôn ngữ, Thông tin và Tính toán (Pacific Asia Conference on Language, Information and Computation - PACLIC 35) sẽ được tổ chức trực tuyến và ngoại tuyến (*) từ ngày 5 - 7 tháng 11 năm 2021, do Viện Nghiên cứu và Ứng dụng Corpus, Đại học Quốc tế Thượng Hải tổ chức. Kể từ năm 1982, chuỗi hội nghị PACLIC nhấn mạnh sức mạnh tổng hợp của phân tích lý thuyết và xử lý ngôn ngữ, đồng thời cung cấp một diễn đàn cho các nhà nghiên cứu trong các lĩnh vực nghiên cứu ngôn ngữ khác nhau ở khu vực Châu Á-Thái Bình Dương để chia sẻ những phát hiện và lợi ích trong nghiên cứu chính thức và thực nghiệm về ngôn ngữ. Được tổ chức dưới sự bảo trợ của Ban chỉ đạo PACLIC, PACLIC 35 (2021) sẽ là phần mới nhất trong những nỗ lực hợp tác lâu dài của giữa các nhà nghiên cứu về ngôn ngữ học và khoa học máy tính ở khu vực Châu Á - Thái Bình Dương.

Kỷ yếu hội nghị sẽ được xuất bản ở định dạng kỹ thuật số truy cập mở. Các kỷ yếu của PACLIC trước đây đã được lập chỉ mục trong Scopus (kể từ PACLIC 19 vào năm 2005) và được liệt kê trong ACL Anthology. Theo Google Scholar, PACLIC hiện có h5-index là 13 và h5-median là 19.

*Đây là một trong những hội nghị không có tính phí hội nghị vì đại dịch Covid nên HN diễn ra hoàn toàn hình thức trực tuyến.

Một lần nữa, xin chúc mừng các bạn!