NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT
NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT
Lê Tuấn Hưng - Tô Trường Long
Trong bối cảnh thông tin sai lệch được lan truyền một cách nhanh chóng trong hệ sinh thái truyền thông như hiện nay, việc kiểm tra sự thật (Fact - Checking) đã trở thành một nhu cầu cấp thiết để bảo vệ tính chính xác và trung thực của thông tin. Mặc dù vấn đề này tồn tại hầu hết ở mọi quốc gia trên thế giới, nhưng đa phần các nghiên cứu và công nghệ hiện tại vẫn chỉ tập trung vào các ngôn ngữ có nhiều tài nguyên như tiếng Anh hay tiếng Trung, để lại khoảng trống lớn cho các ngôn ngữ ít tài nguyên như tiếng Việt. Vì lý do đó, nhu cầu cho việc khám phá các phương pháp và đặc biệt là các bộ dữ liệu mới nhằm hỗ trợ cho việc xây dựng các hệ thống xác thực thông tin trên tiếng Việt là vô cùng cần thiết. Nhằm đóng góp trong việc thu hẹp khoảng cách về tài nguyên so với các ngôn ngữ khác, nhóm xin giới thiệu khóa luận tốt nghiệp của nhóm với mục tiêu giới thiệu bộ dữ liệu ViWikiFC (Vietnamese Wikipedia Fact-Checking) - một bộ dữ liệu được gán nhãn thủ công dành riêng cho việc kiểm tra sự thật dựa trên nguồn thông tin là Wikipedia tiếng Việt. ViWikiFC bao gồm 20.916 câu tuyên bố được tạo ra thông qua quá trình chuyển đổi các câu bằng chứng được trích xuất từ các bài viết trên Wikipedia. Các tuyên bố này được gán nhãn cẩn thận và phân loại theo các nhãn: Hỗ trợ (Supported), Phản bác (Refuted) và Không đủ thông tin (Not Enough Information). Bộ dữ liệu này không chỉ đóng góp cho nguồn dữ liệu của bài toán kiểm tra thực tế tiếng Việt mà còn được phân tích kỹ lưỡng từ nhiều khía cạnh ngôn ngữ khác nhau nhằm thể hiện sự đa dạng ngôn ngữ trong dữ liệu. Bên cạnh giới thiệu bộ dữ liệu, nhóm đồng thời thực hiện những nghiên cứu, phân tích trong việc sử dụng các mô hình ngôn ngữ lớn (LLMs) vào quá trình xây dựng dữ liệu cho bài toán kiểm chứng sự thật trong tiếng Việt với mong muốn nhằm khắc phục những hạn chế hiện có của bộ dữ liệu ViWikiFC (bao gồm thời gian xây dựng, chi phí gán nhãn và bộ dữ liệu ViWikiFC chỉ tập chung vào xác thực thông tin trên một câu bằng chứng) cũng như đánh giá khả năng tạo sinh của các mô hình ngôn ngữ lớn trong việc tạo sinh dữ liệu cho bài toán kiêm chứng sự thật trong tiếng Việt nói chung và tạo sinh dữ liệu cho các bài toàn khác thuộc lĩnh vực khoa học máy tính nói chung. Trong quá trình đánh giá, phân tích ở cả bộ dữ liệu ViWikiFC và khả năng của LLMs, nhóm sử dụng các kỷ thuật phân tích về khía cạnh ngôn ngữ cũng như thông qua hiệu suất của các mô hình đơn ngôn ngữ và các mô hình đa ngôn ngữ nổi tiếng.
Trân trọng.