NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

on .

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

Phạm Minh Mẫn - CH1802054

Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn bản,... Với sự phát triển không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước. Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ khác như tiếng Anh, tiếng Trung,… Do đó, luận văn nghiên cứu sâu hơn về đề tài này.

Về mặt thực tiễn, rút trích quan hệ có nhiều ứng dụng trong các lĩnh vực bao gồm:

- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá cả sản phẩm, phân tích tâm lý của khách hàng.

- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước...

Về mặt khoa học, nghiên cứu có những đóng góp sau:

- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

- Thảo luận, đánh giá các phương pháp rút trích quan hệ và phương pháp xử lý phân giải đồng tham chiếu, đồng thời đề xuất một số hướng phát triển tiếp theo của bài toán.

Luận văn đã đạt được những kết quả sau:

- Nắm được tổng thể về bài toán rút trích quan hệ, tình hình các nghiên cứu trong nước và trên thế giới, các xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như phân giải đồng tham chiếu.

- Trên cơ sở kế thừa và nghiên cứu các mô hình kết hợp dựa trên BERT để xử lý bài toán RE trong tiếng Việt, luận văn so sánh mô hình kết hợp dựa trên mô hình PhoBERT và XLM-RoBERTa [22] với mô hình đơn lẻ như PhoBERT. Từ đó, có thể thấy rằng phương pháp áp dụng các mô hình kết hợp cho kết quả tối ưu hơn so với phương pháp áp dụng mô hình đơn lẻ.

- Đề xuất, đánh giá phương pháp phân giải đồng tham chiếu mới cho văn bản tiếng Việt để phục vụ cho bài toán rút trích quan hệ với F1 dựa trên ba độ đo MUC, B3, CEAFe lần lượt đạt 66.50%, 82.70%, 76.26%.

- Xây dựng hệ thống demo cho bài toán RE trong văn bản tiếng Việt.

Tuy nhiên, ngoài các kết quả đạt được, luận văn vẫn còn một vài hạn chế sau:

- Chưa giải quyết bài toán mất cân bằng dữ liệu trong việc huấn luyện mô hình RE trong tiếng Việt.

- Chưa kết hợp kết quả của bài toán đồng tham chiếu vào hệ thống RE đã xây dựng.

Trân trọng.