SINH VIÊN NGÀNH KHOA HỌC DỮ LIỆU CÓ BÀI BÁO KHOA HỌC ĐẠT GIẢI 3 TẠI CUỘC THI DSAA 2023 CHALLENGE THUỘC HỘI NGHỊ QUỐC TẾ DSAA 2023

on 25 Tháng 10 2023.

CHÚC MỪNG NHÓM SINH VIÊN ĐẠT GIẢI 3 TẠI CUỘC THI DSAA 2023 CHALLENGE THUỘC HỘI NGHỊ QUỐC TẾ DSAA 2023

Khoa Khoa học và Kỹ thuật Thông tin chúc mừng nhóm sinh viên và GVHD đã có bài báo được đăng tại Hội nghị Quốc tế DSAA 2023

Bài báo: "A Text-based Approach For Link Prediction on Wikipedia Articles"

Link bài báo: https://arxiv.org/abs/2309.00317

Sinh viên thực hiện:

• Trần Hoàng Anh – 20521079 – KHDL2020 – Tác giả chính

• Nguyễn Minh Tâm – 20520748 – KHDL2020 – Đồng tác giả

Giáo viên hướng dẫn:

• ThS. Lưu Thanh Sơn

Tóm tắt bài báo:

Wikipedia là bộ bách khoa toàn thư lớn nhất nơi các bài viết được liên kết với nhau bằng các siêu liên kết. Bằng cách dự đoán các liên kết trong tương lai giữa các bài viết, chúng ta có thể nâng cao khả năng điều hướng và khám phá của mạng, đồng thời cung cấp cho người dùng các bài viết có liên quan và nhiều thông tin hơn thông qua các liên kết. Cuộc thi DSAA 2023 tập trung vào nhiệm vụ dự đoán liên kết được áp dụng cho các bài viết trên Wikipedia. Trong thử thách này, chúng em được cung cấp một sơ đồ con bị phân tán của mạng Wikipedia và mục tiêu của chúng tôi là dự đoán xem liệu có tồn tại một liên kết giữa hai trang Wikipedia u và v hay không. Đặc biệt, chúng em được cung cấp một tệp sự thật cơ bản chứa các cặp nút tương ứng đối với các mẫu positive hoặc negative. Nếu một cạnh (edge) tồn tại giữa hai nút thì nhãn tương ứng được đặt thành 1, nếu không thì nhãn là 0. Tuy nhiên, nếu một cặp nút không được báo cáo trong tệp, điều này không có nghĩa là không có cạnh nào giữa chúng. Một số cặp nút bị thiếu này sẽ xuất hiện trong tệp thử nghiệm và chúng ta sẽ phải dự đoán liệu có liên kết giữa chúng hay không.

Trong bài viết này, chúng em sẽ trình bày cách tiếp cận và giải pháp của nhóm cho bài toán này. Cách tiếp cận của nhóm dựa trên văn bản, và chúng tôi đã sử dụng tính năng gán nhãn Part-Of-Speech (POS) để trích xuất các đặc điểm từ văn bản. Trước khi chạy các mô hình dự đoán, trước tiên nhóm đã phân tích và trực quan hóa dữ liệu để hiểu thêm về tập dữ liệu. Tiếp theo, nhúng (embedding) các nút bằng cách sử dụng POS Tagging và đồng thời cũng tiến hành thống kê t-test để chọn thẻ. Cuối cùng, chạy các mô hình phân loại trên tập dữ liệu được nhúng. Hầu hết các mô hình chúng tôi sử dụng đều là mô hình Machine Learning cổ điển, đảm bảo tính hiệu quả cho phương pháp tiếp cận của chúng tôi. Phương pháp của chúng tôi đã lưu trữ 0,99999 trong cả tập thử nghiệm public và private, đồng thời xếp hạng 3 chung cuộc trong cuộc thi.

--------------------------------------

Hội nghị quốc tế IEEE lần thứ 10 về Khoa học dữ liệu và phân tích nâng cao (DSAA) nêu bật sức mạnh tổng hợp liên ngành mạnh mẽ giữa thống kê, máy tính và thông tin/khoa học trí tuệ cũng như tương tác giữa các miền giữa giới học thuật và doanh nghiệp về khoa học và phân tích dữ liệu. DSAA thiết lập tiêu chuẩn cao cho ban tổ chức, các bài phát biểu quan trọng, bài nộp cho hội nghị chính và các phiên họp đặc biệt cũng như tỷ lệ chấp nhận giấy cạnh tranh. DSAA đã được công nhận rộng rãi là cuộc họp thường niên chuyên dụng hàng đầu về khoa học và phân tích dữ liệu, chẳng hạn như Google Metrics và China Computer Foundation. DSAA 2023 cung cấp một diễn đàn hàng đầu quy tụ các nhà nghiên cứu, các nhà thực hành trong ngành và chính phủ, cũng như các nhà phát triển và người sử dụng giải pháp dữ liệu lớn để trao đổi những phát triển lý thuyết mới nhất trong Khoa học dữ liệu và phương pháp thực hành tốt nhất cho nhiều ứng dụng. DSAA 2023 mời gửi các bài báo mô tả nghiên cứu đổi mới về tất cả các khía cạnh của khoa học dữ liệu và phân tích nâng cao cũng như các bài báo hướng đến ứng dụng có những đóng góp quan trọng, nguyên bản và có thể tái tạo để cải thiện việc thực hành khoa học và phân tích dữ liệu trong các tình huống thực tế.

Một lần nữa Khoa KH&KTTT nhiệt liệt chúc mừng nhóm sinh viên và GVHD ThS. Lưu Thanh Sơn.