Trường Đại Học Quốc Tế – Đại Học Quốc Gia TP.HCM

XU HƯỚNG PHÓNG ĐẠI SỰ THẬT CỦA CÁC CHATBOT PHỔ BIẾN

Các mô hình ngôn ngữ lớn (large language model – LLM) như ChatGPT và DeepSeek có 73% xác suất cho kết luận thiếu chính xác khi được yêu cầu tóm tắt các nghiên cứu khoa học. Uwe Peters (đại học Utrecht) và Benjamin Chin-Yee (đại học Western University/Cambridge) đã dành gần 1 năm để phân tích gần 5 nghìn bài tóm tắt khoa học của 10 chatbot phổ biến nhất hiện nay.

Các LLM như ChatGPT, DeepSeek, Claude, LLaMA… được giao nhiệm vụ tóm tắt phần tóm lượt (abstract) hoặc toàn bộ bài viết từ các tạp chí hàng đầu như Nature, Science, The Lancet… Kết quả là, 6 trong số 10 mô hình được cho là phóng đại sự thật một cách có hệ thống. Ví dụ, kết luận “Phương pháp chữa trị đã chứng minh hiệu quả trong nghiên cứu trên” (dùng thì quá khứ và cách diễn đạt cẩn trọng) được chatbot viết lại thành “Phương pháp chữa trị có hiệu quả” (dùng thì hiện tại và cách diễn đạt bao quát). Thay đổi như trên tuy nhỏ nhưng lại dễ khiến người đọc hiểu sai về khả năng nghiên cứu áp dụng vào thực tiễn.

Đáng chú ý hơn, khi các chatbot được yêu cầu tăng độ chính xác trong ngôn ngữ, chúng có xác suất khái quát quá mức (overgeneralize) gấp đôi so với ban đầu. Khi so sánh với các đoạn tóm tắt được soạn bởi con người của cùng một bài nghiên cứu, các chatbot dễ phạm sai sót gấp 5 lần. Bất ngờ thay, các mô hình AI “đời mới” như ChatGPT-4o và DeepSeek lại diễn đạt thiếu chính xác hơn mô hình cũ.

Các nhà nghiên cứu khuyến nghị sử dụng các mô hình ngôn ngữ lớn (LLMs) như Claude, vốn có độ chính xác khái quát hóa cao nhất; thiết lập chatbot ở mức “nhiệt độ” thấp hơn (tham số điều chỉnh mức độ sáng tạo của chatbot); và sử dụng các câu lệnh (prompt) buộc tóm tắt khoa học phải trình bày gián tiếp, ở thì quá khứ.

Nguồn: https://phys.org/…/2025-05-prominent-chatbots-routinely…

Tổng hợp: Khoa Lê