ĐH Toronto và ĐH Calgary ứng dụng AI tăng tốc đánh giá y khoa

Các nhà nghiên cứu sử dụng AI để đánh giá tốc độ bằng chứng hiện có
Ảnh: University of Toronto

University of Toronto – Các nhà nghiên cứu tại Đại học Toronto và Đại học Calgary vừa giới thiệu một phương pháp sáng tạo ứng dụng trí tuệ nhân tạo (AI) nhằm tối ưu hóa quy trình sàng lọc trong đánh giá hệ thống – một phương pháp quan trọng trong nghiên cứu y khoa, yêu cầu phân tích một lượng lớn dữ liệu từ các tài liệu đã công bố.

Trí tuệ nhân tạo hỗ trợ sàng lọc tài liệu khoa học

Nghiên cứu, được công bố trên tạp chí Annals of Internal Medicine, đã phát triển các mẫu nhắc nhở (prompt templates) sẵn sàng sử dụng, giúp các nhà nghiên cứu ở bất kỳ lĩnh vực nào có thể tận dụng mô hình ngôn ngữ lớn (LLM) như TATGPT để lọc hàng nghìn bài báo khoa học, xác định những nghiên cứu phù hợp với tiêu chí đề ra.

Christian Cao, tác giả chính của nghiên cứu và là sinh viên y khoa năm ba tại Đại học Toronto, cho biết:

“Bất cứ khi nào bác sĩ cần đưa ra quyết định về phương pháp điều trị hoặc loại thuốc phù hợp, họ dựa vào các đánh giá hệ thống để có cơ sở lựa chọn.”

Một bài đánh giá hệ thống chất lượng cao đòi hỏi các nhà nghiên cứu phải thu thập và phân tích tất cả tài liệu liên quan đến một chủ đề nhất định. Tuy nhiên, tùy vào lĩnh vực, họ có thể phải sàng lọc hàng trăm nghìn bài báo, khiến quy trình này trở nên tốn thời gian và chi phí cao.

Cao nhấn mạnh rằng trước đây chưa có một phương pháp tự động hóa nào thực sự hiệu quả để hỗ trợ quy trình này. Đây chính là động lực để nhóm nghiên cứu ứng dụng LLM vào nhiệm vụ sàng lọc, tận dụng khả năng phân loại văn bản ưu việt của AI.

Cải tiến mới giúp tăng độ chính xác khi lọc dữ liệu

Để đánh giá hiệu suất của phương pháp mới, nhóm nghiên cứu đã tạo ra một cơ sở dữ liệu gồm 10 đánh giá hệ thống được công bố, kèm theo danh sách trích dẫn và tiêu chí sàng lọc cụ thể. Sau nhiều vòng thử nghiệm, họ đã phát triển hai cải tiến giúp tăng đáng kể độ chính xác của mô hình.

Cải tiến đầu tiên là áp dụng phương pháp nhắc nhở theo hướng dẫn, yêu cầu LLM suy nghĩ từng bước khi xử lý vấn đề phức tạp. Cao so sánh phương pháp này với việc “hướng dẫn ai đó suy nghĩ to hoặc đi từng bước trong quá trình tư duy.”

Cải tiến thứ hai nhằm giải quyết hiện tượng “mất thông tin giữa chừng” (Lost in the Middle), nơi AI có thể bỏ sót dữ liệu quan trọng nếu thông tin đó nằm giữa tài liệu dài. Nhóm nghiên cứu khắc phục bằng cách đặt hướng dẫn ở cả phần đầu và cuối tài liệu, giúp LLM ghi nhớ tốt hơn nhiệm vụ được giao.

Độ chính xác gần như tuyệt đối và tiết kiệm đáng kể chi phí

Nhờ các cải tiến này, phương pháp sàng lọc mới đạt độ nhạy gần 98% và độ đặc hiệu 85% khi xử lý các bản tóm tắt nghiên cứu. Khi áp dụng cho toàn bộ bài báo, độ nhạy đạt 96,5% và độ đặc hiệu 91%.

Nhóm nghiên cứu cũng tiến hành so sánh các LLM khác nhau, bao gồm GPT-4 của OpenAI, Claude-3.5 của Anthropic và Gemini Pro của Google. Kết quả cho thấy GPT-4 và Claude-3.5 có hiệu suất vượt trội và tương đương nhau.

Ngoài ra, phương pháp này giúp tiết kiệm đáng kể chi phí và thời gian. Các phương pháp truyền thống, dựa vào đánh giá của con người, có thể tiêu tốn hàng nghìn đô tiền lương. Trong khi đó, sử dụng LLM chỉ tốn khoảng 1/10 chi phí và rút ngắn thời gian sàng lọc từ vài tháng xuống dưới một ngày.

Hướng đến tự động hóa toàn diện trong nghiên cứu

Cao kỳ vọng rằng sự tiện lợi và hiệu quả của phương pháp này sẽ khuyến khích các nhà nghiên cứu áp dụng rộng rãi. Đặc biệt, nhóm đã công khai toàn bộ dữ liệu nghiên cứu để cộng đồng có thể tiếp cận miễn phí.

Bước tiếp theo, Cao và cộng sự đang phát triển một ứng dụng mới dựa trên LLM nhằm hỗ trợ khai thác dữ liệu – một công đoạn tiêu tốn nhiều thời gian trong quá trình đánh giá hệ thống.

“Chúng tôi muốn tạo ra một giải pháp toàn diện để việc đánh giá hệ thống trở nên dễ dàng hơn, giúp các bác sĩ có thể tìm kiếm câu trả lời cho bất kỳ vấn đề y khoa nào chỉ bằng một lần truy vấn.” – Cao chia sẻ.

So sánh trường
So sánh