ĐÁNH GIÁ CÁC PHƯƠNG PHÁP HỌC MÁY TRONG DỰ ĐOÁN ĐỘ TAN CỦA PHÂN TỬ HỮU CƠ: ỨNG DỤNG TRONG GIÁO DỤC CHUYÊN NGÀNH HOÁ HỌC
Lĩnh vực: Khoa học Giáo dục
Khoa: Ngoài trường
Lượt xem: 8
Trong kỷ nguyên số 4.0, việc tích hợp các công cụ tính toán vào giảng
dạy chuyên ngành ngày càng được chú trọng. Bài báo này giới thiệu một nghiên
cứu tình huống phục vụ giảng dạy hóa học, trong đó sinh viên được tiếp cận các
phương pháp học máy để dự đoán độ tan trong nước (log S) dựa trên bộ dữ liệu AqSolDB. Ba phương pháp được so sánh gồm: mô tả phân tử truyền thống (RDKit), mô tả lượng tử học (AM1) và học sâu dựa trên hình ảnh (U-Net). Kết quả cho thấy mô tả phân tử 2D truyền thống không chỉ đạt độ chính xác cao nhất mà còn có chi phí tính toán thấp, phù hợp với mục tiêu giảng dạy. Trong khi đó, mô tả lượng tử không cải thiện đáng kể hiệu suất nhưng làm tăng mạnh chi phí tính toán và phương pháp học trực quan cho kết quả kém nhất. Nghiên cứu này giúp sinh viên hiểu rõ vai trò của chọn lọc đặc trưng, sự phù hợp của mô hình và cân nhắc giữa độ chính xác và hiệu quả tính toán.
This study presents an instructional case study in computational chemistry, aimed at enhancing chemistry education through the application of machine learning techniques for predicting aqueous solubility (log S) using the AqSolDB dataset. It compares three modeling approaches, including traditional chemoinformatics descriptors, quantum chemical descriptors, and visual learning methods based on descriptor-to-image transformation, to help students understand the strengths and limitations of each. The results show that conventional 2D molecular descriptors offer the best balance of predictive accuracy and computational efficiency, making them ideal for educational use. In contrast, incorporating quantum chemical descriptors increases computational cost substantially, with minimal performance gain, while visual learning approaches such as U-Net applied to molecular images significantly underperform. These findings provide practical insights into feature selection, model suitability, and the trade-offs involved in computational chemistry, supporting curriculum development in cheminformatics and molecular modeling courses.