Dữ liệu song ngữ là rất quan trọng, không thể thiếu khi xây dựng một mô hình dịch máy. Tuy nhiên, khó khăn lớn nhất là lượng dữ liệu này thường rất ít, đặc biệt là đối với nhiều cặp ngôn ngữ ít phổ biến trên thế giới. Việc thu thập và xử lý dữ liệu song ngữ không chỉ tốn kém về mặt tài chính mà còn đòi hỏi sự đầu tư lớn về thời gian và nhân lực. Do đó, việc tạo ra một bộ dữ liệu đủ lớn và chất lượng để huấn luyện các mô hình dịch máy là một thách thức đáng kể. Để giải quyết vấn đề thiếu dữ liệu cho dịch máy, nhiều phương pháp đã được nghiên cứu và áp dụng như sử dụng dữ liệu đơn ngữ, học chuyển đổi và sử dụng ngôn ngữ trục. Mỗi phương pháp đều có ưu điểm và hạn chế riêng. Việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của cặp ngôn ngữ cần dịch và mục tiêu sử dụng. Bài báo này sẽ giới thiệu tổng quan về một cách tiếp cận chính cho hướng nghiên cứu này.

Parallel corpus is crucial to build a machine translation model. However, the biggest challenge lies in the scarcity of the corpus, especially for the one in less common language pairs. Collecting and processing such data requires a significant investment of not only finance but time and human resources. Therefore, creating a sufficiently large and high-quality data set to train machine translation models is challenging. Various methods have been researched and applied to address this challenge, including monolingual data methods, transfer learning, and pivot languages. Each method has its advantages and disadvantages. Choosing an appropriate solution depends on the language pair and the intended use. This paper introduces an overview of the approach in this research direction.

Facebook Twitter Google+