تعد تقنيات الترجمة الحديثة باستخدام الذكاء الاصطناعي إنجازًا مهمًا في تحقيق التواصل الفعال بين الثقافات واللغات المتعددة، وقد أثبتت هذه التقنيات قدرتها على تحويل النصوص والخطب من وإلى مجموعة واسعة من اللغات المستخدمة حول العالم، والتي تزيد عن 6500 لغة.
ومع ذلك، تعاني هذه التقنيات من تحدي أساسي يتمثل في تخصص كل نموذج في مهمة معينة أو مهمتين، مثل ترجمة النص إلى الصوت والعكس، وهذا ما دفع شركة ميتا لتطوير نموذج شامل يجمع بين هذه المهام وأكثر.
وأعلنت شركة ميتا مؤخرًا عن تطوير نموذج متعدد اللغات ومتعدد المهام يحمل اسم “SeamlessM4T”، ويأتي هذا النموذج ليكون حلاً متكاملًا لمشكلة تخصص نماذج الترجمة الحالية، فبدلاً من وجود نموذج لترجمة النص إلى الصوت وآخر لترجمة الصوت إلى النص، يمكن لـ “SeamlessM4T” القيام بكل هذه المهام بكفاءة ودقة.
ووفقًا لما ذُكر في مدونة ميتا، يمتاز النموذج “SeamlessM4T” بالميزات التالية:
- ترجمة متعددة اللغات
يمتاز هذا النموذج بقدرته على الترجمة بين ما يقرب من 100 لغة مختلفة، مما يمكّن من التواصل بسلاسة وفعالية عبر الحدود اللغوية.
- تحويل النص إلى صوت والعكس
“SeamlessM4T” يتميز بقدرته على تحويل النصوص إلى كلام والعكس، مما يُسهّل التواصل الفعال حتى لأولئك الذين يواجهون صعوبة في قراءة النصوص.
- تواصل شامل وسلس
هذا النموذج يُمكنه التحويل بين اللغات المدعومة سواءً كان النص أو الكلام، مما يخلق تجربة تواصل سلسة وشاملة للمستخدمين.
وفى منشور مدونتهم، لاحظ فريق بحث Meta أن SeamlessM4T يحسن بشكل كبير أداء اللغات المنخفضة والمتوسطة الموارد التي ندعمها، مع الحفاظ على الأداء القوي في اللغات عالية الموارد، مثل الإنجليزية والإسبانية والألمانية. وقامت Meta ببناء SeamlessM4T من بنية نموذج UnitY متعددة المهام المستندة إلى PyTorch، والتي تقوم بالفعل بتنفيذ ترجمات مشروطة متنوعة بالإضافة إلى التعرف التلقائي على الكلام.
ويستخدم نظام BERT 2.0 لتشفير الصوت، وتقسيم المدخلات إلى الرموز المكونة الخاصة بها للتحليل، ووحدة التشفير الصوتي HiFi-GAN لإنشاء استجابات منطوقة.