وكالات – العربي
أصدرت ميتا أداة جديدة للذكاء الاصطناعي تركز على الصوت ويمكنها إنشاء نغمات موسيقية بناءً على مطالبات النص، تماماً بالطريقة التي يمكن بها لـ Dall-E من OpenAI استحضار الصور.
وتتكون أداة ميتا المدعومة بالذكاء الاصطناعي المسماة AudioCraft، من ثلاثة نماذج متميزة : MusicGen و AudioGen و EnCodec. وتم تدريب هذه النماذج على كتالوج للموسيقى المرخصة والمؤثرات الصوتية المتاحة للجمهور، وتقوم بتوليد موسيقى عالية الجودة بأقل قدر من المشغولات الصوتية.
وباستخدام المطالبات النصية، يمكن أن تساعد هذه النماذج في إنشاء مجموعة واسعة من الأصوات مثل نقيق الطيور والبطاقات المتحركة والمزيد. وتقول ميتا أنه في يوم من الأيام، يمكن استخدام الأداة لإنشاء موسيقى ملحمية أثناء قراءة قصص ما قبل النوم للأطفال.
ومن خلال البقاء على مقربة من جذور الوسائط الاجتماعية، تأمل ميتا أن تكون AudioCraft مفيدة جداً ليس فقط للشركات، ولكن أيضاً لمنشئي المحتوى الذين يرغبون في إضافة بعض الإثارة الصوتية الفريدة إلى مقاطع الفيديو الخاصة بهم التي تتم مشاركتها على منصات مثل إنستغرام.
ومن الجوانب البارزة الأخرى التي تروج لها ميتا هي البساطة، وتقول إن محرك الذكاء الاصطناعي الخاص بالصوت أسهل في الاستخدام من المنصات المنافسة الموجودة. ولن يكون هذا أول جهد لشركة ميتا في مجال الذكاء الاصطناعي التوليدي. وتقدم الشركة أيضاً Voicebox، القادر على إنشاء مقاطع صوتية بست لغات مع تقليل الضوضاء وتنسيقها في نفس الوقت. وهناك CM3leon، نموذج ذكاء اصطناعي مولّد يركز على الصور والنصوص.
وتعتمد Audiocraft على ما تسميه ميتا “EnCodec Neural Audio Codec”، الذي يعالج الصوت بنفس التنسيق المميز مثل روبوتات الدردشة العادية مثل شات جي بي تي أو بارد. ومن العينات التي تمت مشاركتها بواسطة ميتا حتى الآن، يبدو أنه يمكنك تحديد نوع النغمات التي تريدها ومصادر الصوت – التي يمكن أن تكون آلة موسيقية أو أي كائن آخر يتراوح من طائر إلى حافلة – لإنشاء مقطع صوتي باستخدام موجه النص، بحسب موقع سلاش غير.