تتصدر دولة الإمارات إقليمياً في السعي للاستفادة من الذكاء الاصطناعي والتوليدي باعتباره أحد المكونات الرئيسية للثورة الصناعية الرابعة، وترسيخ مكانتها وجهة للشركات العالمية والإقليمية العاملة في هذا المجال الحيوي.
ودخلت الإمارات مجال تطوير نماذج اللغات الكبيرة مفتوحة المصدر، ضمن خططها الطموحة لتعظيم الاستفادة من الذكاء الاصطناعي التوليدي، وفي سياق مسيرتها لترسيخ الاقتصاد المعرفي وتطوير أنظمة اقتصادية جديدة تواكب المستقبل، وذلك وفقاً لورقة بحثية جديدة أعدها «انترريجونال للتحليلات الاستراتيجية» ومقره أبوظبي.
وبحسب «البوابة الرسمية لحكومة دولة الإمارات»، تعد النماذج اللغوية الكبيرة مفتوحة المصدر أحد أنواع نماذج الذكاء الاصطناعي التي يتم تدريبها على كميات هائلة من النصوص كي تتعلم الأنماط والقواعد والسياقات والدلالات في اللغة، كما تستخدم مسرعات لمعالجة البيانات النصية الضخمة لفهم اللغة البشرية ومحاكاتها.
جهود كبيرة
وأشار «انترريجونال» إلى الجهود الكبيرة التي أطلقتها دولة الإمارات ممثلة في العديد من الجهات الحكومية، حيث قال معالي عمر بن سلطان العلماء وزير دولة للذكاء الاصطناعي والاقتصاد الرقمي وتطبيقات العمل عن بعد في تصريح سابق لصحيفة «فاينانشال تايمز»: إن الصفقة التي وقعت مع مايكروسوفت للاستحواذ على حصة بـ 1.5 مليار دولار في G42، شركة الذكاء الاصطناعي في أبوظبي، هي مجرد بداية لتعاون تقني أكبر بين الإمارات والولايات المتحدة الأمريكية.
وذكرت «فاينانشال تايمز» مؤخراً أن أبوظبي تستثمر بكثافة في مشاريع الذكاء الاصطناعي في الخارج، حيث استقطبت قادة الصناعة مثل: سام ألتمان في شركة «أوبن إيه آي» وجنسن هوانغ في «إنفيديا». وفي السياق نفسه، أطلقت جامعة محمد بن زايد للذكاء الاصطناعي نماذج: «بايميدكس»، و«بالو» و«جلام إم»، و«جيوتشات»، و«موبايل لاما» كنماذج لغوية صغيرة وكبيرة متعددة الوسائط تستخدم التعلّم متعدد الوسائط لمعالجة البيانات وتحليلها من وسائط أو مصادر متعددة تتخطى حدود النصوص لتشمل المقاطع الصوتية والصور، مع التركيز بشكل خاص على قدرات هذه النماذج في اللغة العربية.
معهد الابتكار التكنولوجي
ويتيح معهد الابتكار التكنولوجي التابع لـ«مجلس أبحاث التكنولوجيا المتطورة» لحكومة أبوظبي، نموذج الذكاء الاصطناعي مفتوح المصدر (فالكون 40 بي) للاستخدامات البحثية والتجارية والذي يشمل 40 مليار عامل متغير، وهو مدرَّب على تريليون رمز (token)، موفِّراً بذلك إمكانية الوصول إلى قدرات متكاملة غير مسبوقة أمام الباحثين والمبتكرين والمؤسسات الصغيرة والمتوسطة.
وأعلن معهد الابتكار التكنولوجي عن إطلاق أول منصة متميزة للنماذج اللغوية العربية الكبيرة، وذلك بالتعاون مع منصة «Hugging Face» تحت اسم (OALL) تهدف إلى إنشاء منصة مكرسة لتقييم ومقارنة أداء النماذج اللغوية الكبيرة الخاصة باللغة العربية.
مجموعة «G42»
وقال مركز «انترريجونال»: إن مجموعة «G42» التي أنشئت في أبوظبي تعد أبرز شركات التكنولوجية الإماراتية الرائدة عالمياً في إنشاء وتطوير تقنيّات الذكاء الاصطناعي، والتي أعلنت أخيراً عن عزمها إطلاق نموذج «ناندا» كأحدث نموذج لغة كبير للغة الهندية يتكون من 13 مليار بارامتر، والذي دُرِّب على قاعدة بيانات تضم ما يقرب 2.13 تريليون وحدة لغوية، بما في ذلك اللغة الهندية.
وقالت «جي 42»: إن إطلاق نموذج «ناندا» يأتي نتيجة التعاون بين «إنسبشن»، التابعة للمجموعة وجامعة محمد بن زايد للذكاء الاصطناعي شركة وسيريبراس سيستمز. وكانت «جي42» أطلقت في أغسطس 2023 نموذج «جيس» أول نموذج لغة كبير مفتوح المصدر ليوفر حلول معالجة اللغة الطبيعية القائمة على العربية، وفتح المجال للوصول إلى قدرات الذكاء الاصطناعي التوليدي للغة الأم لأكثر من 400 مليون من المتحدثين باللغة العربية على مستوى العالم.
واستعرضت الورقة مفهوم «نماذج اللغات الكبيرة» المعتمدة على تقنيات الذكاء الاصطناعي، حيث ذكرت شركة «Shaip» العالمية أن نماذج اللغات الكبيرة تعد بمثابة أنظمة ذكاء اصطناعي (AI) متقدمة مصممة لمعالجة وفهم وإنشاء نص يشبه الإنسان استناداً إلى تقنيات التعلم العميق المدربة على مجموعات بيانات ضخمة. وبحسب موسوعة «ويكيبيديا» فإن النموذج اللغوي الكبير هو نوع من نماذج اللغة يتميز بقدرته على فهم وتوليد اللغة للأغراض العامة باستخدام كم هائل من المعطيات.
ووفقاً لشركة «أمازون ويب سيرفيسز» العالمية، تعرف نماذج اللغة الكبيرة بكونها نماذج تعليم عميق كبيرة جداً مدرَّبة مسبقاً على كميات هائلة من البيانات قادرة على التدريب والتعلم الذاتي، وتتوفر العديد من التطبيقات العملية لنماذج اللغات الكبيرة مثل: كتابة المحتوى باستثناء تشات جي بي تي، جي بي تي-3، فيما يمكن لنماذج: Claude وLlama 2 وCohere Command وJurassiccan كتابة محتوى أصلي، فيما يقترح نموذج AI21 Wordspice إجراء تغييرات على الجُمل الأصلية لتحسين الأسلوب والصياغة.