Bitget App
تداول بذكاء
شراء العملات المشفرةنظرة عامة على السوقالتداولالعقود الآجلةالتداول بالنسخBotsEarn
أطلقت شركة Gensyn إطار عمل RL Swarm للتعلم التعزيزي التعاوني، وتخطط لإطلاق شبكة اختبار في مارس

أطلقت شركة Gensyn إطار عمل RL Swarm للتعلم التعزيزي التعاوني، وتخطط لإطلاق شبكة اختبار في مارس

Mpost2025/02/27 19:00
By:Mpost

في سطور قدمت شركة Gensyn RL Swarm لتسهيل التعلم التعزيزي التعاوني وأعلنت عن إطلاق شبكة اختبار في مارس، مما يتيح مشاركة أوسع في تطوير الذكاء الآلي المفتوح.

شبكة للذكاء الآلي، جينسين لقد قدمت شركة RL Swarm، وهو نظام نظير إلى نظير لامركزي مصمم لتسهيل التعلم التعزيزي التعاوني عبر الإنترنت. وفي الشهر المقبل، يعتزم المشروع إطلاق شبكة اختبار، مما يسمح بمشاركة أوسع في تطوير الذكاء الاصطناعي المفتوح.  

RL Swarm عبارة عن منصة مفتوحة المصدر بالكامل تتيح لنماذج التعلم التعزيزي التدريب بشكل جماعي عبر أنظمة موزعة. وهي بمثابة عرض توضيحي في الوقت الفعلي لنتائج الأبحاث التي تشير إلى أن النماذج التي تستفيد من التعلم التعزيزي يمكنها تحسين كفاءة التعلم الخاصة بها عند تدريبها كجزء من سرب تعاوني وليس في عزلة.  

إن تشغيل عقدة سرب يوفر القدرة على بدء سرب جديد أو الاتصال بسرب موجود باستخدام عنوان عام. داخل كل سرب، تشارك النماذج في التعلم التعزيزي كمجموعة، باستخدام بروتوكول اتصال لامركزي - يعتمد على Hivemind - لتسهيل تبادل المعرفة وتحسين النموذج. من خلال تشغيل برنامج العميل المقدم، يمكن للمشاركين الانضمام إلى سرب ومراقبة التحديثات المشتركة وتدريب النماذج محليًا مع الاستفادة من الذكاء الجماعي. بالنظر إلى المستقبل، سيتم تقديم تجارب إضافية، مما يشجع على المشاركة الأوسع في تطوير هذه التكنولوجيا.  

ندعو الأفراد للانضمام إلى RL Swarm لتجربة النظام بشكل مباشر. يمكن المشاركة من خلال أجهزة المستهلك القياسية وموارد وحدة معالجة الرسوميات المستندة إلى السحابة الأكثر تقدمًا.

شبكة الذكاء الآلي

قبل عامين، وضعنا رؤيتنا لبروتوكول حوسبة التعلم الآلي. بروتوكول يربط كل جهاز في العالم بشبكة مفتوحة للذكاء الآلي، دون حراس أو حدود اصطناعية.

هذا الأسبوع، سوف نكون… pic.twitter.com/W9WGJHiJPI

— جينسين (@gensynai) ٥ فبراير، ٢٠٢٤

كيف يعمل RL Swarm؟ 

جينسين لقد تصورت شركة Gensyn منذ فترة طويلة مستقبلًا حيث يتم توزيع التعلم الآلي بشكل لامركزي عبر شبكة واسعة من الأجهزة. وبدلاً من الاعتماد على نماذج مركزية كبيرة، فإن هذا النهج يتضمن تقسيم النماذج إلى مكونات أصغر ومترابطة تعمل بشكل تعاوني. وكجزء من بحثها في هذه الرؤية، استكشفت شركة Gensyn مسارات مختلفة نحو التعلم اللامركزي ولاحظت مؤخرًا أن التعلم التعزيزي بعد التدريب يكون فعالًا بشكل خاص عندما تتواصل النماذج وتقدم ملاحظات لبعضها البعض.  

على وجه التحديد، تشير التجارب إلى أن نماذج التعلم المعزز تعمل على تحسين كفاءة التعلم عندما يتم تدريبها كجزء من سرب تعاوني وليس بشكل مستقل.  

في هذا الإعداد، تقوم كل عقدة سرب بتشغيل نموذج Qwen 2.5 1.5B وتشارك في حل المشكلات الرياضية (GSM8K) من خلال عملية منظمة من ثلاث مراحل. في المرحلة الأولى، يحاول كل نموذج بشكل مستقل حل المشكلة المعطاة، وتوليد المنطق والإجابة بتنسيق محدد. في المرحلة الثانية، تقوم النماذج بمراجعة استجابات أقرانها وتقديم ملاحظات بناءة. في المرحلة النهائية، يصوت كل نموذج على ما يتوقع أن تعتبره الأغلبية أفضل إجابة، ثم يصقل استجابته وفقًا لذلك. من خلال هذه التفاعلات التكرارية، تعمل النماذج بشكل جماعي على تعزيز قدراتها على حل المشكلات.  

تشير النتائج التجريبية إلى أن هذه الطريقة تعمل على تسريع عملية التعلم، مما يتيح للنماذج إنشاء استجابات أكثر دقة على بيانات اختبار غير مرئية مع تكرارات تدريب أقل.  

توضح عمليات تصور البيانات باستخدام TensorBoard الاتجاهات الرئيسية التي لوحظت في عقدة سرب مشاركة. تعرض هذه المخططات أنماطًا دورية بسبب "إعادة الضبط" الدورية التي تحدث بين جولات التدريب التعاوني. يمثل المحور x في جميع المخططات الوقت المنقضي منذ انضمام العقدة إلى السرب، بينما ينقل المحور y مقاييس أداء مختلفة. من اليسار إلى اليمين، تصور المخططات: مكافأة صحة الإجماع، والتي تقيس الحالات التي قام فيها النموذج بتنسيق استجابته بشكل صحيح وأنتج إجابة دقيقة رياضيًا؛ المكافأة الإجمالية، وهي مجموع مرجح للتقييمات القائمة على القواعد (مثل التنسيق والدقة الرياضية والتماسك المنطقي)؛ خسارة التدريب، والتي تعكس كيف يتكيف النموذج بناءً على إشارات المكافأة لتحسين عملية التعلم الخاصة به؛ وطول إكمال الاستجابة، والذي يتتبع عدد الرموز المستخدمة في الاستجابات - مما يشير إلى أن النماذج تصبح أكثر إيجازًا عندما تتلقى انتقادات الأقران.

thumbsUp
0

إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.

منصة PoolX: احتفظ بالعملات لتربح
ما يصل إلى 10% + معدل الفائدة السنوي. عزز أرباحك بزيادة رصيدك من العملات
احتفظ بالعملة الآن!