يقوم باحثو Apple بتطوير وكيل ذكاء اصطناعي محلي يتفاعل مع التطبيقات
بتوقيت بيروت -

على الرغم من وجود 3 مليارات معلمة فقط، فإن Ferret-UI Lite يطابق أو يتفوق على الأداء القياسي للنماذج الأكبر بما يصل إلى 24 مرة. وهنا التفاصيل.

قليلا من الخلفية عن النمس

وفي ديسمبر 2023، نشر فريق من 9 باحثين دراسة بعنوان “FERRET: قم بإحالة أي شيء وتثبيته في أي مكان وبأي دقة“وفيه، قدموا نموذجًا متعدد الوسائط للغة كبيرة (MLLM) كان قادرًا على فهم مراجع اللغة الطبيعية لأجزاء محددة من الصورة:

منذ ذلك الحين، نشرت شركة Apple سلسلة من أوراق المتابعة لتوسيع عائلة طرازات Ferret، بما في ذلك Ferretv2, النمس واجهة المستخدم، و النمس-واجهة المستخدم 2.

خاصة، النمس واجهة المستخدم توسعت المتغيرات في القدرات الأصلية لـ FERRET، وتم تدريبها للتغلب على ما وصفه الباحثون بأنه قصور في MLLMs في المجال العام.

من الأصل ورقة النمس واجهة المستخدم:

كانت التطورات الحديثة في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) جديرة بالملاحظة، ومع ذلك، غالبًا ما تقصر هذه النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) في قدرتها على الفهم والتفاعل بشكل فعال مع شاشات واجهة المستخدم (UI). في هذه الورقة، نقدم Ferret-UI، وهو MLLM جديد مصمم لتحسين فهم شاشات واجهة المستخدم المحمولة، ومجهز بقدرات الإحالة والتأريض والاستدلال. نظرًا لأن شاشات واجهة المستخدم تعرض عادةً نسبة عرض إلى ارتفاع أكثر استطالة وتحتوي على كائنات أصغر حجمًا (على سبيل المثال، الرموز والنصوص) مقارنة بالصور الطبيعية، فإننا ندمج “أي دقة” أعلى Ferret لتكبير التفاصيل والاستفادة من الميزات المرئية المحسنة.

تضمنت دراسة Ferret-UI الأصلية تطبيقًا مثيرًا للاهتمام للتكنولوجيا، حيث يمكن للمستخدم التحدث إلى النموذج لفهم كيفية التفاعل مع الواجهة بشكل أفضل، كما هو موضح على اليمين.

قبل بضعة أيام، قامت شركة Apple بتوسيع عائلة طرازات Ferret-UI إلى أبعد من ذلك، من خلال دراسة تسمى Ferret-UI Lite: دروس من بناء وكلاء واجهة المستخدم الرسومية الصغيرة على الجهاز.

تم بناء Ferret-UI على نموذج مكون من 13B، والذي ركز بشكل أساسي على فهم واجهة المستخدم المحمولة ولقطات الشاشة ذات الدقة الثابتة. وفي الوقت نفسه، قامت Ferret-UI 2 بتوسيع النظام لدعم منصات متعددة وتصور عالي الدقة.

على النقيض من ذلك، يعد Ferret-UI Lite نموذجًا خفيف الوزن للغاية، وهو مصمم للتشغيل على الجهاز، مع الحفاظ على قدرته التنافسية مع وكلاء واجهة المستخدم الرسومية الأكبر حجمًا.

النمس-UI لايت

وفقًا للباحثين في الورقة الجديدة، “تركز غالبية الأساليب الحالية لوكلاء واجهة المستخدم الرسومية (…) على نماذج الأساس الكبيرة.” وذلك لأن “قدرات التفكير والتخطيط القوية للنماذج الكبيرة من جانب الخادم تسمح لهذه الأنظمة الوكيلة بتحقيق قدرات رائعة في مهام التنقل المتنوعة في واجهة المستخدم الرسومية.”

لاحظوا أنه على الرغم من وجود الكثير من التقدم في كل من أنظمة واجهة المستخدم الرسومية متعددة الوكلاء والشاملة، والتي تتبع أساليب مختلفة لتبسيط المهام العديدة التي تتضمن تفاعل الوكيل مع واجهات المستخدم الرسومية (“تأريض واجهة المستخدم الرسومية ذات المستوى المنخفض، وفهم الشاشة، والتخطيط متعدد الخطوات، والتأمل الذاتي”)، إلا أنها في الأساس كبيرة جدًا ومتعطشة للحوسبة بحيث لا يمكن تشغيلها بشكل جيد على الجهاز.

لذلك، شرعوا في تطوير Ferret-UI Lite، وهو متغير مكون من 3 مليارات معلمة من Ferret-UI، والذي “تم تصميمه باستخدام العديد من المكونات الرئيسية، مسترشدًا برؤى حول تدريب نماذج اللغة على نطاق صغير”.

تستفيد Ferret-UI Lite من:

  • حقيقي و بيانات التدريب الاصطناعية من مجالات واجهة المستخدم الرسومية المتعددة؛
  • تقنيات الاقتصاص والتكبير أثناء التنقل (أو وقت الاستدلال) لفهم أجزاء معينة من واجهة المستخدم الرسومية بشكل أفضل؛
  • الإشراف على تقنيات الضبط والتعزيز للتعلم.

والنتيجة هي نموذج يطابق بشكل وثيق أو حتى يتفوق على نماذج وكيل واجهة المستخدم الرسومية المنافسة التي تصل إلى 24 ضعف عدد معلماتها.

في حين أن البنية بأكملها (التي تم تفصيلها بدقة في الدراسة) مثيرة للاهتمام، فإن تقنيات الاقتصاص والتكبير في الوقت الفعلي جديرة بالملاحظة بشكل خاص.

يقوم النموذج بإجراء تنبؤ أولي، والمحاصيل المحيطة به، ثم يعيد التنبؤ بالمنطقة المزروعة. وهذا يساعد هذا النموذج الصغير على تعويض قدرته المحدودة على معالجة أعداد كبيرة من الرموز المميزة للصور.

هناك مساهمة ملحوظة أخرى للورقة وهي كيفية إنشاء Ferret-UI Lite لبيانات التدريب الخاصة بها. قام الباحثون ببناء نظام متعدد الوكلاء يتفاعل مباشرة مع منصات واجهة المستخدم الرسومية الحية لإنتاج أمثلة تدريب تركيبية على نطاق واسع.

يوجد منشئ مهام المنهج الذي يقترح أهدافًا ذات صعوبة متزايدة، ويقوم وكيل التخطيط بتقسيمها إلى خطوات، ويقوم وكيل التأريض بتنفيذها على الشاشة، ويقوم نموذج نقدي بتقييم النتائج.

باستخدام خط الأنابيب هذا، يلتقط نظام التدريب غموض التفاعل في العالم الحقيقي (مثل الأخطاء والحالات غير المتوقعة واستراتيجيات التعافي)، وهو أمر قد يكون القيام به أكثر صعوبة أثناء الاعتماد على بيانات نظيفة مشروحة بشريًا.

ومن المثير للاهتمام، أنه في حين أن Ferret-UI وFerret-UI 2 استخدما لقطات شاشة iPhone وواجهات Apple الأخرى في تقييماتهما، فقد تم تدريب Ferret-UI Lite وتقييمه على بيئات Android والويب وسطح المكتب باستخدام واجهة المستخدم الرسومية، باستخدام معايير مثل AndroidWorld وOSWorld.

لم يذكر الباحثون صراحةً سبب اختيارهم لهذا المسار لـ Ferret-UI Lite، لكن من المحتمل أن يعكس هذا المكان الذي تتوفر فيه اليوم منصات اختبار قابلة للتكرار وواسعة النطاق لعامل واجهة المستخدم الرسومية.

ومهما كان الأمر، فقد وجد الباحثون أنه على الرغم من أن أداء Ferret-UI Lite كان جيدًا في المهام قصيرة المدى ومنخفضة المستوى، إلا أنه لم يكن أداؤه قويًا في التفاعلات الأكثر تعقيدًا ومتعددة الخطوات، وهي مقايضة كانت متوقعة إلى حد كبير، نظرًا للقيود المفروضة على نموذج صغير على الجهاز.

من ناحية أخرى، يوفر Ferret-UI Lite وكيلًا محليًا، وبالتالي خاصًا (نظرًا لعدم الحاجة إلى نقل البيانات إلى السحابة ومعالجتها على خوادم بعيدة) يتفاعل بشكل مستقل مع واجهات التطبيق بناءً على طلبات المستخدم، وهو أمر رائع بكل المقاييس.

لمعرفة المزيد عن الدراسة، بما في ذلك تفاصيل المعايير والنتائج، اتبع هذا الرابط.

عروض الإكسسوارات على أمازون

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.



إقرأ المزيد