مميزات نموذج Gemini 2.5 Computer Use
كشفت شركة قوقل رسميًا عن نموذجها الجديد الذي يحمل اسم Gemini 2.5 Computer Use، وهو إصدار تجريبي موجَّه للمطورين ضمن مشروع Mariner وميزة AI Mode. يقدّم هذا النموذج نقلة نوعية في تفاعل الذكاء الاصطناعي مع واجهات المستخدم الرسومية، حيث أصبح بإمكانه تنفيذ المهام داخل المتصفحات والمواقع الإلكترونية خطوة بخطوة حتى إتمامها بالكامل.
ويستند النموذج إلى قدرات Gemini 2.5 Pro المتقدمة في الفهم البصري والمنطقي، مما يتيح للذكاء الاصطناعي التعامل مع عناصر الواجهة مباشرة مثل النقر، والكتابة، والتمرير، بطريقة تحاكي تصرفات المستخدم البشري بدقة وفعالية.
نموذج Gemini 2.5 Computer Use متاح الآن للمطورين
النموذج متاح الآن للمطورين ضمن واجهة Gemini API في كلٍ من Google AI Studio وVertex AI، ويمثّل خطوة مهمة نحو تطوير “وكلاء ذكيين” قادرين على تنفيذ المهام داخل المتصفحات والتطبيقات دون الحاجة لتدخل يدوي.
يعتمد Gemini 2.5 Computer Use على أداة جديدة تُدعى Computer Use داخل واجهة Gemini API. تبدأ العملية بتلقّي النموذج طلب المستخدم، وصورة من الشاشة، وسجلًا بالخطوات السابقة، ثم يقوم بتحليلها لتوليد استجابة تتضمن عادةً أمرًا مثل النقر، الكتابة، أو التمرير. بعد تنفيذ الإجراء، تُرسل صورة جديدة للواجهة ليكمل الذكاء الاصطناعي المهمة في حلقة تكرارية حتى اكتمالها.
يدعم النموذج مجموعة واسعة من الأوامر تشمل:
– الانتقال بين الصفحات والروابط
– ملء النماذج وإرسالها
– استخدام القوائم المنسدلة والفلاتر
– تنفيذ أوامر لوحة المفاتيح
– السحب والإفلات
ويُظهر النموذج أداءً قويًا على متصفحات الويب وأجهزة أندرويد، مع دقة وسرعة تتفوّقان على النماذج المنافسة مثل Claude ونماذج OpenAI، حيث يحقق نتائج رائدة في اختبارات Online-Mind2Web وAndroidWorld بأقل زمن استجابة.
تركيز كبير على الأمان
تقول شركة قوقل إن النموذج خضع لتدريب خاص لتقليل المخاطر المرتبطة بالتحكم في واجهات المستخدم، مع أنظمة حماية تمنع تنفيذ الأوامر عالية الخطورة مثل شراء العناصر أو تجاوز إجراءات الأمان دون موافقة المستخدم. كما أضافت الشركة آلية فحص الأمان عند كل خطوة لضمان أن جميع الأوامر التي ينفذها النموذج آمنة ومصرح بها.
استخدامات مبكرة للنموذج
تستخدم شركة قوقل هذا النموذج داخليًا في اختبار واجهات المستخدم لتسريع تطوير البرمجيات، كما تعتمد عليه مشاريع مثل Project Mariner وميزات AI Mode في البحث. أما المطورون في برنامج الوصول المبكر فقد استخدموه لإنشاء مساعدين شخصيين وأدوات أتمتة للمهام، وأكدوا أنه أسرع بنسبة تصل إلى 50% وأكثر دقة من المنافسين.
كيفية تجربة النموذج؟
النموذج متاح الآن في النسخة العامة التجريبية من خلال:
Gemini API عبر Google AI Studio وVertex AI
بيئة تجريبية مقدمة من Browserbase
مستندات تفصيلية لبناء الحلقات التفاعلية محليًا أو في السحابة
بهذه الخطوة، تفتح شركة قوقل الباب أمام جيل جديد من الذكاء الاصطناعي القادر على “استخدام الحاسوب” فعليًا، ليصبح أكثر تفاعلًا وذكاءً في تنفيذ المهام الرقمية المعقدة.
وإليكم ملخص سريع لمميزات نموذج Gemini 2.5 Computer Use في النقاط أدناه:
تفاعل مباشر مع واجهات المستخدم: يمكنه النقر، الكتابة، التمرير، والسحب والإفلات داخل المتصفحات والتطبيقات.
مدعوم بقدرات Gemini 2.5 Pro في الفهم البصري والمنطقي، ما يجعله يفهم السياق ويحلله بدقة.
حلقة تنفيذ ذكية: النموذج يعمل في دورة مستمرة لتحليل الشاشة وتنفيذ الأوامر حتى إنجاز المهمة بالكامل.
دعم واسع للأوامر: يشمل التنقل بين الصفحات، ملء النماذج، التعامل مع القوائم والفلاتر، واستخدام اختصارات لوحة المفاتيح.
أداء متفوق: يتفوّق على منافسين مثل OpenAI وClaude في دقة التحكم بالويب وسرعة التنفيذ.
متوافق مع الويب وأندرويد: مُحسّن لمتصفحات الإنترنت ويُظهر أداءً قويًا في مهام واجهات أندرويد.
أنظمة أمان مدمجة: تمنع الأوامر عالية الخطورة وتطلب تأكيد المستخدم عند الضرورة.
خدمة فحص الأمان عند كل خطوة لضمان أن جميع الأوامر الآلية آمنة ومصرّح بها.
استخدامات داخلية في جوجل: يُستخدم لاختبار البرمجيات وتسريع تطويرها.
متاح للمطورين عبر واجهة Gemini API في Google AI Studio وVertex AI مع بيئة تجريبية من Browserbase.
قد يهمك أيضًا: طريقة الانضمام للنسخة التجريبية من واتساب وتجربة ميزاته قبل طرحها للجميع
المصدر: سعودي اندرويد
مواضيع مشابهة
اخر المواضيع