LMArena

LMArena هي منصة شعبية يقودها المجتمع للتقييم المقارن الجماعي لنماذج اللغة الكبيرة، تتيح للمستخدمين مقارنة نماذج الذكاء الاصطناعي جنبًا إلى جنب والتصويت للإجابة الأفضل، ما يخلق تصنيفات مُحققة بواسطة البشر. يمكنك أيضاً النقر على الزر أدناه لاستخدام ميزات توليد الصور والفيديو ذات الصلة على Cuty AI.

الميزات الرئيسية

اكتشف ما يجعل lmarena استثنائيًا

Feature 01

مواجهات نماذج مُعمّاة

يتيح نظام المعارك المعمّاة في LMArena للمستخدمين إجراء مقارنات جنبًا إلى جنب مع نماذج ذكاء اصطناعي مجهولة مثل GPT-4 وClaude 3 وGemini، واختيار الإجابة الأفضل دون معرفة أي نموذج أنتجها. تزيل هذه الطريقة للتقييم المعمّى التحيّز وتضمن أن تستند المقارنات فقط إلى جودة الإجابات وليس إلى سمعة العلامة التجارية أو الأفكار المسبقة. يقدّم المستخدمون prompts ويتلقون إجابتين مُعمّاتين من النماذج، ثم يصوّتون للأفضل، مما يخلق عملية تقييم عادلة وشفافة. يمثل نظام المعارك المعمّاة جزءًا أساسيًا من رسالة LMArena في تقديم تصنيفات صادقة وغير متحيزة تعكس الأداء الفعلي في مهام مختلفة تشمل توليد النصوص والبرمجة ومهام الصور.

Feature 02

نظام تصنيف Elo ولوحات ترتيب مباشرة

تستخدم LMArena نظام تصنيف Elo المشابه لتصنيفات الشطرنج لإنشاء لوحات ترتيب مباشرة تحدث في الوقت الحقيقي تقريبًا أثناء تصويت المستخدمين لمقارنات النماذج. يعكس هذا النظام المتقدّم لتصنيف النماذج تفضيلات البشر الجماعية ويقدّم صورة ديناميكية مجمعة عن جودة النماذج بناءً على التفاعل المباشر للمستخدمين. تعرض لوحات الترتيب كيف تتراص النماذج أمام بعضها، مما يمنح المستخدمين والمطوّرين رؤية واضحة لأداء النماذج في العالم الحقيقي. يضمن نظام Elo أن تكون التصنيفات مبنية على الأداء المقارن الفعلي بدلًا من المعايير المعزولة، مما يوفر تمثيلًا أدق للنماذج الأفضل أداءً في السيناريوهات العملية.

Feature 03

وصول مجاني ولا يتطلب تسجيلًا

توفر LMArena وصولًا مجانيًا تمامًا لاختبار ومقارنة نماذج ذكاء اصطناعي مختلفة دون الحاجة إلى الاشتراك أو التسجيل، مما يجعل تقييم نماذج الذكاء الاصطناعي المتقدم متاحًا للجميع. تساهم سياسة الوصول المفتوح هذه في ديمقراطية تقييم الذكاء الاصطناعي، إذ تسمح للمستخدمين من خلفيات متنوعة بالمشاركة في المقارنات والمساهمة في التصنيفات الجماعية. يضمن التزام المنصة بالوصول المجاني توفر رؤى قيِّمة عن أداء النماذج للباحثين والمطوّرين والمستخدمين الفضوليين على حد سواء، دون حواجز مالية. تُعد هذه الإمكانية ضرورية لإنشاء مجموعات بيانات شاملة ومتنوعة تعكس طيفًا واسعًا من وجهات نظر المستخدمين وحالات الاستخدام.

Feature 04

شفافية البيانات ودعم البحث

تنشر LMArena البيانات والمنهجية علنًا، مما يتيح للباحثين والشركات رؤية كيفية أداء النماذج في سيناريوهات العالم الحقيقي وفهم عملية التقييم. هذه الشفافية أساسية لمجتمع أبحاث الذكاء الاصطناعي، إذ توفّر مجموعات بيانات قابلة للتحقق يمكن استخدامها لمزيد من التحليل وتحسين النماذج. يساعد النهج المفتوح للمنصة في مشاركة البيانات على تقدم مجال الذكاء الاصطناعي بجعل نتائج التقييم متاحة للمطوّرين والباحثين والشركات الراغبة في فهم نقاط القوة والضعف لدى النماذج. كما تبني هذه الشفافية ثقة في التصنيفات، إذ يمكن للمستخدمين التحقق من كيفية إجراء التقييمات والبيانات التي تدعم الاستنتاجات.

الأسئلة الشائعة

كل ما تحتاج لمعرفته حول lmarena

LMArena هي منصة شعبية يقودها المجتمع للتقييم المقارن الجماعي لنماذج اللغة الكبيرة، طورها باحثون من UC Berkeley ضمن LMSYS. تعمل المنصة بأن يسمح للمستخدمين بإرسال prompts، وتلقّي إجابتين مُعمّاتين من النماذج، والتصويت للأفضل، حيث تُنقل الأصوات إلى لوحة ترتيب مباشرة باستخدام نظام تصنيف Elo، مما يولّد ترتيبًا مُحقّقًا بواسطة البشر لأداء النماذج في العالم الحقيقي في مهام النص والبرمجة والصور. توفّر المنصة وصولًا مجانيًا دون الحاجة للتسجيل لاختبار ومقارنة نماذج ذكاء اصطناعي مختلفة، مما يوسع إمكانية تقييم الذكاء الاصطناعي ويقدّم رؤى شفافة حول أداء النماذج.

يعرض نظام المعارك المعمّاة في LMArena للمستخدمين إجابتين مُعمّاتين من نماذج ذكاء اصطناعي على نفس prompt، دون الكشف عن أي نموذج أنتج كل إجابة. يصوّت المستخدمون بعد ذلك للإجابة التي يرونها الأفضل، ما يتيح مقارنات غير متحيّزة تعتمد فقط على جودة الإجابات بدلاً من سمعة العلامة التجارية. تضمن هذه الطريقة أن تعكس التصنيفات الأداء الفعلي بدلًا من الأفكار المسبقة حول النماذج المختلفة. تُغذّي الأصوات من هذه المعارك المعمّاة نظام تصنيف Elo، الذي يحدث لوحات الترتيب المباشرة في الوقت الحقيقي تقريبًا، مما يخلق صورة ديناميكية معتمدة على الجمهور لجودة النماذج بناءً على التفاعل المباشر والتقييم الصادق.

تستخدم LMArena نظام تصنيف Elo الشبيه بتصنيفات الشطرنج لإنشاء لوحات ترتيب مباشرة تحدث في الوقت الحقيقي تقريبًا أثناء تصويت المستخدمين لمقارنات النماذج. يعكس هذا النظام المتطور تفضيلات البشر الجماعية ويقدّم منظورات ديناميكية ومجمّعة عن جودة النماذج. عندما يصوّت المستخدمون لنموذج على حساب آخر في المعارك المعمّاة، يقوم نظام Elo بتعديل تصنيفات كلا النموذجين بناءً على النتيجة المتوقعة مقابل النتيجة الفعلية. يضمن ذلك أن تكون التصنيفات مبنية على الأداء المقارن الفعلي بدلًا من المعايير المعزولة، مما يعطي تمثيلًا أدق للنماذج الأفضل أداءً في السيناريوهات العملية عبر مهام متنوعة.

تعد LMArena مهمة لأنها تساهم في ديمقراطية تقييم الذكاء الاصطناعي عبر توفير طريقة شفافة ومشارَكة من الجمهور لرؤية كيف تتفوق النماذج المختلفة بعيدًا عن الحدود التقليدية للمعايير. تقدّم المنصة ملاحظات من العالم الحقيقي تساعد في تشكيل مستقبل نماذج الذكاء الاصطناعي، بما في ذلك إتاحة الوصول المبكر إلى الإصدارات قبل النشر. لا تقتصر على الدردشة فقط، بل تشمل البرمجة وتوليد الصور ومهام التحرير، موفرةً رؤى شاملة حول قدرات النماذج. تتيح شفافية البيانات والمنهجية العامة للمنصة للباحثين والشركات فهم أداء النماذج في سيناريوهات العالم الحقيقي، مما يساهم في تقدم مجال الذكاء الاصطناعي من خلال جعل نتائج التقييم متاحة وقابلة للتحقق.

تستند تصنيفات LMArena إلى تقييمات بشرية مجمعة من الجمهور عبر معارك معمّاة، مما يقلّل التحيّز ويضمن أن تعكس المقارنات جودة الإجابات الفعلية. ومع ذلك، تتأثر التصنيفات بقاعدة المستخدمين وأنواع prompts المستخدمة، مما يعني أنها تعبّر عن تفضيل جماعي بشري أكثر من كونها حقيقة مطلقة. يوفر نظام تصنيف Elo طريقة متقدمة لتجميع الأصوات، لكن التصنيفات قد تختلف اعتمادًا على المهام المحددة والـprompts الجاري تقييمها. تتيح شفافية المنصة للمستخدمين فهم المنهجية والبيانات وراء التصنيفات، مما يوضّح أن هذه وجهات نظر مجمعة ومحقّقة بواسطة البشر لجودة النماذج وليست قياسات موضوعية نهائية.

هل أنت مستعد لإنشاء مع lmarena?

ابدأ في إنشاء محتوى مذهل باستخدام نماذج الذكاء الاصطناعي القوية لدينا. جربه مجانًا اليوم!