कई हफ्तों तक अपने नए फ्रंटियर मॉडल को छेड़ने के बाद, Google ने अंततः AI दुनिया में नए अत्याधुनिक टूल होने के दावे के साथ मंगलवार को जेमिनी 3 लॉन्च किया। Google के जेमिनी 2.5 प्रो मॉडल को पहले व्यापक रूप से अधिकांश वर्कफ़्लो के लिए AI मॉडल में सबसे ऊपर माना जाता था, लेकिन एलोन मस्क के ग्रोक AI ने कुछ बेंचमार्क में टूल को कुछ समय के लिए पीछे छोड़ दिया, लेकिन जेमिनी एक बार फिर AI खाद्य श्रृंखला के शीर्ष पर पहुँचता दिख रहा है।
जेमिनी 3 की तुलना अन्य शीर्ष मॉडलों से कैसे की जाती है?
Google द्वारा साझा किए गए बेंचमार्क के अनुसार, नया जेमिनी 3 प्रो मॉडल न केवल जेमिनी 2.5 प्रो से आगे निकल जाता है, बल्कि चैटजीपीटी और क्लाउड जैसे अन्य प्रतिद्वंद्वियों के साथ अंतर भी बढ़ाता है।
लोकप्रिय LMArena लीडरबोर्ड पर, जेमिनी 3 प्रो टेक्स्ट से संबंधित कार्यों के लिए 1501 के स्कोर के साथ नया शीर्ष मॉडल है, जो ग्रोक 4.1-थिंकिंग और ग्रोक 4.1 मॉडल को पीछे छोड़ देता है। जेमिनी 3 प्रो ने वेबडेव लीडरबोर्ड में जीपीटी-5 को भी पीछे छोड़ दिया। LMArena का कहना है कि जेमिनी 3 प्रो अब अपने लगभग सभी लीडरबोर्ड में कोडिंग, गणित, क्रिएटिव राइटिंग, लॉन्ग क्वेरीज़ में नंबर 1 मॉडल है।
ह्यूमैनिटीज़ लास्ट एग्जाम में, विशेष रूप से अकादमिक तर्क का परीक्षण करने के लिए डिज़ाइन किया गया एक बेंचमार्क, जेमिनी 3 प्रो ने 37.5% का स्कोर हासिल किया, जो इसे GPT-5.1 से काफी आगे रखता है जो 26.5% के साथ नंबर 2 स्थान पर रहा, और क्लाउड सॉनेट 4.5 जो 13.7% के साथ पीछे रहा।
जेमिनी 3 प्रो ने MathArena Apex पर भी उल्लेखनीय प्रदर्शन किया, जो चुनौतीपूर्ण गणित प्रतियोगिता समस्याओं से युक्त एक बेंचमार्क है। जबकि जेमिनी 2.5 प्रो, क्लाउड सॉनेट 4.5, और जीपीटी-5.1 सभी ने कम एकल अंक (0.5% और 1.6% के बीच) में स्कोर किया, जेमिनी 3 प्रो ने 23.4% के स्कोर के साथ नंबर 1 स्थान हासिल किया।
नए मॉडल ने स्क्रीन समझ और एजेंटिक वर्कफ़्लो में भी सुधार दिखाया। स्क्रीनस्पॉट-प्रो पर, जो एक मॉडल की कंप्यूटर स्क्रीन को समझने की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया बेंचमार्क है, जेमिनी 3 प्रो ने 72.7% का स्कोर हासिल किया, जो क्लाउड सॉनेट 4.5 और जीपीटी-5.1 के मुकाबले पूर्ण प्रभुत्व दर्शाता है, जिनका स्कोर क्रमशः 36.2% और 3.5% था।
जेमिनी 3 प्रो अभी भी कुछ बेंचमार्क में कोडिंग संबंधी कार्यों में बढ़त लेने में विफल रहा। उदाहरण के लिए, SWE-बेंच वेरिफाइड पर, क्लाउड सॉनेट 4.5 77.2% के साथ नंबर 1 स्थान पर रहा, जबकि जेमिनी 3 प्रो 76.2% स्कोर के साथ तीसरे स्थान पर रहा, और GPT-5.1 76.3% स्कोर के साथ दूसरे स्थान पर रहा।
एआई कंपनियां और भी कम अंतराल पर नए मॉडल जारी कर रही हैं, इसकी संभावना नहीं है कि जेमिनी 3 प्रो लंबे समय तक श्रेणी का नेता बना रहेगा, लेकिन फिलहाल नया मॉडल अधिकांश बेंचमार्क में अग्रणी है। हालाँकि, ध्यान दें कि बेंचमार्क हमेशा एआई मॉडल के बारे में पूरी तस्वीर नहीं दिखा सकते हैं क्योंकि कई कंपनियां अपने मॉडल को उच्च स्थानों पर सूचीबद्ध करने के लिए इन बेंचमार्क का उपयोग कर सकती हैं और मॉडल का वास्तविक परीक्षण केवल उपयोगकर्ता अनुभव के माध्यम से ही हो सकता है।



