अब तक, आर्टिफिशियल इंटेलिजेंस की दुनिया पर अमेरिका और चीन का दबदबा माना जाता था। भारत को अक्सर सिर्फ़ टैलेंट पूल के तौर पर देखा जाता था, न कि कोर AI डेवलपमेंट के केंद्र के तौर पर। लेकिन बेंगलुरु स्थित स्टार्टअप सर्वम AI इस सोच को तेज़ी से बदल रहा है। यह कंपनी अब भारत में पूरी तरह से विकसित अपने सॉवरेन AI मॉडल के साथ सीधे ग्लोबल टेक दिग्गजों को चुनौती दे रही है।
सर्वम विज़न ने बड़े AI मॉडल्स को पीछे छोड़ा
सर्वम AI के दो टूल्स फिलहाल काफी चर्चा में हैं: सर्वम विज़न और बुलबुल। सर्वम विज़न एक OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) आधारित AI मॉडल है जिसने कुछ बेंचमार्क पर ChatGPT, गूगल जेमिनी और एंथ्रोपिक क्लाउड जैसे बड़े नामों को पीछे छोड़ दिया है। बताया जा रहा है कि इसकी सटीकता इतनी प्रभावशाली है कि यूज़र्स और AI विशेषज्ञ खुले तौर पर इसकी तारीफ़ कर रहे हैं।
बेंचमार्क स्कोर ने ग्लोबल दिलचस्पी जगाई
सर्वम AI के को-फ़ाउंडर प्रत्युष कुमार ने X (पहले ट्विटर) पर पोस्ट के ज़रिए इन उपलब्धियों की जानकारी शेयर की। कंपनी के अनुसार, सर्वम विज़न ने olmOCR-Bench पर 84.3 प्रतिशत की सटीकता हासिल की, जो जेमिनी 3 प्रो और डीपसीक OCR v2 जैसे मॉडल्स से ज़्यादा है। ChatGPT का स्कोर काफी कम था। इसके अलावा, सर्वम विज़न ने OmniDocBench v1.5 पर भी 93.28 प्रतिशत का प्रभावशाली स्कोर हासिल किया। खास बात यह है कि जटिल लेआउट, टेक्निकल टेबल और गणितीय फ़ॉर्मूले जैसे चुनौतीपूर्ण क्षेत्रों में भी इसका प्रदर्शन असाधारण रूप से मज़बूत था, जहाँ पारंपरिक OCR सिस्टम अक्सर फेल हो जाते हैं।
आलोचना से तारीफ़ तक
शुरुआत में सर्वम AI को सिर्फ़ भारतीय भाषाओं के मॉडल पर ध्यान केंद्रित करने के लिए संदेह की नज़र से देखा गया था। लेकिन अब, वह संदेह तारीफ़ में बदल रहा है। टेक कमेंटेटर डीडी दास ने भी माना कि उन्होंने सर्वम को कम आंका था। उनके अनुसार, सर्वम के OCR और स्पीच मॉडल भारतीय भाषाओं के लिए अविश्वसनीय रूप से मज़बूत हैं और उस कमी को पूरा करते हैं जिसे बड़े ग्लोबल AI लैब्स ने नज़रअंदाज़ कर दिया था। यूज़र का फ़ीडबैक भी ऐसा ही है, कई लोगों ने सर्वम के टूल्स का इस्तेमाल करने के बाद हैरानी और उत्साह दोनों व्यक्त किया है।
बुलबुल V3
OCR के साथ, सर्वम AI ने अपना नया टेक्स्ट-टू-स्पीच मॉडल, बुलबुल V3 भी लॉन्च किया है। यह AI वॉयस टूल भारतीय भाषाओं में प्राकृतिक और प्रभावशाली आवाज़ें बनाने पर केंद्रित है। इसका कॉन्सेप्ट इलेवनलैब्स जैसे इंटरनेशनल AI वॉयस प्लेटफॉर्म के समान है, लेकिन इसे विशेष रूप से भारत-केंद्रित ज़रूरतों को पूरा करने के लिए डिज़ाइन किया गया है। अभी, बुलबुल V3 11 भारतीय भाषाओं में 35 से ज़्यादा आवाज़ें देता है, और कंपनी जल्द ही इसे 22 भाषाओं तक बढ़ाने का प्लान बना रही है।








