पारंपरिक बेंचमार्क का अंत और वास्तविक दुनिया में कृत्रिम बुद्धिमत्ता के मूल्यांकन की आवश्यकता

एआई मॉडल अलग-थलग परीक्षणों में मनुष्यों से बेहतर प्रदर्शन करते हैं, लेकिन व्यावहारिक रूप से विफल हो जाते हैं। विशेषज्ञ कार्य-प्रवाह और मानवीय सहयोग पर आधारित बेंचमार्क की ओर बदलाव की वकालत कर रहे हैं।

अनुसंधान और नवाचार •

@bielgga

•

5 de अप्रैल de 2026

•

वैश्विक कृत्रिम बुद्धिमत्ता उद्योग एक बढ़ते विरोधाभास का सामना कर रहा है: जबकि एआई मॉडल प्रयोगशाला परीक्षणों में प्रभावशाली आंकड़े हासिल कर रहे हैं, वास्तविक वातावरण में उनका व्यावहारिक कार्यान्वयन अक्सर अक्षमता और निराशा का कारण बनता है। दशकों तक, एआई की सफलता का पैमाना कोडिंग या गणितीय समस्याओं को हल करने जैसे अलग-थलग कार्यों में मशीनों और मनुष्यों के बीच सीधी तुलना पर आधारित था। हालांकि, यह दृष्टिकोण, अपनी सरलता और सुर्खियां बटोरने की क्षमता के कारण आकर्षक होने के बावजूद, इस तथ्य को नजरअंदाज करता है कि एआई शून्य में काम नहीं करता है, बल्कि जटिल, सहयोगात्मक और अक्सर अराजक पारिस्थितिकी तंत्र के भीतर काम करता है।

प्रयोगशाला परीक्षणों की सीमाएं

एआई मूल्यांकन का वर्तमान परिदृश्य स्थिर बेंचमार्क द्वारा हावी है जो बाइनरी प्रतिक्रियाओं - सही या गलत - और प्रसंस्करण गति पर ध्यान केंद्रित करते हैं। यह विधि क्षमता का भ्रम पैदा करती है, जहां एक मॉडल नियंत्रित वातावरण में 98% सटीकता दिखा सकता है, लेकिन अस्पताल या कानूनी विभाग में एकीकृत होने पर बुरी तरह विफल हो सकता है। मौलिक विफलता इस तथ्य में निहित है कि ये परीक्षण संगठनात्मक गतिशीलता, पारस्परिक संपर्क और मानवीय निर्णयों की विकासवादी प्रकृति को नजरअंदाज करते हैं, जो शायद ही कभी एक अकेले डेटा बिंदु पर निर्भर करते हैं।

जटिल वातावरण में प्रदर्शन का भ्रम

यूनाइटेड किंगडम, संयुक्त राज्य अमेरिका और एशिया के स्वास्थ्य संस्थानों में 2021 और 2024 के बीच किए गए शोध तकनीकी प्रदर्शन और परिचालन उपयोगिता के बीच के अंतर को स्पष्ट रूप से प्रदर्शित करते हैं। एफडीए (यूएस फूड एंड ड्रग एडमिनिस्ट्रेशन) जैसी नियामक संस्थाओं द्वारा अनुमोदित एआई उपकरणों का उपयोग करने वाले डॉक्टर अक्सर पाते हैं कि निदान में तेजी लाने के बजाय, तकनीक देरी का कारण बनती है। ऐसा इसलिए है क्योंकि अस्पताल के कार्य-प्रवाह में रेडियोलॉजिस्ट, ऑन्कोलॉजिस्ट और नर्सों के बीच समन्वय के साथ-साथ विशिष्ट नियामक मानकों का अनुपालन आवश्यक होता है। एआई, इस संदर्भ के बाहर परीक्षण किए जाने के कारण, एक सहायक के बजाय एक बाधा बन जाता है।

HAIC नामक एक नया दृष्टिकोण

इन जोखिमों को कम करने और जिसे "एआई का कब्रिस्तान" कहा जाने लगा है - जहां महंगी तकनीकों को कार्यान्वयन में विफल होने के बाद छोड़ दिया जाता है - उससे बचने के लिए, HAIC (Human-AI, Context-Specific Evaluation) बेंचमार्क का प्रस्ताव सामने आया है। पारंपरिक परीक्षणों के विपरीत, यह कार्यप्रणाली सफलता का मूल्यांकन करने के तरीके में एक आमूल-चूल परिवर्तन का प्रस्ताव करती है:

विश्लेषण की इकाई में परिवर्तन: केवल व्यक्तिगत सॉफ़्टवेयर के बजाय टीमों और कार्य-प्रवाह के प्रदर्शन का मूल्यांकन करना।
समय के पैमाने का विस्तार: एक ही बातचीत के बजाय हफ्तों या महीनों में एआई के प्रभावों का विश्लेषण करना।
संगठनात्मक परिणामों का मापन: केवल गति के बजाय समन्वय की गुणवत्ता और त्रुटि का पता लगाने की क्षमता पर ध्यान केंद्रित करना।
प्रणालीगत प्रभावों का विश्लेषण: पूरी उत्पादन श्रृंखला में एआई कार्यान्वयन के प्रत्यक्ष और अप्रत्यक्ष परिणामों पर विचार करना।

बाजार और समाज के लिए प्रभाव

ऐसी मेट्रिक्स पर जोर देना जो वास्तविकता को प्रतिबिंबित नहीं करते हैं, नियामक अंधे धब्बे पैदा करते हैं और भारी वित्तीय और तकनीकी संसाधनों की बर्बादी करते हैं। जब संगठन ऐसे समाधानों में निवेश करते हैं जो वादे के अनुसार परिणाम नहीं देते हैं, तो तकनीक में सार्वजनिक और आंतरिक विश्वास का क्षरण होता है। एआई को अपनाने का निर्णय लेने के लिए सतही बेंचमार्क पर निर्भर रहने वाली सरकारें और कंपनियां आनुपातिक रूप से उच्च जोखिम उठाती हैं, ऐसे डेटा के साथ काम करती हैं जिसकी कोई पारिस्थितिक वैधता नहीं है। इसलिए, प्रासंगिक मूल्यांकन की ओर संक्रमण एक आर्थिक और नैतिक आवश्यकता है ताकि यह सुनिश्चित किया जा सके कि एआई टिकाऊ मूल्य का एक उपकरण बना रहे।

एआई मूल्यांकन का भविष्य

आगे बढ़ने का रास्ता यह मांग करता है कि डेवलपर्स और प्रबंधक वास्तविक वातावरण में तनाव परीक्षणों के पक्ष में अलग-थलग सटीकता रैंकिंग के जुनून को छोड़ दें। एआई की भविष्य की सफलता को शतरंज के खेल या गणित परीक्षण में इंसान को हराने की क्षमता से नहीं, बल्कि एक मानवीय टीम में उत्पादक रूप से एकीकृत होने, जटिल और सामूहिक निर्णयों में योगदान करने की क्षमता से मापा जाएगा। बेंचमार्क की अगली पीढ़ी को अनिवार्य रूप से उतना ही जटिल और गतिशील होना चाहिए जितना कि वे कार्य वातावरण जिन्हें ये उपकरण बदलने का इरादा रखते हैं, यह सुनिश्चित करते हुए कि तकनीकी नवाचार वास्तविक मानवीय प्रगति में अनुवादित हो।