"संसारको सबैभन्दा स्मार्ट" ग्रोक३ को परीक्षण गर्दै

AIPU WATON GROUP (1)

परिचय

के तपाईंलाई लाग्छ कि Grok3 पूर्व-प्रशिक्षित मोडेलहरूको "अन्तिम बिन्दु" हुनेछ?

एलोन मस्क र xAI टोलीले लाइभस्ट्रिमको क्रममा Grok को पछिल्लो संस्करण, Grok3, आधिकारिक रूपमा सुरु गरे। यस कार्यक्रम अघि, मस्कको २४/७ प्रचारात्मक प्रचारसँग जोडिएको उल्लेखनीय मात्रामा सम्बन्धित जानकारीले Grok3 को लागि विश्वव्यापी अपेक्षाहरूलाई अभूतपूर्व स्तरमा पुर्‍यायो। एक हप्ता अघि मात्र, मस्कले DeepSeek R1 मा टिप्पणी गर्दा लाइभस्ट्रिमको क्रममा आत्मविश्वासका साथ भने, "xAI ले राम्रो AI मोडेल सुरु गर्न लागेको छ।" प्रत्यक्ष प्रस्तुत गरिएको डेटाबाट, Grok3 ले गणित, विज्ञान र प्रोग्रामिङका लागि बेन्चमार्कहरूमा सबै हालका मुख्यधारा मोडेलहरूलाई पार गरेको रिपोर्ट गरिएको छ, मस्कले स्पेसएक्सको मंगल ग्रह अभियानहरूसँग सम्बन्धित कम्प्युटेशनल कार्यहरूको लागि Grok3 प्रयोग गरिने दाबी पनि गरे, "तीन वर्ष भित्र नोबेल पुरस्कार स्तरमा सफलताहरू" भविष्यवाणी गर्दै। यद्यपि, यी हाल मस्कको दाबी मात्र हुन्। प्रक्षेपण पछि, मैले Grok3 को पछिल्लो बिटा संस्करण परीक्षण गरें र ठूला मोडेलहरूको लागि क्लासिक ट्रिक प्रश्न सोधें: "कुन ठूलो हो, ९.११ वा ९.९?" दुर्भाग्यवश, कुनै पनि योग्यता वा चिन्हहरू बिना, तथाकथित सबैभन्दा चलाख Grok3 ले अझै पनि यो प्रश्नको सही जवाफ दिन सकेन। Grok3 ले प्रश्नको अर्थ सही रूपमा पहिचान गर्न असफल भयो।

 

यो परीक्षणले धेरै साथीहरूको ध्यान चाँडै आकर्षित गर्‍यो, र संयोगवश, विदेशमा यस्तै प्रकारका विभिन्न परीक्षणहरूले Grok3 लाई आधारभूत भौतिकशास्त्र/गणितका प्रश्नहरूसँग संघर्ष गरिरहेको देखाएको छ जस्तै "पिसाको झुकेको टावरबाट कुन बल पहिले खस्छ?" यसरी, यसलाई हास्यपूर्ण रूपमा "सरल प्रश्नहरूको जवाफ दिन अनिच्छुक प्रतिभाशाली" भनेर लेबल गरिएको छ।

६४०

Grok3 राम्रो छ, तर यो R1 वा o1-Pro भन्दा राम्रो छैन।

Grok3 ले अभ्यासमा धेरै सामान्य ज्ञान परीक्षणहरूमा "असफलता" अनुभव गर्यो। xAI लन्च कार्यक्रमको क्रममा, मस्कले खेल Path of Exile 2 बाट क्यारेक्टर वर्गहरू र प्रभावहरूको विश्लेषण गर्न Grok3 प्रयोग गरेर प्रदर्शन गरे, जुन उनले प्रायः खेल्ने दाबी गरेका थिए, तर Grok3 द्वारा प्रदान गरिएका धेरैजसो जवाफहरू गलत थिए। लाइभस्ट्रिमको समयमा मस्कले यो स्पष्ट समस्या याद गरेनन्।

 

यो गल्तीले विदेशी नेटिजन्सहरूलाई गेमिङमा "विकल्प खोजेको" भन्दै मस्कको खिल्ली उडाउन थप प्रमाण मात्र प्रदान गरेन तर व्यावहारिक अनुप्रयोगहरूमा ग्रोक३ को विश्वसनीयताको बारेमा पनि महत्त्वपूर्ण चिन्ताहरू खडा गर्‍यो। यस्तो "प्रतिभाशाली" को लागि, यसको वास्तविक क्षमताहरूको पर्वाह नगरी, मंगल ग्रह अन्वेषण कार्यहरू जस्ता अत्यन्त जटिल अनुप्रयोग परिदृश्यहरूमा यसको विश्वसनीयता शंकामा रहन्छ।

 

हाल, धेरै परीक्षकहरू जसले हप्ता अघि Grok3 मा पहुँच प्राप्त गरेका थिए, र जसले हिजो केही घण्टाको लागि मोडेल क्षमताहरूको परीक्षण गरेका थिए, सबैले एउटा साझा निष्कर्षमा औंल्याउँछन्: "Grok3 राम्रो छ, तर यो R1 वा o1-Pro भन्दा राम्रो छैन।"

६४० (१)

"Nvidia लाई अवरोध पुर्‍याउने" मा एक महत्वपूर्ण दृष्टिकोण

रिलिजको समयमा आधिकारिक रूपमा प्रस्तुत गरिएको PPT मा, Grok3 लाई च्याटबोट एरिनामा "धेरै अगाडि" देखाइएको थियो, तर यसले चलाखीपूर्वक ग्राफिक प्रविधिहरू प्रयोग गर्‍यो: लिडरबोर्डमा ठाडो अक्षले १४००-१३०० स्कोर दायरामा मात्र परिणामहरू सूचीबद्ध गर्‍यो, जसले गर्दा परीक्षण परिणामहरूमा मूल १% भिन्नता यस प्रस्तुतिमा असाधारण रूपमा महत्त्वपूर्ण देखिन्छ।

६४०

वास्तविक मोडेल स्कोरिङ नतिजाहरूमा, Grok3 DeepSeek R1 र GPT-4.0 भन्दा केवल १-२% अगाडि छ, जुन धेरै प्रयोगकर्ताहरूको व्यावहारिक परीक्षणहरूमा अनुभवहरूसँग मेल खान्छ जसले "कुनै उल्लेखनीय भिन्नता" फेला पारेन। Grok3 ले आफ्ना उत्तराधिकारीहरूलाई केवल १%-२% ले पार गर्छ।

६४०

यद्यपि Grok3 ले हाल सार्वजनिक रूपमा परीक्षण गरिएका सबै मोडेलहरू भन्दा उच्च स्कोर गरेको छ, धेरैले यसलाई गम्भीरतापूर्वक लिँदैनन्: आखिर, xAI लाई पहिले Grok2 युगमा "स्कोर हेरफेर" को लागि आलोचना गरिएको थियो। लिडरबोर्डले उत्तर लम्बाइ शैलीलाई दण्डित गरेपछि, स्कोरहरू धेरै घट्यो, जसले गर्दा उद्योगका आन्तरिकहरूले प्रायः "उच्च स्कोरिङ तर कम क्षमता" को घटनाको आलोचना गर्न थाले।

 

चाहे लिडरबोर्ड "हेरफेर" मार्फत होस् वा चित्रणमा डिजाइन युक्तिहरू मार्फत, तिनीहरूले मोडेल क्षमताहरूमा "प्याकको नेतृत्व गर्ने" धारणाको साथ xAI र मस्कको जुनून प्रकट गर्छन्। मस्कले यी मार्जिनहरूको लागि ठूलो मूल्य चुकाए: प्रक्षेपणको समयमा, उनले २००,००० H100 GPU हरू प्रयोग गर्ने (लाइभस्ट्रिमको समयमा "१००,००० भन्दा बढी" दाबी गर्ने) र २० करोड घण्टाको कुल प्रशिक्षण समय प्राप्त गर्ने घमण्ड गरे। यसले गर्दा केहीले यो GPU उद्योगको लागि अर्को महत्त्वपूर्ण वरदान हो भन्ने विश्वास गर्न र यस क्षेत्रमा DeepSeek को प्रभावलाई "मूर्खतापूर्ण" मान्न बाध्य भए। उल्लेखनीय रूपमा, केहीले विश्वास गर्छन् कि पूर्ण कम्प्युटेसनल शक्ति मोडेल प्रशिक्षणको भविष्य हुनेछ।

 

यद्यपि, केही नेटिजेनहरूले DeepSeek V3 उत्पादन गर्न दुई महिनामा २००० H800 GPU को खपतको तुलना गरे, गणना गरे कि Grok3 को वास्तविक प्रशिक्षण पावर खपत V3 को भन्दा २६३ गुणा छ। १४०२ अंक प्राप्त गर्ने DeepSeek V3 र Grok3 बीचको अन्तर १०० अंकभन्दा कम छ। यो तथ्याङ्क जारी भएपछि, धेरैले चाँडै महसुस गरे कि "विश्वको सबैभन्दा बलियो" को रूपमा Grok3 को शीर्षक पछाडि एक स्पष्ट सीमान्त उपयोगिता प्रभाव छ - बलियो प्रदर्शन उत्पन्न गर्ने ठूला मोडेलहरूको तर्कले घट्दो प्रतिफल देखाउन थालेको छ।

६४० (२)

"उच्च स्कोरिङ तर कम क्षमता" भए पनि, Grok2 सँग X (ट्विटर) प्लेटफर्मबाट प्रयोगलाई समर्थन गर्न उच्च-गुणस्तरको पहिलो-पक्ष डेटाको विशाल मात्रा थियो। यद्यपि, Grok3 को प्रशिक्षणमा, xAI ले स्वाभाविक रूपमा OpenAI ले हाल सामना गरिरहेको "छत" को सामना गर्यो - प्रिमियम प्रशिक्षण डेटाको अभावले मोडेलको क्षमताहरूको सीमान्त उपयोगितालाई द्रुत रूपमा उजागर गर्दछ।

 

ग्रोक३ र मस्कका विकासकर्ताहरूले यी तथ्यहरूलाई गहिरो रूपमा बुझ्ने र पहिचान गर्ने सम्भवतः पहिलो व्यक्ति हुन्, त्यसैले मस्कले सामाजिक सञ्जालमा निरन्तर उल्लेख गर्दै आएका छन् कि प्रयोगकर्ताहरूले अहिले अनुभव गरिरहेको संस्करण "अझै पनि बिटा मात्र" हो र "पूर्ण संस्करण आगामी महिनाहरूमा जारी गरिनेछ।" मस्कले ग्रोक३ को उत्पादन प्रबन्धकको भूमिका लिएका छन्, जसले प्रयोगकर्ताहरूलाई टिप्पणी खण्डमा सामना गर्ने विभिन्न समस्याहरूमा प्रतिक्रिया प्रदान गर्न सुझाव दिन्छन्। उनी पृथ्वीमा सबैभन्दा धेरै फलो गरिएका उत्पादन प्रबन्धक हुन सक्छन्।

 

तैपनि, एक दिन भित्र, Grok3 को प्रदर्शनले निस्सन्देह बलियो ठूला मोडेलहरूलाई तालिम दिन "विशाल कम्प्युटेसनल मांसपेशी" मा भर पर्ने आशा गर्नेहरूका लागि चिन्ता बढायो: सार्वजनिक रूपमा उपलब्ध माइक्रोसफ्ट जानकारीको आधारमा, OpenAI को GPT-4 को प्यारामिटर आकार १.८ ट्रिलियन प्यारामिटर छ, जुन GPT-3 को भन्दा दस गुणा बढी हो। अफवाहहरूले सुझाव दिन्छ कि GPT-4.5 को प्यारामिटर आकार अझ ठूलो हुन सक्छ।

 

मोडेल प्यारामिटरको आकार बढ्दै जाँदा, प्रशिक्षण लागत पनि आकाश छोएको छ। Grok3 को उपस्थितिसँगै, GPT-4.5 जस्ता दावेदारहरू र प्यारामिटर आकार मार्फत राम्रो मोडेल प्रदर्शन प्राप्त गर्न "पैसा जलाउन" जारी राख्न चाहने अन्यहरूले अब स्पष्ट रूपमा देखिने छतलाई विचार गर्नुपर्छ र यसलाई कसरी पार गर्ने भनेर विचार गर्नुपर्छ। यस क्षणमा, OpenAI का पूर्व प्रमुख वैज्ञानिक इल्या सुत्स्केभरले गत डिसेम्बरमा पहिले भनेका थिए, "हामी परिचित पूर्व-प्रशिक्षण समाप्त हुनेछ," जुन छलफलमा पुन: देखा परेको छ, जसले ठूला मोडेलहरूलाई प्रशिक्षणको लागि वास्तविक मार्ग खोज्ने प्रयासहरूलाई प्रेरित गर्दछ।

६४० (३)

इल्याको दृष्टिकोणले उद्योगमा खतराको घण्टी बजाएको छ। उनले पहुँचयोग्य नयाँ डेटाको आसन्न थकानलाई सही रूपमा पूर्वानुमान गरेका थिए, जसले गर्दा डेटा अधिग्रहण मार्फत कार्यसम्पादनलाई निरन्तर बढाउन नसकिने अवस्था सिर्जना हुन्छ, यसलाई जीवाश्म इन्धनको थकानसँग तुलना गर्दै। उनले संकेत गरे कि "तेल जस्तै, इन्टरनेटमा मानव-उत्पन्न सामग्री सीमित स्रोत हो।" सुत्स्केभरको भविष्यवाणीमा, मोडेलहरूको अर्को पुस्ता, पूर्व-प्रशिक्षण पछि, "मानव मस्तिष्क जस्तै" "साँचो स्वायत्तता" र तर्क क्षमताहरू हुनेछन्।

 

आजका पूर्व-प्रशिक्षित मोडेलहरू भन्दा फरक जुन मुख्यतया सामग्री मिलानमा निर्भर हुन्छन् (पहिले सिकेका मोडेल सामग्रीमा आधारित), भविष्यका एआई प्रणालीहरूले मानव मस्तिष्कको "सोच" जस्तै तरिकाले समस्याहरू समाधान गर्न विधिहरू सिक्न र स्थापित गर्न सक्षम हुनेछन्। एक मानवले केवल आधारभूत व्यावसायिक साहित्यको साथ विषयमा आधारभूत दक्षता प्राप्त गर्न सक्छ, जबकि एआई ठूलो मोडेललाई सबैभन्दा आधारभूत प्रविष्टि-स्तर प्रभावकारिता प्राप्त गर्न लाखौं डेटा पोइन्टहरू आवश्यक पर्दछ। शब्दहरू थोरै परिवर्तन गर्दा पनि, यी आधारभूत प्रश्नहरू सही रूपमा बुझ्न नसकिने हुन सक्छ, जसले मोडेलले बुद्धिमत्तामा साँच्चै सुधार गरेको छैन भनेर चित्रण गर्दछ: लेखको सुरुमा उल्लेख गरिएका आधारभूत तर समाधान गर्न नसकिने प्रश्नहरूले यस घटनाको स्पष्ट उदाहरण प्रतिनिधित्व गर्दछ।

微信图片_20240614024031.jpg1

निष्कर्ष

यद्यपि, क्रूर बलभन्दा बाहिर, यदि Grok3 ले उद्योगलाई "पूर्व-प्रशिक्षित मोडेलहरू आफ्नो अन्त्य नजिकिँदैछन्" भनेर प्रकट गर्न साँच्चै सफल भयो भने, यसले क्षेत्रको लागि महत्त्वपूर्ण प्रभाव पार्नेछ।

सायद Grok3 वरपरको उन्माद बिस्तारै कम भएपछि, हामी Fei-Fei Li को उदाहरण जस्तै "केवल $५० मा एक विशिष्ट डेटासेटमा उच्च-प्रदर्शन मोडेलहरू ट्युन गर्ने" जस्ता थप घटनाहरू देख्नेछौं, अन्ततः AGI को वास्तविक मार्ग पत्ता लगाउनेछ।

ELV केबल समाधान खोज्नुहोस्

नियन्त्रण केबलहरू

BMS, BUS, औद्योगिक, उपकरण केबलको लागि।

संरचित केबलिङ प्रणाली

नेटवर्क र डेटा, फाइबर-अप्टिक केबल, प्याच कर्ड, मोड्युल, फेसप्लेट

२०२४ प्रदर्शनी र कार्यक्रमहरूको समीक्षा

अप्रिल १६-१८, २०२४ दुबईमा मध्य-पूर्व-ऊर्जा

अप्रिल १६-१८, २०२४ मस्कोमा सेकुरिका

मे ९, २०२४ मा सांघाईमा नयाँ उत्पादन र प्रविधिहरूको सुरुवात कार्यक्रम

अक्टोबर २२-२५, २०२४ बेइजिङमा सुरक्षा चीन

नोभेम्बर १९-२०, २०२४ कनेक्टेड वर्ल्ड साउदी अरेबिया


पोस्ट समय: फेब्रुअरी-१९-२०२५