परिचय

के तपाईंलाई लाग्छ कि Grok3 पूर्व-प्रशिक्षित मोडेलहरूको "अन्तिम बिन्दु" हुनेछ?

एलोन मस्क र xAI टोलीले लाइभस्ट्रिमको क्रममा Grok को पछिल्लो संस्करण, Grok3, आधिकारिक रूपमा सुरु गरे। यस कार्यक्रम अघि, मस्कको २४/७ प्रचारात्मक प्रचारसँग जोडिएको उल्लेखनीय मात्रामा सम्बन्धित जानकारीले Grok3 को लागि विश्वव्यापी अपेक्षाहरूलाई अभूतपूर्व स्तरमा पुर्‍यायो। एक हप्ता अघि मात्र, मस्कले DeepSeek R1 मा टिप्पणी गर्दा लाइभस्ट्रिमको क्रममा आत्मविश्वासका साथ भने, "xAI ले राम्रो AI मोडेल सुरु गर्न लागेको छ।" प्रत्यक्ष प्रस्तुत गरिएको डेटाबाट, Grok3 ले गणित, विज्ञान र प्रोग्रामिङका लागि बेन्चमार्कहरूमा सबै हालका मुख्यधारा मोडेलहरूलाई पार गरेको रिपोर्ट गरिएको छ, मस्कले स्पेसएक्सको मंगल ग्रह अभियानहरूसँग सम्बन्धित कम्प्युटेशनल कार्यहरूको लागि Grok3 प्रयोग गरिने दाबी पनि गरे, "तीन वर्ष भित्र नोबेल पुरस्कार स्तरमा सफलताहरू" भविष्यवाणी गर्दै। यद्यपि, यी हाल मस्कको दाबी मात्र हुन्। प्रक्षेपण पछि, मैले Grok3 को पछिल्लो बिटा संस्करण परीक्षण गरें र ठूला मोडेलहरूको लागि क्लासिक ट्रिक प्रश्न सोधें: "कुन ठूलो हो, ९.११ वा ९.९?" दुर्भाग्यवश, कुनै पनि योग्यता वा चिन्हहरू बिना, तथाकथित सबैभन्दा चलाख Grok3 ले अझै पनि यो प्रश्नको सही जवाफ दिन सकेन। Grok3 ले प्रश्नको अर्थ सही रूपमा पहिचान गर्न असफल भयो।

यो परीक्षणले धेरै साथीहरूको ध्यान चाँडै आकर्षित गर्‍यो, र संयोगवश, विदेशमा यस्तै प्रकारका विभिन्न परीक्षणहरूले Grok3 लाई आधारभूत भौतिकशास्त्र/गणितका प्रश्नहरूसँग संघर्ष गरिरहेको देखाएको छ जस्तै "पिसाको झुकेको टावरबाट कुन बल पहिले खस्छ?" यसरी, यसलाई हास्यपूर्ण रूपमा "सरल प्रश्नहरूको जवाफ दिन अनिच्छुक प्रतिभाशाली" भनेर लेबल गरिएको छ।

Grok3 राम्रो छ, तर यो R1 वा o1-Pro भन्दा राम्रो छैन।

Grok3 ले अभ्यासमा धेरै सामान्य ज्ञान परीक्षणहरूमा "असफलता" अनुभव गर्यो। xAI लन्च कार्यक्रमको क्रममा, मस्कले खेल Path of Exile 2 बाट क्यारेक्टर वर्गहरू र प्रभावहरूको विश्लेषण गर्न Grok3 प्रयोग गरेर प्रदर्शन गरे, जुन उनले प्रायः खेल्ने दाबी गरेका थिए, तर Grok3 द्वारा प्रदान गरिएका धेरैजसो जवाफहरू गलत थिए। लाइभस्ट्रिमको समयमा मस्कले यो स्पष्ट समस्या याद गरेनन्।

यो गल्तीले विदेशी नेटिजन्सहरूलाई गेमिङमा "विकल्प खोजेको" भन्दै मस्कको खिल्ली उडाउन थप प्रमाण मात्र प्रदान गरेन तर व्यावहारिक अनुप्रयोगहरूमा ग्रोक३ को विश्वसनीयताको बारेमा पनि महत्त्वपूर्ण चिन्ताहरू खडा गर्‍यो। यस्तो "प्रतिभाशाली" को लागि, यसको वास्तविक क्षमताहरूको पर्वाह नगरी, मंगल ग्रह अन्वेषण कार्यहरू जस्ता अत्यन्त जटिल अनुप्रयोग परिदृश्यहरूमा यसको विश्वसनीयता शंकामा रहन्छ।

हाल, धेरै परीक्षकहरू जसले हप्ता अघि Grok3 मा पहुँच प्राप्त गरेका थिए, र जसले हिजो केही घण्टाको लागि मोडेल क्षमताहरूको परीक्षण गरेका थिए, सबैले एउटा साझा निष्कर्षमा औंल्याउँछन्: "Grok3 राम्रो छ, तर यो R1 वा o1-Pro भन्दा राम्रो छैन।"

"Nvidia लाई अवरोध पुर्‍याउने" मा एक महत्वपूर्ण दृष्टिकोण

रिलिजको समयमा आधिकारिक रूपमा प्रस्तुत गरिएको PPT मा, Grok3 लाई च्याटबोट एरिनामा "धेरै अगाडि" देखाइएको थियो, तर यसले चलाखीपूर्वक ग्राफिक प्रविधिहरू प्रयोग गर्‍यो: लिडरबोर्डमा ठाडो अक्षले १४००-१३०० स्कोर दायरामा मात्र परिणामहरू सूचीबद्ध गर्‍यो, जसले गर्दा परीक्षण परिणामहरूमा मूल १% भिन्नता यस प्रस्तुतिमा असाधारण रूपमा महत्त्वपूर्ण देखिन्छ।

वास्तविक मोडेल स्कोरिङ नतिजाहरूमा, Grok3 DeepSeek R1 र GPT-4.0 भन्दा केवल १-२% अगाडि छ, जुन धेरै प्रयोगकर्ताहरूको व्यावहारिक परीक्षणहरूमा अनुभवहरूसँग मेल खान्छ जसले "कुनै उल्लेखनीय भिन्नता" फेला पारेन। Grok3 ले आफ्ना उत्तराधिकारीहरूलाई केवल १%-२% ले पार गर्छ।

यद्यपि Grok3 ले हाल सार्वजनिक रूपमा परीक्षण गरिएका सबै मोडेलहरू भन्दा उच्च स्कोर गरेको छ, धेरैले यसलाई गम्भीरतापूर्वक लिँदैनन्: आखिर, xAI लाई पहिले Grok2 युगमा "स्कोर हेरफेर" को लागि आलोचना गरिएको थियो। लिडरबोर्डले उत्तर लम्बाइ शैलीलाई दण्डित गरेपछि, स्कोरहरू धेरै घट्यो, जसले गर्दा उद्योगका आन्तरिकहरूले प्रायः "उच्च स्कोरिङ तर कम क्षमता" को घटनाको आलोचना गर्न थाले।

चाहे लिडरबोर्ड "हेरफेर" मार्फत होस् वा चित्रणमा डिजाइन युक्तिहरू मार्फत, तिनीहरूले मोडेल क्षमताहरूमा "प्याकको नेतृत्व गर्ने" धारणाको साथ xAI र मस्कको जुनून प्रकट गर्छन्। मस्कले यी मार्जिनहरूको लागि ठूलो मूल्य चुकाए: प्रक्षेपणको समयमा, उनले २००,००० H100 GPU हरू प्रयोग गर्ने (लाइभस्ट्रिमको समयमा "१००,००० भन्दा बढी" दाबी गर्ने) र २० करोड घण्टाको कुल प्रशिक्षण समय प्राप्त गर्ने घमण्ड गरे। यसले गर्दा केहीले यो GPU उद्योगको लागि अर्को महत्त्वपूर्ण वरदान हो भन्ने विश्वास गर्न र यस क्षेत्रमा DeepSeek को प्रभावलाई "मूर्खतापूर्ण" मान्न बाध्य भए। उल्लेखनीय रूपमा, केहीले विश्वास गर्छन् कि पूर्ण कम्प्युटेसनल शक्ति मोडेल प्रशिक्षणको भविष्य हुनेछ।

यद्यपि, केही नेटिजेनहरूले DeepSeek V3 उत्पादन गर्न दुई महिनामा २००० H800 GPU को खपतको तुलना गरे, गणना गरे कि Grok3 को वास्तविक प्रशिक्षण पावर खपत V3 को भन्दा २६३ गुणा छ। १४०२ अंक प्राप्त गर्ने DeepSeek V3 र Grok3 बीचको अन्तर १०० अंकभन्दा कम छ। यो तथ्याङ्क जारी भएपछि, धेरैले चाँडै महसुस गरे कि "विश्वको सबैभन्दा बलियो" को रूपमा Grok3 को शीर्षक पछाडि एक स्पष्ट सीमान्त उपयोगिता प्रभाव छ - बलियो प्रदर्शन उत्पन्न गर्ने ठूला मोडेलहरूको तर्कले घट्दो प्रतिफल देखाउन थालेको छ।

"उच्च स्कोरिङ तर कम क्षमता" भए पनि, Grok2 सँग X (ट्विटर) प्लेटफर्मबाट प्रयोगलाई समर्थन गर्न उच्च-गुणस्तरको पहिलो-पक्ष डेटाको विशाल मात्रा थियो। यद्यपि, Grok3 को प्रशिक्षणमा, xAI ले स्वाभाविक रूपमा OpenAI ले हाल सामना गरिरहेको "छत" को सामना गर्यो - प्रिमियम प्रशिक्षण डेटाको अभावले मोडेलको क्षमताहरूको सीमान्त उपयोगितालाई द्रुत रूपमा उजागर गर्दछ।

ग्रोक३ र मस्कका विकासकर्ताहरूले यी तथ्यहरूलाई गहिरो रूपमा बुझ्ने र पहिचान गर्ने सम्भवतः पहिलो व्यक्ति हुन्, त्यसैले मस्कले सामाजिक सञ्जालमा निरन्तर उल्लेख गर्दै आएका छन् कि प्रयोगकर्ताहरूले अहिले अनुभव गरिरहेको संस्करण "अझै पनि बिटा मात्र" हो र "पूर्ण संस्करण आगामी महिनाहरूमा जारी गरिनेछ।" मस्कले ग्रोक३ को उत्पादन प्रबन्धकको भूमिका लिएका छन्, जसले प्रयोगकर्ताहरूलाई टिप्पणी खण्डमा सामना गर्ने विभिन्न समस्याहरूमा प्रतिक्रिया प्रदान गर्न सुझाव दिन्छन्। उनी पृथ्वीमा सबैभन्दा धेरै फलो गरिएका उत्पादन प्रबन्धक हुन सक्छन्।

तैपनि, एक दिन भित्र, Grok3 को प्रदर्शनले निस्सन्देह बलियो ठूला मोडेलहरूलाई तालिम दिन "विशाल कम्प्युटेसनल मांसपेशी" मा भर पर्ने आशा गर्नेहरूका लागि चिन्ता बढायो: सार्वजनिक रूपमा उपलब्ध माइक्रोसफ्ट जानकारीको आधारमा, OpenAI को GPT-4 को प्यारामिटर आकार १.८ ट्रिलियन प्यारामिटर छ, जुन GPT-3 को भन्दा दस गुणा बढी हो। अफवाहहरूले सुझाव दिन्छ कि GPT-4.5 को प्यारामिटर आकार अझ ठूलो हुन सक्छ।

मोडेल प्यारामिटरको आकार बढ्दै जाँदा, प्रशिक्षण लागत पनि आकाश छोएको छ। Grok3 को उपस्थितिसँगै, GPT-4.5 जस्ता दावेदारहरू र प्यारामिटर आकार मार्फत राम्रो मोडेल प्रदर्शन प्राप्त गर्न "पैसा जलाउन" जारी राख्न चाहने अन्यहरूले अब स्पष्ट रूपमा देखिने छतलाई विचार गर्नुपर्छ र यसलाई कसरी पार गर्ने भनेर विचार गर्नुपर्छ। यस क्षणमा, OpenAI का पूर्व प्रमुख वैज्ञानिक इल्या सुत्स्केभरले गत डिसेम्बरमा पहिले भनेका थिए, "हामी परिचित पूर्व-प्रशिक्षण समाप्त हुनेछ," जुन छलफलमा पुन: देखा परेको छ, जसले ठूला मोडेलहरूलाई प्रशिक्षणको लागि वास्तविक मार्ग खोज्ने प्रयासहरूलाई प्रेरित गर्दछ।

इल्याको दृष्टिकोणले उद्योगमा खतराको घण्टी बजाएको छ। उनले पहुँचयोग्य नयाँ डेटाको आसन्न थकानलाई सही रूपमा पूर्वानुमान गरेका थिए, जसले गर्दा डेटा अधिग्रहण मार्फत कार्यसम्पादनलाई निरन्तर बढाउन नसकिने अवस्था सिर्जना हुन्छ, यसलाई जीवाश्म इन्धनको थकानसँग तुलना गर्दै। उनले संकेत गरे कि "तेल जस्तै, इन्टरनेटमा मानव-उत्पन्न सामग्री सीमित स्रोत हो।" सुत्स्केभरको भविष्यवाणीमा, मोडेलहरूको अर्को पुस्ता, पूर्व-प्रशिक्षण पछि, "मानव मस्तिष्क जस्तै" "साँचो स्वायत्तता" र तर्क क्षमताहरू हुनेछन्।

आजका पूर्व-प्रशिक्षित मोडेलहरू भन्दा फरक जुन मुख्यतया सामग्री मिलानमा निर्भर हुन्छन् (पहिले सिकेका मोडेल सामग्रीमा आधारित), भविष्यका एआई प्रणालीहरूले मानव मस्तिष्कको "सोच" जस्तै तरिकाले समस्याहरू समाधान गर्न विधिहरू सिक्न र स्थापित गर्न सक्षम हुनेछन्। एक मानवले केवल आधारभूत व्यावसायिक साहित्यको साथ विषयमा आधारभूत दक्षता प्राप्त गर्न सक्छ, जबकि एआई ठूलो मोडेललाई सबैभन्दा आधारभूत प्रविष्टि-स्तर प्रभावकारिता प्राप्त गर्न लाखौं डेटा पोइन्टहरू आवश्यक पर्दछ। शब्दहरू थोरै परिवर्तन गर्दा पनि, यी आधारभूत प्रश्नहरू सही रूपमा बुझ्न नसकिने हुन सक्छ, जसले मोडेलले बुद्धिमत्तामा साँच्चै सुधार गरेको छैन भनेर चित्रण गर्दछ: लेखको सुरुमा उल्लेख गरिएका आधारभूत तर समाधान गर्न नसकिने प्रश्नहरूले यस घटनाको स्पष्ट उदाहरण प्रतिनिधित्व गर्दछ।

निष्कर्ष

यद्यपि, क्रूर बलभन्दा बाहिर, यदि Grok3 ले उद्योगलाई "पूर्व-प्रशिक्षित मोडेलहरू आफ्नो अन्त्य नजिकिँदैछन्" भनेर प्रकट गर्न साँच्चै सफल भयो भने, यसले क्षेत्रको लागि महत्त्वपूर्ण प्रभाव पार्नेछ।

सायद Grok3 वरपरको उन्माद बिस्तारै कम भएपछि, हामी Fei-Fei Li को उदाहरण जस्तै "केवल $५० मा एक विशिष्ट डेटासेटमा उच्च-प्रदर्शन मोडेलहरू ट्युन गर्ने" जस्ता थप घटनाहरू देख्नेछौं, अन्ततः AGI को वास्तविक मार्ग पत्ता लगाउनेछ।

ELV केबल समाधान खोज्नुहोस्

नियन्त्रण केबलहरू

BMS, BUS, औद्योगिक, उपकरण केबलको लागि।

यहाँ क्लिक गर्नुहोस्

संरचित केबलिङ प्रणाली

नेटवर्क र डेटा, फाइबर-अप्टिक केबल, प्याच कर्ड, मोड्युल, फेसप्लेट

यहाँ क्लिक गर्नुहोस्

२०२४ प्रदर्शनी र कार्यक्रमहरूको समीक्षा

पोस्ट समय: फेब्रुअरी-१९-२०२५

"संसारको सबैभन्दा स्मार्ट" ग्रोक३ को परीक्षण गर्दै

परिचय

Grok3 राम्रो छ, तर यो R1 वा o1-Pro भन्दा राम्रो छैन।

"Nvidia लाई अवरोध पुर्‍याउने" मा एक महत्वपूर्ण दृष्टिकोण

निष्कर्ष

नियन्त्रण केबलहरू

संरचित केबलिङ प्रणाली

अप्रिल १६-१८, २०२४ दुबईमा मध्य-पूर्व-ऊर्जा

अप्रिल १६-१८, २०२४ मस्कोमा सेकुरिका

मे ९, २०२४ मा सांघाईमा नयाँ उत्पादन र प्रविधिहरूको सुरुवात कार्यक्रम

अक्टोबर २२-२५, २०२४ बेइजिङमा सुरक्षा चीन

नोभेम्बर १९-२०, २०२४ कनेक्टेड वर्ल्ड साउदी अरेबिया