डीपसिक: एआई परिदृश्यमा क्रान्ति ल्याउने विघटनकारी

AIPU WATON ग्रुप

परिचय

प्रतिस्पर्धी ठूला मोडेलहरू, बजार हिस्साको लागि प्रतिस्पर्धा गर्ने क्लाउड प्रदायकहरू र मेहनती चिप निर्माताहरू बीच जारी चिन्ता - डीपसिक प्रभाव कायमै छ।

वसन्त महोत्सवको अन्त्यतिर आउँदा, DeepSeek वरपरको उत्साह बलियो रहन्छ। हालैको बिदाले प्राविधिक उद्योग भित्र प्रतिस्पर्धाको एक महत्वपूर्ण भावनालाई हाइलाइट गर्‍यो, धेरैले यस "क्याटफिस" को बारेमा छलफल र विश्लेषण गरे। सिलिकन भ्यालीले संकटको अभूतपूर्व भावना अनुभव गरिरहेको छ: खुला स्रोतका समर्थकहरूले फेरि आफ्नो विचार व्यक्त गरिरहेका छन्, र OpenAI ले पनि यसको बन्द स्रोत रणनीति उत्तम विकल्प थियो कि थिएन भनेर पुनर्मूल्याङ्कन गरिरहेको छ। कम कम्प्युटेशनल लागतको नयाँ प्रतिमानले Nvidia जस्ता चिप दिग्गजहरू बीच एक श्रृंखला प्रतिक्रिया उत्पन्न गरेको छ, जसले गर्दा अमेरिकी शेयर बजार इतिहासमा एकल-दिनको बजार मूल्य घाटा रेकर्ड भएको छ, जबकि सरकारी एजेन्सीहरूले DeepSeek द्वारा प्रयोग गरिएका चिपहरूको अनुपालनको अनुसन्धान गरिरहेका छन्। विदेशमा DeepSeek को मिश्रित समीक्षाको बीचमा, घरेलु रूपमा, यसले असाधारण वृद्धि अनुभव गरिरहेको छ। R1 मोडेलको सुरुवात पछि, सम्बन्धित एपले ट्राफिकमा वृद्धि देखेको छ, जसले संकेत गर्दछ कि अनुप्रयोग क्षेत्रहरूमा वृद्धिले समग्र AI इकोसिस्टमलाई अगाडि बढाउनेछ। सकारात्मक पक्ष यो हो कि DeepSeek ले अनुप्रयोग सम्भावनाहरूलाई फराकिलो बनाउनेछ, जसले सुझाव दिन्छ कि ChatGPT मा भर पर्नु भविष्यमा त्यति महँगो हुनेछैन। यो परिवर्तन ओपनएआईको हालैका गतिविधिहरूमा प्रतिबिम्बित भएको छ, जसमा डीपसीक आर१ को प्रतिक्रियामा नि:शुल्क प्रयोगकर्ताहरूलाई o3-मिनी भनिने तर्क मोडेलको प्रावधान, साथै पछिल्ला अपग्रेडहरू समावेश छन् जसले ओ३-मिनीको विचार श्रृंखलालाई सार्वजनिक बनायो। धेरै विदेशी प्रयोगकर्ताहरूले यी विकासहरूका लागि डीपसीकप्रति कृतज्ञता व्यक्त गरे, यद्यपि यो विचार श्रृंखला सारांशको रूपमा काम गर्दछ।

आशावादी रूपमा, यो स्पष्ट छ कि DeepSeek ले घरेलु खेलाडीहरूलाई एकताबद्ध गरिरहेको छ। प्रशिक्षण लागत घटाउने कुरामा ध्यान केन्द्रित गर्दै, विभिन्न अपस्ट्रीम चिप निर्माताहरू, मध्यवर्ती क्लाउड प्रदायकहरू, र असंख्य स्टार्टअपहरू सक्रिय रूपमा इकोसिस्टममा सामेल भइरहेका छन्, जसले DeepSeek मोडेल प्रयोग गर्न लागत दक्षता बढाउँदैछ। DeepSeek का कागजातहरू अनुसार, V3 मोडेलको पूर्ण प्रशिक्षणको लागि केवल २.७८८ मिलियन H800 GPU घण्टा चाहिन्छ, र प्रशिक्षण प्रक्रिया अत्यधिक स्थिर छ। MoE (विशेषज्ञहरूको मिश्रण) वास्तुकला ४०५ बिलियन प्यारामिटरहरू भएको Llama ३ को तुलनामा दसको कारकले पूर्व-प्रशिक्षण लागत घटाउन महत्त्वपूर्ण छ। हाल, V3 MoE मा यति उच्च स्पर्सिटी प्रदर्शन गर्ने पहिलो सार्वजनिक रूपमा मान्यता प्राप्त मोडेल हो। थप रूपमा, MLA (बहु तह ध्यान) synergistically काम गर्दछ, विशेष गरी तर्क पक्षहरूमा। "MoE जति स्पर्स हुन्छ, कम्प्युटेसनल पावरको पूर्ण उपयोग गर्न तर्कको समयमा ब्याच साइज जति ठूलो हुन्छ, KVCache को आकार प्रमुख सीमित कारक हुन्छ; MLA ले KVCache को आकारलाई उल्लेखनीय रूपमा घटाउँछ," AI टेक्नोलोजी समीक्षाको लागि एक विश्लेषणमा चुआनजिङ टेक्नोलोजीका एक अनुसन्धानकर्ताले उल्लेख गरे। समग्रमा, DeepSeek को सफलता एउटा मात्र नभई विभिन्न प्रविधिहरूको संयोजनमा निहित छ। उद्योगका आन्तरिकहरूले DeepSeek टोलीको इन्जिनियरिङ क्षमताहरूको प्रशंसा गर्छन्, समानान्तर प्रशिक्षण र अपरेटर अप्टिमाइजेसनमा उनीहरूको उत्कृष्टतालाई ध्यानमा राख्दै, प्रत्येक विवरणलाई परिष्कृत गरेर अभूतपूर्व परिणामहरू प्राप्त गर्दै। DeepSeek को खुला-स्रोत दृष्टिकोणले ठूला मोडेलहरूको समग्र विकासलाई थप इन्धन दिन्छ, र यो अपेक्षा गरिएको छ कि यदि समान मोडेलहरू छविहरू, भिडियोहरू, र थपमा विस्तार भएमा, यसले उद्योगभरि मागलाई उल्लेखनीय रूपमा उत्तेजित गर्नेछ।

तेस्रो-पक्ष तर्क सेवाहरूको लागि अवसरहरू

तथ्याङ्कले संकेत गर्छ कि यसको रिलीज भएदेखि, DeepSeek ले केवल २१ दिन भित्र २२.१५ मिलियन दैनिक सक्रिय प्रयोगकर्ताहरू (DAU) जम्मा गरेको छ, जसले ChatGPT को प्रयोगकर्ता आधारको ४१.६% प्राप्त गरेको छ र Doubao को १६.९५ मिलियन दैनिक सक्रिय प्रयोगकर्ताहरूलाई पार गरेको छ, यसरी विश्वव्यापी रूपमा सबैभन्दा छिटो बढ्दो अनुप्रयोग बनेको छ, १५७ देशहरू/क्षेत्रहरूमा एप्पल एप स्टोरलाई शीर्ष स्थानमा राखेको छ। यद्यपि, प्रयोगकर्ताहरूको भीड बढ्दै जाँदा, साइबर ह्याकरहरूले DeepSeek एपमा निरन्तर आक्रमण गरिरहेका छन्, जसले गर्दा यसको सर्भरहरूमा उल्लेखनीय तनाव उत्पन्न भएको छ। उद्योग विश्लेषकहरू विश्वास गर्छन् कि यो आंशिक रूपमा DeepSeek ले प्रशिक्षणको लागि कार्डहरू तैनाथ गरेको कारणले हो जबकि तर्कको लागि पर्याप्त कम्प्युटेशनल शक्तिको अभाव छ। एक उद्योग भित्री व्यक्तिले AI टेक्नोलोजी समीक्षालाई जानकारी दिए, "बारम्बार सर्भर समस्याहरू शुल्क लिएर वा थप मेसिनहरू खरिद गर्न वित्तपोषण गरेर सजिलै समाधान गर्न सकिन्छ; अन्ततः, यो DeepSeek को निर्णयहरूमा निर्भर गर्दछ।" यसले प्रविधि बनाम उत्पादनीकरणमा ध्यान केन्द्रित गर्ने एक व्यापार-अफ प्रस्तुत गर्दछ। DeepSeek ले धेरै हदसम्म आत्म-निर्वाहको लागि क्वान्टम क्वान्टाइजेसनमा निर्भर गरेको छ, थोरै बाह्य कोष प्राप्त गरेको छ, जसको परिणामस्वरूप अपेक्षाकृत कम नगद प्रवाह दबाब र शुद्ध प्राविधिक वातावरण सिर्जना भएको छ। हाल, माथि उल्लेखित समस्याहरूको प्रकाशमा, केही प्रयोगकर्ताहरूले सामाजिक सञ्जालमा DeepSeek लाई प्रयोगको सीमा बढाउन वा प्रयोगकर्ताको सुविधा बढाउन सशुल्क सुविधाहरू प्रस्तुत गर्न आग्रह गरिरहेका छन्। थप रूपमा, विकासकर्ताहरूले अनुकूलनको लागि आधिकारिक API वा तेस्रो-पक्ष API हरू प्रयोग गर्न थालेका छन्। यद्यपि, DeepSeek को खुला प्लेटफर्मले हालै घोषणा गर्‍यो, "हालको सर्भर स्रोतहरू दुर्लभ छन्, र API सेवा रिचार्जहरू निलम्बित गरिएको छ।"

 

यसले निस्सन्देह एआई पूर्वाधार क्षेत्रमा तेस्रो-पक्ष विक्रेताहरूको लागि थप अवसरहरू खोल्छ। हालै, धेरै घरेलु र अन्तर्राष्ट्रिय क्लाउड दिग्गजहरूले डीपसिकको मोडेल एपीआईहरू सुरु गरेका छन् - विदेशी दिग्गजहरू माइक्रोसफ्ट र अमेजन जनवरीको अन्त्यमा सामेल हुने पहिलो व्यक्तिहरू मध्ये एक थिए। घरेलु नेता, हुआवेई क्लाउडले पहिलो कदम चालेको छ, फेब्रुअरी १ ​​मा सिलिकन-आधारित फ्लोसँगको सहकार्यमा डीपसिक R1 र V3 तर्क सेवाहरू जारी गर्दै। एआई टेक्नोलोजी समीक्षाका रिपोर्टहरूले संकेत गर्दछ कि सिलिकन-आधारित फ्लोका सेवाहरूले प्रयोगकर्ताहरूको आगमन देखेका छन्, जसले प्लेटफर्मलाई प्रभावकारी रूपमा "क्र्यास" गरिरहेको छ। ठूला तीन प्राविधिक कम्पनीहरू - BAT (बैदु, अलिबाबा, टेन्सेन्ट) र बाइटडान्स - ले पनि फेब्रुअरी ३ देखि सुरु हुने कम लागत, सीमित-समय प्रस्तावहरू जारी गरेका छन्, जुन गत वर्षको डीपसिकको V2 मोडेल लन्चले प्रज्वलित क्लाउड विक्रेता मूल्य युद्धहरूको सम्झना दिलाउँछ, जहाँ डीपसिकलाई "मूल्य कसाई" भनेर डब गर्न थालिएको थियो। क्लाउड विक्रेताहरूको उग्र कार्यहरूले माइक्रोसफ्ट एजुरे र ओपनएआई बीचको पहिलेको बलियो सम्बन्धलाई प्रतिध्वनित गर्दछ, जहाँ २०१९ मा, माइक्रोसफ्टले ओपनएआईमा १ बिलियन डलरको पर्याप्त लगानी गरेको थियो र २०२३ मा च्याटजीपीटीको सुरुवात पछि फाइदा उठाएको थियो। यद्यपि, मेटा ओपन-सोर्स लामा पछि यो घनिष्ठ सम्बन्धमा खलल पर्न थाल्यो, जसले माइक्रोसफ्ट एजुरे इकोसिस्टम बाहिरका अन्य विक्रेताहरूलाई उनीहरूको ठूला मोडेलहरूसँग प्रतिस्पर्धा गर्न अनुमति दियो। यस उदाहरणमा, डीपसीकले उत्पादन तापको सन्दर्भमा च्याटजीपीटीलाई मात्र पार गरेको छैन तर ओ१ रिलीज पछि खुला-स्रोत मोडेलहरू पनि प्रस्तुत गरेको छ, लामाको GPT-3 को पुनरुत्थानको वरिपरिको उत्साह जस्तै।

 

वास्तविकतामा, क्लाउड प्रदायकहरूले आफूलाई AI अनुप्रयोगहरूको लागि ट्राफिक गेटवेको रूपमा पनि राखिरहेका छन्, जसको अर्थ विकासकर्ताहरूसँगको सम्बन्धलाई गहिरो बनाउनु पूर्व-लाभकारी फाइदाहरूमा अनुवाद हुन्छ। रिपोर्टहरूले संकेत गर्दछ कि Baidu स्मार्ट क्लाउडले मोडेलको सुरुवातको दिनमा Qianfan प्लेटफर्म मार्फत DeepSeek मोडेल प्रयोग गर्ने १५,००० भन्दा बढी ग्राहकहरू थिए। थप रूपमा, धेरै साना फर्महरूले समाधानहरू प्रस्ताव गरिरहेका छन्, जसमा सिलिकन-आधारित फ्लो, लुचेन टेक्नोलोजी, चुआनजिङ टेक्नोलोजी, र विभिन्न AI इन्फ्रा प्रदायकहरू समावेश छन् जसले DeepSeek मोडेलहरूको लागि समर्थन सुरु गरेका छन्। AI टेक्नोलोजी समीक्षाले सिकेको छ कि DeepSeek को स्थानीयकृत तैनातीहरूको लागि हालको अनुकूलन अवसरहरू मुख्यतया दुई क्षेत्रहरूमा अवस्थित छन्: एउटा भनेको हाइब्रिड GPU/CPU अनुमान प्रयोग गर्दा स्थानीय रूपमा 671 बिलियन प्यारामिटर MoE मोडेल तैनाती गर्न मिश्रित तर्क दृष्टिकोण प्रयोग गरेर MoE मोडेलको स्पार्सिटी विशेषताहरूको लागि अनुकूलन गर्नु हो। थप रूपमा, MLA को अनुकूलन महत्त्वपूर्ण छ। यद्यपि, DeepSeek का दुई मोडेलहरूले तैनाती अनुकूलनमा अझै पनि केही चुनौतीहरूको सामना गर्छन्। "मोडेलको आकार र असंख्य प्यारामिटरहरूको कारण, अप्टिमाइजेसन वास्तवमै जटिल छ, विशेष गरी स्थानीय तैनातीहरूको लागि जहाँ प्रदर्शन र लागत बीचको इष्टतम सन्तुलन प्राप्त गर्न चुनौतीपूर्ण हुनेछ," चुआनजिङ टेक्नोलोजीका एक अनुसन्धानकर्ताले भने। सबैभन्दा महत्त्वपूर्ण बाधा मेमोरी क्षमता सीमाहरू पार गर्नु हो। "हामी CPU हरू र अन्य कम्प्युटेसनल स्रोतहरूको पूर्ण उपयोग गर्न एक विषम सहयोग दृष्टिकोण अपनाउँछौं, उच्च-प्रदर्शन CPU अपरेटरहरू प्रयोग गरेर प्रशोधनको लागि CPU/DRAM मा स्पार्स MoE म्याट्रिक्सको गैर-साझेदारी भागहरू मात्र राख्छौं, जबकि घना भागहरू GPU मा रहन्छन्," उनले थप व्याख्या गरे। रिपोर्टहरूले संकेत गर्दछ कि चुआनजिङको खुला-स्रोत फ्रेमवर्क KTransformers ले मुख्यतया टेम्प्लेट मार्फत मूल ट्रान्सफर्मर कार्यान्वयनमा विभिन्न रणनीतिहरू र अपरेटरहरूलाई इन्जेक्ट गर्दछ, CUDAGraph जस्ता विधिहरू प्रयोग गरेर अनुमान गतिलाई उल्लेखनीय रूपमा बढाउँछ। DeepSeek ले यी स्टार्टअपहरूको लागि अवसरहरू सिर्जना गरेको छ, किनकि वृद्धि लाभहरू स्पष्ट हुँदै गइरहेका छन्; धेरै फर्महरूले DeepSeek API सुरु गरेपछि उल्लेखनीय ग्राहक वृद्धि रिपोर्ट गरेका छन्, अनुकूलन खोज्ने अघिल्ला ग्राहकहरूबाट सोधपुछ प्राप्त गर्दै। उद्योगका आन्तरिक व्यक्तिहरूले उल्लेख गरेका छन्, "विगतमा, केही हदसम्म स्थापित ग्राहक समूहहरू प्रायः ठूला कम्पनीहरूको मानकीकृत सेवाहरूमा बन्द थिए, स्केलको कारणले गर्दा तिनीहरूको लागत फाइदाहरूसँग कडा रूपमा बाँधिएका थिए। यद्यपि, वसन्त महोत्सव अघि DeepSeek-R1/V3 को तैनाती पूरा गरेपछि, हामीले अचानक धेरै प्रसिद्ध ग्राहकहरूबाट सहयोग अनुरोधहरू प्राप्त गर्यौं, र पहिले निष्क्रिय ग्राहकहरूले पनि हाम्रो DeepSeek सेवाहरू परिचय गराउन सम्पर्क सुरु गरे।" हाल, यस्तो देखिन्छ कि DeepSeek ले मोडेल अनुमान प्रदर्शनलाई बढ्दो रूपमा महत्वपूर्ण बनाउँदैछ, र ठूला मोडेलहरूको व्यापक अपनाइसँगै, यसले AI इन्फ्रा उद्योगमा विकासलाई उल्लेखनीय रूपमा प्रभाव पार्न जारी राख्नेछ। यदि DeepSeek-स्तरको मोडेल कम लागतमा स्थानीय रूपमा तैनाथ गर्न सकिन्छ भने, यसले सरकार र उद्यम डिजिटल रूपान्तरण प्रयासहरूलाई धेरै मद्दत गर्नेछ। यद्यपि, चुनौतीहरू कायमै छन्, किनकि केही ग्राहकहरूले ठूला मोडेल क्षमताहरूको बारेमा उच्च अपेक्षाहरू राख्न सक्छन्, जसले गर्दा व्यावहारिक तैनातीमा प्रदर्शन र लागत सन्तुलन महत्त्वपूर्ण हुन्छ भन्ने कुरा स्पष्ट हुन्छ। 

DeepSeek ChatGPT भन्दा राम्रो छ कि छैन भनेर मूल्याङ्कन गर्न, तिनीहरूको मुख्य भिन्नता, शक्ति र प्रयोगका केसहरू बुझ्नु आवश्यक छ। यहाँ एक व्यापक तुलना छ:

सुविधा/पहलू डीपसिक च्याटजीपीटी
स्वामित्व चिनियाँ कम्पनीद्वारा विकसित OpenAI द्वारा विकसित
स्रोत मोडेल खुला स्रोत स्वामित्व
लागत प्रयोग गर्न नि:शुल्क; सस्ता API पहुँच विकल्पहरू सदस्यता वा प्रति-प्रयोग-भुक्तानी मूल्य निर्धारण
अनुकूलन अत्यधिक अनुकूलन योग्य, प्रयोगकर्ताहरूलाई यसमा ट्वीक गर्न र निर्माण गर्न अनुमति दिँदै। सीमित अनुकूलन उपलब्ध छ
विशिष्ट कार्यहरूमा प्रदर्शन डेटा विश्लेषण र जानकारी पुन: प्राप्ति जस्ता निश्चित क्षेत्रहरूमा उत्कृष्टता हासिल गरेको। रचनात्मक लेखन र कुराकानी कार्यहरूमा बलियो प्रदर्शनको साथ बहुमुखी प्रतिभा।
भाषा समर्थन चिनियाँ भाषा र संस्कृतिमा बलियो ध्यान व्यापक भाषा समर्थन तर अमेरिका-केन्द्रित
तालिम लागत कम प्रशिक्षण लागत, दक्षताको लागि अनुकूलित उच्च प्रशिक्षण लागत, पर्याप्त कम्प्युटेसनल स्रोतहरू आवश्यक पर्दछ
प्रतिक्रिया भिन्नता भूराजनीतिक सन्दर्भबाट प्रभावित भएर फरक प्रतिक्रियाहरू दिन सक्छ। तालिम डेटामा आधारित सुसंगत उत्तरहरू
लक्षित दर्शक लचिलोपन चाहने विकासकर्ताहरू र अनुसन्धानकर्ताहरूलाई लक्षित गर्दै कुराकानी क्षमताहरू खोज्ने सामान्य प्रयोगकर्ताहरूलाई लक्षित गरी
केसहरू प्रयोग गर्नुहोस् कोड उत्पादन र द्रुत कार्यहरूको लागि अझ कुशल पाठ उत्पन्न गर्न, प्रश्नहरूको जवाफ दिन र संवादमा संलग्न हुनको लागि आदर्श

"Nvidia लाई अवरोध पुर्‍याउने" मा एक महत्वपूर्ण दृष्टिकोण

हाल, Huawei बाहेक, Moore Threads, Muxi, Biran Technology, र Tianxu Zhixin जस्ता धेरै घरेलु चिप निर्माताहरूले पनि DeepSeek का दुई मोडेलहरूमा अनुकूलन गरिरहेका छन्। एक चिप निर्माताले AI Technology Review लाई भने, "DeepSeek को संरचनाले नवीनता प्रदर्शन गर्दछ, तर यो LLM नै रहन्छ। DeepSeek मा हाम्रो अनुकूलन मुख्यतया तर्क अनुप्रयोगहरूमा केन्द्रित छ, जसले प्राविधिक कार्यान्वयनलाई एकदमै सीधा र छिटो बनाउँछ।" यद्यपि, MoE दृष्टिकोणलाई भण्डारण र वितरणको सन्दर्भमा उच्च मागहरू आवश्यक पर्दछ, घरेलु चिपहरूसँग तैनाथ गर्दा अनुकूलता सुनिश्चित गर्नुको साथै, अनुकूलनको समयमा समाधान आवश्यक पर्ने असंख्य इन्जिनियरिङ चुनौतीहरू प्रस्तुत गर्दछ। "हाल, घरेलु कम्प्युटेसनल पावर Nvidia सँग उपयोगिता र स्थिरतामा मेल खाँदैन, सफ्टवेयर वातावरण सेटअप, समस्या निवारण, र आधारभूत प्रदर्शन अनुकूलनको लागि मूल कारखाना सहभागिता आवश्यक पर्दछ," व्यावहारिक अनुभवको आधारमा एक उद्योग व्यवसायीले भने। एकै साथ, "DeepSeek R1 को ठूलो प्यारामिटर स्केलको कारण, घरेलु कम्प्युटेसनल पावरले समानान्तरको लागि थप नोडहरू आवश्यक पर्दछ। थप रूपमा, घरेलु हार्डवेयर विशिष्टताहरू अझै केही हदसम्म पछाडि छन्; उदाहरणका लागि, Huawei 910B ले हाल DeepSeek द्वारा प्रस्तुत गरिएको FP8 अनुमानलाई समर्थन गर्न सक्दैन।" DeepSeek V3 मोडेलको एउटा मुख्य विशेषता भनेको FP8 मिश्रित परिशुद्धता प्रशिक्षण ढाँचाको परिचय हो, जुन अत्यन्तै ठूलो मोडेलमा प्रभावकारी रूपमा प्रमाणित गरिएको छ, जसले महत्त्वपूर्ण उपलब्धि हासिल गरेको छ। पहिले, माइक्रोसफ्ट र Nvidia जस्ता प्रमुख खेलाडीहरूले सम्बन्धित कामको सुझाव दिएका थिए, तर सम्भाव्यताको बारेमा उद्योग भित्र शंकाहरू छन्। यो बुझिन्छ कि INT8 को तुलनामा, FP8 को प्राथमिक फाइदा भनेको प्रशिक्षण पछिको परिमाणीकरणले अनुमान गतिलाई उल्लेखनीय रूपमा बढाउँदै लगभग हानिरहित परिशुद्धता प्राप्त गर्न सक्छ। FP16 सँग तुलना गर्दा, FP8 ले Nvidia को H20 मा दुई गुणा र H100 मा 1.5 गुणा भन्दा बढी त्वरण महसुस गर्न सक्छ। उल्लेखनीय रूपमा, घरेलु कम्प्युटेसनल पावर प्लस घरेलु मोडेलहरूको प्रवृत्ति वरिपरि छलफलहरू गति लिँदै जाँदा, Nvidia लाई अवरोध गर्न सकिन्छ कि सकिँदैन र CUDA खाडललाई बाइपास गर्न सकिन्छ कि सकिँदैन भन्ने बारेमा अनुमानहरू बढ्दो रूपमा प्रचलित हुँदै गइरहेका छन्। एउटा निर्विवाद तथ्य यो हो कि DeepSeek ले Nvidia को बजार मूल्यमा वास्तवमा उल्लेखनीय गिरावट ल्याएको छ, तर यो परिवर्तनले Nvidia को उच्च-अन्त कम्प्युटेसनल पावर अखण्डताको बारेमा प्रश्नहरू उठाउँछ। पूँजी-संचालित कम्प्युटेसनल संचयको बारेमा पहिले स्वीकृत कथाहरूलाई चुनौती दिइँदैछ, तर प्रशिक्षण परिदृश्यहरूमा Nvidia लाई पूर्ण रूपमा प्रतिस्थापन गर्न अझै पनि गाह्रो छ। DeepSeek को CUDA को गहिरो प्रयोगको विश्लेषणले देखाउँछ कि लचिलोपन - जस्तै सञ्चारको लागि SM प्रयोग गर्ने वा नेटवर्क कार्डहरू प्रत्यक्ष रूपमा हेरफेर गर्ने - नियमित GPU हरूलाई समायोजन गर्न सम्भव छैन। उद्योग दृष्टिकोणले जोड दिन्छ कि Nvidia को खाडलले CUDA मात्र नभई सम्पूर्ण CUDA इकोसिस्टमलाई समेट्छ, र DeepSeek ले प्रयोग गर्ने PTX (समानान्तर थ्रेड कार्यान्वयन) निर्देशनहरू अझै पनि CUDA इकोसिस्टमको हिस्सा हुन्। "छोटो अवधिमा, Nvidia को कम्प्युटेसनल शक्तिलाई बाइपास गर्न सकिँदैन - यो विशेष गरी प्रशिक्षणमा स्पष्ट छ; यद्यपि, तर्कको लागि घरेलु कार्डहरू तैनाथ गर्नु अपेक्षाकृत सजिलो हुनेछ, त्यसैले प्रगति सम्भवतः छिटो हुनेछ। घरेलु कार्डहरूको अनुकूलन मुख्यतया अनुमानमा केन्द्रित छ; कसैले पनि अझैसम्म घरेलु कार्डहरूमा DeepSeek को प्रदर्शनको मोडेललाई तालिम दिन सफल भएको छैन," एक उद्योग विश्लेषकले AI टेक्नोलोजी समीक्षालाई टिप्पणी गरे। समग्रमा, अनुमानको दृष्टिकोणबाट, परिस्थितिहरू घरेलु ठूला मोडेल चिपहरूको लागि उत्साहजनक छन्। प्रशिक्षणको अत्यधिक उच्च आवश्यकताहरूको कारणले गर्दा अनुमानको दायरा भित्र घरेलु चिप निर्माताहरूका लागि अवसरहरू बढी स्पष्ट छन्, जसले प्रवेशमा बाधा पुर्‍याउँछ। विश्लेषकहरूको तर्क छ कि केवल घरेलु अनुमान कार्डहरू प्रयोग गर्नु पर्याप्त छ; यदि आवश्यक भएमा, थप मेसिन प्राप्त गर्न सम्भव छ, जबकि प्रशिक्षण मोडेलहरूले अद्वितीय चुनौतीहरू खडा गर्छन् - मेसिनहरूको बढ्दो संख्या व्यवस्थापन गर्नु बोझिलो हुन सक्छ, र उच्च त्रुटि दरहरूले प्रशिक्षण परिणामहरूलाई नकारात्मक रूपमा असर गर्न सक्छ। प्रशिक्षणमा पनि विशिष्ट क्लस्टर स्केल आवश्यकताहरू छन्, जबकि अनुमानको लागि क्लस्टरहरूमा मागहरू त्यति कडा छैनन्, जसले गर्दा GPU आवश्यकताहरू सहज हुन्छन्। हाल, Nvidia को एकल H20 कार्डको प्रदर्शन Huawei वा Cambrian को भन्दा बढी छैन; यसको बल क्लस्टरिङमा निहित छ। कम्प्युटेसनल पावर बजारमा समग्र प्रभावको आधारमा, लुचेन टेक्नोलोजीका संस्थापक, यु याङले AI टेक्नोलोजी समीक्षासँगको एक अन्तर्वार्तामा उल्लेख गरे, "DeepSeek ले अल्ट्रा-ठूला प्रशिक्षण कम्प्युटेसनल क्लस्टरहरूको स्थापना र भाडालाई अस्थायी रूपमा कमजोर बनाउन सक्छ। लामो समयसम्म, ठूला मोडेल प्रशिक्षण, तर्क, र अनुप्रयोगहरूसँग सम्बन्धित लागतहरूलाई उल्लेखनीय रूपमा घटाएर, बजारको माग बढ्ने सम्भावना छ। त्यसकारण यस आधारमा AI को पछिल्ला पुनरावृत्तिले कम्प्युटेसनल पावर बजारमा निरन्तर माग बढाउनेछ।" थप रूपमा, "DeepSeek को तर्क र फाइन-ट्युनिङ सेवाहरूको बढ्दो माग घरेलु कम्प्युटेसनल परिदृश्यसँग बढी उपयुक्त छ, जहाँ स्थानीय क्षमताहरू तुलनात्मक रूपमा कमजोर छन्, क्लस्टर स्थापना पछि निष्क्रिय स्रोतहरूबाट हुने फोहोर कम गर्न मद्दत गर्दछ; यसले घरेलु कम्प्युटेसनल इकोसिस्टमको विभिन्न स्तरहरूमा निर्माताहरूको लागि व्यवहार्य अवसरहरू सिर्जना गर्दछ।" लुचेन टेक्नोलोजीले घरेलु कम्प्युटेसनल शक्तिमा आधारित DeepSeek R1 श्रृंखला तर्क API र क्लाउड इमेजिङ सेवाहरू सुरु गर्न Huawei क्लाउडसँग सहकार्य गरेको छ। You Yang ले भविष्यको बारेमा आशावाद व्यक्त गर्नुभयो: "DeepSeek ले घरेलु रूपमा उत्पादित समाधानहरूमा विश्वास जगाउँछ, अगाडि बढ्ने घरेलु कम्प्युटेसनल क्षमताहरूमा बढी उत्साह र लगानीलाई प्रोत्साहित गर्दछ।"

微信图片_20240614024031.jpg1

निष्कर्ष

DeepSeek ChatGPT भन्दा "राम्रो" छ कि छैन भन्ने कुरा प्रयोगकर्ताको विशिष्ट आवश्यकता र उद्देश्यमा निर्भर गर्दछ। लचिलोपन, कम लागत, र अनुकूलन आवश्यक पर्ने कार्यहरूको लागि, DeepSeek उत्कृष्ट हुन सक्छ। रचनात्मक लेखन, सामान्य सोधपुछ, र प्रयोगकर्ता-मैत्री कुराकानी इन्टरफेसहरूको लागि, ChatGPT ले नेतृत्व लिन सक्छ। प्रत्येक उपकरणले फरक उद्देश्यहरू पूरा गर्दछ, त्यसैले छनोट तिनीहरू प्रयोग गरिएको सन्दर्भमा धेरै निर्भर गर्दछ।

ELV केबल समाधान खोज्नुहोस्

नियन्त्रण केबलहरू

BMS, BUS, औद्योगिक, उपकरण केबलको लागि।

संरचित केबलिङ प्रणाली

नेटवर्क र डेटा, फाइबर-अप्टिक केबल, प्याच कर्ड, मोड्युल, फेसप्लेट

२०२४ प्रदर्शनी र कार्यक्रमहरूको समीक्षा

अप्रिल १६-१८, २०२४ दुबईमा मध्य-पूर्व-ऊर्जा

अप्रिल १६-१८, २०२४ मस्कोमा सेकुरिका

मे ९, २०२४ मा सांघाईमा नयाँ उत्पादन र प्रविधिहरूको सुरुवात कार्यक्रम

अक्टोबर २२-२५, २०२४ बेइजिङमा सुरक्षा चीन

नोभेम्बर १९-२०, २०२४ कनेक्टेड वर्ल्ड साउदी अरेबिया


पोस्ट समय: फेब्रुअरी-१०-२०२५