
आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया को कुछ दिनों पहले तूफान से लिया गया था, जो कि डीपसेक-आर 1 की रिहाई के साथ एक ओपन-सोर्स रीज़निंग मॉडल है, जो एक उल्लेखनीय रूप से कम प्रशिक्षण बजट और उपयोग किए जाने का दावा करते हुए शीर्ष फाउंडेशन मॉडल के प्रदर्शन से मेल खाता है। उपन्यास पोस्ट-ट्रेनिंग तकनीक। दीपसेक-आर 1 की रिहाई ने न केवल फाउंडेशन मॉडल के स्केलिंग कानूनों के आसपास के पारंपरिक ज्ञान को चुनौती दी-जो पारंपरिक रूप से बड़े पैमाने पर प्रशिक्षण बजट का पक्ष लेते हैं-लेकिन क्षेत्र में अनुसंधान के सबसे सक्रिय क्षेत्र में ऐसा किया: तर्क।
रिलीज के ओपन-वेट्स (ओपन-सोर्स के विपरीत) प्रकृति ने मॉडल को एआई समुदाय के लिए आसानी से सुलभ बना दिया, जिससे घंटों के भीतर क्लोनों की वृद्धि हुई। इसके अलावा, दीपसेक-आर 1 ने चीन और संयुक्त राज्य अमेरिका के बीच चल रही एआई दौड़ पर अपनी छाप छोड़ी, जो कि तेजी से स्पष्ट हो रहा है: चीनी मॉडल असाधारण रूप से उच्च गुणवत्ता के हैं और मूल विचारों के साथ नवाचार को चलाने में पूरी तरह से सक्षम हैं।
जेनेरिक एआई में अधिकांश प्रगति के विपरीत, जो फाउंडेशन मॉडल के दायरे में वेब 2 और वेब 3 के बीच अंतर को चौड़ा करने के लिए प्रतीत होता है, डीपसेक-आर 1 की रिहाई वास्तविक निहितार्थों को वहन करती है और वेब 3-एआई के लिए पेचीदा अवसर प्रस्तुत करती है। इनका आकलन करने के लिए, हमें पहले दीपसेक-आर 1 के प्रमुख नवाचारों और विभेदकों पर करीब से नज़र डालनी चाहिए।
डीपसेक-आर 1 के अंदर
दीपसेक-आर 1 फाउंडेशन मॉडल के लिए एक अच्छी तरह से स्थापित प्रीट्रेनिंग फ्रेमवर्क में वृद्धिशील नवाचारों को पेश करने का परिणाम था। व्यापक रूप से, डीपसेक-आर 1 सबसे हाई-प्रोफाइल फाउंडेशन मॉडल के समान प्रशिक्षण पद्धति का अनुसरण करता है। इस दृष्टिकोण में तीन प्रमुख चरण शामिल हैं:
- पूर्व प्रशिक्षण: मॉडल को शुरू में बड़े पैमाने पर अनबेल्ड डेटा का उपयोग करके अगले शब्द की भविष्यवाणी करने के लिए दिखावा किया जाता है।
- पर्यवेक्षित फाइन-ट्यूनिंग (SFT): यह कदम दो महत्वपूर्ण क्षेत्रों में मॉडल का अनुकूलन करता है: निर्देशों का पालन करें और प्रश्नों का उत्तर दें।
- मानव वरीयताओं के साथ संरेखण: मानव वरीयताओं के साथ मॉडल की प्रतिक्रियाओं को संरेखित करने के लिए एक अंतिम फाइन-ट्यूनिंग चरण आयोजित किया जाता है।
अधिकांश प्रमुख फाउंडेशन मॉडल – जिनमें ओपनईएआई, गूगल और एन्थ्रोपिक द्वारा विकसित शामिल हैं – इसी सामान्य प्रक्रिया का पालन करते हैं। उच्च स्तर पर, डीपसेक-आर 1 की प्रशिक्षण प्रक्रिया काफी अलग नहीं दिखाई देती है। Buthowever, स्क्रैच से एक बेस मॉडल का दिखावा करने के बजाय, R1 ने अपने पूर्ववर्ती, डीपसेक-वी 3-बेस के बेस मॉडल का लाभ उठाया, जो 617 बिलियन के प्रभावशाली मापदंडों का दावा करता है।
संक्षेप में, डीपसेक-आर 1 बड़े पैमाने पर तर्क डेटासेट के साथ डीपसेक-वी 3-बेस पर एसएफटी को लागू करने का परिणाम है। वास्तविक नवाचार इन तर्क डेटासेट के निर्माण में निहित है, जो निर्माण के लिए कुख्यात हैं।
पहला कदम: दीपसेक-आर 1-जीरो
दीपसेक-आर 1 के सबसे महत्वपूर्ण पहलुओं में से एक यह है कि प्रक्रिया ने सिर्फ एक मॉडल का उत्पादन नहीं किया, बल्कि दो का उत्पादन किया। शायद डीपसेक-आर 1 का सबसे महत्वपूर्ण नवाचार आर 1-जीरो नामक एक मध्यवर्ती मॉडल का निर्माण था, जो तर्क कार्यों में विशिष्ट है। इस मॉडल को लगभग पूरी तरह से सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया गया था, जिसमें लेबल किए गए डेटा पर न्यूनतम निर्भरता थी।
सुदृढीकरण सीखना एक ऐसी तकनीक है जिसमें एक मॉडल को सही उत्तर उत्पन्न करने के लिए पुरस्कृत किया जाता है, जिससे यह समय के साथ ज्ञान को सामान्य करने में सक्षम हो जाता है।
R1-Zero काफी प्रभावशाली है, क्योंकि यह तर्क कार्यों में GPT-O1 से मेल खाने में सक्षम था। हालांकि, मॉडल अधिक सामान्य कार्यों जैसे प्रश्न-उत्तर और पठनीयता के साथ संघर्ष करता है। उस ने कहा, आर 1-जीरो का उद्देश्य कभी भी एक सामान्यवादी मॉडल नहीं बनाना था, बल्कि यह प्रदर्शित करना था ।
दूसरा-चरण: दीपसेक-आर 1
दीपसेक-आर 1 को एक सामान्य-उद्देश्य मॉडल के रूप में डिज़ाइन किया गया था जो तर्क में उत्कृष्टता प्राप्त करता है, जिसका अर्थ है कि इसे आर 1-जीरो को बेहतर बनाने की आवश्यकता थी। इसे प्राप्त करने के लिए, डीपसेक ने एक बार फिर से अपने वी 3 मॉडल के साथ शुरुआत की, लेकिन इस बार, इसने इसे एक छोटे से तर्क डेटासेट पर ठीक कर दिया।
जैसा कि पहले उल्लेख किया गया है, तर्क डेटासेट का उत्पादन करना मुश्किल है। यह वह जगह है जहाँ R1-Zero ने एक महत्वपूर्ण भूमिका निभाई है। इंटरमीडिएट मॉडल का उपयोग एक सिंथेटिक रीजनिंग डेटासेट उत्पन्न करने के लिए किया गया था, जिसका उपयोग तब दीपसेक वी 3 को ठीक करने के लिए किया गया था। इस प्रक्रिया के परिणामस्वरूप एक और इंटरमीडिएट रीज़निंग मॉडल हुआ, जिसे बाद में 600,000 नमूनों के डेटासेट का उपयोग करके एक व्यापक सुदृढीकरण सीखने के चरण के माध्यम से रखा गया, जिसे आर 1-जीरो द्वारा भी उत्पन्न किया गया था। इस प्रक्रिया का अंतिम परिणाम डीपसेक-आर 1 था।
जबकि मैंने R1 प्रीट्रेनिंग प्रक्रिया के कई तकनीकी विवरणों को छोड़ दिया है, यहाँ दो मुख्य takeaways हैं:
- आर 1-जीरो ने प्रदर्शित किया कि बुनियादी सुदृढीकरण सीखने का उपयोग करके परिष्कृत तर्क क्षमताओं को विकसित करना संभव है। हालांकि R1-Zero एक मजबूत सामान्यवादी मॉडल नहीं था, लेकिन इसने R1 के लिए आवश्यक तर्क डेटा को सफलतापूर्वक उत्पन्न किया।
- R1 ने R1-Zero को प्रक्रिया में शामिल करके अधिकांश फाउंडेशन मॉडल द्वारा उपयोग किए जाने वाले पारंपरिक प्रीट्रेनिंग पाइपलाइन का विस्तार किया। इसके अतिरिक्त, इसने R1-Zero द्वारा उत्पन्न सिंथेटिक रीजनिंग डेटा की एक महत्वपूर्ण मात्रा का लाभ उठाया।
नतीजतन, डीपसेक-आर 1 एक मॉडल के रूप में उभरा, जो जीपीटी-ओ 1 की तर्क क्षमताओं से मेल खाता था, जबकि एक सरल और संभावना काफी सस्ती प्रीट्रेनिंग प्रक्रिया का उपयोग करके बनाया गया था।
हर कोई इस बात से सहमत है कि आर 1 जेनेरिक एआई के इतिहास में एक महत्वपूर्ण मील का पत्थर है, एक जो कि फाउंडेशन मॉडल विकसित करने के तरीके को फिर से खोलने की संभावना है। जब यह Web3 की बात आती है, तो यह पता लगाना दिलचस्प होगा कि R1 Web3-AI के विकसित परिदृश्य को कैसे प्रभावित करता है।
दीपसेक-आर 1 और वेब 3-एआई
अब तक, Web3 ने सम्मोहक उपयोग के मामलों को स्थापित करने के लिए संघर्ष किया है जो स्पष्ट रूप से नींव मॉडल के निर्माण और उपयोग में मूल्य जोड़ते हैं। कुछ हद तक, फाउंडेशन मॉडल के लिए पारंपरिक वर्कफ़्लो वेब 3 आर्किटेक्चर का एंटीथिसिस प्रतीत होता है। हालांकि, अपने शुरुआती चरणों में होने के बावजूद, डीपसेक-आर 1 की रिहाई ने कई अवसरों को उजागर किया है जो स्वाभाविक रूप से वेब 3-एआई आर्किटेक्चर के साथ संरेखित हो सकते हैं।
1) सुदृढीकरण लर्निंग ठीक ट्यूनिंग नेटवर्क
आर 1-जीरो ने प्रदर्शित किया कि शुद्ध सुदृढीकरण सीखने का उपयोग करके तर्क मॉडल विकसित करना संभव है। एक कम्प्यूटेशनल दृष्टिकोण से, सुदृढीकरण सीखना अत्यधिक समानांतर है, जो इसे विकेंद्रीकृत नेटवर्क के लिए अच्छी तरह से अनुकूल बनाता है। एक वेब 3 नेटवर्क की कल्पना करें जहां नोड्स को सुदृढीकरण सीखने के कार्यों पर एक मॉडल को ठीक करने के लिए मुआवजा दिया जाता है, प्रत्येक अलग-अलग रणनीतियों को लागू करता है। यह दृष्टिकोण अन्य प्रीट्रेनिंग प्रतिमानों की तुलना में कहीं अधिक संभव है जिसमें जटिल जीपीयू टोपोलॉजी और केंद्रीकृत बुनियादी ढांचे की आवश्यकता होती है।
2) सिंथेटिक रीजनिंग डेटासेट पीढ़ी
दीपसेक-आर 1 का एक अन्य प्रमुख योगदान संज्ञानात्मक कार्यों के लिए कृत्रिम रूप से उत्पन्न तर्क डेटासेट के महत्व को प्रदर्शित करना था। यह प्रक्रिया एक विकेंद्रीकृत नेटवर्क के लिए भी अच्छी तरह से अनुकूल है, जहां नोड्स डेटासेट पीढ़ी की नौकरियों को निष्पादित करते हैं और मुआवजा दिया जाता है क्योंकि इन डेटासेट का उपयोग प्रीट्रेनिंग या फाइन-ट्यूनिंग फाउंडेशन मॉडल के लिए किया जाता है। चूंकि यह डेटा कृत्रिम रूप से उत्पन्न होता है, इसलिए पूरे नेटवर्क को मानव हस्तक्षेप के बिना पूरी तरह से स्वचालित किया जा सकता है, जिससे यह वेब 3 आर्किटेक्चर के लिए एक आदर्श फिट हो जाता है।
3) छोटे डिस्टिल्ड रीजनिंग मॉडल के लिए विकेन्द्रीकृत अनुमान
दीपसेक-आर 1 671 बिलियन मापदंडों के साथ एक विशाल मॉडल है। हालांकि, इसकी रिहाई के लगभग तुरंत बाद, डिस्टिल्ड रीजनिंग मॉडल की एक लहर उभरी, 1.5 से 70 बिलियन मापदंडों तक। ये छोटे मॉडल विकेंद्रीकृत नेटवर्क में अनुमान के लिए काफी अधिक व्यावहारिक हैं। उदाहरण के लिए, एक 1.5B -2B डिस्टिल्ड R1 मॉडल को DEFI प्रोटोकॉल में एम्बेड किया जा सकता है या एक डिपिन नेटवर्क के नोड्स के भीतर तैनात किया जा सकता है। अधिक बस, हम विकेंद्रीकृत गणना नेटवर्क द्वारा संचालित लागत-प्रभावी तर्क निष्कर्ष समापन बिंदुओं के उदय को देखने की संभावना रखते हैं। तर्क एक ऐसा डोमेन है जहां छोटे और बड़े मॉडलों के बीच प्रदर्शन की खाई संकीर्ण हो रही है, जो कि Web3 के लिए एक अनूठा अवसर बना रही है ताकि विकेंद्रीकृत इनवेंशन सेटिंग्स में इन डिस्टिल्ड मॉडल का कुशलता से लाभ उठाया जा सके।
4) तर्क डेटा सिद्धता
तर्क मॉडल की परिभाषित विशेषताओं में से एक किसी दिए गए कार्य के लिए तर्क के निशान उत्पन्न करने की उनकी क्षमता है। दीपसेक-आर 1 इन निशानों को अपने अनुमान आउटपुट के हिस्से के रूप में उपलब्ध कराता है, जिससे तर्क कार्यों के लिए सिद्धता और ट्रेसबिलिटी के महत्व को मजबूत किया जाता है। इंटरनेट आज मुख्य रूप से आउटपुट पर काम करता है, मध्यवर्ती चरणों में थोड़ी दृश्यता के साथ जो उन परिणामों की ओर ले जाता है। Web3 प्रत्येक तर्क कदम को ट्रैक करने और सत्यापित करने का अवसर प्रस्तुत करता है, संभवतः “रीजनिंग का नया इंटरनेट” बनाता है जहां पारदर्शिता और सत्यापनशीलता आदर्श बन जाती है।
Web3-AI के पास R1 के बाद के तर्क युग में एक मौका है
दीपसेक-आर 1 की रिहाई ने जेनेरिक एआई के विकास में एक मोड़ को चिह्नित किया है। स्थापित प्रीट्रेनिंग प्रतिमानों के साथ चतुर नवाचारों को मिलाकर, इसने पारंपरिक एआई वर्कफ़्लोज़ को चुनौती दी है और तर्क-केंद्रित एआई में एक नया युग खोला है। पिछले कई फाउंडेशन मॉडल के विपरीत, डीपसेक-आर 1 उन तत्वों का परिचय देता है जो जेनेरिक एआई को वेब 3 के करीब लाते हैं।
R1 के प्रमुख पहलू – सिंथेटिक रीजनिंग डेटासेट, अधिक समानांतर प्रशिक्षण और ट्रेसबिलिटी की बढ़ती आवश्यकता – स्वाभाविक रूप से वेब 3 सिद्धांतों के साथ संरेखित करें। जबकि Web3-AI ने सार्थक कर्षण प्राप्त करने के लिए संघर्ष किया है, यह नया पोस्ट-R1 तर्क युग AI के भविष्य में अधिक महत्वपूर्ण भूमिका निभाने के लिए Web3 के लिए अभी तक सबसे अच्छा अवसर पेश कर सकता है।