ChatGPT: यह चैटजीपीटी वास्तव में क्या है और कैसे काम करता है?
ChatGPT को InstructGPT के समान तरीकों का उपयोग करके 'मानव प्रतिक्रिया से सुदृढीकरण सीखना' (RLHF) का उपयोग करने के लिए प्रशिक्षित किया गया था

ChatGPT को InstructGPT के समान तरीकों का उपयोग करके 'मानव प्रतिक्रिया से सुदृढीकरण सीखना' (RLHF) का उपयोग करने के लिए प्रशिक्षित किया गया था, लेकिन डेटा संग्रह सेटअप में कुछ अंतरों के साथ। एआई-संचालित उत्तर देने वाले बॉट के बारे में जानने के लिए आपको यहां सब कुछ चाहिए।
चैटजीपीटी नामक एक आर्टिफिशियल इंटेलिजेंस (एआई) संचालित चैटबॉट पर दुनिया कैसे पागल हो रही है जो कविता और निबंध लिखने में सक्षम है और आपके मित्र मित्र की तरह मजाकिया टिप्पणी भी कर सकता है। नई संवादी एआई ने जल्द ही वास्तविक दुनिया के उपयोग के मामलों के लिए कई मोर्चे खोल दिए जिन्हें केवल सावधानी से संभाला जा सकता है।
ChatGPT की संस्थापक कंपनी OpenAI के अनुसार, उन्होंने एक आर्टिफिशियल इंटेलिजेंस मॉडल को प्रशिक्षित किया जो संवादात्मक रूप से संवाद कर सकता था।
संवाद प्रारूप चैटजीपीटी को अनुवर्ती प्रश्नों का उत्तर देने, गलतियों को स्वीकार करने, गलत धारणाओं को चुनौती देने और अनुचित अनुरोधों को अस्वीकार करने की अनुमति देता है।
ChatGPT "InstructGPT" मॉडल से संबंधित है, जिसे OpenAI के अनुसार निर्देशों का पालन करने और एक विस्तृत प्रतिक्रिया प्रदान करने के लिए प्रशिक्षित किया जाता है, जिसे Microsoft ने $1 बिलियन में अधिग्रहित किया था।
यह कैसे काम करता है?
कंपनी ने इंस्ट्रक्टजीपीटी के समान तरीकों का उपयोग करते हुए 'इंफोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक' (आरएलएचएफ) का उपयोग करते हुए मॉडल को प्रशिक्षित किया, लेकिन डेटा संग्रह सेटअप में मामूली अंतर के साथ।
OpenAI ने कहा: "हमने गाइडेड फाइन-ट्यूनिंग का उपयोग करके शुरुआती मॉडल को प्रशिक्षित किया: मानव AI प्रशिक्षकों ने बातचीत प्रदान की जिसमें उन्होंने दोनों पक्षों - उपयोगकर्ता और AI सहायक की भूमिका निभाई।"
टीमों ने प्रशिक्षकों को मॉडल-लिखित मसौदों तक पहुंच भी प्रदान की ताकि उन्हें प्रतिक्रियाएं बनाने में मदद मिल सके।
कंपनी ने कहा, "हमने इस नई डायलॉग डेटा फाइल को इंस्ट्रक्टजीपीटी डेटा फाइल के साथ मिलाया, जिसे हमने एक डायलॉग फॉर्मेट में बदल दिया।"
सुदृढीकरण सीखने के लिए एक इनाम मॉडल बनाने के लिए, एआई प्रशिक्षकों ने चैटबॉट के साथ बातचीत की।
"हमने बेतरतीब ढंग से मॉडल द्वारा लिखे गए एक संदेश का चयन किया, कई वैकल्पिक पूर्णता का नमूना लिया और उन्हें एआई प्रशिक्षकों द्वारा रेट किया गया। इन इनाम मॉडल का उपयोग करके, हम 'समीपस्थ नीति अनुकूलन' का उपयोग करके मॉडल को ठीक कर सकते हैं। हमने इस प्रक्रिया के कई पुनरावृत्तियों का प्रदर्शन किया, "ओपनएआई ने समझाया।
चैटजीपीटी की सीमाएं क्या हैं?
ChatGPT कभी-कभी प्रशंसनीय-सा लगता है, लेकिन कभी-कभी गलत या निरर्थक उत्तर लिखता है। कंपनी के अनुसार, इस समस्या को ठीक करना मुश्किल है क्योंकि आरएल प्रशिक्षण के दौरान वर्तमान में सच्चाई का कोई स्रोत नहीं है, और मॉडल को अधिक सतर्क रहने के लिए प्रशिक्षित करने से यह उन प्रश्नों को अस्वीकार कर देता है जिनका वह सही उत्तर दे सकता है।
इसके अलावा, पर्यवेक्षित प्रशिक्षण मॉडल का परिचय देता है क्योंकि "आदर्श प्रतिक्रिया इस बात पर निर्भर करती है कि मानव प्रदर्शनकारी क्या जानता है, इसके बजाय मॉडल क्या जानता है।"
ChatGPT इनपुट वाक्यांशों में परिवर्तन या एक ही चुनौती पर बार-बार प्रयास करने के प्रति संवेदनशील है। उदाहरण के लिए, एक प्रश्न के एक वाक्यांश के लिए, मॉडल यह दावा कर सकता है कि उसे उत्तर नहीं पता है, लेकिन OpenAI के अनुसार, थोड़े से शब्द बदलने के बाद, वह सही उत्तर दे सकता है।
मॉडल अक्सर अत्यधिक बातूनी होता है और कुछ वाक्यांशों का अत्यधिक उपयोग करता है, जैसे कि यह दोहराना कि यह OpenAI द्वारा प्रशिक्षित एक भाषा मॉडल है।
"ये समस्याएँ प्रशिक्षण डेटा में पक्षपात से उत्पन्न होती हैं (प्रशिक्षक लंबे उत्तर पसंद करते हैं जो अधिक जटिल दिखते हैं) और प्रसिद्ध अति-अनुकूलन समस्याएँ," कंपनी ने स्वीकार किया।
"जबकि हमने मॉडल को अनुचित अनुरोधों को अस्वीकार करने के लिए अपनी पूरी कोशिश की है, यह कभी-कभी दुर्भावनापूर्ण निर्देशों का जवाब देगा या पक्षपातपूर्ण व्यवहार प्रदर्शित करेगा। हम कुछ प्रकार की खतरनाक सामग्री को चेतावनी देने या ब्लॉक करने के लिए मॉडरेशन एपीआई का उपयोग करते हैं, लेकिन हम उम्मीद करते हैं कि अभी के लिए यह कुछ झूठे नकारात्मक और सकारात्मक होंगे," उन्होंने कहा।