परियोजना

  संस्था केंद्र संगठन प्रबंधन पाठ्यक्रम पुरस्कार प्रकाशन परियोजना वार्षिक गतिविधियाँ

हिंदी कॉपोरा

back पीछे

सूचना प्रौद्योगिकी मंत्रालय की 'भारतीय भाषाओं में प्रौद्योगिकी विकास'संबंधित योजना के अंतर्गत केंद्रीय हिंदी संस्थान में वर्ष 1991 में "हिंदी कॉर्पोरा परियोजना" का प्रारंभ किया गया था। इस परियोजना के अंतर्गत संस्थान में वर्ष 1991 में 1991 से 1993 के बीच हिंदी के तीस लाख शब्दों का कॉर्पोरा विकसित किया गया। इस कार्य में 1980 से 1989 तक के साहित्य को आधार बनाकर विभिन्न विषयों एवं उप-विषयों की सामग्री संकलित की गई। इस कार्य में आई.आई.टी, दिल्ली का सहयोग लिया गया। तदनंतर समस्त कॉर्पोरा भारतीय भाषा संस्थान, मैसूर को अनुरक्षण एवं टैगिंग के लिए दे दिया गया।

1991 में सूचना प्रौद्योगिकी मंत्रालय ने आग्रह किया कि संस्थान हिंदी कॉर्पोरा को भारतीय भाषा संस्थान, मैसूर से लेकर टैगिंग का कार्य पूरा करे। संस्थान ने ई.आर. एण्ड डी.सी.आई., नोएडा को सहयोगी एजेंसी बनाकर यह कार्य प्रारंभ किया। विभिन्न कार्यशालाओं के आयोजन के माध्यम से हिंदी कॉर्पोरा का प्रूफ-शोधन किया गया और उसकी टैगिंग के नियम तैयार किए गए। इन नियमों का कंप्यूटरीकरण ई.आर. एण्ड डी.सी.आई., नोएडा ने किया एवं इसकी सी.डी. तैयार कर सूचना प्रौद्योगिकी मंत्रालय को प्रस्तुत की गई। इस कॉर्पोरा के आधार पर इंडैक्स, विषयानुकूल बारंबारता आधारित कॉर्पोरा को विकसित करना है।

परियोजना के दूसरे चरण में संस्थान ने अपने संसाधनों से इस कॉर्पोरा को दो करोड़ शब्दों तक ले जाने का कार्य प्रारंभ किया है। वर्तमान में यह परियोजना भारतीय भाषा संस्थान, मैसूर के सहयोग से संचालित की जा रही है। वित्तीय वर्ष 2005-06 में इस कार्य को चरणबद्ध तरीके से प्रारंभ किया गया है।

परियोजना के संचालन के लिए निम्नलिखित क्रियाविधि निर्धारित की गई हैं-

  • पहले चरण में पूर्व विकसित हिंदी कॉर्पोरा में अपनाए गए सिद्धांतो के परिप्रेक्ष्य में आवश्यकतानुसार संशोधन किये जाएंगे। यह कार्य संस्थान के अध्यापकों एवं कुछ बाहय विशेषज्ञों (भारतीय भाषा संस्थान, मैसूर) द्वारा कार्यशाला के आधार पर किया जाएगा ।
  • कॉर्पोरा के लिए सामग्री इनपुट का कार्य संस्थान में तथा बाहर से पारिश्रमिक देकर कराया जाएगा ।
  • इनपुट किये गये कारपोरा के शोधन का कार्य संस्थान से कराया जाएगा। ।
  • इस परियोजना में कार्य करने वाले 'परियोजना सहायक' कार्य करेंगे।
  • शोधित कॉर्पोरा के बाद कॉर्पोरा की टैगिंग का कार्य कार्यशाला पद्धति के आधार पर भाषा विशेषज्ञों एवं परियोजना सहायकों से संपन्न कराया जाएगा।
  • पहले लगभग 50,000 शब्दों के आधार पर टैगिंग नियमों का निर्माण किया जाएगा एवं उसका कंप्यूटीकरण किया जाएगा ।
  • विभिन्न विषयों के अनुसार कॉर्पोरा की सी.डी. का निर्माण एवं बारंबारता के आधार पर 20 मिलियन कारपोरा में आए शब्दों का चयन किया जाएगा।
  • इसके आधार पर आगे भाषा अनुप्रयोग परक कार्य किए जा सकेंगे।
  • यह परियोजना तीन वर्षो में छह अर्धवार्षिक चरणों में पूरी की जाएगी। परियोजना के लिए रूपये 37,92000/- संस्थान की शासी परिषद द्वारा स्वीकृत किए जा चुके हैं।

हिंदी कॉर्पोरा परियोजना की अद्यतन प्रगति:

हिंदी कॉर्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक का आयोजन-

केंद्रीय हिंदी संस्थान आगरा और भारतीय भाषा संस्थान मैसूर के संयुक्त तत्वावधान में चल रही हिंदी कार्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक दिनांक 12 फरवरी, 2007 को मुख्यालय आगरा में संपन्न हुई। बैठक की अध्यक्षता करते हुए निदेशक प्रो.शंभुनाथ ने कहा कि परियोजना में संकलित सामग्री के अनुप्रयोगात्मक पक्षों का विकास करते हुए आगामी चरण में परियोजना को उत्पादक बनाया जाए और प्रयोजनमूलक शिक्षण सामग्री तैयार की जाए।

बैठक में कॉर्पोरा से संबंधित कई महत्वपूर्ण निर्णय लिए गए जिनका अनुपालन किया जाएगा। प्रो. श्रीशचंद जैसवाल, प्रो.अश्वनीकुमार श्रीवास्तव, डॉ. बी. मल्लिकार्जुन, डॉ. ज्योत्स्ना रघुवंशी ने महत्वपूर्ण सुझाव दिए। परियोजना में कार्यरत सभी सदस्यों ने बैठक में सहभागिता की।

परियोजना में निर्धारित लक्ष्य के अनुरूप सामग्री संकलन-

केंद्रीय हिंदी संस्थान, आगरा और भारतीय भाषा संस्थान, मैसूर की संयुक्त त्रिवर्षीय परियोजना हिंदी कॉर्पोरा की सलाहकार समिति की पहली बैठक 11-12 मार्च 2005 में हुई थी। जिसमें सामग्री संकलन का लक्ष्य 20 मिलियन शब्द रखा गया था। जिसे दूसरे वर्ष में ही पूरा कर लिया गया है।

  अभी तक संकलित सामग्री (शब्दों) का विवरण इस प्रकार है-

 विषय वस्तु केंद्रीय हिंदी संस्थान, आगरा भारतीय भाषा संस्थान, मैसूर योग
Text Corpora 43,19,474 1,18,70,139 1,61,89,613
News Corpora 03,51,311 39,10,637 42,61,948
कुल योग 46,70,785 1,57,80,776 2,04,51,561

संकलित सामग्री का स्वचालित व्याकरणिक कोटि निर्धारण व भाषिक विश्लेषण का कार्य प्रारंभ किया जा चुका है। भारतीय भाषा संस्थान मैसूर द्वारा तैयार 10 टूल पैकेज का अनुप्रयोग किया जा रहा है। 1414647 शब्दों में व्याकरणिक कोटि के स्तर पर आवृत्ति परीक्षण किया गया है जिसमें सबसे अधिक 364754 शब्द संज्ञा के हैं।

वर्ष 2007-08 का निर्धारित लक्ष्य-

परियोजना सलाहकार समिति की तीसरी बैठक 12-02-07 के सुझावों के अनुरूप निम्नलिखित कार्यों को आगामी वर्ष में किया जाएगा-
· वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से सामग्री का संकलन कार्य
· संकलित सामग्री का व्याकरणिक कोटि निर्धारण
· “10 टूल पैकेज” का प्रयोग करते हुए भाषिक विश्लेषण का कार्य
· टैग सामग्री के आधार पर हिंदी की आधारभूत शब्दावली का निर्माण
· टैग सामग्री का अनुप्रयोग करते हुए डिजीटल हिंदी-अंग्रेजी शब्दकोश का निर्माण
· संकलित सामग्री का अनुप्रयोग करते हुए अन्य भाषा-भाषियों के लिए कंप्यूटर-साधित हिंदी भाषा-शिक्षण सामग्री (CALL Package) का निर्माण

हिंदी कॉर्पोरा की वेबसाइट-

हिंदी कॉर्पोरा परियोजना में अभी तक संकलित सामग्री शीघ्र ही वेब पर उपलब्ध होगी। वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से संकलित 20 मिलियन से अधिक शब्दावली यूनीकोड में व्याकरणिक कोटि निर्धारण सहित वेब पर पहली बार उपलब्ध होगी। यह सामग्री वर्तमान में प्रयुक्त हिंदी का वास्तविक स्वरूप प्रस्तुत करती हैं। इस सामग्री का अनुप्रयोग विविध अनुसंधानपरक योजनाओं: समकालीन हिंदी व्याकरण, शब्द विश्लेषक एवं मशीनी अनुवाद प्रणाली विकास आदि के लिए किया जा सकेगा।

top ऊपर की ओर