छत्तीसगढ़ी भाषा के उन्नयन हेतु केंद्रीय भारतीय भाषा संस्थान का मैसूर का छग आगमन
अरविन्द तिवारी की रिपोर्ट
रायपुर - भारतीय भाषाओं के लिये लिग्विस्टिक डेटा कंसोर्शियम उच्च शिक्षा विभाग मानव संसाधन और विकास मंत्रालय भारत सरकार की एक योजना है , जिसे वर्ष 2007 में स्थापित किया गया है , जोकि केंद्रीय भारतीय भाषा संस्थान, मैसूर द्वारा कार्यान्वित है। एलडीसीआईएल ने अपने डेटा वितरण पोर्टल के माध्यम से 04 अप्रैल 2019 से आर्टिफिशियल इंटेलिजेंस और प्राकृतिक भाषा संसाधन के लिये मुख्य रूप से भारतीय भाषाओं में भाषाई संसाधनों का वितरण शुरू कर दिया है , इस पोर्टल का अनावरण माननीय उपराष्ट्रपति वेंकैया नायडू द्वारा किया गया है। एलडीसीआईएल डाटा पोर्टल पर विभिन्न भारतीय भाषाओं के 42 डाटासेट जारी किया है। जैसे मानक मौलिक टेक्स्ट कॉर्पस बंगाली , बोडो , डोगरी , गुजराती , हिंदी , कन्नड़ , कश्मीरी , कोंकणी , मैथिली , मलयालम , मणिपुरी , मराठी , नेपाली , उडिया , पंजाबी , तमिल , तेलुगु , उर्दू , असमिया।मौलिक स्पीच कॉर्पस - बंगाली , बोडो , हिंदी , कन्नड़ , कोकणी , मैथिली , मलयालम , मणिपुरी , मराठी , नेपाली , पंजाबी , तेलुगु , उर्दू , गुजराती , तमिल , डोगरी , कश्मीरी , उड़िया , असमिया , गुजराती , (एकल) , बहुभाषी भारतीय-अंग्रेज़ी (बंगाली) भारतीय-अंग्रेज़ी (कन्नड)। मशीन लर्निंग की प्रक्रिया में टेक्स्ट डाटासेट का उपयोग कई प्रकार की भाषा मोडलिंग कार्यों के लिये किया जा सकता है। इसके अतिरिक्त एलडीसीआईएल के सभी डाटासेट अपनी भाषा के प्रतिनिधि हैं , उनका उपयोग कई प्रकार के भाषाई विश्लेषण के लिये भी किया जा सकता है और यह भाषा और भाषाई अध्ययन तथा भाषा-तकनीक के कई उपविषयों में उपयोगी हो सकता है। स्पीच डाटासेट का उपयोग ऑटोमेटिक स्पीच रेकग्निशन और टेक्स्ट से स्पीच सिस्टम के लिये और साथ ही अन्य प्रकार के स्वन विज्ञान , स्वनिम विज्ञान और ध्वनिक विश्लेषण के लिये किया जा सकता है। वर्तमान में एलडीसीआईएल द्वारा पार्ट ऑफ स्पीच टैगिंग , मॉर्फ़ोलॉजिकल एनालाइजर , चकिंग और पासिंग , स्पीच डाटा सेगमेंटेशन और एनोटेशन फॉर ऑटोमैटिक स्पीच रेकग्निशन आदि कार्य किये जा रहे हैं। छत्तीसगढ़ी डाटा (स्पीच एवं टेक्स्ट बुक) के संग्रह के लिये एलडीसीआईएल भारतीय भाषा संस्थान मैसूर से डॉ. सत्येन्द्र अवस्थी , सौरभ वारिक , डॉ. सृष्टि सिंह , शांतनु झा , रूपेश पांडे , अंकिता तिवारी आदि विश्वविद्यालय आये हुये हैं। इस संबंध में विस्तृत जानकारी देते हुये डॉ० अवस्थी ने बताया कि संस्थान द्वारा छत्तीसगढ़ी के संवर्धन एवं भाषाई तकनीक के विकास के लिये डाटा का संग्रह किया जा रहा है। यह भाषाई तकनीक के लिये अत्यन्त आवश्यक है। मैसूर सीआईआईएल से आई हुई पूरी टीम को रविशंकर विश्वविद्यालय के भाषा एवं साहित्य एवं भाषा - अध्ययनशाला का सानिध्य प्राप्त हुआ। जिसमें विभाग की अध्यक्ष प्रो० शैल शर्मा , एवं अन्य प्राध्यापकगणों का सहयोग प्राप्त हुआ। इस कार्य हेतु मुख्य सहयोगी के रूप में श्रीमती गीता शर्मा , डॉ० विभाषा मिश्र , गजेन्द्र साहू , गुलशन वर्मा , रूपेंद्र साहू , ललिता साहू , टाकेश्वर साहू शामिल रहे।


















No comments:
Post a Comment
Please do not enter any spam link in the comment box.