NLP साठी संस्कृत शास्त्रांचा उपयोग अक्षर भारती अंबा कुलकर्णी नंदिनी उपासनी Language Technologies Research Institute International Institute of Information Technology Hyderabad {amba,nandini}@iiit.net 1) प्रास्ताविक: भारतीय शास्त्रांतून विशेषतः व्याकरण, न्याय व मीमांसा यांतून भाषेवर गहन चिंतन केले गेले आहे. भाषेचा मुख्य उपयोग माहितीची देवाणघेवाण करणे हा आहे हे समजून घेऊन भाषेतील निरनिराळ्या संकेतांचा (पदशक्ति व वाक्यशक्ति यांचा) शास्त्रशुद्धरित्या अभ्यास व्याकरणादि शास्त्रांतून केलेला आढळतो. भाषा काम कशी करते, अथवा वक्ता आपल्या मनातील विचार भाषेच्या माध्यमातून श्रोत्यापर्यंत कसे पोहोचवू शकतो, ह्या सारख्या प्रश्नांचा विचार या ग्रंथातून केलेला आढळतो. ह्या शास्त्रांचा उपयोग केवळ तत्वज्ञानातील चर्चेपर्यंतच मर्यादित होता.जवळजवळ 2000 वर्षांची ही परंपरा आज लुप्त होत चालली आहे. परंतु आता संगणकाच्या उपलब्धतेमुळे Natural Language Processing साठी ह्या शास्त्रांचा उपयोग करून घेण्याची एक अद्वितीय संधी आपल्याला प्राप्त झाली आहे. संगणक हे information processors म्हणून वापरले जातात. एका स्वरूपात उपलब्ध असलेली माहिती वेचून वेगळ्या स्वरूपात ती उपलब्ध करून देणे हे information processors चे कार्य. भाषेमध्ये उपलब्ध असणाऱ्या माहितीवर जेव्हा संगणक प्रक्रिया करतो, तेव्हा त्या प्रक्रियेस Natural Language Processing असे संबोधले जाते. ह्या कार्यासाठी साहजिकच व्याकरणादि शास्त्रांचा उपयोग होऊ शकतो. आणि म्हणूनच ह्या एकमेवाद्वितीय संधीचा आपण फायदा करून घ्यायला हवा. आज इंटरनेटवर इंग्रजी भाषेत प्रचंड प्रमाणात माहिती उपलब्ध आहे. समाजाची भरभराट ही समाजातील घटकांकडे असणाऱ्या उपयोगी माहितीवर अवलंबून असते. त्यामुळे ही माहिती जनसामान्यांना त्यांच्या मातृभाषेत उपलब्ध करून देणे ही काळाची गरज आहे. संगणकाच्या सहाय्याने इंग्रजी भाषेतील माहिती मराठी भाषिकांना उपलब्ध करून देण्यासाठी व्याकरणादि शास्त्रांचा उपयोग कसा करू शकतो हे इंग्रजी-मराठी अनुसारकाच्या सहाय्याने इथे विशद केले आहे. ह्या उपक्रमाचा आणखी एक फायदा म्हणजे या शास्त्रांच्या अभ्यासाला उर्जितावस्था प्राप्त होईल, व भाषेच्या अभ्यासासाठी लोकांमध्ये एक उत्साह निर्माण होईल. 2) भारतीय व्याकरणादि शास्त्रांतील काही संकल्पनांचा NLP साठी उपयोग: वक्ता शब्दांच्या माध्यमातून श्रोत्यांशी संवाद साधत असतो. परंतु श्रोत्याला मात्र शब्दांचा अर्थ लावताना 'शब्दांच्या पलीकडे' जाण्याची गरज भासते. उदा. मांजर मासळी खाते. ह्या वाक्यात मांजर कर्ता व मासळी कर्म आहे, हे शब्दांतून कुठेही व्यक्त झालेले नाही. श्रोता आपल्या सामान्य ज्ञानाच्या आधारावर कर्ता कोण व कर्म कोण हे ठरवतो. 'शब्दांच्या पलीकडे' जाऊन अर्थ लावणे सद्याच्या घटकेला तरी संगणकास शक्य नाही. शब्द,शब्द-समूह,वाक्यरचना इत्यादि माध्यमांद्वारे भाषा किती माहिती व्यक्त करते, वाक्याचा अर्थ लावताना सामान्य ज्ञानाचा केव्हा व कसा उपयोग होतो, ह्या गोष्टी जर स्पष्टपणे कळल्या तर संगणकाकडून कोणते काम आज करवून घेऊ शकतो, कोणते नाही हे कळण्यास मदत होते. भाषा शब्द,वाक्यरचना आदिंच्या माध्यमातून किती माहिती व्यक्त करते हे समजावून घेताना भारतीय व्याकरणातील संकल्पनांचा आम्हांस कसा उपयोग झाला याची ही काही उदाहरणे. अ) पदशक्ति-वाक्यशक्ति: प्रत्येक भाषा माहिती व्यक्त करण्यासाठी काही संकेतांचा उपयोग करते. सामान्यतः पदशक्ती व वाक्यशक्ती या दोन प्रकारच्या संकेतांचा वापर भाषांमधून आढळतो. भारतीय भाषांमध्ये प्रायः पदशक्तीचा उपयोग दिसून येतो, तर इंग्रजीमध्ये पदशक्तीबरोबरच वाक्यशक्तीचा सुद्धा उपयोग मिळतो. उदाहरणार्थ इंग्रजी भाषेतील हे वाक्य पाहा Rats kill cats. ह्या इंग्रजी वाक्यात पदांमध्ये किती माहिती आहे व वाक्यरचनेत कोणती माहिती आहे हे समजण्यासाठी आपण ह्या इंग्रजी शब्दांच्या जागी समान अर्थाचे मराठी शब्द घातले तर, उंदीर{ब.} मारतात मांजर{ब.} किंवा उंदीर मारतात मांजरी असा मराठी शब्दसमूह मिळेल, आणि मराठी माणूस ह्यातून अर्थ काढेल (आपल्या सामान्य ज्ञानाच्या बळावर), की मांजरी उंदरांना मारतात! ह्याचे कारण म्हणजे, मराठीत कर्माची द्वितीया विभक्ति असते. म्हणून मूळ इंग्रजी वाक्याचा अर्थ कायम ठेवणारा मराठी पदसमूह असेल उंदीर मारतात मांजरींना. हा अर्थाचा अनर्थ का झाला? कारण, इंग्रजी व मराठी ह्या दोन्ही भाषेत माहिती व्यक्त करण्याचे नियम वेगवेगळे आहेत. मराठीत 'पदां' मधून माहिती असते, तर इंग्रजी भाषेत, शब्दाच्या स्थानाला सुद्धा महत्व आहे. आणि म्हणूनच Rats kill cats. व Cats kill rats. ह्या दोन्ही इंग्रजी वाक्यांचे अर्थ वेगवेगळे आहेत. ह्या उदाहरणांवरून एक गोष्ट आपल्या लक्षात येते की मराठीमध्ये वापरण्यात येणाऱ्या द्वितीया विभक्तिचा प्रत्यय इंग्रजीमध्ये नाही. हा प्रत्यय जुन्या इंग्रजीमध्ये उपलब्ध होता आणि अजूनही सर्वनामांबरोबर हा प्रत्यय आपल्याला आढळतो (उदा. him, them, वगैरे). परंतु कालांतराने ह्या प्रत्ययाचा लोप झाला. साहजिकच, ह्या प्रत्ययाने दर्शविण्यात येणारी माहिती दुसऱ्या कुठल्यातरी पद्धतीने दर्शविणे जरूरीचे होते. आधुनिक इंग्रजीत ही माहिती कर्त्यानंतर येणारा शब्दसमूह उलट्या क्रमाने लिहून दर्शविली जाते. उदा. मराठीतील वाक्य पाहा राम सीतेला फूल देतो. ह्या वाक्यातील 'सीतेला फूल देतो' हा शब्दसमूह उलट्या क्रमाने लिहील्यास, राम देतो फूल ला+सीता असा होतो. आता ह्या मराठी शब्दांच्या जागी समानार्थी इंग्रजी शब्द घातल्यास, Ram gives a flower to Seeta असे इंग्रजी वाक्य मिळते. कर्माच्या विभक्ति प्रमाणेच, प्रश्नसूचक अव्यय सुद्धा इंग्रजीत आढळत नाही. वरील स्पष्टीकरणात कदाचित ऐतिहासिक तथ्य नसेल, परंतु इंग्रजीत काही पद अनुपस्थित आहेत. आणि ह्या पदांच्या अनुपस्थितीत इंग्रजी भाषा कशी काम करते हे मराठी भाषिकास समजण्यास ह्या माहितीचा निश्चीतच उपयोग होऊ शकतो. आ) प्रवृत्ति-निमित्त: भारतीय व्याकरणातील आणखी एक महत्वाची संकल्पना आहे 'प्रवृत्तिनिमित्त'. प्रवृत्तिनिमित्त शब्दाचा शब्दशः अर्थ आहे 'एखाद्या पदार्थासाठी विशिष्ट पद वापरण्यामागचे कारण किंवा निमित्त'. शब्दकोशामधून सामान्यतः आपल्याला शब्द व त्याच्या निरनिराळ्या अर्थछटा यांची यादी मिळते. ही यादी शब्दाची निरनिराळ्या अर्थांमध्ये विभागणी करते. परंतु एखादा शब्द इतक्या वेगवेगळ्या अर्थाने कसा वापरला जातो हे मात्र रहस्यच राहते. शब्दांच्या ह्या निरनिराळ्या अर्थछटांच्या मागचे रहस्य शोधण्याच्या प्रक्रियेचेच दुसरे नाव आहे- त्या शब्दाचा प्रवृत्तिनिमित्त शोधणे, त्या शब्दाचा बीजार्थ शोधणे. शब्दाचे वेगवेगळे अर्थ ह्या बीजार्थाशी कसे संबंधित आहेत हे स्पष्ट केल्यास तो शब्द चंगल्या तऱ्हेने समजण्यास मदत होते. उदा. इंग्रजीतील 'want' हा शब्द घ्या. ह्या शब्दाची शब्दकोशात खालील प्रमाणे नोंद आढळते. want (n):उणीव,न्यूनता दारिद्रय गरज,जरूरी (v):इच्छा वरवर पाहता हे सर्व अर्थ भिन्न भिन्न दिसतात. परंतू थोडा बारकाईने विचार केल्यास - जेव्हा एखाद्या गोष्टीची उणीव अथवा न्यूनता भासते, तेव्हाच त्याची गरज भासते किंवा त्याची इच्छा निर्माण होते. तसेच जेव्हा पैशाची न्यूनता असते, तेव्हा तिथे दारिद्रय असते. अशा रितीने चारही अर्थ एकमेकांशी संबंधित आहेत व 'want' ह्या शब्दाचा बीजार्थ 'उणीव' आहे हे स्पष्ट होते. त्याचप्रमाणे, 'want' ह्या शब्दाचे इच्छा ह्या अर्थाने अधिक प्रयोग होतात. या सर्वांचा विचार करून, 'want' ह्या शब्दाचा अर्थ आपण इच्छा[<उणीव] ह्या सूत्राद्वारे दर्शवू शकतो. इथे '<' ह्या चिह्नाचा अर्थ आहे - उजवीकडील शब्द हा बीजार्थ दाखवित असून, कालांतराने त्याचे 'इच्छा' ह्या अर्थात पर्यवसन झाले आहे, आणि इच्छा ह्या अर्थाचे प्रमाण इतर अर्थांपेक्षा अधिक आहे. इथे 'सूत्र' हा शब्द दोन अर्थाने वापरला गेला आहे. सूत्र ह्या शब्दाचा एक अर्थ आहे 'धागा'. शब्दाच्या निरनिराळ्या अर्थांना जोडणारा धागा म्हणजे 'शब्दसूत्र'. तसेच, सूत्र ह्या शब्दाचा दूसरा अर्थ आहे, गणितीय सूत्रातील 'सूत्र'. शब्दांच्या निरनिराळया अर्थछटा समजावून घेवून त्यांच्यातील संबंध आटोपशीरपणे सूत्राद्वारे व्यक्त करणे हे शब्द सूत्राचे दूसरे काम. अशा प्रकारे प्रत्येक इंग्रजी शब्द त्याचा प्रवृत्तिनिमित्त समजावून घेवून, त्या शब्दाच्या सर्व अर्थछटांना शब्दसूत्राद्वारे गुंफून जर मराठी भाषिकासमोर प्रस्तुत केला तर त्याला इंग्रजी भाषेचा शब्द लवकर समजण्यास मदत होईल, व इंग्रजी भाषेत शब्द इतक्या वेगवेगळ्या अर्थाने कसे वापरले जातात हे कोडे उरणार नाही. इ) प्रत्यय: भाषेचे एक महत्वाचे अंग म्हणजे शब्द. पाणिनीच्या बुद्धीचातुर्याचा व कल्पनाशक्तीचा एक अनुभव येतो तो त्याने केलेल्या शब्दांच्या विश्लेषणातून. पाणिनीने शब्दाचे दोन काल्पनिक भाग मानून, प्रत्येक भागाचे कार्य व त्या भागाचा अर्थ त्याने स्पष्ट केला. शब्दाचा पहिला भाग हा साधारणतया बाह्य जगातील पदार्थ दाखवितो, तर दुसरा भाग (जो प्रत्यय ह्या नावाने ओळखला जातो) वाक्यातील इतर शब्दांशी त्या शब्दाचा संबंध काय आहे हे दाखवितो. पाणिनीने प्रत्येक प्रत्यय शब्दाला लागल्यावर त्या शब्दाचे रूप तो कसे बदलतो, व तो प्रत्यय कोणता अर्थ सूचित करतो ह्या गोष्टींचे स्पष्टीकरण दिले आहे. ह्या पार्श्वभूमीवर आपण आता इंग्रजी भाषेकडे पाहू यात. इंग्रजी भाषेत आपणास विभक्ति प्रत्यय (prepositions), सुप्(s), तिङ्(s,ed), कृत(ing,en) आदि प्रत्यय आढळतात. याव्यतिरिक्त इंग्रजीमध्ये एक प्रयोग आपल्याला वारंवार आढळतो, आणि तो म्हणजे नामाचा क्रियापदासारखा उपयोग. (मराठीत नामधातु आढळतात, जसे माणूस -> माणसाळणे, परंतु ह्यांचे प्रमाण इंग्रजीच्या तुलनेत अगदी नगण्य आहे.) उदा. chair, table, shelf हे नेहमीच्या व्यवहारात वापरले जाणारे अगदी सामान्य शब्द पाहा. ह्या शब्दांचे Ram chaired the session. Parliament tabled the resolution. Ram shelved the books. आदि प्रयोग आढळतात ज्यामध्ये वरील नामांचा उपयोग क्रियापदासारखा केला आहे. ह्या प्रक्रियेचे पाणिनीय दृष्टीने स्पष्टीकरण देण्याचा हा एक प्रयत्न. ह्या उदाहरणांकडे पाणिनीय दृष्टीने पाहिले असता मनात प्रश्न येतो - इंग्रजीत एखाद्या नामापासून जेव्हा क्रियापद बनवितात तेव्हा कोणत्या प्रत्ययाचा उपयोग होतो व त्या प्रत्ययामुळे शब्दाच्या रूपामध्ये व अर्थामध्ये कोणकोणते परिवर्तन होतात? शब्दाचे रूप बदलत नसल्याने इथे आपण 'शून्य' प्रत्ययाची कल्पना करू शकतो. हा प्रत्यय केवळ शब्दाची जाती बदलतो, व शब्दाला एक विशिष्ट अर्थ प्रदान करतो. हा 'विशिष्ट' अर्थ कोणता हे समजावून घेण्यासाठी आपण परत मूळ संज्ञेचा अर्थ व त्या संज्ञेपासून बनलेल्या क्रियापदाचा अर्थ पाहू यात. chair म्हणजे खुर्ची -> बसणे ह्या क्रियेचे अधिकरण | | विशिष्ट खुर्ची | विशिष्ट खुर्चीवर बसणे -> विशेष भूमिका निभावणे जेव्हा हा शब्द session ह्या शब्दाबरोबर येतो, तेव्हा त्याचा अर्थ होतो सभेमध्ये विशेष भूमिका निभावणे -> सभाध्यक्षपद भूषविणे आणि म्हणून Ram chaired the session. ह्या वाक्याचे मराठीत भाषांतर होते रामने सभाध्यक्षपद भूषविले. अशा प्रकारे दिलेल्या संज्ञेशी संबंधित अशी जी नैसर्गिक क्रिया, त्या क्रियेचा त्या संज्ञेशी असलेला कारक संबंध या दोन गोष्टींवरून संज्ञेचा क्रियापदासारखा उपयोग होताना त्याचा अर्थ कोणता असेल हे निश्चित होते. उदा. shelf ह्या शब्दाचा अर्थ 'शेल्फ'. शेल्फ वर गोष्टी ठेवल्या जातात, म्हणून शेल्फ ह्या शब्दाशी निगडित अशी क्रिया आहे ठेवणे, आणि शेल्फचा ठेवणे ह्या क्रियेशी संबंध आहे अधिकरण कारकाचा. म्हणून इंग्रजीमध्ये जेव्हा shelf ह्या शब्दाचा क्रियापदासारखा उपयोग केला जातो, तेव्हा त्याचा अर्थ होतो 'शेल्फवर ठेवणे'. 3) निष्कर्ष: व्याकरणादि शास्त्रांना उर्जितावस्था प्राप्त करून त्यांना पुन्हा त्यांचे स्थान प्राप्त करून देण्यासाठी काही प्रस्ताव: 1. आधुनिक काळातील समस्यांच्या निराकरणासाठी आधुनिक तंत्रज्ञानाच्या विकासामध्ये ह्या शास्त्रांचा उपयोग करून घेणे. उदाहरणार्थ वर दाखवून दिल्याप्रमाणे, अनुसारक बनविण्यासाठी शास्त्रांचा उपयोग. 2. नवीन शास्त्रीय बैठक स्थापित करणे. आधुनिक समस्यांसाठी जेव्हा वैयाकरणादि त्यांच्या शास्त्रांचा उपयोग करतात, तेव्हा वैचारिक मंथनातून काही नवीन संकल्पनांचा उद्गम होऊ शकतो. परिणामतः ह्यातून language processing च्या क्षेत्रात काम करणाऱ्या लोकांसाठी काही नवीन प्रोफेशनल कोर्सेस निर्माण होऊ शकतात. त्याचप्रमाणे समाजातील विचारवंतांना व दार्शनिकांना एक नवी दिशा मिळू शकेल. उदाहरणार्थ भारतीय शास्त्रांतील संकल्पनांच्या आधारावर भारतीय व इंग्रजी भाषेचे व्याकरण लिहिण्याचा प्रयत्न करणे. ह्यांतून विचारवंतांमध्ये वाद उत्पत्ति, व 'वादे वादे जायते बोधः' ह्या उक्तीप्रमाणे नवीन बोध होण्यास मदत होईल. 3. बुद्धिमान व्यक्तींना आपल्या शास्त्रांकडे आकर्षित करून त्यांना योग्य ते ट्रेनिंग देणे. पहिल्या दोन प्रस्तावांचे फल स्वरूप बुद्धिमान व्यक्ती ह्या शास्त्रांकडे आकर्षित होण्यास मदत होईल. संदर्भ: Natural Language Processing: A Paninian Perspective, Akshar Bharati,Vineet Chaitanya, Rajeev Sangal, Prentice-Hall of India,1995 http://www.iiit.net/ltrc/index.html परिशिष्ट 1: 1. The Thirsty Crow 1. The तहानलेला कावळा ----------------------------------------------------------------------1 It was a hot day . A crow was very ते होता a गरम दिवस. A कावळा होता पुष्कळ ----------------------------------------------------------------------2 thirsty . His mouth was dry . तहानलेला. त्याचे तोंड/चेहरा होता वाळ[तो]. ----------------------------------------------------------------------3 His throat was burning . But there त्याचे घसा --- भाजलेला~त~होता. परंतु तेथे ----------------------------------------------------------------------4 was not a drop of water anywhere. होता नाही a थेंब/सोड[तो] of पाणी कुठेही . ----------------------------------------------------------------------5 Rivers and lakes had all dried up. नदी{ब.} आणि तलाव{ब.} असलेला सर्व वाळलेला up. ----------------------------------------------------------------------6 At last he saw a jug of water शेवटी --- तो पाहिला a जग of पाणी ----------------------------------------------------------------------7 near house. He went to the jug and looked जवळ घर . तो गेला to the जग आणि पाहिला ----------------------------------------------------------------------8 into it. There was a little water at into ते. तेथे होता a छोटा/थोडा पाणी at ----------------------------------------------------------------------9 the bottom of the jug. The crow could the तळ/खालचा~भाग of the जग . The कावळा ----- ----------------------------------------------------------------------10 see the water but he could not पाह~ऊ~शकतो the पाणी परंतु तो ----- --- ----------------------------------------------------------------------11 reach it. Suddenly an पोहोच~ऊ~शकले~नाही ते. अचानक an ----------------------------------------------------------------------12 idea flashed on his mind. He कल्पना{0} चकाक[ले]ला on त्याचे मन . तो ----------------------------------------------------------------------13 picked up stones , one उचल~ला#उचल~ले~ला up दगड{ब.}, एकानंतर~एक ----------------------------------------------------------------------14 by one, from the ground and dropped them --- ---, from the जमिन आणि सोडून~दिला त्यांना ----------------------------------------------------------------------15 into the jug. The water started coming into the जग . The पाणी सुरू~ठेवला ये[णे/णारा/तो] ----------------------------------------------------------------------16 up. Soon the crow could reach it easily. up. लवकर the कावळा ----- पोहोच~ऊ~शकतो ते सरळपणे. ----------------------------------------------------------------------17 He drank the water. He cawed तो पी the पाणी . तो काव~काव~कर~ला#काव~काव~कर~ले~ला ----------------------------------------------------------------------18 happily and flew away. WHERE सुखाने आणि उडवला दूर . जेथे ----------------------------------------------------------------------19 THERE IS A WILL THERE IS A WAY . तेथे आहे A इच्छा तेथे आहे A मार्ग. ----------------------------------------------------------------------20