You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mr/6-NLP/3-Translation-Sentiment
leestott f915efe2b4
🌐 Update translations via Co-op Translator
2 weeks ago
..
solution 🌐 Update translations via Co-op Translator 3 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

मशीन लर्निंगसह भाषांतर आणि भावना विश्लेषण

मागील धड्यांमध्ये तुम्ही TextBlob वापरून एक मूलभूत बॉट कसा तयार करायचा हे शिकलात. TextBlob ही एक लायब्ररी आहे जी मशीन लर्निंगचा वापर करून नाममालिका (noun phrase) काढणे यासारख्या प्राथमिक NLP कार्यांसाठी मदत करते. संगणकीय भाषाशास्त्रातील आणखी एक महत्त्वाचे आव्हान म्हणजे एका भाषेतील वाक्याचे दुसऱ्या भाषेत अचूक भाषांतर करणे.

पूर्व-व्याख्यान प्रश्नमंजुषा

भाषांतर हे एक कठीण कार्य आहे, कारण जगात हजारो भाषा आहेत आणि प्रत्येक भाषेचे व्याकरणाचे नियम वेगळे असू शकतात. एक दृष्टिकोन असा आहे की, एका भाषेचे (उदा. इंग्रजी) व्याकरणाचे नियम एका भाषा-स्वतंत्र संरचनेत रूपांतरित करणे आणि नंतर ती संरचना दुसऱ्या भाषेत परत रूपांतरित करणे. या दृष्टिकोनात खालील टप्पे असतात:

  1. ओळख. इनपुट भाषेतील शब्दांना नाम, क्रियापद इत्यादींमध्ये वर्गीकृत करणे.
  2. भाषांतर तयार करणे. लक्ष्य भाषेतील प्रत्येक शब्दाचे थेट भाषांतर तयार करणे.

उदाहरण वाक्य, इंग्रजी ते आयरिश

'इंग्रजी' भाषेत, वाक्य I feel happy तीन शब्दांमध्ये आहे:

  • विषय (I)
  • क्रियापद (feel)
  • विशेषण (happy)

पण 'आयरिश' भाषेत, हेच वाक्य खूप वेगळ्या व्याकरणात्मक रचनेत असते - भावना जसे "happy" किंवा "sad" यांना तुमच्यावर असलेल्या स्थितीप्रमाणे व्यक्त केले जाते.

इंग्रजी वाक्य I feel happy आयरिशमध्ये Tá athas orm असे होईल. याचा शाब्दिक अर्थ होईल Happy is upon me.

आयरिश भाषिक जेव्हा इंग्रजीत भाषांतर करतो, तेव्हा तो I feel happy असे म्हणतो, Happy is upon me असे नाही, कारण तो वाक्याचा अर्थ समजतो, जरी शब्द आणि वाक्यरचना वेगळी असली तरी.

आयरिश भाषेतील वाक्यरचना अशी आहे:

  • क्रियापद (Tá किंवा is)
  • विशेषण (athas, किंवा happy)
  • विषय (orm, किंवा upon me)

भाषांतर

एका साध्या भाषांतर प्रोग्राममध्ये फक्त शब्दांचे भाषांतर केले जाते, वाक्यरचनेकडे दुर्लक्ष केले जाते.

जर तुम्ही प्रौढ वयात दुसरी (किंवा तिसरी किंवा अधिक) भाषा शिकली असेल, तर तुम्ही कदाचित तुमच्या मूळ भाषेत विचार करून, संकल्पना शब्दशः दुसऱ्या भाषेत भाषांतरित करून बोलण्यास सुरुवात केली असेल. हेच साधे भाषांतर करणारे संगणकीय प्रोग्राम करतात. प्रवाहीपणासाठी या टप्प्यापलीकडे जाणे महत्त्वाचे आहे!

साध्या भाषांतरामुळे चुकीची (आणि कधी कधी विनोदी) भाषांतरे होतात: I feel happy चे शाब्दिक भाषांतर आयरिशमध्ये Mise bhraitheann athas असे होते. याचा अर्थ (शाब्दिक) me feel happy असा होतो आणि ते वैध आयरिश वाक्य नाही. जरी इंग्रजी आणि आयरिश या दोन शेजारील बेटांवर बोलल्या जाणाऱ्या भाषा असल्या तरी, त्या खूप वेगळ्या आहेत आणि त्यांची व्याकरण रचना भिन्न आहे.

तुम्ही आयरिश भाषेच्या परंपरांबद्दल काही व्हिडिओ पाहू शकता, जसे की हा व्हिडिओ

मशीन लर्निंग दृष्टिकोन

आतापर्यंत, तुम्ही नैसर्गिक भाषा प्रक्रिया करण्यासाठी औपचारिक नियमांचा दृष्टिकोन पाहिला आहे. आणखी एक दृष्टिकोन म्हणजे शब्दांचा अर्थ दुर्लक्ष करून, त्याऐवजी मशीन लर्निंगचा वापर करून पॅटर्न शोधणे. जर तुमच्याकडे मूळ आणि लक्ष्य भाषेतील भरपूर मजकूर (corpus) असेल, तर हे भाषांतरात उपयुक्त ठरू शकते.

उदाहरणार्थ, Pride and Prejudice या जेन ऑस्टेनने 1813 मध्ये लिहिलेल्या प्रसिद्ध इंग्रजी कादंबरीचा विचार करा. जर तुम्ही ही कादंबरी इंग्रजीत आणि तिचे फ्रेंच भाषेतील मानवी भाषांतर पाहिले, तर तुम्ही एका भाषेतील वाक्ये दुसऱ्या भाषेत रूढार्थाने भाषांतरित झालेली ओळखू शकता. तुम्ही हेच आता करणार आहात.

उदाहरणार्थ, इंग्रजी वाक्य I have no money चे शाब्दिक भाषांतर फ्रेंचमध्ये Je n'ai pas de monnaie असे होईल. "Monnaie" हा एक गोंधळात टाकणारा फ्रेंच शब्द आहे, कारण 'money' आणि 'monnaie' समानार्थी नाहीत. मानवी भाषांतरकाराने केलेले चांगले भाषांतर Je n'ai pas d'argent असे होईल, कारण ते अधिक चांगल्या प्रकारे व्यक्त करते की तुमच्याकडे पैसे नाहीत (तरतूद नाही, जे 'monnaie' चा अर्थ आहे).

monnaie

प्रतिमा: Jen Looper

जर एखाद्या ML मॉडेलकडे मानवी भाषांतरांवर आधारित भरपूर डेटा असेल, तर ते आधीच्या भाषांतरांमधील सामान्य पॅटर्न ओळखून भाषांतराची अचूकता सुधारू शकते.

व्यायाम - भाषांतर

तुम्ही TextBlob वापरून वाक्यांचे भाषांतर करू शकता. Pride and Prejudice च्या प्रसिद्ध पहिल्या वाक्याचा प्रयत्न करा:

from textblob import TextBlob

blob = TextBlob(
    "It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife!"
)
print(blob.translate(to="fr"))

TextBlob चांगले भाषांतर करते: "C'est une vérité universellement reconnue, qu'un homme célibataire en possession d'une bonne fortune doit avoir besoin d'une femme!".

खरं तर, TextBlob चे भाषांतर 1932 मध्ये V. Leconte आणि Ch. Pressoir यांनी केलेल्या फ्रेंच भाषांतरापेक्षा अधिक अचूक आहे:

"C'est une vérité universelle qu'un célibataire pourvu d'une belle fortune doit avoir envie de se marier, et, si peu que l'on sache de son sentiment à cet egard, lorsqu'il arrive dans une nouvelle résidence, cette idée est si bien fixée dans l'esprit de ses voisins qu'ils le considèrent sur-le-champ comme la propriété légitime de l'une ou l'autre de leurs filles."

या प्रकरणात, ML-आधारित भाषांतर मानवी भाषांतरकाराच्या तुलनेत अधिक चांगले कार्य करते, ज्याने मूळ लेखकाच्या वाक्यांमध्ये अनावश्यक शब्द घातले आहेत.

येथे काय चालले आहे? आणि TextBlob भाषांतरात इतके चांगले का आहे? कारण, TextBlob मागे Google Translate वापरतो, जो एक प्रगत AI आहे आणि लाखो वाक्ये पार्स करून कार्यासाठी सर्वोत्तम स्ट्रिंग्स अंदाज लावतो. येथे काहीही मॅन्युअल होत नाही आणि blob.translate वापरण्यासाठी तुम्हाला इंटरनेट कनेक्शन आवश्यक आहे.

आणखी काही वाक्ये वापरून पहा. कोण चांगले आहे, ML की मानवी भाषांतर? कोणत्या प्रकरणांमध्ये?

भावना विश्लेषण

मशीन लर्निंग चांगले कार्य करू शकणारा आणखी एक भाग म्हणजे भावना विश्लेषण. भावना ओळखण्यासाठी एक गैर-ML दृष्टिकोन म्हणजे 'सकारात्मक' आणि 'नकारात्मक' शब्द आणि वाक्ये ओळखणे. त्यानंतर, नवीन मजकूर दिल्यास, सकारात्मक, नकारात्मक आणि तटस्थ शब्दांचे एकूण मूल्य मोजून एकूण भावना ओळखणे.

हा दृष्टिकोन सहज फसवला जाऊ शकतो, जसे तुम्ही Marvin कार्यात पाहिले असेल - वाक्य Great, that was a wonderful waste of time, I'm glad we are lost on this dark road हे व्यंगात्मक, नकारात्मक भावना व्यक्त करणारे वाक्य आहे, पण साधा अल्गोरिदम 'great', 'wonderful', 'glad' यांना सकारात्मक आणि 'waste', 'lost', 'dark' यांना नकारात्मक म्हणून ओळखतो. या विरोधाभासी शब्दांमुळे एकूण भावना चुकीच्या दिशेने झुकतात.

थोडा वेळ थांबा आणि विचार करा की आपण माणूस म्हणून व्यंग कसे व्यक्त करतो. आवाजातील चढ-उतार यामध्ये मोठी भूमिका बजावतो. "Well, that film was awesome" हे वाक्य वेगवेगळ्या पद्धतीने उच्चारून पाहा आणि तुमचा आवाज कसा अर्थ व्यक्त करतो ते शोधा.

ML दृष्टिकोन

ML दृष्टिकोन म्हणजे नकारात्मक आणि सकारात्मक मजकूरांचा संग्रह तयार करणे - ट्वीट्स, चित्रपट पुनरावलोकने, किंवा जिथे मानवी स्कोअर आणि मत दिले गेले आहे असे काहीही. त्यानंतर NLP तंत्रांचा वापर करून मते आणि स्कोअर्सवर प्रक्रिया केली जाते, ज्यामुळे पॅटर्न समोर येतात (उदा., सकारात्मक चित्रपट पुनरावलोकनांमध्ये 'Oscar worthy' हा शब्द नकारात्मक पुनरावलोकनांपेक्षा जास्त वेळा दिसतो, किंवा सकारात्मक रेस्टॉरंट पुनरावलोकनांमध्ये 'gourmet' हा शब्द 'disgusting' पेक्षा जास्त वेळा दिसतो).

⚖️ उदाहरण: जर तुम्ही एखाद्या राजकारण्याच्या कार्यालयात काम करत असाल आणि एखाद्या नवीन कायद्यावर चर्चा होत असेल, तर नागरिक त्या कायद्याच्या समर्थनार्थ किंवा विरोधात ईमेल पाठवू शकतात. समजा, तुम्हाला हे ईमेल वाचून दोन गटांमध्ये वर्गीकृत करायचे आहेत - समर्थनार्थ आणि विरोधात. जर खूप ईमेल असतील, तर ते सर्व वाचणे तुम्हाला कठीण जाईल. जर एखादा बॉट हे सर्व वाचून, समजून, आणि योग्य गटात वर्गीकृत करू शकला, तर किती सोपे होईल ना?

हे साध्य करण्याचा एक मार्ग म्हणजे मशीन लर्निंगचा वापर. तुम्ही मॉडेलला काही विरोधात ईमेल आणि काही समर्थनार्थ ईमेलसह प्रशिक्षण द्याल. मॉडेल विशिष्ट शब्द आणि वाक्ये विरोधात किंवा समर्थनार्थ गटाशी संबंधित असल्याचे ओळखेल, पण ते मजकूर समजणार नाही, फक्त विशिष्ट शब्द आणि पॅटर्न जास्त वेळा दिसतात हे लक्षात घेईल. तुम्ही अशा ईमेलसह मॉडेलची चाचणी करू शकता जी तुम्ही प्रशिक्षणासाठी वापरली नाहीत आणि पाहू शकता की ते तुमच्यासारखेच निष्कर्ष काढते का. एकदा तुम्हाला मॉडेलच्या अचूकतेबद्दल खात्री पटली की, तुम्ही भविष्यातील ईमेल प्रक्रिया करू शकता.

हा प्रक्रिया तुम्ही मागील धड्यांमध्ये वापरलेल्या प्रक्रियांसारखा वाटतो का?

व्यायाम - भावनिक वाक्ये

भावना ध्रुवीयता -1 ते 1 मध्ये मोजली जाते, म्हणजे -1 सर्वात नकारात्मक भावना आहे, आणि 1 सर्वात सकारात्मक. भावना 0 - 1 स्कोअरने वस्तुनिष्ठता (0) आणि व्यक्तिनिष्ठता (1) यासाठीही मोजली जाते.

जेन ऑस्टेनच्या Pride and Prejudice कडे पुन्हा एकदा पाहा. हा मजकूर Project Gutenberg येथे उपलब्ध आहे. खालील नमुना पुस्तकातील पहिल्या आणि शेवटच्या वाक्यांचे भावना विश्लेषण करतो आणि त्याची ध्रुवीयता आणि वस्तुनिष्ठता/व्यक्तिनिष्ठता स्कोअर दाखवतो.

तुम्ही TextBlob लायब्ररीचा वापर करून sentiment ठरवू शकता (तुम्हाला स्वतःचा भावना कॅल्क्युलेटर लिहायची गरज नाही) पुढील कार्यात.

from textblob import TextBlob

quote1 = """It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife."""

quote2 = """Darcy, as well as Elizabeth, really loved them; and they were both ever sensible of the warmest gratitude towards the persons who, by bringing her into Derbyshire, had been the means of uniting them."""

sentiment1 = TextBlob(quote1).sentiment
sentiment2 = TextBlob(quote2).sentiment

print(quote1 + " has a sentiment of " + str(sentiment1))
print(quote2 + " has a sentiment of " + str(sentiment2))

तुम्हाला खालील आउटपुट दिसते:

It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want # of a wife. has a sentiment of Sentiment(polarity=0.20952380952380953, subjectivity=0.27142857142857146)

Darcy, as well as Elizabeth, really loved them; and they were
     both ever sensible of the warmest gratitude towards the persons
      who, by bringing her into Derbyshire, had been the means of
      uniting them. has a sentiment of Sentiment(polarity=0.7, subjectivity=0.8)

आव्हान - भावना ध्रुवीयता तपासा

तुमचे कार्य म्हणजे भावना ध्रुवीयतेचा वापर करून ठरवणे की Pride and Prejudice मध्ये पूर्णपणे सकारात्मक वाक्ये जास्त आहेत की पूर्णपणे नकारात्मक. या कार्यासाठी, तुम्ही गृहीत धरू शकता की 1 किंवा -1 चा ध्रुवीयता स्कोअर पूर्णपणे सकारात्मक किंवा नकारात्मक आहे.

पायऱ्या:

  1. Pride and Prejudice ची प्रत Project Gutenberg वरून .txt फाईल म्हणून डाउनलोड करा. फाईलच्या सुरुवातीला आणि शेवटी असलेला मेटाडेटा काढून टाका, फक्त मूळ मजकूर ठेवा.
  2. Python मध्ये फाईल उघडा आणि मजकूर स्ट्रिंग म्हणून काढा.
  3. पुस्तकाच्या स्ट्रिंगचा TextBlob तयार करा.
  4. पुस्तकातील प्रत्येक वाक्याचे लूपमध्ये विश्लेषण करा.
    1. जर ध्रुवीयता 1 किंवा -1 असेल, तर वाक्य सकारात्मक किंवा नकारात्मक संदेशांच्या यादीत साठवा.
  5. शेवटी, सर्व सकारात्मक वाक्ये आणि नकारात्मक वाक्ये (वेगवेगळी) आणि त्यांची संख्या प्रिंट करा.

येथे एक नमुना उपाय आहे.

ज्ञान तपासणी

  1. भावना वाक्यात वापरलेल्या शब्दांवर आधारित आहे, पण कोड शब्द समजतो का?
  2. तुम्हाला भावना ध्रुवीयता अचूक वाटते का, किंवा दुसऱ्या शब्दांत, तुम्ही स्कोअर्सशी सहमत आहात का?
    1. विशेषतः, खालील वाक्यांच्या पूर्णपणे सकारात्मक ध्रुवीयतेशी तुम्ही सहमत आहात का?
      • “What an excellent father you have, girls!” said she, when the door was shut.
      • “Your examination of Mr. Darcy is over, I presume,” said Miss Bingley; “and pray what is the result?” “I am perfectly convinced by it that Mr. Darcy has no defect.
      • How wonderfully these sort of things occur!
      • I have the greatest dislike in the world to that sort of thing.
      • Charlotte is an excellent manager, I dare say.
      • “This is delightful indeed!
      • I am so happy!
      • Your idea of the ponies is delightful.
    2. पुढील 3 वाक्यांना पूर्णपणे सकारात्मक भावना दिली गेली, पण बारकाईने वाचल्यावर ती सकारात्मक वाक्ये नाहीत. भावना विश्लेषणाने त्यांना सकारात्मक का मानले?
      • Happy shall I be, when his stay at Netherfield is over!” “I wish I could say anything to comfort you,” replied Elizabeth; “but it is wholly out of my power.
      • If I could but see you as happy!
      • Our distress, my dear Lizzy, is very great.
    3. खालील वाक्यांच्या पूर्णपणे नकारात्मक ध्रुवीयतेशी तुम्ही सहमत आहात का?
      • Everybody is disgusted with his pride.
      • “I should like to know how he behaves among strangers.” “You shall hear then—but prepare yourself for something very dreadful.
      • The pause was to Elizabeths feelings dreadful.
      • It would be dreadful!

जेन ऑस्टेनच्या कोणत्याही चाहत्याला हे समजेल की ती तिच्या पुस्तकांमध्ये इंग्रजी रीजेंसी समाजाच्या हास्यास्पद पैलूंवर टीका करण्यासाठी वापर करते. Pride and Prejudice मधील मुख्य पात्र एलिझाबेथ बेनेट ही एक तीव्र सामाजिक निरीक्षक आहे (लेखिकेसारखीच) आणि तिची भाषा अनेकदा सूक्ष्म असते. अगदी मिस्टर डार्सी (कथेतला प्रेमाचा विषय) देखील एलिझाबेथच्या खेळकर आणि चिडवणाऱ्या भाषेचा उल्लेख करतो: "I have had the pleasure of your acquaintance long enough to know that you find great enjoyment in occasionally professing opinions which in fact are not your own."


🚀आव्हान

तुम्ही Marvin ला आणखी चांगले बनवू शकता का, वापरकर्त्याच्या इनपुटमधून इतर वैशिष्ट्ये काढून?

व्याख्यानानंतर प्रश्नमंजुषा

पुनरावलोकन आणि स्वअभ्यास

पाठ्यापासून भावना काढण्यासाठी अनेक पद्धती आहेत. या तंत्राचा उपयोग करणाऱ्या व्यावसायिक अनुप्रयोगांचा विचार करा. तसेच, हे तंत्र कसे चुकू शकते याचा विचार करा. भावना विश्लेषण करणाऱ्या प्रगत आणि एंटरप्राइझ-तयार प्रणालींबद्दल अधिक वाचा, जसे की Azure Text Analysis. वरील "Pride and Prejudice" मधील काही वाक्ये तपासा आणि ती सूक्ष्म भावना ओळखू शकते का ते पाहा.

असाइनमेंट

Poetic license


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमजांकरिता किंवा चुकीच्या अर्थ लावण्याकरिता आम्ही जबाबदार राहणार नाही.