|
2 weeks ago | |
---|---|---|
.. | ||
solution | 3 weeks ago | |
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
अनुवाद र भावना विश्लेषण मेसिन लर्निङसँग
अघिल्लो पाठहरूमा तपाईंले TextBlob
प्रयोग गरेर एउटा साधारण बोट कसरी बनाउने भन्ने कुरा सिक्नुभयो। यो पुस्तकालयले आधारभूत NLP कार्यहरू जस्तै संज्ञा वाक्यांश निकाल्नका लागि मेसिन लर्निङलाई पर्दा पछाडि प्रयोग गर्दछ। कम्प्युटेशनल भाषाविज्ञानको अर्को महत्त्वपूर्ण चुनौती भनेको एउटा भाषा (बोलिने वा लेखिने) बाट अर्को भाषामा वाक्यको सही अनुवाद गर्नु हो।
पाठ अघि क्विज
अनुवाद एकदमै कठिन समस्या हो किनभने संसारमा हजारौं भाषाहरू छन् र प्रत्येकको व्याकरण नियमहरू फरक हुन सक्छ। एउटा दृष्टिकोण भनेको एउटा भाषाको औपचारिक व्याकरण नियमहरूलाई, जस्तै अंग्रेजी, भाषा-निर्भर नभएको संरचनामा रूपान्तरण गर्नु हो, र त्यसपछि अर्को भाषामा फर्काएर अनुवाद गर्नु हो। यस दृष्टिकोणले निम्न चरणहरू समावेश गर्दछ:
- पहिचान। इनपुट भाषाका शब्दहरूलाई संज्ञा, क्रिया आदिमा चिन्हित गर्नु।
- अनुवाद सिर्जना गर्नु। लक्ष्य भाषाको ढाँचामा प्रत्येक शब्दको सीधा अनुवाद उत्पादन गर्नु।
उदाहरण वाक्य, अंग्रेजीबाट आयरिशमा
'अंग्रेजी'मा, वाक्य I feel happy तीन शब्दहरूमा निम्न क्रममा हुन्छ:
- विषय (I)
- क्रिया (feel)
- विशेषण (happy)
तर, 'आयरिश' भाषामा, त्यही वाक्यको व्याकरण संरचना धेरै फरक हुन्छ - "happy" वा "sad" जस्ता भावनाहरूलाई तपाईंमाथि भएको रूपमा व्यक्त गरिन्छ।
अंग्रेजी वाक्य I feel happy
आयरिशमा Tá athas orm
हुन्छ। शाब्दिक अनुवाद भनेको Happy is upon me
हुनेछ।
आयरिश बोल्ने व्यक्तिले अंग्रेजीमा अनुवाद गर्दा I feel happy
भन्छन्, Happy is upon me
होइन, किनभने उनीहरूले वाक्यको अर्थ बुझ्छन्, चाहे शब्दहरू र वाक्य संरचना फरक भए पनि।
आयरिशमा वाक्यको औपचारिक क्रम निम्न प्रकारको हुन्छ:
- क्रिया (Tá वा is)
- विशेषण (athas, वा happy)
- विषय (orm, वा upon me)
अनुवाद
एक साधारण अनुवाद कार्यक्रमले वाक्य संरचनालाई बेवास्ता गर्दै केवल शब्दहरू अनुवाद गर्न सक्छ।
✅ यदि तपाईंले वयस्कको रूपमा दोस्रो (वा तेस्रो वा थप) भाषा सिक्नुभएको छ भने, तपाईंले आफ्नो मातृभाषामा सोचेर, शब्द-शब्द अनुवाद गरेर दोस्रो भाषामा बोल्न सुरु गर्नुभएको हुन सक्छ। यो साधारण अनुवाद कम्प्युटर कार्यक्रमहरूले गर्ने जस्तै हो। यो चरण पार गरेर धाराप्रवाहता प्राप्त गर्नु महत्त्वपूर्ण छ!
साधारण अनुवादले खराब (र कहिलेकाहीँ हास्यास्पद) अनुवादहरू जन्माउँछ: I feel happy
आयरिशमा शाब्दिक रूपमा Mise bhraitheann athas
मा अनुवाद हुन्छ। यसको अर्थ (शाब्दिक रूपमा) me feel happy
हो र यो मान्य आयरिश वाक्य होइन। यद्यपि अंग्रेजी र आयरिश दुई नजिकका टापुहरूमा बोलिने भाषाहरू हुन्, तिनीहरू व्याकरण संरचनाहरूमा धेरै फरक छन्।
तपाईं आयरिश भाषिक परम्पराहरूको बारेमा यो भिडियो जस्ता केही भिडियोहरू हेर्न सक्नुहुन्छ।
मेसिन लर्निङ दृष्टिकोणहरू
अहिलेसम्म, तपाईंले प्राकृतिक भाषा प्रशोधनको औपचारिक नियम दृष्टिकोणको बारेमा सिक्नुभएको छ। अर्को दृष्टिकोण भनेको शब्दहरूको अर्थलाई बेवास्ता गर्नु हो, र मेसिन लर्निङ प्रयोग गरेर ढाँचाहरू पत्ता लगाउनु हो। यदि तपाईंसँग धेरै पाठ (एक corpus) वा पाठहरू (corpora) मूल र लक्ष्य भाषामा छन् भने यो अनुवादमा काम गर्न सक्छ।
उदाहरणका लागि, Pride and Prejudice को केसलाई विचार गर्नुहोस्, 1813 मा Jane Austen द्वारा लेखिएको एक प्रसिद्ध अंग्रेजी उपन्यास। यदि तपाईंले पुस्तकलाई अंग्रेजीमा र French मा मानव अनुवादमा परामर्श गर्नुभयो भने, तपाईंले एउटा भाषामा रहेको वाक्यांशहरूलाई अर्कोमा idiomatically अनुवाद गरिएको पत्ता लगाउन सक्नुहुन्छ। तपाईंले यो केही समयपछि गर्नेछ।
उदाहरणका लागि, जब अंग्रेजी वाक्यांश I have no money
लाई शाब्दिक रूपमा फ्रेन्चमा अनुवाद गरिन्छ, यो Je n'ai pas de monnaie
बन्न सक्छ। "Monnaie" फ्रेन्चको एक जटिल 'false cognate' हो, किनभने 'money' र 'monnaie' समानार्थी शब्दहरू होइनन्। मानवले गर्ने राम्रो अनुवाद भनेको Je n'ai pas d'argent
हुनेछ, किनभने यसले तपाईंसँग पैसा छैन भन्ने अर्थ राम्रोसँग व्यक्त गर्दछ (बरु 'loose change' जुन 'monnaie' को अर्थ हो)।
छवि Jen Looper द्वारा
यदि कुनै ML मोडेलसँग पर्याप्त मानव अनुवादहरू छन् जसमा आधारित भएर मोडेल निर्माण गर्न सकिन्छ भने, यसले पहिले विशेषज्ञ मानव वक्ताहरूले अनुवाद गरेका पाठहरूमा सामान्य ढाँचाहरू पहिचान गरेर अनुवादको शुद्धता सुधार गर्न सक्छ।
अभ्यास - अनुवाद
तपाईं TextBlob
प्रयोग गरेर वाक्यहरू अनुवाद गर्न सक्नुहुन्छ। Pride and Prejudice को प्रसिद्ध पहिलो लाइन प्रयास गर्नुहोस्:
from textblob import TextBlob
blob = TextBlob(
"It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife!"
)
print(blob.translate(to="fr"))
TextBlob
ले अनुवाद राम्रोसँग गर्छ: "C'est une vérité universellement reconnue, qu'un homme célibataire en possession d'une bonne fortune doit avoir besoin d'une femme!".
यो तर्क गर्न सकिन्छ कि TextBlob को अनुवाद वास्तवमा 1932 मा V. Leconte र Ch. Pressoir द्वारा गरिएको फ्रेन्च अनुवाद भन्दा धेरै सटीक छ:
"C'est une vérité universelle qu'un célibataire pourvu d'une belle fortune doit avoir envie de se marier, et, si peu que l'on sache de son sentiment à cet egard, lorsqu'il arrive dans une nouvelle résidence, cette idée est si bien fixée dans l'esprit de ses voisins qu'ils le considèrent sur-le-champ comme la propriété légitime de l'une ou l'autre de leurs filles."
यस अवस्थामा, ML द्वारा सूचित अनुवादले मानव अनुवादकलाई भन्दा राम्रो काम गर्छ जसले 'स्पष्टता' का लागि अनावश्यक रूपमा मूल लेखकको शब्दहरूमा थप शब्दहरू राख्छ।
यहाँ के भइरहेको छ? र किन TextBlob अनुवादमा यति राम्रो छ? खैर, पर्दा पछाडि, यो Google translate प्रयोग गर्दैछ, एक परिष्कृत AI जसले लाखौं वाक्यांशहरूलाई विश्लेषण गर्न सक्षम छ ताकि कार्यका लागि उत्तम स्ट्रिङहरू भविष्यवाणी गर्न सकियोस्। यहाँ कुनै पनि म्यानुअल प्रक्रिया भइरहेको छैन र तपाईंलाई
blob.translate
प्रयोग गर्न इन्टरनेट जडान आवश्यक छ।
✅ केही थप वाक्यहरू प्रयास गर्नुहोस्। कुन राम्रो छ, ML वा मानव अनुवाद? कुन अवस्थामा?
भावना विश्लेषण
मेसिन लर्निङले राम्रोसँग काम गर्न सक्ने अर्को क्षेत्र भनेको भावना विश्लेषण हो। भावना विश्लेषणको गैर-ML दृष्टिकोण भनेको 'सकारात्मक' र 'नकारात्मक' शब्दहरू र वाक्यांशहरू पहिचान गर्नु हो। त्यसपछि, नयाँ पाठ दिइएमा, सकारात्मक, नकारात्मक र तटस्थ शब्दहरूको कुल मूल्य गणना गरेर समग्र भावना पहिचान गर्नु।
यो दृष्टिकोण सजिलैसँग छलिन्छ जस्तो तपाईंले Marvin कार्यमा देख्नुभएको हुन सक्छ - वाक्य Great, that was a wonderful waste of time, I'm glad we are lost on this dark road
एक व्यंग्यात्मक, नकारात्मक भावना वाक्य हो, तर साधारण एल्गोरिदमले 'great', 'wonderful', 'glad' लाई सकारात्मक र 'waste', 'lost' र 'dark' लाई नकारात्मक रूपमा पत्ता लगाउँछ। समग्र भावना यी विरोधाभासी शब्दहरूले प्रभावित हुन्छ।
✅ एकछिन रोक्नुहोस् र मानव वक्ताहरूको रूपमा हामी व्यंग्य कसरी व्यक्त गर्छौं भन्ने बारे सोच्नुहोस्। स्वरको उतारचढावले ठूलो भूमिका खेल्छ। "Well, that film was awesome" वाक्यलाई विभिन्न तरिकामा भन्न प्रयास गर्नुहोस् ताकि तपाईंको स्वरले अर्थ कसरी व्यक्त गर्छ भन्ने पत्ता लगाउन सकियोस्।
ML दृष्टिकोणहरू
ML दृष्टिकोण भनेको नकारात्मक र सकारात्मक पाठहरूको संग्रह गर्नु हो - ट्वीटहरू, वा फिल्म समीक्षाहरू, वा कुनै पनि जहाँ मानवले स्कोर र लेखिएको विचार दिएको छ। त्यसपछि NLP प्रविधिहरू विचारहरू र स्कोरहरूमा लागू गर्न सकिन्छ, ताकि ढाँचाहरू देखा पर्छन् (जस्तै, सकारात्मक फिल्म समीक्षाहरूमा 'Oscar worthy' वाक्यांश नकारात्मक फिल्म समीक्षाहरू भन्दा बढी हुन्छ, वा सकारात्मक रेस्टुरेन्ट समीक्षाहरूमा 'gourmet' शब्द 'disgusting' भन्दा धेरै हुन्छ)।
⚖️ उदाहरण: यदि तपाईं कुनै राजनीतिज्ञको कार्यालयमा काम गर्नुहुन्छ र कुनै नयाँ कानूनको बारेमा बहस भइरहेको छ भने, नागरिकहरूले उक्त नयाँ कानूनको समर्थन गर्ने वा विरोध गर्ने इमेलहरू कार्यालयमा लेख्न सक्छन्। मानौं तपाईंलाई ती इमेलहरू पढेर २ थुप्रोमा वर्गीकरण गर्ने जिम्मा दिइएको छ, समर्थन र विरोध। यदि धेरै इमेलहरू भए भने, तपाईं सबै पढ्न प्रयास गर्दा अभिभूत हुन सक्नुहुन्छ। यदि एउटा बोटले ती सबै पढ्न सक्थ्यो, बुझ्न सक्थ्यो र प्रत्येक इमेल कुन थुप्रोमा पर्छ भनेर बताउन सक्थ्यो भने कस्तो राम्रो हुन्थ्यो?
यो प्राप्त गर्नको एउटा तरिका भनेको मेसिन लर्निङ प्रयोग गर्नु हो। तपाईंले मोडेललाई विरोध इमेलहरूको एक भाग र समर्थन इमेलहरूको एक भागसँग प्रशिक्षण दिनुहुन्छ। मोडेलले विरोध पक्ष र समर्थन पक्षसँग वाक्यांशहरू र शब्दहरूलाई सम्बन्धित गर्न झुकाव राख्छ, तर यसले कुनै पनि सामग्री बुझ्दैन, केवल निश्चित शब्दहरू र ढाँचाहरू विरोध वा समर्थन इमेलमा देखा पर्ने सम्भावना बढी हुन्छ। तपाईंले यसलाई केही इमेलहरूसँग परीक्षण गर्न सक्नुहुन्छ जुन तपाईंले मोडेललाई प्रशिक्षण दिन प्रयोग गर्नुभएको छैन, र यो तपाईंले गरेको निष्कर्षमा पुग्छ कि छैन हेर्न सक्नुहुन्छ। त्यसपछि, जब तपाईं मोडेलको शुद्धताबाट सन्तुष्ट हुनुहुन्छ, तपाईंले भविष्यका इमेलहरू प्रत्येक पढ्न नपरी प्रशोधन गर्न सक्नुहुन्छ।
✅ के यो प्रक्रिया तपाईंले अघिल्लो पाठहरूमा प्रयोग गरेका प्रक्रियाहरू जस्तै लाग्छ?
अभ्यास - भावनात्मक वाक्यहरू
भावना polarity -1 देखि 1 मा मापन गरिन्छ, जसको अर्थ -1 सबैभन्दा नकारात्मक भावना हो, र 1 सबैभन्दा सकारात्मक। भावना पनि 0 - 1 स्कोरले वस्तुनिष्ठता (0) र व्यक्तिपरकता (1) मा मापन गरिन्छ।
Jane Austen को Pride and Prejudice लाई फेरि हेर्नुहोस्। पाठ यहाँ Project Gutenberg मा उपलब्ध छ। तलको नमूनाले पुस्तकको पहिलो र अन्तिम वाक्यहरूको भावना विश्लेषण गर्ने छोटो कार्यक्रम देखाउँछ र यसको भावना polarity र व्यक्तिपरकता/वस्तुनिष्ठता स्कोर देखाउँछ।
तपाईंले TextBlob
पुस्तकालय (माथि वर्णन गरिएको) प्रयोग गरेर sentiment
निर्धारण गर्नुपर्छ (तपाईंले आफ्नै भावना गणक लेख्न आवश्यक छैन) निम्न कार्यमा।
from textblob import TextBlob
quote1 = """It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife."""
quote2 = """Darcy, as well as Elizabeth, really loved them; and they were both ever sensible of the warmest gratitude towards the persons who, by bringing her into Derbyshire, had been the means of uniting them."""
sentiment1 = TextBlob(quote1).sentiment
sentiment2 = TextBlob(quote2).sentiment
print(quote1 + " has a sentiment of " + str(sentiment1))
print(quote2 + " has a sentiment of " + str(sentiment2))
तपाईंले निम्न आउटपुट देख्नुहुन्छ:
It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want # of a wife. has a sentiment of Sentiment(polarity=0.20952380952380953, subjectivity=0.27142857142857146)
Darcy, as well as Elizabeth, really loved them; and they were
both ever sensible of the warmest gratitude towards the persons
who, by bringing her into Derbyshire, had been the means of
uniting them. has a sentiment of Sentiment(polarity=0.7, subjectivity=0.8)
चुनौती - भावना polarity जाँच गर्नुहोस्
तपाईंको कार्य भनेको भावना polarity प्रयोग गरेर निर्धारण गर्नु हो कि Pride and Prejudice मा पूर्ण रूपमा सकारात्मक वाक्यहरू पूर्ण रूपमा नकारात्मक वाक्यहरू भन्दा बढी छन्। यस कार्यका लागि, तपाईंले 1 वा -1 को polarity स्कोरलाई पूर्ण रूपमा सकारात्मक वा नकारात्मक मान्न सक्नुहुन्छ।
चरणहरू:
- Pride and Prejudice को प्रतिलिपि Project Gutenberg बाट .txt फाइलको रूपमा डाउनलोड गर्नुहोस्। फाइलको सुरुवात र अन्त्यमा रहेको मेटाडाटा हटाउनुहोस्, केवल मूल पाठ छोड्नुहोस्।
- फाइललाई Python मा खोल्नुहोस् र सामग्रीलाई स्ट्रिङको रूपमा निकाल्नुहोस्।
- पुस्तक स्ट्रिङ प्रयोग गरेर TextBlob सिर्जना गर्नुहोस्।
- पुस्तकको प्रत्येक वाक्यलाई लूपमा विश्लेषण गर्नुहोस्।
- यदि polarity 1 वा -1 छ भने वाक्यलाई सकारात्मक वा नकारात्मक सन्देशहरूको सूचीमा भण्डारण गर्नुहोस्।
- अन्त्यमा, सबै सकारात्मक वाक्यहरू र नकारात्मक वाक्यहरू (अलग-अलग) र प्रत्येकको संख्या प्रिन्ट गर्नुहोस्।
यहाँ एउटा नमूना समाधान छ।
✅ ज्ञान जाँच
- भावना वाक्यमा प्रयोग भएका शब्दहरूमा आधारित छ, तर कोडले शब्दहरू बुझ्छ?
- के तपाईं भावना polarity सटीक छ भन्ने सोच्नुहुन्छ, वा अन्य शब्दमा, के तपाईं स्कोरहरूसँग सहमत हुनुहुन्छ?
- विशेष गरी, निम्न वाक्यहरूको पूर्ण सकारात्मक polarity सँग तपाईं सहमत वा असहमत हुनुहुन्छ?
- “What an excellent father you have, girls!” said she, when the door was shut.
- “Your examination of Mr. Darcy is over, I presume,” said Miss Bingley; “and pray what is the result?” “I am perfectly convinced by it that Mr. Darcy has no defect.
- How wonderfully these sort of things occur!
- I have the greatest dislike in the world to that sort of thing.
- Charlotte is an excellent manager, I dare say.
- “This is delightful indeed!
- I am so happy!
- Your idea of the ponies is delightful.
- निम्न 3 वाक्यहरू पूर्ण सकारात्मक भावना स्कोर गरिएको थियो, तर नजिकबाट पढ्दा, ती सकारात्मक वाक्यहरू होइनन्। किन भावना विश्लेषणले ती सकारात्मक वाक्यहरू ठान्यो?
- Happy shall I be, when his stay at Netherfield is over!” “I wish I could say anything to comfort you,” replied Elizabeth; “but it is wholly out of my power.
- If I could but see you as happy!
- Our distress, my dear Lizzy, is very great.
- निम्न वाक्यहरूको पूर्ण नकारात्मक polarity सँग तपाईं सहमत वा असहमत हुनुहुन्छ?
- Everybody is disgusted with his pride.
- “I should like to know how he behaves among strangers.” “You shall hear then—but prepare yourself for something very dreadful.
- The pause was to Elizabeth’s feelings dreadful.
- It would be dreadful!
- विशेष गरी, निम्न वाक्यहरूको पूर्ण सकारात्मक polarity सँग तपाईं सहमत वा असहमत हुनुहुन्छ?
✅ Jane Austen का कुनै पनि प्रशंसकले बुझ्नेछन् कि उनले प्रायः आफ्नो पुस्तकहरू अंग्रेजी Regency समाजका हास्यास्पद पक्षहरूको आलोचना गर्न प्रयोग गर्छिन्। Pride and Prejudice को मुख्य पात्र Elizabeth Bennett एक चतुर सामाजिक पर्यवेक्षक हुन् (लेखक जस्तै) र उनको भाषा प्रायः गहिरो अर्थपूर्ण हुन्छ। यहाँसम्म कि Mr. Darcy (कथाको प्रेम पात्र) ले पनि Elizabeth को खेलपूर्ण र व्यंग्यात्मक भाषाको प्रयोगलाई नोट गर्छन्: "I have had the pleasure of your acquaintance long enough to know that you find great enjoyment in occasionally professing opinions which in fact are not your own."
🚀 चुनौती
के तपाईं Marvin लाई अझ राम्रो बनाउन सक्नुहुन्छ प्रयोगकर्ताको इनपुटबाट अन्य विशेषताहरू निकालेर?
पाठ पछि क्विज
समीक्षा र आत्म अध्ययन
पाठबाट भावना निकाल्ने धेरै तरिकाहरू छन्। यस प्रविधिको प्रयोग गर्ने व्यवसायिक अनुप्रयोगहरूको बारेमा सोच्नुहोस्। यसले कसरी गलत हुन सक्छ भन्ने कुरा पनि विचार गर्नुहोस्। भावना विश्लेषण गर्ने परिष्कृत उद्यम-तयार प्रणालीहरूको बारेमा थप पढ्नुहोस् जस्तै Azure Text Analysis। माथिका Pride and Prejudice का केही वाक्यहरू परीक्षण गर्नुहोस् र यसले सूक्ष्मता पत्ता लगाउन सक्छ कि सक्दैन हेर्नुहोस्।
असाइनमेन्ट
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।