|
|
4 months ago | |
|---|---|---|
| .. | ||
| solution | 4 months ago | |
| README.md | 4 months ago | |
| assignment.md | 4 months ago | |
README.md
అనువాదం మరియు భావ విశ్లేషణ ML తో
మునుపటి పాఠాలలో మీరు TextBlob ఉపయోగించి ఒక ప్రాథమిక బాట్ను ఎలా నిర్మించాలో నేర్చుకున్నారు, ఇది MLని వెనుకనుంచి చేర్చి ప్రాథమిక NLP పనులను, ఉదాహరణకు నామవాచక పదబంధాల వెలికితీయడం వంటి పనులను చేస్తుంది. కంప్యూటేషనల్ లింగ్విస్టిక్స్లో మరో ముఖ్యమైన సవాలు ఒక వాక్యాన్ని ఒక మాట్లాడే లేదా రాసే భాష నుండి మరొక భాషకు ఖచ్చితంగా అనువదించడం.
పాఠం ముందు క్విజ్
అనువాదం చాలా కష్టం, ఎందుకంటే వేలాది భాషలు ఉన్నాయి మరియు ప్రతి భాషకు చాలా భిన్నమైన వ్యాకరణ నియమాలు ఉండవచ్చు. ఒక దృష్టికోణం ఒక భాష, ఉదాహరణకు ఇంగ్లీష్, యొక్క ఫార్మల్ వ్యాకరణ నియమాలను భాషాపరమైన ఆధారపడని నిర్మాణంగా మార్చడం, ఆపై మరొక భాషకు తిరిగి మార్చడం ద్వారా అనువదించడం. ఈ దృష్టికోణం మీరు ఈ క్రింది దశలను తీసుకోవాలని సూచిస్తుంది:
- గుర్తింపు. ఇన్పుట్ భాషలోని పదాలను నామవాచకాలు, క్రియలు మొదలైన వాటిగా గుర్తించడం లేదా ట్యాగ్ చేయడం.
- అనువాదం సృష్టించడం. లక్ష్య భాష ఫార్మాట్లో ప్రతి పదానికి ప్రత్యక్ష అనువాదం చేయడం.
ఉదాహరణ వాక్యం, ఇంగ్లీష్ నుండి ఐరిష్
'ఇంగ్లీష్'లో, వాక్యం I feel happy మూడు పదాలతో ఈ క్రమంలో ఉంటుంది:
- విషయం (I)
- క్రియా (feel)
- విశేషణం (happy)
కానీ, 'ఐరిష్' భాషలో అదే వాక్యం చాలా భిన్నమైన వ్యాకరణ నిర్మాణం కలిగి ఉంటుంది - "happy" లేదా "sad" వంటి భావాలు మీపై ఉన్నట్లు వ్యక్తం చేయబడతాయి.
ఇంగ్లీష్ పదబంధం I feel happy ఐరిష్లో Tá athas orm అవుతుంది. ఒక నిజమైన అనువాదం Happy is upon me అవుతుంది.
ఐరిష్ మాట్లాడేవారు ఇంగ్లీష్కు అనువదిస్తే I feel happy అంటారు, Happy is upon me కాదు, ఎందుకంటే వారు వాక్యార్థాన్ని అర్థం చేసుకుంటారు, పదాలు మరియు వాక్య నిర్మాణం వేరు అయినా.
ఐరిష్లో వాక్యానికి ఫార్మల్ క్రమం:
- క్రియా (Tá లేదా is)
- విశేషణం (athas, లేదా happy)
- విషయం (orm, లేదా upon me)
అనువాదం
సాధారణ అనువాద ప్రోగ్రామ్ పదాలను మాత్రమే అనువదించి, వాక్య నిర్మాణాన్ని పక్కన పెట్టవచ్చు.
✅ మీరు పెద్దవయసులో రెండో (లేదా మూడో లేదా మరిన్ని) భాష నేర్చుకున్నట్లయితే, మీరు మొదట మీ స్వదేశీ భాషలో ఆలోచించి, ఆ భావాన్ని పదం పదంగా రెండో భాషలో అనువదించి, ఆ అనువాదాన్ని మాట్లాడటం మొదలుపెట్టినట్లే ఉంటుంది. ఇది సాధారణ అనువాద కంప్యూటర్ ప్రోగ్రాములు చేస్తున్న దానికి సమానంగా ఉంటుంది. మీరు ఈ దశను దాటిపోవడం ముఖ్యం, తద్వారా ప్రవాహం సాధించవచ్చు!
సాధారణ అనువాదం చెడ్డ (మరియు కొన్నిసార్లు హాస్యాస్పద) తప్పు అనువాదాలకు దారితీస్తుంది: I feel happy ఐరిష్లో నేరుగా అనువదిస్తే Mise bhraitheann athas అవుతుంది. దీని అర్థం (నేరుగా) me feel happy మరియు ఇది సరైన ఐరిష్ వాక్యం కాదు. ఇంగ్లీష్ మరియు ఐరిష్ రెండు సమీప ద్వీపాలలో మాట్లాడే భాషలు అయినప్పటికీ, అవి చాలా భిన్నమైన వ్యాకరణ నిర్మాణాలు కలిగి ఉంటాయి.
మీరు ఐరిష్ భాషా సంప్రదాయాల గురించి కొన్ని వీడియోలు చూడవచ్చు, ఉదాహరణకు ఇది
మెషీన్ లెర్నింగ్ దృష్టికోణాలు
ఇప్పటివరకు, మీరు సహజ భాషా ప్రాసెసింగ్కు ఫార్మల్ నియమాల దృష్టికోణం గురించి నేర్చుకున్నారు. మరో దృష్టికోణం పదాల అర్థాన్ని పక్కన పెట్టి, మెషీన్ లెర్నింగ్ ఉపయోగించి నమూనాలను గుర్తించడం. ఇది అనువాదంలో పనిచేస్తుంది, మీరు మూలం మరియు లక్ష్య భాషలలో చాలా టెక్స్ట్లు (ఒక కోర్పస్ లేదా కోర్పోరా) కలిగి ఉంటే.
ఉదాహరణకు, 1813లో జేన్ ఆస్టెన్ రాసిన ప్రసిద్ధ ఇంగ్లీష్ నవల Pride and Prejudice ను పరిగణించండి. మీరు ఆ పుస్తకాన్ని ఇంగ్లీష్లో మరియు ఫ్రెంచ్లో మానవ అనువాదంతో చూసినప్పుడు, ఒక భాషలో ఉన్న పదబంధాలు మరొక భాషలో సాంప్రదాయాత్మకంగా అనువదించబడ్డాయని గుర్తించవచ్చు. మీరు దీన్ని కొద్దిసేపట్లో చేస్తారు.
ఉదాహరణకు, ఇంగ్లీష్ పదబంధం I have no money ను ఫ్రెంచ్కు నేరుగా అనువదిస్తే, అది Je n'ai pas de monnaie అవుతుంది. "Monnaie" అనేది ఒక క్లిష్టమైన ఫ్రెంచ్ 'తప్పు సారూప్యం' (false cognate), ఎందుకంటే 'money' మరియు 'monnaie' సమానార్థకాలు కావు. మానవుడు చేసే మంచి అనువాదం Je n'ai pas d'argent అవుతుంది, ఎందుకంటే ఇది మీరు డబ్బు లేనట్టుగా అర్థం చెప్పడంలో మెరుగ్గా ఉంటుంది (మరియు 'monnaie' అర్థం 'చిన్న నాణేలు').
చిత్రం Jen Looper ద్వారా
ఒక ML మోడల్కు మానవ అనువాదాలు చాలానే ఉంటే, అది రెండు భాషల నిపుణులచే ముందుగా అనువదించబడిన టెక్స్ట్లలో సాధారణ నమూనాలను గుర్తించి అనువాద ఖచ్చితత్వాన్ని మెరుగుపరచవచ్చు.
వ్యాయామం - అనువాదం
మీరు వాక్యాలను అనువదించడానికి TextBlob ఉపయోగించవచ్చు. ప్రసిద్ధ Pride and Prejudice మొదటి వాక్యాన్ని ప్రయత్నించండి:
from textblob import TextBlob
blob = TextBlob(
"It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife!"
)
print(blob.translate(to="fr"))
TextBlob అనువాదంలో మంచి పనితనం చూపిస్తుంది: "C'est une vérité universellement reconnue, qu'un homme célibataire en possession d'une bonne fortune doit avoir besoin d'une femme!".
వాస్తవానికి, TextBlob అనువాదం 1932లో V. Leconte మరియు Ch. Pressoir చేసిన ఫ్రెంచ్ అనువాదం కంటే చాలా ఖచ్చితంగా ఉండవచ్చు:
"C'est une vérité universelle qu'un célibataire pourvu d'une belle fortune doit avoir envie de se marier, et, si peu que l'on sache de son sentiment à cet egard, lorsqu'il arrive dans une nouvelle résidence, cette idée est si bien fixée dans l'esprit de ses voisins qu'ils le considèrent sur-le-champ comme la propriété légitime de l'une ou l'autre de leurs filles."
ఈ సందర్భంలో, ML ఆధారిత అనువాదం మానవ అనువాదకుడి కంటే మెరుగ్గా పనిచేస్తుంది, ఎందుకంటే మానవుడు అసలు రచయిత మాటల్లో అవసరంలేని పదాలను చేర్చాడు 'స్పష్టత' కోసం.
ఇది ఏమిటి? మరియు TextBlob అనువాదం ఎందుకు అంత మంచి? వెనుకనుంచి, ఇది Google translate ఉపయోగిస్తుంది, ఇది లక్షలాది పదబంధాలను విశ్లేషించి ఉత్తమ స్ట్రింగ్స్ను అంచనా వేయగల సాంకేతిక AI. ఇక్కడ ఏ మానవీయ చర్య లేదు మరియు
blob.translateఉపయోగించడానికి ఇంటర్నెట్ కనెక్షన్ అవసరం.
✅ మరికొన్ని వాక్యాలు ప్రయత్నించండి. ఏది మెరుగ్గా ఉంది, ML లేదా మానవ అనువాదం? ఏ సందర్భాల్లో?
భావ విశ్లేషణ
మెషీన్ లెర్నింగ్ చాలా బాగా పనిచేసే మరో ప్రాంతం భావ విశ్లేషణ. ఒక non-ML దృష్టికోణం భావాన్ని గుర్తించడానికి 'ధనాత్మక' మరియు 'నెగటివ్' పదాలు, పదబంధాలను గుర్తించడం. ఆపై, కొత్త టెక్స్ట్ ఇచ్చినప్పుడు, ధనాత్మక, నెగటివ్ మరియు న్యూట్రల్ పదాల మొత్తం విలువను లెక్కించి మొత్తం భావాన్ని గుర్తించడం.
ఈ దృష్టికోణం సులభంగా మోసగించబడుతుంది, మీరు Marvin టాస్క్లో చూసినట్లే - వాక్యం Great, that was a wonderful waste of time, I'm glad we are lost on this dark road ఒక వ్యంగ్యాత్మక, నెగటివ్ భావ వాక్యం, కానీ సాదా అల్గోరిథం 'great', 'wonderful', 'glad' ను ధనాత్మకంగా, 'waste', 'lost' మరియు 'dark' ను నెగటివ్గా గుర్తిస్తుంది. మొత్తం భావం ఈ విరుద్ధ పదాల వల్ల తిప్పబడుతుంది.
✅ ఒక క్షణం ఆగి మనుష్యులు వ్యంగ్యాన్ని ఎలా వ్యక్తం చేస్తామో ఆలోచించండి. స్వరం ఉచ్చారణ చాలా పాత్ర పోషిస్తుంది. "Well, that film was awesome" అనే పదబంధాన్ని వేర్వేరు రీతుల్లో చెప్పి మీ స్వరం అర్థాన్ని ఎలా వ్యక్తం చేస్తుందో తెలుసుకోండి.
ML దృష్టికోణాలు
ML దృష్టికోణం నెగటివ్ మరియు పాజిటివ్ టెక్స్ట్లను - ట్వీట్లు, సినిమా సమీక్షలు లేదా మానవుడు స్కోరు మరియు అభిప్రాయం ఇచ్చిన ఏదైనా - సేకరించడం. ఆపై NLP సాంకేతికతలను అభిప్రాయాలు మరియు స్కోర్లు మీద వర్తింపజేసి నమూనాలు బయటపడతాయి (ఉదా: ధనాత్మక సినిమా సమీక్షల్లో 'Oscar worthy' పదబంధం ఎక్కువగా ఉంటుంది, నెగటివ్ సమీక్షల్లో తక్కువగా, లేదా ధనాత్మక రెస్టారెంట్ సమీక్షల్లో 'gourmet' ఎక్కువగా ఉంటుంది 'disgusting' కంటే).
⚖️ ఉదాహరణ: మీరు ఒక రాజకీయ నాయకుడి కార్యాలయంలో పనిచేస్తున్నారని, కొత్త చట్టం చర్చలో ఉందని అనుకోండి. ప్రజలు ఆ చట్టానికి మద్దతుగా లేదా వ్యతిరేకంగా ఇమెయిల్స్ రాస్తారు. మీరు ఆ ఇమెయిల్స్ చదివి రెండు గుంపులుగా, మద్దతు మరియు వ్యతిరేకం గా వర్గీకరించాల్సి ఉంటుంది. ఇమెయిల్స్ చాలా ఉంటే, వాటన్నింటినీ చదవడం కష్టమవుతుంది. ఒక బాట్ వాటన్నింటినీ చదివి అర్థం చేసుకుని ఏ ఇమెయిల్ ఏ గుంపులో ఉందో చెప్పగలిగితే బాగుండేది కదా?
దీన్ని సాధించడానికి మెషీన్ లెర్నింగ్ ఉపయోగించవచ్చు. మీరు వ్యతిరేక ఇమెయిల్స్ మరియు మద్దతు ఇమెయిల్స్ కొంత భాగంతో మోడల్ను శిక్షణ ఇస్తారు. మోడల్ పదబంధాలు మరియు పదాలను వ్యతిరేక మరియు మద్దతు వైపులుగా అనుసంధానిస్తుంది, కానీ అది ఏదైనా విషయాన్ని అర్థం చేసుకోదు, కేవలం కొన్ని పదాలు మరియు నమూనాలు ఒక వైపు ఎక్కువగా కనిపిస్తాయని మాత్రమే తెలుసుకుంటుంది. మీరు శిక్షణలో ఉపయోగించని కొన్ని ఇమెయిల్స్తో పరీక్షిస్తారు, మీరు చేసిన నిర్ణయంతో సమానంగా ఉందో చూడండి. మీరు మోడల్ ఖచ్చితత్వంతో సంతృప్తి చెందాక, భవిష్యత్ ఇమెయిల్స్ను చదవకుండా ప్రాసెస్ చేయవచ్చు.
✅ ఈ ప్రక్రియ మీరు మునుపటి పాఠాలలో ఉపయోగించిన ప్రక్రియలకు సమానంగా ఉందా?
వ్యాయామం - భావ వాక్యాలు
భావాన్ని -1 నుండి 1 వరకు పోలారిటీతో కొలుస్తారు, అంటే -1 అత్యంత నెగటివ్ భావం, 1 అత్యంత పాజిటివ్ భావం. భావాన్ని 0 - 1 స్కోర్తో కూడా కొలుస్తారు, 0 అంటే ఆబ్జెక్టివిటీ, 1 అంటే సబ్జెక్టివిటీ.
మళ్ళీ జేన్ ఆస్టెన్ యొక్క Pride and Prejudice ను చూడండి. పాఠ్యం Project Gutenberg వద్ద అందుబాటులో ఉంది. క్రింది నమూనా ప్రోగ్రామ్ పుస్తకంలోని మొదటి మరియు చివరి వాక్యాల భావాన్ని విశ్లేషించి, దాని పోలారిటీ మరియు సబ్జెక్టివిటీ/ఆబ్జెక్టివిటీ స్కోర్ను ప్రదర్శిస్తుంది.
ఈ క్రింది టాస్క్లో మీరు TextBlob లైబ్రరీ (పై వివరించినది) ఉపయోగించి sentiment నిర్ణయించాలి (మీరు మీ స్వంత భావ గణన యంత్రం రాయాల్సిన అవసరం లేదు).
from textblob import TextBlob
quote1 = """It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife."""
quote2 = """Darcy, as well as Elizabeth, really loved them; and they were both ever sensible of the warmest gratitude towards the persons who, by bringing her into Derbyshire, had been the means of uniting them."""
sentiment1 = TextBlob(quote1).sentiment
sentiment2 = TextBlob(quote2).sentiment
print(quote1 + " has a sentiment of " + str(sentiment1))
print(quote2 + " has a sentiment of " + str(sentiment2))
మీకు క్రింది అవుట్పుట్ కనిపిస్తుంది:
It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want # of a wife. has a sentiment of Sentiment(polarity=0.20952380952380953, subjectivity=0.27142857142857146)
Darcy, as well as Elizabeth, really loved them; and they were
both ever sensible of the warmest gratitude towards the persons
who, by bringing her into Derbyshire, had been the means of
uniting them. has a sentiment of Sentiment(polarity=0.7, subjectivity=0.8)
సవాలు - భావ పోలారిటీ తనిఖీ
మీ టాస్క్, భావ పోలారిటీ ఉపయోగించి, Pride and Prejudice లో పూర్తిగా పాజిటివ్ వాక్యాలు పూర్తిగా నెగటివ్ వాక్యాల కంటే ఎక్కువ ఉన్నాయా అని నిర్ణయించడం. ఈ టాస్క్ కోసం, పోలారిటీ స్కోర్ 1 లేదా -1 ఉన్న వాక్యాలు పూర్తిగా పాజిటివ్ లేదా నెగటివ్ అని భావించవచ్చు.
దశలు:
- Project Gutenberg నుండి Pride and Prejudice .txt ఫైల్ డౌన్లోడ్ చేసుకోండి. ఫైల్ ప్రారంభం మరియు ముగింపు మెటాడేటాను తీసివేసి అసలు పాఠ్యాన్ని మాత్రమే ఉంచండి
- Pythonలో ఫైల్ తెరిచి కంటెంట్ను స్ట్రింగ్గా తీసుకోండి
- పుస్తక స్ట్రింగ్తో TextBlob సృష్టించండి
- పుస్తకంలోని ప్రతి వాక్యాన్ని లూప్లో విశ్లేషించండి
- పోలారిటీ 1 లేదా -1 అయితే ఆ వాక్యాన్ని పాజిటివ్ లేదా నెగటివ్ సందేశాల జాబితాలో నిల్వ చేయండి
- చివరలో, అన్ని పాజిటివ్ మరియు నెగటివ్ వాక్యాలను (వేరుగా) మరియు వాటి సంఖ్యను ప్రింట్ చేయండి.
ఇది ఒక నమూనా పరిష్కారం.
✅ జ్ఞాన తనిఖీ
- భావం వాక్యంలో ఉపయోగించిన పదాల ఆధారంగా ఉంటుంది, కానీ కోడ్ పదాలను అర్థం చేసుకుంటుందా?
- మీరు భావ పోలారిటీ ఖచ్చితమని అనుకుంటున్నారా, లేదా మరొక మాటల్లో, స్కోర్లతో మీరు అంగీకరిస్తున్నారా?
- ముఖ్యంగా, ఈ వాక్యాల పూర్తి పాజిటివ్ పోలారిటీతో మీరు అంగీకరిస్తున్నారా లేదా విరుద్ధంగా ఉన్నారా?
- “What an excellent father you have, girls!” said she, when the door was shut.
- “Your examination of Mr. Darcy is over, I presume,” said Miss Bingley; “and pray what is the result?” “I am perfectly convinced by it that Mr. Darcy has no defect.
- How wonderfully these sort of things occur!
- I have the greatest dislike in the world to that sort of thing.
- Charlotte is an excellent manager, I dare say.
- “This is delightful indeed!
- I am so happy!
- Your idea of the ponies is delightful.
- ఈ తర్వాతి 3 వాక్యాలు పూర్తి పాజిటివ్ భావంతో స్కోర్ చేయబడ్డాయి, కానీ సమీపంగా చదివితే అవి పాజిటివ్ వాక్యాలు కావు. భావ విశ్లేషణ అవి పాజిటివ్ వాక్యాలు అని ఎందుకు భావించింది?
- Happy shall I be, when his stay at Netherfield is over!” “I wish I could say anything to comfort you,” replied Elizabeth; “but it is wholly out of my power.
- If I could but see you as happy!
- Our distress, my dear Lizzy, is very great.
- ఈ క్రింది వాక్యాల పూర్తి నెగటివ్ పోలారిటీతో మీరు అంగీకరిస్తున్నారా లేదా విరుద్ధంగా ఉన్నారా?
- Everybody is disgusted with his pride.
- “I should like to know how he behaves among strangers.” “You shall hear then—but prepare yourself for something very dreadful.
- The pause was to Elizabeth’s feelings dreadful.
- It would be dreadful!
- ముఖ్యంగా, ఈ వాక్యాల పూర్తి పాజిటివ్ పోలారిటీతో మీరు అంగీకరిస్తున్నారా లేదా విరుద్ధంగా ఉన్నారా?
✅ జేన్ ఆస్టెన్ అభిమానులు అర్థం చేసుకుంటారు ఆమె తరచుగా తన పుస్తకాలను ఇంగ్లీష్ రెజెన్సీ సమాజంలోని అర్థరహిత అంశాలను విమర్శించడానికి ఉపయోగిస్తారని. Pride and Prejudice లో ప్రధాన పాత్ర ఎలిజబెత్ బెన్నెట్ ఒక చురుకైన సామాజిక పరిశీలకురాలు (రచయితలా) మరియు ఆమె భాష తరచుగా చాలా సున్నితంగా ఉంటుంది. కథలో ప్రేమ ఆసక్తి అయిన మిస్టర్ డార్సీ కూడా ఎలిజబెత్ యొక్క ఆటపాట మరియు చమత్కార భాషా వినియోగాన్ని గమనిస్తాడు: "నేను మీ పరిచయాన్ని చాలాసేపు పొందాను, మీరు నిజానికి మీ స్వంతం కాని అభిప్రాయాలను అప్పుడప్పుడు ప్రకటించడం లో చాలా ఆనందం పొందుతారని తెలుసుకున్నాను."
🚀సవాలు
మార్విన్ను మరింత మెరుగుపరచడానికి వినియోగదారు ఇన్పుట్ నుండి ఇతర లక్షణాలను తీసుకురావచ్చు?
పాఠం తర్వాత క్విజ్
సమీక్ష & స్వీయ అధ్యయనం
పాఠ్యంతో నుండి భావోద్వేగాన్ని తీసుకోవడానికి అనేక మార్గాలు ఉన్నాయి. ఈ సాంకేతికతను ఉపయోగించే వ్యాపార అనువర్తనాలను ఆలోచించండి. ఇది ఎలా తప్పు కావచ్చు అనేది గురించి ఆలోచించండి. Azure Text Analysis వంటి భావోద్వేగాన్ని విశ్లేషించే సున్నితమైన ఎంటర్ప్రైజ్-సిద్ధమైన వ్యవస్థల గురించి మరింత చదవండి. పై ప్రైడ్ అండ్ ప్రెజుడిస్ వాక్యాలను కొంత పరీక్షించి, ఇది సూక్ష్మతను గుర్తించగలదా చూడండి.
అసైన్మెంట్
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
