21 KiB
ਆਮ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਕਾਰਜ ਅਤੇ ਤਕਨੀਕਾਂ
ਜਿਆਦਾਤਰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਕਾਰਜਾਂ ਲਈ, ਪ੍ਰਕਿਰਿਆ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਪਾਠ ਨੂੰ ਤੋੜਨਾ, ਜਾਂਚਣਾ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਨਿਯਮਾਂ ਅਤੇ ਡੇਟਾ ਸੈੱਟਾਂ ਨਾਲ ਸਟੋਰ ਜਾਂ ਰਿਫਰੈਂਸ ਕਰਨਾ ਲਾਜ਼ਮੀ ਹੁੰਦਾ ਹੈ। ਇਹ ਕਾਰਜ ਪ੍ਰੋਗਰਾਮਰ ਨੂੰ ਪਾਠ ਵਿੱਚ ਸ਼ਬਦਾਂ ਅਤੇ ਸ਼ਬਦਾਵਲੀਆਂ ਦੀ ਮਹੱਤਵ, ਇਰਾਦਾ, ਜਾਂ ਸਿਰਫ਼ ਆਵ੍ਰਿਤੀ ਨੂੰ ਸਮਝਣ ਦੀ ਯੋਗਤਾ ਦਿੰਦੇ ਹਨ।
ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼
ਆਓ ਪਾਠ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਣ ਵਾਲੀਆਂ ਆਮ ਤਕਨੀਕਾਂ ਦੀ ਖੋਜ ਕਰੀਏ। ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਮਿਲਾ ਕੇ, ਇਹ ਤਕਨੀਕਾਂ ਤੁਹਾਨੂੰ ਵੱਡੇ ਪਾਠ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ। ਪਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਾਗੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਸਮਝੀਏ ਕਿ NLP ਵਿਸ਼ੇਸ਼ਜ्ञ ਨੂੰ ਕਿਹੜੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।
NLP ਨਾਲ ਜੁੜੇ ਆਮ ਕਾਰਜ
ਪਾਠ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੇ ਕਈ ਤਰੀਕੇ ਹਨ। ਤੁਸੀਂ ਕੁਝ ਕਾਰਜ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਇਨ੍ਹਾਂ ਕਾਰਜਾਂ ਰਾਹੀਂ ਪਾਠ ਨੂੰ ਸਮਝਣ ਅਤੇ ਨਤੀਜੇ ਕੱਢਣ ਦੀ ਯੋਗਤਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ। ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਕਾਰਜ ਇੱਕ ਕ੍ਰਮ ਵਿੱਚ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ
ਸ਼ਾਇਦ ਸਭ ਤੋਂ ਪਹਿਲੀ ਚੀਜ਼ ਜੋ ਜ਼ਿਆਦਾਤਰ NLP ਐਲਗੋਰਿਦਮ ਕਰਦੇ ਹਨ ਉਹ ਹੈ ਪਾਠ ਨੂੰ ਟੋਕਨ ਜਾਂ ਸ਼ਬਦਾਂ ਵਿੱਚ ਵੰਡਣਾ। ਜਦੋਂ ਕਿ ਇਹ ਸਧਾਰਨ ਲੱਗਦਾ ਹੈ, ਚਿੰਨ੍ਹਾਂ ਅਤੇ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਦੇ ਸ਼ਬਦ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਦੇ ਸੀਮਾਵਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਇਸਨੂੰ ਔਖਾ ਬਣਾ ਸਕਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਸੀਮਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਵਰਤਣੇ ਪੈ ਸਕਦੇ ਹਨ।
Pride and Prejudice ਤੋਂ ਇੱਕ ਵਾਕ ਨੂੰ ਟੋਕਨਾਈਜ਼ ਕਰਨਾ। ਇਨਫੋਗ੍ਰਾਫਿਕ Jen Looper ਦੁਆਰਾ।
ਐਮਬੈਡਿੰਗਜ਼
ਵਰਡ ਐਮਬੈਡਿੰਗਜ਼ ਤੁਹਾਡੇ ਪਾਠ ਡੇਟਾ ਨੂੰ ਗਿਣਤੀ ਰੂਪ ਵਿੱਚ ਬਦਲਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਹੈ। ਐਮਬੈਡਿੰਗਜ਼ ਇਸ ਤਰੀਕੇ ਨਾਲ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ ਕਿ ਸਮਾਨ ਅਰਥ ਵਾਲੇ ਸ਼ਬਦ ਜਾਂ ਇਕੱਠੇ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਸ਼ਬਦ ਇੱਕਠੇ ਹੋ ਜਾਂਦੇ ਹਨ।
"I have the highest respect for your nerves, they are my old friends." - Pride and Prejudice ਦੇ ਇੱਕ ਵਾਕ ਲਈ ਵਰਡ ਐਮਬੈਡਿੰਗਜ਼। ਇਨਫੋਗ੍ਰਾਫਿਕ Jen Looper ਦੁਆਰਾ।
✅ ਇਹ ਦਿਲਚਸਪ ਟੂਲ ਅਜ਼ਮਾਓ ਜੋ ਵਰਡ ਐਮਬੈਡਿੰਗਜ਼ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਕਿਸੇ ਇੱਕ ਸ਼ਬਦ 'ਤੇ ਕਲਿਕ ਕਰਨ ਨਾਲ ਸਮਾਨ ਸ਼ਬਦਾਂ ਦੇ ਗੁੱਛੇ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ: 'toy' 'disney', 'lego', 'playstation', ਅਤੇ 'console' ਨਾਲ ਗੁੱਛਾ ਬਣਾਉਂਦਾ ਹੈ।
ਪਾਰਸਿੰਗ ਅਤੇ ਭਾਗ-ਅਫ-ਸਪੀਚ ਟੈਗਿੰਗ
ਹਰ ਸ਼ਬਦ ਜੋ ਟੋਕਨਾਈਜ਼ ਕੀਤਾ ਗਿਆ ਹੈ, ਉਸਨੂੰ ਭਾਗ-ਅਫ-ਸਪੀਚ ਵਜੋਂ ਟੈਗ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ - ਜਿਵੇਂ ਕਿ ਨਾਉਨ, ਵਰਬ, ਜਾਂ ਐਡਜੈਕਟਿਵ। ਜਿਵੇਂ ਕਿ ਵਾਕ the quick red fox jumped over the lazy brown dog
ਵਿੱਚ fox = noun, jumped = verb ਹੋ ਸਕਦਾ ਹੈ।
Pride and Prejudice ਤੋਂ ਇੱਕ ਵਾਕ ਨੂੰ ਪਾਰਸ ਕਰਨਾ। ਇਨਫੋਗ੍ਰਾਫਿਕ Jen Looper ਦੁਆਰਾ।
ਪਾਰਸਿੰਗ ਦਾ ਮਤਲਬ ਹੈ ਵਾਕ ਵਿੱਚ ਕਿਹੜੇ ਸ਼ਬਦ ਇੱਕ ਦੂਜੇ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ ਇਹ ਪਛਾਣਣਾ - ਉਦਾਹਰਣ ਲਈ the quick red fox jumped
ਇੱਕ ਐਡਜੈਕਟਿਵ-ਨਾਉਨ-ਵਰਬ ਕ੍ਰਮ ਹੈ ਜੋ lazy brown dog
ਕ੍ਰਮ ਤੋਂ ਵੱਖ ਹੈ।
ਸ਼ਬਦ ਅਤੇ ਵਾਕਾਂਸ਼ ਦੀ ਆਵ੍ਰਿਤੀ
ਜਦੋਂ ਵੱਡੇ ਪਾਠ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੋਵੇ, ਤਾਂ ਹਰ ਸ਼ਬਦ ਜਾਂ ਰੁਚੀ ਦੇ ਵਾਕਾਂਸ਼ ਦੀ ਸ਼ਬਦਾਵਲੀ ਬਣਾਉਣਾ ਅਤੇ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਕਿ ਇਹ ਕਿੰਨੀ ਵਾਰ ਆਉਂਦਾ ਹੈ, ਇੱਕ ਲਾਭਦਾਇਕ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਵਾਕ the quick red fox jumped over the lazy brown dog
ਵਿੱਚ the ਦੀ ਆਵ੍ਰਿਤੀ 2 ਹੈ।
ਆਓ ਇੱਕ ਉਦਾਹਰਣ ਪਾਠ ਵੇਖੀਏ ਜਿੱਥੇ ਅਸੀਂ ਸ਼ਬਦਾਂ ਦੀ ਆਵ੍ਰਿਤੀ ਗਿਣਦੇ ਹਾਂ। ਰੁਡਯਾਰਡ ਕਿਪਲਿੰਗ ਦੀ ਕਵਿਤਾ The Winners ਵਿੱਚ ਹੇਠਾਂ ਦਿੱਤਾ ਗਇਆ ਪਦ ਹੈ:
What the moral? Who rides may read.
When the night is thick and the tracks are blind
A friend at a pinch is a friend, indeed,
But a fool to wait for the laggard behind.
Down to Gehenna or up to the Throne,
He travels the fastest who travels alone.
ਜਿਵੇਂ ਕਿ ਵਾਕਾਂਸ਼ ਦੀ ਆਵ੍ਰਿਤੀ ਕੇਸ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਂ ਕੇਸ ਅਸੰਵੇਦਨਸ਼ੀਲ ਹੋ ਸਕਦੀ ਹੈ, ਵਾਕਾਂਸ਼ a friend
ਦੀ ਆਵ੍ਰਿਤੀ 2 ਹੈ, the
ਦੀ ਆਵ੍ਰਿਤੀ 6 ਹੈ, ਅਤੇ travels
ਦੀ ਆਵ੍ਰਿਤੀ 2 ਹੈ।
ਐਨ-ਗ੍ਰਾਮਜ਼
ਪਾਠ ਨੂੰ ਨਿਰਧਾਰਤ ਲੰਬਾਈ ਦੇ ਸ਼ਬਦਾਂ ਦੇ ਕ੍ਰਮਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਇੱਕ ਸ਼ਬਦ (ਯੂਨੀਗ੍ਰਾਮ), ਦੋ ਸ਼ਬਦ (ਬਾਈਗ੍ਰਾਮ), ਤਿੰਨ ਸ਼ਬਦ (ਟ੍ਰਾਈਗ੍ਰਾਮ) ਜਾਂ ਕਿਸੇ ਵੀ ਗਿਣਤੀ ਦੇ ਸ਼ਬਦ (ਐਨ-ਗ੍ਰਾਮਜ਼)।
ਉਦਾਹਰਣ ਲਈ, the quick red fox jumped over the lazy brown dog
ਦੇ ਨਾਲ ਇੱਕ ਐਨ-ਗ੍ਰਾਮ ਸਕੋਰ 2 ਹੇਠਾਂ ਦਿੱਤੇ ਗਏ ਐਨ-ਗ੍ਰਾਮਜ਼ ਪੈਦਾ ਕਰਦਾ ਹੈ:
- the quick
- quick red
- red fox
- fox jumped
- jumped over
- over the
- the lazy
- lazy brown
- brown dog
ਇਸਨੂੰ ਇੱਕ ਸਲਾਈਡਿੰਗ ਬਾਕਸ ਵਜੋਂ ਵਾਕ 'ਤੇ ਦਿਖਾਉਣਾ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ 3 ਸ਼ਬਦਾਂ ਦੇ ਐਨ-ਗ੍ਰਾਮਜ਼ ਲਈ ਹੈ, ਹਰ ਵਾਕ ਵਿੱਚ ਐਨ-ਗ੍ਰਾਮ ਨੂੰ ਮੋਟੇ ਅੱਖਰਾਂ ਵਿੱਚ ਦਰਸਾਇਆ ਗਿਆ ਹੈ:
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
- the quick red fox jumped over the lazy brown dog
ਐਨ-ਗ੍ਰਾਮ ਮੁੱਲ 3: ਇਨਫੋਗ੍ਰਾਫਿਕ Jen Looper ਦੁਆਰਾ।
ਨਾਉਨ ਫਰੇਜ਼ ਐਕਸਟ੍ਰੈਕਸ਼ਨ
ਜਿਆਦਾਤਰ ਵਾਕਾਂ ਵਿੱਚ ਇੱਕ ਨਾਉਨ ਹੁੰਦਾ ਹੈ ਜੋ ਵਾਕ ਦਾ ਵਿਸ਼ਾ ਜਾਂ ਵਸਤੂ ਹੁੰਦਾ ਹੈ। ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ, ਇਹ ਅਕਸਰ 'a', 'an', ਜਾਂ 'the' ਦੇ ਨਾਲ ਪਛਾਣਯੋਗ ਹੁੰਦਾ ਹੈ। ਵਾਕ ਦੇ ਅਰਥ ਨੂੰ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਮੇਂ 'ਨਾਉਨ ਫਰੇਜ਼ ਨੂੰ ਕੱਢਣਾ' NLP ਵਿੱਚ ਇੱਕ ਆਮ ਕਾਰਜ ਹੈ।
✅ ਵਾਕ "I cannot fix on the hour, or the spot, or the look or the words, which laid the foundation. It is too long ago. I was in the middle before I knew that I had begun." ਵਿੱਚ ਕੀ ਤੁਸੀਂ ਨਾਉਨ ਫਰੇਜ਼ ਪਛਾਣ ਸਕਦੇ ਹੋ?
ਵਾਕ the quick red fox jumped over the lazy brown dog
ਵਿੱਚ 2 ਨਾਉਨ ਫਰੇਜ਼ ਹਨ: quick red fox ਅਤੇ lazy brown dog।
ਸੈਂਟੀਮੈਂਟ ਵਿਸ਼ਲੇਸ਼ਣ
ਕਿਸੇ ਵਾਕ ਜਾਂ ਪਾਠ ਨੂੰ ਸੈਂਟੀਮੈਂਟ ਲਈ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਾਂ ਇਹ ਕਿੰਨਾ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਹੈ। ਸੈਂਟੀਮੈਂਟ ਨੂੰ ਪੋਲਾਰਿਟੀ ਅਤੇ ਵਸਤੂਵਾਦ/ਵਿਅਕਤਿਗਤਤਾ ਵਿੱਚ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਪੋਲਾਰਿਟੀ -1.0 ਤੋਂ 1.0 (ਨਕਾਰਾਤਮਕ ਤੋਂ ਸਕਾਰਾਤਮਕ) ਅਤੇ 0.0 ਤੋਂ 1.0 (ਸਭ ਤੋਂ ਵਸਤੂਵਾਦੀ ਤੋਂ ਸਭ ਤੋਂ ਵਿਅਕਤਿਗਤ) ਤੱਕ ਮਾਪੀ ਜਾਂਦੀ ਹੈ।
✅ ਬਾਅਦ ਵਿੱਚ ਤੁਸੀਂ ਸਿੱਖੋਗੇ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੈਂਟੀਮੈਂਟ ਨਿਰਧਾਰਤ ਕਰਨ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਹਨ, ਪਰ ਇੱਕ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਹੋਵੇ ਜੋ ਮਨੁੱਖੀ ਵਿਸ਼ੇਸ਼ਜਗਿਆ ਦੁਆਰਾ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤੀ ਗਈ ਹੋਵੇ ਅਤੇ ਉਸ ਮਾਡਲ ਨੂੰ ਪਾਠ 'ਤੇ ਲਾਗੂ ਕਰਕੇ ਪੋਲਾਰਿਟੀ ਸਕੋਰ ਦੀ ਗਿਣਤੀ ਕੀਤੀ ਜਾਵੇ। ਕੀ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਕੁਝ ਹਾਲਾਤਾਂ ਵਿੱਚ ਕਿਵੇਂ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਹੋਰ ਹਾਲਾਤਾਂ ਵਿੱਚ ਨਹੀਂ?
ਇਨਫਲੈਕਸ਼ਨ
ਇਨਫਲੈਕਸ਼ਨ ਤੁਹਾਨੂੰ ਇੱਕ ਸ਼ਬਦ ਲੈਣ ਅਤੇ ਉਸਦਾ ਇਕਵਚਨ ਜਾਂ ਬਹੁਵਚਨ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਿੰਦਾ ਹੈ।
ਲੈਮਟਾਈਜ਼ੇਸ਼ਨ
ਲੈਮਾ ਸ਼ਬਦਾਂ ਦੇ ਇੱਕ ਸੈੱਟ ਲਈ ਮੂਲ ਜਾਂ ਮੁੱਖ ਸ਼ਬਦ ਹੁੰਦਾ ਹੈ, ਉਦਾਹਰਣ ਲਈ flew, flies, flying ਦਾ ਲੈਮਾ ਕਿਰਿਆ fly ਹੈ।
NLP ਖੋਜਕਰਤਾ ਲਈ ਕੁਝ ਲਾਭਦਾਇਕ ਡੇਟਾਬੇਸ ਵੀ ਉਪਲਬਧ ਹਨ, ਖਾਸ ਕਰਕੇ:
ਵਰਡਨੈਟ
ਵਰਡਨੈਟ ਸ਼ਬਦਾਂ, ਪਰਿਆਏਵਾਚੀ ਸ਼ਬਦਾਂ, ਵਿਰੋਧੀ ਸ਼ਬਦਾਂ ਅਤੇ ਕਈ ਹੋਰ ਵੇਰਵਿਆਂ ਦਾ ਡੇਟਾਬੇਸ ਹੈ ਜੋ ਕਈ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਹਰ ਸ਼ਬਦ ਲਈ ਉਪਲਬਧ ਹੈ। ਇਹ ਅਨੁਵਾਦ, ਸਪੈਲ ਚੈੱਕਰ ਜਾਂ ਕਿਸੇ ਵੀ ਕਿਸਮ ਦੇ ਭਾਸ਼ਾ ਟੂਲ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਮੇਂ ਬਹੁਤ ਹੀ ਲਾਭਦਾਇਕ ਹੈ।
NLP ਲਾਇਬ੍ਰੇਰੀਆਂ
ਖੁਸ਼ਕਿਸਮਤੀ ਨਾਲ, ਤੁਹਾਨੂੰ ਇਹ ਸਾਰੀਆਂ ਤਕਨੀਕਾਂ ਖੁਦ ਬਣਾਉਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਬਹੁਤ ਵਧੀਆ ਪਾਇਥਨ ਲਾਇਬ੍ਰੇਰੀਆਂ ਉਪਲਬਧ ਹਨ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਜਾਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਮਾਹਰ ਨਾ ਹੋਣ ਵਾਲੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇਸਨੂੰ ਕਾਫ਼ੀ ਪਹੁੰਚਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਅਗਲੇ ਪਾਠਾਂ ਵਿੱਚ ਇਨ੍ਹਾਂ ਦੇ ਹੋਰ ਉਦਾਹਰਣ ਸ਼ਾਮਲ ਹਨ, ਪਰ ਇੱਥੇ ਤੁਸੀਂ ਕੁਝ ਲਾਭਦਾਇਕ ਉਦਾਹਰਣ ਸਿੱਖੋਗੇ ਜੋ ਤੁਹਾਨੂੰ ਅਗਲੇ ਕਾਰਜ ਵਿੱਚ ਮਦਦ ਕਰਨਗੇ।
ਅਭਿਆਸ - TextBlob
ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਨਾ
ਆਓ ਇੱਕ ਲਾਇਬ੍ਰੇਰੀ ਵਰਤਦੇ ਹਾਂ ਜਿਸਨੂੰ TextBlob ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਇਸ ਵਿੱਚ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਕਾਰਜਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਮਦਦਗਾਰ API ਹਨ। TextBlob "NLTK ਅਤੇ pattern ਦੇ ਮਜ਼ਬੂਤ ਕੰਧਿਆਂ 'ਤੇ ਖੜ੍ਹਾ ਹੈ, ਅਤੇ ਦੋਹਾਂ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦਾ ਹੈ।" ਇਸਦੇ API ਵਿੱਚ ਕਾਫ਼ੀ ਮਾਤਰਾ ਵਿੱਚ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸ਼ਾਮਲ ਹੈ।
ਨੋਟ: TextBlob ਲਈ ਇੱਕ ਲਾਭਦਾਇਕ Quick Start ਗਾਈਡ ਉਪਲਬਧ ਹੈ ਜੋ ਅਨੁਭਵੀ ਪਾਇਥਨ ਡਿਵੈਲਪਰਾਂ ਲਈ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਜਦੋਂ ਨਾਉਨ ਫਰੇਜ਼ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, TextBlob ਨਾਉਨ ਫਰੇਜ਼ ਲੱਭਣ ਲਈ ਕਈ ਵਿਕਲਪ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
-
ConllExtractor
ਨੂੰ ਵੇਖੋ।from textblob import TextBlob from textblob.np_extractors import ConllExtractor # import and create a Conll extractor to use later extractor = ConllExtractor() # later when you need a noun phrase extractor: user_input = input("> ") user_input_blob = TextBlob(user_input, np_extractor=extractor) # note non-default extractor specified np = user_input_blob.noun_phrases
ਇੱਥੇ ਕੀ ਹੋ ਰਿਹਾ ਹੈ? ConllExtractor "ਇੱਕ ਨਾਉਨ ਫਰੇਜ਼ ਐਕਸਟ੍ਰੈਕਟਰ ਹੈ ਜੋ ConLL-2000 ਟ੍ਰੇਨਿੰਗ ਕਾਰਪਸ ਨਾਲ ਚੰਕ ਪਾਰਸਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।" ConLL-2000 ਦਾ ਸੰਦਰਭ Computational Natural Language Learning ਦੀ 2000 ਕਾਨਫਰੰਸ ਨਾਲ ਹੈ। ਹਰ ਸਾਲ ਕਾਨਫਰੰਸ ਨੇ ਇੱਕ ਔਖੀ NLP ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਰਕਸ਼ਾਪ ਦੀ ਮੇਜ਼ਬਾਨੀ ਕੀਤੀ, ਅਤੇ 2000 ਵਿੱਚ ਇਹ ਨਾਉਨ ਚੰਕਿੰਗ ਸੀ। ਇੱਕ ਮਾਡਲ Wall Street Journal 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, "ਸੈਕਸ਼ਨ 15-18 ਨੂੰ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ (211727 ਟੋਕਨ) ਵਜੋਂ ਅਤੇ ਸੈਕਸ਼ਨ 20 ਨੂੰ ਟੈਸਟ ਡੇਟਾ (47377 ਟੋਕਨ) ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ।" ਤੁਸੀਂ ਵਰਤੀਆਂ ਗਈਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਇੱਥੇ ਅਤੇ ਨਤੀਜੇ ਵੇਖ ਸਕਦੇ ਹੋ।
ਚੁਣੌਤੀ - NLP ਨਾਲ ਆਪਣੇ ਬੋਟ ਨੂੰ ਸੁਧਾਰਨਾ
ਪਿਛਲੇ ਪਾਠ ਵਿੱਚ ਤੁਸੀਂ ਇੱਕ ਬਹੁਤ ਹੀ ਸਧਾਰਨ Q&A ਬੋਟ ਬਣਾਈ ਸੀ। ਹੁਣ, ਤੁਸੀਂ ਮਾਰਵਿਨ ਨੂੰ ਹੋਰ ਸਹਾਨਭੂਤਿਕ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ, ਜੋ ਤੁਹਾਡੇ ਇਨਪੁਟ ਦਾ ਸੈਂਟੀਮੈਂਟ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੇਗਾ ਅਤੇ ਉਸਦੇ ਅਨੁਸਾਰ ਜਵਾਬ ਦੇਵੇਗਾ। ਤੁਸੀਂ ਇੱਕ noun_phrase
ਦੀ ਪਛਾਣ ਵੀ ਕਰਨੀ ਹੋਵੇਗੀ ਅਤੇ ਉਸਦੇ ਬਾਰੇ ਹੋਰ ਇਨਪੁਟ ਮੰਗਣਾ ਹੋਵੇਗਾ।
ਤੁਹਾਡੇ ਬਿਹਤਰ ਗੱਲਬਾਤੀ ਬੋਟ ਬਣਾਉਣ ਦੇ ਕਦਮ:
- ਯੂਜ਼ਰ ਨੂੰ ਸਲਾਹ ਦਿਓ ਕਿ ਬੋਟ ਨਾਲ ਕਿਵੇਂ ਗੱਲਬਾਤ ਕਰਨੀ ਹੈ।
- ਲੂਪ ਸ਼ੁਰੂ ਕਰੋ
- ਯੂਜ਼ਰ ਇਨਪੁਟ ਲਵੋ
- ਜੇ ਯੂਜ਼ਰ ਨੇ ਬਾਹਰ ਜਾਣ ਦੀ ਮੰਗ ਕੀਤੀ ਹੈ, ਤਾਂ ਬਾਹਰ ਜਾਓ
- ਯੂਜ਼ਰ ਇਨਪੁਟ ਪ੍ਰਕਿਰਿਆ ਕਰੋ ਅਤੇ ਸੈਂਟੀਮੈਂਟ ਜਵਾਬ ਨਿਰਧਾਰਤ ਕਰੋ
- ਜੇ ਸੈਂਟੀਮੈਂਟ ਵਿੱਚ ਇੱਕ ਨਾਉਨ ਫਰੇਜ਼ ਪਾਇਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਬਹੁਵਚਨ ਬਣਾਓ ਅਤੇ ਉਸ ਵਿਸ਼ੇ 'ਤੇ ਹੋਰ ਇਨਪੁਟ ਮੰਗੋ
- ਜਵਾਬ ਪ੍ਰਿੰਟ ਕਰੋ
- ਕਦਮ 2
ਅਸਵੀਕਾਰਨਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੱਜੇਪਣ ਹੋ ਸਕਦੇ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼, ਜੋ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਹੈ, ਨੂੰ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।