Add Brazilian Portuguese translation for some files (6-NLP) (#426)
* Create README.pt-br.mb * Up to the section how is this technology possible * translated up to imitation game * Translation complete * Fix quiz links * Assignment translation to pt-bt complete * Translated up to Embeddings * README.pt-br.md translated to PT-BR * Translated README.md file to pt-br * Rephrased sentences and fixed typos * Revision and fixed typos * Create assignment.pt-br.md * Rephrased sentences. Fixed typos Revised and rephrased sentences. Fixed typos and broken links * Rephrased sentences and fixed typospull/427/head
parent
6f727875b7
commit
d1641006dd
@ -0,0 +1,173 @@
|
||||
# Introdução ao Processamento de Linguagem Natural
|
||||
|
||||
Esta aula cobre uma breve história, bem como conceitos importantes do *processamento de linguagem natural*, uma subárea da *Linguística computacional*.
|
||||
|
||||
## [Teste pré-aula](https://white-water-09ec41f0f.azurestaticapps.net/quiz/31?loc=br)
|
||||
|
||||
## Introdução
|
||||
|
||||
O Processamento de Linguagem Natural (PLN) ou, em inglês, Natural Language Processing (NLP), como é geralmente conhecido, é um dos campos mais conhecidos onde o aprendizado de máquina (machine learning) tem sido aplicado e usado na produção de software.
|
||||
|
||||
✅ Você consegue pensar em algum software que você usa todo dia e que provavelmente tem algum PLN integrado? E em programas de processamento de palavras ou aplicativos mobile que você usa com frequência?
|
||||
|
||||
Você vai aprender sobre:
|
||||
|
||||
- **A noção de linguagens**. Como as linguagens se desenvolveram e quais são as principais áreas de estudo.
|
||||
- **Definição e conceitos**. Você também vai aprender definições e conceitos relacionados com o modo como os computadores processam texto, incluindo análise sintática (parsing), gramática e identificação de substantivos e verbos. Existem algumas tarefas de programação nesta aula, juntamente com a introdução de muitos conceitos importantes, os quais você irá aprender a programar nas próximas aulas.
|
||||
|
||||
## Linguística computacional
|
||||
|
||||
Linguística computacional é uma área de pesquisa e desenvolvimento que vem aumentando ao longo das décadas e estuda como computadores podem trabalhar e comunicar com linguagens, traduzir, e até entendê-las. O processamento de linguagem natural (PLN) é um campo relacionado à linguística computacional que foca em como computadores podem processar linguagens 'naturais' ou humanas.
|
||||
|
||||
### Exemplo - transcrição de voz no celular
|
||||
|
||||
Se você já usou o recurso de transcrição de voz ao invés de escrever ou fez uma pergunta para uma assistente virtual, sua fala foi convertida para o formato textual e então ela foi processada ou *parseada* (teve a sintaxe analisada). As palavras-chave detectadas então são processadas em um formato que o celular ou a assistente possa entender e agir.
|
||||
|
||||
![compreensão](../images/comprehension.png)
|
||||
> Compreensão de linguagem de verdade é difícil! Imagem por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
> Tradução:
|
||||
> Mulher: Mas o que você quer? Frango? Peixe? Patê?
|
||||
> Gato: Miau
|
||||
|
||||
### Como essa tecnologia é possível?
|
||||
|
||||
Ela é possível porque alguém escreveu um programa de computador para fazer isto. Algumas décadas atrás, escritores de ficção científica previram que as pessoas iriam falar majoritariamente com seus computadores, e que computadores sempre conseguiriam entender exatamente o que elas queriam dizer. Infelizmente, isto mostrou-se mais difícil do que muitos imaginavam, e apesar de hoje ser um problema muito melhor compreendido, ainda existem desafios significativos para alcançar o processamento de linguagem natural 'perfeito' no que tange a entender o significado de uma frase/oração. Este é um problema particularmente difícil quando é preciso entender humor ou detectar emoções como sarcasmo em uma frase.
|
||||
|
||||
Agora, você pode estar se lembrando das aulas da escola onde o professor fala sobre a gramática de uma oração. Em alguns países, estudantes aprendem gramática e linguística em uma matéria dedicada, mas, em muitos, estes tópicos são incluídos como parte do aprendizado da linguagem: ou sua primeira linguagem na pré-escola (aprendendo a ler e escrever) e talvez a segunda linguagem no ensino fundamental ou médio. Contudo, não se preocupe se você não é experiente em diferenciar substantivos de verbos ou advérbios de adjetivos!
|
||||
|
||||
Se você tem dificuldade com a diferença entre o *presente do indicativo* e o *gerúndio*, você não está sozinho(a). Esta é uma tarefa desafiadora para muitas pessoas, mesmo falantes nativos de uma língua. A boa notícia é que computadores são ótimos em aplicar regras formais, e você vai aprender a escrever código que pode *parsear* (analisar a sintaxe) uma frase tão bem quanto um humano. A maior dificuldade que você irá encontrar é entender o *significado* e o *sentimento* de uma frase.
|
||||
|
||||
## Pré-requisitos
|
||||
|
||||
Para esta aula, o pré-requisito principal é conseguir ler e entender a linguagem. Não existem equações ou problemas da matemática para resolver. Enquanto o autor original escreveu esta aula em inglês, ela também será traduzida em outras línguas (como em português!), então você pode estar lendo uma tradução. Existem exemplos onde diferentes linguagens são usadas (como comparar regras gramaticais entre diferentes linguagens). Elas *não* são traduzidas, mas o texto que as explica sim, então o significado fica claro.
|
||||
|
||||
Para as tarefas de programação, você irá usar Python. Os exemplos a seguir usam Python 3.8.
|
||||
|
||||
Nesta seção, você vai precisar:
|
||||
|
||||
- **Entender Python 3**. Entender a linguagem Python 3, esta aula usa input (entrada), loops (iteração), leitura de arquivos, arrays (vetores).
|
||||
- **Visual Studio Code + extensão**. Nós iremos utilizar o Visual Studio Code e sua extensão de Python, mas você pode usar a IDE Python de sua preferência.
|
||||
- **TextBlob**. [TextBlob](https://github.com/sloria/TextBlob) é uma biblioteca de processamento de texto simplificada para Python. Siga as instruções no site do TextBlob para instalá-lo no seu sistema (instale o corpora também, como mostrado abaixo):
|
||||
|
||||
```bash
|
||||
pip install -U textblob
|
||||
python -m textblob.download_corpora
|
||||
```
|
||||
|
||||
> 💡 Dica: Você pode rodar Python diretamente nos ambientes (environments) do VS Code. Veja a [documentação](https://code.visualstudio.com/docs/languages/python?WT.mc_id=academic-15963-cxa) para mais informações.
|
||||
|
||||
## Falando com máquinas
|
||||
|
||||
A história de tentar fazer computadores entender a linguagem humana é de décadas atrás, e um dos primeiros cientistas a considerar o processamento de linguagem natural foi *Alan Turing*.
|
||||
|
||||
### O 'Teste de Turing'
|
||||
|
||||
Quando Turing estava pesquisando *inteligência artificial* na década de 1950, ele imaginou um caso onde um teste de conversação digitada que poderia ser dado para um humano e um computador, onde o humano na conversa não conseguiria ter certeza de que ele estava falando com outro humano ou um computador.
|
||||
|
||||
Se o humano não pudesse determinar se as respostas foram dadas por um computador ou não depois de um certo período de conversa, poderíamos dizer que computador está *pensando*?
|
||||
|
||||
### A inspiração - 'o jogo da imitação'
|
||||
|
||||
A ideia do teste veio de um jogo de festa chamado *O Jogo da Imitação* (The Imitation Game), onde um interrogador está sozinho em um cômodo e tem a tarefa de determinar qual de duas pessoas (em outro cômodo) é o homem e qual é a mulher. O interrogador pode mandar notas, e precisa tentar pensar em questões onde as respostas escritas revelam o gênero da pessoa misteriosa. Obviamente, os jogadores na outra sala estão tentando enganar o interrogador ao responder questões de forma confusa/enganosa, ao mesmo tempo em que aparentam dar respostas sinceras.
|
||||
|
||||
### Desenvolvendo Eliza
|
||||
|
||||
Nos anos 1960, um cientista do MIT chamado *Joseph Weizenbaum* desenvolveu [*Eliza*](https://wikipedia.org/wiki/ELIZA), um computador 'terapeuta' que fazia perguntas ao humano e aparentava entender suas respostas. No entanto, enquanto Eliza conseguia parsear e identificar certas construções gramaticais e palavras-chave para conseguir responder de forma razoável, não podemos dizer que ele conseguia *entender* a frase. Se Eliza fosse apresentado com uma sequência de sentenças seguindo o formato "**Eu estou** <u>triste</u>" ele podia rearranjar e substituir palavras na sentença para formar a resposta "Há quanto tempo **você está** <u>triste</u>?".
|
||||
|
||||
Isso dá a impressão de que Eliza entendeu a afirmação e fez uma pergunta subsequente, enquanto na realidade, o computador mudou a conjugação verbal e adicionou algumas palavras. Se Eliza não conseguisse identificar uma palavra-chave que já tem uma resposta pronta, ele daria uma resposta aleatória que pode ser aplicada em diversas afirmações do usuário. Eliza podia ser facilmente enganado, por exemplo, quando um usuário escrevia "**Você é** uma <u>bicicleta</u>", a resposta dada poderia ser "Há quanto tempo **eu sou** uma <u>bicicleta</u>?", ao invés de uma resposta mais razoável.
|
||||
|
||||
[![Conversando com Eliza](https://img.youtube.com/vi/RMK9AphfLco/0.jpg)](https://youtu.be/RMK9AphfLco "Chatting with Eliza")
|
||||
|
||||
> 🎥 Clique na imagem abaixo para ver um video sobre o programa original ELIZA
|
||||
|
||||
> Nota: Você pode ler a descrição original de [Eliza](https://cacm.acm.org/magazines/1966/1/13317-elizaa-computer-program-for-the-study-of-natural-language-communication-between-man-and-machine/abstract) publicada em 1966 se você tem uma conta ACM. Alternativamente, leia sobre Eliza na [wikipedia](https://wikipedia.org/wiki/ELIZA)
|
||||
|
||||
## Exercício - programando um bot de conversação básico
|
||||
|
||||
Um bot de conversação, como Eliza, é um programa que obtém o input do usuário e parece entender e responder de forma inteligente. Diferentemente de Eliza, nosso bot não vai ter diversas regras dando a aparência de uma conversação inteligente. Ao invés disso, nosso bot tem uma única habilidade, a de continuar a conversação com respostas aleatórias que podem funcionar em qualquer conversação trivial.
|
||||
|
||||
### O plano
|
||||
|
||||
Seus passos quando estiver construindo um bot de conversação:
|
||||
|
||||
1. Imprima instruções indicando como o usuário pode interagir com o bot
|
||||
2. Comece um loop (laço)
|
||||
1. Aceite o input do usuário
|
||||
2. Se o usuário pedir para sair, então sair
|
||||
3. Processar o input do usuário e determinar resposta (neste caso, a resposta é uma escolha aleatória de uma lista de possíveis respostas genéricas)
|
||||
4. Imprima a resposta
|
||||
3. Voltar para o passo 2 (continuando o loop/laço)
|
||||
|
||||
### Construindo o bot
|
||||
|
||||
Agora, vamos criar o bot. Iremos começar definindo algumas frases.
|
||||
|
||||
> Nota da tradutora: em função da política de contribuição da Microsoft, todos os códigos foram mantidos em inglês. No entanto, é possível encontrar traduções abaixo deles para ajudar no entendimento. Para não estender muito o arquivo, somente algumas partes foram traduzidas, então sintam-se convidados a pesquisar em tradutores/dicionários.
|
||||
|
||||
1. Crie este bot em Python com as seguintes respostas:
|
||||
|
||||
```python
|
||||
random_responses = ["That is quite interesting, please tell me more.",
|
||||
"I see. Do go on.",
|
||||
"Why do you say that?",
|
||||
"Funny weather we've been having, isn't it?",
|
||||
"Let's change the subject.",
|
||||
"Did you catch the game last night?"]
|
||||
```
|
||||
> A lista de respostas genéricas inclui frases como "Isso é bem interessante, por favor me conte mais." e "O tempo esses dias está bem doido, né?"
|
||||
|
||||
Aqui estão alguns outputs de exemplo para te guiar (as entradas do usuário se iniciam com `>`):
|
||||
|
||||
```output
|
||||
Hello, I am Marvin, the simple robot.
|
||||
You can end this conversation at any time by typing 'bye'
|
||||
After typing each answer, press 'enter'
|
||||
How are you today?
|
||||
> I am good thanks
|
||||
That is quite interesting, please tell me more.
|
||||
> today I went for a walk
|
||||
Did you catch the game last night?
|
||||
> I did, but my team lost
|
||||
Funny weather we've been having, isn't it?
|
||||
> yes but I hope next week is better
|
||||
Let's change the subject.
|
||||
> ok, lets talk about music
|
||||
Why do you say that?
|
||||
> because I like music!
|
||||
Why do you say that?
|
||||
> bye
|
||||
It was nice talking to you, goodbye!
|
||||
```
|
||||
> O bot se apresenta e dá instruções de como o usuário deve interagir. A conversa é iniciada pelo bot, que pergunta "Como você está hoje?". O usuário diz "Estou bem, valeu", ao que o bot responde "Isso é bem interessante, por favor me conte mais.". A conversa continua por mais alguns diálogos.
|
||||
|
||||
Uma solução possível para a tarefa está [aqui](../solution/bot.py)
|
||||
|
||||
✅ Pare e pense
|
||||
|
||||
1. Você acha que respostas aleatórias seriam capazes de fazer uma pessoa achar que o bot realmente entendeu que ela disse?
|
||||
2. Quais recursos/funções o bot precisaria ter para ser mais convincente?
|
||||
3. Se um bot pudesse 'entender' facilmente o significado de uma frase, ele também precisaria se 'lembrar' do significado de frases anteriores?
|
||||
|
||||
---
|
||||
|
||||
## 🚀Desafio
|
||||
|
||||
Escolha um dos elementos do "pare e considere" acima e tente implementá-lo em código ou escreva uma solução no papel usando pseudocódigo.
|
||||
|
||||
Na próxima aula, você irá aprender sobre algumas outras abordagens de análise sintática de linguagem natural e de aprendizado de máquina.
|
||||
|
||||
## [Teste pós-aula](https://white-water-09ec41f0f.azurestaticapps.net/quiz/32?loc=br)
|
||||
|
||||
## Revisão & Autoestudo
|
||||
|
||||
Dê uma olhada nas referências abaixo e talvez até as considere como oportunidade de leitura futura.
|
||||
|
||||
### Referências
|
||||
|
||||
1. Schubert, Lenhart, "Computational Linguistics", *The Stanford Encyclopedia of Philosophy* (Spring 2020 Edition), Edward N. Zalta (ed.), URL = <https://plato.stanford.edu/archives/spr2020/entries/computational-linguistics/>.
|
||||
2. Princeton University "About WordNet." [WordNet](https://wordnet.princeton.edu/). Princeton University. 2010.
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Procure por um bot](assignment.pt-br.md)
|
@ -0,0 +1,11 @@
|
||||
# Procure por um bot
|
||||
|
||||
## Instruções
|
||||
|
||||
Bots estão em todos os lugares. Sua tarefa: encontrar um e analisá-lo! Você pode encontrá-los em web sites, aplicações de bancos, e no celular, por exemplo, quando entra em contato com bancos em busca de ajuda ou informação sobre sua conta. Analise o bot e veja se você consegue confundi-lo. Se você conseguir, por qual motivo você acha que isto aconteceu? Escreva um pequeno artigo sobre sua experiência.
|
||||
|
||||
## Rubrica
|
||||
|
||||
| Critério | Exemplar | Adequado | Precisa melhorar |
|
||||
| -------- | ------------------------------------------------------------------------------------------------------------- | -------------------------------------------- | --------------------- |
|
||||
| | Um artigo de uma página completa foi escrito, explicando a suposta arquitetura do bot e resumindo sua experiência com ele | O artigo está incompleto ou mal pesquisado | Nenhum artigo foi feito |
|
@ -0,0 +1,220 @@
|
||||
# Técnicas e tarefas frequentes do Processamento de Linguagem Natural
|
||||
|
||||
Para a maioria das tarefas de *processamento de linguagem natural*, o texto a ser processado precisa ser quebrado em partes e examinado, e os resultados precisam ser guardados ou cruzados com regras e data sets. Estas tarefas permitem que o programador obtenha _significado_, _intencionalidade_ ou a _frequência_ de termos e palavras em um texto.
|
||||
|
||||
## [Teste pré-aula](https://white-water-09ec41f0f.azurestaticapps.net/quiz/33?loc=br)
|
||||
|
||||
Vamos descobrir técnicas frequentemente usadas no processamento de texto. Combinadas com aprendizado de máquina, estas técnicas ajudam você a analisar grandes quantidades de texto com eficiência. Contudo, antes de aplicar o aprendizado de máquina para estas tarefas, vamos entender os problemas enfrentados por um especialista de PLN (ou NLP).
|
||||
|
||||
## Tarefas frequentes para o PLN
|
||||
|
||||
Existem diferentes formas de analisar um texto em que você está trabalhando. Existem algumas tarefas que você pode executar e através destas você pode obter um entendimento melhor do texto e chegar a conclusões. Você geralmente as realiza em uma sequência.
|
||||
|
||||
### Tokenização
|
||||
|
||||
Provavelmente a primeira coisa que a maioria dos algoritmos de PLN precisa é fazer um split (quebra) do texto em tokens, que, na prática, são palavras. Apesar de parecer simples, considerar pontuação e delimitadores de palavras e orações de diferentes linguagens pode ser trabalhoso. Você pode ter que usar vários métodos para determinar os delimitadores.
|
||||
|
||||
![tokenização](../images/tokenization.png)
|
||||
> Tokenizando uma frase de **Orgulho e preconceito**. Infográfico por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
### Embeddings
|
||||
|
||||
[Word embeddings](https://wikipedia.org/wiki/Word_embedding) (em português, podemos dizer vetores de palavras - apesar de o termo mais comum ser word embeddings) são uma forma de converter seus dados textuais em dados numéricos. Os embeddings são feitos de tal forma que as palavras com significado parecido ou palavras usadas em conjunto ficam agrupadas em clusters.
|
||||
|
||||
![word embeddings](../images/embedding.png)
|
||||
> "I have the highest respect for your nerves, they are my old friends." - Word embeddings de uma frase em **Orgulho e Preconceito**. Infográfico por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
✅ Tente esta [ferramenta interessante](https://projector.tensorflow.org/) para experimentar com word embeddings. Clicar em uma palavra mostra o cluster (agrupamento) de palavras parecidas: 'brinquedo' está agrupado com 'disney', 'lego', 'playstation', e 'console'.
|
||||
|
||||
### Parsing & Marcação de Partes da Fala (Part of Speech Tagging - POS)
|
||||
|
||||
Toda palavra tokenizada pode ser marcada como parte da fala - um substantivo, verbo, ou adjetivo. A frase `A rápida raposa pula por cima do preguiçoso cão marrom` pode ser marcada com partes da fala da seguinte forma: raposa = substantivo, pula = verbo.
|
||||
|
||||
![parsing/análise sintática](../images/parse.png)
|
||||
|
||||
> Parseando/analisando sintaticamente uma frase de **Orgulho e Preconceito**. Infográfico por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
Parsear é reconhecer quais palavras se relacionam entre si em uma frase - por exemplo, `A rápida raposa pula` é uma sequência com adjetivo-substantivo-verbo que difere da sequência `preguiçoso cão marrom`.
|
||||
|
||||
### Frequência de palavras e frases
|
||||
|
||||
Um procedimento útil ao analisar um texto grande é construir um dicionário com toda palavra/frase de interesse e com a frequência ela aparece. A frase `A rápida raposa pula por cima do preguiçoso cão marrom` tem uma frequência de 1 para a palavra raposa.
|
||||
|
||||
Vamos observar um exemplo de texto onde contamos a frequência de palavras. O poema The Winners de Rudyard Kipling contém o seguinte verso:
|
||||
|
||||
> O poema não foi traduzido, porém, basta observar as frequências.
|
||||
|
||||
```output
|
||||
What the moral? Who rides may read.
|
||||
When the night is thick and the tracks are blind
|
||||
A friend at a pinch is a friend, indeed,
|
||||
But a fool to wait for the laggard behind.
|
||||
Down to Gehenna or up to the Throne,
|
||||
He travels the fastest who travels alone.
|
||||
```
|
||||
|
||||
Dependendo do caso, pode ser necessário que a frequência de expressões considere variações de letras maiúsculas e minúsculas (case sensitive) ou não (case insensitive). Se desconsiderarmos a diferença entre maiúsculas e minúsculas, a expressão `a friend` possui frequência de 2 no poema e `the` tem frequência de 6, e a de `travels` é 2.
|
||||
|
||||
### N-gramas
|
||||
|
||||
Um texto pode ser dividido em sequências de palavras de certo tamanho, uma única palavra (unigrama), duas palavras (bigrama), três palavras (trigrama) ou qualquer número de palavras (n-gramas).
|
||||
|
||||
Por exemplo, `A rápida raposa pula por cima do preguiçoso cão marrom` com um n-grama de tamanho 2 produz os seguintes n-gramas:
|
||||
|
||||
1. a rápida
|
||||
2. rápida raposa
|
||||
3. raposa pula
|
||||
4. pula por
|
||||
5. por cima
|
||||
6. cima do
|
||||
7. do preguiçoso
|
||||
8. preguiçoso cão
|
||||
9. cão marrom
|
||||
|
||||
Pode ser mais fácil visualizar o n-grama como uma caixa que desliza sobre a frase. Aqui está um exemplo dos n-gramas de 3 palavras, o n-grama está em negrito em cada frase:
|
||||
|
||||
A rápida raposa pula por cima do preguiçoso cão marrom
|
||||
|
||||
1. <u>**A rápida raposa**</u> pula por cima do preguiçoso cão marrom
|
||||
2. A **<u>rápida raposa pula</u>** por cima do preguiçoso cão marrom
|
||||
3. A rápida **<u>raposa pula por</u>** cima do preguiçoso cão marrom
|
||||
4. A rápida raposa **<u>pula por cima</u>** do preguiçoso cão marrom
|
||||
5. A rápida raposa pula **<u>por cima do</u>** preguiçoso cão marrom
|
||||
6. A rápida raposa pula por **<u>cima do preguiçoso</u>** cão marrom
|
||||
7. A rápida raposa pula por cima **<u>do preguiçoso cão</u>** marrom
|
||||
8. A rápida raposa pula por cima do **<u>preguiçoso cão marrom</u>**
|
||||
|
||||
![janela deslizante do n-gramas](../images/n-grams.gif)
|
||||
|
||||
> N-grama de tamanho 3: Infográfico por [Jen Looper](https://twitter.com/jenlooper)
|
||||
|
||||
### Extração de sujeito e objeto
|
||||
|
||||
Na maioria das frases, existe um substantivo que é o sujeito ou o objeto da oração. Em português (e em inglês também), geralmente é possível identificá-los por serem precedidos por palavras como "a(s)" e "o(s)". Identificar o sujeito ou o objeto de uma oração é uma tarefa comum em PLN quando o objetivo é entender o significado de uma frase.
|
||||
|
||||
✅ Nas frases "Não sei precisar a hora, ou o lugar, ou o olhar, ou as palavras que lançaram as bases. Faz muito tempo. Eu já estava no meio antes de me dar conta de que havia começado.", você consegue identificar os sujeitos e os objetos?
|
||||
|
||||
Na frase `A rápida raposa pula por cima do preguiçoso cão marrom` existem dois substantivos **raposa** e **cão**, que, respectivamente, são sujeito e objeto.
|
||||
|
||||
### Análise de sentimento
|
||||
|
||||
Uma frase ou texto pode ser analisado para encontrar sentimento, ou avaliar o quão *positivo* ou *negativo* é. Sentimento é medido em *polaridade* e *objetividade/subjetividade*. Polaridade é medida de -1.0 a 1.0 (negativo a positivo) e objetividade/subjetividade é medida de 0.0 a 1.0 (mais objetivo a mais subjetivo).
|
||||
|
||||
✅ Mais tarde você irá aprender que existem diferentes formas de se determinar sentimento usando aprendizado de máquina (machine learning), mas um jeito de fazer é ter uma lista de palavras e frases categorizadas como positivas ou negativas por um especialista humano e aplicar este modelo ao texto para calcular a pontuação da polaridade. Você consegue perceber como isso poderia funcionar melhor em alguns casos e pior em outros?
|
||||
|
||||
### Inflexão/flexão
|
||||
|
||||
A inflexão/flexão é a variação de uma palavra. Exemplos incluem flexão de número (singular/plural), gênero (feminino/masculino) e grau (aumentativo/diminutivo).
|
||||
|
||||
### Lematização
|
||||
|
||||
Um *lema* é uma palavra (ou conjunto de palavras) que é raiz ou termo base, como, por exemplo, *voa*, *voou*, *voando* são variações (lexemas) do verbo *voar*.
|
||||
|
||||
Também existem databases úteis disponíveis para pesquisadores de PLN, particularmente:
|
||||
|
||||
### WordNet
|
||||
|
||||
[WordNet](https://wordnet.princeton.edu/) é uma database de palavras, sinônimos, antônimos e muitos outros detalhes para todas as palavras em muitas linguagens diferentes. É incrivelmente útil quando estamos tentando construir tradutores, verificadores de ortografia ou ferramentas de linguagem de qualquer tipo.
|
||||
|
||||
## Bibliotecas de PLN
|
||||
|
||||
Por sorte, você não precisa criar estas técnicas por si só, já que existem excelentes bibliotecas de Python disponíveis, que tornam o PLN muito mais acessível para desenvolvedores que não são especializados em processamento de linguagem natural ou machine learning. As próximas aulas incluem mais exemplos delas, mas aqui você irá aprender alguns exemplos úteis para te ajudar na próxima tarefa.
|
||||
|
||||
### Exercício - usando a biblioteca `TextBlob`
|
||||
|
||||
Iremos utilizar uma biblioteca chamada TextBlob, pois ela contém APIs convenientes para lidar com esse tipo de tarefa. O TextBlob "se apoia nos ombros dos gigantes [NLTK](https://nltk.org) e [pattern](https://github.com/clips/pattern), e funciona bem com ambos". Existe uma quantidade considerável de aprendizado de máquina embutido em sua API.
|
||||
|
||||
> Nota: Um guia inicial ([Quick Start](https://textblob.readthedocs.io/en/dev/quickstart.html#quickstart)) está disponível para o TextBlob e é recomendado para desenvolvedores Python.
|
||||
|
||||
Quando estiver tentando identificar *sujeitos e objetos*, o TextBlob oferece diversas opções de extratores para encontrar ambos.
|
||||
|
||||
1. Obeserve o `ConllExtractor`.
|
||||
|
||||
```python
|
||||
from textblob import TextBlob
|
||||
from textblob.np_extractors import ConllExtractor
|
||||
# import and create a Conll extractor to use later
|
||||
extractor = ConllExtractor()
|
||||
|
||||
# later when you need a noun phrase extractor:
|
||||
user_input = input("> ")
|
||||
user_input_blob = TextBlob(user_input, np_extractor=extractor) # note non-default extractor specified
|
||||
np = user_input_blob.noun_phrases
|
||||
```
|
||||
|
||||
> O que está acontecendo aqui? O [ConllExtractor](https://textblob.readthedocs.io/en/dev/api_reference.html?highlight=Conll#textblob.en.np_extractors.ConllExtractor) é "um extrator de sujeito e objeto que usa parsing/análise sintática de chunks, e é treinado com o ConLL-2000 training corpus." O nome ConLL-2000 é em referência à conferência 2000 Conference on Computational Natural Language Learning. Todo ano a conferência sedia um workshop para lidar com um problema difícil de NLP e, em 2000, foi o noun phrase chunking (divisão da frase em subcomponentes - como substantivos e verbos). Um modelo foi treinado no Wall Street Journal, com "seções 15-18 como dados de treino (211727 tokens) e a seção 20 como dados de teste (47377 tokens)". Você pode ver os procedimentos utilizados [aqui](https://www.clips.uantwerpen.be/conll2000/chunking/) e os resultados [aqui](https://ifarm.nl/erikt/research/np-chunking.html).
|
||||
|
||||
### Desafio - melhorando seu bot com PLN
|
||||
|
||||
Na aula anterior você construiu um bot de perguntas e respostas bastante simples. Agora, você vai fazer Marvin um pouco mais simpático ao analisar seu input em busca do sentimento e imprimindo a resposta de forma a combinar com ele. Você também vai precisar identificar um `sujeito ou objeto` e perguntar sobre.
|
||||
|
||||
Seus passos quando estiver construindo um bot de conversação são:
|
||||
|
||||
1. Imprima instruções indicando como o usuário pode interagir com o bot
|
||||
2. Comece um loop (laço)
|
||||
1. Aceite o input do usuário
|
||||
2. Se o usuário pedir para sair, então sair
|
||||
3. Processar o input do usuário e determinar resposta adequada de acordo com o sentimento expressado no input
|
||||
4. Se um sujeito ou objeto for identificado no sentimento, torne o bot mais variado e pergunte por mais inputs sobre aquele tópico
|
||||
5. Imprima a resposta
|
||||
3. Voltar para o passo 2 (continuando o loop/laço)
|
||||
|
||||
|
||||
Aqui está um trecho de código que determina o sentimento usando TextBlob. Note que só existem quatro *gradientes* de resposta a sentimento (você pode ter mais, se quiser):
|
||||
|
||||
> É feita uma divisão por valor de polaridade. Se estiver no intervalo, retorna respostas correspondentes: "Nossa, isso parece terrível", "Hmm, isso não parece muito bom", "Bom, isso parece positivo" e "Uau, isso soa ótimo"
|
||||
|
||||
```python
|
||||
if user_input_blob.polarity <= -0.5:
|
||||
response = "Oh dear, that sounds bad. "
|
||||
elif user_input_blob.polarity <= 0:
|
||||
response = "Hmm, that's not great. "
|
||||
elif user_input_blob.polarity <= 0.5:
|
||||
response = "Well, that sounds positive. "
|
||||
elif user_input_blob.polarity <= 1:
|
||||
response = "Wow, that sounds great. "
|
||||
```
|
||||
|
||||
Aqui estão alguns outputs de exemplo para te guiar (input do usuário está nas linhas que começam com >):
|
||||
|
||||
```output
|
||||
Hello, I am Marvin, the friendly robot.
|
||||
You can end this conversation at any time by typing 'bye'
|
||||
After typing each answer, press 'enter'
|
||||
How are you today?
|
||||
> I am ok
|
||||
Well, that sounds positive. Can you tell me more?
|
||||
> I went for a walk and saw a lovely cat
|
||||
Well, that sounds positive. Can you tell me more about lovely cats?
|
||||
> cats are the best. But I also have a cool dog
|
||||
Wow, that sounds great. Can you tell me more about cool dogs?
|
||||
> I have an old hounddog but he is sick
|
||||
Hmm, that's not great. Can you tell me more about old hounddogs?
|
||||
> bye
|
||||
It was nice talking to you, goodbye!
|
||||
```
|
||||
|
||||
Uma possível resposta para a tarefa está [aqui](../solution/bot.py)
|
||||
|
||||
✅ Checagem de conhecimento
|
||||
|
||||
1. Você acha que respostas simpáticas conseguiriam convencer uma pessoa a achar que o bot realmente entendeu o que ela disse?
|
||||
2. Será que identificar sujeito e objeto tornam o bot mais convincente?
|
||||
3. Porque você acha que extrair o sujeito e o objeto de uma oração é algo útil a se fazer?
|
||||
|
||||
---
|
||||
|
||||
|
||||
## 🚀Desafio
|
||||
|
||||
Implemente o bot discutido acima da seção checagem de conhecimento e teste-o em amigos. O bot consegue enganá-los? Você consegue fazer seu bot mais convincente?
|
||||
|
||||
## [Teste pós-aula](https://white-water-09ec41f0f.azurestaticapps.net/quiz/34?loc=br)
|
||||
|
||||
## Revisão & Autoestudo
|
||||
|
||||
Nas próximas aulas você vai aprender mais sobre análise de sentimento. Pesquise sobre esta técnica interessante em artigos como estes no [KDNuggets](https://www.kdnuggets.com/tag/nlp).
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Faça um bot responder](assignment.pt-br.md)
|
@ -0,0 +1,11 @@
|
||||
# Faça um bot responder
|
||||
|
||||
## Instruções
|
||||
|
||||
Nas últimas aulas, você programou um simples bot de conversação. Ele retorna mensagens aleatórias até você dizer 'bye' (tchau). Você consegue fazer as respostas menos aleatórias e acionar certas respostas se você disser coisas específicas, como 'porque' ou 'como'? Pense um pouco sobre como o machine learning pode fazer este tipo de tarefa menos manual enquanto você melhora seu bot. Você pode usar as bibliotecas NLTK ou TextBlob para fazer seu trabalho mais fácil.
|
||||
|
||||
## Rubrica
|
||||
|
||||
| Critério | Exemplar | Adequado | Precisa melhorar |
|
||||
| -------- | --------------------------------------------- | ------------------------------------------------ | ----------------------- |
|
||||
| | Um novo arquivo bot.py foi apresentado e documentado | Um novo arquivo com bot foi apresentado, porém, contém bugs | Nenhum arquivo foi criado |
|
@ -0,0 +1,24 @@
|
||||
# Iniciando com Processamento de Linguagem Natural
|
||||
|
||||
O processamento de Linguagem Natural (PLN) ou, em inglês, Natural Language Processing (NLP) é a habilidade de um programa de computador entender linguagem humana da maneira falada e escrita -- o que são referidas como linguagem natural. É um componente da inteligência artificial (IA). O PLN já existe há mais de 50 anos e possui raízes no campo da linguística, que é todo direcionado a ajudar máquinas a entender e processar a linguagem humana. Isto pode então ser usado para realizar tarefas como verificação de ortografia ou tradução. Existe uma variedade de aplicações do mundo real em muitos campos, como em pesquisa médica, ferramentas de busca e inteligência de negócio.
|
||||
|
||||
## Tópico regional: línguas europeias e literatura, e hotéis da Europa ❤️
|
||||
|
||||
Nesta seção do currículo, você vai aprender mais sobre uma das formas mais difundidas do aprendizado de máquina (machine learning): Processamento de Linguagem Natural (PLN). Vinda da linguística computacional, esta categoria de inteligência artificial é a ponte entre humanos e máquinas através de comunicação de voz ou textual.
|
||||
|
||||
Nessas aulas, iremos aprender os fundamentos do PLN ao construir simples bots de conversação para entender como o aprendizado de máquina ajuda a tornar essas conversas mais e mais 'inteligentes'. Você vai viajar para o passado, conversando com Elizabeth Bennett e Mr. Darcy do livro clássico de Jane Austen, **Orgulho e Preconceito**, publicado em 1813. Então, você aumentará seu conhecimento ao aprender sobre análise de sentimentos por meio de avaliações de hotéis da Europa.
|
||||
|
||||
![Livro Orgulho e Preconceito, e chá](../images/p&p.jpg)
|
||||
> Foto por <a href="https://unsplash.com/@elaineh?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Elaine Howlin</a> em <a href="https://unsplash.com/s/photos/pride-and-prejudice?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
|
||||
|
||||
## Aulas
|
||||
|
||||
1. [Introdução ao Processamento de Linguagem Natural](../1-Introduction-to-NLP/translations/README.pt-br.md)
|
||||
2. [Técnicas e tarefas frequentes do Processamento de Linguagem Natural](../2-Tasks/translations/README.pt-br.md)
|
||||
3. [Translation and sentiment analysis with machine learning](../3-Translation-Sentiment/README.md) (ainda não traduzido)
|
||||
4. [Preparing your data](../4-Hotel-Reviews-1/README.md) (ainda não traduzido)
|
||||
5. [NLTK for Sentiment Analysis](../5-Hotel-Reviews-2/README.md) (ainda não traduzido)
|
||||
|
||||
## Créditos
|
||||
|
||||
Essas aulas de processamento de linguagem natural foram escritas com ☕ por [Stephen Howell](https://twitter.com/Howell_MSFT)
|
Loading…
Reference in new issue