parent
d1b3b68e83
commit
764530e664
@ -1,46 +1,24 @@
|
|||||||
|
import re
|
||||||
MAX_CHARACTER= 200
|
import spacy
|
||||||
|
|
||||||
#working good
|
#working good
|
||||||
def posttextparser(obj):
|
def posttextparser(obj):
|
||||||
text=obj#["thread_post"]
|
|
||||||
newtext=[]
|
|
||||||
# for text in text:
|
|
||||||
if len(text)>MAX_CHARACTER:
|
|
||||||
text2=text.split("\n")
|
|
||||||
for dot in text2:
|
|
||||||
if len(dot)>MAX_CHARACTER:
|
|
||||||
text3=dot.split(".")
|
|
||||||
for comma in text3:
|
|
||||||
if len(comma)> MAX_CHARACTER:
|
|
||||||
text4=comma.split(',')
|
|
||||||
newtext.extend(text4)
|
|
||||||
else:
|
|
||||||
newtext.append(comma)
|
|
||||||
else:
|
|
||||||
newtext.append(dot)
|
|
||||||
else:
|
|
||||||
newtext.append(text)
|
|
||||||
return remover(newtext)
|
|
||||||
|
|
||||||
def remover(List):
|
text=re.sub("\n", "", obj )
|
||||||
reg=['',' ','.','\n',')',"''",'"',"'",'"','""'] #add if any any unwant value found
|
|
||||||
lines=List
|
try:
|
||||||
lines1=[]
|
nlp=spacy.load('en_core_web_sm')
|
||||||
lines2=[]
|
except OSError :
|
||||||
|
|
||||||
for item in lines:
|
print("dev:please dowload the model with this command \npython -m spacy download en")
|
||||||
for r in reg :
|
exit()
|
||||||
if item==r:
|
|
||||||
break
|
|
||||||
else:
|
|
||||||
continue
|
|
||||||
else:
|
|
||||||
lines1.append(item)
|
|
||||||
|
|
||||||
for a in lines1: #Double check
|
doc= nlp(text)
|
||||||
if a!='':
|
|
||||||
aa=a.strip()
|
newtext=[]
|
||||||
lines2.append(aa)
|
|
||||||
# print(f'"{a}"')
|
for line in doc.sents:
|
||||||
return lines2
|
newtext.append(line.text)
|
||||||
|
# print(line)
|
||||||
|
|
||||||
|
return newtext
|
Loading…
Reference in new issue