def get_tokens(string):
for char in string:
if not char.isalpha():
string = string.replace(char," ")
tokens=string.lower()
tokens=list(string.split(" "))
tokens=' '.join(list(string.split(" "))).split()
return tokens
str1="Hello, my name is Julie3467#$#$!"
print(get_tokens(str1))
当前输出:['Hello', 'my', 'name', 'is', 'Julie']
目标:['你好'、'我的'、'名字'、'是'、'朱莉']
最佳答案
问题出在这里:
tokens=string.lower()
tokens=list(string.split(" "))
您将字符串转换为小写,然后立即丢弃该结果,返回到原始字符串,并拆分该行。
相反,分割lower
的结果:
tokens=list(string.lower().split(" "))
更新: 另请注意奥斯汀的评论;原理是一样的:覆盖上一条语句的结果。
关于python - 如何在列表中将大写字母转换为小写字母?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58698719/