我试图在两个不同的文件中查找中文单词,但它不起作用,所以我尝试在从中获取它们的同一个文件中搜索单词,但似乎也找不到它?这怎么可能?
chin_split = codecs.open("CHIN_split.txt","r+",encoding="utf-8")
二手this正则表达式代码。
import re
for n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read()):
print n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read())
为什么我只打印了false
???
仅供引用,我尝试这样做并且它有效:
for x in [1,2,3,4,5,6,6]:
print x in [1,2,3,4,5,6,6]
顺便说一句
chin_split
包含英语希伯来语和中文单词
来自 chin_split.txt
的一些行:
he daodan 核导弹 טיל גרעיני
hedantou 核弹头 ראש חץ גרעיני
helu 阖庐 "ביתו, מעונו
helu 阖庐 שם מלך וו בתקופת ה'אביב והסתיו'"
huiwu 会晤 להיפגש עם
最佳答案
您多次读取文件描述符,这是错误的。
第一个 chin_split.read()
将产生所有内容,但其他内容(循环内)只会得到一个空字符串。
该循环没有意义,但如果您想保留它,请先将文件内容保存在变量中。
关于python - 为什么我在原始来源列表中找不到这些单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12121617/