python - 使用 BS4、Selenium 在 Python 中抓取动态数据并避免重复

标签 python algorithm loops beautifulsoup screen-scraping

我在这里要做的是从不断重新加载信息的动态页面中检索数据。我设置它的方式是它每 60 秒刷新一次。问题是,旧数据不会从页面中删除,因此当程序在刷新后遍历数据时,会出现重复数据。

注意:程序在开始时会休眠,因为最初没有要抓取的消息。

我正在寻找一种方法或解决方案来使用最后一条记录(在本例中为消息[-1])作为搜索的起点,以防止重复。

感谢所有帮助!谢谢。

driver.get(URL)
while 1==1:
    time.sleep(60)
    chat_page = driver.page_source
    chat_soup = BeautifulSoup(chat_page,'lxml')
    messages = chat_soup.findAll('div', attrs={'class':'message first'})
    for message in messages:
        username = message.div.h2.span.strong.text
        text = message.find('div', attrs={'class':'markup'}).get_text()
        timestamp = message.find('span', attrs={'class':'timestamp'}).get_text()
        today = str(datetime.date.today())
        timestamp = timestamp.replace('Today', today)

        usernames.append(username)
        timestamps.append(timestamp)
        texts.append(text)
        print(timestamp, username," : ",text)

我创建了一个临时解决方案,在将每条记录输入我的 SQLite3 数据库之前检查它。该程序能够通过使用“INSERT OR IGNORE”来工作。不幸的是,该程序会不断检查重复项,因为它无法过滤掉已经被抓取的数据。以下是我的临时解决方案:

driver.get(URL)
while 1==1:
    chat_page = driver.page_source
    chat_soup = BeautifulSoup(chat_page,'lxml')
    messages = chat_soup.findAll('div', attrs={'class':'message first'})
    for message in reversed(messages):
        username = message.div.h2.span.strong.text
        usernames.append(username)
        text = message.find('div', attrs={'class':'markup'}).get_text()
        text = text.replace('"', '')
        text = text.replace("'", "")
        username = username.replace('"', '')
        username = username.replace("'", "")
        timestamp = message.find('span', attrs={'class':'timestamp'}).get_text()
        today = str(datetime.date.today())
        timestamp = timestamp.replace('Today', today)
        isbot = message.find('span', attrs={'class':'bot-tag'})
        if (isbot):
            username = '(BOT) ' + username
        sql = '''INSERT OR IGNORE INTO 'chats' ('timestamp', 'username', 'text') VALUES ("%s", "%s", "%s")''' % (timestamp, username, text)
        conn.executescript(sql)

最佳答案

我找到了一个使用 set.difference 的解决方案,效果很好。

在我的问题中,一次存在一定数量的数据(比如说 10 个)。我们希望在没有旧值的情况下获得新值。

 olddata = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
 newdata = [5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
 unique_data = set(newdata).difference(olddata)

=

 {11, 12, 13, 14}

最终工作代码:

while 1==1:
    chat_page = driver.page_source
    chat_soup = BeautifulSoup(chat_page,'lxml')
    messages = chat_soup.findAll('div', attrs={'class':'message first'})
    messages_dedupe = set(messages).difference(oldlist)
    for message in messages_dedupe:
        username = message.div.h2.span.strong.text
        text = message.find('div', attrs={'class':'markup'}).get_text()
        timestamp = message.find('span', attrs={'class':'timestamp'}).get_text()
        today = str(datetime.date.today())
        timestamp = timestamp.replace('Today', today)
        isbot = message.find('span', attrs={'class':'bot-tag'})
        if (isbot):
            username = '(BOT) ' + username
        usernames.append(username)
        timestamps.append(timestamp)
        texts.append(text)
        oldlist = messages
        sqlvalues = (username, timestamp, text)
        c.execute("INSERT OR IGNORE INTO db (username, timestamp, text) VALUES (?, ?, ?)", sqlvalues)
        conn.commit()
        print(timestamp, username,":",text)
    time.sleep(20)

关于python - 使用 BS4、Selenium 在 Python 中抓取动态数据并避免重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41860250/

相关文章:

python - 如何将字符串的长度与同一列表中的整数进行比较?

algorithm - 二进制搜索比较次数

algorithm - 从单个链表中提取中间元素

javascript - 寻找一个 FP 算法来从点分隔的字符串中组成对象

Python:如何重新启动循环遍历 csv 的 FOR 循环

python - 如何从外部站点检查用户是否喜欢 facebook 上的给定页面?

python - 循环使用两个计数器

python - 如何根据列表中的项目请求输入?

python - lxml - 当文件名的值相同时,从循环/迭代 Excel 行中保存 xml 会导致错误

java - 重复程序帮助?