sql - 搜索查询的水平缩放

标签 sql postgresql hadoop apache-storm

我们正在构建简历评分服务，我们正在使用 Postgres 进行复杂的查询以找到最匹配职位空缺的简历。问题是，我们使用非常复杂的一组启发式方法对 cv 进行评分，并且每个查询要评分的 cvs 的平均数量正在增长。我想将这种负载放在数据库之外，并寻找水平扩展此类负载的现有解决方案。查询应该在几分之一秒内执行，可以有数百个并发查询。每个查询平均得分 10k cvs。每个简历在其当前关系形式下大约有 10 个表中的大约 50 条记录。

我希望集群系统在多个并行进程(在许多服务器上)中运行每个查询并返回聚合结果。它应该是快速和容错的。我一直在寻找 Hadoop，但它看起来像是为批处理而设计的，而不是为实时低延迟负载而设计的。有 Apache Storm，但它是为连续流处理而设计的。所以我不确定 :)

什么样的工具可以满足我的需求？谢谢!

最佳答案

确保您没有重做工作，如果简历已评分，请将其标记为已评分，除非必要，否则不要重新处理。
除非您在 postgres 中对数据进行分区，否则您可能希望这样做。通常并非所有行都需要定期访问。
听起来您想主要扩展读取，在这种情况下，postgres 只读集群可能是一个选项。
看看 Elasticsearch，它旨在进行加权评分、分面等。它还应该可以扩展，不过我自己还没有尝试过。

不过我肯定会从 1 开始，除非必须，否则不要工作。

关于sql - 搜索查询的水平缩放，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30251280/

上一篇：hadoop - Mahout - ParallelALSFactorizationJob 运行时间过长？

下一篇：hadoop - 如何通过从 sqlserver 捕获表来迭代 sqoop 作业？

相关文章：

java - Hive2 JDBC错误

hadoop - org.apache.hadoop.util.PlatformName无法找到或加载主类

hadoop - 当我们在HIVE中添加一个 jar 时会发生什么？

sql - 在 select 中使用 regexp_matches 查询返回空结果集

python - PYMSSQL/SQL Server 2014 : is there a limit to the length of a list of PKs to use as a subquery?

performance - Delphi、PGDac vs Zeos、Fetch、Lookup？

sql - Postgresql 查询 - 每月平均值

postgresql - 选择直到 Postgres 中的行匹配

sql - 如何让 SQL Inner Join 返回第一个条目，如果没有条目则返回空白

c# - 为什么我应该为具体的 DataProvider 类创建接口(interface)

©2024 IT工具网联系我们