java - 使用 Talend 根据输入的关键字将 HTML 搜索页面提取到 .txt 文件中。如何端到端解析这些数据并将其写入 MySQL?

标签 java mysql parsing talend

添加到标题中:我现在有一个包含两个步骤的工作流程。

1) 我为 input.txt 文件中给定的每个关键字提取 HTML 搜索结果页面。 - 例如:

SAP; 
Business Intelligence;

Talend 保存了这些结果并将它们作为 HTML 写入 keywords_SAP.txtkeywords_Business Intelligence.txt。附件是 talend 工作的图像。

Talend Workflow

2) 我使用 Java 代码导入这些文件(一个接一个)- 使用 JSoup 库从 DOM 结构中解析数据。直接将数据写入 MySQL 数据库。

这是我的问题:目前一切正常,但要求是在未来完全自动化该过程,以便它可以定期在服务器上运行。

因此我想将我的 Java 代码包含在 Talend 中——这让我陷入困境,因为我无法导入 mysql 连接器和 jsoup.jar。

我需要你帮助的地方是建议我如何连接到我现有的 Talend 工作流程 - 或者你可能正在考虑一个更简单的解决方案,我现在还没有想到。

我必须补充一点,我对编码很陌生,在解析和写入数据库方面取得如此大的进步是一个很大的飞跃。在整个过程中有你的帮助,我变得更加自在。我希望你能帮我解决这个问题。预先感谢您抽出宝贵时间。

最佳答案

这可以通过使用 tLoadLibrary 组件并将外部 jar 文件放入 <talendInstallDir>/lib/java 来完成

您可以使用 onSubJobOk 或 onComponentOK 连接来连接到下一个组件。

您的 tLibraryLoad 组件应该是您工作中要做的第一件事。

您还可以在组件 View 的高级属性下的 tJava、tJavaRow 中导入类/方法,然后使用如下内容:

import org.apache.commons.lang3.math.NumberUtils;

导入您需要的特定类(在本例中为 Apache Commons NumberUtils)。

关于java - 使用 Talend 根据输入的关键字将 HTML 搜索页面提取到 .txt 文件中。如何端到端解析这些数据并将其写入 MySQL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24909655/

相关文章:

Java:观察者模式和垃圾收集器

java - 在 Android 中发现标签时如何识别 mifare classic 和 mifare ultralight

php - 防止时段被重复预订

javascript - 如何在javascript中根据外键检索数据

parsing - 组合的解解析器/解析器生成器

java - 将动态 JSON 值解析为 Java 对象

mysql dump - 排除一些表数据和无数据

python - 如何解析文件列表以仅获取 Python 中的文件名?

java - 解析维基媒体标记——基于 EBNF 的解析器不适合吗?

java - 在桌面应用程序中保存用户名和密码