<分区>
我是 AI 新手。我正在开发一个通过机器学习进行文本分类的应用程序。应用程序需要对 HTML 文档的不同部分进行分类。例如,大多数网页都有头部、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对 HTML 文档的这些部分进行分类,并识别页面上不同类型的表单。
- 如果有人能就此主题提供详细指导,那将非常有帮助。
- 类似应用的示例,也会很有帮助。
我正在寻找更多与代码和实现相关的技术建议。
我可以将标签分配给 html 标签属性,例如 class 或 id
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
比如第一项:
TrainClassifier(label: "Menu", value: "menu-1", attribute: "class", position-in-string: "21%", tag: "div");
输入:
- "menu-1"(属性值)
- 列表项
- “类”(属性名)
- "21"(标签在字符串中的位置)
- “div”(标签名称)
输出
- “菜单”(分类为标签)
什么神经网络库,可以接受上述输入,并将它们分类到标签(即菜单)。
所有用户都无法创建正则表达式或 xpath,他们需要更简单的方法,因此重要的是要使软件智能化,用户可以突出显示他/她需要的 html 文档部分,使用 webbrowser 控件,并训练软件直到它可以自己工作。
但我不知道如何使用人工智能让软件训练,
我要找的AI,好像应该是能接受各种输入,然后据此分类,我已经说过了,对AI新手,了解不多。
如果我得到我提出的问题的答案,比如我应该使用什么库,以及如何实现,建议 Xpath 或 Regex 或其他方法的答案请不要回答,这将对我有所帮助,它经常发生你会得到所有的建议,但你需要的那个。