search - 寻找易于被搜索引擎索引的唯一 ID 模式

标签 search tags full-text-search search-engine uid

例如来自 Microsoft - “KB2756872” 或来自 National Vulnerability 数据库 - “CVE-2010-1428” 或来自 Red Hat - “RHSA-2010:0376” 或 来自 OID - “1.3.6.1.4.1.311” 或来自 UUID/GUID - “550e8400-e29b-41d4-a716-446655440000”

我想将多个作业放入 UID。看下一个...

我开发博客软件并想在正文中放入唯一 ID 每个帖子都可以轻松识别本地存储中的副本 对应于远程发布的副本。

我还想发布到许多不同的博客服务,所以如果一个 是下文章将可以从另一个访问。所以链接可以 死了,但如果我添加 UID - 任何人都可以尝试网络搜索来查找帖子 另一项服务!

这也允许收集一些文章传播 统计数据。许多网站只是复制内容(文案写作和 重写机器人和人)来破坏搜索引擎。使用 UID 我 可以轻松识别此类网站...

所以我的问题是如何制作 UID(以何种形式) 很容易被搜索引擎(网络,如谷歌/雅虎,和 公司,如 Lucene/Solr/Sphinx/Xapian/等)。

我知道搜索引擎的一些限制,例如:

  • 每个搜索部分只有 >= 3 个字符
  • 它不是像 gfh6wytrh6wu56he5gahj763 这样的索引灰尘

所以这个任务并不容易......

如有任何建议(书籍/博客文章/等),我们将不胜感激。

最佳答案

你可以使用 Tag URIs ,定义为 RFC 4151 .

它们在全局范围内都是独一无二的,任何拥有域名或电子邮件地址至少一天的人都可以类型转换它们。

请注意,这些 URI 仅识别,它们不定位。因此,标签 URI 不会说明内容的发布位置。

假设您网站的域名是“example.com”。如果您创建博客文章,您可以创建以下标签 URI:

tag:example.com,2012-12:cute-cat

请注意,此 URI 中的日期不是发布日期!它必须是您拥有域(resp. 电子邮件地址)的(过去)日期。如果您在 2003 年注册了域,则始终可以使用以 tag:example.com,2004: 开头的标记 URI(不是“2003”,因为“2003”表示“2003-01-01” ,这可能是您还没有拥有该域的时间),后跟一个由您控制的(唯一)字符串。但是,如果您愿意,当然可以随时使用发布日期。但不要使用 future 的日期。

关于search - 寻找易于被搜索引擎索引的唯一 ID 模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13904733/

相关文章:

java - 基于 DFA 的 KMP 实现是否比标准实现更有效?

search - 将旧网站转移到新框架网站并托管后如何修复谷歌搜索引擎优化?

html - 我应该在标记中使用 <p/> 标签吗?

MySQL 全文搜索多列 : result confusion

delphi - 使用 Delphi 获取全文提要

search - solr 搜索多个类别和标签

ios - 如何将数据从搜索栏传递到 UILabel?

c# - 根据数组中的随机项目分配按钮标签

bash - 如何使用bash提取没有标签的网页源代码?

mysql - MySql 全文搜索是否适用于非拉丁语言(希伯来语、阿拉伯语、日语……)