php - 如何改进我的算法?/在格式化文本中搜索和替换单词/

标签 php string algorithm formatted-text

我有一个 html 源和一组关键字。我试图在关键字数组中找到以任何关键字开头的所有单词,并将其包装在链接标记中。

例如,关键字数组有两个值:[ABC, DEF]。它应该匹配 ABCDEFDEFAD 等,并用超链接标记包装每个单词。

这是我目前得到的代码:

$_keys = array('ABC', 'DEF');
$text = 'Some ABCDD <strong>HTML</strong> text. DEF';

function search_and_replace(($key,$text)
{
    $words = preg_split('/\s+/', trim($text)); //to seprate words in $_text
    for($words as $word) 
    {
        if(strpos($word,$key) !== false)
        {
            if($word.startswith($key)) 
            {
                str_replace($word,'<a href="">'.$word.'</a>,$_text);
            }
        }

    }
    return text;
}


for($_keys as $_key)
{
    $text = search_and_replace($key,$text);
}

我的问题:

  1. 这个算法行得通吗?
  2. 我如何修改它以使用 UTF-8?
  3. 如何识别 html 中的超链接并忽略它们(不想在超链接中放置超链接)。
  4. 这个算法安全吗?

最佳答案

算法“正确”吗?(我读的是“准确”)

不,不是。自 str_replace functions as follows

a string or an array with all occurrences of search in subject replaced with the given replace value.

您正在匹配的字符串不是唯一被替换的字符串。使用你的例子,如果你对你的数据集运行这个函数,你最终会包装每一次出现的 ABC在多个标签中(只需运行您的代码即可查看它,但您必须修复语法错误)。

使用 UTF-8 字母表

不确定,但正如所写,我不这么认为。参见 Preg_Replace and UTF8 . PREG 函数应该是多字节安全的。

我想忽略每个标签中的所有单词以进行搜索操作

这太难了。你必须避免 <a ...>word</a> ,这很快就会把事情搞得一团糟。可靠地匹配 HTML 的正则表达式是徒劳的。

可能最好的方法是将网页解释为 XML 或 HTML。您是否考虑过在 javascript 中执行此操作?为什么在服务器端做? JS 的优势有两个——第一,它在客户端运行,因此你可以卸载/分发工作;第二,由于 DOM 已经被解释,你可以很容易地找到所有文本节点并替换它们。事实上,我正在帮助一个 friend 做 chrome extension to to almost exactly what you're describing ;你可以修改它来轻松地做你正在寻找的事情。

更好的替代方法?

当然。您在这里展示的是执行此操作的最糟糕方法之一。我会插入你使用 preg_replace (另一个答案为您想要的正则表达式提供了一个良好的开端,匹配单词中断而不是空格)但是由于您想避免更改某些元素,我现在认为在 JS 客户端中执行此操作要好得多。

关于php - 如何改进我的算法?/在格式化文本中搜索和替换单词/,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22593749/

相关文章:

php - iOS JSON 错误 : NSDebugDescription=Garbage at end

php - 如何解码这个 JSON 字符串?

regex - 将字符串与 perl 中的模式对齐?

algorithm - 将 N 个不同半径的圆放在一个较大的圆内而不重叠

c# - 从长度为 M 的未排序数组中搜索前 N 个已排序整数?

php - 哪种 Web 开发语言最适合 C 程序员?

php - Yii2 如何在两个不同的路径上传两个文件?

php - 当数据输入不一致时如何查找记录?

c - C中的二维字符数组操作

algorithm - 将 n 人分成 m 组 k 次,重叠最小