java - 检测阿拉伯语标记中的重复字符

标签 java arabic

我需要您在以下方面提供帮助:

如何检测标记中的重复字符,例如:

如果我有这句话: 搜索结果 搜索结果 搜索结果 搜索结果 搜索结果 搜索结果 搜索结果 搜索结果 搜索结果

我想要一个java代码来检测每个包含重复字符的单词,然后删除它们(重复字符)并更新单词。

所以,我们的句子应该是: 下一篇:没有了 下一篇:

请注意,“Ѓьяййف”一词包含重复的字符“и”,应将其更新为仅“كийف”,而“كר׵ּ”则变为“كר׵ּ”。

我感谢你的帮助。

最佳答案

Lolina,循环没有多大帮助。您听说过正则表达式吗? Java 与 Perl 和 Python 等许多其他语言一样使用它们。我熟悉Python,但正则表达式在所有语言中几乎都有类似的功能。

您现在需要的是阅读 Java 中的正则表达式,尤其是元字符 * 和 + ,它们分别匹配 0 个或多个字符和 1 个或多个字符。

首先尝试编译简单的正则表达式,然后向其中添加额外的内容,以便它们执行您真正想要执行的操作。

最后,正则表达式一开始有点令人困惑,但值得麻烦。请记住,斯坦福阿拉伯语词性标注器使用正则表达式来执行与您尝试执行的操作类似的操作。

我对Java一点也不熟悉,但是在Python中,我会这样做:

>>> import re
>>> p = re.compile('ي+') # The + sign means match at least more than one occurrence of ي 
>>> p.sub('ي', 'كييييييييف نتواصل مع الطلاب')
'كيف نتواصل مع الطلاب'

通常,在阿拉伯语中,我们会重复输入以下三个字母:??、?? 和??。这些是阿拉伯语的元音。您可以为 ili 编译正则表达式并将其删除。然后再编译一份用于 â 的文件,再编译一份用于 œ 的文件。

希望这对您有帮助!

关于java - 检测阿拉伯语标记中的重复字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23289216/

相关文章:

java - 使用 Spring Data JPA 的服务层中的 Crud 方法

sql-server - 全文搜索与阿拉伯语 Kaaf 字母在阿拉伯语模式下不匹配

java - 在java中绘制带有轮廓的文本

c# - urlrewriting.net 不接受阿拉伯语查询字符串

java - 在 System.out 中打印阿拉伯语或其他字符集

java - 如何使您的编辑文本字母数字?安卓例子

java - 使用测试用例数组调用 java 方法

java - OkHttp,Android - 下载 html 页面并在 View 中显示此内容

java - 为什么在 Java 的 Object 类中声明 wait() 和 notify()?

sql - 如何在sql数据库中插入阿拉伯字符?