javascript - 你如何用空格和标点符号分割 javascript 字符串?

标签 javascript regex split

我有一些随机字符串,例如:你好,我叫约翰。。我希望将该字符串拆分成这样的数组:Hello,,,,my,name,is,john,.,。我尝试了 str.split(/[^\w\s]|_/g),但它似乎不起作用。有什么想法吗?

最佳答案

在任何非单词字符上拆分 str 即不是 A-Z、0-9 和下划线。

var words=str.split(/\W+/);  // assumes str does not begin nor end with whitespace

或者,假设您的目标语言是英语,您可以使用以下方法从字符串中提取所有语义有用的值(即“标记化”字符串):

var str='Here\'s a (good, bad, indifferent, ...) '+
        'example sentence to be used in this test '+
        'of English language "token-extraction".',

    punct='\\['+ '\\!'+ '\\"'+ '\\#'+ '\\$'+   // since javascript does not
          '\\%'+ '\\&'+ '\\\''+ '\\('+ '\\)'+  // support POSIX character
          '\\*'+ '\\+'+ '\\,'+ '\\\\'+ '\\-'+  // classes, we'll need our
          '\\.'+ '\\/'+ '\\:'+ '\\;'+ '\\<'+   // own version of [:punct:]
          '\\='+ '\\>'+ '\\?'+ '\\@'+ '\\['+
          '\\]'+ '\\^'+ '\\_'+ '\\`'+ '\\{'+
          '\\|'+ '\\}'+ '\\~'+ '\\]',

    re=new RegExp(     // tokenizer
       '\\s*'+            // discard possible leading whitespace
       '('+               // start capture group
         '\\.{3}'+            // ellipsis (must appear before punct)
       '|'+               // alternator
         '\\w+\\-\\w+'+       // hyphenated words (must appear before punct)
       '|'+               // alternator
         '\\w+\'(?:\\w+)?'+   // compound words (must appear before punct)
       '|'+               // alternator
         '\\w+'+              // other words
       '|'+               // alternator
         '['+punct+']'+        // punct
       ')'                // end capture group
     );

// grep(ary[,filt]) - filters an array
//   note: could use jQuery.grep() instead
// @param {Array}    ary    array of members to filter
// @param {Function} filt   function to test truthiness of member,
//   if omitted, "function(member){ if(member) return member; }" is assumed
// @returns {Array}  all members of ary where result of filter is truthy
function grep(ary,filt) {
  var result=[];
  for(var i=0,len=ary.length;i++<len;) {
    var member=ary[i]||'';
    if(filt && (typeof filt === 'Function') ? filt(member) : member) {
      result.push(member);
    }
  }
  return result;
}

var tokens=grep( str.split(re) );   // note: filter function omitted 
                                     //       since all we need to test 
                                     //       for is truthiness

产生:


tokens=[ 
  'Here\'s',
  'a',
  '(',
  'good',
  ',',
  'bad',
  ',',
  'indifferent',
  ',',
  '...',
  ')',
  'example',
  'sentence',
  'to',
  'be',
  'used',
  'in',
  'this',
  'test',
  'of',
  'English',
  'language',
  '"',
  'token-extraction',
  '"',
  '.'
]

编辑

也可用作 Github Gist

关于javascript - 你如何用空格和标点符号分割 javascript 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6162600/

相关文章:

javascript - 删除 JavaScript 中不需要的空格和逗号

javascript - 循环数组中的值

javascript - 如何在表格单元格(td)上使用 Bootstrap 的下拉菜单?

javascript - Google API 示例未加载

从通配符构建 Java 正则表达式

Java Pattern.matcher(StringBuffer),为什么它的行为与 Pattern.matcher(String) 不同?

javascript - Facebook API : How can i get mutual friends sharing a same link in wall?

javascript - 使用状态切换 CSS 类

regex - 如何评估一个IP?

python - 将列表列表拆分为更小的列表