java - 如何在 Java 中读取字符直到某一特定字符?

标签 java file char external-sorting

我想从文件中读取几个单词。我没有找到任何方法来执行此操作,因此我决定逐个字符地读取,但我需要在空格处停下来将读取的单词存储在数组中,然后转到下一个。

我正在制作一个外部排序应用程序,这就是为什么我有内存限制,在这种情况下,我不能只使用 readLine() 然后使用 split() ,我需要控制我所读的内容。

read() 方法返回一个int,我不知道我可以对 read() 方法返回一个 < strong>char 并在空格后停止阅读。

这是我到目前为止的代码:

protected static String [] readWords(String arqName, int amountOfWords) throws IOException {
    FileReader arq = new FileReader(arqName);
    BufferedReader lerArq = new BufferedReader(arq);

    String[] words = new String[amountOfWords];

    for (int i = 0; i < amountOfWords; i++){
        //words[i] = lerArq.read();
    }

    return words;
}

编辑1:我使用了扫描仪next()方法,它有效。扫描仪的初始化位于Main。

static String [] readWords(int amountOfWords, Scanner leitor) throws IOException {
    String[] words= new String[amountOfWords];

    for (int i = 0; i < amountOfWords; i++){
        words[i] = leitor.next();
    }

    return words;
}

最佳答案

也许这会有帮助。

使用read()没有问题。只需将结果转换到一个角色即可:

...
for (int i = 0; i < memTam; i++) {
      // this should work. you will get the actual character
      int current = lerArq.read();
      if (current != -1) {
          char c = (char) current;
          // then you can do what you need with this character
      }
}
...

该方法以 0 到 65535 范围内的整数形式返回读取的字符,如果已到达流末尾,则返回 -1。

我不会添加很多关于编码、如何在 Java 中完成等的理论,因为我不知道一些非常低级的细节。我对其工作原理有一个基本的高级理解。

键盘上的每个键都有一个与之关联的数字。您键入的每个字符都可以转换为十进制数字。例如,A 变为数字 65。这是一个标准,并且得到全局认可。

在这一点上,我希望您能同意 read() 方法返回一个数字而不是实际字符并不奇怪:)

有一种叫做 ASCII 表的东西,它代表键盘上所有键的所有代码(数字)。

这里只是为了展示 ot 的外观:

Dec  Char                           Dec  Char     Dec  Char     Dec  Char
---------                           ---------     ---------     ----------
  0  NUL (null)                      32  SPACE     64  @         96  `
  1  SOH (start of heading)          33  !         65  A         97  a
  2  STX (start of text)             34  "         66  B         98  b
  3  ETX (end of text)               35  #         67  C         99  c
  4  EOT (end of transmission)       36  $         68  D        100  d
  5  ENQ (enquiry)                   37  %         69  E        101  e
  6  ACK (acknowledge)               38  &         70  F        102  f
  7  BEL (bell)                      39  '         71  G        103  g
  8  BS  (backspace)                 40  (         72  H        104  h
  9  TAB (horizontal tab)            41  )         73  I        105  i
 10  LF  (NL line feed, new line)    42  *         74  J        106  j
 11  VT  (vertical tab)              43  +         75  K        107  k
 12  FF  (NP form feed, new page)    44  ,         76  L        108  l
 13  CR  (carriage return)           45  -         77  M        109  m
 14  SO  (shift out)                 46  .         78  N        110  n
 15  SI  (shift in)                  47  /         79  O        111  o
 16  DLE (data link escape)          48  0         80  P        112  p
 17  DC1 (device control 1)          49  1         81  Q        113  q
 18  DC2 (device control 2)          50  2         82  R        114  r
 19  DC3 (device control 3)          51  3         83  S        115  s
 20  DC4 (device control 4)          52  4         84  T        116  t
 21  NAK (negative acknowledge)      53  5         85  U        117  u
 22  SYN (synchronous idle)          54  6         86  V        118  v
 23  ETB (end of trans. block)       55  7         87  W        119  w
 24  CAN (cancel)                    56  8         88  X        120  x
 25  EM  (end of medium)             57  9         89  Y        121  y
 26  SUB (substitute)                58  :         90  Z        122  z
 27  ESC (escape)                    59  ;         91  [        123  {
 28  FS  (file separator)            60  <         92  \        124  |
 29  GS  (group separator)           61  =         93  ]        125  }
 30  RS  (record separator)          62  >         94  ^        126  ~
 31  US  (unit separator)            63  ?         95  _        127  DEL

所以,假设您有一个包含一些文本的 .txt 文件 - 所有字母都有对应的数字。

ASCII 的问题在于 ASCII 定义了 128 个字符,映射到数字 0-127(所有大写字母、小写字母、0-9 数字和一些其他符号)。

但是世界上还有更多不同的字符/符号(不同的字母表、表情符号等),因此必须有另一种编码系统来表示它们。

它被称为 Unicode。 Unicode 与代码为 0-127 的字符完全相同。但总的来说,Unicode 可以表示更广泛的符号。

在 Java 中,char 数据类型(以及 Character 对象封装的值)基于原始 Unicode 规范,该规范将字符定义为固定宽度16 位实体。您可以在这个javadoc查看更多详细信息。 换句话说,Java中的所有字符串都是用UTF-16表示的。

希望,在这个长篇故事之后,您可以理解为什么在读取时得到数字,但您可以将它们转换为 char 类型。再说一次,这只是一种高层概述。快乐编码:)

关于java - 如何在 Java 中读取字符直到某一特定字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50378257/

相关文章:

file - 在伪分布式模式下以hadoop读写文件

php - 上传文件并显示上传的文件

c# - 字符串 "a"不等于 C# 中的 Char "a"?

python - 过滤一行中有 n 个相等字符的字符串

java - 未定义媒体 - 如何在 Eclipse 中的 PhoneGap 应用程序中启用媒体

Java 运行时 .exec() 不会打开可执行文件

python - 将包含数学问题的文本文件转换为包含这些问题答案的文本文件

c - 有什么办法可以缩短这个 if 语句吗?

java - 如何在JSP..中进行分页?

java - java中的列表字符串列表