我正在使用 Java 读取和处理 UCI Machine Learning Repository 中的一些数据集。 我首先为每个数据集创建一个类并使用特定的类文件。数据集中的每个属性都由所需类型的类中的相应数据成员表示。这种方法一直效果很好,直到没有。归因<10-15。我只是增加或减少了类的数据成员并更改了它们的类型以对新数据集进行建模。我还对功能进行了必要的更改。
问题: 我现在必须处理大量数据集。以这种方式处理具有 >20-30 个属性的人是非常乏味的。我不需要询问。我的数据离散化算法只需要对数据进行 4 次扫描即可对其进行离散化。我的工作在离散化之后就结束了。这里什么是有效的策略?
我希望我能够清楚地陈述我的问题。
最佳答案
一些选项:
- 编写一个代码生成器来读取文件的元数据并生成等效的类文件。
- 不用担心上课;将数据保存在
Object
的数组中或String
并根据需要转换它们。 - 创建一个类,其中包含您需要的所有类型的DataElements集合和子类DataElements,并使用元数据在运行时创建正确的类。里>
关于java - 用Java读取大量数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10485589/