python - 无法在具有其他数值和分类变量的数据集中创建基于时间的特征

标签 python time-series featuretools

我希望特征工具根据我在实体集中声明的时间索引和截止时间创建特征。

我有一个包含时间变量以及数值和分类变量的数据集。有一个ITEMID列,每个ITEMID有2到12行数据。

具有开始日期和交易日期等列、各种数字和分类列。给定 ITEMID 的所有行的开始日期都相同,而每行的交易日期不同。

这是实体集的代码

# creating and entity set 
entity_set = ft.EntitySet(id = 'rem_dur')

# adding a dataframe 
entity_set.entity_from_dataframe(entity_id = 'enh', dataframe = dataset, index = 'unique_id'
,,variable_types = {'Start_Date': ft.variable_types.DatetimeTimeIndex})) 

#unique_id is just row number from 1 to number of rows in dataset


entity_set.normalize_entity(base_entity_id='enh', new_entity_id= 'categorical_vars', index = 'ITEMID', 
                             additional_variables = ['cat_var_1', 'cat_var_2'])

###cutoff date 
cutoff_df = dataset[["unique_id", "trans_date"]]
cutoff_df["trans_date"] = pd.to_datetime(cutoff_df["trans_date"])

##feature engg
feature_matrix_2, feature_names_2 = ft.dfs(entityset=entity_set
                                       ,target_entity = 'enh'
                                       ,max_depth = 2
                                       ,verbose = 1 
                                       ,ignore_entities = ['categorical_vars']
                                       ,ignore_variables =ignore_features_dict
                                       ,dask_kwargs={'cluster': cluster}
                                       ,cutoff_time=cutoff_df
                                      ,cutoff_time_in_index=False
                                       )

It's unable to generate any time series features. It's returning just all the features except the ones which are ignored.

最佳答案

创建实体时,需要使用 time_index 参数指示时间索引,而不是指定变量类型。

它应该看起来像这样

entity_set.entity_from_dataframe(entity_id='enh',
                                 dataframe=dataset,
                                 index='unique_id',
                                 time_index="Start_Date") 

关于python - 无法在具有其他数值和分类变量的数据集中创建基于时间的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55496802/

相关文章:

python - 向实体添加变量 - featuretools

python - 具有碰撞对的非碰撞对象,Pymunk Pygame

python - 使用 shapefile 多边形查找一阶邻居

r - 将具有纪元时间戳的数据帧转换为 R 中以毫秒为单位的时间序列

python - Featuretools:即使没有日期时间相关列,它是否可以应用于单个表以生成特征?

python - 在 Featuretools 中创建实体集错误 TypeError : 'str' object does not support item assignment

python - 在 Python 中读取文件

python - django_rest_framwork 发生 "TypeError: ' 链接对象不支持项目分配”

sql - 每天为每个值选择一行

r - r 中 NA 的时间序列的增强迪基富勒检验