我有一些数据,尺寸是249X250。我使用以下代码来绘制数据:
import numpy as np
import pandas as pd
import matplotlib.pyplot as pl
data = pd.read_excel("sample_data.xlsx")
x = np.arange(data.shape[0])
y = np.arange(data.shape[1])
mask_data = np.ma.masked_outside(data,0,233)
pl.contourf(y,x,mask_data)
pl.colorbar()
情节是这样的:
现在我想删除图右侧的较小补丁,并只想保留最大的补丁。为此,我的逻辑是删除那些连接像素数量小于某个指定阈值的连接像素(为此目的,将其设置为 200)。我怎样才能做到这一点?
最佳答案
本质上,您想要做的是识别图像中的所有对象。这可以使用 scipy 中的 ndimage.measurements.label 来完成。本质上,它在图像中搜索连续的像素组并为它们分配一个标签。然后,您可以循环遍历这些标记的扇区并计算对象的大小(以像素为单位)并在此基础上进行过滤。
即使您从 Excel 中提取数据,您实际上拥有的只是正在绘制的 249x250 像素“图像”。 Excel 中的每个单元格实际上都是一个包含值的“像素”。为了说明这一点,您可以完全使用 matplotlib 中的图像显示函数(例如 plt.imshow
)
import matplotlib.pyplot as plt
import numpy as np
from scipy import ndimage
xn = 250
yn = 249
# fake data to illustrate that images are just matrices of values
X = np.stack([np.arange(xn)] * yn)
Y = np.stack([np.arange(yn)] * xn).transpose()
Z = np.sin(3*np.pi * X/xn) * np.cos(4*np.pi * Y/yn) * np.sin(np.pi * X/xn)
Z[Z <.5] = 0
fig,axes = plt.subplots(1,2)
axes[0].contourf(Z)
axes[0].set_title("Before Removing Features")
# now identify the objects and remove those above a threshold
Zlabeled,Nlabels = ndimage.measurements.label(Z)
label_size = [(Zlabeled == label).sum() for label in range(Nlabels + 1)]
for label,size in enumerate(label_size): print("label %s is %s pixels in size" % (label,size))
# now remove the labels
for label,size in enumerate(label_size):
if size < 1800:
Z[Zlabeled == label] = 0
axes[1].contourf(Z)
axes[1].set_title("After Removing Features")
关于python - 消除小于某个指定数量阈值的连接像素数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48013355/