我正在修改CUDA Video Encoder (NVCUVENC) SDK 示例包中的编码示例,因此数据不是来自外部 yuv 文件(如示例中所做的那样),而是来自从纹理填充的 cudaArray。
所以编码帧的关键API方法是:
int NVENCAPI NVEncodeFrame(NVEncoder hNVEncoder, NVVE_EncodeFrameParams *pFrmIn, unsigned long flag, void *pData);
如果我得到正确的参数:
CUdeviceptr dptr_VideoFrame
应该将数据传递给编码。但我真的不明白如何将它与GPU上的一些纹理数据连接起来。示例源代码非常模糊,因为它适用于CPU yuv文件输入。
例如在 main.cpp 中,第 555 -560 行有以下 block :
// If dptrVideoFrame is NULL, then we assume that frames come from system memory, otherwise it comes from GPU memory
// VideoEncoder.cpp, EncodeFrame() will automatically copy it to GPU Device memory, if GPU device input is specified
if (pCudaEncoder->EncodeFrame(efparams, dptrVideoFrame, cuCtxLock) == false)
{
printf("\nEncodeFrame() failed to encode frame\n");
}
所以,从评论来看,似乎 dptrVideoFrame 应该填充来自设备的 yuv 数据以对帧进行编码。但是没有解释如何这样做的地方。 p>
更新:
我想分享一些发现。首先,我设法从帧缓冲区纹理编码数据。现在的问题是输出视频一团糟。
这是想要的结果:
这是我的工作:
在 OpenGL 方面,我有 2 个自定义 FBO - 首先将场景正常渲染到其中。然后使用第一个 FBO 的纹理将屏幕四边形渲染到第二个 FBO 中,执行 RGB -> 在片段着色器中进行 YUV 转换。
附加到第二个 FBO 的纹理被映射到 CUDA 资源。 然后我像这样对当前纹理进行编码:
void CUDAEncoder::Encode(){
NVVE_EncodeFrameParams efparams;
efparams.Height = sEncoderParams.iOutputSize[1];
efparams.Width = sEncoderParams.iOutputSize[0];
efparams.Pitch = (sEncoderParams.nDeviceMemPitch ? sEncoderParams.nDeviceMemPitch : sEncoderParams.iOutputSize[0]);
efparams.PictureStruc = (NVVE_PicStruct)sEncoderParams.iPictureType;
efparams.SurfFmt = (NVVE_SurfaceFormat)sEncoderParams.iSurfaceFormat;
efparams.progressiveFrame = (sEncoderParams.iSurfaceFormat == 3) ? 1 : 0;
efparams.repeatFirstField = 0;
efparams.topfieldfirst = (sEncoderParams.iSurfaceFormat == 1) ? 1 : 0;
if(_curFrame > _framesTotal){
efparams.bLast=1;
}else{
efparams.bLast=0;
}
//----------- get cuda array from the texture resource -------------//
checkCudaErrorsDrv(cuGraphicsMapResources(1,&_cutexResource,NULL));
checkCudaErrorsDrv(cuGraphicsSubResourceGetMappedArray(&_cutexArray,_cutexResource,0,0));
/////////// copy data into dptrvideo frame //////////
// LUMA based on CUDA SDK sample//////////////
CUDA_MEMCPY2D pcopy;
memset((void *)&pcopy, 0, sizeof(pcopy));
pcopy.srcXInBytes = 0;
pcopy.srcY = 0;
pcopy.srcHost= NULL;
pcopy.srcDevice= 0;
pcopy.srcPitch =efparams.Width;
pcopy.srcArray= _cutexArray;///SOME DEVICE ARRAY!!!!!!!!!!!!! <--------- to figure out how to fill this.
/// destination //////
pcopy.dstXInBytes = 0;
pcopy.dstY = 0;
pcopy.dstHost = 0;
pcopy.dstArray = 0;
pcopy.dstDevice=dptrVideoFrame;
pcopy.dstPitch = sEncoderParams.nDeviceMemPitch;
pcopy.WidthInBytes = sEncoderParams.iInputSize[0];
pcopy.Height = sEncoderParams.iInputSize[1];
pcopy.srcMemoryType=CU_MEMORYTYPE_ARRAY;
pcopy.dstMemoryType=CU_MEMORYTYPE_DEVICE;
// CHROMA based on CUDA SDK sample/////
CUDA_MEMCPY2D pcChroma;
memset((void *)&pcChroma, 0, sizeof(pcChroma));
pcChroma.srcXInBytes = 0;
pcChroma.srcY = 0;// if I uncomment this line I get error from cuda for incorrect value.It does work in CUDA SDK original sample SAMPLE//sEncoderParams.iInputSize[1] << 1; // U/V chroma offset
pcChroma.srcHost = NULL;
pcChroma.srcDevice = 0;
pcChroma.srcArray = _cutexArray;
pcChroma.srcPitch = efparams.Width >> 1; // chroma is subsampled by 2 (but it has U/V are next to each other)
pcChroma.dstXInBytes = 0;
pcChroma.dstY = sEncoderParams.iInputSize[1] << 1; // chroma offset (srcY*srcPitch now points to the chroma planes)
pcChroma.dstHost = 0;
pcChroma.dstDevice = dptrVideoFrame;
pcChroma.dstArray = 0;
pcChroma.dstPitch = sEncoderParams.nDeviceMemPitch >> 1;
pcChroma.WidthInBytes = sEncoderParams.iInputSize[0] >> 1;
pcChroma.Height = sEncoderParams.iInputSize[1]; // U/V are sent together
pcChroma.srcMemoryType = CU_MEMORYTYPE_ARRAY;
pcChroma.dstMemoryType = CU_MEMORYTYPE_DEVICE;
checkCudaErrorsDrv(cuvidCtxLock(cuCtxLock, 0));
checkCudaErrorsDrv( cuMemcpy2D(&pcopy));
checkCudaErrorsDrv( cuMemcpy2D(&pcChroma));
checkCudaErrorsDrv(cuvidCtxUnlock(cuCtxLock, 0));
//=============================================
// If dptrVideoFrame is NULL, then we assume that frames come from system memory, otherwise it comes from GPU memory
// VideoEncoder.cpp, EncodeFrame() will automatically copy it to GPU Device memory, if GPU device input is specified
if (_encoder->EncodeFrame(efparams, dptrVideoFrame, cuCtxLock) == false)
{
printf("\nEncodeFrame() failed to encode frame\n");
}
checkCudaErrorsDrv(cuGraphicsUnmapResources(1, &_cutexResource, NULL));
// computeFPS();
if(_curFrame > _framesTotal){
_encoder->Stop();
exit(0);
}
_curFrame++;
}
我从 CUDA SDK 编码器示例中包含的 .cfg 文件中设置编码器参数。因此,我在这里使用 704x480-h264.cfg 设置。我尝试了所有这些参数,并且总是得到同样丑陋的结果。
我怀疑问题出在 CUDA_MEMCPY2D 中,用于亮度和色度对象参数设置。可能是错误的间距、宽度、高度尺寸。我将视口(viewport)设置为与视频 (704,480) 相同的大小,并将参数与 CUDA 中使用的参数进行比较SDK 示例,但不知道问题出在哪里。 任何人 ?
最佳答案
首先:我搞砸了 Cuda Video Encoder,遇到了很多麻烦。但在我看来,好像您将其转换为 Yuv 值,但作为一对一的像素转换(如 AYUV 4:4:4)。 Afaik 您需要具有填充和压缩的正确类型的 YUV(多个像素的颜色值,例如 4:2:0)。可以在这里看到 YUV 对齐的一个很好的概述:
http://msdn.microsoft.com/en-us/library/windows/desktop/dd206750(v=vs.85).aspx
据我所知,Cuda 编码器必须使用 NV12 对齐。
关于c++ - 来自设备纹理阵列的 NVIDIA CUDA 视频编码器 (NVCUVENC) 输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15210776/