nabu.processing.convolution_cuda

[docs] module nabu.processing.convolution_cuda
from os.path importdirnamefrom warnings importwarnimport numpy as npfrom ..utils importfirst_dict_item,updiv,get_cuda_srcfilefrom ..misc.utils importConvolutionInfosfrom ..cuda.processing importCudaProcessingclass Convolution:[docs]
    """    A class for performing convolution on GPU with CUDA, but without using    textures (unlike for example in ``silx.opencl.convolution``)    """def __init__(self,shape,kernel,axes=None,mode=None,extra_options=None,cuda_options=None):        """        Constructor of Cuda Convolution.        Parameters        -----------        shape: tuple            Shape of the array.        kernel: array-like            Convolution kernel (1D, 2D or 3D).        axes: tuple, optional            Axes along which the convolution is performed,            for batched convolutions.        mode: str, optional            Boundary handling mode. Available modes are:               - "reflect": cba|abcd|dcb               - "nearest": aaa|abcd|ddd               - "wrap": bcd|abcd|abc               - "constant": 000|abcd|000            Default is "reflect".        extra_options: dict, optional            Advanced options (dict). Current options are:               - "allocate_input_array": True               - "allocate_output_array": True               - "allocate_tmp_array": True               - "sourcemodule_kwargs": {}               - "batch_along_flat_dims": True        """self.cuda=CudaProcessing(**(cuda_optionsor{}))self._configure_extra_options(extra_options)self._determine_use_case(shape,kernel,axes)self._allocate_memory(mode)self._init_kernels()def _configure_extra_options(self,extra_options):self.extra_options={"allocate_input_array":True,"allocate_output_array":True,"allocate_tmp_array":True,"sourcemodule_kwargs":{},"batch_along_flat_dims":True,}extra_opts=extra_optionsor{}self.extra_options.update(extra_opts)self.sourcemodule_kwargs=self.extra_options["sourcemodule_kwargs"]def _get_dimensions(self,shape,kernel):self.shape=shapeself.data_ndim=self._check_dimensions(shape=shape,name="Data")self.kernel_ndim=self._check_dimensions(arr=kernel,name="Kernel")Nx=shape[-1]ifself.data_ndim>=2:Ny=shape[-2]else:Ny=1ifself.data_ndim>=3:Nz=shape[-3]else:Nz=1self.Nx=np.int32(Nx)self.Ny=np.int32(Ny)self.Nz=np.int32(Nz)def _determine_use_case(self,shape,kernel,axes):        """        Determine the convolution use case from the input/kernel shape, and axes.        """self._get_dimensions(shape,kernel)ifself.kernel_ndim>self.data_ndim:raiseValueError("Kernel dimensions cannot exceed data dimensions")data_ndim=self.data_ndimkernel_ndim=self.kernel_ndimself.kernel=kernel.astype("f")convol_infos=ConvolutionInfos()k=(data_ndim,kernel_ndim)ifknotinconvol_infos.use_cases:raiseValueError("Cannot find a use case for data ndim = %d and kernel ndim = %d"%(data_ndim,kernel_ndim))possible_use_cases=convol_infos.use_cases[k]# If some dimensions are "flat", make a batched convolution along them# Ex. data_dim = (1, Nx) -> batched 1D convolutionifself.extra_options["batch_along_flat_dims"]and(1inself.shape):axes=tuple([curr_dimfornumels,curr_diminzip(self.shape,range(len(self.shape)))ifnumels!=1])#self.use_case_name=Noneforuc_name,uc_paramsinpossible_use_cases.items():ifaxesinconvol_infos.allowed_axes[uc_name]:self.use_case_name=uc_nameself.use_case_desc=uc_params["name"]self.use_case_kernels=uc_params["kernels"].copy()ifself.use_case_nameisNone:raiseValueError("Cannot find a use case for data ndim = %d, kernel ndim = %d and axes=%s"%(data_ndim,kernel_ndim,str(axes)))# TODO implement this use caseifself.use_case_name=="batched_separable_2D_1D_3D":raiseNotImplementedError("The use case %s is not implemented"%self.use_case_name)#self.axes=axes# Replace "axes=None" with an actual value (except for ND-ND)allowed_axes=convol_infos.allowed_axes[self.use_case_name]iflen(allowed_axes)>1:# The default choice might impact perfsself.axes=allowed_axes[0]orallowed_axes[1]self.separable=self.use_case_name.startswith("separable")self.batched=self.use_case_name.startswith("batched")def _allocate_memory(self,mode):self.mode=modeor"reflect"# The current implementation does not support kernel size bigger than data size,# except for mode="nearest"fori,dim_sizeinenumerate(self.shape):ifmin(self.kernel.shape)>dim_sizeandiinself.axes:warn("Warning: kernel support is too large for data dimension %d (%d). Forcing convolution mode to 'nearest'"%(i,dim_size),Warning,)self.mode="nearest"#option_array_names={"allocate_input_array":"data_in","allocate_output_array":"data_out","allocate_tmp_array":"data_tmp",}# Nonseparable transforms do not need tmp arrayifnot(self.separable):self.extra_options["allocate_tmp_array"]=False# Allocate arraysforoption_name,array_nameinoption_array_names.items():ifself.extra_options[option_name]:value=self.cuda.allocate_array("value",self.shape,np.float32)else:value=Nonesetattr(self,array_name,value)ifisinstance(self.kernel,np.ndarray):self.d_kernel=self.cuda.to_device("d_kernel",self.kernel)else:ifnot(isinstance(self.kernel,self.cuda.array_class)):raiseTypeError("kernel must be either numpy array or cupy array")self.d_kernel=self.kernelself._old_input_ref=Noneself._old_output_ref=Noneself._c_modes_mapping={"periodic":2,"wrap":2,"nearest":1,"replicate":1,"reflect":0,"constant":3,}mp=self._c_modes_mappingifself.mode.lower()notinmp:raiseValueError(                """                Mode %s is not available. Available modes are:                %s                """%(self.mode,str(mp.keys())))ifself.mode.lower()=="constant":raiseNotImplementedError("mode='constant' is not implemented yet")self._c_conv_mode=mp[self.mode]def _init_kernels(self):ifself.kernel_ndim>1:# noqa: SIM102ifnp.abs(np.diff(self.kernel.shape)).max()>0:raiseNotImplementedError("Non-separable convolution with non-square kernels is not implemented yet")# Compile source modulefname=get_cuda_srcfile("convolution.cu")nabu_cuda_dir=dirname(fname)compile_options=(f"-DUSED_CONV_MODE={self._c_conv_mode}",f"-I{nabu_cuda_dir}")self.sourcemodule_kwargs["options"]=compile_options# Blocks, gridself._block_size={1:(32,1,1),2:(32,32,1),3:(16,8,8)}[self.data_ndim]# TODO tuneself._n_blocks=tuple([int(updiv(a,b))fora,binzip(self.shape[::-1],self._block_size)])# Prepare cuda kernel callsself.cuda_kernels={}foraxis,kern_nameinenumerate(self.use_case_kernels):self.cuda_kernels[axis]=self.cuda.kernel(kern_name,filename=fname,**self.sourcemodule_kwargs)# Cuda kernel argumentskernel_args=[None,# input placeholderNone,# output placeholderself.d_kernel,np.int32(self.kernel.shape[0]),self.Nx,self.Ny,self.Nz,]ifself.kernel_ndim==2:kernel_args.insert(3,np.int32(self.kernel.shape[1]))ifself.kernel_ndim==3:kernel_args.insert(3,np.int32(self.kernel.shape[2]))kernel_args.insert(4,np.int32(self.kernel.shape[1]))self.kernel_args=tuple(kernel_args)self.kernel_kwargs={"grid":self._n_blocks,"block":self._block_size}# If self.data_tmp is allocated, separable transforms can be performed# by a series of batched transforms, without any copy, by swapping refs.self.swap_pattern=Noneifself.separable:ifself.data_tmpisnotNone:self.swap_pattern={2:[("data_in","data_tmp"),("data_tmp","data_out")],3:[("data_in","data_out"),("data_out","data_tmp"),("data_tmp","data_out"),],}else:raiseNotImplementedError("For now, data_tmp has to be allocated")def _get_swapped_arrays(self,i):        """        Get the input and output arrays to use when using a "swap pattern".        Swapping refs enables to avoid copies between temp. array and output.        For example, a separable 2D->1D convolution on 2D data reads:          data_tmp = convol(data_input, kernel, axis=1) # step i=0          data_out = convol(data_tmp, kernel, axis=0) # step i=1        :param i: current step number of the separable convolution        """n_batchs=len(self.axes)in_ref,out_ref=self.swap_pattern[n_batchs][i]d_in=getattr(self,in_ref)d_out=getattr(self,out_ref)returnd_in,d_outdef _configure_kernel_args(self,cuda_kernel_args,input_ref,output_ref):# TODO more elegantifinput_refisnotNoneoroutput_refisnotNone:cuda_kernel_args=list(cuda_kernel_args)ifinput_refisnotNone:cuda_kernel_args[0]=input_refifoutput_refisnotNone:cuda_kernel_args[1]=output_refcuda_kernel_args=tuple(cuda_kernel_args)returncuda_kernel_args@staticmethoddef _check_dimensions(arr=None,shape=None,name="",dim_min=1,dim_max=3):ifshapeisnotNone:ndim=len(shape)elifarrisnotNone:ndim=arr.ndimelse:raiseValueError("Please provide either arr= or shape=")ifndim<dim_minorndim>dim_max:raiseValueError("%s dimensions should be between %d and %d"%(name,dim_min,dim_max))returnndimdef _check_array(self,arr):ifnot(isinstance(arr,self.cuda.array_class)orisinstance(arr,np.ndarray)):# noqa: SIM101raiseTypeError("Expected either cupy or numpy.ndarray")ifarr.dtype!=np.float32:raiseTypeError("Data must be float32")ifarr.shape!=self.shape:raiseValueError("Expected data shape = %s"%str(self.shape))def _set_arrays(self,array,output=None):# Either copy H->D or update references.ifisinstance(array,np.ndarray):self.data_in[:]=array[:]else:self._old_input_ref=self.data_inself.data_in=arraydata_in_ref=self.data_inifoutputisnotNone:# noqa: SIM102ifnot(isinstance(output,np.ndarray)):self._old_output_ref=self.data_outself.data_out=output# Update Cuda kernel arguments with new array referencesself.kernel_args=self._configure_kernel_args(self.kernel_args,data_in_ref,self.data_out)def _separable_convolution(self):assertlen(self.axes)==len(self.use_case_kernels)# Separable: one kernel call per data dimensionfori,axisinenumerate(self.axes):in_ref,out_ref=self._get_swapped_arrays(i)self._batched_convolution(axis,input_ref=in_ref,output_ref=out_ref)def _batched_convolution(self,axis,input_ref=None,output_ref=None):# Batched: one kernel call in totalcuda_kernel=self.cuda_kernels[axis]cuda_kernel_args=self._configure_kernel_args(self.kernel_args,input_ref,output_ref)ev=cuda_kernel(*cuda_kernel_args,**self.kernel_kwargs)returnevdef _nd_convolution(self):assertlen(self.use_case_kernels)==1cuda_kernel=first_dict_item(self.use_case_kernels)ev=cuda_kernel(*self.kernel_args,**self.kernel_kwargs)returnevdef _recover_arrays_references(self):ifself._old_input_refisnotNone:self.data_in=self._old_input_refself._old_input_ref=Noneifself._old_output_refisnotNone:self.data_out=self._old_output_refself._old_output_ref=Noneself.kernel_args=self._configure_kernel_args(self.kernel_args,self.data_in,self.data_out)def _get_output(self,output):ifoutputisNone:res=self.data_out.get()else:res=outputifisinstance(output,np.ndarray):output[:]=self.data_out[:]self._recover_arrays_references()returnresdef convolve(self,array,output=None):[docs]
        """        Convolve an array with the class kernel.        :param array: Input array. Can be numpy.ndarray or cupy array        :param output: Output array. Can be numpy.ndarray or cupy array        """self._check_array(array)self._set_arrays(array,output=output)ifself.axesisnotNone:ifself.separable:self._separable_convolution()elifself.batched:assertlen(self.axes)==1self._batched_convolution(self.axes[0])# else: ND-ND convolelse:# ND-ND convolself._nd_convolution()res=self._get_output(output)returnres__call__=convolve