浅谈keras2 predict和fit_generator的坑
1、使用predict时,必须设置batch_size,否则效率奇低。
查看keras文档中,predict函数原型:
predict(self,x,batch_size=32,verbose=0)
说明:
只使用batch_size=32,也就是说每次将batch_size=32的数据通过PCI总线传到GPU,然后进行预测。在一些问题中,batch_size=32明显是非常小的。而通过PCI传数据是非常耗时的。
所以,使用的时候会发现预测数据时效率奇低,其原因就是batch_size太小了。
经验:
使用predict时,必须人为设置好batch_size,否则PCI总线之间的数据传输次数过多,性能会非常低下。
2、fit_generator
说明:keras中fit_generator参数steps_per_epoch已经改变含义了,目前的含义是一个epoch分成多少个batch_size。旧版的含义是一个epoch的样本数目。
如果说训练样本树N=1000,steps_per_epoch=10,那么相当于一个batch_size=100,如果还是按照旧版来设置,那么相当于
batch_size=1,会性能非常低。
经验:
必须明确fit_generator参数steps_per_epoch
补充知识:Keras:创建自己的generator(适用于model.fit_generator),解决内存问题
为什么要使用model.fit_generator?
在现实的机器学习中,训练一个model往往需要数量巨大的数据,如果使用fit进行数据训练,很有可能导致内存不够,无法进行训练。
fit_generator的定义如下:
fit_generator(generator,steps_per_epoch=None,epochs=1,verbose=1,callbacks=None,validation_data=None,validation_steps=None,class_weight=None,max_queue_size=10,workers=1,use_multiprocessing=False,shuffle=True,initial_epoch=0)
其中各项的具体解释,请参考Keras中文文档
我们重点关注的是generator参数:
generator:一个生成器,或者一个Sequence(keras.utils.Sequence)对象的实例,以在使用多进程时避免数据的重复。生成器的输出应该为以下之一:
一个(inputs,targets)元组
一个(inputs,targets,sample_weights)元组。
那么,问题来了,如何构建这个generator呢?有以下几种办法:
自己创建一个generator生成器
自己定义一个Sequence(keras.utils.Sequence)对象
使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory来生成一个generator
1.自己创建一个generator生成器
使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory灵活度不高,只有当数据集满足一定格式(例如,按照分类文件夹存放)或者具备一定条件时,使用才使用才较为方便。
此时,自己创建一个generator就很重要了,关于python的generator是什么原理,怎么使用,就不加赘述,可以查看python的基本语法。
此处,我们用yield来返回数据组,标签组,从而使fit_generator可以调用我们的generator来成批处理数据。
具体实现如下:
defmyGenerator(batch_size): #loadingdata X_train,Y_train=load_data(...) #dataprocessing #................ total_size=X_train.size #batch_sizemeanshowmanydatayouwanttotrainonestep while1: foriinrange(total_size//batch_size): yieldx_train[i*batch_size:(i+1)*batch_size],y[i*batch_size:(i+1)*batch_size] returnmyGenerator
接着你可以调用该生成器:
self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size,epochs=epoch_num)
以上这篇浅谈keras2predict和fit_generator的坑就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。