Python用list或dict字段模式读取文件的方法

2024-03-05 13:23:04 224

前言

Python用于处理文本数据绝对是个利器，极为简单的读取、分割、过滤、转换支持，使得开发者不需要考虑繁杂的流文件处理过程（相对于JAVA来说的，嘻嘻）。博主自己工作中，一些复杂的文本数据处理计算，包括在HADOOP上编写Streaming程序，均是用Python完成。

而在文本处理的过程中，将文件加载内存中是第一步，这就涉及到怎样将文件中的某一列映射到具体的变量的过程，最最愚笨的方法，就是按照字段的下标进行引用，比如这样子：

#fields是读取了一行，并且按照分隔符分割之后的列表
user_id=fields[0]
user_name=fields[1]
user_type=fields[2]

如果按照这种方式读取，一旦文件有顺序、增减列的变动，代码的维护是个噩梦，这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据，都是先配置字段模式，然后按照模式读取，而模式则有字典模式和列表模式两种形式；

读取文件，按照分隔符分割成字段数据列表

首先读取文件，按照分隔符分割每一行的数据，返回字段列表，以便后续处理。

代码如下：

defread_file_data(filepath):
'''根据路径按行读取文件,参数filepath：文件的绝对路径
@paramfilepath:读取文件的路径
@return:按\t分割后的每行的数据列表
'''
fin=open(filepath,'r')
forlineinfin:
try:
line=line[:-1]
ifnotline:continue
except:
continue

try:
fields=line.split("\t")
except:
continue
#抛出当前行的分割列表
yieldfields
fin.close()

使用yield关键字，每次抛出单个行的分割数据，这样在调度程序中可以用forfieldsinread_file_data(fpath)的方式读取每一行。

映射到模型之方法1：使用配置好的字典模式，装配读取的数据列表

这种方法配置一个{“字段名”:字段位置}的字典作为数据模式，然后按照该模式装配读取的列表数据，最后实现用字典的方式访问数据。

所使用的函数：

@staticmethod
defmap_fields_dict_schema(fields,dict_schema):
"""根据字段的模式，返回模式和数据值的对应值；例如fields为['a','b','c'],schema为{'name':0,'age':1}，那么就返回{'name':'a','age':'b'}
@paramfields:包含有数据的数组，一般是通过对一个LineString通过按照\t分割得到
@paramdict_schema:一个词典，key是字段名称，value是字段的位置；
@return:词典，key是字段名称，value是字段值
"""
pdict={}
forfstr,findexindict_schema.iteritems():
pdict[fstr]=str(fields[int(findex)])
returnpdict

有了该方法和之前的方法，可以用以下的方式读取数据：

#coding:utf8
"""
@author:www.crazyant.net
测试使用字典模式加载数据列表
优点：对于多列文件，只通过配置需要读取的字段，就能读取对应列的数据
缺点：如果字段较多，每个字段的位置配置，较为麻烦
"""
importfile_util
importpprint

#配置好的要读取的字典模式，可以只配置自己关心的列的位置
dict_schema={"userid":0,"username":1,"usertype":2}
forfieldsinfile_util.FileUtil.read_file_data("userfile.txt"):
#将字段列表，按照字典模式进行映射
dict_fields=file_util.FileUtil.map_fields_dict_schema(fields,dict_schema)
pprint.pprint(dict_fields)

输出结果：

{'userid':'1','username':'name1','usertype':'0'}
{'userid':'2','username':'name2','usertype':'1'}
{'userid':'3','username':'name3','usertype':'2'}
{'userid':'4','username':'name4','usertype':'3'}
{'userid':'5','username':'name5','usertype':'4'}
{'userid':'6','username':'name6','usertype':'5'}
{'userid':'7','username':'name7','usertype':'6'}
{'userid':'8','username':'name8','usertype':'7'}
{'userid':'9','username':'name9','usertype':'8'}
{'userid':'10','username':'name10','usertype':'9'}
{'userid':'11','username':'name11','usertype':'10'}
{'userid':'12','username':'name12','usertype':'11'}

映射到模型之方法2：使用配置好的列表模式，装配读取的数据列表

如果需要读取文件所有列，或者前面的一些列，那么配置字典模式优点复杂，因为需要给每个字段配置索引位置，并且这些位置是从0开始完后数的，属于低级劳动，需要消灭。

列表模式应命运而生，先将配置好的列表模式转换成字典模式，然后按字典加载就可以实现。

转换模式，以及用按列表模式读取的代码：

@staticmethod
deftransform_list_to_dict(para_list):
"""把['a','b']转换成{'a':0,'b':1}的形式
@parampara_list:列表，里面是每个列对应的字段名
@return:字典，里面是字段名和位置的映射
"""
res_dict={}
idx=0
whileidx<len(para_list):
res_dict[str(para_list[idx]).strip()]=idx
idx+=1
returnres_dict

@staticmethod
defmap_fields_list_schema(fields,list_schema):
"""根据字段的模式，返回模式和数据值的对应值；例如fields为['a','b','c'],schema为{'name','age'}，那么就返回{'name':'a','age':'b'}
@paramfields:包含有数据的数组，一般是通过对一个LineString通过按照\t分割得到
@paramlist_schema:列名称的列表list
@return:词典，key是字段名称，value是字段值
"""
dict_schema=FileUtil.transform_list_to_dict(list_schema)
returnFileUtil.map_fields_dict_schema(fields,dict_schema)

使用的时候，可以用列表的形式配置模式，不需要配置索引更加简洁：

#coding:utf8
"""
@author:www.crazyant.net
测试使用列表模式加载数据列表
优点：如果读取所有列，用列表模式只需要按顺序写出各个列的字段名就可以
缺点：不能够只读取关心的字段，需要全部读取
"""
importfile_util
importpprint

#配置好的要读取的列表模式，只能配置前面的列，或者所有咧
list_schema=["userid","username","usertype"]
forfieldsinfile_util.FileUtil.read_file_data("userfile.txt"):
#将字段列表，按照字典模式进行映射
dict_fields=file_util.FileUtil.map_fields_list_schema(fields,list_schema)
pprint.pprint(dict_fields)

运行结果和字典模式的完全一样。

file_util.py全部代码

以下是file_util.py中的全部代码，可以放在自己的公用类库中使用

#-*-encoding:utf8-*-
'''
@author:www.crazyant.net
@version:2014-12-5
'''

classFileUtil(object):
'''文件、路径常用操作方法
'''
@staticmethod
defread_file_data(filepath):
'''根据路径按行读取文件,参数filepath：文件的绝对路径
@paramfilepath:读取文件的路径
@return:按\t分割后的每行的数据列表
'''
fin=open(filepath,'r')
forlineinfin:
try:
line=line[:-1]
ifnotline:continue
except:
continue

try:
fields=line.split("\t")
except:
continue
#抛出当前行的分割列表
yieldfields
fin.close()

@staticmethod
deftransform_list_to_dict(para_list):
"""把['a','b']转换成{'a':0,'b':1}的形式
@parampara_list:列表，里面是每个列对应的字段名
@return:字典，里面是字段名和位置的映射
"""
res_dict={}
idx=0
whileidx<len(para_list):
res_dict[str(para_list[idx]).strip()]=idx
idx+=1
returnres_dict

@staticmethod
defmap_fields_list_schema(fields,list_schema):
"""根据字段的模式，返回模式和数据值的对应值；例如fields为['a','b','c'],schema为{'name','age'}，那么就返回{'name':'a','age':'b'}
@paramfields:包含有数据的数组，一般是通过对一个LineString通过按照\t分割得到
@paramlist_schema:列名称的列表list
@return:词典，key是字段名称，value是字段值
"""
dict_schema=FileUtil.transform_list_to_dict(list_schema)
returnFileUtil.map_fields_dict_schema(fields,dict_schema)

@staticmethod
defmap_fields_dict_schema(fields,dict_schema):
"""根据字段的模式，返回模式和数据值的对应值；例如fields为['a','b','c'],schema为{'name':0,'age':1}，那么就返回{'name':'a','age':'b'}
@paramfields:包含有数据的数组，一般是通过对一个LineString通过按照\t分割得到
@paramdict_schema:一个词典，key是字段名称，value是字段的位置；
@return:词典，key是字段名称，value是字段值
"""
pdict={}
forfstr,findexindict_schema.iteritems():
pdict[fstr]=str(fields[int(findex)])
returnpdict

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用python能有一定的帮助，如果有疑问大家可以留言交流。

Python用list或dict字段模式读取文件的方法

热门推荐

随机推荐