python对文件内容的去重

2022-10-05 13:56:11

python对文件内容的去重

文章目录

python对文件内容的去重
前言
实现步骤
总结

前言

很多时候我们获取的数据存在大量重复，重复数据在进一步处理时会降低处理效率，且可能导致错误，因此内容去重是数据处理一个重要步骤。

实现步骤

通过list的set()和sort()函数对于数据进行顺序去重，读取文件夹中的所有文件，生成文件列表，读取文件内容列表，进行去重和按原索引顺序排序。

首先我们需要将所有需要去重的文件列举出来，通过os库的walk()函数可以获取路径下的所有文件和路径名

import osdefall_txt(dir1):
    result=[]for maindir, subdir, file_name_listin os.walk(dir1):#print("1:",maindir)#print("2:",subdir)#print("3:",file_name_list)for filenamein file_name_list:
            apath= os.path.join(maindir, filename)
            result.append(apath)return result

对于文件中的重复项进行去除的方法，我采用的是先把文件内容输出成列表，在通过set()和sort()函数处理从而得到有序的去重列表

defclr(dir1):
    list1=[]withopen(dir1,'r')as f:whileTrue:
            url=f.readline()if url:
                list1.append(url)else:break
    list2=list(set(list1))
    list2.sort(key=list1.index)
    list1=list2
    n=len(list1)withopen(dir1,'w')as f:while n:#print(list1[0])
            f.write(list1[0])
            n=n-1del list1[0]

最后选择需要去重的文件路径就可以了，这样就将特定路径下的所有文件都进行了内容的去重处理

list3=[]            
list3=all_txt(".\data")for liin list3:
    clr(li)

总结

本次实现了数据文件内容的去重功能，数据去重是数据预处理和数据库管理的重要内容，在后续的研究中会经常用到该功能。

作者：bjwhile
原文链接：https://blog.csdn.net/bjwhile/article/details/115456364
更新时间：2022-10-05 13:56:11

相关文章

Mybatis 常用注解及使用案例
Mybatis中常用的注解注解目标对应的XML标签 @CacheNamespace 类
2022-10-03

python能不能连等赋值_javascript 连等赋值问题
var a = {n:1};var b = a; // 持有a，以回查a.x = a = {n:2};aler
2022-10-03

numpy.repeat作用，语法，参数解读以及实例
numpy.repeat()作用可以用于重复数组中的元素语法numpy.repeat(a, repeats,
2022-10-03

python串口发送多字节数据_python串口发送16进制数
python通过调用serial库函数发送指令，其中串口通信发送的数据需要是str格式字符串。当需要给下方发送
2022-10-04

随机文章

Mac GoLand打不开(闪退)也不报错的解决方案
Mac用过GoLand，电脑应用初始化后就打不开了，下载其他版本也不行。原因就是之前的配置文件，还在需要清理：
2022-10-30

@RequestBody和@RequestParam区别全面详细
@RequestParam注解@RequestParam接收的参数是来自requestHeader中，即请求头
2022-10-30

ES6 Promise基础知识总结
本文主要参考阮一峰的ECMAScript 6 入门一、Promise是什么？1、含义：Promise 表示异步
2022-10-30

python3 requests 各种发送方式
大凡人世间的痛苦，多是因放不下有时候我常想，痛苦，该是时光刮给生命的一场飓风吧生活，本就是以这样一种特别的方式
2022-10-30

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录