用python实现文件的词频统计

2023年6月13日08:06:48

"""
@name : 词频统计
@author : huangshilong
@projectname : file_opreat
"""
def deal_text():
    # 用上下文管理器打开文件
    with open('Walden.txt','r+') as fp:
        # 读取文件内容
        text = fp.read()
        # 消除大小写
        text=text.lower()
        # 消除特殊字符
        # sub_post = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", ' ', post)
        for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_{|}.~’‘':
            text = text.replace(ch, "")
        # 将文本分割成单个单词
        text = text.split()
        # 返回文本列表
        return  text
def count_text():
    # 调用处理文本的函数
    txt = deal_text()
    # 创建一个单词字典
    word_dict ={}
    # 写入单词元素及出现次数
    for item in txt:
        if item not in word_dict:
            word_dict[item] = 1
        else:
            word_dict[item]+=1
    #得到出现次数前十的一个列表
    list_top10_word =[]
    for item in word_dict:
         list_top10_word.append(word_dict[item])
    # 通过列表的sort方法对列表进行排序，方便取最后的出现次数最多的十个元素
    list_top10_word.sort()
    list_top10_word=list_top10_word[-1:-11:-1]
    # 使用字典生成式生成次数前十的单词的字典，并输出
    dict_top10_word = {key:word_dict[key] for key in word_dict if word_dict[key] in list_top10_word}
    print(dict_top10_word)
count_text()

作者：小黄打电动
原文链接：https://blog.csdn.net/m0_59233099/article/details/127735913
更新时间：2023年6月13日08:06:48 ，共 853 字。

相关文章

Android 4.0.1破坏了WebView HTML 5本地存储？ 02/21

通过覆盖的HTML元素
传递鼠标单击 02/21

HTML5画布变形 02/21

Firefox中的HTML5输入类型“数字” 02/20

将HTML5 SVG对准屏幕中心 02/20

随机文章

【译】defer-panic-and-recover_在线工具 05/10

2022Vue.js 面试题汇总及答案 06/02

全链路压测(10)：测试要做的准备工作_在线工具 05/09

C ++程序，实现布斯的乘法算法来对两个有符号数相乘 12/01

.NET LoongArch64 正式合并进入.NET 05/12

上一篇
c语言-字符串旋转下一篇
Android 中的广播机制你了解多少?

文章导航

热门标签

IPV6 BGP选路 GPON PIM TCP IP DHCP H3C 网络工程师小助手 QOS VPN RADIUS 组播 BGP 路由 IGMP MPLS Wireshark CCNA视频教程 NAT ISIS 交换机交换链路聚合 LACP Vlan STP LDP OSPF 华为

最新文章

Android 4.0.1破坏了WebView HTML 5本地存储？ 02/21

通过覆盖的HTML元素
传递鼠标单击 02/21

HTML5画布变形 02/21

Firefox中的HTML5输入类型“数字” 02/20

将HTML5 SVG对准屏幕中心 02/20

HTML5画布 canvas移动 02/20

Internet Explorer无法为元素呈现任何类型的背景颜色。 02/20

如何使用HTML5 SVG绘制正弦波？ 02/20

如何使用画布HTML5元素从底部中心角度旋转图像？ 02/20

win11系统怎么通过cmd进入d盘 12/30

热门文章

PHP范围解析运算符（：:)
完全删除数组中的多余元素-JavaScript
在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
JavaScript在数组的伪索引处插入元素方法详解
PHP整数数据类型
PHP错误控制运算符
PHP类型杂耍详解
PowerShell版本7中引入了哪些新的Null运算符？
PowerShell中$ ErrorView的用途是什么？
PHP执行运算符
Java中的守护程序线程和用户线程之间的区别
如何知道是否在Javascript集中搜索值？
用JavaScript创建Set的方法？
我们如何用Java编码JSON对象？
什么是JavaScript集？

把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！
站点地图

登录找回密码

用户名

密码

记住我的登录信息

输入用户名或电子邮箱地址，您会收到一封新密码链接的电子邮件。

用户名或电子邮件地址

文章目录

繁