【Python算法】基础数据类型和链表

作者 : icbug 发布时间: 2020-06-7 文章热度:171 共1781个字,阅读需5分钟。 本文内容有更新 手机浏览

目 录

【Python算法】基础数据类型和链表

集合的创建

a = {1,2,3}
b = set([1,2,3])

集合内的元素是不重复的

集合的添加的用法

a = {1,2,3,1,2}
a.add(4)
a.add(2)
print(a)

运行结果为1234

添加已有元素并不会产生重复的结果

实战:统计一篇文章的词频

不使用其他第三方包

我们先读写我们的文章,我们使用I have a dream这么一个文章来进行操作

首先读取我们的这个文件

【Python算法】基础数据类型和链表-icbug创客

读取代码

with open('i_have_a_dream.txt','r',encoding='utf-8') as f:
    lines = f.readlines()
    print(lines)

显示结果如下

【Python算法】基础数据类型和链表-icbug创客

这个是一个列表。

然后我们做一个换行处理

把所有的单词放到列表中去

分完词结果如下

【Python算法】基础数据类型和链表-icbug创客

with open('i_have_a_dream.txt','r',encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        line = line.replace(',' , ' ')
        line = line.replace('.' , ' ')
        line = line.replace('"' , ' ')
        line = line.replace('!' , ' ')
        line = line.replace('?' , ' ')
        line = line.replace(':' , ' ')
        line = line.replace('\'' , ' ')
        line = line.replace('-' , ' ')
        line = line.replace('\n' , ' ')
        line = line.replace('‘' , ' ')
        line = line.replace('’' , ' ')
        line = line.replace('“' , ' ')
        line = line.replace('”' , ' ')
        print(line)

然后我们需要统计一下我们的词频

words = []
with open('i_have_a_dream.txt','r',encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        line = line.replace(',' , ' ')
        line = line.replace('.' , ' ')
        line = line.replace('"' , ' ')
        line = line.replace('!' , ' ')
        line = line.replace('?' , ' ')
        line = line.replace(':' , ' ')
        line = line.replace('\'' , ' ')
        line = line.replace('-' , ' ')
        line = line.replace('\n' , ' ')
        line = line.replace('‘' , ' ')
        line = line.replace('’' , ' ')
        line = line.replace('“' , ' ')
        line = line.replace('”' , ' ')
        
        for word in line.split(' '):
            if word:
                words.append(word)
print(len(words))

然后我们再统计一下去掉重复部分的单词有多少个

words = []
with open('i_have_a_dream.txt','r',encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        line = line.replace(',' , ' ')
        line = line.replace('.' , ' ')
        line = line.replace('"' , ' ')
        line = line.replace('!' , ' ')
        line = line.replace('?' , ' ')
        line = line.replace(':' , ' ')
        line = line.replace('\'' , ' ')
        line = line.replace('-' , ' ')
        line = line.replace('\n' , ' ')
        line = line.replace('‘' , ' ')
        line = line.replace('’' , ' ')
        line = line.replace('“' , ' ')
        line = line.replace('”' , ' ')
        
        for word in line.split(' '):
            if word:
                words.append(word)
print(len(words))

结果如下:

常见问题FAQ

本站资源是否全部免费?
本站文章和普通速度下载资源免费,高速下载资源和讲解视频需要成为SVIP才能查看哦!
本站采用标准 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明!
icbug创客 » 【Python算法】基础数据类型和链表

发表评论

CAPTCHAis initialing...