首页 科普 正文

编程统计单词个数

科普 编辑:升婷 日期:2024-04-26 15:43:55 988人浏览

编程统计单词是指编写一个程序来统计文本中单词的出现次数。这种任务在文本处理和自然语言处理中非常常见。下面是一个简单的Python示例,用于统计文本文件中每个单词的出现次数:

```python

import re

from collections import Counter

编程统计单词个数

def count_words(file_path):

word_count = Counter()

with open(file_path, 'r', encoding='utf8') as file:

for line in file:

words = re.findall(r'\b\w \b', line.lower())

word_count.update(words)

return word_count

def main():

file_path = 'example.txt' 替换为你的文本文件路径

word_count = count_words(file_path)

输出前20个最常见的单词及其出现次数

print("Top 20 words:")

for word, count in word_count.most_common(20):

print(f"{word}: {count}")

if __name__ == "__main__":

main()

```

这段代码使用了正则表达式来匹配文本中的单词,并使用Counter类来统计它们的出现次数。具体步骤如下:

1. 打开文件并逐行读取。

2. 使用正则表达式 `\b\w \b` 来匹配每行中的单词。这个正则表达式匹配一个单词,其中 `\b` 表示单词边界,`\w ` 匹配一个或多个字母或数字字符。

3. 将匹配到的单词转换为小写形式,以便统计时不区分大小写。

4. 使用Counter类来更新单词出现的次数。

5. 输出前20个最常见的单词及其出现次数。

要运行这个示例,你需要将文件路径替换为你要统计的文本文件的路径,并确保文件存在并包含文本数据。

分享到

文章已关闭评论!