编程统计单词是指编写一个程序来统计文本中单词的出现次数。这种任务在文本处理和自然语言处理中非常常见。下面是一个简单的Python示例,用于统计文本文件中每个单词的出现次数:
```python
import re
from collections import Counter
def count_words(file_path):
word_count = Counter()
with open(file_path, 'r', encoding='utf8') as file:
for line in file:
words = re.findall(r'\b\w \b', line.lower())
word_count.update(words)
return word_count
def main():
file_path = 'example.txt' 替换为你的文本文件路径
word_count = count_words(file_path)
输出前20个最常见的单词及其出现次数
print("Top 20 words:")
for word, count in word_count.most_common(20):
print(f"{word}: {count}")
if __name__ == "__main__":
main()
```
这段代码使用了正则表达式来匹配文本中的单词,并使用Counter类来统计它们的出现次数。具体步骤如下:
1. 打开文件并逐行读取。
2. 使用正则表达式 `\b\w \b` 来匹配每行中的单词。这个正则表达式匹配一个单词,其中 `\b` 表示单词边界,`\w ` 匹配一个或多个字母或数字字符。
3. 将匹配到的单词转换为小写形式,以便统计时不区分大小写。
4. 使用Counter类来更新单词出现的次数。
5. 输出前20个最常见的单词及其出现次数。
要运行这个示例,你需要将文件路径替换为你要统计的文本文件的路径,并确保文件存在并包含文本数据。
文章已关闭评论!
2024-11-26 12:00:09
2024-11-26 11:58:42
2024-11-26 11:57:33
2024-11-26 11:56:06
2024-11-26 11:54:57
2024-11-26 11:53:35
2024-11-26 11:52:25
2024-11-26 11:51:00