在Python中进行词频统计,常用的库是`jieba`,它是一个专门用于中文分词的第三方库。以下是使用`jieba`进行中文文本词频统计的基本步骤:
1. 安装`jieba`库:
```
pip install jieba
2. 导入所需的库:
```python
import jieba
import re
from collections import Counter
3. 读取文本数据,这里以读取CSV文件为例:
```python
import pandas as pd
读取数据
df_question = pd.read_csv("path_to_your_csv_file.csv", low_memory=False)
选择问题描述部分
df_description = df_question["description"].drop_duplicates().reset_index()
转换为列表
list_description = df_description.to_list()
4. 使用`jieba`进行分词,并去除停用词(可选):
```python
定义停用词列表
stopwords = set(["的", "是", "在", "和", "就", "都", "而", "及", "与", "著", "或", "一个", "上", "也", "很", "到", "说", "要", "去", "你", "会", "着", "没有", "看", "好", "只", "又", "因为", "很", "亦", "某", "把", "那", "你", "乃", "它", "吧", "被", "比", "别", "趁", "当", "从", "到", "得", "打", "凡", "儿", "尔", "该", "各", "给", "跟", "和", "何", "还", "即", "几", "既", "看", "据", "据", "靠", "拿", "哪", "那", "您", "凭", "且", "却", "让", "仍", "啥", "如", "若", "使", "谁", "虽", "随", "同", "所", "她", "哇", "嗡", "往", "哪", "些", "向", "沿", "哟", "用", "于", "咱", "则", "怎", "曾", "至", "致", "着", "诸", "自"])
分词并去除停用词
words = [word for word in jieba.cut(list_description) if word not in stopwords]
5. 使用`Counter`计算词频:
```python
计算词频
word_freq = Counter(words)
输出前30个高频词
for word, freq in word_freq.most_common(30):
print(f"{word}: {freq}")
以上步骤展示了如何使用`jieba`库进行中文文本的词频统计。如果需要统计英文文本的词频,可以使用`nltk`库中的`stopwords`来去除停用词。