使用方法
修改代码中your_file_name.xlsx为你的关键词表格
确保关键词表格第一行的标题“关键词”
将下边的代码保存为python文件,并命名。命名无要求:如lda.py 运行的时候则先cd到lda.py所在的文件夹,然后python lda.py即可。
注意需要确保lda.py和上边的关键词表格文件在同一文件夹同一层级。
如报错提示缺少模块可以使用pip install 报错的模块名称 进行安装。
第一版
合并效果略差
需要安装运行所需库:
pip install pandas numpy sklearn nltk tqdm
好的,我已经将similarity_threshold 阈值调整到了similarity_threshold = 0.1,但合并效果并不明显,比如:上海奉贤注册公司和上海注册奉贤公司这两个关键词依旧都保留了下来
第二版
合并精细度不错,但速度比较慢。7w关键词使用M1Pro需要跑5小时左右
抱歉给您带来困扰。在这种情况下,我们可以尝试使用基于n-grams的方法来计算字符串之间的相似度。这种方法可以识别出词组顺序不同但意义相同的关键词。我们将使用ngram
库来计算n-gram相似度。首先,您需要安装ngram
库:
需要安装运行所需库:
pip install ngram
效果还可以,能否识别关键词的表达意思。将和主题无关意思的关键词也剔除掉
第三版
简单,速度飞快,1分钟左右。过滤效果和上边的n-grams基本差不多。7w关键词过滤到2w多点。
可以使用Latent Dirichlet Allocation(LDA)主题模型。LDA可以帮助您识别一组文档中的潜在主题。通过对关键词进行LDA主题建模,我们可以找出与特定主题相关的关键词并剔除与主题无关的关键词。这里,我们将使用gensim
库来实现LDA。首先,请安装gensim
库:
需要安装运行所需库:
pip install gensim
© 版权声明
THE END
暂无评论内容