词库好帮手 Python合并同义词快速筛选合并同义词

614314

Alextao

2023年04月04日 09:40发布 1年前更新

使用方法

修改代码中your_file_name.xlsx为你的关键词表格

确保关键词表格第一行的标题“关键词”

将下边的代码保存为python文件，并命名。命名无要求：如lda.py 运行的时候则先cd到lda.py所在的文件夹，然后python lda.py即可。

注意需要确保lda.py和上边的关键词表格文件在同一文件夹同一层级。

如报错提示缺少模块可以使用pip install 报错的模块名称进行安装。

第一版

合并效果略差

需要安装运行所需库：

pip install pandas numpy sklearn nltk tqdm

好的，我已经将similarity_threshold 阈值调整到了similarity_threshold = 0.1，但合并效果并不明显，比如：上海奉贤注册公司和上海注册奉贤公司这两个关键词依旧都保留了下来

第二版

合并精细度不错，但速度比较慢。7w关键词使用M1Pro需要跑5小时左右

抱歉给您带来困扰。在这种情况下，我们可以尝试使用基于n-grams的方法来计算字符串之间的相似度。这种方法可以识别出词组顺序不同但意义相同的关键词。我们将使用ngram库来计算n-gram相似度。首先，您需要安装ngram库：

需要安装运行所需库：

pip install ngram

效果还可以，能否识别关键词的表达意思。将和主题无关意思的关键词也剔除掉

第三版

简单，速度飞快，1分钟左右。过滤效果和上边的n-grams基本差不多。7w关键词过滤到2w多点。

可以使用Latent Dirichlet Allocation（LDA）主题模型。LDA可以帮助您识别一组文档中的潜在主题。通过对关键词进行LDA主题建模，我们可以找出与特定主题相关的关键词并剔除与主题无关的关键词。这里，我们将使用gensim库来实现LDA。首先，请安装gensim库：

需要安装运行所需库：

pip install gensim

版权声明 1 本网站名称：钻芒博客
2 本站永久网址：www.zuanmang.net
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END

Python效率助手网站源码
# Chat # GPT

喜欢就支持一下吧

请登录后发表评论

登录注册

只看作者

- hatula0
  [nltk_data] Error loading stopwords: 正在读取Excel文件... 提取关键词列... 删除广告词... 进行LDA主题建模... 提取与主题相关的关键词... Traceback (most recent call last): File "d:\Users\Administrator\Desktop\llk\gjccl.py", line 42, in for i, topic in enumerate(lda.get_post_topics(corpus)): ^^^^^^^^^^^^^^^^^^^ AttributeError: 'LdaModel' object has no attribute 'get_post_topics'. Did you mean: 'get_term_topics'? [Finished in 413.8s] 第三版，出错，怎么解决
  1年前回复
  举报
- - Alextao作者0
    将42行
    for i, topic in enumerate(lda.get_post_topics(corpus)):
    替换成
    for i, topic in enumerate(lda.get_term_topics(corpus)):
    试一下
    1年前@hatula回复
  - - hatula0
      [nltk_data] Error loading stopwords: 正在读取Excel文件... 提取关键词列... 删除广告词... 进行LDA主题建模... 提取与主题相关的关键词... Traceback (most recent call last): File "d:\Users\Administrator\Desktop\llk\gjccl.py", line 42, in for i, topic in enumerate(lda.get_term_topics(corpus)): ^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\Program Files\Python311\Lib\site-packages\gensim\models\ldamodel.py", line 1414, in get_term_topics if self.expElogbeta[topic_id][word_id] >= minimum_probability: ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all() [Finished in 415.6s] 还是出错
      1年前@Alextao回复
      举报
    - - Alextao作者0
        将 if self.expElogbeta[topic_id][word_id] >= minimum_probability: 替换成 if (self.expElogbeta[topic_id][word_id] >= minimum_probability).any(): 试下，如果一直报错可以把数据脱敏后发我测试下
        1年前@hatula回复
      - hatula0
        不出错了，但没生成数据
        1年前@Alextao回复
        举报
        
        Alextao作者0
        尝试调整下训练阀值
        1年前@hatula回复

词库好帮手 Python合并同义词快速筛选合并同义词

使用方法

第一版

第二版

第三版

请登录后发表评论

Typecho 导航主题Webstack 钻芒博客二开美化版新增暗黑模式全屏切换等

WPS Office政府企业版-专业版无广告带VBA组件

Time相册主题 for Typecho模板 [2020年2月12日更新至V1.1.2 支持懒加载]

钻芒博主首个汉化主题-Gliu – 创意WordPress博客主题

钻芒博主汉化主题-Contentberg-内容营销和个人博客

WordPress主题 iDowns V1.8.4 最新版带会员管理卡密插件

词库好帮手 Python合并同义词 快速筛选合并同义词

使用方法

第一版

第二版

第三版

请登录后发表评论

Typecho 导航主题Webstack 钻芒博客二开美化版 新增暗黑模式全屏切换等

WPS Office政府企业版-专业版无广告带VBA组件

Time相册主题 for Typecho模板 [2020年2月12日更新至V1.1.2 支持懒加载]

钻芒博主首个汉化主题-Gliu – 创意WordPress博客主题

钻芒博主汉化主题-Contentberg-内容营销和个人博客

WordPress主题 iDowns V1.8.4 最新版 带会员管理 卡密插件

词库好帮手 Python合并同义词快速筛选合并同义词

Typecho 导航主题Webstack 钻芒博客二开美化版新增暗黑模式全屏切换等

WordPress主题 iDowns V1.8.4 最新版带会员管理卡密插件