
自然语言的内容有很多,今天本文所介绍的自然语言处理部分是“文字摘要”和“关键词提取”。在做部落格的时候,经常会发一些文章,这些文章发出去了,有的很容易被搜索引擎检索,有的则很难,那么有没有什么方法,让部落格对搜索引擎友好一些呢?
一个比较好的方法就是填写网页的Description还有Keywords。但是每次都需要我们自己去填写,比较繁琐,本文将会分享一种方法:通过Python的jieba和snownlp实现关键词和文字摘要的自动提取。
准备资源
下载以下资源:https://github.com/fxsjy/jieba
https://github.com/isnowfy/snownlp
下载之后,新建资料夹,将这些档案中对应的档案拷贝:

拷贝之后,建立档案index.py

上传档案
在SCF网页上面建立一个专案:

提交方法选择上传zip
然后压缩档案,并改名为index.zip:

测试
测试之前可以适当调整一下配置:
然后进行input模板的输入:

模板可以是:
{
"text": "前来参观的人群络绎不绝。在“两弹历程馆”里,讲解员龚照怡正在给参观的学生介绍:“这是我国第一颗核航弹的模型,长3米、直径1.5米左右,后面就是它爆炸时产生的蘑菇云。”学生们一边听一边认真记录。记者看到,馆内利用声、光、电等手段,通过实物、模型、影像资料和场景复原,展现“两弹”研制工作的艰辛历程。“算盘、计算尺这些文物都是激励后人艰苦奋斗的好教材。我们让文物‘回家’,让观众看到当年科研人员住什么样的房子,用什么样的用具,了解在那么艰苦的环境下,他们是怎样研制‘两弹’的,怎么样让中国挺起了民族的脊梁。”四川省梓潼两弹城红色旅游开发有限公司副总经理贾鲁蓉告诉记者,作为爱国主义教育基地,这里目前存有2万多份图片资料、500多万字文字资料、3000余件实物。在“两弹历程馆”的不远处是“将军楼”。1983年5月20日,时任国防部部长张爱萍将军来到长卿山视察中物院,看到科学家们在大山沟里艰苦卓绝地工作,即兴赋诗一首:“二十二年难忘情,崎岖道路信踏平。屡建奇功震寰宇,更创奇迹惊鬼神。”",
"summary_num": 5,
"keywords_num": 5,
"keywords_type": "tfidf"
}
然后点选测试:






























