APP下载

赠书福利 | 文字资料探勘从入门到精通 你就差这本书了

消息来源:baojiabao.com 作者: 发布时间:2024-05-02

报价宝综合消息赠书福利 | 文字资料探勘从入门到精通 你就差这本书了

近年来,资料探勘引起了资讯产业界的极大关注。资料探勘是一个跨学科的电脑科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的资料集中发现模式的计算过程。

不过,作为资料探勘重要分支的文字资料探勘,你又了解多少呢?

简单来说,文字资料探勘可以认为是文字中的知识发现,是资料探勘方法在文字资料集上的运用,目的是从大量非结构化的文字集合中挖掘资讯、发现知识。它是一个跨学科的交叉研究领域,涉及机器学习、自然语言处理、统计学等多个领域的知识和方法,常用的技术包括文字分类、文字聚类、关联分析等。

随着互联网以及移动通讯技术的快速发展和普及,这项技术已在众多领域得到了广泛应用。在商业实践中,通过分析客户和竞争对手相关文字资料可以提高企业自身竞争力。

在欺诈识别中,比如健康险投诉事件,使用文字资料分析技术可以解析出客户的评论和理由,进而识别出欺诈模式,标记出风险的高低,将更多的资源投入高风险的投诉中。

资讯检索里的许多工都可以归结为文字分类问题,包括搜索引擎对网页的相关性排序、垃圾邮件的过滤、文件的组织等,网页检索方面也越来越多地引入资讯检索和文字分类的技术,以更好地理解使用者的搜寻需求,提供给更优的资讯处理服务。

在安全监控领域,很多文字资料分析软件包都被设计用于监测和分析在纯文字资料,比如互联网新闻、部落格等等,当中也会涉及到情感分析、文字加密或解密技术等。将这些技术用于追踪跨境的有组织犯罪,可以提高在跨境执法方面组织效率;用于分析罪犯(或嫌疑犯)的真实供述,可以研发出预测模型以区分谎言和实话,与测谎仪等其他测谎技术相比,避免了过多的中介物的干扰;用于监控情感资讯,可以识别消极情感资讯的突然增加。除此之外,文字资料探勘也被用于生物医学、化学、金融市场、社会科学等研究中。

既然文字资料探勘技术在当今社会有如此重要的应用,那开发者应该如何着手学习文字资料探勘技术?又如何将其应用于自己的业务领域?。

今天给大家推荐的这本书,书名就叫《文字资料探勘》,三位作者历时两年多,全面梳理了该领域技术发展的“前生今世”,向读者展现了一个全新的视角,指导读者如何学习并应用文字资料探勘技术。

资料探勘领域国际著名学者、伊利诺伊大学厄巴纳香槟分校 Abel Bliss 特聘教授韩家炜先生为该书作序。正如韩家炜教授在序中所言:“我们生活在大资料时代,现实世界中 80% 以上的资讯是以自然语言文字形式(如书籍、新闻报道、研究论文、社交媒体和网页等)记载的非结构化资料。尽管资料探勘和机器学习已经成为资料分析的主要手段,但是大部分资料探勘方法只能处理结构化的或半结构化的资料。与结构化的资料探勘任务相比较,非结构化的文字挖掘具有更大的挑战性,而且这项技术能够在将海量资料转化为结构化知识的过程中发挥巨大的作用。目前已经有不少关于资料探勘、机器学习和统计自然语言处理的专著和教材,但是,尚没有一部系统介绍文字挖掘重要主题和最新方法的学术专著,这本《文字资料探勘》很好地填补了这一空缺。”

内容简介

该书全面介绍了与文字资料探勘相关的基本概念、理论模型和实现算法,包括资料预处理、文字表示、文字分类、文字聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、资讯抽取以及文字自动摘要等。

开篇从文字预处理(包括英文的和中文的文字预处理)方法介绍开始,随后给出文字表示方法,包括向量空间模型和词汇、短语、句子及文件的分散式表示,都从统计建模和深度学习建模两个角度进行了阐述。之后针对文字分类问题介绍了特征选择方法、统计学习方法和深度神经网络方法。接下来是文字聚类,包括简单的类别相似性度量和各种聚类算法以及效能评价方法。在对上述文字挖掘基础理论和方法进行介绍之后,该书用5章介绍了文字挖掘技术的具体应用,包括主题模型、情感分析和观点挖掘、主题发现与跟踪、资讯抽取及自动文摘。这些都是目前文字挖掘领域活跃的前沿研究课题,该书不但给予了全面而透彻的介绍,而且在传统方法和最新进展(包括深度学习方法)之间进行了很好的平衡。

宗成庆教授已经撰写和出版的《统计自然语言处理》在本领域享有盛名,拥有广泛的读者。这本新作与《统计自然语言处理》的覆盖范围完全不同,它所呈现的是关于文字挖掘的新主题,是对已有著作的扩充套件和补充。无论是对于自然语言处理领域的初学者,还是相关技术的研发人员,两部著作配合阅读必将从中大获裨益。

该书在清华大学出版社天猫旗舰店(https://m.tb.cn/h.eU3kWvv)已经开始销售,各地书店和网店将于近日陆续开始销售。

复制口令到天猫APP检视:¥qPE9YUlXSa6¥(注意¥也要复制进去)

作者简介

宗成庆:中国科学院自动化所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文字资料探勘等相关研究,主持国家级专案10余项,发表论文200余篇,出版专著《统计自然语言处理》一部和译著两部。2013年当选国际计算语言学委员会(ICCL)委员,目前担任亚洲自然语言处理学会(AFNLP)主席和中国中文资讯学会副理事长等职务,是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委,曾任国际顶级学术会议ACL-IJCNLP 2015程式委员会主席,IJCAI 2017、IJCAI-ECAI 2018和AAAI 2019领域主席等。获国家科技进步奖二等奖、钱伟长中文资讯处理科学技术奖一等奖和中国电子学会科技进步奖一等奖,获北京市优秀教师、中科院优秀导师等荣誉称号。享受-特殊津贴。

夏睿:南京理工大学计算机学院教授、博士生导师。主要从事自然语言处理、文字资料探勘、情感分析与观点挖掘等领域的研究。在国际知名学术期刊和会议上发表论文40余篇,主持国家和省部级科研专案近10项。担任多个国际一流学术会议的领域主席、高阶程式委员会委员和程式委员会委员。2014年入选南京理工大学“紫金之星”人才计划,2016年获得首届江苏省优青专案资助,2017年入选南京理工大学青年拔尖人才计划并破格晋升为教授。

张家俊:中科院自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译和跨语言跨模态资讯处理等。担任中国中文资讯学会机器翻译专委会副主任等学术职务,在国际知名学术期刊和会议上发表论文60余篇,曾四次获得最佳论文奖。担任多个国际一流学术会议的领域主席和高阶程式委员会委员。曾获中国中文资讯学会钱伟长中文资讯处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选首届中国科协“青年人才托举工程”计划。

全书目录

第1章绪论

1.1基本概念

1.2 文字挖掘任务

1.3 文字挖掘面临的困难

1.4 方法概述与本书的内容组织

1.5 进一步阅读

第2章资料预处理

2.1 资料获取

2.2 资料预处理

2.3 基本工具

2.4 进一步阅读

第3章文字表示

3.1 向量空间模型

3.2 词的分散式表示

3.3 短语的分散式表示

3.4 句子的分散式表示

3.5 文件的分散式表示

3.6 进一步阅读

第4章文字分类

4.1 概述

4.2 文字表示

4.3 特征选择

4.4 传统分类算法

4.5 深度神经网络方法

4.6 文字分类效能评估

4.7 进一步阅读

第5章文字聚类

5.1 概述

5.2 文字相似性度量

5.3 文字聚类算法

5.4 效能评估

5.5 进一步阅读

第6章主题模型

6.1 概述

6.2 潜在语义分析

6.3 概率潜在语义分析

6.4 潜在狄利克雷分布

6.5 进一步阅读

第7章情感分析与观点挖掘

7.1 概述

7.2 情感分析任务型别

7.3 文件或句子级情感分析方法

7.4 词语级情感分析与情感词典构建

7.5 属性级情感分析

7.6 情感分析中的特殊问题

7.7 进一步阅读

第8章话题检测与跟踪

8.1 概述

8.2 术语与任务

8.3 报道或话题的表示与相似性计算

8.4 话题检测

8.5 话题跟踪

8.6 评估方法

8.7 社交媒体话题检测与跟踪

8.8 突发话题检测

8.9 进一步阅读

第9章资讯抽取

9.1 概述

9.2 命名实体识别

9.3 共指消解

9.4 实体消岐

9.5 关系抽取

9.6 事件抽取

9.7 进一步阅读

第10章文字自动摘要

10.1 概述

10.2 抽取式自动摘要

10.3 压缩式自动摘要

10.4 生成式自动摘要

10.5 基于查询的自动摘要

10.6 跨语言和多语言自动摘要方法

10.7 摘要质量评估方法和相关评测

10.8 进一步阅读

福利时间

在本文文末进行留言,谈一谈你对资料探勘和文字挖掘的看法。

社长将会在留言中选取 4 名使用者,每人送出《文字资料探勘》一本。

活动规则:

1. 在文末按相关要求留言即可。

2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。

3. 本活动时间为2019年6月21日 - 2019年6月30日(23:00),活动推送内仅允许中奖一次(包括 AI 研习社、AI 科技评论、雷锋网订阅号)。

想要获取更多福利吗?AI 研习社福利市集有大把周边礼品、大会门票、课程优惠券等你用研值兑换,后续我们将上线更多福利(包括但不限于书籍、机械键盘、玩偶)回馈使用者。赶紧加入AI研习社赚取研值吧!

福利市集入口:

https://ai.yanxishe.com/page/welfare

获取研值的具体方法:

https://ai.yanxishe.com/page/blogDetail/9661

https://ai.yanxishe.com/page/blogDetail/11609

2019-10-31 19:02:00

相关文章