`
housen1987
  • 浏览: 340142 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

文本数据挖掘(Text Data Mining)

阅读更多

文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。


按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。

 

  • 基于单文档的数据挖掘对文档的分析不涉及其他文档,主要挖掘技术有文本摘要和信息提取。
  • 基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,主要技术有文本分类、文本聚集、个性化文本过滤、因素分析等。

TDM可分为3层:

 

  1. 底层是TDM基础领域层,包括机器学习、数理统计和自然语言处理。
  2. 中间是TDM基础技术层,包括文本信息抽取、文本分类、文本聚集、文本数据压缩和文本数据处理,其中文本信息抽取和文本数据压缩是TMD独有的技术。
  3. 最上层是应用领域层,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

 

Web文本数据挖掘是Web内容挖掘的最主要、最重要的部分,比数据挖掘具有更高的商业潜力。Web文本数据挖掘是对web上大量文档集合的内容进行总结、分类、聚集和关联分析,以及利用wen文档进行趋势预测等。

 

分享到:
评论

相关推荐

    手把手教你做文本挖掘 课件

    文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分析...

    Data Mining Text Book

    数据挖掘经典教材,本教科书探讨了...它超越了传统的数据挖掘问题,引入了先进的数据类型,如文本、时间序列、离散序列、空间数据、图形数据和社交网络。迄今为止,还没有一本书以综合和综合的方式解决所有这些问题。

    The Text Mining Handbook

    剑桥大学出版社 The Text Mining Handbook - Advanced Approaches in Analyzing Ustructured Data (2007)

    text-mining:使用JS,Node和Mongo进行文本挖掘

    文本挖掘,也称为文本数据挖掘,类似于文本分析,是指从文本中获取重要信息的过程。 重要信息通常是通过诸如学习的统计模式之类的方式通过发展模式和趋势来获得的。 通常,文本挖掘涉及构造输入文本,在数据结构内...

    宗成庆老师课上的文本数据挖掘大作业+源代码+文档说明

    首先对文本进行分词,用Text_data_mining.py对每一类数据集进行分词,然后对每一类的每一篇文档转换成一个行 例如下面 短 线 黑马 派 神 股 改 重组 新 模式 创造 暴利 神化 渤海 投资 研究所 周延 新 是的原来的每...

    Mining Text Data - ChengXiang Zhai

    非常好的NLP综述类书籍,对文本挖掘、情感分析有很好的介绍,强烈推荐对NLP及数据挖掘感兴趣的童靴阅读。

    文本挖掘 – 信息提取 ppt

    Text Mining (1) 文本本来是给人读的,不是计算机 大多数信息以文本形式存储 100 times as much online text as online DBs ...数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).

    R-text-data:用于R中的文本挖掘的文本数据源列表

    R-text-data:用于R中的文本挖掘的文本数据源列表

    基于机器学习的文本分类技术研究进展.pdf

    【摘要】 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面...

    text-mining-for-beginner:涵盖Python基础知识以及如何进行简单的文本分析

    文本挖掘是一种基于自然语言处理(NLP)技术在大量文本数据中找到有意义的模式的过程,并且广泛用于实践/研究领域。 但是,与我对文本挖掘的兴趣相比,很少有可以轻松访问和研究的材料。 在本文中,我们想让您对...

    使用 Rep-Tree 对阿拉伯语单词进行文本分类-研究论文

    世界上和我们生活中的文本数据挖掘量似乎在不断增加,而且永无止境。 概念(文本数据挖掘)定义为从文本中获取高质量信息的过程。 它已应用于不同的领域,包括:模式挖掘、意见挖掘和网络挖掘。 文本数据挖掘的概念...

    Text-mining:各种文字娱乐

    文本挖掘工具和解决方案等级制度: * \data* - 输入输出数据的文件夹。 但是不要尝试在此处添加大量数据 - 没有人在 repo 中需要它* \R* - R 代码* \R\data processing* - 从不同来源提取数据的方法* \R\data 重排* ...

    SogouC.mini

    文本分类现成语料库,是SogouC.mini.20061127.zip格式的,可用于web数据挖掘-Off-the-shelf text classification corpus is SogouC.mini.20061127.zip format, can be used for web data mining

    确保文本和数据挖掘:欧盟版权例外的剩余问题和可能的出路-研究论文

    文本和数据挖掘 (TDM) 是大数据经济中的重要工具。 TDM 使用来自自然语言处理、机器学习、信息检索和知识管理的技术对数字内容(结构化和非结构化数据)进行自动分析,以提取信息、识别模式、发现新趋势、洞察力或...

    基于ELK框架的搜索引擎实现

    文件说明 1.Spider文件夹下为爬虫的Python...7.Association mining文件夹为关联挖掘主程序 开发技术: 1.Maven管理工程 2.开发语言:Java、JSP、HTML、JavaScript、Python 3.SSM框架集(spring+springmvc+mybatis)

    GWU_data_mining:GWU DNSC 6279和DNSC 6290的材料

    DNSC 6279(“数据挖掘”)提供了各种数据预处理,统计信息和机器学习技术的知识,这些技术可用于发现大型数据集中的关系并建立预测模型。 涵盖的技术将包括基本和分析数据预处理,回归模型,决策树,神经网络,聚类...

    版权是障碍还是推动者? 欧洲对文本和数据挖掘的看法及其在人工智能创造力发展中的作用-研究论文

    文本和数据挖掘 (TDM) 可以在各种领域和不同目的中执行。 除其他外,TDM 技术可用于“训练”人工智能 (AI),也可用于 AI 驱动的创造力。 在这种情况下,版权限制可能会到位,即使由预先存在的内容制作的副本仅在内部...

    大数据技术的文本挖掘迭代模型-研究论文

    它涉及数据挖掘,机器学习,统计和自然语言处理的算法,试图从文本数据中提取高质量的有用信息。 在本文中,我们提出了一种文本挖掘模型,该模型将使大量文本挖掘过程变得容易且熟练。 集群和大数据技术是该模型的...

Global site tag (gtag.js) - Google Analytics