上QQ阅读APP看书,第一时间看更新
自动信息提取 Automated information extraction
文本分析曾经是一种非常普通的分析方法,它通过编码文档从中提取信息与数据。近来,文本分析方法不断演变,除了文字文本之外,还可以分析音频、图像、视频。由于政府界和学术界的不断推进,文本分析方法的计算效率在学术界有了一个很大的提升,但在实际应用方面仍存在着很大的缺陷。今天,伴随着人工智能和其他计算算法的出现,文本分析,信息提取将很有可能在实际应用上取得巨大的突破。自动化提取的主要用途之一,是获得“事件数据”(events data),使用时间序列分析、语义分析、隐马尔科夫模型、微波分析、事件生命周期建模等方法分析“事件数据”。这些方法经常与其他的方法结合使用,比如在下一节中提到的复杂系统理论的方法。除了这些方法,还有许多的自动文本提取算法和系统可以挖掘网络数据结构,比如从图论和社交网络分析中组合出来。在应用领域,自动信息提取技术由于可以挖掘实时的数据流,如新闻广播或其他电子报告,不仅可用于异常检测和预警,同时也可用于监测趋势和评估干预和项目执行等,若自动信息技术再完美些,应该能够成为日常工作系统升级或运营中心不可缺少的一部分。社会科学领域可以说是文字丰富但数据较差,因此自动信息提取技术和文本挖掘技术在该领域有大展身手的空间,如果能合理应用,将来一定会在计算社会科学调查中取得重大突破。