开源
MALLET:基于java的机器学习语言工具包
来源:元经纪     阅读:866
网站管理员
发布于 2023-01-28 08:19
查看主页

概述

MALLET 是“机器学习语言工具包”的缩写,包括基于 Java 的统计自然语言处理、文档分类、聚类、主题建模、信息提取等工具。它于 2002 年由马萨诸塞州阿姆赫斯特大学和宾夕法尼亚大学的教师和研究生首次创建。

MALLET 包括用于文档分类的复杂工具:用于将文本转换为“特征”的高效例程、各种算法(包括朴素贝叶斯、最大熵和决策树),以及使用几种常用指标评估分类器性能的代码。

除了分类之外,MALLET 还包括用于应用程序的序列标记工具,例如从文本中提取命名实体。算法包括隐马尔可夫模型、最大熵马尔可夫模型和条件随机场。这些方法在用于有限状态传感器的可扩展系统中实现。

主题模型对于分析大量未标记文本很有用。MALLET 主题建模工具包包含基于抽样的高效 Latent Dirichlet Allocation、Pachinko Allocation 和 Hierarchical LD​​A 实现。

MALLET 中的许多算法都依赖于数值优化。MALLET 包括有限内存 BFGS 的有效实现,以及许多其他优化方法。

除了复杂的机器学习应用程序之外,MALLET 还包括用于将文本文档转换为数字表示形式的例程,然后可以进行高效处理。这个过程是通过一个灵活的“管道”系统实现的,它处理不同的任务,例如标记字符串、删除停用词以及将序列转换为计数向量。

MALLET 的一个附加包,称为 GRMM,包含对通用图形模型推理的支持,以及对具有任意图形结构的 CRF 的训练。

安装

免责声明:本文为用户发表,不代表网站立场,仅供参考,不构成引导等用途。 开源
中国最长寿电视剧《乡村爱情18》宣布开机!网友:苹果手机才16
创新方法 精准焊接(工匠绝活)
太重数智科技顺利通过国家级高新技术企业认定
2000块的Nothing Phone 现在也开始堆料了
华硕推出三款vu系列显示器,集成纳米离子技术

首页

分类

定制方案

消息

我的