MALLET 是“机器学习语言工具包”的缩写,包括基于 Java 的统计自然语言处理、文档分类、聚类、主题建模、信息提取等工具。它于 2002 年由马萨诸塞州阿姆赫斯特大学和宾夕法尼亚大学的教师和研究生首次创建。
MALLET 包括用于文档分类的复杂工具:用于将文本转换为“特征”的高效例程、各种算法(包括朴素贝叶斯、最大熵和决策树),以及使用几种常用指标评估分类器性能的代码。
除了分类之外,MALLET 还包括用于应用程序的序列标记工具,例如从文本中提取命名实体。算法包括隐马尔可夫模型、最大熵马尔可夫模型和条件随机场。这些方法在用于有限状态传感器的可扩展系统中实现。
主题模型对于分析大量未标记文本很有用。MALLET 主题建模工具包包含基于抽样的高效 Latent Dirichlet Allocation、Pachinko Allocation 和 Hierarchical LDA 实现。
MALLET 中的许多算法都依赖于数值优化。MALLET 包括有限内存 BFGS 的有效实现,以及许多其他优化方法。
除了复杂的机器学习应用程序之外,MALLET 还包括用于将文本文档转换为数字表示形式的例程,然后可以进行高效处理。这个过程是通过一个灵活的“管道”系统实现的,它处理不同的任务,例如标记字符串、删除停用词以及将序列转换为计数向量。
MALLET 的一个附加包,称为 GRMM,包含对通用图形模型推理的支持,以及对具有任意图形结构的 CRF 的训练。
[hidecontent type="logged" desc="隐藏内容:登录后可查看"]
要构建 Mallet 2.0 开发版本,您必须安装 Apache ant 构建工具。在命令提示符下,首先切换到 mallet 目录,然后键入 ant
如果ant
以 结束"BUILD SUCCESSFUL"
,Mallet 现在可以使用了。
如果您想将 Mallet 作为大型应用程序的一部分进行部署,创建一个包含所有已编译代码的“.jar”文件会很有帮助。编译完各个 Mallet 类文件后,使用以下命令: ant jar
此过程将在 Mallet 的“dist”目录中创建一个文件“mallet.jar”。
安装 Mallet 后,您可以使用以下命令使用它:
bin/mallet [command] --option value --option value ...
键入bin/mallet
以获取命令列表,并将该选项--help
与任何命令一起使用以获取有效选项的描述。
有关命令的详细信息,请访问 API 文档和网站:https ://mimno.github.io/Mallet/
[/hidecontent]