文档分类

Document Classification

文档分类或文件分类是图书馆科学、信息科学和计算机科学中的一个问题。其任务是将一个文件分配到一个或多个类别或范畴。这可以通过 "手动"(或 "智力")或算法来完成。文件的智力分类大多是图书馆学的范畴,而文件的算法分类则主要是在信息科学和计算机科学领域。然而,这些问题是重叠的,因此存在着跨学科的文献分类研究。

需要分类的文件可能是文本、图像、音乐等。每种文件都有其特殊的分类问题。在没有特别说明的情况下,文本分类是隐含的。

文件可以根据其主题或其他属性(如文件类型、作者、印刷年份等)来分类。在本文的其余部分,我们只考虑主题分类。文件的主题分类有两种主要的理念:基于内容的方法和基于请求的方法。

——来自维基百科

文档分类