文本预处理的一般步骤和方法
文本预处理是一件极其耗费时间的事情,不仅繁琐而且涉及的细节很多,处理不好对后面的事情的影响很大。本文将简要介绍文本预处理的一般步骤和方法。
中文和英文的文本预处理有一点差异,一般情况下,我们对文本预处理的目标,都是将文本转变成结构化的数据形式。通常情况下,为了方便我们经常会使用向量空间模型(Vector Space Model,VSM)来表示文本。VSM假设文档之间的词语之间的顺序不影响文本的表达,将文本表示成词语及其频率的向量形式。举个简单的例子,假设我们有两个文本,分别如下(一行对应一个文本):
- I am a student. I have an apple.
- You are a teacher. You like apples.
当然正常情况下,一个文档比上述的一句话要长得多,这里我们只是举个例而已。最终,我们将会把模型变成如下形式的向量:
|| i | am | a | student | have | an | apple | you | are | teacher | like | apples | | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | |Doc1| 2 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | |Doc2| 0 | 0 | 1 | 0 | 0 | 0 | 0 | 2 | 1 | 1 | 1| 1 |
