新澳门萄京娱乐场官网_新萄京娱乐场
做最好的网站
您的位置:新澳门萄京娱乐场官网 > 互联网 > 新澳门萄京娱乐场官网:用机器学习怎样鉴别不

新澳门萄京娱乐场官网:用机器学习怎样鉴别不

2019-10-15 08:55

如何获取这些数据,可以通过 alex 排名靠前的网站,利用爬虫进行获取。本文对于正常数据的获取,选取 alex 排名前 4500 的网站,通过爬虫,提取网页的 title 和 deion 以及 keywords 作为原始文本。对于色情数据的获取亦然,通过爬虫对已经已经积累的 4500 个的站点进行文本收集。由于这部数据是敏感数据,因此数据集无法向大家公开,还请见量。

TF-IDF权重策略:计算文本的权重向量

1,TF-IDF的含义:词频逆文档频率。如果某个词在一篇文章中出现的频率高(词频高),并且在其他文章中很少出现(文档频率低),则认为该词具有很好的类别区分能力,适合用来分类。IDF其实是对TF起抵消作用。
2,词频TF的定义:某一个给定的词语在该文件中出现的频率(对词数的归一化)
3,逆文件频率IDF:某一特定词语的IDF,由总文件数除以包含该词语的文件的数目,再将商取对数
4,TF-IDF的计算:TF与IDF的乘积
5,将分词后的持久化语料库文件dat利用TF-IDF策略转化,并持久化的代码见文件

#coding=utf-8

import sys
import os 
from sklearn.datasets.base import Bunch  # 导入Bunch类
import cPickle as pickle  #导入持久化类

from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer   # TF-IDF向量转换类
from sklearn.feature_extraction.text import TfidfVectorizer   # TF-IDF向量生成类


reload(sys)
sys.setdefaultencoding('utf-8')  #UTF-8输出环境

# 读取和写入Bunch对象的函数

def readbunchobj(path):   # 读取bunch对象函数
    file_obj = open(path,"rb")
    bunch = pickle.load(file_obj)  # 使用pickle.load反序列化对象
    file_obj.cloase()
    return bunch

def writebunchobj(path,bunchobj):   # 写入bunch对象函数
    file_obj = open(path,"wb")
    pickle.dump(bunchobj,file_obj)   # 持久化对象
    file_obj.close()

###################################从训练集生成TF-IDF向量词袋

# 1,导入分词后的词向量Bunch对象
path = "train_word_bag/train_set.dat"  # 词向量空间保存路径(就是分词后持久化的文件路径)
bunch = readbunchobj(path)   # 调用函数读取bunch对象,赋值给bunch

# 2,构想TF-IDF词向量空间对象,也是一个Bunch对象
tfidfspace = Bunch(target_name=bunch.target_name,label=bunch.label,filenames=bunch.filenames,tdm=[],vocabulary=[])     # 构建Bunch对象,将bunch的部分值赋给他

# 3,使用TfidfVectorizer初始化向量空间模型
vectorizer = TfidfVectorizer(stop_words=stpwrdlist,sublinear_tf=True,max_df=0.5)
transformer=TfidfTransformer()   # 创建一个该类的实例,该类会统计每个词语的TF-IDF权值
# 文本转化为词频矩阵,单独保存字典文件
tfidfspace.tdm = vectorilzer.fit_transform(bunch.contents)  # 将bunch.content的内容……赋给模型的tdm值
tfidfspace.vocabulary = vectorizer.vocabulary   # ????????????????

# 4,持久化TF-IDF向量词袋
space_path = "train_word_bag/tfidfspace.dat"   # 词向量词袋保存路径
writebunchobj(space_path,tfidfspace)  # 调用写入函数,持久化对象

新澳门萄京娱乐场官网 1

1,模块分类:

1)分类和回归算法:广义线性模型,支持向量机,kNN,朴素贝叶斯,决策树,特征选择
2)聚类算法:K-means
3)维度约简:PCA
4)模型选择:交叉验证
5)数据预处理:标准化,去除均值率和方差缩放,正规化,二值化,编码分类特征,缺失值的插补

以正常网站和不可描述网站的 deion 为例,对应的词云图如下:

中文语言的文本分类技术和流程:

1)预处理:去除文本的噪声信息:HTML标签,文本格式转换
2)中文分词:使用中文分词器为文本分词,并去除停用词
3)构建词向量空间:统计文本词频,生成文本的词向量空间
4 ) 权重策略--TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征
5)分类器:使用算法训练分类器
6)评价分类结果:分类器的测试结果分析

A={0,1},表示具体的类别,即是不可描述网站还是普通网站。因此上述公式可以表示为:

2.2.7 分类结果评估

机器学习领域的算法评估的指标:
(1)召回率(查全率):检索出的相关文档数和文档库中所有的相关文档数的比率,是衡量检索系统的查全率
召回率=系统检索到的相关文件/系统所有相关的文档总数
(2)准确率(精度):检索出的相关文档数与检索出的文档总数的比率
准确率=系统检索到的相关文件/系统所有检索到的文件总数
(3)Fp-Measure
Fp=(p2 1)PR/(p2P R),P是准确率,R是召回率
p=1时,就是F1-Measure
文本分类项目的分类评估结果评估:代码见文件

import numpy as np
from sklearn import metrics

def metrics_result(actual,predict):
    print '精度:{0:3f}'.format(metrics.precision_score(actual,predict))
    print '召回:{0:0.3f}'.format(metrics.recall_score(actual,predict))
    print 'f1-score:{0:3f}'.format(metrics.f1_score(actual,predict))

metrics_result(test_set.label,predicted)

#输出形式如
#精度:0.991
#召回:0.990
#f1-score:0.990
  1. 将每一行单词全部转化为小写,排除大小写的干扰。因为在本文场景下大小写词语所代表的含义基本相同,不予区分
  2. 切词,依据就是空格,逗号等分隔符,将句子切分成一个个的单词。当然由于本文的语料全部来源于网页,这其中词语的分隔都会具有一些网页的属性,比如语料中会由很多特殊的符号,如 | - _ , &# 等符号,需要进行排除
  3. 排除一些停用词。所谓的停用词通常指的是英语中的冠词,副词等,经过上一步骤切分出来的单词可能会包括 an,and,another,any 等。因此需要将这些无意义词去除掉当然你也可以使用 nltk 中自带的停用词(from nltk.corpus import stopwords),但是有的时候会根据具体的应用场景,加入相应的停用词,因此自定义停用词词典可能灵活性更高一些。比如在上一步骤中会切分出“&#”等等符号,因此需要将 &# 加入到停用词中。关于停止词,我这里面使用了一个较为常用的停用词字典,同时加入了在网页中一些常见停用词。
  4. 提取词干。由于英文的特殊性,一个词会有多种状态,比如 stop,stops,stopping 的词干都是 stop,通常情况所表示的含义都是相同的,只需要 stop 一个即可。但是对于我们的二分类应用场景来说,我一开始没有做词干的提取因为不可描述网站中的 hottest 和常见网站中共的 hot 还是有点差异的。当然这一步可以根据具体的应用场景以及识别结果进行选择。
  5. 排除数字。数字在一些不可描述网站中时经常出现的,但是为了我这边还是将其排除,比如 1080 在不可描述网站和正常的网站中出现的概率都很高,表示视频的分辨率,当然这一步也是可选的。当然数字也可以加入停止词中,但是由于数字数量较多,同时比较好鉴别(isdigit() 函数鉴别即可),因此对于数字的排除单独拿出来。
2.2.2 中文分词介绍

1,中文分词:将一个汉字序列(句子)切分成一个单独的词(中文自然语言处理的核心问题)
2,中文分词的算法:基于概率图模型的条件随机场(CRF)
3,分词后文本的结构化表示:词向量空间模型,主题模型,依存句法的树表示,RDF的图表示
4,本项目的分词系统:采用jieba分词
5, jieba分词支持的分词模式:默认切分,全切分,搜索引擎切分
6,jieba分词的代码见文件:对未分词语料库进行分词并持久化对象到一个dat文件(创建分词后的语料文件:train_corpus_seg)

#coding=utf-8

import sys
import os
import jieba

reload(sys)
sys.setdefaultencoding('utf-8')    # 配置UTF-8输出环境

#定义两个函数,用于读取和保存文件

def savefile(savpath,content):   # 定义一个用于保存文件的函数
    fp = open(savepath,"wb")
    fp.write(content)
    fp.close()

def readfile(path):    # 定义一个用于读取文件的函数
    fp = open(path,"rb")
    content = fp.read()
    fp.close()
    return content    #函数返回读取的内容


# 以下是整个语料库的分词主程序

corpus_path = "train_corpus_small/"   # 未分词分类语料库路径
seg_path = "train_corpus_seg/"  # 分词后分类语料库路径

catelist = os.listdir(corpus_path) #os.listdir获取cor_path下的所有子目录

for mydir in catelist:       # 遍历所有子目录
    class_path = corpus_path mydir "/"  #构造分类子目录的路径
    seg_dir = seg_path mydir "/"  #构造分词后的语料分类目录

    if not os.path.exists(seg_dir):  # 是否存在目录,如果没有则创建
        os.makedirs(seg_dir)

    file_list = os.listdir(class_path)  # 获取目录下的所有文件

    for file_path in file_list:      # 遍历目录下的所有文件
        fullname = class_path file_path    #文件路径
        content = readfile(full.name).strip()   # 读取文件,strip()用于移除字符串头尾指定的字符,即移除头尾的空格
        content = content.replace("rn","").strip()  # 将空格和换行替代为无
        content_seg = jieba.cut(content)    # 利用jieba分词

        savefile(seg_dir file_path," ".join(content_seg))   # 调用函数保存文件,保存路径为:seg_dir file_path,用空格将分词后的词连接起来

print "中文语料分词结束"


#############################################################################

# 为了便于后续的向量空间模型的生成,分词后的文本还要转换为文本向量信息并对象化
# 引入Scikit-Learn的Bunch类

from sklearn.datasets.base import Bunch
bunch = Bunch{target_name=[],label=[],filename=[],contents=[]}

# Bunch类提供键值对的对象形式
#target_name:所有分类集名称列表
#label:每个文件的分类标签列表
#filename:文件路径
#contents:分词后的文件词向量形式

wordbag_path = "train_word_bad/train_set.dat"  #分词语料Bunch对象持久化文件路径
seg_path = "train_corpus_seg/"   #分词后分类语料库路径(同上)

catelist = os.listdir(seg_path)  # 获取分词后语料库的所有子目录(子目录名是类别名)
bunch.target_name.extend(catelist)   # 将所有类别信息保存到Bunch对象

for mydir in catelist:     # 遍历所有子目录
    class_path = seg_path mydir "/" # 构造子目录路径
    file_list = os.listdir(class_path)    # 获取子目录内的所有文件
    for file_path in file_list:     # 遍历目录内所有文件
        fullname = class_path file_path    # 构造文件路径
        bunch.label.append(mydir)      # 保存当前文件的分类标签(mydir为子目录即类别名)
        bunch.filenames.append(fullname)  # 保存当前文件的文件路径(full_name为文件路径)
        bunch.contents.append(readfile(fullname).strip())  # 保存文件词向量(调用readfile函数读取文件内容)

file_obj = open(wordbad_path,"wb")  # 打开前面构造的持久化文件的路径,准备写入
pickle.dump(bunch,file_obj)   # pickle模块持久化信息,bunch是要持久化的文件,已添加了信息。file_obj是路径
file_obj.close()
# 之所以要持久化,类似游戏中途存档,分词后,划分一个阶段,将分词好的文件存档,后面再运行就不用重复分词了

print "构建文本对象结束!!"      

# 持久化后生成一个train_set.dat文件,保存着所有训练集文件的所有分类信息
# 保存着每个文件的文件名,文件所属分类和词向量

对于 P(Fn|C) 表示的某个类别下某个单词的概率(P(sex|0),表示不可描述网站集合中所有词中,sex 单词出现的概率),P(C) 表示某个类别的文本占比(p(0)表示不可描述网站数量占比),这些都是可以对文本进行统计得到的。而 P(F1F2...Fn) 是一个与类别无关的量,可以不与计算。因此可以看出最终是计算具有 F1F2...Fn 特征的文本属于不可描述网站(P(0|F1F2...Fn))和普通网站(P(1|F1F2...Fn))的概率,哪个概率大就归为那一类。当然关于朴素贝叶斯模型的原理,由于篇幅有限,就不过的阐述了。

文本预处理的步骤:

1,选择处理的文本的范围:整个文档或其中段落
2,建立分类文本语料库:
训练集语料:已经分好类的文本资源。(文件名:train_corpus_small)
测试集语料:待分类的文本语料(本项目的测试语料随机选自训练语料)(文件名:test_corpus)
3,文本格式转换:统一转换为纯文本格式。(注意问题:乱码)
4,检测句子边界:标记句子结束

本文由新澳门萄京娱乐场官网发布于互联网,转载请注明出处:新澳门萄京娱乐场官网:用机器学习怎样鉴别不

关键词: