当前位置:首页 » 机器学习精品文章 - 第1页

04月14日

领域知识库构建及信息检索系统

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 3767次
领域知识库构建及信息检索系统

系统源码及原文免费下载地址请访问:www.54manong.com一、 系统简介通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留。在完成语料预处理后进行知识挖掘,首先基于领域词典,对去噪处理后的信息进行分词、词汇统计分析,最终找出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核心语句中领域概念间的关系,通过本体的推理,形成此文档的概念知识关系网,并保存为xml语法格式,存入数据库。在此基础上通

03月01日

数据清洗方法

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 3271次

1.数据错误脏数据或错误数据比如,温度=-2003,数据不正确‘0’代表真实的0还是代表缺失,数据不一致2.删除重复值删除重复数据或对重复数据进行标记3.离散值检测单变量离群值处理:1)绘图:在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。2)学生化(标准化):用变量除以他们的标准差就可得到学生化数值多变量离群值1)绘图:在图中找出明显的离群值2)聚类法确定离群值(不要对原有数据进行改变):聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))4.加权采样以加权方式生成采样数据。权重列必须为double或int类型,按照该列的value大小采样。例如col的值是1.2

03月01日

git上传代码到github

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 2836次
git上传代码到github

一、首先在windows上安装msysgit1、msysgit下载地址如下:链接:https://pan.baidu.com/s/1Tu25cMPK_O3f5ZxafXHXYg 密码:2g8q2、安装过程如下:       二、生成公钥给git服务端1、在gitbash输入:ssh-keygen连续敲回车即可,生成id_rsa.pub和id_rsa 2、在gitbash中输入:cat.ssh/id_rsa.pub 3、在浏览器打开http://10.110.180.53/index.php,使用itcode/itcode登陆,可以修改密码。 我的用户名是gaofeng20&n

01月29日

TensorFlow机器学习开发环境搭建

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 2960次
TensorFlow机器学习开发环境搭建

1 机器学习环境搭建显卡信息:NVIDIACorporationGK110BGL[TeslaK40c]查看显卡信息:lspci|grep-Ivga nvidia-smi显卡安装位置:10.110.181.40node16.sleap.com10.110.181.41node17.sleap.com1.1 显卡驱动安装系统自带显卡驱动 1.1.1 禁用默认驱动nouveaul 方法一:vim/boot/grub/grub.conf添加nouveau.modeset=0表示开机将nouveau.modeset加入黑名单,这样就不用再各种blacklist中设置了。 l 方法二vim/etc/

01月29日

基于Spark 的电影推荐系统

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 7762次
基于Spark 的电影推荐系统

基于大数据的电影推荐系统主要分为两部分:基于历史数据的离线处理和基于实时流的实时处理。离线处理是基于历史数据,实时处理是结合历史数据和实时采集的数据,运用协同过滤算法训练推荐模型,预测各个用户未看电影的评分,为用户推荐评分最高的前10部。系统流程图如图所示: 图1基于大数据的电影推荐系统流程图首先在网上下载推荐引擎数据集MovieLens,保存在Hbase中,在Hbase数据库中包含了用户表(6040个用户),电影表(3853部电影)以及评分表(用户对电影的百万条数据)。推荐引擎会读取Hbase中的评分数据,并使用基于模型的协同过滤算法-ALS对其进行训练,得到初始的模型,使用这个模型对Hbase中所有用户进行图书推荐(取top10),并将推荐结果保存在Hbase中,以上阶

01月29日

ETL入门教程

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 4534次

1 ETL详解1.1 ETLhttps://www.cnblogs.com/yjd_hycf_space/p/7772722.htmlETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。1.1.1 ElasticSearch全文搜索引擎:http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html1.1.2 Kibana通过Kibana,能够对Elasticsearch中的数据进行可视化并在ElasticStack进行操作。Kibana核心产品搭载了一批经典功能:柱状图、线状图、饼图、旭日图等。https://www.el

01月16日

常见的采样方法

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 5045次
常见的采样方法

场景描述对于一个随机变量,通常用概率密度函数来刻画该变量的概率分布特性。具体来说,给定随机变量的一个取值,可以根据概率密度函数来计算该值对应的概率(密度)。反过来,也可以根据概率密度函数提供的概率分布信息来生成随机变量的一个取值,这就是采样。因此,从某种意义上来说,采样是概率密度函数的逆向应用。与根据概率密度函数计算样本点对应的概率值不同,采样过程往往没有那么直接,通常需要根据待采样分布的具体特点来选择合适的采样策略。知识点逆变换采样,拒绝采样,重要性采样问题 抛开那些针对特定分布而精心设计的采样方法,说一些你所知道的通用采样方法或采样策略,简单描述它们的主要思想以及具体操作步骤。难度:★★★☆☆分析与解答几乎所有的采样方法都是以均匀分布随机数作为基本操作。均匀分布随机数一般用线性同余法来产

01月16日

均匀分布随机数

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 3804次
均匀分布随机数

场景描述均匀分布是指整个样本空间中的每一个样本点对应的概率(密度)都是相等的。根据样本空间是否连续,又分为离散均匀分布和连续均匀分布。均匀分布可以算作是最简单的概率分布。从均匀分布中进行采样,即生成均匀分布随机数,几乎是所有采样算法都需要用到的基本操作。然而,即使是如此简单的分布,其采样过程也并不是显然的,需要精心设计一定的策略。知识点概率统计,线性同余问题 如何编程实现均匀分布随机数生成器?难度:★☆☆☆☆分析与解答首先需要明确的是,计算机程序都是确定性的,因此并不能产生真正意义上的完全均匀分布随机数,只能产生伪随机数(伪随机数是指这些数字虽然是通过确定性的程序产生的,但是它们能通过近似的随机性测试)。另外,由于计算机的存储和计算单元只能处理离散状态值,因此也不能产生连续均匀分布随机数,只

01月16日

采样的作用

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 4745次

古人云:“知秋一叶,尝鼎一脔”,其中就蕴含着采样的思想。采样,顾名思义,就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地适应后期的模型学习;可以用于随机模拟以进行复杂模型的近似求解或推理。另外,采样在数据可视化方面也有很多应用,可以帮助人们快速、直观地了解数据的结构和特性。对于一些简单的分布,如均匀分布、高斯分布等,很多编程语言里面都有直接的采样函数。然而,即使是这些简单分布,其采样过程也并不是显而易见的,仍需要精心设计。对于比较复杂的分布,往往并没有直接的采样函数可供调用,这时就需要其他更加复杂的采样方法。因此,对采样方法的深入理解是很有必要的。我们会通过一系列的问题与解答来展现采样的

12月21日

最小二乘法的详细推导过程-比之前见过的推导都简单!!!

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 2904次

最小二乘法发展于天文学和大地测量学领域,科学家和数学家尝试为大航海探索时期的海洋航行挑战提供解决方案。准确描述天体的行为是船舰在大海洋上航行的关键,水手不能再依靠陆上目标导航作航行。

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!