当前位置:首页 - 第7页

03月06日

kafka安装配置 linux

发布 : xiaohuanglv | 分类 : 大数据精品文章 | 评论 : 0 | 浏览 : 564次

1、下载http://mirrors.shuosc.org/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz  下载http://mirror.bit.edu.cn/apache/kafka/1.1.0/kafka_2.12-1.1.0.tgz2、新建zookeeper和kafka文件夹目录,在zookeeper目录新建zkdata、zkdataLog目录,在kafka目录新建kafkaLogs目录。将1步骤中解压后的两个文件夹分别放入zookeeper和kafka目录。3、进入zookeeper的conf目录,将zoo_sample.cfg复制一份zoo.cfg,修改zoo.cfg:dataDir=/h

03月01日

程序员面试题目:请实现一个函数,把字符串中的每个空格替换成"%20"。

发布 : xiaohuanglv | 分类 : 面试笔试 | 评论 : 0 | 浏览 : 994次
程序员面试题目:请实现一个函数,把字符串中的每个空格替换成"%20"。

题目:请实现一个函数,把字符串中的每个空格替换成"%20"。例如输入“Wearehappy.”,则输出“We%20are%20happy.”。时间复杂度为O(n2)的解法,不足以拿到Offer现在我们考虑怎么做替换操作。最直观的做法是从头到尾扫描字符串,每一次碰到空格字符的时候做替换。由于是把1个字符替换成3个字符,我们必须要把空格后面所有的字符都后移两个字节,否则就有两个字符被覆盖了。举个例子,我们从头到尾把"Wearehappy."中的每一个空格替换成"%20"。为了形象起见,我们可以用一个表格来表示字符串,表格中的每个格子表示一个字符假设字符串的长度是n。对每个空格字符,需要移动后面O(n)个字符,因此对含有O(n)个

03月01日

程序员面试题-二维数组中的查找

发布 : xiaohuanglv | 分类 : 面试笔试 | 评论 : 0 | 浏览 : 742次
程序员面试题-二维数组中的查找

题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。解题思路:比如在上图的二维数组中查找元素7,我们每次查找都使用当前数组右上角那个元素与目标元素作比较。比如第一次选右上角的9与7对比,7小于9,显然,9所在那一列不可能有7了,因为那一列最小的元素是9,7比9还小。我们就剔除了这一列!接下来,数组右上角的元素就变为8了,7比8小,因此再剔除这一列。此时数组右上角元素为2了,7比2大,那就剔除2所在的行,这是因为2是在这行的最右边,是这行的最大的元素,7比2大,就比这行所有元素都大,所以剔除这一行。总结一下上面的思路:当target==当前数组

03月01日

spark入门小例子

发布 : xiaohuanglv | 分类 : 大数据精品文章 | 评论 : 0 | 浏览 : 788次

1,pyspark2,spark-shellspark网页管理页面:http://127.0.0.1:4040/jobs/3,设置日志输出:log4j.properties.template。把这个日志设置模版文件复制一份到conf/log4j.properties来作为日志设置文件,接下来找到下面这一行:log4j.rootCategory=INFO,console然后通过下面的设定降低日志级别,只显示警告及更严重的信息:log4j.rootCategory=WARN,console4,修改spark临时文件存放路径: conf下的spark-defaults.conf,增加如下一行:spark.local.dir/diskb/sparktmp,/diskc/spark

03月01日

数据清洗方法

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 772次

1.数据错误脏数据或错误数据比如,温度=-2003,数据不正确‘0’代表真实的0还是代表缺失,数据不一致2.删除重复值删除重复数据或对重复数据进行标记3.离散值检测单变量离群值处理:1)绘图:在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。2)学生化(标准化):用变量除以他们的标准差就可得到学生化数值多变量离群值1)绘图:在图中找出明显的离群值2)聚类法确定离群值(不要对原有数据进行改变):聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))4.加权采样以加权方式生成采样数据。权重列必须为double或int类型,按照该列的value大小采样。例如col的值是1.2

03月01日

git上传代码到github

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 740次
git上传代码到github

一、首先在windows上安装msysgit1、msysgit下载地址如下:链接:https://pan.baidu.com/s/1Tu25cMPK_O3f5ZxafXHXYg 密码:2g8q2、安装过程如下:       二、生成公钥给git服务端1、在gitbash输入:ssh-keygen连续敲回车即可,生成id_rsa.pub和id_rsa 2、在gitbash中输入:cat.ssh/id_rsa.pub 3、在浏览器打开http://10.110.180.53/index.php,使用itcode/itcode登陆,可以修改密码。 我的用户名是gaofeng20&n

02月01日

HDFS加密区加密过程

发布 : xiaohuanglv | 分类 : 大数据精品文章 | 评论 : 0 | 浏览 : 749次

HDFS加密区(encryptionzone)中的每个文件都使用唯一的数据加密密钥(dataencryptionkey,DEK)进行加密,明文DEK被区域级加密密钥:加密区密钥(encryptionzonekey,EZK)加密成加密的数据加密密钥(encryptedDEK,EDEK)。DEK不被永久保存,EDEK作为指定文件NameNode元数据中的扩展属性永久保存。KMS:Hadoop密钥管理服务,KMS负责生成加密密钥(EZK和DEK)、与keyserver通信以及解密EDEK。KMS通过KeyProvider与keyserver进行通信。HDFS客户端向HDFS加密区中写入一个新文件时,发生的事件序列。(1)HDFS客户端调用create()函数写新

02月01日

hive永久注册udf函数小例子

发布 : xiaohuanglv | 分类 : 大数据精品文章 | 评论 : 0 | 浏览 : 691次
hive永久注册udf函数小例子

注册UDF函数(1)helloUDF.java中package信息需要修改,代码如下:/*packagecom.maven.udf;*/package org.apache.hadoop.hive.ql.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;/** *一个UDF:helloUDF */public class helloUDFextends UDF{  &n

01月29日

TensorFlow机器学习开发环境搭建

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 580次
TensorFlow机器学习开发环境搭建

1 机器学习环境搭建显卡信息:NVIDIACorporationGK110BGL[TeslaK40c]查看显卡信息:lspci|grep-Ivga nvidia-smi显卡安装位置:10.110.181.40node16.sleap.com10.110.181.41node17.sleap.com1.1 显卡驱动安装系统自带显卡驱动 1.1.1 禁用默认驱动nouveaul 方法一:vim/boot/grub/grub.conf添加nouveau.modeset=0表示开机将nouveau.modeset加入黑名单,这样就不用再各种blacklist中设置了。 l 方法二vim/etc/

01月29日

基于Spark 的电影推荐系统

发布 : xiaohuanglv | 分类 : 机器学习精品文章 | 评论 : 0 | 浏览 : 976次
基于Spark 的电影推荐系统

基于大数据的电影推荐系统主要分为两部分:基于历史数据的离线处理和基于实时流的实时处理。离线处理是基于历史数据,实时处理是结合历史数据和实时采集的数据,运用协同过滤算法训练推荐模型,预测各个用户未看电影的评分,为用户推荐评分最高的前10部。系统流程图如图所示: 图1基于大数据的电影推荐系统流程图首先在网上下载推荐引擎数据集MovieLens,保存在Hbase中,在Hbase数据库中包含了用户表(6040个用户),电影表(3853部电影)以及评分表(用户对电影的百万条数据)。推荐引擎会读取Hbase中的评分数据,并使用基于模型的协同过滤算法-ALS对其进行训练,得到初始的模型,使用这个模型对Hbase中所有用户进行图书推荐(取top10),并将推荐结果保存在Hbase中,以上阶

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!