深度学习
题目:请实现一个函数,把字符串中的每个空格替换成"%20"。例如输入“Wearehappy.”,则输出“We%20are%20happy.”。时间复杂度为O(n2)的解法,不足以拿到Offer现在我们考虑怎么做替换操作。最直观的做法是从头到尾扫描字符串,每一次碰到空格字符的时候做替换。由于是把1个字符替换成3个字符,我们必须要把空格后面所有的字符都后移两个字节,否则就有两个字符被覆盖了。举个例子,我们从头到尾把"Wearehappy."中的每一个空格替换成"%20"。为了形象起见,我们可以用一个表格来表示字符串,表格中的每个格子表示一个字符假设字符串的长度是n。对每个空格字符,需要移动后面O(n)个字符,因此对含有O(n)个
题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。解题思路:比如在上图的二维数组中查找元素7,我们每次查找都使用当前数组右上角那个元素与目标元素作比较。比如第一次选右上角的9与7对比,7小于9,显然,9所在那一列不可能有7了,因为那一列最小的元素是9,7比9还小。我们就剔除了这一列!接下来,数组右上角的元素就变为8了,7比8小,因此再剔除这一列。此时数组右上角元素为2了,7比2大,那就剔除2所在的行,这是因为2是在这行的最右边,是这行的最大的元素,7比2大,就比这行所有元素都大,所以剔除这一行。总结一下上面的思路:当target==当前数组
1,pyspark2,spark-shellspark网页管理页面:http://127.0.0.1:4040/jobs/3,设置日志输出:log4j.properties.template。把这个日志设置模版文件复制一份到conf/log4j.properties来作为日志设置文件,接下来找到下面这一行:log4j.rootCategory=INFO,console然后通过下面的设定降低日志级别,只显示警告及更严重的信息:log4j.rootCategory=WARN,console4,修改spark临时文件存放路径: conf下的spark-defaults.conf,增加如下一行:spark.local.dir/diskb/sparktmp,/diskc/spark
1.数据错误脏数据或错误数据比如,温度=-2003,数据不正确‘0’代表真实的0还是代表缺失,数据不一致2.删除重复值删除重复数据或对重复数据进行标记3.离散值检测单变量离群值处理:1)绘图:在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。2)学生化(标准化):用变量除以他们的标准差就可得到学生化数值多变量离群值1)绘图:在图中找出明显的离群值2)聚类法确定离群值(不要对原有数据进行改变):聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))4.加权采样以加权方式生成采样数据。权重列必须为double或int类型,按照该列的value大小采样。例如col的值是1.2
HDFS加密区(encryptionzone)中的每个文件都使用唯一的数据加密密钥(dataencryptionkey,DEK)进行加密,明文DEK被区域级加密密钥:加密区密钥(encryptionzonekey,EZK)加密成加密的数据加密密钥(encryptedDEK,EDEK)。DEK不被永久保存,EDEK作为指定文件NameNode元数据中的扩展属性永久保存。KMS:Hadoop密钥管理服务,KMS负责生成加密密钥(EZK和DEK)、与keyserver通信以及解密EDEK。KMS通过KeyProvider与keyserver进行通信。HDFS客户端向HDFS加密区中写入一个新文件时,发生的事件序列。(1)HDFS客户端调用create()函数写新
基于大数据的电影推荐系统主要分为两部分:基于历史数据的离线处理和基于实时流的实时处理。离线处理是基于历史数据,实时处理是结合历史数据和实时采集的数据,运用协同过滤算法训练推荐模型,预测各个用户未看电影的评分,为用户推荐评分最高的前10部。系统流程图如图所示: 图1基于大数据的电影推荐系统流程图首先在网上下载推荐引擎数据集MovieLens,保存在Hbase中,在Hbase数据库中包含了用户表(6040个用户),电影表(3853部电影)以及评分表(用户对电影的百万条数据)。推荐引擎会读取Hbase中的评分数据,并使用基于模型的协同过滤算法-ALS对其进行训练,得到初始的模型,使用这个模型对Hbase中所有用户进行图书推荐(取top10),并将推荐结果保存在Hbase中,以上阶
1 ETL详解1.1 ETLhttps://www.cnblogs.com/yjd_hycf_space/p/7772722.htmlETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。1.1.1 ElasticSearch全文搜索引擎:http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html1.1.2 Kibana通过Kibana,能够对Elasticsearch中的数据进行可视化并在ElasticStack进行操作。Kibana核心产品搭载了一批经典功能:柱状图、线状图、饼图、旭日图等。https://www.el