黑派客的技术文章、集册、实例源码

时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

登录注册

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

黑派客

增量累加、拉链算法等8种ETL算法汇总。

以上共计累积了8种ETL算法，其中主要分成4大类，增量累加、拉链算法是更符合数据仓库历史数据追踪的算法，但现实中基于业务及性能考虑，往往存在全删全插、增量累全算法的数据表应用。

黑派客 2020-07-03 08:59:56 2020-07-03 08:59:56

增量，累加，拉链，算法， ETL
Kafka 发布/订阅工作流程及原理。

Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用与大数据实时处理领域。

黑派客 2020-07-02 13:22:32 2020-07-02 01:19:34

Kafka，发布，订阅，工作，流程，原理
AnalyticDB数据库轻松实现以图搜图。

以图搜图在生活中有着广泛的应用, 当我们在电视上看到有人穿着一件美丽的裙子或者帅气的球鞋也想拥有时, 我们可以拍张照片然后打开淘宝然后上传照片就可以快速的找到这个商品. 我们看到一张电影截图想知道出处的时候只要将图片粘贴到百度或者谷歌的图搜框中就可以找到相关电影的信息. 以图搜图还可以通过照片在海量的人物相册中快速的找到想要找的目标. 当您在使用百度谷歌等搜索引擎的以图搜图功能的时候的时候是否觉得这种"黑科技"遥不可及呢?

黑派客 2020-07-01 19:17:05 2020-07-01 07:17:05

AnalyticDB，数据库，以图搜图
Hadoop数据压缩策略和压缩方式

压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，IO操作和网络数据传输要花大量的时间。还有， Shuffle与 Merge过程同样也面临着巨大的IO压力鳘于磁盘IO和网络带宽是 Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘IO和网络传输非常有帮助。

黑派客 2020-07-01 18:44:17 2020-07-01 06:44:17

Hadoop，压缩，策略
Docker安全性与攻击面分析

Docker是一个用于开发，交付以及运行应用程序的开放平台。Docker使开发者可以将应用程序与基础架构进行分离，从而实现软件的快速交付。借助Docker，开发者可以像管理应用程序一样管理基础架构。开发者可以通过Docker进行快速交付，测试和代码部署。这大大减少了编写代码与在生产环节实际部署代码之间的用时。

黑派客 2020-07-01 18:28:56 2020-07-01 06:28:56

Docker，安全，攻击，分析
谈谈机器学习入门

这里不是让你从新去啃线性代数，去看概率论、微积分的书，当然啃下来肯定是有帮助，但我们从效率的角度来说，其实只需要几个知识点，或者说，书本里的几个章节。

黑派客 2020-07-01 18:23:14 2020-07-01 06:23:14

机器学习，入门
Apache Spark 3.0.0发布及新特性解析

Apache Spark 3.0.0版本包含3400多个补丁，是开源社区做出巨大贡献的结晶，在Python和SQL功能方面带来了重大进展并且将重点聚焦在了开发和生产的易用性上。同时，今年也是Spark开源10周年，这些举措反映了Spark自开源以来，是如何不断的满足更广泛的受众需求以及更多的应用场景。

黑派客 2020-07-01 18:15:11 2020-07-01 06:13:35

Apache， Spark，发布，新特性，解析
大数据开发需要学习哪些编程语言

大数据开发需要学什么编程语言？随着大数据的持续升温，越来越多的人投身于大数据的浪潮之中，不少完全没基础的小伙伴，难免会有这样的疑问，从事大数据需要学习什么编程语言呢？其实这个问题没有固定的答案，像Python、R、Java和Scala都是很好的选择，大家可以根据自身的实际情况进行选择

黑派客 2020-07-01 18:06:37 2020-07-01 06:06:37

大数据，开发，学习，编程，语言
Hadoop大数据架构简介及安装应用入门。

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

黑派客 2020-07-01 17:09:11 2020-07-01 05:06:55

Hadoop，大数据，架构，安装，应用，入门
HBase常见运维工具

HBase作为当前比较热门和广泛使用的NoSQL数据库，由于本身设计架构和流程上比较复杂，对大数据经验较少的运维人员门槛较高，本文对当前HBase上已有的工具做一些介绍以及总结。

黑派客 2020-07-01 16:20:33 2020-07-01 04:19:55

HBase，运维，工具
查询耗时降低2/3，携程度假搜索引擎架构优化

携程度假搜索引擎（以下简称为引擎）：携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎，用来查找符合从出发地到目的地的相关旅游产品（跟团、自由行、邮轮、游学、主题游等），是一个典型的O2O搜索引擎（Online To Offline）。

黑派客 2020-07-01 14:00:39 2020-07-01 02:00:39

查询，耗时，搜索引擎，架构，优化
Linux系统CPU负载查询命令：vmstat和top。

在Linux系统中，查看进程的常用命令如下所示。本文主要介绍vmstat和top。

黑派客 2020-07-01 13:58:33 2020-07-01 01:54:47

Linux， CPU，负载，查询，命令， vmstat， top
MySQL数据库优化技巧大全

MySQL数据库优化技巧大汇总，优化MySQL所在服务器内核(此优化一般由运维人员完成)。对MySQL配置参数进行优化（my.cnf）此优化需要进行压力测试来进行参数调整。

黑派客 2020-06-30 18:49:27 2020-06-30 06:49:27

MySQL，数据库，优化，技巧，汇总
spark的文件组织方式

在大数据/数据库领域，数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者，支持了多种数据文件存储方式。

黑派客 2020-06-30 18:42:30 2020-06-30 06:39:52

spark，文件，组织，方式
Spark的读写流程分析

众所周知，在大数据/数据库领域，数据的存储格式直接影响着系统的读写性能。spark是一种基于内存的快速、通用、可扩展的大数据计算引擎，适用于新时代的数据处理场景。

黑派客 2020-06-30 18:40:17 2020-06-30 06:38:45

Spark，读写，流程，分析
如何实现替换直播背景？

与图像识别不同，AI 分析理解视频的技术门槛较高。长期以来，业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS（ Densely Annotated Video Segmentation）为例，该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息，过去几年，全球顶级科技在该比赛中的成绩从未突破 80 分，而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。

黑派客 2020-06-30 17:59:48 2020-06-30 05:59:48

替换，直播，背景
合理设计系统的错误编码。

每家公司错误码风格都不尽相同，有使用纯数字的，有使用纯英文的，也有使用字母和数字组合的。也接触过很多内部系统，错误码设计也不尽相同。

黑派客 2020-06-30 15:03:34 2020-06-30 03:03:00

设计，系统，错误，编码
怎么做能降低软件复杂性。

在进行软件开发时，我们常常会追求软件的高可维护性，高可维护性意味着当有新需求来时，系统易扩展；当出现bug时，开发人员易定位。而当我们说一个系统的可维护性太差时，往往指的是该系统太过复杂，导致给系统增加新功能时容易出现bug，而出现bug之后又难以定位。

黑派客 2020-06-30 15:00:34 2020-06-30 03:00:34

软件，复杂性
JDBC问题定位指南和异常处理

JDBC（Java数据库连接性）是Java API，用于管理与数据库的连接，发出查询和命令以及处理从数据库获得的结果集。JDBC在1997年作为JDK 1.1的一部分发布，是为Java持久层开发的首批组件之一。

黑派客 2020-06-28 14:13:09 2020-06-28 02:13:09

JDBC，问题，异常
上亿条数据，如何查询分析简单又高效？

数据孤岛：电商部门的数据存在数仓A、门店经营收入数据存在数仓B，如何便捷的进行多仓联合分析？PB级数据量：多电商平台+全国线下门店每天将产生TB级数据量，年数据量高达PB级！

黑派客 2020-06-28 14:09:30 2020-06-28 02:09:30

数据，查询，分析，高效

个人简介

黑派客
没有留下介绍
获得 44146 积分
https://nowjava.com/creator/10035

黑派客

增量累加、拉链算法等8种ETL算法汇总。

Kafka 发布/订阅工作流程及原理。

AnalyticDB数据库轻松实现以图搜图。

Hadoop数据压缩策略和压缩方式

Docker安全性与攻击面分析

谈谈机器学习入门

Apache Spark 3.0.0发布及新特性解析

大数据开发需要学习哪些编程语言

Hadoop大数据架构简介及安装应用入门。

HBase常见运维工具

查询耗时降低2/3，携程度假搜索引擎架构优化

Linux系统CPU负载查询命令：vmstat和top。

MySQL数据库优化技巧大全

spark的文件组织方式

Spark的读写流程分析

如何实现替换直播背景？

合理设计系统的错误编码。

怎么做能降低软件复杂性。

JDBC问题定位指南和异常处理

上亿条数据，如何查询分析简单又高效？

个人简介

黑派客

没有留下介绍

获得 44146 积分

https://nowjava.com/creator/10035

热门标签

社区

关于