大数据 - MaxSSL

更新

浏览

Elasticsearch：利用搜索提高医疗保健公平 – 用多语言 NLP 模型和分析来改善最终用户体验

随着更高生产力和更健康的人群寿命更长，医疗保健将成为社会最重要的方面之一。COVID-19大流行加速了现代技术的采用，并凸显了患者体验的重要性。随着越来越多的消费者开始控制他们的数据，医疗...

文章

MaxSSL2年前

Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化1.案例介绍案例背景：对App下载和评分数据分...

文章

MaxSSL3年前

大数据时代，数据仓库究竟是干嘛的？

前言无论你是否专门从事大数据开发，作为一个开发人员，应该都听说过数据仓库的概念，那你知道为什么会出现数据仓库？数据仓库究竟是干嘛的吗？有什么价值和意义呢？那么本文就带到入门，揭开数...

文章

MaxSSL3年前

【我亲身经历的2022年软件质量工作】

软件危机（softwarecrisis），20世纪60年代以前，计算机刚刚投入实际使用，软件设计往往只是为了一个特定的应用而在指定的计算机上设计和编制，采用密切依赖于计算机的机器代码或汇编语言，软件...

文章

MaxSSL3年前

SPL 和 SQL 能不能融合在一起？

文章目录SPL和SQL能不能融合在一起？SPL资料SPL和SQL能不能融合在一起？SQL和SPL都是面向结构化数据的通用处理技术。SQL普及率高受众广，很多用户天生就会用SQL查询数据，如果数据引擎支持SQL就...

文章

MaxSSL3年前

CSDN博客运营团队2022年H2总结

前言在2022年的年中，我们对外公布了我们的年中盘点：2022年上半年部分团队的总结我们希望尽可能的公开我们的工作内容，让更多人可以了解CSDN的变化，同时也希望收到大家的真实反馈：你期待的新...

文章

MaxSSL3年前

120

实训任务4：Hadoop综合操作

文章目录1.启动Hadoop服务2.创建文本文件3.上传文本文件4.显示文件内容5.完成排序任务6.计算最大利润和平均利润1.启动Hadoop服务在master虚拟机上执行命令：start-all.sh2.创建文本文件在maste...

文章

MaxSSL3年前

【Flink】Flink Starting Offset 启动消费位置指定时间消费

文章目录1.概述2.测试3.源码1.概述首先参考文章：【Flink】Flink1.14.0全新的KafkaConnectorKafkaSource能够通过指定OffsetsInitializer来消费从不同偏移量开始的消息。内置的…

文章

MaxSSL3年前

客快物流大数据项目（九十六）：ClickHouse的VersionedCollapsingMergeTree深入了解

文章目录ClickHouse的VersionedCollapsingMergeTree深入了解一、创建VersionedCollapsingMergeTree引擎表的语法二、折叠数据三、使用示例ClickHouse的Version…

文章

MaxSSL3年前

130

大数据HDFS凭啥能存下百亿数据？

前言大家平时经常用的百度网盘存放电影、照片、文档等，那有想过百度网盘是如何存下那么多文件的呢？难到是用一台计算机器存的吗？那得多大磁盘啊？显然不是的，那本文就带大家揭秘。分布式存储...

文章

MaxSSL3年前

120

大数据项目之电商数仓、日志采集Flume、source、channel、 sink、Kafka的三个架构

文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink…

文章

MaxSSL3年前

客快物流大数据项目（八十二）：Kudu的读写原理

Kudu的读写原理一、工作模式Kudu的工作模式如下图，有些在上面的内容中已经介绍了，这里简单标注一下：每个kudutable按照hash或range分区为多个tablet；每个tablet中包含一个MemR...

文章

MaxSSL3年前

100

加载更多