文章浏览阅读129次。一、队列 // 创建一个可变队列 val queue: mutable.Queue[String] = new mutable.Queue[String]() //进队 queue.enqueue("a", "b", "c") //出队,打印a println(queue.dequeue()) // 不可变队列 val queue2: Qu......
2024-01-23 02:19 阅读 阅读全文文章浏览阅读1w次。使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star_spark 多个 act......
2024-01-24 05:30 阅读 阅读全文文章浏览阅读1.8k次。日常扯:好饿啊,还没吃晚饭。这周心态爆炸,水一个论文总结吧原文连接:知网:大数据环境下决策树算法并行化研究主要研究问题 决策数算法(ID3)并行化为什么重要 大数据环境下像决策树这种传统算法......
2024-01-24 04:44 阅读 阅读全文文章浏览阅读1.6k次。由于Spark在使用JDBC方式读取关系型模型数据的时候,默认采用单线程任务执行。在数据量较大时,经常发现内存溢出、性能低的问题。在扩大内存读取后进行重分区,又会消耗时间,浪费资源。因此,开发......
2024-01-23 23:14 阅读 阅读全文文章浏览阅读1.5w次。1、TaskManager 和 SlotFlink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。 Slot 是进程,如果使用Flink on Yarn 模式......
2024-01-23 03:46 阅读 阅读全文首先介绍一下爬虫所需要的的包 require(“request”); –get post请求页面 require(“cheerio”) –解析文本对象为DOM对象 也就是说将string 装换为 js操作的 $() 这种选择器 require(‘fs’); – 保存文件到本地 require(“async”) –流程控制 主要......
2023-10-13 19:03 阅读 阅读全文文章浏览阅读1.6k次。先将a~b分成p份,然后将每个p份分为n份,对于最小的n份,其在x轴的长度为(b-a)/p/n=h,那么这最小的一份的面积就是h乘以高度,高度是cos(该长方形的在x轴的中点的坐标),其中该长方形的在x轴的中点的坐标=a......
2024-01-24 05:28 阅读 阅读全文文章浏览阅读791次。[MySQL] 号称永久解决了复制延迟问题的并行复制,MySQL5.7一、缘由: 某天看到主从复制延时的告警有点频繁,就想着是不是彻底可以解决一下。 一般主从复制,有三个线程参与,都是单线程:Binlog Dump......
2023-11-12 05:12 阅读 阅读全文文章浏览阅读1.2k次。StreamingFileSink是Flink1.7中推出的新特性,可以用来将分区文件写入到支持 Flink FileSystem 接口的文件系统中,支持Exactly-Once语义。文档:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/connectors/streamfile_sink.html1......
2024-01-23 11:29 阅读 阅读全文