python一次性封装多条sql语句（begin end）

2022-12-31 10:46:36

python封装利用begin end执行多条sql

因为业务需求，优化模型运行时间。考虑到sql语句每一次执行都要建立连接，查询，获取数据耗时过多。就想到将sql一起提交上去运行，能够节省很多时间。原本1.6-2.5秒耗时的sql语句经过修改后时间降到0.3-0.6秒，感觉性能提升挺好的。
当然还有一种想法，如果有python框架的orm可能会更快，相比来说耗时基本看不到了吧，这只是我的猜想，仅仅为了优化一个模型写一个框架的话代码可能需要改的比较多，自我感觉付出和收获不一定会成正比，当然以后有时间可以试试。
这次优化基本代码逻辑没有动，利用了begin end进行sql整合。
公司用的是oracle，之前没用过但是感觉和mysql基本类似，如果是mysql的话该方法也可用
sql_str = ‘begin\n’
sql_str += ‘这里时需要执行的sql语句’
sql_str += ‘\ncommit;end;’
中间sql有多少条无所谓，看了一下运行时间感觉我的一千行sql耗时几乎就是这一千行里面耗时最长那个时间。是异步完成还是什么这个就不是很清楚了，主要是一次建立连接，省去网络传输数据和请求数据库的过程
网上好多begin end都是在可视化工具中的sql执行的，并不能在command中执行，这就意味中我们代码中封装的语句没有卵用，还好没放弃当时就研究了一下找到了解决办法
在end 提交一下就ok了，如果在command中运行一直未结束的话加一个 / 斜线就ok了

本次内容就此结束，下面是一些题外话。
在说一个其中遇到的问题吧，在进行sql封装后，其中很多表都很乱，约束很乱而且逻辑并不严谨，但是模型正在运行还不让动那只能按照这个规则来了
ORA 00001 违反唯一约束条件其中出现了这个问题，意思就是唯一约束重复了，因为模型输入问题，处理出来的结果之前可能刚插入到数据库中（也就是上面的sql_str 出现了两天相同的insert），这个东西很简单，加一个set判断一下就行，但是到这之后，一个bug就跳出来了，这个脚本计算的是因子重要度，结果预测可能每次都不相同，有些数据很小的可能就当成0扔进去了，所以我需要做的是将相同数据的情况下插入较为重要的因子重要度（也无需要），这样的话简简单单的set就不行了，但是也不难用来一下字典

  importance_map = ｛｝
  实现创建好字典
  if feature in importance_map:
                if importance_map[feature] < importance:
                    sql_str +=‘***************‘’’ 这里就是insert语句了
                else:
                    continue
            else:
                importance_map[feature] = importance

其实这个东西也没有什么难点，但是做到这之后就有很多想法折射出来。
数据处理原本也可以用pandas进行，但是pandas是对所有数据进行操作，我一个set只对重复数据进行操作，切pandas内存消耗极为严重，前两天写的特征工程内存炸裂。表数据用完后内存并没有得到释放，这里面就涉及到python的垃圾回收，用法至今没有搞懂，还需要研究研究，gc是对循环引用进行垃圾回收，内存释放。但是这个pandas并不是循环引用，我认为是在存储在缓存区中，位置占死了，就很烦
模型毕竟是在服务器上面跑，尽量快切省内存，不然你把内存占了别人的项目怎么玩。所以就用这种方法。

很少写博客，主要是记录一下问题以后再出现了好应对。当然如果能够帮助正在修复bug中的你，也是乐意至极。那块说的有问题或者解释不清楚，可以留言。谢谢