TiDB中addBatch/executebatch无效、效率慢

2022-07-23 08:46:26

默认 Batch 只是将多次addBatch 的 SQL 发送时机延迟到调用executeBatch 的时候,但实际网络发送还是会一条条的发送,通常不会降低与数据库服务器的网络交互次数。如果希望 Batch 网络发送批量插入,需要在 JDBC 连接参数中配置rewriteBatchedStatements=true

默认情况下虽然使用了 batch 但发送到 TiDB 语句还是单独的多条 insert:

insert into t(a) values(10);insert into t(a) values(11);insert into t(a) values(12);

如果设置rewriteBatchedStatements=true,发送到 TiDB 的 SQL 将是:

insert into t(a) values(10),(11),(12);

需要注意的是,insert 语句的改写,只能将多个 values 后的值拼接成一整条 SQL,insert 语句如果有其他差异将无法被改写。例如:

insert into t (a) values (10) on duplicate key update a = 10;insert into t (a) values (11) on duplicate key update a = 11;insert into t (a) values (12) on duplicate key update a = 12;

将无法被改写成一条语句。该例子中,如果将 SQL 改写成如下形式:

insert into t (a) values (10) on duplicate key update a = values(a);insert into t (a) values (11) on duplicate key update a = values(a);insert into t (a) values (12) on duplicate key update a = values(a);

即可满足改写条件,最终被改写成:

insert into t (a) values (10), (11), (12) on duplicate key update a = values(a);


**补充说明:insert into ... on duplicate key update ... values()的含义
1. on duplicate key update 含义:
  1)如果在INSERT语句末尾指定了 on duplicate key update,
      并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值,
      则在出现重复值的行执行UPDATE;
  2)如果不会导致唯一值列重复的问题,则插入新行。

2. values(col_name)函数只是取当前插入语句中的插入值,并没有累加功能。
  如:count = values(count) 取前面 insert into 中的 count 值,并更新
        当有多条记录冲突,需要插入时,前面的更新值都被最后一条记录覆盖,
        所以呈现出取最后一条更新的现象。
  如:count = count + values(count) 依然取前面 insert into 中的 count 值,
        并与原记录值相加后更新回数据库,这样,当多条记录冲突需要插入时,
        就实现了不断累加更新的现象。

注:insert into ... on duplicate key update ... values() 这个语句
    尽管在冲突时执行了更新,并没有插入,但是发现依然会占用 id 序号(自增),
    出现很多丢失的 id 值

  • 作者:其实也没什么
  • 原文链接:https://blog.csdn.net/fang_18014899963/article/details/103876748
    更新时间:2022-07-23 08:46:26