时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

使用 Spring Batch 高效批量处理数据

欢马劈雪

工程师 (已认证)

原创分享签约作者

发表于教程文章

189

一、Spring Batch 是什么

在当今数字化时代，企业每天都会产生和处理海量的数据。无论是电商平台的订单统计、金融机构的交易清算，还是物流企业的货物跟踪，都离不开高效的数据处理技术。而 Spring Batch，作为 Spring 生态系统中一颗璀璨的明星，正是为了解决这些大规模数据处理问题而诞生的。它就像是一位勤劳的幕后工作者，默默地在后台处理着大量的数据任务，为企业的正常运转提供坚实的支持。

Spring Batch 是一个基于 Spring 框架的轻量级批处理框架，它专注于为企业级应用提供高效、可扩展的批量数据处理解决方案。与传统的批处理方式相比，Spring Batch 具有更高的灵活性和可维护性，能够大大简化批处理任务的开发过程。它的出现，让开发人员无需再为复杂的数据读取、处理和写入操作而烦恼，只需专注于业务逻辑的实现，从而提高开发效率，降低开发成本。

二、核心特点剖析

（一）强大的容错机制

在数据处理的过程中，错误就像隐藏在暗处的礁石，随时可能让数据处理的航船触礁搁浅。而 Spring Batch 强大的容错机制，就像是一位经验丰富的船长，能够巧妙地避开这些礁石，确保数据处理任务的顺利进行。它支持跳过错误数据和重试失败操作，避免单个数据错误导致整个任务失败。

例如，在处理一个包含大量用户信息的 CSV 文件时，其中某一行数据的格式可能存在错误，如年龄字段出现了非数字字符。如果没有容错机制，整个任务可能会因为这一行错误数据而中断。但 Spring Batch 可以配置为跳过这一行错误数据，继续处理其他正确的数据。同时，对于一些由于暂时性原因（如网络波动、数据库连接短暂中断）导致的操作失败，Spring Batch 可以自动进行重试。假设在将处理后的数据写入数据库时，由于数据库短暂的负载过高导致写入失败，Spring Batch 会按照预设的重试策略，多次尝试写入操作，直到成功或者达到最大重试次数。通过这种方式，Spring Batch 大大提高了批处理任务的稳定性和可靠性。

（二）基于 Spring 的事务管理

事务管理在批处理中就像是一场精心编排的交响乐，各个操作必须协调一致，才能保证数据的一致性和完整性。Spring Batch 借助 Spring 强大的事务机制，为批处理任务提供了可靠的事务支持，确保每个 Step 的执行都具有原子性，即要么全部成功，要么全部回滚。

以一个电商订单处理的场景为例，在一个 Step 中，需要从订单表中读取订单数据，然后更新库存表中的库存数量，最后在订单日志表中记录订单处理信息。这一系列操作必须作为一个整体来执行，如果在更新库存时出现错误，但订单数据已经被读取，订单日志也已经记录，就会导致数据不一致。Spring Batch 的事务管理机制可以保证，只有当这三个操作都成功完成时，事务才会提交；如果其中任何一个操作失败，整个事务会回滚，订单表、库存表和订单日志表的数据都不会被修改，从而避免了数据不一致的问题。这种基于 Spring 的事务管理，让开发者无需担心复杂的事务处理逻辑，只需专注于业务逻辑的实现，大大提高了开发效率和数据的安全性。

（三）高效的并行处理

在大数据时代，数据量的增长速度如同汹涌的潮水，传统的单线程处理方式就像一艘小舢板，在这汹涌的潮水中显得力不从心。而 Spring Batch 支持的多线程、分区等并行策略，就像是一艘艘强大的战舰，能够在大数据的海洋中快速前行，大大提升了数据处理的效率。

多线程处理允许在同一时间内并发执行多个任务，从而充分利用 CPU 资源，加快处理速度。例如，在处理一个包含数百万条用户数据的文件时，使用单线程处理可能需要花费数小时甚至数天的时间。而通过配置 Spring Batch 的多线程处理，将数据分成多个块，每个块由一个线程独立处理，可以将处理时间缩短到数分钟甚至更短。分区策略则是将数据按照一定的规则进行划分，每个分区由一个独立的处理单元进行处理。比如，在处理一个全国范围的销售数据时，可以按照地区进行分区，每个地区的数据由一个独立的进程或线程进行处理，这样可以进一步提高处理效率，尤其是在处理大规模数据时，并行处理的优势更加明显。通过对比单线程处理和并行处理，我们可以清晰地看到，并行处理能够显著提升大数据量处理的效率，为企业节省大量的时间和资源。

（四）高度可扩展性

在复杂多变的业务场景中，企业的需求就像变幻莫测的云朵，不断地变化和演进。Spring Batch 的高度可扩展性，就像是一位神奇的魔法师，能够根据企业的需求，灵活地调整和定制批处理任务。它的核心组件，如 ItemReader、ItemProcessor 和 ItemWriter，都可以通过自定义实现，以适配各种复杂的业务场景。

比如，在从特殊数据源读取数据时，Spring Batch 提供的默认 ItemReader 可能无法满足需求。这时，我们可以自定义一个 ItemReader 来实现从该特殊数据源读取数据的功能。假设企业需要从一个特定格式的 XML 文件中读取数据，而 Spring Batch 默认的 XML 文件读取器无法处理这种特殊格式，我们就可以通过实现 ItemReader 接口，编写自定义的读取逻辑，准确地从 XML 文件中提取所需的数据。同样，对于 ItemProcessor 和 ItemWriter，也可以根据业务需求进行自定义实现，从而使 Spring Batch 能够适应各种复杂的业务场景，为企业提供更加灵活、高效的批处理解决方案。

三、实战：从理论到代码

（一）环境搭建

我们先创建一个 Spring Boot 项目，可以使用 Spring Initializr 快速生成项目结构。在依赖选择页面，勾选 “Spring Batch”，同时，如果需要连接数据库，还需添加相应的数据库连接依赖，如 MySQL 的驱动依赖mysql-connector-java 。如果使用 JPA，还需添加spring-boot-starter-data-jpa依赖。

在pom.xml文件中，添加的依赖如下：

<dependencies>

   <!-- Spring Batch核心依赖 -->

   <dependency>

       <groupId>org.springframework.boot</groupId>

       <artifactId>spring-boot-starter-batch</artifactId>

   </dependency>

   <!-- MySQL数据库连接依赖 -->

   <dependency>

       <groupId>mysql</groupId>

       <artifactId>mysql-connector-java</artifactId>

       <scope>runtime</scope>

   </dependency>

   <!-- JPA依赖，如果使用JPA进行数据持久化 -->

   <dependency>

       <groupId>org.springframework.boot</groupId>

       <artifactId>spring-boot-starter-data-jpa</artifactId>

   </dependency>

</dependencies>

接下来，在application.yml文件中配置数据源和 Spring Batch 的基本属性：

spring:

 datasource:

   url: jdbc:mysql://localhost:3306/your\_database\_name?useSSL=false\&serverTimezone=UTC

   username: your\_username

   password: your\_password

   driver-class-name: com.mysql.cj.jdbc.Driver

 batch:

   jdbc:

     initialize-schema: always # 自动初始化Spring Batch所需的表结构

这样，Spring Batch 的基本环境就搭建好了，项目可以正常连接数据库，并准备好执行批处理任务。

（二）核心组件实现

1. 定义数据模型

假设我们要处理用户数据，数据存储在数据库的users表中，表结构包含id（用户 ID，主键）、name（用户名）、age（年龄）和email（邮箱）字段。我们创建与之对应的实体类User：

import javax.persistence.Entity;

import javax.persistence.GeneratedValue;

import javax.persistence.GenerationType;

import javax.persistence.Id;

@Entity

public class User {

   @Id

   @GeneratedValue(strategy = GenerationType.IDENTITY)

   private Long id;

   private String name;

   private Integer age;

   private String email;

   // 生成Getter和Setter方法

   public Long getId() {

       return id;

   }

   public void setId(Long id) {

       this.id = id;

   }

   public String getName() {

       return name;

   }

   public void setName(String name) {

       this.name = name;

   }

   public Integer getAge() {

       return age;

   }

   public void setAge(Integer age) {

       this.age = age;

   }

   public String getEmail() {

       return email;

   }

   public void setEmail(String email) {

       this.email = email;

   }

}

在这个实体类中，@Entity注解表示这是一个 JPA 实体类，对应数据库中的一张表。@Id注解标识id字段为主键，@GeneratedValue注解指定主键的生成策略为自增长。通过定义这个实体类，我们建立了 Java 对象与数据库表之间的映射关系，方便后续的数据读取和写入操作。

2. 实现 ItemReader

以从 CSV 文件读取用户数据为例，我们使用 Spring Batch 提供的FlatFileItemReader来实现ItemReader。假设 CSV 文件users.csv的内容格式为：id,name,age,email，每一行对应一个用户的数据。

import org.springframework.batch.item.file.FlatFileItemReader;

import org.springframework.batch.item.file.builder.FlatFileItemReaderBuilder;

import org.springframework.batch.item.file.mapping.BeanWrapperFieldSetMapper;

import org.springframework.batch.item.file.mapping.DefaultLineMapper;

import org.springframework.batch.item.file.mapping.DelimitedLineTokenizer;

import org.springframework.context.annotation.Bean;

import org.springframework.context.annotation.Configuration;

import org.springframework.core.io.ClassPathResource;

@Configuration

public class BatchConfig {

   @Bean

   public FlatFileItemReader<User> csvItemReader() {

       return new FlatFileItemReaderBuilder<User>()

              .name("userItemReader")

              .resource(new ClassPathResource("users.csv")) // 设置CSV文件路径，这里假设文件在classpath下

              .linesToSkip(1) // 跳过表头

              .lineMapper(new DefaultLineMapper<User>() {{

                   setLineTokenizer(new DelimitedLineTokenizer() {{

                       setNames("id", "name", "age", "email"); // 设置CSV文件列名

                       setDelimiter(","); // 设置分隔符为逗号

                   }});

                   setFieldSetMapper(new BeanWrapperFieldSetMapper<User>() {{

                       setTargetType(User.class); // 将解析后的数据映射到User实体类

                   }});

               }})

              .build();

   }

}

在这段代码中，首先通过FlatFileItemReaderBuilder创建一个FlatFileItemReader实例。设置文件路径为classpath:users.csv，表示从类路径下读取该文件。linesToSkip(1)方法表示跳过第一行，因为第一行是表头信息，不需要读取。lineMapper用于配置如何解析 CSV 文件的每一行数据，通过DelimitedLineTokenizer设置列名和分隔符，再使用BeanWrapperFieldSetMapper将解析后的数据映射到User实体类中。这样，csvItemReader就可以按行从 CSV 文件中读取数据，并将其转换为User对象供后续处理。

3. 实现 ItemProcessor

接下来实现ItemProcessor，对读取到的User对象进行数据处理。例如，我们要过滤掉年龄小于 18 岁的用户，并将邮箱地址转换为小写。

import org.springframework.batch.item.ItemProcessor;

import org.springframework.stereotype.Component;

@Component

public class UserItemProcessor implements ItemProcessor<User, User> {

   @Override

   public User process(User user) throws Exception {

       if (user.getAge() < 18) {

           return null; // 过滤掉年龄小于18岁的用户

       }

       user.setEmail(user.getEmail().toLowerCase()); // 将邮箱转换为小写

       return user;

   }

}

在process方法中，首先判断用户的年龄是否小于 18 岁，如果是，则返回null，表示将该用户过滤掉。然后，将用户的邮箱地址通过toLowerCase方法转换为小写，并返回处理后的User对象。通过实现这个ItemProcessor，我们可以对读取到的数据进行灵活的数据转换和过滤操作，满足业务需求。

4. 实现 ItemWriter

以将处理后的数据写入 MySQL 数据库为例，我们可以使用 JPA 或 MyBatis 实现ItemWriter。这里先展示使用 JPA 的方式，通过JpaItemWriter将User对象写入数据库。

import org.springframework.batch.item.database.JpaItemWriter;

import org.springframework.context.annotation.Bean;

import org.springframework.orm.jpa.LocalEntityManagerFactoryBean;

import javax.persistence.EntityManagerFactory;

public class BatchConfig {

   @Bean

   public LocalEntityManagerFactoryBean entityManagerFactory() {

       LocalEntityManagerFactoryBean factoryBean = new LocalEntityManagerFactoryBean();

       factoryBean.setPersistenceUnitName("persistenceUnit");

       return factoryBean;

   }

   @Bean

   public JpaItemWriter<User> jpaItemWriter(EntityManagerFactory entityManagerFactory) {

       JpaItemWriter<User> writer = new JpaItemWriter<>();

       writer.setEntityManagerFactory(entityManagerFactory);

       return writer;

   }

}

在上述代码中，首先通过LocalEntityManagerFactoryBean创建一个EntityManagerFactory，用于管理 JPA 的实体管理器。然后，在jpaItemWriter方法中，创建一个JpaItemWriter实例，并将EntityManagerFactory注入其中。这样，JpaItemWriter就可以利用 JPA 的机制将User对象写入数据库。

如果使用 MyBatis 实现ItemWriter，我们需要自定义一个ItemWriter类，并使用 MyBatis 的SqlSessionTemplate或MyBatis-Plus等工具来执行数据插入操作。假设我们使用MyBatis-Plus，代码如下：

import com.baomidou.mybatisplus.core.conditions.Wrapper;

import com.baomidou.mybatisplus.core.mapper.BaseMapper;

import com.baomidou.mybatisplus.extension.toolkit.SqlHelper;

import org.mybatis.spring.SqlSessionTemplate;

import org.springframework.batch.item.ItemWriter;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.stereotype.Component;

import java.util.List;

@Component

public class MyBatisPlusItemWriter implements ItemWriter<User> {

   @Autowired

   private BaseMapper<User> userMapper;

   @Override

   public void write(List<? extends User> users) throws Exception {

       userMapper.insertBatchSomeColumn(users);

   }

}

在这个实现中，通过@Autowired注入User实体类对应的BaseMapper，然后在write方法中调用MyBatis-Plus提供的insertBatchSomeColumn方法，将用户数据批量插入到数据库中。通过这两种不同的方式，我们可以根据项目的技术选型和需求，灵活选择合适的ItemWriter实现来将处理后的数据持久化到数据库中。

（三）配置 Job 和 Step

通过JobBuilderFactory和StepBuilderFactory构建Job和Step，定义批处理任务的流程和执行逻辑。

import org.springframework.batch.core.Job;

import org.springframework.batch.core.Step;

import org.springframework.batch.core.configuration.annotation.EnableBatchProcessing;

import org.springframework.batch.core.configuration.annotation.JobBuilderFactory;

import org.springframework.batch.core.configuration.annotation.StepBuilderFactory;

import org.springframework.batch.core.launch.support.RunIdIncrementer;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.context.annotation.Bean;

import org.springframework.context.annotation.Configuration;

@Configuration

@EnableBatchProcessing

public class BatchConfig {

   @Autowired

   private JobBuilderFactory jobBuilderFactory;

   @Autowired

   private StepBuilderFactory stepBuilderFactory;

   @Bean

   public Job importUserJob() {

       return jobBuilderFactory.get("importUserJob")

              .incrementer(new RunIdIncrementer())

              .flow(importUserStep())

              .end()

              .build();

   }

   @Bean

   public Step importUserStep() {

       return stepBuilderFactory.get("importUserStep")

              .<User, User>chunk(10)

              .reader(csvItemReader())

              .processor(userItemProcessor())

              .writer(jpaItemWriter(entityManagerFactory().getObject()))

              .build();

   }

}

在上述代码中，importUserJob方法定义了一个名为importUserJob的Job，使用RunIdIncrementer作为增量器，确保每次运行Job时生成唯一的标识。flow方法指定了Job的执行流程，这里只有一个Step，即importUserStep。

展开阅读全文

本文系作者在时代Java发表，未经许可，不得转载。

如有侵权，请联系nowjava@qq.com删除。

编辑于 08-03 21:38:302025-08-03 21:38:30

教程文章

文章订阅