String类是Java编程语言中最为重要的对象之一。通常,字符串对象在内存中总是占据了很大的空间,因此,如何高效的处理字符串是提升系统性能的关键。这也是String操作总是出现先面试题中的原因所在。
2 String类的特点String类是Java语言中重要的数据类型,但它并不是Java的基本数据类型。在C语言中,对字符串的处理通常的做法是使用char数组,但这种方式的弊端是显而易见的,即数组本身无法封装字符串操作所需要的基本方法。在Java语言中,Java的设计者对String对象进行了大量的优化,主要表现在以下3个方面:
不变性;在Java语言中String字符串一旦创建,则不能再对它进行修改。这一特性主要作用于当一个对象需要被多线程共享,并且访问频繁时,可以省略同步和锁等待的时间,从而大幅提高系统性能。
常量池;当两个String对象拥有相同的值时,它们只引用常量池中的同一个拷贝。当同一个字符串反复出现时,这个技术可以大幅度节省内存空间。
类的final定义作为final类的String对象在系统中不能有任何子类,这主要是对系统安全性的保护。
下面我们通过一段代码示例,来分析一下String内存分配机制。
String s1 = "aaa";String s2 = "aaa";String s3 = new String("aaa");System.out.println(s1==s2);System.out.println(s1==s3);System.out.println(s1==s3.intern());
输出:
truefalsetrue
以上代码显示s1和s2引用了相同的地址,但是s3却重新开辟了一块内存空间。我们又通过intern()方法发现s1和s3所指向的实体是一样的。由此我们可以确定s1和s3引用了常量池中的同一个引用。如下图所示:
String常量池内存
3 String操作 3.1 字符串查找在软件开发过程中经常会遇到这样的问题:判断一个字符串的开始和结束子串是否等于某个子串。例如,判断字符串str是否以Java开头,通常的做法是可以使用String类的startWith()方法。但即便是这样的Java内置函数,其效率也远远低于charAt()方法。
因此,在高频率情况下建议使用charAt()方法。
3.2 字符串分割字符串分割是处理字符串的最常用的方法之一。字符串分割是指将一个原始字符串,根据某个分割符切割成一组小字符串。
方案一:String对象的split()方法便实现了这个功能。 String.split()方法使用简单,功能强大,但是效率最差,在性能敏感的系统中频繁使用这个方法是不可取的。 方案二:StringTokenizer类是JDK中提供的专门用来处理字符串分割子串的工具类。StringTokenizer性能优于split()方法,因此在能够使用StringTokenizer的模块中,就没有必要使用split();
方案三:使用String类的两个方法——indexOf()和substring()手动完成字符串分割算法。虽然性能最好,但是代码的可读性和系统的可维护性最差。
因此,在实际的软件开发过程中,开发人员需要在系统的各个方面进行权衡,采用最合适的方法处理问题。
3.3 字符串拼接很多时候,程序开发过程中并不能预知字符串的实际值,因此需要在程序运行过程中通过拼接的形式动态生成字符串。例如:
String str = "大家好,"+"我是"+"码农洞见";
然而上段代码的效率并不高,为了更高效的生成字符串,需要使用StringBuffer和StringBuilder类。
StringBuilder str = new StringBuilder();str.append("大家好,");str.append("我是");str.append("码农洞见");
3.4 StringBuilder和StringBuffer的选择 它们都实现了AbstractStringBuilder抽象类,拥有几乎相同的对外接口。两者的最大不同在于,StringBuffer几乎对所有的方法都做了同步,而String-Builder并没有做任何同步。 由于方法同步需要消耗一定的系统资源,因此StringBuilder的效率也高于StringBuffer。但是在多线程系统中,StringBuilder无法保证线程的安全,不能使用。
无论是StringBuilder还是StringBuffer,在初始化时都可以设置一个容量参数。如果能够预先评估StringBuilder的大小,则能够有效地减少容量扩充的操作,从而提高系统的性能。
4 码农来洞见很多时候,开发人员的一些不以为然的习惯往往造成了系统性能的下降。通过上面的讲解我们不难发现,其实,很多优化并没有想象中那么复杂和困难。我们只要稍微思考权衡一下系统可能就会因为这一转变而产生巨大的变化。不要因为这段代码性能不差几毫秒,然而对于一个系统来说,代码片段量何其庞大,少许的差别累加起来就会造成几秒甚至更大的差距。