某某茶叶有限公司欢迎您!
金沙棋牌在线 > 金沙棋牌在线 > 4. 三元运算/集合/字符串操作

4. 三元运算/集合/字符串操作

时间:2019-12-29 06:38

字符串操作优化

字符串对象

字符串对象或者其等价对象 (如 char 数组),在内存中总是占据最大的空间块,因此如何高效地处理字符串,是提高系统整体性能的关键。

String 对象可以认为是 char 数组的延伸和进一步封装,它主要由 3 部分组成:char 数组、偏移量和 String 的长度。char 数组表示 String 的内容,它是 String 对象所表示字符串的超集。String 的真实内容还需要由偏移量和长度在这个 char 数组中进行定位和截取。

String 有 3 个基本特点:

  1. 不变性;

  2. 针对常量池的优化;

  3. 类的 final 定义。

不变性指的是 String 对象一旦生成,则不能再对它进行改变。String 的这个特性可以泛化成不变 (immutable) 模式,即一个对象的状态在对象被创建之后就不再发生变化。不变模式的主要作用在于当一个对象需要被多线程共享,并且访问频繁时,可以省略同步和锁等待的时间,从而大幅提高系统性能。

针对常量池的优化指的是当两个 String 对象拥有相同的值时,它们只引用常量池中的同一个拷贝,当同一个字符串反复出现时,这个技术可以大幅度节省内存空间。

下面代码 str1、str2、str4 引用了相同的地址,但是 str3 却重新开辟了一块内存空间,虽然 str3 单独占用了堆空间,但是它所指向的实体和 str1 完全一样。代码如下清单 1 所示。

Java的基本数据类型和运算,Java数据类型运算

编码

ASCII--0~127  65-A  97-a

西欧码表---ISO-8859-1---0-255---1个字节

gb2312----0-65535---gbk---2个字节

Unicode编码体系---utf-8---3个字节

中  f

bit位 Byte字节 1Byte = 8bit   1KB=1024B  MB GB TB PB---计算机中存储单位

Java中的二进制及基本的位运算,Java二进制运算

[TOC]

清单 1. 示例代码
public class StringDemo {
 public static void main(String[] args){
 String str1 = "abc";
 String str2 = "abc";
 String str3 = new String("abc");
 String str4 = str1;
 System.out.println("is str1 = str2?"+(str1==str2));
 System.out.println("is str1 = str3?"+(str1==str3));
 System.out.println("is str1 refer to str3?"+(str1.intern()==str3.intern()));
 System.out.println("is str1 = str4"+(str1==str4));
 System.out.println("is str2 = str4"+(str2==str4));
 System.out.println("is str4 refer to str3?"+(str4.intern()==str3.intern()));
 }
}

输出如清单 2 所示。

常量

整数常量---所有的整数 3,99,107

小数常量---所有的小数  3.5  100.9

字符常量---用单引号将一个字母、数字、符号标识起来 ‘a’  ‘=’ ‘ ’

字符串常量---用双引号将一个或者多个字符标识起来 “abc” “234” “q2” “”

布尔常量---用于表示逻辑值---true/false

空常量---null

5-整数, 5.0-小数  ‘5’-字符 “5”-字符串 ‘5.0’-写法错误 “5.0”-字符串

Java中的二进制及基本的位运算



  二进制是计算技术中广泛采用的一种数制。二进制数据是用0和1两个数码来表示的数。它的基数为2,进位规则是“逢二进一”,借位规则是“借一当二”,由18世纪德国数理哲学大师莱布尼兹发现。当前的计算机系统使用的基本上是二进制系统,数据在计算机中主要是以补码的形式存储的。计算机中的二进制则是一个非常微小的开关,用“开”来表示1,“关”来表示0。

  那么Java中的二进制又是怎么样的呢?让我们一起来揭开它神秘的面纱吧。


三元运算:

可以将条件语句看成简化结构:
结果标识 = a / b
'/'是针对a的一个判断比较,成立则输出a,使结果标识赋值为a
b也需要是一个值,当'/'这个判断不成立的时候,输出。
但是b也同时可以是另外一个嵌套的三元运算,因为三元运算的结果一定是一个值

>>> a = 3
>>> b = 5
>>> c = a if a<b else b
>>> c
3
>>> a = 7
>>> c  = a if a<b else b
>>> c
5
清单 2. 输出结果
is str1 = str2?true
is str1 = str3?false
is str1 refer to str3?true
is str1 = str4true
is str2 = str4true
is str4 refer to str3?true

SubString 使用技巧

String 的 substring 方法源码在最后一行新建了一个 String 对象,new String(offset+beginIndex,endIndex-beginIndex,value);该行代码的目的是为了能高效且快速地共享 String 内的 char 数组对象。但在这种通过偏移量来截取字符串的方法中,String 的原生内容 value 数组被复制到新的子字符串中。设想,如果原始字符串很大,截取的字符长度却很短,那么截取的子字符串中包含了原生字符串的所有内容,并占据了相应的内存空间,而仅仅通过偏移量和长度来决定自己的实际取值。这种算法提高了速度却浪费了空间。

下面代码演示了使用 substring 方法在一个很大的 string 独享里面截取一段很小的字符串,如果采用 string 的 substring 方法会造成内存溢出,如果采用反复创建新的 string 方法可以确保正常运行。

进制

二进制:满二进一,0~1 1+1=10 0b10011 0b0011,从JDK1.7开始,允许以0b作为开头来标识一个数字是一个二进制数字

八进制:满八进一,0~7, 7+1=10 要求必须以0作为开头 06  015

十进制:满十进一,0~9

十六进制:满十六进一,0~9,,A~F,9+1=A f+1=10 要求以0x作为开头 0x5  0xad

一、Java内置的进制转换

有关十进制转为二进制,和二进制转为十进制这种基本的运算方法这里就不展开讲了。

在Java中内置了几个方法来帮助我们进行各种进制的转换。如下图所示(以Integer整形为例,其他类型雷同):

图片 1

1,十进制转化为其他进制:

1 二进制:Integer.toHexString(int i);
2 八进制:Integer.toOctalString(int i);
3 十六进制:Integer.toBinaryString(int i);

2,其他进制转化为十进制:

1 二进制:Integer.valueOf("0101",2).toString;
2 八进制:Integer.valueOf("376",8).toString;
3 十六进制:Integer.valueOf("FFFF",16).toString;

3,使用Integer类中的parseInt()方法和valueOf()方法都可以将其他进制转化为10进制。

不同的是parseInt()方法的返回值是int类型,而valueOf()返回值是Integer对象。


进制:

  • 八进制--------->三个二进制位一组进行运算
    oct()
  • 十六进制---------->四个二进制位一组进行运算
    hex()
清单 3.substring 方法演示
import java.util.ArrayList;
import java.util.List;

public class StringDemo {
 public static void main(String[] args){
 List<String> handler = new ArrayList<String>();
 for(int i=0;i<1000;i++){
 HugeStr h = new HugeStr();
 ImprovedHugeStr h1 = new ImprovedHugeStr();
 handler.add(h.getSubString(1, 5));
 handler.add(h1.getSubString(1, 5));
 }
 }

 static class HugeStr{
 private String str = new String(new char[800000]);
 public String getSubString(int begin,int end){
 return str.substring(begin, end);
 }
 }

 static class ImprovedHugeStr{
 private String str = new String(new char[10000000]);
 public String getSubString(int begin,int end){
 return new String(str.substring(begin, end));
 }
 }
}

输出结果如清单 4 所示。

进制的转换

十进制转换成二进制:不断除以2取余,然后将余数倒排

 

二进制转换成十进制:从低位次起,按位次乘以2的位次次幂,然后求和

 

二进制转换成八进制:从低位次起,每三位划分为一组,不足三位补0,产生一位八进制数字,将这些数字按序排列即可

八进制转换成二进制:一变三---一位八进制数字产生三位二进制数字

二进制转换成十六进制:四变一的过程

二、基本的位运算

二进制可以和十进制一样加减乘除,但是它还有更简便的运算方式就是——位运算。比如在计算机中int类型的大小是32bit,可以用32位的二进制数来表示,所以我们可以用位运算来对int类型的数值进行计算,当然你也可以用平常的方法来计算一些数据,这里我主要为大家介绍位运算的方法。我们会发现位运算有着普通运算方法不可比拟的力量。更多位运算应用请转移到我下篇博文《神奇的位运算》

首先,看一下位运算的基本操作符:

图片 2

优点:

  • 特定情况下,计算方便,速度快,被支持面广
  • 如果用算数方法,速度慢,逻辑复杂
  • 位运算不限于一种语言,它是计算机的基本运算方法

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

元组

元组(tuple)===>只读列表
使用的符号是‘()’
特点是不可更改,在代码规范中,即表示:元组中存储的数据是不应该被修改的
但是实际上可以再次赋值更改成list,用于修改tuple
list = list(tuple元组)
tuple = tuple(list元组)

python中的帮助文档方法:dir(xxx)
把括号内的数据类型的可用方法打印出来

清单 4. 输出结果
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Unknown Source)
at java.lang.StringValue.from(Unknown Source)
at java.lang.String.<init>(Unknown Source)
at StringDemo$ImprovedHugeStr.<init>(StringDemo.java:23)
at StringDemo.main(StringDemo.java:9)

ImprovedHugeStr 可以工作是因为它使用没有内存泄漏的 String 构造函数重新生成了 String 对象,使得由 substring() 方法返回的、存在内存泄漏问题的 String 对象失去所有的强引用,从而被垃圾回收器识别为垃圾对象进行回收,保证了系统内存的稳定。

String 的 split 方法支持传入正则表达式帮助处理字符串,但是简单的字符串分割时性能较差。

对比 split 方法和 StringTokenizer 类的处理字符串性能,代码如清单 5 所示。

切分字符串方式讨论

String 的 split 方法支持传入正则表达式帮助处理字符串,操作较为简单,但是缺点是它所依赖的算法在对简单的字符串分割时性能较差。清单 5 所示代码对比了 String 的 split 方法和调用 StringTokenizer 类来处理字符串时性能的差距。

变量

 

System.out.println(i);

int i = 5;---不行---变量必须先声明在使用

int i;

System.out.println(i);---不行----变量在使用之前必须先初始化

(一)按位与&

两位全为1,结果才为1

0&0=0;0&1=0;1&0=0;1&1=1

例如:51&5 即0011 0011 & 0000 0101 =0000 0001 因此51&5=1.

特殊用法

(1)清零。如果想将一个单元清零,即使其全部二进制位为0,只要与一个各位都是零的数值相与,结果为零。

(2)取一个数中指定位。

例如:设X=10101110,取X的低四位,用X&0000 1111=0000 1110即可得到。

方法:找一个数,对应x要取的位,该数的对应位为1,其余位为零,此数与x进行“与运算”可以得到x中的指定位。

集合

清单 5.String 的 split 方法演示
import java.util.StringTokenizer;

public class splitandstringtokenizer {
 public static void main(String[] args){
 String orgStr = null;
 StringBuffer sb = new StringBuffer();
 for(int i=0;i<100000;i++){
 sb.append(i);
 sb.append(",");
 }
 orgStr = sb.toString();
 long start = System.currentTimeMillis();
 for(int i=0;i<100000;i++){
 orgStr.split(",");
 }
 long end = System.currentTimeMillis();
 System.out.println(end-start);

 start = System.currentTimeMillis();
 String orgStr1 = sb.toString();
 StringTokenizer st = new StringTokenizer(orgStr1,",");
 for(int i=0;i<100000;i++){
 st.nextToken();
 }
 st = new StringTokenizer(orgStr1,",");
 end = System.currentTimeMillis();
 System.out.println(end-start);

 start = System.currentTimeMillis();
 String orgStr2 = sb.toString();
 String temp = orgStr2;
 while(true){
 String splitStr = null;
 int j=temp.indexOf(",");
 if(j<0)break;
 splitStr=temp.substring(0, j);
 temp = temp.substring(j+1);
 }
 temp=orgStr2;
 end = System.currentTimeMillis();
 System.out.println(end-start);
 }
}

输出如清单 6 所示:

数据类型

(二)按位或 |

只要有一个为1,结果就为1。

0|0=0; 0|1=1;1|0=1;1|1=1;

例如:51|5 即0011 0011 | 0000 0101 =0011 0111 因此51|5=55

 特殊用法

常用来对一个数据的某些位置1。

方法:找到一个数,对应x要置1的位,该数的对应位为1,其余位为零。此数与x相或可使x中的某些位置1。

语法:{}

和字典的差别就是,字典是有value值的,set没有

集合是可变类型。但是集合内的元素一定是不可变的数据类型

清单 6. 运行输出结果
39015
16
15

当一个 StringTokenizer 对象生成后,通过它的 nextToken() 方法便可以得到下一个分割的字符串,通过 hasMoreToken 方法可以知道是否有更多的字符串需要处理。对比发现 split 的耗时非常的长,采用 StringTokenizer 对象处理速度很快。我们尝试自己实现字符串分割算法,使用 substring 方法和 indexOf 方法组合而成的字符串分割算法可以帮助很快切分字符串并替换内容。

由于 String 是不可变对象,因此,在需要对字符串进行修改操作时 (如字符串连接、替换),String 对象会生成新的对象,所以其性能相对较差。但是 JVM 会对代码进行彻底的优化,将多个连接操作的字符串在编译时合成一个单独的长字符串。

以上实例运行结果差异较大的原因是 split 算法对每一个字符进行了对比,这样当字符串较大时,需要把整个字符串读入内存,逐一查找,找到符合条件的字符,这样做较为耗时。而 StringTokenizer 类允许一个应用程序进入一个令牌(tokens),StringTokenizer 类的对象在内部已经标识化的字符串中维持了当前位置。一些操作使得在现有位置上的字符串提前得到处理。 一个令牌的值是由获得其曾经创建 StringTokenizer 类对象的字串所返回的。

基本数据类型

数值型

整数型

byte---字节型---1个字节--- -2^7~2^7-1 --- -128~127

byte b = 5; byte b2 = -128;

short---短整型---2个字节--- -2^15~2^15-1 --- -32768~32767

short s = 54; short s = -900;

int---整型---4个字节--- -2^31~2^31-1

int i = 100000;

int  j = 100_000_000;--从JDK1.7开始是允许的。在编译的时候会自动忽略这些_ ->  int  j = 100000000;

int  i = 00001111;---八进制

Java中整数默认类型就是int

long---长整型---8个字节--- -2^63~2^63-1---以L作为结尾标识这个数字是一个long类型的数字

long l = 3L;

浮点型

float---单精度---4个字节---必须以f作为结尾

float f = 3.2f;

double---双精度---8个字节

Java中小数默认是double类型

double d = 3.5;

double d = 4.6D;---可以

double d = 3.9e4; //是十进制的科学计数法

double d = 0x3p2; //是十六进制的科学计数法  -> 12

字符型

char---2个字节--- 0 ~65535

char c  = ‘a’;

char c = ‘中’;

布尔型

boolean---true/false

boolean b = false;

(三)异或 ^

两个相应位为“异”(值不同),则该位结果为1,否则为0

0^0=0; 0^1=1; 1^0=1; 1^1=0;

例如:51^5 即0011 0011 ^ 0000 0101 =0011 0110 因此51^5=54

特殊用法

(1)  与1相异或,使特定位翻转

方法:找一个数,对应X要翻转的位,该数的对应为1,其余位为零,此数与X对应位异或即可。

例如:X=1010 1110,使X低四位翻转,用X^0000 1111=1010 0001即可得到。

(2)  与0相异或,保留原值

例如:X^0000 0000 =1010 1110

(3)两个变量交换值

1.借助第三个变量来实现

C=A;A=B;B=C;

2.利用加减法实现两个变量的交换

 A=A+B;B=A-B;A=A-B;

3.用位异或运算来实现,也是效率最高的

原理:一个数异或本身等于0 ;异或运算符合交换律

A=A^B;B=A^B;A=A^B

主要作用:

  1. 关系测试
>>> s = set('abeevijlsijgle')
>>> s
{'a', 'e', 'g', 'v', 'i', 'b', 'l', 's', 'j'}
>>> t = frozenset('pythonman')
>>> t
frozenset({'p', 'y', 'o', 'a', 't', 'h', 'n', 'm'})
  1. 去重
'''最简单的去重方式'''
lis = [1,2,3,4,1,2,3,4]
print list(set(lis))    #[1, 2, 3, 4]
清单 7.split 类源代码
import java.util.ArrayList;

public class Split {
public String[] split(CharSequence input, int limit) { 
int index = 0; 
boolean matchLimited = limit > 0; 
ArrayList<String> matchList = new ArrayList<String>(); 
Matcher m = matcher(input); 
// Add segments before each match found 
while(m.find()) { 
if (!matchLimited || matchList.size() < limit - 1) { 
String match = input.subSequence(index, m.start()).toString(); 
matchList.add(match); 
index = m.end(); 
} else if (matchList.size() == limit - 1) { 
// last one 
String match = input.subSequence(index,input.length()).toString(); 
matchList.add(match); 
index = m.end(); 
} 
} 
// If no match was found, return this 
if (index == 0){ 
return new String[] {input.toString()}; 
}
// Add remaining segment 
if (!matchLimited || matchList.size() < limit){ 
matchList.add(input.subSequence(index, input.length()).toString()); 
}
// Construct result 
int resultSize = matchList.size(); 
if (limit == 0){ 
while (resultSize > 0 && matchList.get(resultSize-1).equals("")) 
resultSize--; 
 String[] result = new String[resultSize]; 
 return matchList.subList(0, resultSize).toArray(result); 
}
}

}

split 借助于数据对象及字符查找算法完成了数据分割,适用于数据量较少场景。

合并字符串

由于 String 是不可变对象,因此,在需要对字符串进行修改操作时 (如字符串连接、替换),String 对象会生成新的对象,所以其性能相对较差。但是 JVM 会对代码进行彻底的优化,将多个连接操作的字符串在编译时合成一个单独的长字符串。针对超大的 String 对象,我们采用 String 对象连接、使用 concat 方法连接、使用 StringBuilder 类等多种方式,代码如清单 8 所示。

引用数据类型

类---class  接口---interface   数组---[]

(四)取反与运算~

对一个二进制数按位取反,即将0变为1,1变0

~1=0 ;~0=1

集合的操作符

  • in
  • not in
  • ==
  • !=
  • </<= 是严格子集/是自己
  • >/>= 是严格超集/是超集
  • & 交集
  • | 合集

还有反向差集(对称差分):^
只要两个集合之间互不存在的全部打印
查补或相对补集:-
以上两种运算我都不太知道意义是什么,所以就不放出来了
留一个参考链接:
http://www.cnblogs.com/BeginMan/p/3160565.html

清单 8. 处理超大 String 对象的示例代码
public class StringConcat {
 public static void main(String[] args){
 String str = null;
 String result = "";

 long start = System.currentTimeMillis();
 for(int i=0;i<10000;i++){
 str = str + i;
 }
 long end = System.currentTimeMillis();
 System.out.println(end-start);

 start = System.currentTimeMillis();
 for(int i=0;i<10000;i++){
 result = result.concat(String.valueOf(i));
 }
 end = System.currentTimeMillis();
 System.out.println(end-start);

 start = System.currentTimeMillis();
 StringBuilder sb = new StringBuilder();
 for(int i=0;i<10000;i++){
 sb.append(i);
 }
 end = System.currentTimeMillis();
 System.out.println(end-start);
 }
}

输出如清单 9 所示。

数据类型的转换

隐式转换/自动类型转换

byte b = 100;

int i = b;

long l = 63;---可以---当整数的值在int类型的范围内的时候,可以不用添加L这个结尾

规律一:小的类型可以转化为大的类型---byte->short->int->long  float->double

int i = 5;

float f = i;

long l = 6;

float f = l;

规律二:整数可以转化为小数,但是可能产生精度损失

char c = ‘a’;

int i = c;

规律三:字符型可以转化为整型

short s = ‘a’;---可以

char c = 100;---可以

 

char c = ‘a’;

short s = c;---不可以

定义了char类型的变量c,存储的数据是一个字符,不需要检查具体的字符编码,当赋值给short类型的时候,short需要检查这个字符对应的编码是否在short类型的取值范围内,这个时候无法确定这个字符对应的具体编码,由于short类型的取值范围和char类型没有完全重合,为了防止出现超过范围的情况,不允许赋值。

 

short s = 97;

char c = s;--不可以

 

显式转换/强制类型转换

long l = 54;

int i = (int)l;

double d = 3.5;

int i = (int)d;---小数强转成整数的时候,小数部分直接舍弃

double类型不能精确存储小数

Hexadecimal--十六进制

Decimal--十进制

Octal---八进制

Binary--二进制

(五)左移<<

将一个运算对象的各二进制位全部左移若干位(左边的二进制位丢弃,右边补0)

例如: 2<<1 =4    10<<1=100

若左移时舍弃的高位不包含1,则每左移一位,相当于该数乘以2。

例如:

       11(1011)<<2= 0010 1100=22

       11(00000000 00000000 00000000 1011)整形32bit

集合的使用方法

set.intersection(set_oth) 交集
set.difference(set_oth) 差集
set.union(set_oth) 并集

清单 9. 运行输出结果
375
187
0

虽然第一种方法编译器判断 String 的加法运行成 StringBuilder 实现,但是编译器没有做出足够聪明的判断,每次循环都生成了新的 StringBuilder 实例从而大大降低了系统性能。

StringBuffer 和 StringBuilder 都实现了 AbstractStringBuilder 抽象类,拥有几乎相同的对外借口,两者的最大不同在于 StringBuffer 对几乎所有的方法都做了同步,而 StringBuilder 并没有任何同步。由于方法同步需要消耗一定的系统资源,因此,StringBuilder 的效率也好于 StringBuffer。 但是,在多线程系统中,StringBuilder 无法保证线程安全,不能使用。代码如清单 10 所示。

运算符

(六)右移>>

将一个数的各二进制位全部右移若干位,正数左补0,负数左补1,右边丢弃。若右移时舍高位不是1(即不是负数),操作数每右移一位,相当于该数除以2。

左补0还是补1得看被移数是正还是负。

例如:4>>2=4/2/2=1

        -14(即1111 0010)>>2 =1111 1100=-4

集合的增删改查

  • s.add()
    添加一个元素到集合中,如果集合的长度不变,则可以起到判断去重的效果
  • s.update()
    合并,和union效果相同,但是union并不修改原集,.update()会把合集赋值给s
  • s.difference_update()
    求差集,将两个集合的差集赋值给s,
  • s.discard()
    删除集合s中的一个元素,元素不存在不会报错
    可以批量删除集合内的一批元素吗,或者说删除一个子集?
  • s.pop()
    随机删除一个元素,里面不能指定值,只能随机选择
  • s.remove()
    删除,但是如果元素不存在,会报错
  • s.issubset()
    判断是不是子集