git.saurik.com Git - apple/xnu.git/blame_incremental

... / ...

Commit	Line	Data
	1	/*
	2	* Copyright (c) 2003 Apple Computer, Inc. All rights reserved.
	3	*
	4	* @APPLE_LICENSE_HEADER_START@
	5	*
	6	* Copyright (c) 1999-2003 Apple Computer, Inc. All Rights Reserved.
	7	*
	8	* This file contains Original Code and/or Modifications of Original Code
	9	* as defined in and that are subject to the Apple Public Source License
	10	* Version 2.0 (the 'License'). You may not use this file except in
	11	* compliance with the License. Please obtain a copy of the License at
	12	* http://www.opensource.apple.com/apsl/ and read it before using this
	13	* file.
	14	*
	15	* The Original Code and all software distributed under the License are
	16	* distributed on an 'AS IS' basis, WITHOUT WARRANTY OF ANY KIND, EITHER
	17	* EXPRESS OR IMPLIED, AND APPLE HEREBY DISCLAIMS ALL SUCH WARRANTIES,
	18	* INCLUDING WITHOUT LIMITATION, ANY WARRANTIES OF MERCHANTABILITY,
	19	* FITNESS FOR A PARTICULAR PURPOSE, QUIET ENJOYMENT OR NON-INFRINGEMENT.
	20	* Please see the License for the specific language governing rights and
	21	* limitations under the License.
	22	*
	23	* @APPLE_LICENSE_HEADER_END@
	24	*/
	25	/* =======================================
	26	* BCOPY, MEMCPY, and MEMMOVE for Mac OS X
	27	* =======================================
	28	*
	29	* Version of 2/20/2003, tuned for G4. The inner loops use DCBA to avoid
	30	* reading destination cache lines. Only the 7450 actually benefits from
	31	* this, and then only in the cold-cache case. On 7400s and 7455s, we
	32	* patch the DCBAs into NOPs.
	33	*
	34	* Register usage. Note we use R2, so this code will not run in a PEF/CFM
	35	* environment. Note also the rather delicate way we assign multiple uses
	36	* to the same register. Beware.
	37	*
	38	* r0 = "w7" or temp (NB: cannot use r0 for any constant such as "c16")
	39	* r2 = "w8" or vrsave ("rv")
	40	* r3 = not used, as memcpy and memmove return 1st parameter as a value
	41	* r4 = source ptr ("rs")
	42	* r5 = count of bytes to move ("rc")
	43	* r6 = "w1", "c16", or "cm17"
	44	* r7 = "w2", "c32", or "cm33"
	45	* r8 = "w3", "c48", or "cm49"
	46	* r9 = "w4", or "cm1"
	47	* r10 = "w5", "c96", or "cm97"
	48	* r11 = "w6", "c128", or "cm129"
	49	* r12 = destination ptr ("rd")
	50	* v0 = permute vector ("vp")
	51	* v1-v4 = qw's loaded from source
	52	* v5-v7 = permuted qw's ("vw", "vx", "vy")
	53	*/
	54	#define rs r4
	55	#define rd r12
	56	#define rc r5
	57	#define rv r2
	58
	59	#define w1 r6
	60	#define w2 r7
	61	#define w3 r8
	62	#define w4 r9
	63	#define w5 r10
	64	#define w6 r11
	65	#define w7 r0
	66	#define w8 r2
	67
	68	#define c16 r6
	69	#define cm17 r6
	70	#define c32 r7
	71	#define cm33 r7
	72	#define c48 r8
	73	#define cm49 r8
	74	#define cm1 r9
	75	#define c96 r10
	76	#define cm97 r10
	77	#define c128 r11
	78	#define cm129 r11
	79
	80	#define vp v0
	81	#define vw v5
	82	#define vx v6
	83	#define vy v7
	84
	85	#define ASSEMBLER
	86	#include <sys/appleapiopts.h>
	87	#include <ppc/asm.h>
	88	#include <machine/cpu_capabilities.h>
	89	#include <machine/commpage.h>
	90
	91	.text
	92	.globl EXT(bcopy_g4)
	93
	94	#define kMedium 32 // too long for inline loopless code
	95	#define kLong 96 // long enough to justify use of Altivec
	96
	97
	98	// Main entry points.
	99
	100	.align 5
	101	bcopy_g4: // void bcopy(const void src, void dst, size_t len)
	102	cmplwi rc,kMedium // short or long?
	103	sub w1,r4,r3 // must move in reverse if (rd-rs)<rc
	104	cmplw cr1,w1,rc // set cr1 blt iff we must move reverse
	105	mr rd,r4 // start to move registers to canonic spot
	106	mr rs,r3
	107	blt+ LShort // handle short operands
	108	dcbt 0,r3 // touch in destination
	109	b LMedium // join medium/long operand code
	110
	111	// NB: memmove() must be 8 words past bcopy(), to agree with comm page addresses.
	112
	113	.align 5
	114	Lmemcpy_g4: // void* memcpy(void dst, void src, size_t len)
	115	Lmemmove_g4: // void* memmove(void dst, const void src, size_t len)
	116	cmplwi rc,kMedium // short or long?
	117	sub w1,r3,r4 // must move in reverse if (rd-rs)<rc
	118	dcbt 0,r4 // touch in the first line of source
	119	cmplw cr1,w1,rc // set cr1 blt iff we must move reverse
	120	mr rd,r3 // must leave r3 alone, it is return value for memcpy etc
	121	bge- LMedium // handle medium or long operands
	122
	123	// Handle short operands.
	124
	125	LShort:
	126	andi. r0,rc,0x10 // test bit 27 separately (faster on G4)
	127	mtcrf 0x01,rc // put length bits 28-31 in cr7
	128	blt- cr1,LShortReverse
	129
	130	// Forward short operands. This is the most frequent case, so it is inline.
	131
	132	beq LShort16 // quadword to move?
	133	lwz w1,0(rs)
	134	lwz w2,4(rs)
	135	lwz w3,8(rs)
	136	lwz w4,12(rs)
	137	addi rs,rs,16
	138	stw w1,0(rd)
	139	stw w2,4(rd)
	140	stw w3,8(rd)
	141	stw w4,12(rd)
	142	addi rd,rd,16
	143	LShort16: // join here to xfer 0-15 bytes
	144	bf 28,2f // doubleword?
	145	lwz w1,0(rs)
	146	lwz w2,4(rs)
	147	addi rs,rs,8
	148	stw w1,0(rd)
	149	stw w2,4(rd)
	150	addi rd,rd,8
	151	2:
	152	bf 29,3f // word?
	153	lwz w1,0(rs)
	154	addi rs,rs,4
	155	stw w1,0(rd)
	156	addi rd,rd,4
	157	3:
	158	bf 30,4f // halfword to move?
	159	lhz w1,0(rs)
	160	addi rs,rs,2
	161	sth w1,0(rd)
	162	addi rd,rd,2
	163	4:
	164	bflr 31 // skip if no odd byte
	165	lbz w1,0(rs)
	166	stb w1,0(rd)
	167	blr
	168
	169
	170	// Handle short reverse operands.
	171	// cr0 = bne if bit 27 of length is set
	172	// cr7 = bits 28-31 of length
	173
	174	LShortReverse:
	175	add rs,rs,rc // adjust ptrs for reverse move
	176	add rd,rd,rc
	177	beq LShortReverse16 // quadword to move?
	178	lwz w1,-4(rs)
	179	lwz w2,-8(rs)
	180	lwz w3,-12(rs)
	181	lwzu w4,-16(rs)
	182	stw w1,-4(rd)
	183	stw w2,-8(rd)
	184	stw w3,-12(rd)
	185	stwu w4,-16(rd)
	186	LShortReverse16: // join here to xfer 0-15 bytes and return
	187	bf 28,2f // doubleword?
	188	lwz w1,-4(rs)
	189	lwzu w2,-8(rs)
	190	stw w1,-4(rd)
	191	stwu w2,-8(rd)
	192	2:
	193	bf 29,3f // word?
	194	lwzu w1,-4(rs)
	195	stwu w1,-4(rd)
	196	3:
	197	bf 30,4f // halfword to move?
	198	lhzu w1,-2(rs)
	199	sthu w1,-2(rd)
	200	4:
	201	bflr 31 // done if no odd byte
	202	lbz w1,-1(rs) // no update
	203	stb w1,-1(rd)
	204	blr
	205
	206
	207	// Medium and long operands. Use Altivec if long enough, else scalar loops.
	208	// w1 = (rd-rs), used to check for alignment
	209	// cr1 = blt iff we must move reverse
	210
	211	.align 4
	212	LMedium:
	213	dcbtst 0,rd // touch in destination
	214	cmplwi cr7,rc,kLong // long enough for vectors?
	215	neg w3,rd // start to compute #bytes to align destination
	216	rlwinm r0,w1,0,0x7 // check relative 8-byte alignment
	217	andi. w6,w3,7 // w6 <- #bytes to 8-byte align destination
	218	blt cr1,LMediumReverse // handle reverse moves
	219	rlwinm w4,w3,0,0x1F // w4 <- #bytes to 32-byte align destination
	220	cmpwi cr6,r0,0 // set cr6 beq if relatively aligned
	221	bge cr7,LFwdLong // long enough for vectors
	222
	223	// Medium length: use scalar loops.
	224	// w6/cr0 = #bytes to 8-byte align destination
	225	// cr6 = beq if relatively doubleword aligned
	226
	227	sub rc,rc,w6 // decrement length remaining
	228	beq 1f // skip if dest already doubleword aligned
	229	mtxer w6 // set up count for move
	230	lswx w1,0,rs // move w6 bytes to align destination
	231	stswx w1,0,rd
	232	add rs,rs,w6 // bump ptrs past
	233	add rd,rd,w6
	234	1:
	235	srwi r0,rc,4 // get # 16-byte chunks (>=1)
	236	mtcrf 0x01,rc // save remaining byte count here for LShort16
	237	mtctr r0 // set up 16-byte loop
	238	bne cr6,3f // source not 4-byte aligned
	239	b 2f
	240
	241	.align 4
	242	2: // loop over 16-byte aligned chunks
	243	lfd f0,0(rs)
	244	lfd f1,8(rs)
	245	addi rs,rs,16
	246	stfd f0,0(rd)
	247	stfd f1,8(rd)
	248	addi rd,rd,16
	249	bdnz 2b
	250
	251	b LShort16
	252
	253	.align 4
	254	3: // loop over 16-byte unaligned chunks
	255	lwz w1,0(rs)
	256	lwz w2,4(rs)
	257	lwz w3,8(rs)
	258	lwz w4,12(rs)
	259	addi rs,rs,16
	260	stw w1,0(rd)
	261	stw w2,4(rd)
	262	stw w3,8(rd)
	263	stw w4,12(rd)
	264	addi rd,rd,16
	265	bdnz 3b
	266
	267	b LShort16
	268
	269
	270	// Vector loops. First, we must 32-byte align the destination.
	271	// w1 = (rd-rs), used to check for reverse and alignment
	272	// w4 = #bytes to 32-byte align destination
	273	// rc = long enough for at least one vector loop
	274
	275	LFwdLong:
	276	cmpwi w4,0 // dest already aligned?
	277	sub rc,rc,w4 // adjust length
	278	mtcrf 0x01,w4 // cr7 <- #bytes to align dest
	279	rlwinm w2,w1,0,0xF // relatively 16-byte aligned?
	280	mtcrf 0x02,w4 // finish moving #bytes to align to cr6 and cr7
	281	srwi r0,rc,6 // get # 64-byte chunks to xfer (>=1)
	282	cmpwi cr5,w2,0 // set cr5 beq if relatively 16-byte aligned
	283	beq LFwdAligned // dest is already aligned
	284
	285	// 32-byte align destination.
	286
	287	bf 31,1f // byte to move?
	288	lbz w1,0(rs)
	289	addi rs,rs,1
	290	stb w1,0(rd)
	291	addi rd,rd,1
	292	1:
	293	bf 30,2f // halfword?
	294	lhz w1,0(rs)
	295	addi rs,rs,2
	296	sth w1,0(rd)
	297	addi rd,rd,2
	298	2:
	299	bf 29,3f // word?
	300	lwz w1,0(rs)
	301	addi rs,rs,4
	302	stw w1,0(rd)
	303	addi rd,rd,4
	304	3:
	305	bf 28,4f // doubleword?
	306	lwz w1,0(rs)
	307	lwz w2,4(rs)
	308	addi rs,rs,8
	309	stw w1,0(rd)
	310	stw w2,4(rd)
	311	addi rd,rd,8
	312	4:
	313	bf 27,LFwdAligned // quadword?
	314	lwz w1,0(rs)
	315	lwz w2,4(rs)
	316	lwz w3,8(rs)
	317	lwz w4,12(rs)
	318	addi rs,rs,16
	319	stw w1,0(rd)
	320	stw w2,4(rd)
	321	stw w3,8(rd)
	322	stw w4,12(rd)
	323	addi rd,rd,16
	324
	325
	326	// Destination is 32-byte aligned.
	327	// r0 = count of 64-byte chunks to move (not 0)
	328	// rd = 32-byte aligned
	329	// rc = bytes remaining
	330	// cr5 = beq if source is 16-byte aligned
	331	// We set up many registers:
	332	// ctr = number of 64-byte chunks to move
	333	// r0/cr0 = leftover QWs to move
	334	// cr7 = low 4 bits of rc (ie, leftover byte count 0-15)
	335	// cr6 = beq if leftover byte count is 0
	336	// rv = original value of vrsave
	337	// c16 etc = loaded
	338
	339	LFwdAligned:
	340	mfspr rv,vrsave // get bitmap of live vector registers
	341	mtcrf 0x01,rc // move leftover count to cr7 for LShort16
	342	rlwinm w3,rc,0,28,31 // move last 0-15 byte count to w3
	343	mtctr r0 // set up loop count
	344	cmpwi cr6,w3,0 // set cr6 on leftover byte count
	345	oris w1,rv,0xFF00 // we use v0-v7
	346	rlwinm. r0,rc,28,30,31 // get number of quadword leftovers (0-3) and set cr0
	347	mtspr vrsave,w1 // update mask
	348	li c16,16 // get constants used in ldvx/stvx
	349	li c32,32
	350	li c48,48
	351	li c96,96
	352	li c128,128
	353	bne cr5,LForwardVecUnal // handle unaligned operands
	354	b 1f
	355
	356	.align 4
	357	1: // loop over 64-byte chunks
	358	dcbt c96,rs
	359	dcbt c128,rs
	360	lvx v1,0,rs
	361	lvx v2,c16,rs
	362	lvx v3,c32,rs
	363	lvx v4,c48,rs
	364	addi rs,rs,64
	365	dcba 0,rd // patched to NOP on some machines
	366	stvx v1,0,rd
	367	stvx v2,c16,rd
	368	dcba c32,rd // patched to NOP on some machines
	369	stvx v3,c32,rd
	370	stvx v4,c48,rd
	371	addi rd,rd,64
	372	bdnz 1b
	373
	374	beq 4f // no leftover quadwords
	375	mtctr r0
	376	3: // loop over remaining quadwords (1-3)
	377	lvx v1,0,rs
	378	addi rs,rs,16
	379	stvx v1,0,rd
	380	addi rd,rd,16
	381	bdnz 3b
	382	4:
	383	mtspr vrsave,rv // restore bitmap of live vr's
	384	bne cr6,LShort16 // handle last 0-15 bytes if any
	385	blr
	386
	387
	388	// Long, forward, unaligned vector loop.
	389
	390	LForwardVecUnal:
	391	lvsl vp,0,rs // get permute vector to shift left
	392	lvx v1,0,rs // prefetch 1st source quadword
	393	b 1f
	394
	395	.align 4 // align inner loops
	396	1: // loop over 64-byte chunks
	397	lvx v2,c16,rs
	398	dcbt c96,rs
	399	lvx v3,c32,rs
	400	dcbt c128,rs
	401	lvx v4,c48,rs
	402	addi rs,rs,64
	403	vperm vw,v1,v2,vp
	404	lvx v1,0,rs
	405	vperm vx,v2,v3,vp
	406	dcba 0,rd // patched to NOP on some machines
	407	stvx vw,0,rd
	408	vperm vy,v3,v4,vp
	409	stvx vx,c16,rd
	410	vperm vw,v4,v1,vp
	411	dcba c32,rd // patched to NOP on some machines
	412	stvx vy,c32,rd
	413	stvx vw,c48,rd
	414	addi rd,rd,64
	415	bdnz 1b
	416
	417	beq- 4f // no leftover quadwords
	418	mtctr r0
	419	3: // loop over remaining quadwords
	420	lvx v2,c16,rs
	421	addi rs,rs,16
	422	vperm vx,v1,v2,vp
	423	vor v1,v2,v2 // v1 <- v2
	424	stvx vx,0,rd
	425	addi rd,rd,16
	426	bdnz 3b
	427	4:
	428	mtspr vrsave,rv // restore bitmap of live vr's
	429	bne cr6,LShort16 // handle last 0-15 bytes if any
	430	blr
	431
	432
	433	// Medium and long, reverse moves. We use altivec if the operands are long enough,
	434	// else a lwz/stx loop.
	435	// w1 = (rd-rs), used to check for reverse and alignment
	436	// cr7 = bge if long
	437
	438	LMediumReverse:
	439	add rd,rd,rc // point to end of operands
	440	add rs,rs,rc
	441	andi. w4,rd,0x1F // w4 <- #bytes to 32-byte align destination
	442	rlwinm w6,rd,0,0x3 // w6 <- #bytes to 4-byte align destination
	443	bge cr7,LLongReverse // long enough for vectors
	444
	445	// Scalar loop.
	446	// w6 = #bytes to 4-byte align destination
	447
	448	sub rc,rc,w6 // decrement length remaining
	449	mtxer w6 // set up count for move
	450	sub rs,rs,w6 // back up ptrs
	451	sub rd,rd,w6
	452	srwi r0,rc,4 // get # 16-byte chunks (>=1)
	453	mtcrf 0x01,rc // set remaining byte count here for LShortReverse16
	454	lswx w1,0,rs // move w6 bytes to align destination
	455	stswx w1,0,rd
	456	mtctr r0 // set up 16-byte loop
	457	b 1f
	458
	459	.align 4
	460	1: // loop over 16-byte aligned chunks
	461	lwz w1,-4(rs)
	462	lwz w2,-8(rs)
	463	lwz w3,-12(rs)
	464	lwzu w4,-16(rs)
	465	stw w1,-4(rd)
	466	stw w2,-8(rd)
	467	stw w3,-12(rd)
	468	stwu w4,-16(rd)
	469	bdnz 1b
	470
	471	b LShortReverse16
	472
	473
	474	// Reverse vector loops. First, we must 32-byte align the destination.
	475	// w1 = (rd-rs), used to check for reverse and alignment
	476	// w4/cr0 = #bytes to 32-byte align destination
	477	// rc = long enough for at least one vector loop
	478
	479	LLongReverse:
	480	sub rc,rc,w4 // adjust length
	481	mtcrf 0x01,w4 // cr7 <- #bytes to align dest
	482	rlwinm w2,w1,0,0xF // relatively 16-byte aligned?
	483	mtcrf 0x02,w4 // finish moving #bytes to align to cr6 and cr7
	484	srwi r0,rc,6 // get # 64-byte chunks to xfer (>=1)
	485	cmpwi cr5,w2,0 // set cr5 beq if relatively 16-byte aligned
	486	beq LReverseAligned // dest is already aligned
	487
	488	// 32-byte align destination.
	489
	490	bf 31,1f // byte to move?
	491	lbzu w1,-1(rs)
	492	stbu w1,-1(rd)
	493	1:
	494	bf 30,2f // halfword?
	495	lhzu w1,-2(rs)
	496	sthu w1,-2(rd)
	497	2:
	498	bf 29,3f // word?
	499	lwzu w1,-4(rs)
	500	stwu w1,-4(rd)
	501	3:
	502	bf 28,4f // doubleword?
	503	lwz w1,-4(rs)
	504	lwzu w2,-8(rs)
	505	stw w1,-4(rd)
	506	stwu w2,-8(rd)
	507	4:
	508	bf 27,LReverseAligned // quadword?
	509	lwz w1,-4(rs)
	510	lwz w2,-8(rs)
	511	lwz w3,-12(rs)
	512	lwzu w4,-16(rs)
	513	stw w1,-4(rd)
	514	stw w2,-8(rd)
	515	stw w3,-12(rd)
	516	stwu w4,-16(rd)
	517
	518	// Destination is 32-byte aligned.
	519	// r0 = count of 64-byte chunks to move (not 0)
	520	// rd = 32-byte aligned
	521	// rc = bytes remaining
	522	// cr5 = beq if source is 16-byte aligned
	523	// We set up many registers:
	524	// ctr = number of 64-byte chunks to move
	525	// r0/cr0 = leftover QWs to move
	526	// cr7 = low 4 bits of rc (ie, leftover byte count 0-15)
	527	// cr6 = beq if leftover byte count is 0
	528	// rv = original value of vrsave
	529	// cm1 etc = loaded
	530
	531	LReverseAligned:
	532	mfspr rv,vrsave // get bitmap of live vector registers
	533	mtcrf 0x01,rc // move leftover count to cr7 for LShort16
	534	rlwinm w3,rc,0,28,31 // move last 0-15 byte count to w3
	535	mtctr r0 // set up loop count
	536	cmpwi cr6,w3,0 // set cr6 on leftover byte count
	537	oris w1,rv,0xFF00 // we use v0-v7
	538	rlwinm. r0,rc,28,30,31 // get number of quadword leftovers (0-3) and set cr0
	539	mtspr vrsave,w1 // update mask
	540	li cm1,-1 // get constants used in ldvx/stvx
	541	li cm17,-17
	542	li cm33,-33
	543	li cm49,-49
	544	li cm97,-97
	545	li cm129,-129
	546	bne cr5,LReverseVecUnal // handle unaligned operands
	547	b 1f
	548
	549	.align 4 // align inner loops
	550	1: // loop over 64-byte chunks
	551	dcbt cm97,rs
	552	dcbt cm129,rs
	553	lvx v1,cm1,rs
	554	lvx v2,cm17,rs
	555	lvx v3,cm33,rs
	556	lvx v4,cm49,rs
	557	subi rs,rs,64
	558	stvx v1,cm1,rd
	559	stvx v2,cm17,rd
	560	stvx v3,cm33,rd
	561	stvx v4,cm49,rd
	562	subi rd,rd,64
	563	bdnz 1b
	564
	565	beq 4f // no leftover quadwords
	566	mtctr r0
	567	3: // loop over remaining quadwords (1-7)
	568	lvx v1,cm1,rs
	569	subi rs,rs,16
	570	stvx v1,cm1,rd
	571	subi rd,rd,16
	572	bdnz 3b
	573	4:
	574	mtspr vrsave,rv // restore bitmap of live vr's
	575	bne cr6,LShortReverse16 // handle last 0-15 bytes if any
	576	blr
	577
	578
	579	// Long, reverse, unaligned vector loop.
	580
	581	LReverseVecUnal:
	582	lvsl vp,0,rs // get permute vector to shift left
	583	lvx v1,cm1,rs // v1 always looks ahead
	584	b 1f
	585
	586	.align 4 // align the inner loops
	587	1: // loop over 64-byte chunks
	588	lvx v2,cm17,rs
	589	dcbt cm97,rs
	590	lvx v3,cm33,rs
	591	dcbt cm129,rs
	592	lvx v4,cm49,rs
	593	subi rs,rs,64
	594	vperm vw,v2,v1,vp
	595	lvx v1,cm1,rs
	596	vperm vx,v3,v2,vp
	597	stvx vw,cm1,rd
	598	vperm vy,v4,v3,vp
	599	stvx vx,cm17,rd
	600	vperm vw,v1,v4,vp
	601	stvx vy,cm33,rd
	602	stvx vw,cm49,rd
	603	subi rd,rd,64
	604	bdnz 1b
	605
	606	beq 3f // no leftover quadwords
	607	mtctr r0
	608	2: // loop over 1-3 quadwords
	609	lvx v2,cm17,rs
	610	subi rs,rs,16
	611	vperm vx,v2,v1,vp
	612	vor v1,v2,v2 // v1 <- v2
	613	stvx vx,cm1,rd
	614	subi rd,rd,16
	615	bdnz 2b
	616	3:
	617	mtspr vrsave,rv // restore bitmap of live vr's
	618	bne cr6,LShortReverse16 // handle last 0-15 bytes iff any
	619	blr
	620
	621	COMMPAGE_DESCRIPTOR(bcopy_g4,_COMM_PAGE_BCOPY,kHasAltivec,k64Bit,kCommPageDCBA)