maillist上有人問關于這個函數的問題,回復中有人推薦去看它的源代碼
memcpy調用了__memcpy函數執行內存的復制(__memcpy3d就先不管了),下面是這個這兩個函數的代碼
void *memcpy(void *to, const void *from, size_t n)
{
#ifdef CONFIG_X86_USE_3DNOW
return __memcpy3d(to, from, n);
#else
return __memcpy(to, from, n);
#endif
}

static __always_inline void * __memcpy(void * to, const void * from, size_t n)
{
int d0, d1, d2;
__asm__ __volatile__(
"rep ; movsl\n\t"
"movl %4,%%ecx\n\t"
"andl $3,%%ecx\n\t"
#if 1 /* want to pay 2 byte penalty for a chance to skip microcoded rep? */
"jz 1f\n\t"
#endif
"rep ; movsb\n\t"
"1:"
: "=&c" (d0), "=&D" (d1), "=&S" (d2)
: "0" (n/4), "g" (n), "1" ((long) to), "2" ((long) from)
: "memory");
return (to);
}
看了一本內聯匯編的書,總算把這段代碼搞懂了。
起始時,把n/4保存在%ecx寄存器中,并把to和from的地址分別存入%edi和%esi (引用占位符)
然后重復調用movsl n/4次,接下來應該還有(n mod 4)個字節尚未復制,這里用了一個比較巧妙的方法
movl %4, %%ecx 把n的值保存到%ecx
andl $3, %%ecx n與3做邏輯與,得到n mod 4
jz 1f 如果4 | n,跳過后面的復制
rep movsb 再復制(n mod 4)個字節
由于是按四個字節復制的,因此效率上memcpy肯定比strcpy高不少。
memcpy調用了__memcpy函數執行內存的復制(__memcpy3d就先不管了),下面是這個這兩個函數的代碼


























看了一本內聯匯編的書,總算把這段代碼搞懂了。
起始時,把n/4保存在%ecx寄存器中,并把to和from的地址分別存入%edi和%esi (引用占位符)
然后重復調用movsl n/4次,接下來應該還有(n mod 4)個字節尚未復制,這里用了一個比較巧妙的方法
movl %4, %%ecx 把n的值保存到%ecx
andl $3, %%ecx n與3做邏輯與,得到n mod 4
jz 1f 如果4 | n,跳過后面的復制
rep movsb 再復制(n mod 4)個字節
由于是按四個字節復制的,因此效率上memcpy肯定比strcpy高不少。