intrinsics Examples and Free Source Code

What does the [Intrinsic] attribute in C# do?...

c#.net .net-core intrinsics

SIMD instructions on contiguous iterators...

c++iterator sse simd intrinsics

Why does gcc -O3 handle avx256 compare intrinsic differently than gcc -O0 and clang?...

c gcc simd intrinsics avx

How can I gather single bytes with AVX512 intrinsics, given a vector of int offsets?...

c sse simd intrinsics avx512

How to extend a int32x2_t to a int32x4_t with NEON intrinsics on clang/AArch64 when you don't ca...

arm simd intrinsics arm64 neon

What is the difference between loadu/lddqu and assignment operator?...

c sse simd intrinsics

Does an aborted xbegin transaction restore the stack context that existed at the xbegin start?...

c++x86 intrinsics intel-tsx

Cast from double to __m128...

c++assembly sse inline-assembly intrinsics

Parallel bit deposit / parallel bit extract on intel compiler/LLVM?...

gcc clang intrinsics icc bmi

Leading zeros calculation with intrinsic function...

arm bit-manipulation windows-ce intrinsics leading-zero

What is the difference between _mm_set1_ps and _mm_set_ps1?...

c sse intrinsics

Matrix-Vector and Matrix-Matrix multiplication using SSE...

c++sse matrix-multiplication intrinsics vector-multiplication

How to take the high part of __m256...

c pointers assembly intrinsics avx

Fastest way to initialize a __m128i constant with intrinsics?...

c visual-c++sse intrinsics micro-optimization

Why and when to use __noop?...

c++visual-c++intrinsics

_mm256_movemask_epi8 to uint64_t...

c++visual-c++type-conversion intrinsics sign-extension

AVX: "to 1 if not zero"...

c++sse intrinsics avx

How to sum __m256 horizontally?...

sse vectorization intrinsics avx

Accessing 32bit from 64bit using ARM Neon intrinsics...

c arm simd intrinsics neon

Vectorizing a loop over float x,y,z arrays calculating length and differences using SSE Intrinsics...

c optimization vectorization sse intrinsics

How to add an AVX2 vector horizontally 3 by 3?...

c x86 simd intrinsics avx2

Summing 8-bit integers in __m512i with AVX intrinsics...

c x86 simd intrinsics avx

Dividing packed 16-bit integer with mask using AVX512 or SVML intrinsics...

c intrinsics avx avx512

Converting packed 64-bit integers to packed 8-bit integers with signed saturation using AVX512...

c intrinsics avx avx512

clflush to invalidate cache line via C function...

c performance x86 intrinsics cpu-cache

Do I get a performance penalty when mixing SSE integer/float SIMD instructions...

c assembly sse simd intrinsics

c++ AVX512 intrinsic equivalent of _mm256_broadcast_ss()?...

c++intel intrinsics avx2 avx512

cmake CheckSymbolExists for intrinsic...

cmake intel intrinsics

How to enable instrinsic functions from the preprocessor...

c gcc bit-manipulation intrinsics instruction-set

Intel store instructions on delibrately overlapping memory regions...

c++intrinsics avx