sse

Archivos de cabecera para x86 SIMD intrínsecos

Qué archivos de encabezado proporcionan los intrínsecos para las diferentes extensiones del conjunto de instrucciones SIMD x86 (MMX, SSE, AVX,...)? Parece imposible encontrar una lista de este tipo en línea. Corrígeme si me equivoco.

Cuál es el significado de accesos a memoria "no temporales" en x86

Esta es una pregunta algo de bajo nivel. En el ensamblaje x86 hay dos instrucciones SSE: MOVDQA xmmi, m128 Y MOV ... MOVNTDQA significa No Temporal, y que de lo contrario es lo mismo que MOVDQA. Mi pregunta es, ¿qué significa No Temporal?

¿Cómo comprobar si una CPU es compatible con el conjunto de instrucciones SSE3?

¿Es válido el siguiente código para comprobar si una CPU admite el conjunto de instrucciones SSE3? Usar la función IsProces ... ewInstructions = (CPUInfo[2] & 0x1) || false; return bSSE3NewInstructions; } return false; }

Referencia de funciones intrínsecas SSE [cerrado]

¿Alguien sabe de una referencia que lista el funcionamiento de las funciones intrínsecas de SSE para gcc, es decir, las funciones en el archivos de encabezado? Gracias.

¿Cómo se manejan los flotadores desnormalizados en C#?

Acaba de leer este fascinante artículo sobre las ralentizaciones 20x-200x que puede obtener en CPU Intel con flotadores desn ... alores de coma flotante. ¿Cómo manejan esto las aplicaciones C#? ¿Hay una opción para activar / desactivar _MM_FLUSH_ZERO?

Uso de las instrucciones de la CPU AVX: Rendimiento deficiente sin " / arch: AVX"

Mi código C++ usa SSE y ahora quiero mejorarlo para que admita AVX cuando esté disponible. Así que detecto cuando AVX está di ... ecas de SSE y produce código SSE sin ninguna opción de compilador como /arch:SSE. Pero para AVX no funciona por alguna razón.

¿Cómo detectar la disponibilidad de SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI en tiempo de compilación?

Estoy tratando de optimizar algunos matriz de cómputos y me preguntaba si era posible detectar en tiempo de compilación si SS ... Optimizaciones de instrucciones. Las bibliotecas como FFTW detectan / utilizan estas nuevas optimizaciones de instrucciones.

¿Cómo determinar si la memoria está alineada?

Soy nuevo en la optimización de código con instrucciones SSE/SSE2 y hasta ahora no he llegado muy lejos. Que yo sepa, una fun ... la memoria en los registros SSE parece ser horrible lenta (incluso más lenta que el código C normal). Gracias de antemano...

La manera más rápida de hacer la suma horizontal del vector del flotador en x86

Tienes un vector de tres (o cuatro) flotadores. ¿Cuál es la manera más rápida de sumarlos? Es SSE (movaps, shuffle, add, mov ... más rápida? "Trate de organizar las cosas para que pueda sumar cuatro vectores a la vez" no se aceptará como respuesta. :-)

Instrucciones de SSE: ¿qué CPU pueden hacer operaciones de memoria atómica 16B?

Considere un solo acceso a la memoria (una sola lectura o una sola escritura, no lectura+escritura) instrucción SSE en una CP ... 1175 Not a single memory access! 1101 0 0 1110 0 0 1111 1719 99975389

¿Por qué es este código SSE 6 veces más lento sin VZEROUPPER en Skylake?

He estado tratando de averiguar un problema de rendimiento en una aplicación y finalmente lo he reducido a un problema realme ... las instrucciones de flotación son tan malas como las dobles. Tampoco pude identificar el problema con una sola instrucción.

Newton Raphson con SSE2 - ¿puede alguien explicarme estas 3 líneas

Estoy leyendo este documento: http://software.intel.com/en-us/articles/interactive-ray-tracing Y me topé con estas tres líne ... cular la raíz cuadrada de un número, pero no puedo ver cómo lo realiza este código. ¿Puede alguien explicármelo, por favor?

el mejor método multiplataforma para obtener memoria alineada

Aquí está el código que normalmente uso para alinear la memoria con Visual Studio y GCC inline void* aligned_malloc(size_t s ... propia función _mm_free, aunque en algunas implementaciones puede pasar punteros desde _mm_malloc al estándar free / delete.

¿Qué significa la comparación ordenada / desordenada?

Mirando los operadores SSE CMPORDPS - ordered compare packed singles CMPUNORDPS - unordered compare packed singles ¿Qué s ... desordenado? Busqué instrucciones equivalentes en el conjunto de instrucciones x86, y solo parece haber desordenado (FUCOM).

Obtener miembro de m128 por índice?

Tengo un código, originalmente dado a mí por alguien que trabaja con MSVC, y estoy tratando de que funcione en Clang. Esta es ... pude haz eso, y he echado un vistazo a la enorme lista de funciones intrínsecas de SSE y aún no he encontrado una apropiada.