223 research outputs found

    Hardware schemes for early register release

    Get PDF
    Register files are becoming one of the critical components of current out-of-order processors in terms of delay and power consumption, since their potential to exploit instruction-level parallelism is quite related to the size and number of ports of the register file. In conventional register renaming schemes, register releasing is conservatively done only after the instruction that redefines the same register is committed. Instead, we propose a scheme that releases registers as soon as the processor knows that there will be no further use of them. We present two early releasing hardware implementations with different performance/complexity trade-offs. Detailed cycle-level simulations show either a significant speedup for a given register file size, or a reduction in register file size for a given performance level.Peer ReviewedPostprint (published version

    Late allocation and early release of physical registers

    Get PDF
    The register file is one of the critical components of current processors in terms of access time and power consumption. Among other things, the potential to exploit instruction-level parallelism is closely related to the size and number of ports of the register file. In conventional register renaming schemes, both register allocation and releasing are conservatively done, the former at the rename stage, before registers are loaded with values, and the latter at the commit stage of the instruction redefining the same register, once registers are not used any more. We introduce VP-LAER, a renaming scheme that allocates registers later and releases them earlier than conventional schemes. Specifically, physical registers are allocated at the end of the execution stage and released as soon as the processor realizes that there will be no further use of them. VP-LAER enhances register utilization, that is, the fraction of allocated registers having a value to be read in the future. Detailed cycle-level simulations show either a significant speedup for a given register file size or a reduction in the register file size for a given performance level, especially for floating-point codes, where the register file pressure is usually high.Peer ReviewedPostprint (published version

    Impacto de las acumulaciones de macroalgas en la comunidad biológica intermareal

    Get PDF
    Los efectos de la acumulación de macroalgas verdes en la comunidad biológica intermareal del caño Sancti Petri se siguieron a lo largo de un ciclo anual. La medida con microelectrodos selectivos de O2 y H2S permitió obtener perfiles detallados de la distribución vertical de estos parámetros. Los cambios en la microflora bentónica se estudiaron en la zona superficial del sedimento mediante microscopia óptica. Los cambios en la meiofauna se estudiaron tanto en la capa de macroalgas como en el interior del sedimento. La acumulación de macroalgas produce fenómenos de hipoxia/anoxia tanto en el sedimento como en el interior de la capa de macroalgas, que se acentúan en periodos de oscuridad, favoreciendo la acumulación de H2S en zonas cercanas a la superficie del sedimento. En estas condiciones se produce una reducción del 96.7% en la población de microalgas bentónicas y un cambio en la comunidad, pasando de estar dominada por diatomeas a estarlo por cianobacterias. La meiofauna incrementa su densidad de población en un 845 ± 535%. El grupo con mayor crecimiento fueron los nematodos, cuya población es 9 veces superior al control, pasando a dominar completamente la meiofauna con un 92 ± 1% del número total de individuos, lo que produce una gran reducción de la diversidad.Ministerio de Educacion y Ciencia, proyectos: REN2002-01281/MAR y CTM2006-04015Acciones Marie Curie: HPMF-CT-2000-0099

    Crafting Non-Volatile Memory (NVM) Hierarchies: Optimizing Performance, Reliability, and Energy Efficiency

    Get PDF
    El incesante aumento del número de cores y aceleradores de los sistemas computacionales modernos y las exigentes necesidades de memoria de las aplicaciones emergentes plantean nuevos retos en el diseño de las actuales jerarquías de memoria.Una forma de mitigar el impacto de los ineficientes accesos a memoria que resultan de estos onerosos requisitos consiste en implementar jerarquías de memoria caché en el chip con más capacidad.La memoria caché de último nivel (LLC), que es la última contramedida para evitar los costosos accesos a memoria fuera del chip, se construye tradicionalmente con tecnología SRAM; una tecnología que no escala bien en términos de área y potencia estática.Las tecnologías de memoria no volátiles (NVM) más recientes han demostrado tener un gran potencial a la hora de sustituir o complementar las estructuras convencionales de memoria SRAM y DRAM como la LLC, ya que proporcionan una mayor densidad y una potencia estática reducida.Sin embargo, estas tecnologías adolecen de unas operaciones de escritura que consumen mucha energía y que, a su vez, degradan paulatinamente los materiales, lo cual acaba por convertir las celdas en defectuosas.Por un lado, esta tesis estudia y modela la degradación de las celdas NVM debida a las operaciones de escritura. Analizar y evaluar con rigor la interacción entre esta degradación de las memorias NVM y el rendimiento de todo el sistema es todo un reto.Por lo tanto, desarrollamos un procedimiento de pronóstico que analiza de forma exhaustiva la evolución a lo largo del tiempo de varias figuras de interés del sistema como el rendimiento, el tiempo de vida útil de la LLC y la energía.Además, se ha desarrollado una herramienta de simulación basada en trazas de memoria para acelerar la exploración del espacio de diseño de arquitecturas de LLC híbridas, y de políticas de inserción y reemplazo para cachés con celdas NVM defectuosas.Por otro lado, esta tesis presenta nuevas soluciones microarquitectónicas para optimizar dichas NVM-LLCs en términos tanto de rendimiento como de tiempo de vida útil. Estas soluciones consisten en diseños de LLCs tolerantes a fallos que combinan sinérgicamente la desactivación de regiones defectuosas de memoria, la compresión de datos, wear-leveling, y políticas de inserción y reemplazo.Los diseños propuestos aprovechan la compresión de datos no solo para reducir los bytes escritos en la LLC, sino también para permitir que los contenedores de caché parcialmente defectuosos puedan albergar bloques comprimidos.Además, la compresibilidad de los bloques de caché se tiene en cuenta a la hora de guiar a los mecanismos de inserción y reemplazo para afinar todavía más el equilibrio entre tiempo de vida útil de la LLC y el rendimiento del sistema.La computación en memoria (CiM) aborda los accesos ineficientes a memoria acercando las operaciones de cómputo a las estructuras de memoria, en lugar de al revés, como en las arquitecturas von Neumann tradicionales.Las NVMs desempeñan un papel fundamental en el paradigma CiM, ya que permiten realizar cómputos de forma analógica dentro del array de memoria aprovechando sus propiedades resistivas.Esta tesis también explora este paradigma revisando una arquitectura CiM de código abierto, identificando y subsanando sus limitaciones.<br /

    Automatic Safe Data Reuse Detection for the WCET Analysis of Systems With Data Caches

    Get PDF
    Worst-case execution time (WCET) analysis of systems with data caches is one of the key challenges in real-time systems. Caches exploit the inherent reuse properties of programs, temporarily storing certain memory contents near the processor, in order that further accesses to such contents do not require costly memory transfers. Current worst-case data cache analysis methods focus on specific cache organizations (LRU, locked, ACDC, etc.). In this article, we analyze data reuse (in the worst case) as a property of the program, and thus independent of the data cache. Our analysis method uses Abstract Interpretation on the compiled program to extract, for each static load/store instruction, a linear expression for the address pattern of its data accesses, according to the Loop Nest Data Reuse Theory. Each data access expression is compared to that of prior (dominant) memory instructions to verify whether it presents a guaranteed reuse. Our proposal manages references to scalars, arrays, and non-linear accesses, provides both temporal and spatial reuse information, and does not require the exploration of explicit data access sequences. As a proof of concept we analyze the TACLeBench benchmark suite, showing that most loads/stores present data reuse, and how compiler optimizations affect it. Using a simple hit/miss estimation on our reuse results, the time devoted to data accesses in the worst case is reduced to 27% compared to an always-miss system, equivalent to a data hit ratio of 81%. With compiler optimization, such time is reduced to 6.5%

    Filtering directory lookups in CMPs

    Get PDF
    Coherence protocols consume an important fraction of power to determine which coherence action should take place. In this paper we focus on CMPs with a shared cache and a directory-based coherence protocol implemented as a duplicate of local caches tags. We observe that a big fraction of directory lookups produce a miss since the block looked up is not cached in any local cache. We propose to add a filter before the directory lookup in order to reduce the number of lookups to this structure. The filter identifies whether the current block was last accessed as a data or as an instruction. With this information, looking up the whole directory can be avoided for most accesses. We evaluate the filter in a CMP with 8 in-order processors with 4 threads each and a memory hierarchy with a shared L2 cache.We show that a filter with a size of 3% of the tag array of the shared cache can avoid more than 70% of all comparisons performed by directory lookups with a performance loss of just 0.2% for SPLASH2 and 1.5% for Specweb2005. On average, the number of 15-bit comparisons avoided per cycle is 54 out of 77 for SPLASH2 and 29 out of 41 for Specweb2005. In both cases, the filter requires less than one read of 1 bit per cycle.Postprint (published version

    Chemosterilants as control agents of Ceratitis capitata (Wiedemann) (Diptera: Tephritidae) in field trials

    Full text link
    [EN] Lufenuron is a chitin synthesis inhibitor, which is able to impede Mediterranean fruit fly, Ceratitis capitata (Wiedemann), reproduction. In laboratory trials, following ingestion of lufenuron, the eggs laid by female Ceratitis capitata were prevented from hatching. In field trials in Valencia, Spain, lufenuron showed its effectiveness by reducing C. capitata wild populations and its continuous application to several generations of fruit fly resulted in increased pest control. This field trial was conducted in an isolated valley some 80ha in size, over a continuous four-year period. In order to maintain the sterilizing effect in the field throughout the whole year, a new lufenuron bait gel was developed. This bait gel was introduced in to delta traps suspended in trees at a density of 24 traps ha 1, and these traps were replaced once a year during the field trial. Monitoring of the adult C. capitata population was conducted to assess the effects of the chemosterilant treatment. In the first year of treatment with sterilizing traps, a reduction of the C. capitata population was observed, indicating that the traps reduce the population right from the first generation. In the second, third and fourth years, a continuous and progressive reduction of the adult Mediterranean fruit fly population was observed. Therefore, the successive application of chemosterilization treatment has a cumulative effect on reducing the fly population year after year. Aerial treatment using malathion does not produce this cumulative effect, and consequently every year it is necessary to start again with the same number of flies as the year before. The possibility of using the chemosterilant method alone or combined with the sterile insect technique is discussed.The authors thank Stephen Skillman for helpful suggestions on the first version of the manuscript, Syngenta for supplying technical grade lufenuron, and the R&D+i Linguistic Assistance Office at the Universidad Politécnica de Valencia for their help in revising and correcting this paper. This research has been supported by ‘Fundación José y Ana Royo’, ‘Conselleria d’Agricultura Peixca i Alimentacio-GVA’ and INIA project number RTA03-103-C6.Navarro Llopis, V.; Sanchis Cabanes, J.; Primo Millo, J.; Primo Yufera, E. (2007). Chemosterilants as control agents of Ceratitis capitata (Wiedemann) (Diptera: Tephritidae) in field trials. Bulletin of Entomological Research. 97(4):359-368. https://doi.org/10.1017/S0007485307005081S35936897

    Aplicación del método SERT para analizar la eficiencia energética del computador al variar voltaje y frecuencia del procesador

    Get PDF
    El acelerado proceso de digitalización que esta teniendo lugar a nivel global ha llevado a un creciente interés en la optimización de la eficiencia energética de los sistemas informáticos. Esto plantea el complejo reto de cuantificar dicha eficiencia. Es por ello que en los últimos años se han dado grandes pasos en el desarrollo de benchmarks capaces de puntuar un sistema informático en base a su eficiencia energética cuando es sometido a una carga de trabajo típica.La suite SERT de la cooperativa SPEC una de las herramientas más reconocidas, hasta el punto de ser recientemente adoptada por la agencia de protección medioambiental de Estados Unidos (EPA) para el programa Energy Star de certificación energética de servidores (Version 3.0, ENERGY STAR Computer Server Specification, junio 2019).En este trabajo se realiza un estudio experimental de eficiencia energética en una plataforma Skylake-X de Intel, experimentando con el procesador i7 7800X sobre la placa ASUS Rampage VI Extreme Omega, seleccionada por su facilidad de cambio de frecuencias y tensiones de alimentación. En primer lugar se han realizado pruebas de estabilidad de sistema, seguidas de una caracterización de la potencia consumida por el procesador al variar tensión de alimentación, frecuencia y temperatura. Se ha puesto un gran interés en la temperatura, ya que se trata de una variable difícil de controlar e infravalorada en otros estudios experimentales. Se han comentado en detalle los resultados, así como las anomalías con respecto a los modelos teóricos de consumo en tecnología CMOS. Además se han propuesto explicaciones, tanto físicas como microarquitectónicas, para dichas anomalías.Posteriormente se ha realizado un análisis de la eficiencia energética de la plataforma mediante la SERT Suite haciendo uso un conjunto de diferentes combinaciones de tensión de alimentación y frecuencia, entre las cuales se encuentra la frecuencia de fábrica del procesador, así como configuraciones que hacen uso de overclocking y undervolting. De esta manera, se comentan los resultados en cuanto a las configuraciones más óptimas, hablando en un principio de la mejor configuración para un uso equilibrado entre CPU, memoria y almacenamiento, seguido de las configuraciones óptimas para cargas de trabajo centradas en cada uno de los tres componentes mencionados.Finalmente se propone una metodología alternativa para medir la eficiencia centrada en una carga de trabajo de CPU mucho más intensa que la impuesta por la SERT Suite. Se aporta también un análisis mediante el uso de este método sobre el mismo conjunto de configuraciones usadas al aplicar el método SERT, buscando la mayor eficiencia energética bajo una carga de trabajo realmente intensa en términos de CPU.<br /

    Accelerating Sequence Alignments Based on FM-Index Using the Intel KNL Processor

    Get PDF
    FM-index is a compact data structure suitable for fast matches of short reads to large reference genomes. The matching algorithm using this index exhibits irregular memory access patterns that cause frequent cache misses, resulting in a memory bound problem. This paper analyzes different FM-index versions presented in the literature, focusing on those computing aspects related to the data access. As a result of the analysis, we propose a new organization of FM-index that minimizes the demand for memory bandwidth, allowing a great improvement of performance on processors with high-bandwidth memory, such as the second-generation Intel Xeon Phi (Knights Landing, or KNL), integrating ultra high-bandwidth stacked memory technology. As the roofline model shows, our implementation reaches 95% of the peak random access bandwidth limit when executed on the KNL and almost all the available bandwidth when executed on other Intel Xeon architectures with conventional DDR memory. In addition, the obtained throughput in KNL is much higher than the results reported for GPUs in the literature. IEE
    corecore