from CSE142L.notebook import *
from notebook import *
from Question import Question
setup_lab()
# if you get something about NUMEXPR_MAX_THREADS being set incorrectly, don't worry.  It's not a problem.

  0%|          | 0/1 [00:00<?, ?it/s]

        // START_CONSTRUCT
	tensor_t( int _x, int _y=1, int _z=1, int _b=1):  size(_x, _y, _z, _b), delete_memory(true) {
		data = new T[size.x * size.y * size.z * size.b]();
	}
	// END_CONSTRUCT

	// START_GET       
	const T & get( int _x, int _y=0, int _z=0, int _b=0 ) const {
		
		return data[
			_b * (size.x * size.y * size.z) +
			_z * (size.x * size.y) +
			_y * (size.x) +
			_x
			];
	}
	// END_GET

tensor_t<float> t(10, 10, 10, 10);
t.get(1,2,3,4) = 4.0;
float s = t.get(1,2,3,4);

  0%|          | 0/1 [00:00<?, ?it/s]

#include<cstdint>
#include<vector>
#include<algorithm>
#include<iostream>
#include"util.hpp"
#include"cfiddle.hpp"
#include <new>

#define BYTES_PER_CACHE_LINE 64 

struct MM {
    struct MM* next;  // I know that pointers are 8 bytes on this machine.
    uint8_t junk[BYTES_PER_CACHE_LINE - sizeof(struct MM*)]; // This forces the struct MM to take a up a whole cache line, abolishing spatial locality.
};

extern "C"
struct MM * miss(struct MM * start, uint64_t count) {
    for(uint64_t i = 0; i < count; i++) { // Here's the loop that does this misses. It's very simple.
        start = start->next;
    }
    return start;
}


extern "C"
uint64_t* miss_machine(uint64_t footprint_bytes, uint64_t access_count) {

    const uint array_size = footprint_bytes/sizeof(struct MM);

    auto array = new struct MM[array_size](); 
    
    // This is the clever part: 'index' is going to determine where the pointers go.  We fill it with consecutive integers.
    std::vector<uint64_t> index;
    for(uint64_t i = 0; i < array_size; i++) {
        index.push_back(i);
    }
    // Randomize the list of indexes.
    std::random_shuffle(index.begin(), index.end());

    // Convert the indexes into pointers.
    for(uint64_t i = 0; i < array_size; i++) {
        array[index[i]].next = &array[index[(i + 1) % array_size]]; 
    } 
    
    MM * start = &array[0];
    flush_caches();
    enable_prefetcher(0);
    start_measurement();
    start = miss(start, access_count);
    end_measurement();
    return reinterpret_cast<uint64_t*>(start); // This is a garbage value, but if we don't return it, the compiler will optimize out the call to miss.
} 


// Cfiddle-signature=421aa88a2b583f971443d15383a46a72

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

sizeof(char) = 1
sizeof(short int) = 2
sizeof(int) = 4
sizeof(long int) = 8
sizeof(long long int) = 8
sizeof(float) = 4
sizeof(double) = 8
sizeof(long double) = 16
sizeof(int8_t) = 1
sizeof(int16_t) = 2
sizeof(int32_t) = 4
sizeof(int64_t) = 8
sizeof(int64_t*) = 8
sizeof(void*) = 8

  0%|          | 0/1 [00:00<?, ?it/s]

#include<cstdint>
#include<iostream>

struct struct_1 {
    uint32_t a;
};

struct struct_2 {
    uint32_t a;
    uint32_t b;
};

struct struct_3 {
    uint32_t a;
    uint8_t b;
};


struct struct_4 {
    uint64_t a;
    uint8_t b;
};

struct struct_5 {
    uint8_t a;
    uint8_t b;
};

struct struct_6 {
    uint32_t a;
    uint32_t c;
    uint8_t b;
};

class class_7 {
    uint64_t a;
    uint8_t b;
    uint8_t c;
} ;

class class_8 {
    uint64_t a;
};

class class_9 {
    void foo() {};
    uint64_t a;
};

class class_10 {
    virtual void foo() {};
    uint64_t a;
};

class class_11 {
    virtual void foo() {};
    virtual void bar() {};
    uint64_t a;
};


extern "C"
void struct_size() {
    std::cout << "\n";
    std::cout << "sizeof(struct_1) = " << sizeof(struct_1) << "\n";
    std::cout << "sizeof(struct_2) = " << sizeof(struct_2) << "\n";
    std::cout << "sizeof(struct_3) = " << sizeof(struct_3) << "\n";
    std::cout << "sizeof(struct_4) = " << sizeof(struct_4) << "\n";
    std::cout << "sizeof(struct_5) = " << sizeof(struct_5) << "\n";
    std::cout << "sizeof(struct_6) = " << sizeof(struct_6) << "\n";
    std::cout << "sizeof(class_7) = " << sizeof(class_7) << "\n";
    std::cout << "sizeof(class_8) = " << sizeof(class_8) << "\n";
    std::cout << "sizeof(class_9) = " << sizeof(class_9) << "\n";
    std::cout << "sizeof(class_10) = " << sizeof(class_10) << "\n";
    std::cout << "sizeof(class_11) = " << sizeof(class_11) << "\n";
}

// Cfiddle-signature=6bdb9ad41ee4662b301d1394e0a31184

  0%|          | 0/1 [00:00<?, ?it/s]

sizeof(struct_1) = 4
sizeof(struct_2) = 8
sizeof(struct_3) = 8
sizeof(struct_4) = 16
sizeof(struct_5) = 2
sizeof(struct_6) = 12
sizeof(class_7) = 16
sizeof(class_8) = 8
sizeof(class_9) = 8
sizeof(class_10) = 16
sizeof(class_11) = 16

  0%|          | 0/1 [00:00<?, ?it/s]

#include<cstdint>
#include<iostream>

struct struct_8 {
    uint8_t b;
    uint64_t a;
    uint8_t c;
} ;


extern "C"
void array_size() {
    struct struct_8 _8[3];
    std::cout << "\n";
    std::cout << "sizeof(struct_8) = " << sizeof(struct_8) << "\n";
    std::cout << "sizeof(struct_8[3]) = " << sizeof(_8) << "\n";
}

// Cfiddle-signature=0efcfb51e2f8a828a381d2895804dbe0

  0%|          | 0/1 [00:00<?, ?it/s]

sizeof(struct_8) = 24
sizeof(struct_8[3]) = 72

array = reinterpret_cast<A*>(reinterpret_cast<uint64_t*>(array) + arg1);

struct Foo {
    char a;
    int b;
    char c;
};

Foo foo = {7,4,3};


!cse142 job run --take NOTHING --lab caches 'mlc --bandwidth_matrix; mlc --latency_matrix'

You are submitting a job for lab "Lab 3: Caches" (caches).
Creating job 26252c41-1acf-4f43-9a03-82513c80d2fa 0.00 0.00
Ready for submission. 2.09 2.09
Job 26252c41-1acf-4f43-9a03-82513c80d2fa is in state 'PUBLISHED'. 3.36 5.45 
Job 26252c41-1acf-4f43-9a03-82513c80d2fa is in state 'RUNNING'. 1.04 6.50............. 
Job 26252c41-1acf-4f43-9a03-82513c80d2fa is in state 'DONE_RUNNING'. 14.76 21.25.. 
Job 26252c41-1acf-4f43-9a03-82513c80d2fa succeeded. 3.13 24.39Writing results 1.00 25.39
Intel(R) Memory Latency Checker - v3.9a
Command line parameters: --bandwidth_matrix 

Using buffer size of 100.000MiB/thread for reads and an additional 100.000MiB/thread for writes
Measuring Memory Bandwidths between nodes within system 
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
		Numa node
Numa node	     0	
       0	19252.1	
Intel(R) Memory Latency Checker - v3.9a
Command line parameters: --latency_matrix 

Using buffer size of 200.000MiB
Measuring idle latencies (in ns)...
		Numa node
Numa node	     0	
       0	  61.6	
Updated these files: 
Job Complete 0.36 25.75


!cse142 job run --take NOTHING  --force lscpu

You are submitting a job for lab "Lab 3: Caches" (caches).
Creating job 5d71c0ce-4764-4ada-9994-7e0da736fa7b 0.00 0.00
Ready for submission. 2.29 2.29
Job 5d71c0ce-4764-4ada-9994-7e0da736fa7b is in state 'PUBLISHED'. 2.79 5.08 
Job 5d71c0ce-4764-4ada-9994-7e0da736fa7b is in state 'RUNNING'. 1.07 6.15 
Job 5d71c0ce-4764-4ada-9994-7e0da736fa7b is in state 'DONE_RUNNING'. 1.05 7.21.. 
Job 5d71c0ce-4764-4ada-9994-7e0da736fa7b succeeded. 3.16 10.37Writing results 1.00 11.37
Architecture:                       x86_64
CPU op-mode(s):                     32-bit, 64-bit
Address sizes:                      39 bits physical, 48 bits virtual
Byte Order:                         Little Endian
CPU(s):                             12
On-line CPU(s) list:                0-11
Vendor ID:                          GenuineIntel
BIOS Vendor ID:                     Intel(R) Corporation
Model name:                         Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz
BIOS Model name:                    Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz
CPU family:                         6
Model:                              158
Thread(s) per core:                 2
Core(s) per socket:                 6
Socket(s):                          1
Stepping:                           10
Frequency boost:                    enabled
CPU max MHz:                        3501.0000
CPU min MHz:                        800.0000
BogoMIPS:                           7008.00
Flags:                              fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch epb invpcid_single ssbd rsb_ctxsw ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx rdseed adx smap clflushopt intel_pt xsaveopt xsavec xgetbv1 dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp md_clear spec_ctrl intel_stibp flush_l1d arch_capabilities
Virtualization:                     VT-x
L1d cache:                          192 KiB (6 instances)
L1i cache:                          192 KiB (6 instances)
L2 cache:                           1.5 MiB (6 instances)
L3 cache:                           12 MiB (1 instance)
NUMA node(s):                       1
NUMA node0 CPU(s):                  0-11
Vulnerability Gather data sampling: Mitigation; Microcode
Vulnerability Itlb multihit:        KVM: Mitigation: Split huge pages
Vulnerability L1tf:                 Mitigation; PTE Inversion; VMX conditional cache flushes, SMT vulnerable
Vulnerability Mds:                  Mitigation; Clear CPU buffers; SMT vulnerable
Vulnerability Meltdown:             Mitigation; PTI
Vulnerability Mmio stale data:      Mitigation; Clear CPU buffers; SMT vulnerable
Vulnerability Retbleed:             Mitigation; IBRS
Vulnerability Spec store bypass:    Mitigation; Speculative Store Bypass disabled via prctl and seccomp
Vulnerability Spectre v1:           Mitigation; Load fences, usercopy/swapgs barriers and __user pointer sanitization
Vulnerability Spectre v2:           Mitigation; IBRS (kernel), IBPB
Vulnerability Srbds:                Mitigation; Microcode
Vulnerability Tsx async abort:      Mitigation; Clear CPU buffers; SMT vulnerable
Updated these files: 
Job Complete 0.37 11.74

Part	value
Reading quiz	3%
Jupyter Notebook	95%
Post-lab survey.	2%

Byte
0	`a`
1	unused
2	unused
3	unused
4	unused
5	unused
6	unused
7	unused
8	`b`
9	`b`
10	`b`
11	`b`
12	`b`
13	`b`
14	`b`
15	`b`
16	`c`
17	unused
18	unused
19	unused
20	unused
21	unused
22	unused
23	unused

Extra Reading¶

Grading¶

New Tools¶

Measuring Cache Performance with Performance Counters¶

Tensors¶

The Miss-Machine¶

Thinking in Cache Lines¶

How big is my data structure?¶

Primitive Types¶

Structs¶

Classes vs. Structs¶

How much memory does my code access?¶

Language Support¶

Struct Initialization In C¶

C++ Object Alignment¶

Latency and Bandwidth¶

Measuring DRAM Latency and Bandwidth¶

Is DRAM Fast?¶

Measuring Cache Latency and Bandwidth¶

The Caches we Have¶

Cache Latency¶

Cache Bandwidth¶

Are the Caches Fast?¶

Locality In Space and Time¶

Spatial Locality¶

Temporal Locality¶

Recap¶

byte	00	01	02	03	04	05	06	07	08	09	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31
cache line	0																1
	my_struct