source: CLRX/CLRadeonExtender/trunk/amdbin/ROCmBinaries.cpp @ 3665

Last change on this file since 3665 was 3665, checked in by matszpk, 23 months ago

CLRadeonExtender: ROCm: Add tentatively target and metadata to the ROCm format.

File size: 17.9 KB
Line 
1/*
2 *  CLRadeonExtender - Unofficial OpenCL Radeon Extensions Library
3 *  Copyright (C) 2014-2018 Mateusz Szpakowski
4 *
5 *  This library is free software; you can redistribute it and/or
6 *  modify it under the terms of the GNU Lesser General Public
7 *  License as published by the Free Software Foundation; either
8 *  version 2.1 of the License, or (at your option) any later version.
9 *
10 *  This library is distributed in the hope that it will be useful,
11 *  but WITHOUT ANY WARRANTY; without even the implied warranty of
12 *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13 *  Lesser General Public License for more details.
14 *
15 *  You should have received a copy of the GNU Lesser General Public
16 *  License along with this library; if not, write to the Free Software
17 *  Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA
18 */
19
20#include <CLRX/Config.h>
21#include <cassert>
22#include <cstdint>
23#include <algorithm>
24#include <utility>
25#include <CLRX/amdbin/ElfBinaries.h>
26#include <CLRX/utils/Utilities.h>
27#include <CLRX/utils/MemAccess.h>
28#include <CLRX/utils/InputOutput.h>
29#include <CLRX/utils/Containers.h>
30#include <CLRX/amdbin/ROCmBinaries.h>
31
32using namespace CLRX;
33
34/* TODO: add support for various kernel code offset (now only 256 is supported) */
35
36ROCmBinary::ROCmBinary(size_t binaryCodeSize, cxbyte* binaryCode, Flags creationFlags)
37        : ElfBinary64(binaryCodeSize, binaryCode, creationFlags),
38          regionsNum(0), codeSize(0), code(nullptr), metadataSize(0), metadata(nullptr)
39{
40    cxuint textIndex = SHN_UNDEF;
41    try
42    { textIndex = getSectionIndex(".text"); }
43    catch(const Exception& ex)
44    { } // ignore failed
45    uint64_t codeOffset = 0;
46    // find '.text' section
47    if (textIndex!=SHN_UNDEF)
48    {
49        code = getSectionContent(textIndex);
50        const Elf64_Shdr& textShdr = getSectionHeader(textIndex);
51        codeSize = ULEV(textShdr.sh_size);
52        codeOffset = ULEV(textShdr.sh_offset);
53    }
54   
55    // counts regions (symbol or kernel)
56    regionsNum = 0;
57    const size_t symbolsNum = getSymbolsNum();
58    for (size_t i = 0; i < symbolsNum; i++)
59    {
60        // count regions number
61        const Elf64_Sym& sym = getSymbol(i);
62        const cxbyte symType = ELF64_ST_TYPE(sym.st_info);
63        const cxbyte bind = ELF64_ST_BIND(sym.st_info);
64        if (ULEV(sym.st_shndx)==textIndex &&
65            (symType==STT_GNU_IFUNC || symType==STT_FUNC ||
66                (bind==STB_GLOBAL && symType==STT_OBJECT)))
67            regionsNum++;
68    }
69    if (code==nullptr && regionsNum!=0)
70        throw BinException("No code if regions number is not zero");
71    regions.reset(new ROCmRegion[regionsNum]);
72    size_t j = 0;
73    typedef std::pair<uint64_t, size_t> RegionOffsetEntry;
74    std::unique_ptr<RegionOffsetEntry[]> symOffsets(new RegionOffsetEntry[regionsNum]);
75   
76    // get regions info
77    for (size_t i = 0; i < symbolsNum; i++)
78    {
79        const Elf64_Sym& sym = getSymbol(i);
80        if (ULEV(sym.st_shndx)!=textIndex)
81            continue;   // if not in '.text' section
82        const size_t value = ULEV(sym.st_value);
83        if (value < codeOffset)
84            throw BinException("Region offset is too small!");
85        const size_t size = ULEV(sym.st_size);
86       
87        const cxbyte symType = ELF64_ST_TYPE(sym.st_info);
88        const cxbyte bind = ELF64_ST_BIND(sym.st_info);
89        if (symType==STT_GNU_IFUNC || symType==STT_FUNC ||
90                (bind==STB_GLOBAL && symType==STT_OBJECT))
91        {
92            ROCmRegionType type = ROCmRegionType::DATA;
93            // if kernel
94            if (symType==STT_GNU_IFUNC) 
95                type = ROCmRegionType::KERNEL;
96            // if function kernel
97            else if (symType==STT_FUNC)
98                type = ROCmRegionType::FKERNEL;
99            symOffsets[j] = std::make_pair(value, j);
100            if (type!=ROCmRegionType::DATA && value+0x100 > codeOffset+codeSize)
101                throw BinException("Kernel or code offset is too big!");
102            regions[j++] = { getSymbolName(i), size, value, type };
103        }
104    }
105    // sort regions by offset
106    std::sort(symOffsets.get(), symOffsets.get()+regionsNum,
107            [](const RegionOffsetEntry& a, const RegionOffsetEntry& b)
108            { return a.first < b.first; });
109    // checking distance between regions
110    for (size_t i = 1; i <= regionsNum; i++)
111    {
112        size_t end = (i<regionsNum) ? symOffsets[i].first : codeOffset+codeSize;
113        ROCmRegion& region = regions[symOffsets[i-1].second];
114        if (region.type==ROCmRegionType::KERNEL && symOffsets[i-1].first+0x100 > end)
115            throw BinException("Kernel size is too small!");
116       
117        const size_t regSize = end - symOffsets[i-1].first;
118        if (region.size==0)
119            region.size = regSize;
120        else
121            region.size = std::min(regSize, region.size);
122    }
123   
124    // get metadata
125    const size_t notesSize = getNotesSize();
126    const cxbyte* noteContent = (const cxbyte*)getNotes();
127   
128    for (size_t offset = 0; offset < notesSize; )
129    {
130        const Elf64_Nhdr* nhdr = (const Elf64_Nhdr*)(noteContent + offset);
131        size_t namesz = ULEV(nhdr->n_namesz);
132        size_t descsz = ULEV(nhdr->n_descsz);
133        if (usumGt(offset, namesz+descsz, notesSize))
134            throw BinException("Note offset+size out of range");
135       
136        if (namesz==4 &&
137            ::strcmp((const char*)noteContent+offset+ sizeof(Elf64_Nhdr), "AMD")==0)
138        {
139            const uint32_t noteType = ULEV(nhdr->n_type);
140            if (noteType == 0xa)
141            {
142                metadata = (char*)(noteContent+offset+sizeof(Elf64_Nhdr) + 4);
143                metadataSize = descsz;
144            }
145            else if (noteType == 0xb)
146                target.assign((char*)(noteContent+offset+sizeof(Elf64_Nhdr) + 4), descsz);
147        }
148        size_t align = (((namesz+descsz)&3)!=0) ? 4-((namesz+descsz)&3) : 0;
149        offset += sizeof(Elf64_Nhdr) + namesz + descsz + align;
150    }
151   
152    if (hasRegionMap())
153    {
154        // create region map
155        regionsMap.resize(regionsNum);
156        for (size_t i = 0; i < regionsNum; i++)
157            regionsMap[i] = std::make_pair(regions[i].regionName, i);
158        // sort region map
159        mapSort(regionsMap.begin(), regionsMap.end());
160    }
161}
162
163/// determint GPU device from ROCm notes
164GPUDeviceType ROCmBinary::determineGPUDeviceType(uint32_t& outArchMinor,
165                     uint32_t& outArchStepping) const
166{
167    uint32_t archMajor = 0;
168    uint32_t archMinor = 0;
169    uint32_t archStepping = 0;
170   
171    {
172        const cxbyte* noteContent = (const cxbyte*)getNotes();
173        if (noteContent==nullptr)
174            throw BinException("Missing notes in inner binary!");
175        size_t notesSize = getNotesSize();
176        // find note about AMDGPU
177        for (size_t offset = 0; offset < notesSize; )
178        {
179            const Elf64_Nhdr* nhdr = (const Elf64_Nhdr*)(noteContent + offset);
180            size_t namesz = ULEV(nhdr->n_namesz);
181            size_t descsz = ULEV(nhdr->n_descsz);
182            if (usumGt(offset, namesz+descsz, notesSize))
183                throw BinException("Note offset+size out of range");
184            if (ULEV(nhdr->n_type) == 0x3 && namesz==4 && descsz>=0x1a &&
185                ::strcmp((const char*)noteContent+offset+sizeof(Elf64_Nhdr), "AMD")==0)
186            {    // AMDGPU type
187                const uint32_t* content = (const uint32_t*)
188                        (noteContent+offset+sizeof(Elf64_Nhdr) + 4);
189                archMajor = ULEV(content[1]);
190                archMinor = ULEV(content[2]);
191                archStepping = ULEV(content[3]);
192            }
193            size_t align = (((namesz+descsz)&3)!=0) ? 4-((namesz+descsz)&3) : 0;
194            offset += sizeof(Elf64_Nhdr) + namesz + descsz + align;
195        }
196    }
197    // determine device type
198    GPUDeviceType deviceType = getGPUDeviceTypeFromArchVersion(archMajor, archMinor,
199                                    archStepping);
200    outArchMinor = archMinor;
201    outArchStepping = archStepping;
202    return deviceType;
203}
204
205const ROCmRegion& ROCmBinary::getRegion(const char* name) const
206{
207    RegionMap::const_iterator it = binaryMapFind(regionsMap.begin(),
208                             regionsMap.end(), name);
209    if (it == regionsMap.end())
210        throw BinException("Can't find region name");
211    return regions[it->second];
212}
213
214// if ROCm binary
215bool CLRX::isROCmBinary(size_t binarySize, const cxbyte* binary)
216{
217    if (!isElfBinary(binarySize, binary))
218        return false;
219    if (binary[EI_CLASS] != ELFCLASS64)
220        return false;
221    const Elf64_Ehdr* ehdr = reinterpret_cast<const Elf64_Ehdr*>(binary);
222    if (ULEV(ehdr->e_machine) != 0xe0)
223        return false;
224    return true;
225}
226
227
228void ROCmInput::addEmptyKernel(const char* kernelName)
229{
230    symbols.push_back({ kernelName, 0, 0, ROCmRegionType::KERNEL });
231}
232/*
233 * ROCm Binary Generator
234 */
235
236ROCmBinGenerator::ROCmBinGenerator() : manageable(false), input(nullptr)
237{ }
238
239ROCmBinGenerator::ROCmBinGenerator(const ROCmInput* rocmInput)
240        : manageable(false), input(rocmInput)
241{ }
242
243ROCmBinGenerator::ROCmBinGenerator(GPUDeviceType deviceType,
244        uint32_t archMinor, uint32_t archStepping, size_t codeSize, const cxbyte* code,
245        const std::vector<ROCmSymbolInput>& symbols)
246{
247    input = new ROCmInput{ deviceType, archMinor, archStepping, 0, false,
248            symbols, codeSize, code };
249}
250
251ROCmBinGenerator::ROCmBinGenerator(GPUDeviceType deviceType,
252        uint32_t archMinor, uint32_t archStepping, size_t codeSize, const cxbyte* code,
253        std::vector<ROCmSymbolInput>&& symbols)
254{
255    input = new ROCmInput{ deviceType, archMinor, archStepping, 0, false,
256            std::move(symbols), codeSize, code };
257}
258
259ROCmBinGenerator::~ROCmBinGenerator()
260{
261    if (manageable)
262        delete input;
263}
264
265void ROCmBinGenerator::setInput(const ROCmInput* input)
266{
267    if (manageable)
268        delete input;
269    manageable = false;
270    this->input = input;
271}
272
273// ELF notes contents
274static const cxbyte noteDescType1[8] =
275{ 2, 0, 0, 0, 1, 0, 0, 0 };
276
277static const cxbyte noteDescType3[27] =
278{ 4, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
279  'A', 'M', 'D', 0, 'A', 'M', 'D', 'G', 'P', 'U', 0 };
280
281// section index for symbol binding
282static const uint16_t mainBuiltinSectionTable[] =
283{
284    10, // ELFSECTID_SHSTRTAB
285    11, // ELFSECTID_STRTAB
286    9, // ELFSECTID_SYMTAB
287    3, // ELFSECTID_DYNSTR
288    1, // ELFSECTID_DYNSYM
289    4, // ELFSECTID_TEXT
290    SHN_UNDEF, // ELFSECTID_RODATA
291    SHN_UNDEF, // ELFSECTID_DATA
292    SHN_UNDEF, // ELFSECTID_BSS
293    8, // ELFSECTID_COMMENT
294    2, // ROCMSECTID_HASH
295    5, // ROCMSECTID_DYNAMIC
296    6, // ROCMSECTID_NOTE
297    7 // ROCMSECTID_GPUCONFIG
298};
299
300void ROCmBinGenerator::generateInternal(std::ostream* osPtr, std::vector<char>* vPtr,
301             Array<cxbyte>* aPtr) const
302{
303    AMDGPUArchVersion amdGpuArchValues = getGPUArchVersion(input->deviceType,
304                GPUArchVersionTable::OPENSOURCE);
305    if (input->archMinor!=UINT32_MAX)
306        amdGpuArchValues.minor = input->archMinor;
307    if (input->archStepping!=UINT32_MAX)
308        amdGpuArchValues.stepping = input->archStepping;
309   
310    const char* comment = "CLRX ROCmBinGenerator " CLRX_VERSION;
311    uint32_t commentSize = ::strlen(comment);
312    if (input->comment!=nullptr)
313    {
314        // if comment, store comment section
315        comment = input->comment;
316        commentSize = input->commentSize;
317        if (commentSize==0)
318            commentSize = ::strlen(comment);
319    }
320   
321    ElfBinaryGen64 elfBinGen64({ 0U, 0U, 0x40, 0, ET_DYN,
322            0xe0, EV_CURRENT, UINT_MAX, 0, input->eflags },
323            true, true, true, PHREGION_FILESTART);
324    // add symbols (kernels, function kernels and data symbols)
325    elfBinGen64.addSymbol(ElfSymbol64("_DYNAMIC", 5,
326                  ELF64_ST_INFO(STB_LOCAL, STT_NOTYPE), STV_HIDDEN, true, 0, 0));
327    for (const ROCmSymbolInput& symbol: input->symbols)
328    {
329        ElfSymbol64 elfsym;
330        switch (symbol.type)
331        {
332            case ROCmRegionType::KERNEL:
333                elfsym = ElfSymbol64(symbol.symbolName.c_str(), 4,
334                      ELF64_ST_INFO(STB_GLOBAL, STT_GNU_IFUNC), 0, true,
335                      symbol.offset, symbol.size);
336                break;
337            case ROCmRegionType::FKERNEL:
338                elfsym = ElfSymbol64(symbol.symbolName.c_str(), 4,
339                      ELF64_ST_INFO(STB_GLOBAL, STT_FUNC), 0, true,
340                      symbol.offset, symbol.size);
341                break;
342            case ROCmRegionType::DATA:
343                elfsym = ElfSymbol64(symbol.symbolName.c_str(), 4,
344                      ELF64_ST_INFO(STB_GLOBAL, STT_OBJECT), 0, true,
345                      symbol.offset, symbol.size);
346                break;
347            default:
348                break;
349        }
350        // add to symbols and dynamic symbols table
351        elfBinGen64.addSymbol(elfsym);
352        elfBinGen64.addDynSymbol(elfsym);
353    }
354   
355    static const int32_t dynTags[] = {
356        DT_SYMTAB, DT_SYMENT, DT_STRTAB, DT_STRSZ, DT_HASH };
357    elfBinGen64.addDynamics(sizeof(dynTags)/sizeof(int32_t), dynTags);
358    // elf program headers
359    elfBinGen64.addProgramHeader({ PT_PHDR, PF_R, 0, 1,
360                    true, Elf64Types::nobase, Elf64Types::nobase, 0 });
361    elfBinGen64.addProgramHeader({ PT_LOAD, PF_R, PHREGION_FILESTART, 4,
362                    true, Elf64Types::nobase, Elf64Types::nobase, 0, 0x1000 });
363    elfBinGen64.addProgramHeader({ PT_LOAD, PF_R|PF_X, 4, 1,
364                    true, Elf64Types::nobase, Elf64Types::nobase, 0 });
365    elfBinGen64.addProgramHeader({ PT_LOAD, PF_R|PF_W, 5, 1,
366                    true, Elf64Types::nobase, Elf64Types::nobase, 0 });
367    elfBinGen64.addProgramHeader({ PT_DYNAMIC, PF_R|PF_W, 5, 1,
368                    true, Elf64Types::nobase, Elf64Types::nobase, 0, 8 });
369    elfBinGen64.addProgramHeader({ PT_GNU_RELRO, PF_R, 5, 1,
370                    true, Elf64Types::nobase, Elf64Types::nobase, 0, 1 });
371    elfBinGen64.addProgramHeader({ PT_GNU_STACK, PF_R|PF_W, PHREGION_FILESTART, 0,
372                    true, 0, 0, 0 });
373   
374    // elf notes
375    elfBinGen64.addNote({"AMD", sizeof noteDescType1, noteDescType1, 1U});
376    std::unique_ptr<cxbyte[]> noteBuf(new cxbyte[0x1b]);
377    ::memcpy(noteBuf.get(), noteDescType3, 0x1b);
378    SULEV(*(uint32_t*)(noteBuf.get()+4), amdGpuArchValues.major);
379    SULEV(*(uint32_t*)(noteBuf.get()+8), amdGpuArchValues.minor);
380    SULEV(*(uint32_t*)(noteBuf.get()+12), amdGpuArchValues.stepping);
381    elfBinGen64.addNote({"AMD", 0x1b, noteBuf.get(), 3U});
382    if (!input->target.empty())
383        elfBinGen64.addNote({"AMD", input->target.size(),
384                (const cxbyte*)input->target.c_str(), 0xbU});
385    if (input->metadataSize != 0)
386        elfBinGen64.addNote({"AMD", input->metadataSize,
387                (const cxbyte*)input->metadata, 0xaU});
388   
389    /// region and sections
390    elfBinGen64.addRegion(ElfRegion64::programHeaderTable());
391    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 8,
392                ".dynsym", SHT_DYNSYM, SHF_ALLOC, 0, 1, Elf64Types::nobase));
393    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 4,
394                ".hash", SHT_HASH, SHF_ALLOC, 1, 0, Elf64Types::nobase));
395    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 1, ".dynstr", SHT_STRTAB,
396                SHF_ALLOC, 0, 0, Elf64Types::nobase));
397    // '.text' with alignment=4096
398    elfBinGen64.addRegion(ElfRegion64(input->codeSize, (const cxbyte*)input->code, 
399              0x1000, ".text", SHT_PROGBITS, SHF_ALLOC|SHF_EXECINSTR, 0, 0,
400              Elf64Types::nobase, 0, false, 256));
401    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 0x1000,
402                ".dynamic", SHT_DYNAMIC, SHF_ALLOC|SHF_WRITE, 3, 0,
403                Elf64Types::nobase, 0, false, 8));
404    elfBinGen64.addRegion(ElfRegion64::noteSection());
405    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 1,
406                ".AMDGPU.config", SHT_PROGBITS, 0));
407    elfBinGen64.addRegion(ElfRegion64(commentSize, (const cxbyte*)comment, 1, ".comment",
408              SHT_PROGBITS, SHF_MERGE|SHF_STRINGS, 0, 0, 0, 1));
409    elfBinGen64.addRegion(ElfRegion64(0, (const cxbyte*)nullptr, 8,
410                ".symtab", SHT_SYMTAB, 0, 0, 1));
411    elfBinGen64.addRegion(ElfRegion64::shstrtabSection());
412    elfBinGen64.addRegion(ElfRegion64::strtabSection());
413    elfBinGen64.addRegion(ElfRegion64::sectionHeaderTable());
414   
415    /* extra sections */
416    for (const BinSection& section: input->extraSections)
417        elfBinGen64.addRegion(ElfRegion64(section, mainBuiltinSectionTable,
418                         ROCMSECTID_MAX, 12));
419    /* extra symbols */
420    for (const BinSymbol& symbol: input->extraSymbols)
421        elfBinGen64.addSymbol(ElfSymbol64(symbol, mainBuiltinSectionTable,
422                         ROCMSECTID_MAX, 12));
423   
424    size_t binarySize = elfBinGen64.countSize();
425    /****
426     * prepare for write binary to output
427     ****/
428    std::unique_ptr<std::ostream> outStreamHolder;
429    std::ostream* os = nullptr;
430    if (aPtr != nullptr)
431    {
432        aPtr->resize(binarySize);
433        outStreamHolder.reset(
434                new ArrayOStream(binarySize, reinterpret_cast<char*>(aPtr->data())));
435        os = outStreamHolder.get();
436    }
437    else if (vPtr != nullptr)
438    {
439        vPtr->resize(binarySize);
440        outStreamHolder.reset(new VectorOStream(*vPtr));
441        os = outStreamHolder.get();
442    }
443    else // from argument
444        os = osPtr;
445   
446    const std::ios::iostate oldExceptions = os->exceptions();
447    try
448    {
449    os->exceptions(std::ios::failbit | std::ios::badbit);
450    /****
451     * write binary to output
452     ****/
453    FastOutputBuffer bos(256, *os);
454    elfBinGen64.generate(bos);
455    assert(bos.getWritten() == binarySize);
456    }
457    catch(...)
458    {
459        os->exceptions(oldExceptions);
460        throw;
461    }
462    os->exceptions(oldExceptions);
463}
464
465void ROCmBinGenerator::generate(Array<cxbyte>& array) const
466{
467    generateInternal(nullptr, nullptr, &array);
468}
469
470void ROCmBinGenerator::generate(std::ostream& os) const
471{
472    generateInternal(&os, nullptr, nullptr);
473}
474
475void ROCmBinGenerator::generate(std::vector<char>& v) const
476{
477    generateInternal(nullptr, &v, nullptr);
478}
Note: See TracBrowser for help on using the repository browser.