[問題] IEEE 754 浮點數運算以及rounding請益

看板C_and_CPP (C/C++)作者ayn775437403 (@@@@@@@@@@@@@@@@@@@)時間5年前 (2020/05/31 14:12)推噓11(11推 0噓 16→)

留言27則, 4人參與討論串1/1

大家好小弟目前在修系上計算機方面的課程老師希望我們寫出一個浮點數的運算單元, 然後以IEEE 754 單精度浮點數為標準,rounding方式是round to nearest even 而老師給的測資都是標準二進位浮點數的格式了,不用自己再轉為IEEE 754浮點數即輸入會像是這樣: 0 10010011 0000 0000 0000 0000 1111 111 | |------| |--------------------------| sign exponent mantissa 而我在寫之前想要先確定一下自己觀念對不對不然到時候觀念不對怕浪費太多時間改程式所以想要問一個運算的問題: (以IEEE 754 單精度浮點數為例 ,即1個sign bit,8個 exponent bit,23個mantissabit) 兩個浮點數在算加減法的時候，exponent小的mantissa要對齊exponent大的mantissa 也就是要看兩個浮點數的exponent差距多少來看mantissa要移位多少那如果exponent小的那個的mantissa在移位過後超過mantissa所能表示的範圍要把超過範圍的那幾個bit一起算，還是要捨去呢? 舉例來說我要算兩個浮點數相減第一個數: 0 10010011 0000 0000 0000 0000 1111 111 | |------| |--------------------------| sign exponent mantissa 第二個數: 1 10001110 0000 0000 0000 0111 1111 111 | |------| |--------------------------| sign exponent mantissa 第一個數的exponent換成十進位是147，第二個數的exponent換成十進位是142 而147-127(bias)=20,142-127=15 所以事實上上面兩個數可以變為: 第一個數: 1.0000 0000 0000 0000 1111 111 * 2^20 第二個數: -1.0000 0000 0000 0111 1111 111 * 2^15 因為第二個數比第一個數的次方少五,所以要右移5個bit 那麼問題來了，移完之後是會變成 (一)所有bit都保留,因此共要28bit表示mantissa -0.0000 1000 0000 0000 0011 1111 1111 *(2^20) |----| 這五個bit超過23bit (二)超過23bit之後直接砍掉,因此滿足23bit表示mantissa -0.0000 1000 0000 0000 0011 111 *(2^20) (三)加入round,guard,sticky三個bit去考慮,因此用25bit表示mantissa -0.0000 1000 0000 0000 0011 1111 1 且設S=1(因為砍掉後面三個1) | | G R 是上面(一)、(二)、(三)的哪一種呢? 因為這三種不同的移位方式會造成最後運算答案都不一樣，所以我想IEEE 754應該會有明確的規範。我個人是比較傾向於第(三)種，因為如果是第(一)種的話，兩個浮點數若exponent差太多那就要保存一大堆數字，像是兩數的exponent如果差了一百那小的exponent很可能就要保存一百個0外加原本的23個mantissa 等於要保存123個bit，以硬體的角度而言應該是不會這樣設計? 還請各位替我解答一下老師上課浮點數就只是帶過然後就要我們一周寫出來實在是有點頭痛Orz 感謝各位! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.137.74 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_and_CPP/M.1590905575.A.34F.html

推