分 K 資料整理、補正

在資料分析的過程中,確認資料的正確性絕對是資料分析的第一個步驟。策略無限所使用的資料來源是向台灣期貨交易所購買的 Tick 資料,所以在資料的正確性是無虞的。不過在分析時使用 Tick 等級的資料的計算量過於龐大且費時,所以在初期時傾向使用分 K 資料,但是實際的資料還是會存在著許多特別的狀況,在這裡介紹資料的實際狀況與小編自行進行的補正方法,避免建立模型時產生錯誤。

交易時間歷史變動:
歷史的期貨交易時間、到期日經歷過幾次政策的變動,導致交易資料的維度不一致。

  • 交易時間

    (1) 1987-07-21 ~ 2000-12-30:週一至週六,上午09:00至下午12:15
    (2) 2001-01-02 ~ 現今:週一至週五,上午08:45至下午13:45

  • 到期日( 結算日 )

    (1) 1987-07-21 ~ 2001-12-30:每月第三個星期三,上午09:00至下午12:15
    (2) 2001-01-02 ~ 2008-11-30:每月第三個星期三,上午08:45至下午13:45
    (3) 2008-12-01 ~ 現今:每月第三個星期三,上午8:45至下午13:30

缺失資料:

資料會因為某些特別原因導致缺少某部分時間的交易資料,下列歸納三個發生缺失資料的原因。

  • 交易規則

自從政府公告 2001-01-02 每日交易時間改為  08:45 ~ 13:45 後,小編發現2001-01-02 ~ 2007-10-05 每天最後 5 分鐘沒有交易資料,從 13:40 ~ 13:45 期間的交易資料似乎會被計算到 13:45,直到目前沒有找到任何相關的訊息導致這個狀況,合理猜測 2007-10-06 後更改交易規則,或更改交易系統,導致這個狀況發生。

  • 漲跌停

期貨交易也有所謂的漲停板、跌停板,從 1989 年開始 7% 漲跌幅度的限制,及 2015-06-01 後的 10% 漲跌幅度的限制。漲跌停會導致缺少該時間的資料,下列出歷史漲跌停相關資料。
    (1) 2004-03-22: 319 槍擊案後跌停
    (2) 2008-01-22: 跌停
    (3) 2008-09-19: 漲停
    (4) 2008-10-16, 2008-10-24, 2008-10-30: 金融海嘯導致漲停、跌停
    (5) 2009-04-30, 2009-05-04: 宣布開放陸資來台漲停

  • 交易系統故障

台灣期貨交易所的系統故障,或網路不穩導致缺少該時間的交易資料。

    (1) 2013-07-12: 下午 13:21~13:42 期貨交易當機,導致無法順利平倉
    (2) 2006-05-09: 主機硬碟故障,延至10:20才開盤,當機逾1小時創最久紀錄
    (3) 2004-07-08: 早盤8:39,因期貨委託單大增,造成大塞單,無法交易與撮合,歷時近40分
    (4) 2004-03-15: 下午13:05,期貨商反映交易系統委託遲緩,歷時30分鐘
    (5) 2003-04-04: 中午12:44,發現檢核程式逾時,無法輸入委託單,約10分鐘解決
    (6) 2002-10-21: 中午12:46,發生部分期貨商無法委託下單,歷時近半小時

資料補正:

因為要建立模型的需要,所以小編需要制定統一的格式使得每天的資料維度是固定的,所以在這裡擷取 2001-01-02 之後的資料做資料的處理。

  • 固定資料維度

從 2001-01-02 開始至現今,每日的交易時間為 08:45 ~ 13:45 ( 結算日除外 ),所以每日有交易的分鐘數為 300 分鐘。每分 K 的計算,以 08:45 這個分 K 為例,計算 08:45:00 ~08:45:59 時間區間的交易資料的 OCHL ( Open, Close, High, Low)。

  • 交易最後一瞬

在實際的交易資料中,大概會有 1/3 的天數存在 13:45:00 這筆交易資料,導致每日的分 K 的計算偶爾會出現第 301 筆,小編認為交易的最後一瞬間計算成一個獨立的分 K 並不合理,所以如果當天有 13:45:00 將會併入 13:44:00 ~13:44:59 這個區間計算交易資料的 OCHL。

  • 缺失資料處理

為了在建立模型上的方便,將資料每日的交易分鐘數固定在 300 筆,有助於模型較不容易出錯,所以在面對缺失資料,小編會將有缺少交易的分鐘使用上一筆有實際交易的分 K 的收盤價 ( Close ) 補上。

結論

在現實的生活中會發生各種想像不到的狀況,像是交易系統壞掉,或事件發生引發漲跌停,使得資料產生特別的狀況,如果要建立模型的話,建議依照情況適當的修正、篩選資料,會有助模型的正確性。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s