分類: 專利與技術創新

技術創新驅動全球經濟發展,專利則是保護與變現技術的重要工具。我們深入分析人工智慧、半導體、生技、綠能等前沿技術的專利戰略與企業佈局,助力企業掌握技術競爭優勢。

  • DeepSeek 專利權利項揭露

    在人工智慧(AI)領域,專利權利項的撰寫至關重要,直接影響技術的保護範圍與法律效力。近期,AI初創企業DeepSeek在專利申請方面的動向引起了廣泛關注。他們一方面開源大型語言模型(LLM),另一方面積極申請專利,這種策略引發了業界對於AI技術保護與開放之間平衡的討論。

    本文將揭露 DeepSeek 的專利權利項,瞭解其權利範圍界定,思考如何保護核心技術並促進商業應用。

    DeepSeek 專利權利項

    1.一種人工智能模型訓練數據集的構建方法,其特徵在於包括以下步驟:

    1)將數據集劃分為若干大小相同的數據序列;
    2)以數據序列為單位建立索引;
    3)根據需求比例在數據集中抽取樣本數據;
    4)將樣本數據以數據序列為單位混合併隨機打亂;
    5)將打亂後的樣本數據進行均勻切分得到若干個數據塊,每個數據塊包含若干個完整的數據序列;
    6)在每一步模型訓練的數據輸入時,通過索引批量讀取相應數據塊作為該步驟的模型訓練數據。

    2.根據權利要求1所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,如果採用自行獲取的數據構建數據集,需要在步驟1)之前對獲取數據進行數據清潔以及tokenize的步驟。

    3.根據權利要求2所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,所述數據清潔包括原始數據的智能抽取、按行去重、哈希去重、規則過濾等步驟。

    4.根據權利要求1‑3所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,所述tokenize的步驟包括:長文本分解為最小單位的token,然後將token轉化為向量的數據結構。

    5.根據權利要求1‑4任一所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,所述數據序列為一維數組,包括N個連續token。

    6.根據權利要求1‑5任一所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,步驟2)中所述索引為一維數組[index 1,index2,index 3,…,index i],index i代表第i個數據序列的第一個token的下標,所述下標為第i個數據序列中第一個token存儲位置的偏移量。

    7.根據權利要求1‑6所述的一種人工智能模型訓練數據集的構建方法,其特徵在於步驟3)‑步驟6)中的樣本抽取、隨機打亂、樣本數據切分等數據操作均以數據序列為單位,通過索引進行操作,不實際修改存儲單元中的數據。

    8.根據權利要求1‑7所述的一種人工智能模型訓練數據集的構建方法,其特徵在於,所述批量讀取通過異步IO實現。

    9.一種終端裝置,其特徵在於包括:至少一個處理器和存儲器;存儲器,用於存儲程序指令;處理器,用於調用並執行存儲器中存儲的程序指令,以使所述終端裝置執行權利要求1‑8所述的人工智能模型訓練數據集的構建方法。

    10.一種計算機可讀存儲介質,其特徵在於,計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得所述計算機執行權利要求1‑8所述的人工智能模型訓練數據集的構建方法。

    詳細專利資訊(限會員)