試驗設計 (Design of experiment) 在遇到不容易澄清的問題時是一個很好用的工具。ODM 業界在產品研發階段比較常見到的解決方式是 trial & error,把可能原因列出後以 troubleshooting 的方式一個一個排除,尋得最可能的根因。

為了節省時間,大多數的研發人員會選擇 trial & error 的方式先進行,因為 80% 的問題都是比較簡單的單一問題,只要射中點就可以顯著甚至完全改善問題。所以 DOE 的應用比例相對少很多,尤其是問題相對複雜時,DOE 還必須搭配 ANOVA 分析才能知道貢獻度最大根因在哪裡。

由於使用的機會少,造成研發人員在進行 DOE 時常常忘了要去記錄失效數據,以致於實驗完成必須總結時沒有數據可以分析。

 

 ─ DOE ─  提高效率的實驗方式 

DOE 是一種利用最為優化的方法安排試驗的內容並且分析實驗數據。
它能應用到的範圍其實很廣,包括了生產流程的設備參數、工藝方式、原料或配方選用,提高產品的品質或產量,縮短產品開發時程或是解決難以解決的品質問題。

會用到 DOE 基本上都是比較複雜的問題,因此 DOE 的過程往往比想像中冗長一點,而且很少有 trial & error 那種一擊中的的感覺。Troubleshooting 的解決方式簡單扼要,但如果要提高效率,經驗是不可或缺的。同樣一個問題在做 troubleshooting,經驗豐富的人絕對比缺乏經驗的人快太多。
然而有些問題是沒有經驗過的,當遇到這樣的問題時就會發現 DOE 的效率。

在我經驗過的 DOE 最常遇到的幾個問題就是實驗設計不良造成花費的時間過長;然後又因為花費時間太長卻還沒有進一步結論而心急,之後開始進行一些天馬行空的測試,例如改變測試條件和手法,甚至有可能突然決定暫停 DOE 換一個方向進行。


天馬行空並不是不好,尤其是針對難解的問題,有時天馬行空反而是必要的,只是它必須經過有系統的整理。這基本上就跟 brianstroming 一樣,在沒系統化精簡前不應該給予任何的批評。


要有效進行 DOE 必須掌握三大原則,重複性、隨機性、區塊化。

重覆性 - 實驗的重覆進行,並且條件及手法是具有再現性的
隨機性 - 指實驗材料的分配、個體和次序都必須是隨機化的。因為問題複雜到要進行 DOE 及 ANOVA 分析,就要依循統計原則,觀察必須是獨立變數。
區塊化 - 這是一種安排實驗的方式,提高測試的速度和精確性。區塊內的性質應該要比起實驗材料的整體更有相似性。

重覆性和隨機性講的都是測試的手法條件和採樣方式,區塊化才是 DOE 能提供高效率進行問題釐清的關鍵。依照這個大原則安排的實驗計劃可以讓研發人員比較快速確定目標,並且讓結果可以進行有效分析。

曾經遇過一個 PAD 型式的產品在設計驗證的實驗中發現,此產品一旦進行短距離的落摔衝擊實驗就會有機率造成系統關機的問題。
這個測試是產品在 10 個不同的方向以 100mm 的高度分別落摔 100次,總共 1000 次的測試。
經過數據分析後,確認系統關機的問題並非連續落摔累積傷害而造成失效,每一次的問題發生機率都是互相獨立的。

由於經過了 8 小時的分析和 trial & error 都沒有結果,與設計人員討論後決定進行 DOE。
這個問題是衝擊造成的,利用因果分析和控製圖把可能的因素列為七大項。

七大可能因素

這些 FPC 和 cable 會被列入可能因素的原因在於當時使用的都是超小尺寸但 pin 數極多的設計,十分有可能在衝擊中產生微量的位移致使短路。

當時我人正在喪假期間忙著處理父親的後事,在電話中討論得知團隊成員已經和工程師設計了七個 DOE 計劃並進行了其中四項,但一點進展都沒有,無論是機構、電源或EE成員都一愁莫展,團隊成員已經在思考其它的可能性。

當時DOE的計劃和結果詳列如下:

1. 固定 LVDS cable 避免 pin 腳短路 - 無效
2. 移除 LVDS cable 以及之後所有元件 - 無效
3. 移除可能觸動 switch 的結構件 - 無效
4. 固定 dock FPC - 無效
5. 解開 dock connector 上的金屬固定結構以確認是否有短路可能
6. 更換主板
7. 移除主板和電池之外的所有元件

老實說,當下聽到這樣的 DOE 讓我有點吃驚,畢竟像這樣的測試計劃基本上還是 trial & error 的故障排除概念。在這七項的測試計劃中可以看出整個測試精神是從可能的幾個因素逐項進行測試,然後看是否能在某個點上解決這個問題。

但是這七個被歸納出的可能因素是既有方向,歷經了工程人員八個小時的分析後仍無對策的肇因有兩個:可能原因在大家都沒分析到的部件上,或者是問題來自兩個以上的原因互相影響,使整個分析過程無法那麼快被收斂。如果再把 DOE 做成跟 troubleshooting 一樣的概念,那只是在重覆之前八個小時做同樣的事情,可能很難有什麼進展。

所以要進行較有效的 DOE,把測試計劃區塊化會比較好。

建議的區塊化 DOE

因為這個產品不接DC電源就無法啟動,所以battery pack 本身被區塊化 (A) 成一個測試部份。
另外兩個部份則被區分為無法拆卸任何元件的主板
(B) 和主板外其它可能的電源關閉或短路因素 (C)

之前的DOE 1~4 項其實已經測試了關於 (C) 的區塊,只是當時設計人員只把結果分為有效和無效兩種結果。還好團隊成員裡有一個做事十分謹慎仔細的人,他順手把當時發生失效的間隔次數給記錄下來,省了不少時間。

 

 ─ ANOVA ─  數組資料間的變異數分析 

請團隊成員跟設計人員合作再把區塊 (A) (B) 的測試完成,整合之前 DOE 1~4 的結果可以得到如下的數據。

區塊化 DOE 失效次數數據

 

再將這個數據做個整理,把發生失效的間隔整理出來。

區塊化 DOE 失效間隔數據

接下來的工作就是進行 ANOVA 分析。
ANOVA 即是方差分析或變異數分析, analysis of variance,跟 F-test 有點類似。
F-test 主要在比較兩個抽樣之間的變異數是否有顯著的差異,而 ANOVA 則是在兩組或以上的抽樣間去比較每一組抽樣的結果與所有樣本平均值的離散性。
用圖形來表示,就是像下面這樣。

ANOVA比較各組與平均值間的離散性

組間的差異很小

組間的差異很大

因此現在要用ANOVA來分析各區塊間的測試結果是否有顯著的差異存在。利用excel的「資料分析」/「單因子變異數分析」來比較失效間隔的數據 (顯著水準為 5%)。

One-way ANOVA (excel)

分析結果 F 統計量為 2.97 大於臨介值 F0.05, 6,40 = 2.34,表示組間有顯著差異存在。
但究竟是哪幾組有顯著差異則必須再進行兩兩比較。使用最小顯著差異法 (minimum significant difference, MSD) 或杜凱法 (Tukey method) 來進行多重比較。
MSD 是計算各組間的平均數差異是否大於最小顯著值 (MSD)

Q = Tukey值,可查杜凱表
k = 比較組數 = 7
n = 總抽樣數

當各組抽樣數不相等時


計算可得 MSD = 7.34。

Excel 的功能十分親切,已經把各組的平均值列出來了,直接比較就可以知道組 2~7 之間並沒有特殊差異,唯有組 1 和 4 之間有顯著的差異存在。如果用圖來示意各組間的離散性,大概會是下面這樣。

離散性示意圖

 

 思考邏輯及實驗再現性 

從 ANOVA 和 MSD 的結果只能判讀出組1 & 4 有顯著差異,那麼究竟是 PCBA-2 還是 battery pack 造成影響?

如果我們再做ANOVA測試,把 battery-L 拿掉,可以看到 F 統計值顯示無顯著差異,但如果把 PCBA-2 拿掉而把 battery-L 放回去,ANOVA 分析就會顯示出顯著差異。

ANOVA 分析 (無 battery-L)

ANOVA 分析 (無 PCBA-2)

從兩個分析結果可以看出 battery-L 對結果差顯有很大的貢獻。

在這個產品的系統運作中,battery pack 提供的DC電源是不可或缺的,如果切斷 DC 電源系統就無法開啟。
如果真的問題是出在 battery pack 上,而且所有的 battery pack 都有這個問題,那就不難明暸為什麼接 D 牌電池得到的結果和 L 牌電池得到的結果無法顯示出顯著差異,因為把組 1 & 2 做 F test 的結果會發現二者間的變異數並沒有太顯著差異。

因此選擇從 battery pack 著手進行分析。

將這個分析和研發人員討論後,找來電池廠商協助進一步分析。根據廠商提出的說明,在可靠度測試中會造成的斷電保護裝置應該是過電流保護 (OCP) 、過載保護 (OVP) 及過溫保護 (OTP) 三種,然而三種都不太可能在衝擊實驗中啟動。

不過我們別忘了一件事,過溫保護裝置的設計是利用複合材料兩側的膨脹系數不同,在高溫時系數大的變形較大,逼使保護裝置變形而接觸形成通路,所以OTP 的設計長相都有點會像翹翹板。
將這個思路和廠商討論後,對方也認為確實有可能在衝擊時 OTP 因晃動而接觸使電池斷路。

和設計人員合作在 OTP 附近加上緩衝材質後,失效狀況確實被解決,確認 DOE 的結果與再現性吻合。

文章標籤
創作者介紹

生活的希格斯實驗室

Yashi Yang 發表在 痞客邦 PIXNET 留言(0) 人氣()